จีโนมิกส์เชิงคำนวณ

Q: ข้อมูลสำคัญเกี่ยวกับ จีโนมิกส์เชิงคำนวณ

จีโนมิกส์เชิงคำนวณหมายถึงการใช้การวิเคราะห์เชิงคำนวณและสถิติเพื่อถอดรหัสชีววิทยาจากลำดับจีโนมและข้อมูลที่เกี่ยวข้องรวมถึง ลำดับ DNAและRNAตลอดจนข้อมูล "หลังจีโนม" อื่นๆ (เช่น

Q: ผลงานของการวิจัยจีโนมิกส์เชิงคำนวณที่มีต่อชีววิทยา

ผลงานการวิจัยจีโนมิกส์เชิงคำนวณที่มีต่อชีววิทยา ได้แก่: [ 2 ]

จีโนมิกส์เชิงคำนวณหมายถึงการใช้การวิเคราะห์เชิงคำนวณและสถิติเพื่อถอดรหัสชีววิทยาจากลำดับจีโนมและข้อมูลที่เกี่ยวข้อง^{[ 1 ]}รวมถึง ลำดับ DNAและRNAตลอดจนข้อมูล "หลังจีโนม" อื่นๆ (เช่น ข้อมูลการทดลองที่ได้จากเทคโนโลยีที่ต้องใช้ลำดับจีโนม เช่นไมโครอาร์เรย์ DNA จีโนม ) สิ่งเหล่านี้ เมื่อรวมกับวิธีการเชิงคำนวณและสถิติเพื่อทำความเข้าใจการทำงานของยีนและการวิเคราะห์ความสัมพันธ์ทางสถิติ สาขานี้จึงมักถูกเรียกว่าพันธุศาสตร์/จีโนมิกส์เชิงคำนวณและสถิติ ดังนั้น จีโนมิกส์เชิงคำนวณจึงอาจถือได้ว่าเป็นส่วนย่อยของชีวสารสนเทศและชีววิทยาเชิงคำนวณแต่เน้นการใช้จีโนมทั้งหมด (แทนที่จะเป็นยีนแต่ละตัว) เพื่อทำความเข้าใจหลักการว่า DNA ของสิ่งมีชีวิตควบคุมชีววิทยาในระดับโมเลกุลและเหนือกว่าอย่างไร ด้วยชุดข้อมูลทางชีววิทยาจำนวนมหาศาลในปัจจุบัน การศึกษาเชิงคำนวณจึงกลายเป็นหนึ่งในวิธีการที่สำคัญที่สุดในการค้นพบทางชีววิทยา^{[ 2 ]}

ประวัติศาสตร์

รากฐานของจีโนมิกส์เชิงคำนวณนั้นมีความคล้ายคลึงกับชีวสารสนเทศในช่วงทศวรรษ 1960 มาร์กาเร็ต เดย์ฮอฟฟ์และคนอื่นๆ ที่มูลนิธิวิจัยชีวการแพทย์แห่งชาติได้รวบรวมฐานข้อมูลลำดับโปรตีนที่คล้ายคลึงกันสำหรับการศึกษาเชิงวิวัฒนาการ^{[ 3 ]} งานวิจัยของพวกเขาได้พัฒนาแผนภูมิวิวัฒนาการที่กำหนดการเปลี่ยนแปลงเชิงวิวัฒนาการที่จำเป็นสำหรับโปรตีนเฉพาะที่จะเปลี่ยนไปเป็นโปรตีนอื่นโดยอิงจาก ลำดับ กรดอะมิโน พื้นฐาน สิ่งนี้ทำให้พวกเขาสร้างเมทริกซ์การให้คะแนนที่ประเมินความน่าจะเป็นที่โปรตีนหนึ่งจะมีความสัมพันธ์กับโปรตีนอื่น

ตั้งแต่ช่วงทศวรรษ 1980 เป็นต้นมา ฐานข้อมูลลำดับจีโนมเริ่มถูกบันทึก แต่สิ่งนี้ก่อให้เกิดความท้าทายใหม่ในรูปแบบของการค้นหาและเปรียบเทียบฐานข้อมูลข้อมูลยีน ซึ่งแตกต่างจากอัลกอริธึมการค้นหาข้อความที่ใช้ในเว็บไซต์ต่างๆ เช่น Google หรือ Wikipedia การค้นหาส่วนที่มีความคล้ายคลึงทางพันธุกรรมจำเป็นต้องค้นหาสตริงที่ไม่เหมือนกันทุกประการ แต่ต้องมีความคล้ายคลึงกันด้วย สิ่งนี้จึงนำไปสู่การพัฒนาอัลกอริธึม Needleman-Wunschซึ่งเป็น อัลกอริธึม การเขียนโปรแกรมแบบไดนามิกสำหรับการเปรียบเทียบชุดลำดับกรดอะมิโนเข้าด้วยกันโดยใช้เมทริกซ์การให้คะแนนที่ได้มาจากการวิจัยก่อนหน้านี้ของ Dayhoff ต่อมาได้ มีการพัฒนาอัลกอริธึม BLASTเพื่อทำการค้นหาฐานข้อมูลลำดับยีนอย่างรวดเร็วและมีประสิทธิภาพ BLAST และอนุพันธ์ของมันน่าจะเป็นอัลกอริธึมที่ใช้กันอย่างแพร่หลายที่สุดสำหรับวัตถุประสงค์นี้^{[ 4 ]}

วลี "จีโนมิกส์เชิงคำนวณ" ปรากฏขึ้นพร้อมกับการมีจีโนมที่เรียงลำดับอย่างสมบูรณ์ในช่วงกลางถึงปลายทศวรรษ 1990 การประชุมประจำปีว่าด้วยจีโนมิกส์เชิงคำนวณครั้งแรกจัดขึ้นโดยนักวิทยาศาสตร์จากสถาบันวิจัยจีโนมิกส์ (TIGR) ในปี 1998 ซึ่งเป็นเวทีสำหรับสาขาเฉพาะทางนี้และแยกแยะสาขาวิทยาศาสตร์นี้ออกจากสาขาจีโนมิกส์หรือชีววิทยาเชิงคำนวณ ทั่วไปได้อย่างมีประสิทธิภาพ การใช้คำนี้ครั้งแรกในวรรณกรรมทางวิทยาศาสตร์ ตาม บทคัดย่อ ของ MEDLINEเกิดขึ้นเพียงหนึ่งปีก่อนหน้านั้นใน วารสาร Nucleic Acids Research [ ^{5 ] การ} ประชุมจีโนมิกส์เชิงคำนวณครั้งสุดท้ายจัดขึ้นในปี 2006 โดยมีปาฐกถาพิเศษโดยแบร์รี มาร์แชลล์ ผู้ได้รับรางวัลโนเบล ผู้ร่วมค้นพบความเชื่อมโยงระหว่างHelicobacter pyloriกับแผลในกระเพาะอาหาร ณ ปี 2014 การประชุมวิชาการชั้นนำในสาขานี้ ได้แก่Intelligent Systems for Molecular Biology (ISMB) และResearch in Computational Molecular Biology (RECOMB)

การพัฒนาคณิตศาสตร์ที่ใช้คอมพิวเตอร์ช่วย (โดยใช้ผลิตภัณฑ์เช่นMathematicaหรือMatlab ) ช่วยให้วิศวกร นักคณิตศาสตร์ และนักวิทยาศาสตร์คอมพิวเตอร์เริ่มดำเนินการในโดเมนนี้ และมีการรวบรวมกรณีศึกษาและการสาธิตสาธารณะเพิ่มมากขึ้น ตั้งแต่การเปรียบเทียบจีโนมทั้งหมดไปจนถึงการวิเคราะห์การแสดงออกของยีน^{[ 6 ]}สิ่งนี้ทำให้มีการนำแนวคิดที่แตกต่างกันมากขึ้น รวมถึงแนวคิดจากระบบและการควบคุม ทฤษฎีสารสนเทศ การวิเคราะห์สตริง และการขุดข้อมูล คาดว่าวิธีการคำนวณจะกลายเป็นและยังคงเป็นหัวข้อมาตรฐานสำหรับการวิจัยและการสอน ในขณะที่นักเรียนที่เชี่ยวชาญทั้งสองหัวข้อเริ่มได้รับการฝึกฝนในหลักสูตรต่างๆ ที่สร้างขึ้นในช่วงไม่กี่ปีที่ผ่านมา

ผลงานของการวิจัยจีโนมิกส์เชิงคำนวณที่มีต่อชีววิทยา

ผลงานการวิจัยจีโนมิกส์เชิงคำนวณที่มีต่อชีววิทยา ได้แก่: ^{[ 2 ]}

เสนอเครือข่ายการส่งสัญญาณระดับเซลล์
เสนอกลไกการวิวัฒนาการของจีโนม
ทำนายตำแหน่งที่แม่นยำของยีน มนุษย์ทั้งหมด โดยใช้ เทคนิค จีโนมิกส์เชิงเปรียบเทียบกับสัตว์เลี้ยงลูกด้วยนมและสัตว์ มีกระดูกสันหลังหลายชนิด
ทำนาย บริเวณจีโนม ที่ได้รับการอนุรักษ์ซึ่งเกี่ยวข้องกับการพัฒนาตัวอ่อน ในระยะเริ่มต้น
ค้นพบความเชื่อมโยงที่เป็นไปได้ระหว่างลวดลายลำดับซ้ำและ การแสดงออกของยีนเฉพาะเนื้อเยื่อ
วัดบริเวณของจีโนมที่มีวิวัฒนาการอย่างรวดเร็วผิดปกติ

การเปรียบเทียบจีโนม

มีการพัฒนาเครื่องมือคำนวณเพื่อประเมินความคล้ายคลึงกันของลำดับจีโนม บางส่วนเป็น ระยะทางที่อิงตาม การจัดเรียงเช่นAverage Nucleotide Identity [ ^{7 ] วิธี}เหล่านี้มีความเฉพาะเจาะจงสูง ในขณะที่การคำนวณค่อนข้างช้า วิธีอื่นๆ ที่ไม่ต้องใช้การจัดเรียง ได้แก่ วิธีการทางสถิติและความน่าจะเป็น ตัวอย่างหนึ่งคือ Mash ^{[ 8 ]}ซึ่งเป็นวิธีการเชิงความน่าจะเป็นโดยใช้minhashในวิธีนี้ เมื่อกำหนดจำนวน k ลำดับจีโนมจะถูกแปลงเป็นสเก็ตช์ที่สั้นกว่าผ่านฟังก์ชันแฮชแบบ สุ่ม บนk-mer ที่เป็นไปได้ ตัวอย่างเช่น ถ้าสเก็ตช์ขนาด 4 จะถูกสร้างขึ้นและกำหนดฟังก์ชันแฮชต่อไปนี้ $k=2$

(AA,0) (AC,8) (AT,2) (AG,14)
(CA,6) (ซีซี,13) (CT,5) (ซีจี,4)
(GA,15) (GC,12) (GT,10) (GG,1)
(TA,3) (TC,11) (TT,9) (TG,7)

ภาพร่างของลำดับ

CTGACCTTAACGGGAGACTATGATGACGACCGCAT

คือ {0,1,1,2} ซึ่งเป็นค่าแฮชที่เล็กที่สุดของ k-mer ขนาด 2 จากนั้นจะเปรียบเทียบสเก็ตช์เหล่านี้เพื่อประมาณสัดส่วนของ k-mer ที่ใช้ร่วมกัน ( ดัชนี Jaccard ) ของลำดับที่สอดคล้องกัน ควรสังเกตว่าค่าแฮชเป็นเลขฐานสอง ในการตั้งค่าจีโนมจริง ขนาดของ k-mer ที่มีประโยชน์จะอยู่ระหว่าง 14 ถึง 21 และขนาดของสเก็ตช์จะอยู่ที่ประมาณ 1000 ^{[ 8 ]}

ด้วยการลดขนาดของลำดับลง แม้กระทั่งหลายร้อยเท่า และเปรียบเทียบกันโดยไม่ต้องอาศัยการจัดเรียงลำดับ วิธีนี้ช่วยลดเวลาในการประเมินความคล้ายคลึงของลำดับได้อย่างมาก

การจัดกลุ่มข้อมูลจีโนม

การจัดกลุ่มข้อมูลเป็นเครื่องมือที่ใช้ในการทำให้การวิเคราะห์ทางสถิติของตัวอย่างจีโนมง่ายขึ้น ตัวอย่างเช่น ใน^{[ 9 ]}ผู้เขียนได้พัฒนาเครื่องมือ (BiG-SCAPE) เพื่อวิเคราะห์เครือข่ายความคล้ายคลึงของลำดับของกลุ่มยีนสังเคราะห์ทางชีวภาพ (BGC) ใน^{[ 10 ]}มีการใช้การจัดกลุ่มกลุ่มยีนสังเคราะห์ทางชีวภาพหลายชั้นในเครื่องมืออัตโนมัติ BiG-MAP เพื่อกรองข้อมูลที่ซ้ำซ้อนและระบุตระกูลกลุ่มยีน เครื่องมือนี้สร้างโปรไฟล์ความอุดมสมบูรณ์และระดับการแสดงออกของ BGC ในตัวอย่างไมโครไบโอม

กลุ่มยีนชีวสังเคราะห์

เครื่องมือทางชีวสารสนเทศได้รับการพัฒนาขึ้นเพื่อทำนายและกำหนดความอุดมสมบูรณ์และการแสดงออกของกลุ่มยีนประเภทนี้ในตัวอย่างไมโครไบโอมจากข้อมูลเมตาจีโนมิก^{[ 10 ]}เนื่องจากขนาดของข้อมูลเมตาจีโนมิกมีขนาดใหญ่ การกรองและการจัดกลุ่มจึงเป็นส่วนสำคัญของเครื่องมือเหล่านี้ กระบวนการเหล่านี้อาจประกอบด้วยเทคนิคการลดมิติ เช่นMinhash [ ⁸^]และอัลกอริธึมการจัดกลุ่ม เช่นk-medoidsและการแพร่กระจายความสัมพันธ์ นอกจากนี้ยังมีการพัฒนาเมตริกและความคล้ายคลึงกันหลาย ^{อย่าง}เพื่อเปรียบเทียบกัน

การค้นหาคลัสเตอร์ยีนสังเคราะห์ทางชีวภาพ (BGCs) จากจีโนมได้กลายเป็นส่วนสำคัญของการค้นพบผลิตภัณฑ์จากธรรมชาติ จีโนมจุลินทรีย์กว่า 200,000 จีโนมที่เปิดเผยต่อสาธารณะในปัจจุบันมีข้อมูลเกี่ยวกับสารเคมีใหม่ๆ มากมาย วิธีหนึ่งในการสำรวจความหลากหลายทางจีโนมอันมหาศาลนี้คือการวิเคราะห์เปรียบเทียบ BGCs ที่มีความคล้ายคลึงกัน ซึ่งช่วยให้สามารถระบุรูปแบบข้ามสายพันธุ์ที่สามารถจับคู่กับการมีอยู่ของเมตาบอไลต์หรือกิจกรรมทางชีวภาพได้ อย่างไรก็ตาม เครื่องมือในปัจจุบันติดขัดด้วยข้อจำกัดที่เกิดจากวิธีการแบบเครือข่ายที่มีราคาแพงซึ่งใช้ในการจัดกลุ่ม BGCs เหล่านี้เข้าเป็นตระกูลคลัสเตอร์ยีน (GCFs) BiG-SLiCE (Biosynthetic Genes Super-Linear Clustering Engine) เป็นเครื่องมือที่ออกแบบมาเพื่อจัดกลุ่ม BGCs จำนวนมหาศาล โดยการแสดง BGCs เหล่านั้นในพื้นที่แบบยูคลิด BiG-SLiCE สามารถจัดกลุ่ม BGCs เข้าเป็น GCFs ในลักษณะที่ไม่เป็นคู่ๆ และเกือบจะเป็นเส้นตรง

Satria et. al, 2021 ^{[ 11 ]}ทั่ว BiG-SLiCE แสดงให้เห็นถึงประโยชน์ของการวิเคราะห์ดังกล่าวโดยการสร้างแผนที่โลกของความหลากหลายของเมตาบอลิซึมรองข้ามอนุกรมวิธานเพื่อระบุศักยภาพการสังเคราะห์ทางชีวภาพที่ไม่เคยมีการสำรวจมาก่อน เปิดโอกาสใหม่ ๆ ในการเร่งการค้นพบผลิตภัณฑ์จากธรรมชาติ และเป็นก้าวแรกสู่การสร้างเครือข่าย BGC ที่เชื่อมโยงกันทั่วโลกและสามารถค้นหาได้ เมื่อมีการจัดลำดับจีโนมมากขึ้นจากกลุ่มสิ่งมีชีวิตที่ยังไม่ได้รับการศึกษาอย่างเพียงพอ ก็จะสามารถขุดค้นข้อมูลเพิ่มเติมเพื่อเน้นย้ำถึงเคมีใหม่ ๆ ที่อาจเกิดขึ้นได้^{[ 11 ]}

อัลกอริทึมการบีบอัด

อัลกอริทึมการบีบอัดข้อมูลแบบพันธุกรรมเป็นอัลกอริทึมรุ่นล่าสุดที่ไม่สูญเสียข้อมูล ซึ่งบีบอัดข้อมูล (โดยทั่วไปคือลำดับของนิวคลีโอไทด์) โดยใช้ทั้งอัลกอริทึมการบีบอัดแบบดั้งเดิมและอัลกอริทึมทางพันธุกรรมที่ปรับให้เข้ากับชนิดข้อมูลเฉพาะ ในปี 2012 ทีมวิทยาศาสตร์จากมหาวิทยาลัยจอห์นส์ ฮอปกินส์ ได้ตีพิมพ์อัลกอริทึมการบีบอัดข้อมูลแบบพันธุกรรมที่ไม่ใช้จีโนมอ้างอิงสำหรับการบีบอัด HAPZIPPER ถูกปรับแต่งสำหรับ ข้อมูล HapMapและสามารถบีบอัดได้มากกว่า 20 เท่า (ลดขนาดไฟล์ได้ 95%) ให้การบีบอัดที่ดีกว่า 2-4 เท่า และใช้ทรัพยากรการคำนวณน้อยกว่ายูทิลิตี้การบีบอัดทั่วไปชั้นนำ เพื่อการนี้ Chanda, Elhaik และ Bader ได้แนะนำการเข้ารหัสแบบ MAF (MAFE) ซึ่งช่วยลดความแตกต่างของชุดข้อมูลโดยการจัดเรียง SNP ตามความถี่ของอัลลีลรอง ทำให้ชุดข้อมูลมีความเป็นเนื้อเดียวกันมากขึ้น^{[ 12 ]}อัลกอริทึมอื่นๆ ที่พัฒนาขึ้นในปี 2009 และ 2013 (DNAZip และ GenomeZip) มีอัตราส่วนการบีบอัดสูงถึง 1200 เท่า ทำให้สามารถจัดเก็บจีโนมมนุษย์แบบดิพลอยด์ 6 พันล้านเบสแพร์ได้ใน 2.5 เมกะไบต์ (เมื่อเทียบกับจีโนมอ้างอิงหรือเฉลี่ยจากจีโนมหลายๆ จีโนม) ^{[ 13 ]}^{[ 14 ]}สำหรับเกณฑ์มาตรฐานในการบีบอัดข้อมูลทางพันธุศาสตร์/จีโนมิกส์ โปรดดูที่^{[ 15 ]}

ดูเพิ่มเติม

ชีวสารสนเทศ
ชีววิทยาเชิงคำนวณ
โครงการไบโอจีโนมโลก
จีโนมิกส์
ไมโครอาร์เรย์
ระเบิด
เอพิเจเนติกส์เชิงคำนวณ
Nvidia Parabricks - ชุดซอฟต์แวร์ฟรีสำหรับการวิเคราะห์จีโนมพัฒนาโดยNvidia
รายชื่อซอฟต์แวร์เมตาจีโนมิกส์
รายชื่อเครื่องมือบีบอัดข้อมูลการจัดลำดับจีโนมใหม่

ลิงก์ภายนอก

หลักสูตรชีวฟิสิกส์ 101 ของ Harvard Extension School, จีโนมิกส์และชีววิทยาเชิงคำนวณ, http://www.courses.fas.harvard.edu/~bphys101/info/syllabus.html
หลักสูตรจีโนมิกส์เชิงคำนวณ มหาวิทยาลัยบริสตอลhttp://www.computational-genomics.net/

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

5 ] การ

[ 6 ]

7 ] วิธี

[ 9 ]

[ 10 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

(AA,0)	(AC,8)	(AT,2)	(AG,14)
(CA,6)	(ซีซี,13)	(CT,5)	(ซีจี,4)
(GA,15)	(GC,12)	(GT,10)	(GG,1)
(TA,3)	(TC,11)	(TT,9)	(TG,7)