กลับไปหน้าบทความ

อ่าน 5 นาที

จีโนมิกส์เชิงคำนวณ

จีโนมิกส์เชิงคำนวณหมายถึงการใช้การวิเคราะห์เชิงคำนวณและสถิติเพื่อถอดรหัสชีววิทยาจากลำดับจีโนมและข้อมูลที่เกี่ยวข้องรวมถึง ลำดับ DNAและRNAตลอดจนข้อมูล "หลังจีโนม" อื่นๆ (เช่น

จีโนมิกส์เชิงคำนวณ

จีโนมิกส์เชิงคำนวณหมายถึงการใช้การวิเคราะห์เชิงคำนวณและสถิติเพื่อถอดรหัสชีววิทยาจากลำดับจีโนมและข้อมูลที่เกี่ยวข้อง[ 1 ]รวมถึง ลำดับ DNAและRNAตลอดจนข้อมูล "หลังจีโนม" อื่นๆ (เช่น ข้อมูลการทดลองที่ได้จากเทคโนโลยีที่ต้องใช้ลำดับจีโนม เช่นไมโครอาร์เรย์ DNA จีโนม ) สิ่งเหล่านี้ เมื่อรวมกับวิธีการเชิงคำนวณและสถิติเพื่อทำความเข้าใจการทำงานของยีนและการวิเคราะห์ความสัมพันธ์ทางสถิติ สาขานี้จึงมักถูกเรียกว่าพันธุศาสตร์/จีโนมิกส์เชิงคำนวณและสถิติ ดังนั้น จีโนมิกส์เชิงคำนวณจึงอาจถือได้ว่าเป็นส่วนย่อยของชีวสารสนเทศและชีววิทยาเชิงคำนวณแต่เน้นการใช้จีโนมทั้งหมด (แทนที่จะเป็นยีนแต่ละตัว) เพื่อทำความเข้าใจหลักการว่า DNA ของสิ่งมีชีวิตควบคุมชีววิทยาในระดับโมเลกุลและเหนือกว่าอย่างไร ด้วยชุดข้อมูลทางชีววิทยาจำนวนมหาศาลในปัจจุบัน การศึกษาเชิงคำนวณจึงกลายเป็นหนึ่งในวิธีการที่สำคัญที่สุดในการค้นพบทางชีววิทยา[ 2 ]

ประวัติศาสตร์

รากฐานของจีโนมิกส์เชิงคำนวณนั้นมีความคล้ายคลึงกับชีวสารสนเทศในช่วงทศวรรษ 1960 มาร์กาเร็ต เดย์ฮอฟฟ์และคนอื่นๆ ที่มูลนิธิวิจัยชีวการแพทย์แห่งชาติได้รวบรวมฐานข้อมูลลำดับโปรตีนที่คล้ายคลึงกันสำหรับการศึกษาเชิงวิวัฒนาการ[ 3 ] งานวิจัยของพวกเขาได้พัฒนาแผนภูมิวิวัฒนาการที่กำหนดการเปลี่ยนแปลงเชิงวิวัฒนาการที่จำเป็นสำหรับโปรตีนเฉพาะที่จะเปลี่ยนไปเป็นโปรตีนอื่นโดยอิงจาก ลำดับ กรดอะมิโน พื้นฐาน สิ่งนี้ทำให้พวกเขาสร้างเมทริกซ์การให้คะแนนที่ประเมินความน่าจะเป็นที่โปรตีนหนึ่งจะมีความสัมพันธ์กับโปรตีนอื่น

ตั้งแต่ช่วงทศวรรษ 1980 เป็นต้นมา ฐานข้อมูลลำดับจีโนมเริ่มถูกบันทึก แต่สิ่งนี้ก่อให้เกิดความท้าทายใหม่ในรูปแบบของการค้นหาและเปรียบเทียบฐานข้อมูลข้อมูลยีน ซึ่งแตกต่างจากอัลกอริธึมการค้นหาข้อความที่ใช้ในเว็บไซต์ต่างๆ เช่น Google หรือ Wikipedia การค้นหาส่วนที่มีความคล้ายคลึงทางพันธุกรรมจำเป็นต้องค้นหาสตริงที่ไม่เหมือนกันทุกประการ แต่ต้องมีความคล้ายคลึงกันด้วย สิ่งนี้จึงนำไปสู่การพัฒนาอัลกอริธึม Needleman-Wunschซึ่งเป็น อัลกอริธึม การเขียนโปรแกรมแบบไดนามิกสำหรับการเปรียบเทียบชุดลำดับกรดอะมิโนเข้าด้วยกันโดยใช้เมทริกซ์การให้คะแนนที่ได้มาจากการวิจัยก่อนหน้านี้ของ Dayhoff ต่อมาได้ มีการพัฒนาอัลกอริธึม BLASTเพื่อทำการค้นหาฐานข้อมูลลำดับยีนอย่างรวดเร็วและมีประสิทธิภาพ BLAST และอนุพันธ์ของมันน่าจะเป็นอัลกอริธึมที่ใช้กันอย่างแพร่หลายที่สุดสำหรับวัตถุประสงค์นี้[ 4 ]

วลี "จีโนมิกส์เชิงคำนวณ" ปรากฏขึ้นพร้อมกับการมีจีโนมที่เรียงลำดับอย่างสมบูรณ์ในช่วงกลางถึงปลายทศวรรษ 1990 การประชุมประจำปีว่าด้วยจีโนมิกส์เชิงคำนวณครั้งแรกจัดขึ้นโดยนักวิทยาศาสตร์จากสถาบันวิจัยจีโนมิกส์ (TIGR) ในปี 1998 ซึ่งเป็นเวทีสำหรับสาขาเฉพาะทางนี้และแยกแยะสาขาวิทยาศาสตร์นี้ออกจากสาขาจีโนมิกส์หรือชีววิทยาเชิงคำนวณ ทั่วไปได้อย่างมีประสิทธิภาพ การใช้คำนี้ครั้งแรกในวรรณกรรมทางวิทยาศาสตร์ ตาม บทคัดย่อ ของ MEDLINEเกิดขึ้นเพียงหนึ่งปีก่อนหน้านั้นใน วารสาร Nucleic Acids Research [ 5 ] การ ประชุมจีโนมิกส์เชิงคำนวณครั้งสุดท้ายจัดขึ้นในปี 2006 โดยมีปาฐกถาพิเศษโดยแบร์รี มาร์แชลล์ ผู้ได้รับรางวัลโนเบล ผู้ร่วมค้นพบความเชื่อมโยงระหว่างHelicobacter pyloriกับแผลในกระเพาะอาหาร ณ ปี 2014 การประชุมวิชาการชั้นนำในสาขานี้ ได้แก่Intelligent Systems for Molecular Biology (ISMB) และResearch in Computational Molecular Biology (RECOMB)

การพัฒนาคณิตศาสตร์ที่ใช้คอมพิวเตอร์ช่วย (โดยใช้ผลิตภัณฑ์เช่นMathematicaหรือMatlab ) ช่วยให้วิศวกร นักคณิตศาสตร์ และนักวิทยาศาสตร์คอมพิวเตอร์เริ่มดำเนินการในโดเมนนี้ และมีการรวบรวมกรณีศึกษาและการสาธิตสาธารณะเพิ่มมากขึ้น ตั้งแต่การเปรียบเทียบจีโนมทั้งหมดไปจนถึงการวิเคราะห์การแสดงออกของยีน[ 6 ]สิ่งนี้ทำให้มีการนำแนวคิดที่แตกต่างกันมากขึ้น รวมถึงแนวคิดจากระบบและการควบคุม ทฤษฎีสารสนเทศ การวิเคราะห์สตริง และการขุดข้อมูล คาดว่าวิธีการคำนวณจะกลายเป็นและยังคงเป็นหัวข้อมาตรฐานสำหรับการวิจัยและการสอน ในขณะที่นักเรียนที่เชี่ยวชาญทั้งสองหัวข้อเริ่มได้รับการฝึกฝนในหลักสูตรต่างๆ ที่สร้างขึ้นในช่วงไม่กี่ปีที่ผ่านมา

ผลงานของการวิจัยจีโนมิกส์เชิงคำนวณที่มีต่อชีววิทยา

ผลงานการวิจัยจีโนมิกส์เชิงคำนวณที่มีต่อชีววิทยา ได้แก่: [ 2 ]

การเปรียบเทียบจีโนม

มีการพัฒนาเครื่องมือคำนวณเพื่อประเมินความคล้ายคลึงกันของลำดับจีโนม บางส่วนเป็น ระยะทางที่อิงตาม การจัดเรียงเช่นAverage Nucleotide Identity [ 7 ] วิธีเหล่านี้มีความเฉพาะเจาะจงสูง ในขณะที่การคำนวณค่อนข้างช้า วิธีอื่นๆ ที่ไม่ต้องใช้การจัดเรียง ได้แก่ วิธีการทางสถิติและความน่าจะเป็น ตัวอย่างหนึ่งคือ Mash [ 8 ]ซึ่งเป็นวิธีการเชิงความน่าจะเป็นโดยใช้minhashในวิธีนี้ เมื่อกำหนดจำนวน k ลำดับจีโนมจะถูกแปลงเป็นสเก็ตช์ที่สั้นกว่าผ่านฟังก์ชันแฮชแบบ สุ่ม บนk-mer ที่เป็นไปได้ ตัวอย่างเช่น ถ้าสเก็ตช์ขนาด 4 จะถูกสร้างขึ้นและกำหนดฟังก์ชันแฮชต่อไปนี้

(AA,0)(AC,8)(AT,2)(AG,14)
(CA,6)(ซีซี,13)(CT,5)(ซีจี,4)
(GA,15)(GC,12)(GT,10)(GG,1)
(TA,3)(TC,11)(TT,9)(TG,7)

ภาพร่างของลำดับ

CTGACCTTAACGGGAGACTATGATGACGACCGCAT

คือ {0,1,1,2} ซึ่งเป็นค่าแฮชที่เล็กที่สุดของ k-mer ขนาด 2 จากนั้นจะเปรียบเทียบสเก็ตช์เหล่านี้เพื่อประมาณสัดส่วนของ k-mer ที่ใช้ร่วมกัน ( ดัชนี Jaccard ) ของลำดับที่สอดคล้องกัน ควรสังเกตว่าค่าแฮชเป็นเลขฐานสอง ในการตั้งค่าจีโนมจริง ขนาดของ k-mer ที่มีประโยชน์จะอยู่ระหว่าง 14 ถึง 21 และขนาดของสเก็ตช์จะอยู่ที่ประมาณ 1000 [ 8 ]

ด้วยการลดขนาดของลำดับลง แม้กระทั่งหลายร้อยเท่า และเปรียบเทียบกันโดยไม่ต้องอาศัยการจัดเรียงลำดับ วิธีนี้ช่วยลดเวลาในการประเมินความคล้ายคลึงของลำดับได้อย่างมาก

การจัดกลุ่มข้อมูลจีโนม

การจัดกลุ่มข้อมูลเป็นเครื่องมือที่ใช้ในการทำให้การวิเคราะห์ทางสถิติของตัวอย่างจีโนมง่ายขึ้น ตัวอย่างเช่น ใน[ 9 ]ผู้เขียนได้พัฒนาเครื่องมือ (BiG-SCAPE) เพื่อวิเคราะห์เครือข่ายความคล้ายคลึงของลำดับของกลุ่มยีนสังเคราะห์ทางชีวภาพ (BGC) ใน[ 10 ]มีการใช้การจัดกลุ่มกลุ่มยีนสังเคราะห์ทางชีวภาพหลายชั้นในเครื่องมืออัตโนมัติ BiG-MAP เพื่อกรองข้อมูลที่ซ้ำซ้อนและระบุตระกูลกลุ่มยีน เครื่องมือนี้สร้างโปรไฟล์ความอุดมสมบูรณ์และระดับการแสดงออกของ BGC ในตัวอย่างไมโครไบโอม

กลุ่มยีนชีวสังเคราะห์

เครื่องมือทางชีวสารสนเทศได้รับการพัฒนาขึ้นเพื่อทำนายและกำหนดความอุดมสมบูรณ์และการแสดงออกของกลุ่มยีนประเภทนี้ในตัวอย่างไมโครไบโอมจากข้อมูลเมตาจีโนมิก[ 10 ]เนื่องจากขนาดของข้อมูลเมตาจีโนมิกมีขนาดใหญ่ การกรองและการจัดกลุ่มจึงเป็นส่วนสำคัญของเครื่องมือเหล่านี้ กระบวนการเหล่านี้อาจประกอบด้วยเทคนิคการลดมิติ เช่นMinhash [ 8 ]และอัลกอริธึมการจัดกลุ่ม เช่นk-medoidsและการแพร่กระจายความสัมพันธ์ นอกจากนี้ยังมีการพัฒนาเมตริกและความคล้ายคลึงกันหลาย อย่างเพื่อเปรียบเทียบกัน

การค้นหาคลัสเตอร์ยีนสังเคราะห์ทางชีวภาพ (BGCs) จากจีโนมได้กลายเป็นส่วนสำคัญของการค้นพบผลิตภัณฑ์จากธรรมชาติ จีโนมจุลินทรีย์กว่า 200,000 จีโนมที่เปิดเผยต่อสาธารณะในปัจจุบันมีข้อมูลเกี่ยวกับสารเคมีใหม่ๆ มากมาย วิธีหนึ่งในการสำรวจความหลากหลายทางจีโนมอันมหาศาลนี้คือการวิเคราะห์เปรียบเทียบ BGCs ที่มีความคล้ายคลึงกัน ซึ่งช่วยให้สามารถระบุรูปแบบข้ามสายพันธุ์ที่สามารถจับคู่กับการมีอยู่ของเมตาบอไลต์หรือกิจกรรมทางชีวภาพได้ อย่างไรก็ตาม เครื่องมือในปัจจุบันติดขัดด้วยข้อจำกัดที่เกิดจากวิธีการแบบเครือข่ายที่มีราคาแพงซึ่งใช้ในการจัดกลุ่ม BGCs เหล่านี้เข้าเป็นตระกูลคลัสเตอร์ยีน (GCFs) BiG-SLiCE (Biosynthetic Genes Super-Linear Clustering Engine) เป็นเครื่องมือที่ออกแบบมาเพื่อจัดกลุ่ม BGCs จำนวนมหาศาล โดยการแสดง BGCs เหล่านั้นในพื้นที่แบบยูคลิด BiG-SLiCE สามารถจัดกลุ่ม BGCs เข้าเป็น GCFs ในลักษณะที่ไม่เป็นคู่ๆ และเกือบจะเป็นเส้นตรง

Satria et. al, 2021 [ 11 ]ทั่ว BiG-SLiCE แสดงให้เห็นถึงประโยชน์ของการวิเคราะห์ดังกล่าวโดยการสร้างแผนที่โลกของความหลากหลายของเมตาบอลิซึมรองข้ามอนุกรมวิธานเพื่อระบุศักยภาพการสังเคราะห์ทางชีวภาพที่ไม่เคยมีการสำรวจมาก่อน เปิดโอกาสใหม่ ๆ ในการเร่งการค้นพบผลิตภัณฑ์จากธรรมชาติ และเป็นก้าวแรกสู่การสร้างเครือข่าย BGC ที่เชื่อมโยงกันทั่วโลกและสามารถค้นหาได้ เมื่อมีการจัดลำดับจีโนมมากขึ้นจากกลุ่มสิ่งมีชีวิตที่ยังไม่ได้รับการศึกษาอย่างเพียงพอ ก็จะสามารถขุดค้นข้อมูลเพิ่มเติมเพื่อเน้นย้ำถึงเคมีใหม่ ๆ ที่อาจเกิดขึ้นได้[ 11 ]

อัลกอริทึมการบีบอัด

อัลกอริทึมการบีบอัดข้อมูลแบบพันธุกรรมเป็นอัลกอริทึมรุ่นล่าสุดที่ไม่สูญเสียข้อมูล ซึ่งบีบอัดข้อมูล (โดยทั่วไปคือลำดับของนิวคลีโอไทด์) โดยใช้ทั้งอัลกอริทึมการบีบอัดแบบดั้งเดิมและอัลกอริทึมทางพันธุกรรมที่ปรับให้เข้ากับชนิดข้อมูลเฉพาะ ในปี 2012 ทีมวิทยาศาสตร์จากมหาวิทยาลัยจอห์นส์ ฮอปกินส์ ได้ตีพิมพ์อัลกอริทึมการบีบอัดข้อมูลแบบพันธุกรรมที่ไม่ใช้จีโนมอ้างอิงสำหรับการบีบอัด HAPZIPPER ถูกปรับแต่งสำหรับ ข้อมูล HapMapและสามารถบีบอัดได้มากกว่า 20 เท่า (ลดขนาดไฟล์ได้ 95%) ให้การบีบอัดที่ดีกว่า 2-4 เท่า และใช้ทรัพยากรการคำนวณน้อยกว่ายูทิลิตี้การบีบอัดทั่วไปชั้นนำ เพื่อการนี้ Chanda, Elhaik และ Bader ได้แนะนำการเข้ารหัสแบบ MAF (MAFE) ซึ่งช่วยลดความแตกต่างของชุดข้อมูลโดยการจัดเรียง SNP ตามความถี่ของอัลลีลรอง ทำให้ชุดข้อมูลมีความเป็นเนื้อเดียวกันมากขึ้น[ 12 ]อัลกอริทึมอื่นๆ ที่พัฒนาขึ้นในปี 2009 และ 2013 (DNAZip และ GenomeZip) มีอัตราส่วนการบีบอัดสูงถึง 1200 เท่า ทำให้สามารถจัดเก็บจีโนมมนุษย์แบบดิพลอยด์ 6 พันล้านเบสแพร์ได้ใน 2.5 เมกะไบต์ (เมื่อเทียบกับจีโนมอ้างอิงหรือเฉลี่ยจากจีโนมหลายๆ จีโนม) [ 13 ] [ 14 ]สำหรับเกณฑ์มาตรฐานในการบีบอัดข้อมูลทางพันธุศาสตร์/จีโนมิกส์ โปรดดูที่[ 15 ]

ดูเพิ่มเติม

  • หลักสูตรชีวฟิสิกส์ 101 ของ Harvard Extension School, จีโนมิกส์และชีววิทยาเชิงคำนวณ, http://www.courses.fas.harvard.edu/~bphys101/info/syllabus.html
  • หลักสูตรจีโนมิกส์เชิงคำนวณ มหาวิทยาลัยบริสตอลhttp://www.computational-genomics.net/
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Computational_genomics&oldid=1332556251 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ จีโนมิกส์เชิงคำนวณ

จีโนมิกส์เชิงคำนวณหมายถึงการใช้การวิเคราะห์เชิงคำนวณและสถิติเพื่อถอดรหัสชีววิทยาจากลำดับจีโนมและข้อมูลที่เกี่ยวข้องรวมถึง ลำดับ DNAและRNAตลอดจนข้อมูล "หลังจีโนม" อื่นๆ (เช่น

ประวัติศาสตร์

รากฐานของจีโนมิกส์เชิงคำนวณนั้นมีความคล้ายคลึงกับ ชีวสารสนเทศ ในช่วงทศวรรษ 1960 มาร์กาเร็ต เดย์ฮอฟฟ์ และคนอื่นๆ ที่มูลนิธิวิจัยชีวการแพทย์แห่งชาติได้รวบรวมฐานข้อมูลลำดับโปรตีนที่คล้ายคลึงกันสำหรับการศึกษาเชิงวิวัฒนาการ [ 3 ] งานวิจัยของพวกเขาได้พัฒนา...

ผลงานของการวิจัยจีโนมิกส์เชิงคำนวณที่มีต่อชีววิทยา

ผลงานการวิจัยจีโนมิกส์เชิงคำนวณที่มีต่อชีววิทยา ได้แก่: [ 2 ]

การเปรียบเทียบจีโนม

มีการพัฒนาเครื่องมือคำนวณเพื่อประเมินความคล้ายคลึงกันของลำดับจีโนม บางส่วนเป็น ระยะทางที่อิงตาม การจัดเรียง เช่น Average Nucleotide Identity [ 7 ] วิธี เหล่านี้มีความเฉพาะเจาะจงสูง ในขณะที่การคำนวณค่อนข้างช้า วิธีอื่นๆ ที่ไม่ต้องใช้การจัดเรียง ได้แก่...