การอนุมานวิวัฒนาการโดยใช้ข้อมูลทรานสคริปโตมิกส์

Q: การได้มาซึ่งลำดับ

มีการนำ เทคโนโลยีทางด้านทรานสคริปโตมิกส์ หลายอย่าง มาใช้ในการรวบรวมข้อมูลลำดับเบสของ ทรานสคริปโตม อย่างไรก็ตาม เทคโนโลยีที่ใช้กันอย่างแพร่หลายที่สุดคือ RNA- Seq

Q: ฐานข้อมูลสาธารณะ

มี ฐานข้อมูลสาธารณะ หลายแห่งที่รวบรวมข้อมูล RNA-Seq ไว้ให้ใช้งานได้ฟรี

ในพันธุศาสตร์ระดับโมเลกุลความสัมพันธ์ระหว่างแต่ละบุคคลจะถูกกำหนดโดยใช้ลักษณะเฉพาะ เช่นDNA , RNAหรือโปรตีน ซึ่งอาจได้มาจากการใช้เทคโนโลยี การจัดลำดับหลาย วิธี การจัดลำดับรุ่นใหม่ที่มีความเร็วสูงได้กลายเป็นเทคนิคยอดนิยมในด้านทรานสคริปโต มิกส์ ซึ่งแสดงถึงภาพรวมของการแสดงออกของยีน ในยูคาริ โอต การอนุมานทางวิวัฒนาการโดยใช้RNA นั้นมีความซับซ้อนเนื่องจากการตัดต่อทางเลือก (alternative splicing ) ซึ่งสร้างทรานสคริปต์ หลายแบบ จากยีน เดียว ดังนั้นจึงอาจใช้วิธีการต่างๆ เพื่อปรับปรุงการอนุมานทางวิวัฒนาการโดยใช้ข้อมูลทรานสคริปโตมิกส์ที่ได้จากRNA-Seqและประมวลผลโดยใช้พันธุศาสตร์เชิงคำนวณ

การได้มาซึ่งลำดับ

มีการนำเทคโนโลยีทางด้านทรานสคริปโตมิกส์ หลายอย่าง มาใช้ในการรวบรวมข้อมูลลำดับเบสของทรานสคริปโตมอย่างไรก็ตาม เทคโนโลยีที่ใช้กันอย่างแพร่หลายที่สุดคือRNA- Seq

RNA-Seq

สามารถหาข้อมูลลำดับ RNA ได้โดยใช้วิธี RNA-seq ที่หลากหลาย

ฐานข้อมูลสาธารณะ

มี ฐานข้อมูลสาธารณะหลายแห่งที่รวบรวมข้อมูล RNA-Seq ไว้ให้ใช้งานได้ฟรี

การประกอบ

การประกอบลำดับ

ข้อมูล RNA-Seq สามารถนำมาประกอบเป็นทรานสคริปต์ ได้โดยตรง โดยใช้การประกอบลำดับ (sequence assembly ) โดยทั่วไปแล้ว การประกอบลำดับมักแบ่งออกเป็น สองประเภทหลัก :

การประกอบทรานสคริปโตมแบบde novo - มีความสำคัญอย่างยิ่งเมื่อไม่มีจีโนมอ้างอิง สำหรับ สายพันธุ์ นั้น ๆ
การประกอบลำดับจีโนมโดยใช้จีโนมเป็นแนวทาง (บางครั้งเรียกว่า การจับคู่ หรือ การประกอบลำดับโดยใช้ข้อมูลอ้างอิง) - สามารถใช้ข้อมูลอ้างอิงที่มีอยู่แล้วเป็นแนวทางในการประกอบลำดับทรานสคริปต์ได้

ทั้งสองวิธีพยายามสร้างโครงสร้างระดับไอโซฟอร์มที่เป็นตัวแทนทางชีวภาพจากข้อมูล RNA-seq และโดยทั่วไปพยายามเชื่อมโยงไอโซฟอร์มกับโครงสร้างระดับยีน อย่างไรก็ตาม การระบุโครงสร้างระดับยีนอย่างถูกต้องอาจมีความซับซ้อนเนื่องจากการทำสำเนาซ้ำ ล่าสุด พาราโลก การตัดต่อทางเลือก หรือการ หลอมรวมยีนความซับซ้อนเหล่านี้อาจทำให้เกิดปัญหาในขั้นตอนต่อไปของการอนุมานออร์โธโลก เมื่อเลือกหรือสร้างข้อมูลลำดับ สิ่งสำคัญคือต้องพิจารณาชนิดของเนื้อเยื่อ ระยะการพัฒนา และสภาพแวดล้อมของสิ่งมีชีวิต เนื่องจากทรานสคริปโตมแสดงถึงภาพรวมของการแสดงออกของยีนการเปลี่ยนแปลงเล็กน้อยในสภาวะเหล่านี้อาจส่งผลกระทบอย่างมากต่อทรานสคริปต์ที่แสดงออก ซึ่งอาจส่งผลเสียต่อการตรวจจับออร์โธโลกในขั้นตอนถัดไป^{[ 1 ]}

ฐานข้อมูลสาธารณะ

นอกจากนี้ ยังสามารถขอรับ RNA จากฐานข้อมูลสาธารณะ เช่นGenBank , RefSeq , 1000 Plants (1KP)และ1KITE ได้อีก ด้วย ฐานข้อมูลสาธารณะเหล่านี้มักมีลำดับเบสที่ผ่านการคัดกรองแล้ว ซึ่งสามารถปรับปรุงคุณภาพการอนุมานและหลีกเลี่ยงภาระการคำนวณที่เกี่ยวข้องกับการประกอบลำดับเบสได้

การอนุมานความสัมพันธ์แบบออร์โธโลยี/พาราโลยีของคู่ยีน

แนวทาง

การอนุมาน ออร์โธล็อกหรือพาราล็อกต้องอาศัยการประเมินความเหมือนกันของลำดับโดยปกติผ่านการจัดเรียงลำดับ การวิเคราะห์เชิงวิวัฒนาการและการจัดเรียงลำดับมักถูกพิจารณาร่วมกัน เนื่องจากการวิเคราะห์เชิงวิวัฒนาการโดยใช้DNA หรือ RNA จำเป็นต้องมีการจัดเรียงลำดับ และการจัดเรียงลำดับเองมักแสดงถึงสมมติฐานบางอย่างเกี่ยวกับความเหมือนกันเนื่องจากการระบุออร์โธล็อกที่ถูกต้องเป็นสิ่งสำคัญต่อการวิเคราะห์เชิงวิวัฒนาการ จึงมีวิธีการต่างๆ มากมายที่ใช้ในการอนุมานออร์โธล็อกและพาราล็อก^{[ 2 ]}

โดยทั่วไปแล้ว วิธีการเหล่านี้จะถูกจำแนกออกเป็นอัลกอริทึมแบบกราฟหรืออัลกอริทึมแบบต้นไม้ ตัวอย่างของวิธีการแบบกราฟ ได้แก่ InParanoid ^{[ 3 ]} MultiParanoid ^{[ 4 ]} OrthoMCL ^{[ 5 ]} HomoloGene ^{[ 6 ]}และ OMA ^{[ 7 ]}อัลกอริทึมแบบต้นไม้ ได้แก่ โปรแกรมต่างๆ เช่น OrthologID หรือ RIO ^{[ 8 ]}^{[ 2 ]}

โดย ทั่วไปแล้วมีการใช้วิธี BLASTที่หลากหลายเพื่อตรวจหาออร์โธล็อกระหว่างสปีชีส์โดยเป็นส่วนหนึ่งของอัลกอริทึมแบบกราฟ เช่น MegaBLAST, BLASTALL หรือ BLAST แบบ all-versus-all รูปแบบอื่นๆ และอาจเป็นการจัดเรียงตามนิวคลีโอไทด์หรือโปรตีน^[⁹^]^[¹⁰^] RevTrans ^[¹¹^]จะใช้ข้อมูลโปรตีนเพื่อแจ้งการจัดเรียง DNA ซึ่งอาจเป็นประโยชน์สำหรับการแก้ไขความสัมพันธ์ทางวิวัฒนาการที่ห่างไกลออกไป วิธีการเหล่านี้มักจะถือว่าการจับคู่แบบย้อนกลับที่ดีที่สุดที่ผ่านเกณฑ์เมตริกบางอย่าง เช่น ความเหมือน ค่า E หรือเปอร์เซ็นต์การจัดเรียง แสดงถึงออร์โธล็อกและอาจสับสนได้จากการเรียงลำดับสายพันธุ์ที่ไม่สมบูรณ์^[¹²^]^[¹³^]

ฐานข้อมูลและเครื่องมือ

สิ่งสำคัญที่ควรทราบคือ ความสัมพันธ์แบบออร์โธโลยีในฐานข้อมูลสาธารณะโดยทั่วไปจะแสดงถึงออร์โธโลยีในระดับยีน และไม่ได้ให้ข้อมูลเกี่ยวกับรูปแบบการตัดต่อทางเลือกที่ได้ รับการอนุรักษ์ ไว้

ฐานข้อมูลที่บรรจุและ/หรือตรวจจับความสัมพันธ์แบบออร์โธล็อกัส ได้แก่:

ดิออปต์
เอ็นเซมบลี คอมพารา
กรีนฟิลดีบี
แฮมเอสทีอาร์
โฮโมโลยีน
InParanoid เก็บถาวรเมื่อ 2021-05-03 ที่Wayback Machine
มัลติพารานอยด์
โอมา
ออร์โธดีบี
ออร์โธไฟน์เดอร์
ออร์โธล็อกไอดี
ออร์โธเอ็มซีแอล
ออร์โธลูจดีบี
ไฟโลมดีบี
ทรีแฟม
เอ้กน็อค
เมตาฟอร์

การจัดเรียงลำดับหลายลำดับ

เนื่องจากการถอดรหัสยูคาริโอตเป็นกระบวนการที่ซับซ้อนซึ่งสามารถสร้างทรานสคริปต์ ได้หลายรายการจาก ยีน เดียว ผ่านการสไปลซิงทางเลือก ที่มี การแสดงออกที่แปรผันการใช้ RNA จึงซับซ้อนกว่า DNA อย่างไรก็ตามการจัดลำดับทรานสคริปโตมมีราคาถูกกว่าการจัดลำดับจีโนมทั้งหมด และอาจได้รับโดยไม่ต้องใช้จีโนมอ้างอิง ที่มีอยู่ก่อน ^{[ 1 ]}

การแปลลำดับ RNA เป็นลำดับโปรตีนไม่ใช่เรื่องแปลก เมื่อใช้ข้อมูลทรานสคริปโตมิก โดยเฉพาะอย่างยิ่งเมื่อวิเคราะห์กลุ่มสิ่งมีชีวิตที่มีความแตกต่างสูง นี่เป็นขั้นตอนที่เข้าใจได้ง่าย เนื่องจากคาดว่าทรานสคริปต์จำนวนมาก (แต่ไม่ใช่ทั้งหมด) จะเข้ารหัส โปรตีนไอโซฟอร์มประโยชน์ที่อาจเกิดขึ้น ได้แก่ การลดอคติของการกลายพันธุ์และจำนวนอักขระที่ลดลง ซึ่งอาจช่วยเร่งการวิเคราะห์ อย่างไรก็ตาม การลดจำนวนอักขระนี้อาจส่งผลให้สูญเสียอักขระที่มีข้อมูลที่เป็นประโยชน์ได้^{[ 1 ]}

มีเครื่องมือหลายอย่างที่ใช้สำหรับการจัดเรียงลำดับหลายลำดับแต่ละเครื่องมือมีจุดแข็งและจุดอ่อนของตัวเอง และอาจมีความเชี่ยวชาญเฉพาะด้านสำหรับลำดับประเภทต่างๆ (DNA, RNA หรือโปรตีน) ดังนั้น โปรแกรมจัดเรียงลำดับที่คำนึงถึงการเชื่อมต่อของยีนอาจเหมาะสำหรับการจัดเรียงลำดับ RNA ในขณะที่โปรแกรมจัดเรียงลำดับที่พิจารณาโครงสร้างโปรตีนหรืออัตราการแทนที่ของกรดอะมิโนอาจเหมาะสมกว่าสำหรับข้อมูลลำดับ RNA ที่ผ่านการแปลแล้ว

โอกาสและข้อจำกัด

การใช้ RNA ในการวิเคราะห์ความสัมพันธ์ทางวิวัฒนาการมีทั้งจุดแข็งและจุดอ่อนเฉพาะตัว

ข้อดี

ชุดตัวอักษรขนาดใหญ่
คุ้มค่า
ไม่ขึ้นอยู่กับจีโนมอ้างอิง

ข้อเสีย

ค่าใช้จ่ายในการสุ่มตัวอย่างอนุกรมวิธานอย่างครอบคลุม
ความยากลำบากในการระบุทรานสคริปต์แบบเต็มความยาว สำเนาเดียว และออร์โธล็อก
อาจเกิดการเรียงลำดับข้อมูลในเอกสารผิดพลาด (โดยเฉพาะอย่างยิ่งเมื่อมีข้อมูลซ้ำกัน)
ข้อมูลที่หายไปเป็นผลผลิตจากทรานสคริปโตมซึ่งแสดงถึงภาพรวมของการแสดงออกหรือการคัดแยกสายพันธุ์ที่ไม่สมบูรณ์^{[ 14 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

1KITE
1000 ต้น (1KP)
ดิออปต์
เอ้กน็อค
เอ็นเซมบลี คอมพารา
เจนแบงก์
กรีนฟิลดีบี
แฮมเอสทีอาร์
โฮโมโลยีน
InParanoid เก็บถาวรเมื่อ 2021-05-03 ที่Wayback Machine
มัลติพารานอยด์
เมตาฟอร์
NCBI_BLAST
โอมา
ออร์โธดีบี
ออร์โธล็อกไอดี
ออร์โธเอ็มซีแอล
ออร์โธลูจดีบี
ไฟโลมดีบี
ลำดับอ้างอิง
RevTrans_2.0
ทรีแฟม
ทรีนิตี้_เด_โนโว_แอสเซมเบลอร์

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[

[

[

[

[

[ 14 ]

การอนุมานวิวัฒนาการโดยใช้ข้อมูลทรานสคริปโตมิกส์

การได้มาซึ่งลำดับ

RNA-Seq

ฐานข้อมูลสาธารณะ

การประกอบ

การประกอบลำดับ

ฐานข้อมูลสาธารณะ

การอนุมานความสัมพันธ์แบบออร์โธโลยี/พาราโลยีของคู่ยีน

แนวทาง

ฐานข้อมูลและเครื่องมือ

การจัดเรียงลำดับหลายลำดับ

โอกาสและข้อจำกัด

ข้อดี

ข้อเสีย

ดูเพิ่มเติม

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ