การระบุข้อมูลดีเอ็นเอ

Q: ข้อมูลสำคัญเกี่ยวกับ การระบุข้อมูลดีเอ็นเอ

ในชีววิทยาโมเลกุลและพันธุศาสตร์การระบุโครงสร้างดีเอ็นเอหรือการระบุจีโนมคือกระบวนการอธิบายโครงสร้างและหน้าที่ของส่วนประกอบของจีโนม

ในชีววิทยาโมเลกุลและพันธุศาสตร์^การระบุโครงสร้างดีเอ็นเอหรือการระบุจีโนมคือกระบวนการอธิบายโครงสร้างและหน้าที่ของส่วนประกอบของจีโนม [ ²^]โดยการวิเคราะห์และตีความเพื่อดึงความสำคัญทางชีววิทยาและทำความเข้าใจกระบวนการทางชีววิทยาที่ส่วนประกอบเหล่านั้นมีส่วนร่วม^[³^]ในบรรดาเรื่องอื่นๆ การระบุตำแหน่งของยีนและบริเวณการเข้ารหัส ทั้งหมด ในจีโนมและกำหนดว่ายีนเหล่านั้นทำอะไร^[⁴^]

การระบุตำแหน่งยีนจะดำเนินการหลังจากลำดับและประกอบ จีโนมแล้ว และเป็นขั้นตอนที่จำเป็นในการวิเคราะห์จีโนมก่อนที่จะฝากลำดับลงในฐานข้อมูลและอธิบายในบทความที่ตีพิมพ์ แม้ว่าการอธิบายยีนแต่ละตัวและผลิตภัณฑ์หรือหน้าที่ของยีนเหล่านั้นจะเพียงพอที่จะถือว่าคำอธิบายนี้เป็นการระบุตำแหน่งยีน แต่ความลึกของการวิเคราะห์ที่รายงานในวรรณกรรมสำหรับจีโนมต่างๆ นั้นแตกต่างกันอย่างมาก โดยบางรายงานรวมถึงข้อมูลเพิ่มเติมที่นอกเหนือไปจากการระบุตำแหน่งยีนแบบง่ายๆ^{[ 5 ]}นอกจากนี้ เนื่องจากขนาดและความซับซ้อนของจีโนมที่ลำดับ การระบุตำแหน่งยีนด้วยดีเอ็นเอจึงไม่ได้ทำด้วยตนเอง แต่จะทำโดยอัตโนมัติด้วยวิธีการคำนวณ อย่างไรก็ตาม ข้อสรุปที่ได้จากผลลัพธ์ที่ได้รับนั้นจำเป็นต้องมีการวิเคราะห์โดยผู้เชี่ยวชาญด้วยตนเอง^{[ 6 ]}

การระบุคำอธิบายประกอบ DNA แบ่งออกเป็นสองประเภท: การระบุคำอธิบายประกอบเชิงโครงสร้างซึ่งระบุและกำหนดขอบเขตขององค์ประกอบในจีโนม และการระบุคำอธิบายประกอบเชิงหน้าที่ซึ่งกำหนดหน้าที่ให้กับองค์ประกอบเหล่านี้^{[ 7 ]} นี่ไม่ใช่เพียงวิธีเดียวในการจัดหมวดหมู่ เนื่องจาก มีการเสนอทาง เลือกอื่น ๆ อีกหลายวิธี เช่น การจัดหมวดหมู่ตามมิติ^{[ 8 ]}และการจัดหมวดหมู่ตามระดับ^{[ 3 ]}

ประวัติศาสตร์

นักอธิบายจีโนมรุ่นแรกใช้ วิธีการ ab initioเฉพาะที่ ซึ่งอาศัยข้อมูลที่สามารถสกัดได้จากลำดับดีเอ็นเอในระดับท้องถิ่นเท่านั้น กล่าวคือเฟรมการอ่านแบบเปิด (ORF) ทีละเฟรม^{[ 9 ]}^{[ 10 ]} วิธี การเหล่านี้เกิดขึ้นเนื่องจากมีความจำเป็นในการจัดการกับข้อมูลจำนวนมหาศาลที่เกิดจาก เทคนิค การจัดลำดับดีเอ็นเอ แบบ Maxam-GilbertและSanger ที่พัฒนาขึ้นในช่วงปลายทศวรรษ 1970 ซอฟต์แวร์ตัวแรกที่ใช้ในการวิเคราะห์ลำดับการอ่านคือStaden Packageซึ่งสร้างโดย Rodger Staden ในปี 1977 ^[¹¹^] ซอฟต์แวร์ นี้ทำงานหลายอย่างที่เกี่ยวข้องกับการอธิบาย เช่นการนับเบสและโคดอนในความเป็นจริง การใช้โคดอนเป็นกลยุทธ์หลักที่ใช้โดย วิธีการทำนาย ลำดับการเข้ารหัสโปรตีน (CDS) ในยุคแรกหลายวิธี ^[¹²^]^[¹³^]^[¹⁴^]โดยอาศัยสมมติฐานที่ว่า บริเวณ ที่มีการแปล มากที่สุดในจีโนมจะมีโคดอนที่มี tRNAที่สอดคล้องกันมากที่สุด(โมเลกุลที่ทำหน้าที่นำกรดอะมิโนไปยังไรโบโซมระหว่างการสังเคราะห์โปรตีน) ซึ่งช่วยให้การแปลมีประสิทธิภาพมากขึ้น^[¹⁵^]นอกจากนี้ยังเป็นที่ทราบกันดีว่าเป็นเช่นนั้นสำหรับโคดอนที่มีความหมายเหมือนกันซึ่งมักพบในโปรตีนที่แสดงออกในระดับที่ต่ำกว่า^[¹³^]^[¹⁶^]

การเกิดขึ้นของจีโนมที่สมบูรณ์ในช่วงทศวรรษ 1990 (จีโนมแรกคือจีโนมของHaemophilus influenzaeที่ได้รับการจัดลำดับในปี 1995) นำมาซึ่งนักอธิบายรุ่นที่สอง เช่นเดียวกับในรุ่นก่อนหน้า พวกเขาทำการอธิบายโดยใช้ วิธีการ ab initioแต่ตอนนี้ใช้ในระดับจีโนมทั้งหมด^{[ 9 ]}^{[ 10 ]}แบบจำลอง Markovเป็นแรงขับเคลื่อนเบื้องหลังอัลกอริทึมจำนวนมากที่ใช้ในนักอธิบายรุ่นนี้^{[ 17 ]}^{[ 18 ]}แบบจำลองเหล่านี้สามารถคิดได้ว่าเป็นกราฟแบบมีทิศทางโดยที่โหนดแทนสัญญาณจีโนมที่แตกต่างกัน (เช่น ตำแหน่งเริ่มต้น การถอดรหัสและการแปล ) ที่เชื่อมต่อกันด้วยลูกศรที่แสดงถึงการสแกนลำดับ เพื่อให้แน่ใจว่าแบบจำลอง Markov ตรวจจับสัญญาณจีโนมได้ จะต้องฝึกฝนแบบจำลองนั้นก่อนด้วยชุดของสัญญาณจีโนมที่รู้จัก^{[ 19 ]}ผลลัพธ์ของแบบจำลอง Markov ในบริบทของการระบุคำอธิบายประกอบด้วยความน่าจะเป็นขององค์ประกอบทางพันธุกรรมทุกชนิดในทุกส่วนของจีโนม และแบบจำลอง Markov ที่แม่นยำจะกำหนดความน่าจะเป็นสูงให้กับคำอธิบายที่ถูกต้องและความน่าจะเป็นต่ำให้กับคำอธิบายที่ไม่ถูกต้อง^{[ 20 ]}

เมื่อมีจีโนมที่เรียงลำดับมากขึ้นเริ่มมีให้ใช้งานในช่วงต้นและกลางทศวรรษ 2000 ควบคู่ไปกับลำดับโปรตีนจำนวนมากที่ได้มาจากการทดลอง นักวิเคราะห์จีโนมจึงเริ่มใช้วิธีการที่อิงตามความคล้ายคลึงกัน ซึ่งเป็นการเริ่มต้นของการวิเคราะห์จีโนมรุ่นที่สาม วิธีการใหม่เหล่านี้ช่วยให้นักวิเคราะห์ไม่เพียงแต่สามารถอนุมานองค์ประกอบทางจีโนมผ่านวิธีการทางสถิติ (เช่นเดียวกับในรุ่นก่อนๆ) แต่ยังสามารถทำงานโดยการเปรียบเทียบลำดับที่กำลังวิเคราะห์กับลำดับอื่นๆ ที่มีอยู่และได้รับการตรวจสอบแล้ว นักวิเคราะห์ที่เรียกว่า combiner ซึ่งทำการวิเคราะห์ทั้งแบบab initioและแบบอิงตามความคล้ายคลึงกัน จำเป็นต้องใช้ อัลกอริทึม การจัดเรียง ที่รวดเร็ว เพื่อระบุบริเวณที่มีความคล้ายคลึงกัน^{[ 2 ]}^{[ 9 ]}^{[ 10 ]}

ในช่วงปลายทศวรรษ 2000 การระบุตำแหน่งจีโนมได้เปลี่ยนความสนใจไปที่การระบุบริเวณที่ไม่เข้ารหัสใน DNA ซึ่งทำได้สำเร็จด้วยการปรากฏตัวของวิธีการวิเคราะห์ตำแหน่งการจับของปัจจัยการถอดรหัสตำแหน่งเมทิลเลชั่นของ DNA โครงสร้าง โครมาตินและ เทคนิคการวิเคราะห์ RNAและบริเวณควบคุม อื่นๆ นักวิเคราะห์จีโนมรายอื่นๆ ก็เริ่มมุ่งเน้นไปที่การศึกษาระดับประชากรที่แสดงโดยแพนจีโนมตัวอย่างเช่น การทำเช่นนั้นทำให้มั่นใจได้ว่ายีนหลักของกลุ่มหนึ่งๆจะพบได้ในจีโนมใหม่ของกลุ่มเดียวกัน กลยุทธ์การระบุตำแหน่งทั้งสองนี้ถือเป็นนักวิเคราะห์จีโนมรุ่นที่สี่^{[ 9 ]}^{[ 10 ]}

ภายในทศวรรษ 2010 ลำดับจีโนมของมนุษย์มากกว่าหนึ่งพันคน (ผ่านโครงการ 1000 Genomes Project ) และสิ่งมีชีวิตต้นแบบ หลายชนิด ก็พร้อมใช้งาน ดังนั้น การระบุคำอธิบายประกอบจีโนมจึงยังคงเป็นความท้าทายสำคัญสำหรับนักวิทยาศาสตร์ที่ศึกษาจีโนมของมนุษย์และจีโนมอื่นๆ^{[ 21 ]}^{[ 22 ]}

คำอธิบายประกอบเชิงโครงสร้าง

การระบุโครงสร้างอธิบายตำแหน่งที่แม่นยำขององค์ประกอบต่างๆ ในจีโนม เช่นกรอบการอ่านแบบเปิด (ORF) ลำดับการเข้ารหัส (CDS) เอ็กซอนอินทรอนส่วนที่ซ้ำกัน ตำแหน่งการเชื่อมต่อ ลวดลาย^{ควบคุม}รหัสเริ่ม ต้นและรหัสหยุด และ โปรโมเตอร์[ ⁶^]^[ 23 ^]ขั้นตอนหลักของการระบุโครงสร้างมีดังนี้ ^:

ทำซ้ำขั้นตอนการระบุและการปกปิดข้อมูล
การจัดเรียงหลักฐาน (ไม่บังคับ)
การระบุตำแหน่งการต่อเชื่อม (เฉพาะในยูคาริโอต)
การทำนายคุณลักษณะ (ลำดับการเข้ารหัสและไม่เข้ารหัส)

การระบุและการปิดบังซ้ำ

ขั้นตอนแรกของการระบุโครงสร้างประกอบด้วยการระบุและการปิดบังส่วนที่ซ้ำกันซึ่งรวมถึงลำดับที่มีความซับซ้อนต่ำ (เช่น AGAGAGAG หรือส่วนของโมโนพอลิเมอร์ เช่น TTTTTTTTT) และทรานสโพซอน (ซึ่งเป็นองค์ประกอบขนาดใหญ่ที่มีสำเนาหลายชุดทั่วทั้งจีโนม) ^{[ 2 ]}^{[ 24 ]}ส่วนที่ซ้ำกันเป็นองค์ประกอบหลักของจีโนมทั้งโปรคาริโอตและยูคาริโอต ตัวอย่างเช่น ระหว่าง 0% ถึงมากกว่า 42% ของจีโนมโปรคาริโอตประกอบด้วยส่วนที่ซ้ำกัน^{[ 25 ]}และสามในสี่ของจีโนมมนุษย์ประกอบด้วยองค์ประกอบที่ซ้ำกัน^{[ 26 ]}

การระบุส่วนที่ซ้ำกันนั้นทำได้ยากด้วยเหตุผลหลักสองประการ คือ ส่วนที่ซ้ำกันนั้นมีการอนุรักษ์ไว้ไม่ดี และขอบเขตของส่วนที่ซ้ำกันนั้นไม่ได้กำหนดไว้อย่างชัดเจน ด้วยเหตุนี้ จึงต้องสร้างไลบรารีส่วนที่ซ้ำกันสำหรับจีโนมที่สนใจ ซึ่งสามารถทำได้ด้วยวิธีใดวิธีหนึ่งต่อไปนี้: ^{[ 24 ]}^{[ 27 ]}

วิธีการแบบde novoการระบุลำดับซ้ำทำได้โดยการตรวจจับและจัดกลุ่มคู่ลำดับที่ตำแหน่งต่างกันซึ่งมีความคล้ายคลึงกันมากกว่าเกณฑ์ขั้นต่ำของการอนุรักษ์ลำดับในการเปรียบเทียบจีโนมตัวเอง ดังนั้นจึงไม่จำเป็นต้องมีข้อมูลก่อนหน้าเกี่ยวกับโครงสร้างหรือลำดับซ้ำ ข้อเสียของวิธีการเหล่านี้คือสามารถระบุลำดับซ้ำใดๆ ก็ได้ ไม่ใช่แค่ทรานสโพซอน และอาจรวมถึงลำดับการเข้ารหัส ที่อนุรักษ์ไว้ (CDS) ทำให้การประมวลผลภายหลังอย่างระมัดระวังเป็นขั้นตอนที่ขาดไม่ได้ในการลบลำดับเหล่านี้ นอกจากนี้ยังอาจละเว้นบริเวณที่เกี่ยวข้องที่เสื่อมสภาพไปตามกาลเวลาและอาจจัดกลุ่มองค์ประกอบที่ไม่มีความเชื่อมโยงกันในประวัติวิวัฒนาการ^{[ 28 ]}
วิธีการที่ใช้หลักความคล้ายคลึง (Homology-based methods ) การระบุลำดับซ้ำทำได้โดยอาศัยความคล้ายคลึง ( homology ) กับลำดับซ้ำที่ทราบแล้วซึ่งจัดเก็บไว้ในฐานข้อมูลที่จัดระเบียบไว้ วิธีการเหล่านี้มีแนวโน้มที่จะค้นพบทรานสโพซอนจริงได้มากกว่า แม้จะมีปริมาณน้อย เมื่อเปรียบเทียบกับ วิธีการแบบ de novoแต่ก็มีแนวโน้มที่จะเลือกกลุ่มทรานสโพซอนที่เคยระบุไว้แล้วมากกว่า
วิธีการที่อิงตามโครงสร้างการระบุส่วนที่ซ้ำกันจะขึ้นอยู่กับแบบจำลองโครงสร้างของมัน มากกว่าการซ้ำหรือความคล้ายคลึงกัน วิธีนี้สามารถระบุทรานสโพซอนที่แท้จริงได้ (เช่นเดียวกับวิธีที่อิงตามความคล้ายคลึงกัน) แต่จะไม่ได้รับอิทธิพลจากองค์ประกอบที่รู้จัก อย่างไรก็ตาม วิธีเหล่านี้มีความเฉพาะเจาะจงสูงสำหรับแต่ละประเภทของส่วนที่ซ้ำกัน และด้วยเหตุนี้จึงไม่สามารถนำไปใช้ได้ในวงกว้าง
วิธีการเปรียบเทียบจีโนมการระบุลำดับซ้ำทำได้โดยการระบุการหยุดชะงักของลำดับหนึ่งลำดับหรือมากกว่าในการจัดเรียงลำดับหลายลำดับที่เกิดจาก บริเวณ การแทรก ขนาดใหญ่ แม้ว่ากลยุทธ์นี้จะหลีกเลี่ยงปัญหาขอบเขตที่ไม่ชัดเจนซึ่งมีอยู่ในวิธีการอื่น ๆ แต่ก็ขึ้นอยู่กับคุณภาพของการประกอบและการทำงานของทรานสโพซอนในจีโนมที่เกี่ยวข้องเป็นอย่างมาก

หลังจากระบุบริเวณที่ซ้ำกันในจีโนมแล้ว จะทำการปิดบังบริเวณเหล่านั้นการปิดบังหมายถึงการแทนที่ตัวอักษรของนิวคลีโอไทด์ (A, C, G หรือ T) ด้วยตัวอักษรอื่น การทำเช่นนี้จะทำให้บริเวณเหล่านี้ถูกทำเครื่องหมายว่าเป็นบริเวณที่ซ้ำกัน และการวิเคราะห์ในขั้นตอนถัดไปจะดำเนินการตามนั้น บริเวณที่ซ้ำกันอาจทำให้เกิดปัญหาด้านประสิทธิภาพหากไม่ถูกปิดบัง และอาจทำให้เกิดหลักฐานที่ผิดพลาดสำหรับการระบุยีน (ตัวอย่างเช่น การพิจารณาเฟรมการอ่านแบบเปิด (ORF) ในทรานสโพซอนว่าเป็นเอ็กซอน ) ^{[ 24 ]}ขึ้นอยู่กับตัวอักษรที่ใช้ในการแทนที่ การปิดบังสามารถจำแนกได้เป็นแบบอ่อนหรือแบบแข็ง: ในการปิดบังแบบอ่อนบริเวณที่ซ้ำกันจะถูกระบุด้วยตัวอักษรพิมพ์เล็ก (a, c, g หรือ t) ในขณะที่ในการปิดบังแบบแข็งตัวอักษรของบริเวณเหล่านี้จะถูกแทนที่ด้วย N ด้วยวิธีนี้ ตัวอย่างเช่น การปิดบังแบบอ่อนสามารถใช้เพื่อยกเว้นการจับคู่คำและหลีกเลี่ยงการเริ่มต้นการจัดเรียงในบริเวณเหล่านั้น และการปิดบังแบบแข็ง นอกเหนือจากทั้งหมดนี้ ยังสามารถยกเว้นบริเวณที่ถูกปิดบังจากคะแนนการจัดเรียงได้อีกด้วย^{[ 29 ]}^{[ 30 ]}

การจัดเรียงหลักฐาน

ขั้นตอนต่อไปหลังจากปิดบังจีโนมมักจะเกี่ยวข้องกับการจัดเรียงหลักฐานการถอดรหัสและโปรตีนที่มีอยู่ทั้งหมดให้ตรงกับจีโนมที่วิเคราะห์ นั่นคือ การจัดเรียงแท็กแสดงลำดับ ที่รู้จักทั้งหมด (ESTs) RNAและโปรตีนของสิ่งมีชีวิตที่กำลังถูกระบุคำอธิบายประกอบให้ตรงกับจีโนม^{[ 31 ]}แม้ว่าจะเป็นทางเลือก แต่ก็สามารถปรับปรุงการอธิบายลำดับยีนได้ เนื่องจาก RNA และโปรตีนเป็นผลผลิตโดยตรงจากลำดับการเข้ารหัส^{[ 19 ]}

หาก มีข้อมูล RNA-Seqอยู่ ก็อาจใช้เพื่อระบุและวัดปริมาณยีนทั้งหมดและไอโซฟอร์มที่อยู่ในจีโนมที่เกี่ยวข้อง ซึ่งไม่เพียงแต่ระบุตำแหน่งเท่านั้น แต่ยังระบุอัตราการแสดงออกด้วย^{[ 32 ]}อย่างไรก็ตาม ทรานสคริปต์ให้ข้อมูลไม่เพียงพอสำหรับการทำนายยีน เนื่องจากอาจไม่สามารถหาได้จากบางยีน อาจเข้ารหัสโอเปรอนของยีนมากกว่าหนึ่งยีน และไม่สามารถระบุโคดอนเริ่มต้นและโคดอนหยุดได้เนื่องจากการเลื่อนเฟรมและปัจจัยการเริ่มต้นการแปล [ ^{19 ] เพื่อ}แก้ปัญหานี้ จึงมีการใช้แนวทางที่อิงตาม โปรตีโอจีโนมิกส์ซึ่งใช้ข้อมูลจากโปรตีนที่แสดงออกซึ่งมักได้มาจาก สเปกโทรเม ตรีมวล^{[ 33 ]}

การระบุรอยต่อ

การระบุคำอธิบายประกอบของ จีโนม ยูคาริโอตมีความยากลำบากเพิ่มขึ้นอีกชั้นหนึ่งเนื่องจากการตัดต่อ RNAซึ่ง เป็น กระบวนการหลังการถอดรหัส ที่อินทรอน (บริเวณที่ไม่เข้ารหัส) ถูกกำจัดออกไปและเอ็กซอน (บริเวณที่เข้ารหัส) ถูกเชื่อมต่อเข้าด้วยกัน^{[ 23 ]}ดังนั้นลำดับการเข้ารหัส ของยูคาริโอต (CDS) จึงไม่ต่อเนื่อง และเพื่อให้แน่ใจว่ามีการระบุอย่างถูกต้อง บริเวณอินทรอนจะต้องถูกกรองออก ในการทำเช่นนั้น ไปป์ไลน์การระบุคำอธิบายประกอบจะต้องค้นหาขอบเขตเอ็กซอน-อินทรอน และมีการพัฒนาวิธีการหลายวิธีเพื่อจุดประสงค์นี้ วิธีแก้ปัญหาวิธีหนึ่งคือการใช้ขอบเขตเอ็กซอนที่รู้จักสำหรับการจัดเรียง ตัวอย่างเช่น อินทรอนจำนวนมากเริ่มต้นด้วย GT และสิ้นสุดด้วย AG ^{[ 31 ]}อย่างไรก็ตาม วิธีการนี้ไม่สามารถตรวจจับขอบเขตใหม่ได้ ดังนั้นจึงมีทางเลือกอื่น เช่น อัลกอริทึม การเรียนรู้ของเครื่องที่ได้รับการฝึกฝนจากขอบเขตเอ็กซอนที่รู้จักและข้อมูลคุณภาพเพื่อทำนายขอบเขตใหม่^{[ 34 ]}ตัวทำนายขอบเขตเอ็กซอนใหม่มักต้องการอัลกอริทึมการบีบอัดข้อมูลและการจัดเรียงที่มีประสิทธิภาพ แต่มีแนวโน้มที่จะล้มเหลวในขอบเขตที่อยู่ในบริเวณที่มีความครอบคลุมลำดับ ต่ำ หรืออัตราข้อผิดพลาดสูงที่เกิดขึ้นระหว่างการจัดลำดับ^{[ 35 ]}^{[ 36 ]}

การทำนายคุณลักษณะ

จีโนมแบ่งออกเป็น บริเวณ ที่เข้ารหัสและไม่เข้ารหัสและขั้นตอนสุดท้ายของการระบุโครงสร้างประกอบด้วยการระบุคุณลักษณะเหล่านี้ภายในจีโนม อันที่จริง งานหลักในการระบุจีโนมคือการทำนายยีนซึ่งเป็นเหตุผลว่าทำไมจึงมีการพัฒนาวิธีการมากมายเพื่อจุดประสงค์นี้^{[ 19 ]}การทำนายยีนเป็นคำที่ทำให้เข้าใจผิด เนื่องจากตัวทำนายยีนส่วนใหญ่ระบุเฉพาะลำดับการเข้ารหัส (CDS) และไม่รายงานบริเวณที่ไม่ได้รับการแปล (UTR) ด้วยเหตุนี้ จึงมีการเสนอให้ทำนาย CDS เป็นคำที่แม่นยำกว่า^{[ 24 ]}ตัวทำนาย CDS ตรวจจับคุณลักษณะของจีโนมผ่านวิธีการที่เรียกว่าเซนเซอร์ซึ่งรวมถึงเซนเซอร์สัญญาณที่ระบุสัญญาณไซต์การทำงาน เช่นโปรโมเตอร์และไซต์โพลีเอและเซนเซอร์เนื้อหาที่จำแนกลำดับดีเอ็นเอเป็นเนื้อหาที่เข้ารหัสและไม่เข้ารหัส^{[ 37 ]}ในขณะที่ ตัวทำนาย CDS ของโปรคาริโอตส่วนใหญ่เกี่ยวข้องกับเฟรมการอ่านแบบเปิด (ORF) ซึ่งเป็นส่วนของ DNA ระหว่าง โคดอน เริ่มต้นและโคดอน หยุด ตัวทำนาย CDS ของยูคาริโอตต้องเผชิญกับปัญหาที่ยากกว่าเนื่องจากการจัดระเบียบที่ซับซ้อนของยีนยูคาริโอต^[³^]วิธีการทำนาย CDS สามารถจำแนกได้เป็น 3 ประเภทใหญ่ๆ คือ^[²^]^[³¹^]

วิธีการAb initio (เรียกอีกอย่างว่าวิธีการทางสถิติ วิธีการภายใน หรือวิธีการ de novo) การทำนาย CDS ขึ้นอยู่กับข้อมูลที่สามารถสกัดได้จากลำดับ DNA เท่านั้น โดยอาศัยวิธีการทางสถิติ เช่นแบบจำลองมาร์คอฟที่ซ่อนอยู่ (HMM) บางวิธีใช้จีโนมสองจีโนมขึ้นไปเพื่ออนุมานอัตราการกลายพันธุ์ในท้องถิ่นและรูปแบบต่างๆ ตามจีโนม^{[ 38 ]}
วิธีการที่อิงตามความคล้ายคลึง (เรียกอีกอย่างว่า วิธีการเชิงประจักษ์ วิธีการที่ขับเคลื่อนด้วยหลักฐาน หรือวิธีการภายนอก) การทำนาย CDS นั้นอาศัยความคล้ายคลึงกับลำดับที่ทราบแล้ว โดยเฉพาะอย่างยิ่ง จะทำการจัดเรียงลำดับที่วิเคราะห์กับแท็กของลำดับที่แสดงออก (ESTs) ดีเอ็นเอเสริม (cDNA) หรือลำดับโปรตีน
ตัวรวม (Combiners ) การทำนาย CDS ทำได้โดยการรวมวิธีการทั้งสองที่กล่าวมาข้างต้นเข้าด้วยกัน

การระบุหน้าที่การทำงาน

การระบุหน้าที่การทำงานจะกำหนดหน้าที่ให้กับองค์ประกอบทางจีโนมที่พบจากการระบุโครงสร้าง^{[ 7 ]}โดยเชื่อมโยงกับกระบวนการทางชีววิทยา เช่นวงจรเซลล์การตายของเซลล์การพัฒนา การเผาผลาญฯลฯ^{[ 3 ]}นอกจากนี้ยังสามารถใช้เป็นการตรวจสอบคุณภาพเพิ่มเติมโดยการระบุองค์ประกอบที่อาจได้รับการระบุหน้าที่ผิดพลาด^{[ 2 ]}

การทำนายหน้าที่ของลำดับการเข้ารหัส

การระบุหน้าที่ของยีนต้องใช้คำศัพท์ควบคุม (หรือออนโทโลยี) เพื่อตั้งชื่อคุณลักษณะการทำงานที่คาดการณ์ไว้ อย่างไรก็ตาม เนื่องจากมีหลายวิธีในการกำหนดหน้าที่ของยีน กระบวนการระบุหน้าที่อาจถูกขัดขวางเมื่อดำเนินการโดยกลุ่มวิจัยที่แตกต่างกัน ดังนั้นจึงต้องใช้คำศัพท์ควบคุมมาตรฐาน ซึ่งคำศัพท์ที่ครอบคลุมที่สุดคือGene Ontology (GO) โดยจะจำแนกคุณสมบัติการทำงานออกเป็น 3 ประเภท (หน้าที่ระดับโมเลกุล กระบวนการทางชีววิทยา และส่วนประกอบของเซลล์) และจัดระเบียบไว้ในกราฟแบบไม่มีวงจรที่มีทิศทางซึ่งแต่ละโหนดเป็นหน้าที่เฉพาะ และแต่ละขอบ (หรือลูกศร) ระหว่างสองโหนดแสดงถึงความสัมพันธ์ระหว่างผู้ปกครองกับลูก หรือระหว่างหมวดหมู่ย่อยกับหมวดหมู่^{[ 40 ]}^{[ 41 ]}ณ ปี 2020 GO เป็นคำศัพท์ควบคุมที่ใช้กันอย่างแพร่หลายที่สุดสำหรับการระบุหน้าที่ของยีน รองลงมาคือ MIPS Functional Catalog (FunCat) ^{[ 42 ]}

วิธีการทั่วไปบางวิธีสำหรับการระบุหน้าที่การทำงานนั้นใช้หลักความคล้ายคลึงกัน โดยอาศัยเครื่องมือค้นหาการจัดเรียง แบบ โลคอล^[⁴⁰^]สมมติฐานของวิธีนี้คือ การอนุรักษ์ลำดับสูงระหว่างองค์ประกอบจีโนมสององค์ประกอบบ่งชี้ว่าหน้าที่การทำงานขององค์ประกอบเหล่านั้นก็ได้รับการอนุรักษ์เช่นกัน คู่ของลำดับที่คล้ายคลึงกันซึ่งปรากฏขึ้นผ่านพาราโลจี ออร์โธโลจีหรือซีโนโลจีมักจะทำหน้าที่คล้ายกัน อย่างไรก็ตาม ควรระมัดระวังในการใช้ลำดับออร์โธโลจีเนื่องจากสองเหตุผล: (1) อาจมีชื่อที่แตกต่างกันขึ้นอยู่กับเวลาที่ได้รับการระบุครั้งแรก และ (2) อาจไม่ได้ทำหน้าที่เดียวกันในสิ่งมีชีวิตสองชนิดที่แตกต่างกัน ผู้ระบุมักจะอ้างถึง ลำดับ ที่คล้ายคลึงกันเมื่อไม่พบพาราโลจี ออร์โธโลจี หรือซีโนโลจี^[¹⁹^]วิธีการที่ใช้หลักความคล้ายคลึงกันมีข้อเสียหลายประการ เช่น ข้อผิดพลาดในฐานข้อมูล ความไว/ความจำเพาะต่ำ ไม่สามารถแยกแยะระหว่างพาราโลจีและความคล้ายคลึงกัน^[⁴³^]คะแนนสูงเกินจริงเนื่องจากการมีอยู่ของบริเวณที่มีความซับซ้อนต่ำ และความแปรผันอย่างมีนัยสำคัญภายในตระกูลโปรตีน^[⁴⁴^]

การระบุหน้าที่การทำงานสามารถทำได้โดยใช้วิธีการเชิงความน่าจะเป็น การกระจายตัวของกรดอะมิโน ที่ชอบน้ำและไม่ชอบน้ำบ่ง ชี้ว่าโปรตีนนั้นอยู่ในสารละลายหรือเยื่อหุ้มเซลล์ลำดับโมทีฟ เฉพาะ ให้ข้อมูลเกี่ยวกับการดัดแปลงหลังการแปลและตำแหน่งสุดท้ายของโปรตีนใดๆ^[¹⁹^]วิธีการเชิงความน่าจะเป็นอาจจับคู่กับคำศัพท์ที่ควบคุมได้ เช่น GO ตัวอย่างเช่น เครือข่าย ปฏิสัมพันธ์ระหว่างโปรตีน (PPI) มักจะวางโปรตีนที่มีฟังก์ชันคล้ายกันไว้ใกล้กัน^[⁴⁵^]

วิธี การเรียนรู้ของเครื่องยังใช้ในการสร้างคำอธิบายฟังก์ชันสำหรับโปรตีนใหม่โดยอิงจากคำศัพท์ GO โดยทั่วไปแล้ว วิธีการเหล่านี้ประกอบด้วยการสร้างตัวจำแนกแบบไบนารีสำหรับแต่ละคำศัพท์ GO จากนั้นจึงรวมเข้าด้วยกันเพื่อทำนายคำศัพท์ GO แต่ละคำ (สร้างตัวจำแนกแบบหลายคลาส ) ซึ่งจะได้รับคะแนนความเชื่อมั่นในภายหลังเครื่องสนับสนุนเวกเตอร์ (SVM) เป็นตัวจำแนกแบบไบนารีที่ใช้กันอย่างแพร่หลายที่สุดในคำอธิบายฟังก์ชัน อย่างไรก็ตาม อัลกอริทึมอื่นๆ เช่นเพื่อนบ้านใกล้ที่สุด k ตัว (kNN) และเครือข่ายประสาทแบบคอนโวลูชัน (CNN) ก็ถูกนำมาใช้เช่นกัน^{[ 40 ]}

โดยทั่วไปแล้ว วิธีการจำแนกประเภทแบบไบนารีหรือแบบหลายคลาสสำหรับการระบุหน้าที่การทำงานจะให้ผลลัพธ์ที่ไม่แม่นยำนัก เนื่องจากไม่ได้คำนึงถึงความสัมพันธ์ระหว่างคำศัพท์ GO วิธีการขั้นสูงกว่าที่คำนึงถึงความสัมพันธ์เหล่านี้จะทำโดยใช้วิธีการแบบราบหรือแบบลำดับชั้น ซึ่งแตกต่างกันตรงที่วิธีการแบบราบไม่ได้คำนึงถึงโครงสร้างของออนโทโลยี ในขณะที่วิธีการแบบลำดับชั้นคำนึงถึง บางวิธีเหล่านี้บีบอัดคำศัพท์ GO โดยใช้การแยกตัวประกอบเมทริกซ์หรือโดยการแฮชซึ่งช่วยเพิ่มประสิทธิภาพ^{[ 42 ]}

การทำนายหน้าที่ของลำดับที่ไม่เข้ารหัส

ลำดับที่ไม่เข้ารหัส (ncDNA) คือลำดับที่ไม่เข้ารหัสโปรตีน ซึ่งรวมถึงองค์ประกอบต่างๆ เช่น ยีนเทียม การทำซ้ำส่วน ตำแหน่งการจับ และยีน RNA ^{[ 28 ]}

ยีนเทียมคือสำเนาที่กลายพันธุ์ของยีนที่เข้ารหัสโปรตีนซึ่งสูญเสียหน้าที่การเข้ารหัสเนื่องจากการหยุดชะงักในกรอบการอ่านแบบเปิด (ORF) ทำให้ไม่สามารถแปลได้ [ ^{28 ] สามารถ}ระบุได้โดยใช้วิธีใดวิธีหนึ่งต่อไปนี้: ^{[ 46 ]}

วิธีการอิง ความคล้ายคลึง กัน ยีนเทียมถูกระบุโดยการค้นหาลำดับที่คล้ายคลึงกับยีนที่ทำงานได้ แต่มีการกลายพันธุ์ที่ทำให้เกิดการหยุดชะงักใน ORF ของยีนนั้น วิธีนี้ไม่สามารถระบุความสัมพันธ์ทางวิวัฒนาการระหว่างยีนเทียมกับยีนต้นกำเนิด หรือระยะเวลาที่ผ่านไปนับตั้งแต่เหตุการณ์เกิดขึ้นได้
วิธีการอิงตามวิวัฒนาการชาติพันธุ์ ยีนเทียมถูกระบุโดยการวิเคราะห์ทางวิวัฒนาการชาติพันธุ์ ขั้นแรก สร้างแผนภูมิวิวัฒนาการของสายพันธุ์ที่สนใจและแผนภูมิวิวัฒนาการของยีน (หรือตระกูลยีน) ที่สนใจ จากนั้นเปรียบเทียบทั้งสองเพื่อระบุสายพันธุ์ที่สูญเสียยีนนั้นไป ต่อมา ค้นหาลำดับในจีโนมของสายพันธุ์ที่ไม่พบยีนนั้น ที่เป็นออร์โธล็อกกับยีนที่ระบุในสายพันธุ์ที่ใกล้เคียงที่สุด สุดท้าย หากลำดับออร์โธล็อกนี้มีการหยุดชะงักใน ORF (และตรงตามเกณฑ์อื่นๆ เช่นการวิเคราะห์ข้อมูลRNA-Seq อัตราส่วน dN/dSเป็นต้น) แสดงว่าลำดับนั้นเป็นยีนเทียมจริง

การทำซ้ำแบบแบ่งส่วนคือส่วนของ DNA ที่มีมากกว่า 1,000 คู่เบสซึ่งซ้ำกันในจีโนมโดยมีลำดับความเหมือนมากกว่า 90% กลยุทธ์สองอย่างที่ใช้ในการระบุคือ WGAC และ WSSD: ^{[ 47 ]}

การเปรียบเทียบการประกอบจีโนมทั้งหมด (Whole-Genome Assembly Comparisonหรือ WGAC) เป็นวิธีการจัดเรียงลำดับจีโนมทั้งหมดเข้ากับตัวเองเพื่อระบุลำดับที่ซ้ำกันหลังจากกรองลำดับที่ซ้ำกันทั่วไปออกไปแล้ว โดยไม่จำเป็นต้องมีข้อมูลการอ่านต้นฉบับที่ใช้ในการประกอบจีโนม
การตรวจจับลำดับช็อตกันทั้งจีโนม (WSSD) จะจัดเรียงการอ่านดั้งเดิมกับจีโนมที่ประกอบขึ้นและค้นหาบริเวณที่มีความลึกของการอ่านสูงกว่าค่าเฉลี่ย ซึ่งโดยปกติจะเป็นสัญญาณของการทำซ้ำ การทำซ้ำแบบแบ่งส่วนที่ระบุโดยวิธีนี้แต่ไม่พบโดย WGAC มีแนวโน้มที่จะเป็นการทำซ้ำแบบยุบรวม ซึ่งหมายความว่ามีการจัดเรียงผิดพลาดไปยังบริเวณเดียวกัน^{[ 48 ]}

ตำแหน่งการจับของ DNAคือบริเวณในลำดับจีโนมที่จับและโต้ตอบกับโปรตีนเฉพาะ มีบทบาทสำคัญใน การจำลอง และซ่อมแซม DNAการควบคุมการถอดรหัสและการติดเชื้อไวรัสการทำนายตำแหน่งการจับเกี่ยวข้องกับการใช้วิธีการใดวิธีการหนึ่งต่อไปนี้: ^[⁴⁹^]

วิธีการที่ใช้ความคล้ายคลึงของลำดับประกอบด้วยการระบุลำดับที่เหมือนกันกับตำแหน่งการจับกับ DNA ที่ทราบแล้ว หรือโดยการจัดเรียงให้ตรงกับโปรตีนที่ต้องการค้นหา ประสิทธิภาพของวิธีการเหล่านี้มักต่ำ เนื่องจากลำดับการจับกับ DNA มีความคงตัว น้อย กว่า
วิธีการที่อิงตามโครงสร้าง วิธีการเหล่านี้ใช้ข้อมูลโครงสร้างสามมิติของโปรตีนเพื่อทำนายตำแหน่งของบริเวณที่โปรตีนจับกับดีเอ็นเอ

RNA ที่ไม่เข้ารหัส (ncRNA) ซึ่งผลิตโดยยีน RNA เป็น RNA ประเภทหนึ่งที่ไม่ถูกแปลเป็นโปรตีน ประกอบด้วยโมเลกุลต่างๆ เช่นtRNA , rRNA , snoRNAและmicroRNAรวมถึงทรานสคริปต์ที่คล้ายmRNA ที่ไม่เข้ารหัส การทำนายยีน RNA ในจีโนมเดียว แบบ ab initioมักให้ผลลัพธ์ที่ไม่แม่นยำ (ยกเว้น miRNA) ดังนั้นจึงใช้วิธีการเปรียบเทียบหลายจีโนมแทน วิธีการเหล่านี้เกี่ยวข้องกับโครงสร้างทุติยภูมิของ ncRNA โดยเฉพาะ เนื่องจากโครงสร้างเหล่านี้ได้รับการอนุรักษ์ไว้ในสายพันธุ์ที่เกี่ยวข้อง แม้ว่าลำดับของมันจะไม่เป็นเช่นนั้นก็ตาม ดังนั้น การจัดเรียงลำดับหลายลำดับจะช่วยให้ได้ข้อมูลที่เป็นประโยชน์มากขึ้นสำหรับการทำนาย การค้นหาความเหมือนกันอาจถูกนำมาใช้เพื่อระบุยีน RNA แต่กระบวนการนี้ซับซ้อน โดยเฉพาะในยูคาริโอต เนื่องจากมีลำดับซ้ำและยีนเทียมจำนวนมาก^{[ 50 ]}

การแสดงภาพ

รูปแบบไฟล์

การแสดงภาพคำอธิบายประกอบในเบราว์เซอร์จีโนมจำเป็นต้องมีไฟล์เอาต์พุตที่อธิบาย โครงสร้าง อินตรอน - เอ็กซอนของคำอธิบายประกอบแต่ละรายการโคดอน เริ่มต้นและหยุด UTR และทรานสคริปต์ทางเลือก และโดยหลักการแล้วควรมีข้อมูลเกี่ยวกับการจัดเรียงลำดับและการทำนายยีนที่สนับสนุนแบบจำลองยีนแต่ละแบบ รูปแบบที่ใช้กันทั่วไปสำหรับการอธิบายคำอธิบายประกอบ ได้แก่ GenBank, GFF3 , GTF, BEDและ EMBL ^{[ 24 ]}บางรูปแบบเหล่านี้ใช้คำศัพท์ควบคุมและออนโทโลยีเพื่อกำหนดคำศัพท์เชิงพรรณนาและรับประกันความสามารถในการทำงานร่วมกันระหว่างเครื่องมือวิเคราะห์และการแสดงภาพ^{[ 2 ]}

โปรแกรมดูจีโนม

โปรแกรมดูจีโนมเป็นผลิตภัณฑ์ซอฟต์แวร์ที่ช่วยลดความซับซ้อนในการวิเคราะห์และแสดงภาพข้อมูลลำดับจีโนมและข้อมูลคำอธิบายประกอบขนาดใหญ่ เพื่อให้ได้ข้อมูลเชิงลึกทางชีววิทยา ผ่านทางอินเทอร์เฟซแบบกราฟิก^{[ 52 ]}^{[ 31 ]}^{[ 53 ]}

โปรแกรมดูจีโนมสามารถแบ่งออกเป็นโปรแกรมดูจีโนมบนเว็บและโปรแกรมดูจีโนมแบบสแตนด์อะโลน โปรแกรมแบบแรกใช้ข้อมูลจากฐานข้อมูลและสามารถจำแนกได้เป็นแบบหลายสายพันธุ์ (รวมลำดับและคำอธิบายประกอบของสิ่งมีชีวิตหลายชนิดและส่งเสริมการวิเคราะห์เปรียบเทียบข้ามสายพันธุ์) และแบบเฉพาะสายพันธุ์ (เน้นที่สิ่งมีชีวิตหนึ่งชนิดและคำอธิบายประกอบสำหรับสายพันธุ์นั้นๆ) ส่วนโปรแกรมแบบหลังไม่จำเป็นต้องเชื่อมโยงกับฐานข้อมูลจีโนมเฉพาะ แต่เป็นโปรแกรมดูจีโนมอเนกประสงค์ที่สามารถดาวน์โหลดและติดตั้งเป็นแอปพลิเคชันบนคอมพิวเตอร์ในเครื่องได้^{[ 54 ]}^{[ 19 ]}

การแสดงภาพเปรียบเทียบของจีโนม

ภาพแสดงโครงสร้างจีโนมเปรียบเทียบเชิงเส้นของสายพันธุ์ต้นแบบ หลายชนิดจาก ตระกูลและสกุลไวรัส ที่ มีความสัมพันธ์ทางวิวัฒนาการคำอธิบายหน้าที่ของโปรตีนแสดงด้วยสีที่แตกต่างกัน และความเหมือนกันแสดงด้วยโทนสีที่แตกต่างกัน

จีโนมิกส์เชิงเปรียบเทียบมีเป้าหมายเพื่อระบุความคล้ายคลึงและความแตกต่างในลักษณะทางจีโนม ตลอดจนตรวจสอบความสัมพันธ์เชิงวิวัฒนาการระหว่างสิ่งมีชีวิต^{[ 55 ]}เครื่องมือการแสดงภาพที่สามารถแสดงพฤติกรรมเชิงเปรียบเทียบระหว่างจีโนมสองหรือมากกว่านั้นมีความสำคัญต่อแนวทางนี้ และสามารถจำแนกได้เป็นสามประเภทตามการแสดงความสัมพันธ์ระหว่างจีโนมที่เปรียบเทียบกัน: ^{[ 19 ]}

แผนภาพจุด:แผนภาพนี้แสดงเฉพาะการจัดเรียงจีโนมสองจีโนม โดยจีโนมหนึ่งจะแสดงตามแกนแนวนอน และอีกจีโนมหนึ่งจะแสดงตามแกนแนวตั้ง จุดในแผนภาพแสดงถึงองค์ประกอบทางพันธุกรรมที่คล้ายคลึงกันระหว่างจีโนมทั้งสองนี้
การแสดงผลแบบเชิงเส้น:การแสดงผลแบบนี้ใช้แทร็กเชิงเส้นหลายแทร็กเพื่อแสดงจีโนมหลายชุดและคุณลักษณะต่างๆ โดยที่ "แทร็ก" เป็นแนวคิดที่หมายถึงคุณลักษณะทางจีโนมประเภทเฉพาะ ณ ตำแหน่งทางจีโนมหนึ่งๆ
การแสดงผลแบบวงกลม:การแสดงผลแบบนี้ช่วยให้เปรียบเทียบจีโนมของจุลินทรีย์หรือไวรัสทั้งหมดได้ง่ายขึ้น ในโหมดการแสดงผลนี้ วงกลมและส่วนโค้งที่ซ้อนกันจะถูกใช้เพื่อแสดงส่วนต่างๆ ของจีโนม

การควบคุมคุณภาพ

คุณภาพของการประกอบลำดับมีผลต่อคุณภาพของการระบุตำแหน่ง ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องประเมินคุณภาพของการประกอบก่อนที่จะดำเนินการขั้นตอนการระบุตำแหน่งต่อไป^{[ 31 ]} เพื่อวัดคุณภาพของการระบุตำแหน่งจีโนม ได้มีการใช้ตัวชี้วัดสามตัว ได้แก่recall , precisionและaccuracyแม้ว่ามาตรวัดเหล่านี้จะไม่ได้ถูกนำมาใช้ในโครงการระบุตำแหน่งโดยตรง แต่ถูกนำมาใช้ในการอภิปรายเกี่ยวกับความแม่นยำในการทำนายมากกว่า^{[ 56 ]}

แนวทางการระบุคำอธิบายประกอบของชุมชนเป็นเทคนิคที่ยอดเยี่ยมสำหรับการควบคุมคุณภาพและการกำหนดมาตรฐานในการระบุคำอธิบายประกอบจีโนม การประชุมใหญ่ด้านการระบุคำอธิบายประกอบที่จัดขึ้นในปี 2545 นำไปสู่การสร้างมาตรฐานการระบุคำอธิบายประกอบที่ใช้โดยโครงการวิเคราะห์มนุษย์และสัตว์มีกระดูกสันหลังของสถาบันแซงเกอร์ (HAVANA) ^{[ 57 ]}^{[ 20 ]}

การใส่คำอธิบายประกอบใหม่

โครงการการระบุคำอธิบายมักจะอาศัยคำอธิบายก่อนหน้านี้ของจีโนมของสิ่งมีชีวิต อย่างไรก็ตาม คำอธิบายเก่าเหล่านี้อาจมีข้อผิดพลาดที่สามารถแพร่กระจายไปยังคำอธิบายใหม่ได้ เมื่อมีการพัฒนาเทคโนโลยีการวิเคราะห์จีโนมใหม่และมีฐานข้อมูลที่สมบูรณ์มากขึ้น การระบุคำอธิบายของจีโนมเก่าบางส่วนอาจได้รับการปรับปรุง กระบวนการนี้เรียกว่าการระบุคำอธิบายใหม่ ซึ่งสามารถให้ข้อมูลใหม่เกี่ยวกับจีโนมแก่ผู้ใช้ รวมถึงรายละเอียดเกี่ยวกับยีนและหน้าที่ของโปรตีน ดังนั้นการระบุคำอธิบายใหม่จึงเป็นแนวทางที่มีประโยชน์ในการควบคุมคุณภาพ^{[ 56 ]}^{[ 58 ]}

คำอธิบายประกอบจากชุมชน

การใส่คำอธิบายประกอบโดยชุมชนประกอบด้วยการมีส่วนร่วมของชุมชน (ทั้งทางวิทยาศาสตร์และไม่ใช่ทางวิทยาศาสตร์) ในโครงการใส่คำอธิบายประกอบจีโนม สามารถจำแนกได้เป็น 6 ประเภทดังต่อไปนี้: ^{[ 59 ]}^{[ 3 ]}

รูปแบบโรงงาน:การใส่คำอธิบายประกอบดำเนินการโดยกระบวนการอัตโนมัติอย่างสมบูรณ์
รูปแบบพิพิธภัณฑ์: การดูแลจัดการด้วยตนเองโดยผู้เชี่ยวชาญเกี่ยวข้องกับการตีความผลลัพธ์ของโครงการการให้คำอธิบายประกอบ
รูปแบบอุตสาหกรรมในครัวเรือน:การจัดทำคำอธิบายประกอบนั้นกระจายอำนาจและเป็นผลมาจากความพยายามของภัณฑารักษ์นอกเวลาหลายคน
รูปแบบปาร์ตี้หรืองานชุมนุม:ประกอบด้วยเวิร์กช็อปเข้มข้นระยะสั้นกับภัณฑารักษ์ชั้นนำจากชุมชน ถูกนำมาใช้ครั้งแรกในโครงการคำอธิบายประกอบจีโนมDrosophila melanogaster ^{[ 60 ]}
ผู้ให้คำอธิบายประกอบที่ได้รับพร:รูปแบบหนึ่งของโมเดลพิพิธภัณฑ์ที่นำมาใช้ในโครงการ Knockout Mouse Project (KOMP)ซึ่งภัณฑารักษ์จะต้องผ่านช่วงเวลาฝึกอบรมก่อนที่จะให้คำอธิบายประกอบ จากนั้นจะได้รับสิทธิ์เข้าถึงเครื่องมือให้คำอธิบายประกอบเพื่อดำเนินการต่อ
แนวทางการควบคุมดูแล:เป็นการผสมผสานระหว่างรูปแบบงานชุมนุมและการพัฒนาในระดับท้องถิ่น เริ่มต้นด้วยการจัดเวิร์คช็อปการระบุข้อมูล ตามด้วยการทำงานร่วมกันแบบกระจายอำนาจเพื่อขยายและปรับปรุงข้อมูลที่ระบุในเบื้องต้นให้ดียิ่งขึ้น แนวทางนี้ถูกนำไปใช้กับข้อมูลของหลายสายพันธุ์แล้ว

กล่าวกันว่าการใส่คำอธิบายประกอบของชุมชนเป็นแบบมีผู้กำกับดูแลเมื่อมีผู้ประสานงานที่จัดการโครงการโดยขอให้ผู้เชี่ยวชาญจำนวนหนึ่งใส่คำอธิบายประกอบของรายการเฉพาะ ในทางกลับกัน เมื่อใครก็ได้สามารถเข้าร่วมโครงการได้ และการประสานงานเกิดขึ้นในลักษณะกระจายอำนาจ จะเรียกว่า การใส่คำอธิบายประกอบของชุมชน แบบไม่มีผู้กำกับดูแล การใส่คำอธิบายประกอบของชุมชนแบบมีผู้กำกับดูแลมีอายุสั้นและจำกัดอยู่เพียงระยะเวลาของกิจกรรม ในขณะที่แบบไม่มีผู้กำกับดูแลไม่มีข้อจำกัดนี้ อย่างไรก็ตาม แบบหลังประสบความสำเร็จน้อยกว่าแบบแรก อาจเป็นเพราะขาดเวลา แรงจูงใจ สิ่งจูงใจ และ/หรือการสื่อสาร^{[ 61 ]}

วิกิพีเดียมีโครงการวิกิหลายโครงการที่มุ่งปรับปรุงคำอธิบายประกอบตัวอย่างเช่นโครงการวิกิยีน ดำเนินการ บอทที่รวบรวมข้อมูลยีนจากฐานข้อมูลการวิจัยและสร้างโครงร่าง ยีน ตามนั้น ^{[ 62 ]}โครงการวิกิอาร์เอ็นเอ พยายามเขียนบทความที่อธิบายอาร์เอ็นเอแต่ละตัวและตระกูลอาร์เอ็นเอในลักษณะที่เข้าถึงได้ง่าย^{[ 63 ]}

แอปพลิเคชัน

การวินิจฉัยโรค

นักวิจัยกำลังใช้ Gene Ontology เพื่อสร้างความสัมพันธ์ระหว่างโรคกับยีน เนื่องจาก GO ช่วยในการระบุยีนใหม่ การเปลี่ยนแปลงในการแสดงออก การกระจายตัว และการทำงานภายใต้เงื่อนไขที่แตกต่างกัน เช่น สภาวะที่เป็นโรคเทียบกับสภาวะที่สุขภาพดี^{[ 41 ]} ฐานข้อมูลความสัมพันธ์ระหว่างโรคกับยีนของสิ่งมีชีวิตต่างๆ ได้ถูกสร้างขึ้น เช่น Plant-Pathogen Ontology ^{[ 64 ]} Plant-Associated Microbe Gene Ontology ^{[ 65 ]}หรือ DisGeNET ^{[ 66 ]}และบางส่วนได้ถูกนำไปใช้ในฐานข้อมูลที่มีอยู่แล้ว เช่น Rat Disease Ontology ในฐานข้อมูลจีโนมของหนู^{[ 67 ]}

การบำบัดทางชีวภาพ

เอนไซม์แคตาโบลิกที่ หลากหลายซึ่งเกี่ยวข้องกับ การย่อยสลาย ไฮโดรคาร์บอนโดยแบคทีเรียบางสายพันธุ์นั้นถูกเข้ารหัสโดยยีนที่อยู่ในองค์ประกอบทางพันธุกรรมเคลื่อนที่ (MGEs) การศึกษาองค์ประกอบเหล่านี้มีความสำคัญอย่างยิ่งในด้านการบำบัดทางชีวภาพเนื่องจากเมื่อเร็ว ๆ นี้มีการค้นหาการปลูกเชื้อสายพันธุ์ป่าหรือสายพันธุ์ที่ได้รับการดัดแปลงทางพันธุกรรมด้วย MGEs เหล่านี้เพื่อให้ได้ความสามารถในการย่อยสลายไฮโดรคาร์บอน^[⁶⁸^] ในปี 2013 Phale et al. ^[⁶⁹^]ได้ตีพิมพ์คำอธิบายจีโนมของสายพันธุ์Pseudomonas putida (CSV86) ซึ่งเป็นแบคทีเรียที่รู้จักกันดีในเรื่องความชอบแนฟทาลีนและสารประกอบอะโรมาติก อื่น ๆ มากกว่ากลูโคสในฐานะแหล่งคาร์บอนและพลังงาน เพื่อที่จะค้นหา MGEs ของแบคทีเรียนี้ จีโนมของมันได้รับการอธิบายโดยใช้ RAST และNCBI Prokaryotic Genome Annotation Pipeline (PGAP) และสามารถระบุองค์ประกอบเคลื่อนที่ได้เก้าอย่างด้วยฐานข้อมูลInsertion Sequence (IS) Finderการวิเคราะห์นี้สรุปได้ว่ามีการระบุตำแหน่งของยีนเส้นทางด้านบนของการย่อยสลายแนฟทาลีน^[⁷⁰^]ถัดจากยีนที่เข้ารหัส tRNA-Gly และอินทิเกรสรวมถึงการระบุยีนที่เข้ารหัสเอนไซม์ที่เกี่ยวข้องกับการย่อยสลายซาลิไซเลต เบน โซเอต 4-ไฮดรอก ซีเบนโซเอต กรดฟีนิลอะซิ ติกกรดไฮดรอกซีฟีนิลอะซิติก และการรับรู้ถึงโอเปรอนที่เกี่ยวข้องกับการขนส่งกลูโคสในสายพันธุ์

การวิเคราะห์ Gene Ontologyมีความสำคัญอย่างยิ่งในการระบุหน้าที่การทำงาน และโดยเฉพาะอย่างยิ่งในการบำบัดทางชีวภาพ สามารถนำไปใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างยีนของจุลินทรีย์บางชนิดกับหน้าที่การทำงานและบทบาทของพวกมันในการบำบัดสารปนเปื้อนบางชนิด นี่คือแนวทางของการตรวจสอบและระบุHalomonas zinciduransสายพันธุ์ B6(T) ซึ่งเป็นแบคทีเรียที่มี 31 ยีนที่เข้ารหัสความต้านทานต่อโลหะหนักโดยเฉพาะสังกะสี^{[ 71 ]}และStenotrophomonas sp. DDT-1 ซึ่งเป็นสายพันธุ์ที่สามารถใช้DDTเป็นแหล่งคาร์บอนและพลังงานเพียงอย่างเดียว^{[ 72 ]}เพื่อยกตัวอย่างบางส่วน

ซอฟต์แวร์

ยีนใน จีโนม ยูคาริโอตสามารถระบุคำอธิบายประกอบได้โดยใช้เครื่องมือระบุคำอธิบายประกอบต่างๆ^{[ 73 ]}เช่น FINDER ^{[ 74 ]}ไปป์ไลน์การระบุคำอธิบายประกอบที่ทันสมัยสามารถรองรับอินเทอร์เฟซเว็บที่ใช้งานง่ายและการสร้างคอนเทนเนอร์ซอฟต์แวร์ เช่น MOSGA ^{[ 75 ]}^{[ 76 ]}ไปป์ไลน์การระบุคำอธิบายประกอบที่ทันสมัยสำหรับ จีโนม โปรคาริโอตได้แก่ Bakta ^{[ 77 ]} Prokka ^{[ 51 ]}และ PGAP ^{[ 78 ]}

ศูนย์แห่งชาติเพื่อออนโทโลยีชีวการแพทย์พัฒนาเครื่องมือสำหรับคำอธิบายประกอบอัตโนมัติ^{[ 79 ]}ของบันทึกฐานข้อมูลโดยอิงจากคำอธิบายข้อความของบันทึกเหล่านั้น

โดยทั่วไปแล้วdcGO ^{[ 80 ]}มีขั้นตอนอัตโนมัติสำหรับการอนุมานความสัมพันธ์ทางสถิติระหว่างคำศัพท์ออนโทโลยีและโดเมนโปรตีนหรือการรวมกันของโดเมนจากคำอธิบายประกอบระดับยีน/โปรตีนที่มีอยู่

มีการพัฒนาเครื่องมือซอฟต์แวร์หลากหลายชนิดที่ช่วยให้นักวิทยาศาสตร์สามารถดูและแบ่งปันข้อมูลการระบุตำแหน่งยีนในจีโนม ได้ เช่นMAKER

การระบุตำแหน่งยีนในจีโนมเป็นหัวข้อการวิจัยที่กำลังได้รับความสนใจอย่างมาก และเกี่ยวข้องกับองค์กรต่างๆ มากมายในวงการวิทยาศาสตร์ชีวภาพ ซึ่งเผยแพร่ผลการวิจัยของตนในฐานข้อมูลทางชีววิทยา ที่เปิดให้สาธารณะ เข้าถึงได้ทางเว็บและช่องทางอิเล็กทรอนิกส์อื่นๆ ต่อไปนี้คือรายชื่อโครงการที่กำลังดำเนินการอยู่ซึ่งเกี่ยวข้องกับการระบุตำแหน่งยีนในจีโนม เรียงตามลำดับตัวอักษร:

[

การ

[

[

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[

[

[

[

[

[

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

ควบคุม

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39

[ 40 ]

[ 41 ]

[ 42 ]

[

[

[

[ 46 ]

[ 47 ]

[ 48 ]

[

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 61 ]

[ 62 ]

[ 63 ]

[ 64 ]

[ 65 ]

[ 66 ]

[ 67 ]

[

[

[

[ 71 ]

[ 72 ]

[ 73 ]

[ 74 ]

[ 75 ]

[ 76 ]

[ 77 ]

[ 78 ]

[ 79 ]

[ 80 ]