อ่าน 20 นาที
การระบุข้อมูลดีเอ็นเอ
ในชีววิทยาโมเลกุลและพันธุศาสตร์การระบุโครงสร้างดีเอ็นเอหรือการระบุจีโนมคือกระบวนการอธิบายโครงสร้างและหน้าที่ของส่วนประกอบของจีโนม
การระบุข้อมูลดีเอ็นเอ

ในชีววิทยาโมเลกุลและพันธุศาสตร์การระบุโครงสร้างดีเอ็นเอหรือการระบุจีโนมคือกระบวนการอธิบายโครงสร้างและหน้าที่ของส่วนประกอบของจีโนม [ 2 ]โดยการวิเคราะห์และตีความเพื่อดึงความสำคัญทางชีววิทยาและทำความเข้าใจกระบวนการทางชีววิทยาที่ส่วนประกอบเหล่านั้นมีส่วนร่วม[ 3 ]ในบรรดาเรื่องอื่นๆ การระบุตำแหน่งของยีนและบริเวณการเข้ารหัส ทั้งหมด ในจีโนมและกำหนดว่ายีนเหล่านั้นทำอะไร[ 4 ]
การระบุตำแหน่งยีนจะดำเนินการหลังจากลำดับและประกอบ จีโนมแล้ว และเป็นขั้นตอนที่จำเป็นในการวิเคราะห์จีโนมก่อนที่จะฝากลำดับลงในฐานข้อมูลและอธิบายในบทความที่ตีพิมพ์ แม้ว่าการอธิบายยีนแต่ละตัวและผลิตภัณฑ์หรือหน้าที่ของยีนเหล่านั้นจะเพียงพอที่จะถือว่าคำอธิบายนี้เป็นการระบุตำแหน่งยีน แต่ความลึกของการวิเคราะห์ที่รายงานในวรรณกรรมสำหรับจีโนมต่างๆ นั้นแตกต่างกันอย่างมาก โดยบางรายงานรวมถึงข้อมูลเพิ่มเติมที่นอกเหนือไปจากการระบุตำแหน่งยีนแบบง่ายๆ[ 5 ]นอกจากนี้ เนื่องจากขนาดและความซับซ้อนของจีโนมที่ลำดับ การระบุตำแหน่งยีนด้วยดีเอ็นเอจึงไม่ได้ทำด้วยตนเอง แต่จะทำโดยอัตโนมัติด้วยวิธีการคำนวณ อย่างไรก็ตาม ข้อสรุปที่ได้จากผลลัพธ์ที่ได้รับนั้นจำเป็นต้องมีการวิเคราะห์โดยผู้เชี่ยวชาญด้วยตนเอง[ 6 ]
การระบุคำอธิบายประกอบ DNA แบ่งออกเป็นสองประเภท: การระบุคำอธิบายประกอบเชิงโครงสร้างซึ่งระบุและกำหนดขอบเขตขององค์ประกอบในจีโนม และการระบุคำอธิบายประกอบเชิงหน้าที่ซึ่งกำหนดหน้าที่ให้กับองค์ประกอบเหล่านี้[ 7 ] นี่ไม่ใช่เพียงวิธีเดียวในการจัดหมวดหมู่ เนื่องจาก มีการเสนอทาง เลือกอื่น ๆ อีกหลายวิธี เช่น การจัดหมวดหมู่ตามมิติ[ 8 ]และการจัดหมวดหมู่ตามระดับ[ 3 ]
ประวัติศาสตร์
นักอธิบายจีโนมรุ่นแรกใช้ วิธีการ ab initioเฉพาะที่ ซึ่งอาศัยข้อมูลที่สามารถสกัดได้จากลำดับดีเอ็นเอในระดับท้องถิ่นเท่านั้น กล่าวคือเฟรมการอ่านแบบเปิด (ORF) ทีละเฟรม[ 9 ] [ 10 ] วิธี การเหล่านี้เกิดขึ้นเนื่องจากมีความจำเป็นในการจัดการกับข้อมูลจำนวนมหาศาลที่เกิดจาก เทคนิค การจัดลำดับดีเอ็นเอแบบ Maxam-GilbertและSanger ที่พัฒนาขึ้นในช่วงปลายทศวรรษ 1970 ซอฟต์แวร์ตัวแรกที่ใช้ในการวิเคราะห์ลำดับการอ่านคือStaden Packageซึ่งสร้างโดย Rodger Staden ในปี 1977 [ 11 ] ซอฟต์แวร์ นี้ทำงานหลายอย่างที่เกี่ยวข้องกับการอธิบาย เช่นการนับเบสและโคดอนในความเป็นจริง การใช้โคดอนเป็นกลยุทธ์หลักที่ใช้โดย วิธีการทำนาย ลำดับการเข้ารหัสโปรตีน (CDS) ในยุคแรกหลายวิธี [ 12 ] [ 13 ] [ 14 ]โดยอาศัยสมมติฐานที่ว่า บริเวณ ที่มีการแปล มากที่สุดในจีโนมจะมีโคดอนที่มี tRNAที่สอดคล้องกันมากที่สุด(โมเลกุลที่ทำหน้าที่นำกรดอะมิโนไปยังไรโบโซมระหว่างการสังเคราะห์โปรตีน) ซึ่งช่วยให้การแปลมีประสิทธิภาพมากขึ้น[ 15 ]นอกจากนี้ยังเป็นที่ทราบกันดีว่าเป็นเช่นนั้นสำหรับโคดอนที่มีความหมายเหมือนกันซึ่งมักพบในโปรตีนที่แสดงออกในระดับที่ต่ำกว่า[ 13 ] [ 16 ]
การเกิดขึ้นของจีโนมที่สมบูรณ์ในช่วงทศวรรษ 1990 (จีโนมแรกคือจีโนมของHaemophilus influenzaeที่ได้รับการจัดลำดับในปี 1995) นำมาซึ่งนักอธิบายรุ่นที่สอง เช่นเดียวกับในรุ่นก่อนหน้า พวกเขาทำการอธิบายโดยใช้ วิธีการ ab initioแต่ตอนนี้ใช้ในระดับจีโนมทั้งหมด[ 9 ] [ 10 ]แบบจำลอง Markovเป็นแรงขับเคลื่อนเบื้องหลังอัลกอริทึมจำนวนมากที่ใช้ในนักอธิบายรุ่นนี้[ 17 ] [ 18 ]แบบจำลองเหล่านี้สามารถคิดได้ว่าเป็นกราฟแบบมีทิศทางโดยที่โหนดแทนสัญญาณจีโนมที่แตกต่างกัน (เช่น ตำแหน่งเริ่มต้น การถอดรหัสและการแปล ) ที่เชื่อมต่อกันด้วยลูกศรที่แสดงถึงการสแกนลำดับ เพื่อให้แน่ใจว่าแบบจำลอง Markov ตรวจจับสัญญาณจีโนมได้ จะต้องฝึกฝนแบบจำลองนั้นก่อนด้วยชุดของสัญญาณจีโนมที่รู้จัก[ 19 ]ผลลัพธ์ของแบบจำลอง Markov ในบริบทของการระบุคำอธิบายประกอบด้วยความน่าจะเป็นขององค์ประกอบทางพันธุกรรมทุกชนิดในทุกส่วนของจีโนม และแบบจำลอง Markov ที่แม่นยำจะกำหนดความน่าจะเป็นสูงให้กับคำอธิบายที่ถูกต้องและความน่าจะเป็นต่ำให้กับคำอธิบายที่ไม่ถูกต้อง[ 20 ]

เมื่อมีจีโนมที่เรียงลำดับมากขึ้นเริ่มมีให้ใช้งานในช่วงต้นและกลางทศวรรษ 2000 ควบคู่ไปกับลำดับโปรตีนจำนวนมากที่ได้มาจากการทดลอง นักวิเคราะห์จีโนมจึงเริ่มใช้วิธีการที่อิงตามความคล้ายคลึงกัน ซึ่งเป็นการเริ่มต้นของการวิเคราะห์จีโนมรุ่นที่สาม วิธีการใหม่เหล่านี้ช่วยให้นักวิเคราะห์ไม่เพียงแต่สามารถอนุมานองค์ประกอบทางจีโนมผ่านวิธีการทางสถิติ (เช่นเดียวกับในรุ่นก่อนๆ) แต่ยังสามารถทำงานโดยการเปรียบเทียบลำดับที่กำลังวิเคราะห์กับลำดับอื่นๆ ที่มีอยู่และได้รับการตรวจสอบแล้ว นักวิเคราะห์ที่เรียกว่า combiner ซึ่งทำการวิเคราะห์ทั้งแบบab initioและแบบอิงตามความคล้ายคลึงกัน จำเป็นต้องใช้ อัลกอริทึม การจัดเรียง ที่รวดเร็ว เพื่อระบุบริเวณที่มีความคล้ายคลึงกัน[ 2 ] [ 9 ] [ 10 ]
ในช่วงปลายทศวรรษ 2000 การระบุตำแหน่งจีโนมได้เปลี่ยนความสนใจไปที่การระบุบริเวณที่ไม่เข้ารหัสใน DNA ซึ่งทำได้สำเร็จด้วยการปรากฏตัวของวิธีการวิเคราะห์ตำแหน่งการจับของปัจจัยการถอดรหัสตำแหน่งเมทิลเลชั่นของ DNA โครงสร้าง โครมาตินและ เทคนิคการวิเคราะห์ RNAและบริเวณควบคุม อื่นๆ นักวิเคราะห์จีโนมรายอื่นๆ ก็เริ่มมุ่งเน้นไปที่การศึกษาระดับประชากรที่แสดงโดยแพนจีโนมตัวอย่างเช่น การทำเช่นนั้นทำให้มั่นใจได้ว่ายีนหลักของกลุ่มหนึ่งๆจะพบได้ในจีโนมใหม่ของกลุ่มเดียวกัน กลยุทธ์การระบุตำแหน่งทั้งสองนี้ถือเป็นนักวิเคราะห์จีโนมรุ่นที่สี่[ 9 ] [ 10 ]
ภายในทศวรรษ 2010 ลำดับจีโนมของมนุษย์มากกว่าหนึ่งพันคน (ผ่านโครงการ 1000 Genomes Project ) และสิ่งมีชีวิตต้นแบบ หลายชนิด ก็พร้อมใช้งาน ดังนั้น การระบุคำอธิบายประกอบจีโนมจึงยังคงเป็นความท้าทายสำคัญสำหรับนักวิทยาศาสตร์ที่ศึกษาจีโนมของมนุษย์และจีโนมอื่นๆ[ 21 ] [ 22 ]
คำอธิบายประกอบเชิงโครงสร้าง

การระบุโครงสร้างอธิบายตำแหน่งที่แม่นยำขององค์ประกอบต่างๆ ในจีโนม เช่นกรอบการอ่านแบบเปิด (ORF) ลำดับการเข้ารหัส (CDS) เอ็กซอนอินทรอนส่วนที่ซ้ำกันตำแหน่งการเชื่อมต่อ ลวดลายควบคุมรหัสเริ่มต้นและรหัสหยุดและ โปรโมเตอร์[ 6 ] [ 23 ]ขั้นตอนหลักของการระบุโครงสร้างมีดังนี้ :
- ทำซ้ำขั้นตอนการระบุและการปกปิดข้อมูล
- การจัดเรียงหลักฐาน (ไม่บังคับ)
- การระบุตำแหน่งการต่อเชื่อม (เฉพาะในยูคาริโอต)
- การทำนายคุณลักษณะ (ลำดับการเข้ารหัสและไม่เข้ารหัส)
การระบุและการปิดบังซ้ำ
ขั้นตอนแรกของการระบุโครงสร้างประกอบด้วยการระบุและการปิดบังส่วนที่ซ้ำกันซึ่งรวมถึงลำดับที่มีความซับซ้อนต่ำ (เช่น AGAGAGAG หรือส่วนของโมโนพอลิเมอร์ เช่น TTTTTTTTT) และทรานสโพซอน (ซึ่งเป็นองค์ประกอบขนาดใหญ่ที่มีสำเนาหลายชุดทั่วทั้งจีโนม) [ 2 ] [ 24 ]ส่วนที่ซ้ำกันเป็นองค์ประกอบหลักของจีโนมทั้งโปรคาริโอตและยูคาริโอต ตัวอย่างเช่น ระหว่าง 0% ถึงมากกว่า 42% ของจีโนมโปรคาริโอตประกอบด้วยส่วนที่ซ้ำกัน[ 25 ]และสามในสี่ของจีโนมมนุษย์ประกอบด้วยองค์ประกอบที่ซ้ำกัน[ 26 ]
การระบุส่วนที่ซ้ำกันนั้นทำได้ยากด้วยเหตุผลหลักสองประการ คือ ส่วนที่ซ้ำกันนั้นมีการอนุรักษ์ไว้ไม่ดี และขอบเขตของส่วนที่ซ้ำกันนั้นไม่ได้กำหนดไว้อย่างชัดเจน ด้วยเหตุนี้ จึงต้องสร้างไลบรารีส่วนที่ซ้ำกันสำหรับจีโนมที่สนใจ ซึ่งสามารถทำได้ด้วยวิธีใดวิธีหนึ่งต่อไปนี้: [ 24 ] [ 27 ]
- วิธีการแบบde novoการระบุลำดับซ้ำทำได้โดยการตรวจจับและจัดกลุ่มคู่ลำดับที่ตำแหน่งต่างกันซึ่งมีความคล้ายคลึงกันมากกว่าเกณฑ์ขั้นต่ำของการอนุรักษ์ลำดับในการเปรียบเทียบจีโนมตัวเอง ดังนั้นจึงไม่จำเป็นต้องมีข้อมูลก่อนหน้าเกี่ยวกับโครงสร้างหรือลำดับซ้ำ ข้อเสียของวิธีการเหล่านี้คือสามารถระบุลำดับซ้ำใดๆ ก็ได้ ไม่ใช่แค่ทรานสโพซอน และอาจรวมถึงลำดับการเข้ารหัส ที่อนุรักษ์ไว้ (CDS) ทำให้การประมวลผลภายหลังอย่างระมัดระวังเป็นขั้นตอนที่ขาดไม่ได้ในการลบลำดับเหล่านี้ นอกจากนี้ยังอาจละเว้นบริเวณที่เกี่ยวข้องที่เสื่อมสภาพไปตามกาลเวลาและอาจจัดกลุ่มองค์ประกอบที่ไม่มีความเชื่อมโยงกันในประวัติวิวัฒนาการ [ 28 ]
- วิธีการที่ใช้หลักความคล้ายคลึง (Homology-based methods ) การระบุลำดับซ้ำทำได้โดยอาศัยความคล้ายคลึง ( homology ) กับลำดับซ้ำที่ทราบแล้วซึ่งจัดเก็บไว้ในฐานข้อมูลที่จัดระเบียบไว้ วิธีการเหล่านี้มีแนวโน้มที่จะค้นพบทรานสโพซอนจริงได้มากกว่า แม้จะมีปริมาณน้อย เมื่อเปรียบเทียบกับ วิธีการแบบ de novoแต่ก็มีแนวโน้มที่จะเลือกกลุ่มทรานสโพซอนที่เคยระบุไว้แล้วมากกว่า
- วิธีการที่อิงตามโครงสร้างการระบุส่วนที่ซ้ำกันจะขึ้นอยู่กับแบบจำลองโครงสร้างของมัน มากกว่าการซ้ำหรือความคล้ายคลึงกัน วิธีนี้สามารถระบุทรานสโพซอนที่แท้จริงได้ (เช่นเดียวกับวิธีที่อิงตามความคล้ายคลึงกัน) แต่จะไม่ได้รับอิทธิพลจากองค์ประกอบที่รู้จัก อย่างไรก็ตาม วิธีเหล่านี้มีความเฉพาะเจาะจงสูงสำหรับแต่ละประเภทของส่วนที่ซ้ำกัน และด้วยเหตุนี้จึงไม่สามารถนำไปใช้ได้ในวงกว้าง
- วิธีการเปรียบเทียบจีโนมการระบุลำดับซ้ำทำได้โดยการระบุการหยุดชะงักของลำดับหนึ่งลำดับหรือมากกว่าในการจัดเรียงลำดับหลายลำดับที่เกิดจาก บริเวณ การแทรก ขนาดใหญ่ แม้ว่ากลยุทธ์นี้จะหลีกเลี่ยงปัญหาขอบเขตที่ไม่ชัดเจนซึ่งมีอยู่ในวิธีการอื่น ๆ แต่ก็ขึ้นอยู่กับคุณภาพของการประกอบและการทำงานของทรานสโพซอนในจีโนมที่เกี่ยวข้องเป็นอย่างมาก
หลังจากระบุบริเวณที่ซ้ำกันในจีโนมแล้ว จะทำการปิดบังบริเวณเหล่านั้นการปิดบังหมายถึงการแทนที่ตัวอักษรของนิวคลีโอไทด์ (A, C, G หรือ T) ด้วยตัวอักษรอื่น การทำเช่นนี้จะทำให้บริเวณเหล่านี้ถูกทำเครื่องหมายว่าเป็นบริเวณที่ซ้ำกัน และการวิเคราะห์ในขั้นตอนถัดไปจะดำเนินการตามนั้น บริเวณที่ซ้ำกันอาจทำให้เกิดปัญหาด้านประสิทธิภาพหากไม่ถูกปิดบัง และอาจทำให้เกิดหลักฐานที่ผิดพลาดสำหรับการระบุยีน (ตัวอย่างเช่น การพิจารณาเฟรมการอ่านแบบเปิด (ORF) ในทรานสโพซอนว่าเป็นเอ็กซอน ) [ 24 ]ขึ้นอยู่กับตัวอักษรที่ใช้ในการแทนที่ การปิดบังสามารถจำแนกได้เป็นแบบอ่อนหรือแบบแข็ง: ในการปิดบังแบบอ่อนบริเวณที่ซ้ำกันจะถูกระบุด้วยตัวอักษรพิมพ์เล็ก (a, c, g หรือ t) ในขณะที่ในการปิดบังแบบแข็งตัวอักษรของบริเวณเหล่านี้จะถูกแทนที่ด้วย N ด้วยวิธีนี้ ตัวอย่างเช่น การปิดบังแบบอ่อนสามารถใช้เพื่อยกเว้นการจับคู่คำและหลีกเลี่ยงการเริ่มต้นการจัดเรียงในบริเวณเหล่านั้น และการปิดบังแบบแข็ง นอกเหนือจากทั้งหมดนี้ ยังสามารถยกเว้นบริเวณที่ถูกปิดบังจากคะแนนการจัดเรียงได้อีกด้วย[ 29 ] [ 30 ]
การจัดเรียงหลักฐาน
ขั้นตอนต่อไปหลังจากปิดบังจีโนมมักจะเกี่ยวข้องกับการจัดเรียงหลักฐานการถอดรหัสและโปรตีนที่มีอยู่ทั้งหมดให้ตรงกับจีโนมที่วิเคราะห์ นั่นคือ การจัดเรียงแท็กแสดงลำดับ ที่รู้จักทั้งหมด (ESTs) RNAและโปรตีนของสิ่งมีชีวิตที่กำลังถูกระบุคำอธิบายประกอบให้ตรงกับจีโนม[ 31 ]แม้ว่าจะเป็นทางเลือก แต่ก็สามารถปรับปรุงการอธิบายลำดับยีนได้ เนื่องจาก RNA และโปรตีนเป็นผลผลิตโดยตรงจากลำดับการเข้ารหัส[ 19 ]
หาก มีข้อมูล RNA-Seqอยู่ ก็อาจใช้เพื่อระบุและวัดปริมาณยีนทั้งหมดและไอโซฟอร์มที่อยู่ในจีโนมที่เกี่ยวข้อง ซึ่งไม่เพียงแต่ระบุตำแหน่งเท่านั้น แต่ยังระบุอัตราการแสดงออกด้วย[ 32 ]อย่างไรก็ตาม ทรานสคริปต์ให้ข้อมูลไม่เพียงพอสำหรับการทำนายยีน เนื่องจากอาจไม่สามารถหาได้จากบางยีน อาจเข้ารหัสโอเปรอนของยีนมากกว่าหนึ่งยีน และไม่สามารถระบุโคดอนเริ่มต้นและโคดอนหยุดได้เนื่องจากการเลื่อนเฟรมและปัจจัยการเริ่มต้นการแปล [ 19 ] เพื่อแก้ปัญหานี้ จึงมีการใช้แนวทางที่อิงตาม โปรตีโอจีโนมิกส์ซึ่งใช้ข้อมูลจากโปรตีนที่แสดงออกซึ่งมักได้มาจาก สเปกโทรเม ตรีมวล[ 33 ]
การระบุรอยต่อ
การระบุคำอธิบายประกอบของ จีโนม ยูคาริโอตมีความยากลำบากเพิ่มขึ้นอีกชั้นหนึ่งเนื่องจากการตัดต่อ RNAซึ่ง เป็น กระบวนการหลังการถอดรหัสที่อินทรอน (บริเวณที่ไม่เข้ารหัส) ถูกกำจัดออกไปและเอ็กซอน (บริเวณที่เข้ารหัส) ถูกเชื่อมต่อเข้าด้วยกัน[ 23 ]ดังนั้นลำดับการเข้ารหัส ของยูคาริโอต (CDS) จึงไม่ต่อเนื่อง และเพื่อให้แน่ใจว่ามีการระบุอย่างถูกต้อง บริเวณอินทรอนจะต้องถูกกรองออก ในการทำเช่นนั้น ไปป์ไลน์การระบุคำอธิบายประกอบจะต้องค้นหาขอบเขตเอ็กซอน-อินทรอน และมีการพัฒนาวิธีการหลายวิธีเพื่อจุดประสงค์นี้ วิธีแก้ปัญหาวิธีหนึ่งคือการใช้ขอบเขตเอ็กซอนที่รู้จักสำหรับการจัดเรียง ตัวอย่างเช่น อินทรอนจำนวนมากเริ่มต้นด้วย GT และสิ้นสุดด้วย AG [ 31 ]อย่างไรก็ตาม วิธีการนี้ไม่สามารถตรวจจับขอบเขตใหม่ได้ ดังนั้นจึงมีทางเลือกอื่น เช่น อัลกอริทึม การเรียนรู้ของเครื่องที่ได้รับการฝึกฝนจากขอบเขตเอ็กซอนที่รู้จักและข้อมูลคุณภาพเพื่อทำนายขอบเขตใหม่[ 34 ]ตัวทำนายขอบเขตเอ็กซอนใหม่มักต้องการอัลกอริทึมการบีบอัดข้อมูลและการจัดเรียงที่มีประสิทธิภาพ แต่มีแนวโน้มที่จะล้มเหลวในขอบเขตที่อยู่ในบริเวณที่มีความครอบคลุมลำดับ ต่ำ หรืออัตราข้อผิดพลาดสูงที่เกิดขึ้นระหว่างการจัดลำดับ[ 35 ] [ 36 ]
การทำนายคุณลักษณะ
จีโนมแบ่งออกเป็น บริเวณ ที่เข้ารหัสและไม่เข้ารหัสและขั้นตอนสุดท้ายของการระบุโครงสร้างประกอบด้วยการระบุคุณลักษณะเหล่านี้ภายในจีโนม อันที่จริง งานหลักในการระบุจีโนมคือการทำนายยีนซึ่งเป็นเหตุผลว่าทำไมจึงมีการพัฒนาวิธีการมากมายเพื่อจุดประสงค์นี้[ 19 ]การทำนายยีนเป็นคำที่ทำให้เข้าใจผิด เนื่องจากตัวทำนายยีนส่วนใหญ่ระบุเฉพาะลำดับการเข้ารหัส (CDS) และไม่รายงานบริเวณที่ไม่ได้รับการแปล (UTR) ด้วยเหตุนี้ จึงมีการเสนอให้ทำนาย CDS เป็นคำที่แม่นยำกว่า[ 24 ]ตัวทำนาย CDS ตรวจจับคุณลักษณะของจีโนมผ่านวิธีการที่เรียกว่าเซนเซอร์ซึ่งรวมถึงเซนเซอร์สัญญาณที่ระบุสัญญาณไซต์การทำงาน เช่นโปรโมเตอร์และไซต์โพลีเอและเซนเซอร์เนื้อหาที่จำแนกลำดับดีเอ็นเอเป็นเนื้อหาที่เข้ารหัสและไม่เข้ารหัส[ 37 ]ในขณะที่ ตัวทำนาย CDS ของโปรคาริโอตส่วนใหญ่เกี่ยวข้องกับเฟรมการอ่านแบบเปิด (ORF) ซึ่งเป็นส่วนของ DNA ระหว่าง โคดอน เริ่มต้นและโคดอนหยุด ตัวทำนาย CDS ของยูคาริโอตต้องเผชิญกับปัญหาที่ยากกว่าเนื่องจากการจัดระเบียบที่ซับซ้อนของยีนยูคาริโอต[ 3 ]วิธีการทำนาย CDS สามารถจำแนกได้เป็น 3 ประเภทใหญ่ๆ คือ[ 2 ] [ 31 ]
- วิธีการAb initio (เรียกอีกอย่างว่าวิธีการทางสถิติ วิธีการภายใน หรือวิธีการ de novo) การทำนาย CDS ขึ้นอยู่กับข้อมูลที่สามารถสกัดได้จากลำดับ DNA เท่านั้น โดยอาศัยวิธีการทางสถิติ เช่นแบบจำลองมาร์คอฟที่ซ่อนอยู่ (HMM) บางวิธีใช้จีโนมสองจีโนมขึ้นไปเพื่ออนุมานอัตราการกลายพันธุ์ในท้องถิ่นและรูปแบบต่างๆ ตามจีโนม [ 38 ]
- วิธีการที่อิงตามความคล้ายคลึง (เรียกอีกอย่างว่า วิธีการเชิงประจักษ์ วิธีการที่ขับเคลื่อนด้วยหลักฐาน หรือวิธีการภายนอก) การทำนาย CDS นั้นอาศัยความคล้ายคลึงกับลำดับที่ทราบแล้ว โดยเฉพาะอย่างยิ่ง จะทำการจัดเรียงลำดับที่วิเคราะห์กับแท็กของลำดับที่แสดงออก (ESTs) ดีเอ็นเอเสริม (cDNA) หรือลำดับโปรตีน
- ตัวรวม (Combiners ) การทำนาย CDS ทำได้โดยการรวมวิธีการทั้งสองที่กล่าวมาข้างต้นเข้าด้วยกัน
การระบุหน้าที่การทำงาน
การระบุหน้าที่การทำงานจะกำหนดหน้าที่ให้กับองค์ประกอบทางจีโนมที่พบจากการระบุโครงสร้าง[ 7 ]โดยเชื่อมโยงกับกระบวนการทางชีววิทยา เช่นวงจรเซลล์การตายของเซลล์การพัฒนาการเผาผลาญฯลฯ[ 3 ]นอกจากนี้ยังสามารถใช้เป็นการตรวจสอบคุณภาพเพิ่มเติมโดยการระบุองค์ประกอบที่อาจได้รับการระบุหน้าที่ผิดพลาด[ 2 ]
การทำนายหน้าที่ของลำดับการเข้ารหัส

การระบุหน้าที่ของยีนต้องใช้คำศัพท์ควบคุม (หรือออนโทโลยี) เพื่อตั้งชื่อคุณลักษณะการทำงานที่คาดการณ์ไว้ อย่างไรก็ตาม เนื่องจากมีหลายวิธีในการกำหนดหน้าที่ของยีน กระบวนการระบุหน้าที่อาจถูกขัดขวางเมื่อดำเนินการโดยกลุ่มวิจัยที่แตกต่างกัน ดังนั้นจึงต้องใช้คำศัพท์ควบคุมมาตรฐาน ซึ่งคำศัพท์ที่ครอบคลุมที่สุดคือGene Ontology (GO) โดยจะจำแนกคุณสมบัติการทำงานออกเป็น 3 ประเภท (หน้าที่ระดับโมเลกุล กระบวนการทางชีววิทยา และส่วนประกอบของเซลล์) และจัดระเบียบไว้ในกราฟแบบไม่มีวงจรที่มีทิศทางซึ่งแต่ละโหนดเป็นหน้าที่เฉพาะ และแต่ละขอบ (หรือลูกศร) ระหว่างสองโหนดแสดงถึงความสัมพันธ์ระหว่างผู้ปกครองกับลูก หรือระหว่างหมวดหมู่ย่อยกับหมวดหมู่[ 40 ] [ 41 ]ณ ปี 2020 GO เป็นคำศัพท์ควบคุมที่ใช้กันอย่างแพร่หลายที่สุดสำหรับการระบุหน้าที่ของยีน รองลงมาคือ MIPS Functional Catalog (FunCat) [ 42 ]
วิธีการทั่วไปบางวิธีสำหรับการระบุหน้าที่การทำงานนั้นใช้หลักความคล้ายคลึงกัน โดยอาศัยเครื่องมือค้นหาการจัดเรียง แบบ โลคอล[ 40 ]สมมติฐานของวิธีนี้คือ การอนุรักษ์ลำดับสูงระหว่างองค์ประกอบจีโนมสององค์ประกอบบ่งชี้ว่าหน้าที่การทำงานขององค์ประกอบเหล่านั้นก็ได้รับการอนุรักษ์เช่นกัน คู่ของลำดับที่คล้ายคลึงกันซึ่งปรากฏขึ้นผ่านพาราโลจีออร์โธโลจีหรือซีโนโลจีมักจะทำหน้าที่คล้ายกัน อย่างไรก็ตาม ควรระมัดระวังในการใช้ลำดับออร์โธโลจีเนื่องจากสองเหตุผล: (1) อาจมีชื่อที่แตกต่างกันขึ้นอยู่กับเวลาที่ได้รับการระบุครั้งแรก และ (2) อาจไม่ได้ทำหน้าที่เดียวกันในสิ่งมีชีวิตสองชนิดที่แตกต่างกัน ผู้ระบุมักจะอ้างถึง ลำดับ ที่คล้ายคลึงกันเมื่อไม่พบพาราโลจี ออร์โธโลจี หรือซีโนโลจี[ 19 ]วิธีการที่ใช้หลักความคล้ายคลึงกันมีข้อเสียหลายประการ เช่น ข้อผิดพลาดในฐานข้อมูล ความไว/ความจำเพาะต่ำ ไม่สามารถแยกแยะระหว่างพาราโลจีและความคล้ายคลึงกัน[ 43 ]คะแนนสูงเกินจริงเนื่องจากการมีอยู่ของบริเวณที่มีความซับซ้อนต่ำ และความแปรผันอย่างมีนัยสำคัญภายในตระกูลโปรตีน[ 44 ]
การระบุหน้าที่การทำงานสามารถทำได้โดยใช้วิธีการเชิงความน่าจะเป็น การกระจายตัวของกรดอะมิโนที่ชอบน้ำและไม่ชอบน้ำบ่ง ชี้ว่าโปรตีนนั้นอยู่ในสารละลายหรือเยื่อหุ้มเซลล์ลำดับโมทีฟ เฉพาะ ให้ข้อมูลเกี่ยวกับการดัดแปลงหลังการแปลและตำแหน่งสุดท้ายของโปรตีนใดๆ[ 19 ]วิธีการเชิงความน่าจะเป็นอาจจับคู่กับคำศัพท์ที่ควบคุมได้ เช่น GO ตัวอย่างเช่น เครือข่าย ปฏิสัมพันธ์ระหว่างโปรตีน (PPI) มักจะวางโปรตีนที่มีฟังก์ชันคล้ายกันไว้ใกล้กัน[ 45 ]
วิธี การเรียนรู้ของเครื่องยังใช้ในการสร้างคำอธิบายฟังก์ชันสำหรับโปรตีนใหม่โดยอิงจากคำศัพท์ GO โดยทั่วไปแล้ว วิธีการเหล่านี้ประกอบด้วยการสร้างตัวจำแนกแบบไบนารีสำหรับแต่ละคำศัพท์ GO จากนั้นจึงรวมเข้าด้วยกันเพื่อทำนายคำศัพท์ GO แต่ละคำ (สร้างตัวจำแนกแบบหลายคลาส ) ซึ่งจะได้รับคะแนนความเชื่อมั่นในภายหลังเครื่องสนับสนุนเวกเตอร์ (SVM) เป็นตัวจำแนกแบบไบนารีที่ใช้กันอย่างแพร่หลายที่สุดในคำอธิบายฟังก์ชัน อย่างไรก็ตาม อัลกอริทึมอื่นๆ เช่นเพื่อนบ้านใกล้ที่สุด k ตัว (kNN) และเครือข่ายประสาทแบบคอนโวลูชัน (CNN) ก็ถูกนำมาใช้เช่นกัน[ 40 ]
โดยทั่วไปแล้ว วิธีการจำแนกประเภทแบบไบนารีหรือแบบหลายคลาสสำหรับการระบุหน้าที่การทำงานจะให้ผลลัพธ์ที่ไม่แม่นยำนัก เนื่องจากไม่ได้คำนึงถึงความสัมพันธ์ระหว่างคำศัพท์ GO วิธีการขั้นสูงกว่าที่คำนึงถึงความสัมพันธ์เหล่านี้จะทำโดยใช้วิธีการแบบราบหรือแบบลำดับชั้น ซึ่งแตกต่างกันตรงที่วิธีการแบบราบไม่ได้คำนึงถึงโครงสร้างของออนโทโลยี ในขณะที่วิธีการแบบลำดับชั้นคำนึงถึง บางวิธีเหล่านี้บีบอัดคำศัพท์ GO โดยใช้การแยกตัวประกอบเมทริกซ์หรือโดยการแฮชซึ่งช่วยเพิ่มประสิทธิภาพ[ 42 ]
การทำนายหน้าที่ของลำดับที่ไม่เข้ารหัส
ลำดับที่ไม่เข้ารหัส (ncDNA) คือลำดับที่ไม่เข้ารหัสโปรตีน ซึ่งรวมถึงองค์ประกอบต่างๆ เช่น ยีนเทียม การทำซ้ำส่วน ตำแหน่งการจับ และยีน RNA [ 28 ]
ยีนเทียมคือสำเนาที่กลายพันธุ์ของยีนที่เข้ารหัสโปรตีนซึ่งสูญเสียหน้าที่การเข้ารหัสเนื่องจากการหยุดชะงักในกรอบการอ่านแบบเปิด (ORF) ทำให้ไม่สามารถแปลได้ [ 28 ] สามารถระบุได้โดยใช้วิธีใดวิธีหนึ่งต่อไปนี้: [ 46 ]
- วิธีการอิง ความคล้ายคลึง กัน ยีนเทียมถูกระบุโดยการค้นหาลำดับที่คล้ายคลึงกับยีนที่ทำงานได้ แต่มีการกลายพันธุ์ที่ทำให้เกิดการหยุดชะงักใน ORF ของยีนนั้น วิธีนี้ไม่สามารถระบุความสัมพันธ์ทางวิวัฒนาการระหว่างยีนเทียมกับยีนต้นกำเนิด หรือระยะเวลาที่ผ่านไปนับตั้งแต่เหตุการณ์เกิดขึ้นได้
- วิธีการอิงตามวิวัฒนาการชาติพันธุ์ ยีนเทียมถูกระบุโดยการวิเคราะห์ทางวิวัฒนาการชาติพันธุ์ ขั้นแรก สร้างแผนภูมิวิวัฒนาการของสายพันธุ์ที่สนใจและแผนภูมิวิวัฒนาการของยีน (หรือตระกูลยีน) ที่สนใจ จากนั้นเปรียบเทียบทั้งสองเพื่อระบุสายพันธุ์ที่สูญเสียยีนนั้นไป ต่อมา ค้นหาลำดับในจีโนมของสายพันธุ์ที่ไม่พบยีนนั้น ที่เป็นออร์โธล็อกกับยีนที่ระบุในสายพันธุ์ที่ใกล้เคียงที่สุด สุดท้าย หากลำดับออร์โธล็อกนี้มีการหยุดชะงักใน ORF (และตรงตามเกณฑ์อื่นๆ เช่นการวิเคราะห์ข้อมูลRNA-Seq อัตราส่วน dN/dSเป็นต้น) แสดงว่าลำดับนั้นเป็นยีนเทียมจริง
การทำซ้ำแบบแบ่งส่วนคือส่วนของ DNA ที่มีมากกว่า 1,000 คู่เบสซึ่งซ้ำกันในจีโนมโดยมีลำดับความเหมือนมากกว่า 90% กลยุทธ์สองอย่างที่ใช้ในการระบุคือ WGAC และ WSSD: [ 47 ]
- การเปรียบเทียบการประกอบจีโนมทั้งหมด (Whole-Genome Assembly Comparisonหรือ WGAC) เป็นวิธีการจัดเรียงลำดับจีโนมทั้งหมดเข้ากับตัวเองเพื่อระบุลำดับที่ซ้ำกันหลังจากกรองลำดับที่ซ้ำกันทั่วไปออกไปแล้ว โดยไม่จำเป็นต้องมีข้อมูลการอ่านต้นฉบับที่ใช้ในการประกอบจีโนม
- การตรวจจับลำดับช็อตกันทั้งจีโนม (WSSD) จะจัดเรียงการอ่านดั้งเดิมกับจีโนมที่ประกอบขึ้นและค้นหาบริเวณที่มีความลึกของการอ่านสูงกว่าค่าเฉลี่ย ซึ่งโดยปกติจะเป็นสัญญาณของการทำซ้ำ การทำซ้ำแบบแบ่งส่วนที่ระบุโดยวิธีนี้แต่ไม่พบโดย WGAC มีแนวโน้มที่จะเป็นการทำซ้ำแบบยุบรวม ซึ่งหมายความว่ามีการจัดเรียงผิดพลาดไปยังบริเวณเดียวกัน[ 48 ]
ตำแหน่งการจับของ DNAคือบริเวณในลำดับจีโนมที่จับและโต้ตอบกับโปรตีนเฉพาะ มีบทบาทสำคัญใน การจำลอง และซ่อมแซมDNAการควบคุมการถอดรหัสและการติดเชื้อไวรัสการทำนายตำแหน่งการจับเกี่ยวข้องกับการใช้วิธีการใดวิธีการหนึ่งต่อไปนี้: [ 49 ]
- วิธีการที่ใช้ความคล้ายคลึงของลำดับประกอบด้วยการระบุลำดับที่เหมือนกันกับตำแหน่งการจับกับ DNA ที่ทราบแล้ว หรือโดยการจัดเรียงให้ตรงกับโปรตีนที่ต้องการค้นหา ประสิทธิภาพของวิธีการเหล่านี้มักต่ำ เนื่องจากลำดับการจับกับ DNA มีความคงตัว น้อย กว่า
- วิธีการที่อิงตามโครงสร้าง วิธีการเหล่านี้ใช้ข้อมูลโครงสร้างสามมิติของโปรตีนเพื่อทำนายตำแหน่งของบริเวณที่โปรตีนจับกับดีเอ็นเอ
RNA ที่ไม่เข้ารหัส (ncRNA) ซึ่งผลิตโดยยีน RNA เป็น RNA ประเภทหนึ่งที่ไม่ถูกแปลเป็นโปรตีน ประกอบด้วยโมเลกุลต่างๆ เช่นtRNA , rRNA , snoRNAและmicroRNAรวมถึงทรานสคริปต์ที่คล้ายmRNA ที่ไม่เข้ารหัส การทำนายยีน RNA ในจีโนมเดียว แบบ ab initioมักให้ผลลัพธ์ที่ไม่แม่นยำ (ยกเว้น miRNA) ดังนั้นจึงใช้วิธีการเปรียบเทียบหลายจีโนมแทน วิธีการเหล่านี้เกี่ยวข้องกับโครงสร้างทุติยภูมิของ ncRNA โดยเฉพาะ เนื่องจากโครงสร้างเหล่านี้ได้รับการอนุรักษ์ไว้ในสายพันธุ์ที่เกี่ยวข้อง แม้ว่าลำดับของมันจะไม่เป็นเช่นนั้นก็ตาม ดังนั้น การจัดเรียงลำดับหลายลำดับจะช่วยให้ได้ข้อมูลที่เป็นประโยชน์มากขึ้นสำหรับการทำนาย การค้นหาความเหมือนกันอาจถูกนำมาใช้เพื่อระบุยีน RNA แต่กระบวนการนี้ซับซ้อน โดยเฉพาะในยูคาริโอต เนื่องจากมีลำดับซ้ำและยีนเทียมจำนวนมาก[ 50 ]
การแสดงภาพ

รูปแบบไฟล์
การแสดงภาพคำอธิบายประกอบในเบราว์เซอร์จีโนมจำเป็นต้องมีไฟล์เอาต์พุตที่อธิบาย โครงสร้าง อินตรอน - เอ็กซอนของคำอธิบายประกอบแต่ละรายการโคดอน เริ่มต้นและหยุด UTR และทรานสคริปต์ทางเลือก และโดยหลักการแล้วควรมีข้อมูลเกี่ยวกับการจัดเรียงลำดับและการทำนายยีนที่สนับสนุนแบบจำลองยีนแต่ละแบบ รูปแบบที่ใช้กันทั่วไปสำหรับการอธิบายคำอธิบายประกอบ ได้แก่ GenBank, GFF3 , GTF, BEDและ EMBL [ 24 ]บางรูปแบบเหล่านี้ใช้คำศัพท์ควบคุมและออนโทโลยีเพื่อกำหนดคำศัพท์เชิงพรรณนาและรับประกันความสามารถในการทำงานร่วมกันระหว่างเครื่องมือวิเคราะห์และการแสดงภาพ[ 2 ]
โปรแกรมดูจีโนม
โปรแกรมดูจีโนมเป็นผลิตภัณฑ์ซอฟต์แวร์ที่ช่วยลดความซับซ้อนในการวิเคราะห์และแสดงภาพข้อมูลลำดับจีโนมและข้อมูลคำอธิบายประกอบขนาดใหญ่ เพื่อให้ได้ข้อมูลเชิงลึกทางชีววิทยา ผ่านทางอินเทอร์เฟซแบบกราฟิก[ 52 ] [ 31 ] [ 53 ]
โปรแกรมดูจีโนมสามารถแบ่งออกเป็นโปรแกรมดูจีโนมบนเว็บและโปรแกรมดูจีโนมแบบสแตนด์อะโลน โปรแกรมแบบแรกใช้ข้อมูลจากฐานข้อมูลและสามารถจำแนกได้เป็นแบบหลายสายพันธุ์ (รวมลำดับและคำอธิบายประกอบของสิ่งมีชีวิตหลายชนิดและส่งเสริมการวิเคราะห์เปรียบเทียบข้ามสายพันธุ์) และแบบเฉพาะสายพันธุ์ (เน้นที่สิ่งมีชีวิตหนึ่งชนิดและคำอธิบายประกอบสำหรับสายพันธุ์นั้นๆ) ส่วนโปรแกรมแบบหลังไม่จำเป็นต้องเชื่อมโยงกับฐานข้อมูลจีโนมเฉพาะ แต่เป็นโปรแกรมดูจีโนมอเนกประสงค์ที่สามารถดาวน์โหลดและติดตั้งเป็นแอปพลิเคชันบนคอมพิวเตอร์ในเครื่องได้[ 54 ] [ 19 ]
การแสดงภาพเปรียบเทียบของจีโนม

จีโนมิกส์เชิงเปรียบเทียบมีเป้าหมายเพื่อระบุความคล้ายคลึงและความแตกต่างในลักษณะทางจีโนม ตลอดจนตรวจสอบความสัมพันธ์เชิงวิวัฒนาการระหว่างสิ่งมีชีวิต[ 55 ]เครื่องมือการแสดงภาพที่สามารถแสดงพฤติกรรมเชิงเปรียบเทียบระหว่างจีโนมสองหรือมากกว่านั้นมีความสำคัญต่อแนวทางนี้ และสามารถจำแนกได้เป็นสามประเภทตามการแสดงความสัมพันธ์ระหว่างจีโนมที่เปรียบเทียบกัน: [ 19 ]
- แผนภาพจุด:แผนภาพนี้แสดงเฉพาะการจัดเรียงจีโนมสองจีโนม โดยจีโนมหนึ่งจะแสดงตามแกนแนวนอน และอีกจีโนมหนึ่งจะแสดงตามแกนแนวตั้ง จุดในแผนภาพแสดงถึงองค์ประกอบทางพันธุกรรมที่คล้ายคลึงกันระหว่างจีโนมทั้งสองนี้
- การแสดงผลแบบเชิงเส้น:การแสดงผลแบบนี้ใช้แทร็กเชิงเส้นหลายแทร็กเพื่อแสดงจีโนมหลายชุดและคุณลักษณะต่างๆ โดยที่ "แทร็ก" เป็นแนวคิดที่หมายถึงคุณลักษณะทางจีโนมประเภทเฉพาะ ณ ตำแหน่งทางจีโนมหนึ่งๆ
- การแสดงผลแบบวงกลม:การแสดงผลแบบนี้ช่วยให้เปรียบเทียบจีโนมของจุลินทรีย์หรือไวรัสทั้งหมดได้ง่ายขึ้น ในโหมดการแสดงผลนี้ วงกลมและส่วนโค้งที่ซ้อนกันจะถูกใช้เพื่อแสดงส่วนต่างๆ ของจีโนม
การควบคุมคุณภาพ
คุณภาพของการประกอบลำดับมีผลต่อคุณภาพของการระบุตำแหน่ง ดังนั้นจึงเป็นสิ่งสำคัญที่จะต้องประเมินคุณภาพของการประกอบก่อนที่จะดำเนินการขั้นตอนการระบุตำแหน่งต่อไป[ 31 ] เพื่อวัดคุณภาพของการระบุตำแหน่งจีโนม ได้มีการใช้ตัวชี้วัดสามตัว ได้แก่recall , precisionและaccuracyแม้ว่ามาตรวัดเหล่านี้จะไม่ได้ถูกนำมาใช้ในโครงการระบุตำแหน่งโดยตรง แต่ถูกนำมาใช้ในการอภิปรายเกี่ยวกับความแม่นยำในการทำนายมากกว่า[ 56 ]
แนวทางการระบุคำอธิบายประกอบของชุมชนเป็นเทคนิคที่ยอดเยี่ยมสำหรับการควบคุมคุณภาพและการกำหนดมาตรฐานในการระบุคำอธิบายประกอบจีโนม การประชุมใหญ่ด้านการระบุคำอธิบายประกอบที่จัดขึ้นในปี 2545 นำไปสู่การสร้างมาตรฐานการระบุคำอธิบายประกอบที่ใช้โดยโครงการวิเคราะห์มนุษย์และสัตว์มีกระดูกสันหลังของสถาบันแซงเกอร์ (HAVANA) [ 57 ] [ 20 ]
การใส่คำอธิบายประกอบใหม่
โครงการการระบุคำอธิบายมักจะอาศัยคำอธิบายก่อนหน้านี้ของจีโนมของสิ่งมีชีวิต อย่างไรก็ตาม คำอธิบายเก่าเหล่านี้อาจมีข้อผิดพลาดที่สามารถแพร่กระจายไปยังคำอธิบายใหม่ได้ เมื่อมีการพัฒนาเทคโนโลยีการวิเคราะห์จีโนมใหม่และมีฐานข้อมูลที่สมบูรณ์มากขึ้น การระบุคำอธิบายของจีโนมเก่าบางส่วนอาจได้รับการปรับปรุง กระบวนการนี้เรียกว่าการระบุคำอธิบายใหม่ ซึ่งสามารถให้ข้อมูลใหม่เกี่ยวกับจีโนมแก่ผู้ใช้ รวมถึงรายละเอียดเกี่ยวกับยีนและหน้าที่ของโปรตีน ดังนั้นการระบุคำอธิบายใหม่จึงเป็นแนวทางที่มีประโยชน์ในการควบคุมคุณภาพ[ 56 ] [ 58 ]
คำอธิบายประกอบจากชุมชน
การใส่คำอธิบายประกอบโดยชุมชนประกอบด้วยการมีส่วนร่วมของชุมชน (ทั้งทางวิทยาศาสตร์และไม่ใช่ทางวิทยาศาสตร์) ในโครงการใส่คำอธิบายประกอบจีโนม สามารถจำแนกได้เป็น 6 ประเภทดังต่อไปนี้: [ 59 ] [ 3 ]
- รูปแบบโรงงาน:การใส่คำอธิบายประกอบดำเนินการโดยกระบวนการอัตโนมัติอย่างสมบูรณ์
- รูปแบบพิพิธภัณฑ์: การดูแลจัดการด้วยตนเองโดยผู้เชี่ยวชาญเกี่ยวข้องกับการตีความผลลัพธ์ของโครงการการให้คำอธิบายประกอบ
- รูปแบบอุตสาหกรรมในครัวเรือน:การจัดทำคำอธิบายประกอบนั้นกระจายอำนาจและเป็นผลมาจากความพยายามของภัณฑารักษ์นอกเวลาหลายคน
- รูปแบบปาร์ตี้หรืองานชุมนุม:ประกอบด้วยเวิร์กช็อปเข้มข้นระยะสั้นกับภัณฑารักษ์ชั้นนำจากชุมชน ถูกนำมาใช้ครั้งแรกในโครงการคำอธิบายประกอบจีโนมDrosophila melanogaster [ 60 ]
- ผู้ให้คำอธิบายประกอบที่ได้รับพร:รูปแบบหนึ่งของโมเดลพิพิธภัณฑ์ที่นำมาใช้ในโครงการ Knockout Mouse Project (KOMP)ซึ่งภัณฑารักษ์จะต้องผ่านช่วงเวลาฝึกอบรมก่อนที่จะให้คำอธิบายประกอบ จากนั้นจะได้รับสิทธิ์เข้าถึงเครื่องมือให้คำอธิบายประกอบเพื่อดำเนินการต่อ
- แนวทางการควบคุมดูแล:เป็นการผสมผสานระหว่างรูปแบบงานชุมนุมและการพัฒนาในระดับท้องถิ่น เริ่มต้นด้วยการจัดเวิร์คช็อปการระบุข้อมูล ตามด้วยการทำงานร่วมกันแบบกระจายอำนาจเพื่อขยายและปรับปรุงข้อมูลที่ระบุในเบื้องต้นให้ดียิ่งขึ้น แนวทางนี้ถูกนำไปใช้กับข้อมูลของหลายสายพันธุ์แล้ว
กล่าวกันว่าการใส่คำอธิบายประกอบของชุมชนเป็นแบบมีผู้กำกับดูแลเมื่อมีผู้ประสานงานที่จัดการโครงการโดยขอให้ผู้เชี่ยวชาญจำนวนหนึ่งใส่คำอธิบายประกอบของรายการเฉพาะ ในทางกลับกัน เมื่อใครก็ได้สามารถเข้าร่วมโครงการได้ และการประสานงานเกิดขึ้นในลักษณะกระจายอำนาจ จะเรียกว่า การใส่คำอธิบายประกอบของชุมชน แบบไม่มีผู้กำกับดูแล การใส่คำอธิบายประกอบของชุมชนแบบมีผู้กำกับดูแลมีอายุสั้นและจำกัดอยู่เพียงระยะเวลาของกิจกรรม ในขณะที่แบบไม่มีผู้กำกับดูแลไม่มีข้อจำกัดนี้ อย่างไรก็ตาม แบบหลังประสบความสำเร็จน้อยกว่าแบบแรก อาจเป็นเพราะขาดเวลา แรงจูงใจ สิ่งจูงใจ และ/หรือการสื่อสาร[ 61 ]
วิกิพีเดียมีโครงการวิกิหลายโครงการที่มุ่งปรับปรุงคำอธิบายประกอบตัวอย่างเช่นโครงการวิกิยีน ดำเนินการ บอทที่รวบรวมข้อมูลยีนจากฐานข้อมูลการวิจัยและสร้างโครงร่าง ยีน ตามนั้น [ 62 ]โครงการวิกิอาร์เอ็นเอ พยายามเขียนบทความที่อธิบายอาร์เอ็นเอแต่ละตัวและตระกูลอาร์เอ็นเอในลักษณะที่เข้าถึงได้ง่าย[ 63 ]
แอปพลิเคชัน
การวินิจฉัยโรค
นักวิจัยกำลังใช้ Gene Ontology เพื่อสร้างความสัมพันธ์ระหว่างโรคกับยีน เนื่องจาก GO ช่วยในการระบุยีนใหม่ การเปลี่ยนแปลงในการแสดงออก การกระจายตัว และการทำงานภายใต้เงื่อนไขที่แตกต่างกัน เช่น สภาวะที่เป็นโรคเทียบกับสภาวะที่สุขภาพดี[ 41 ] ฐานข้อมูลความสัมพันธ์ระหว่างโรคกับยีนของสิ่งมีชีวิตต่างๆ ได้ถูกสร้างขึ้น เช่น Plant-Pathogen Ontology [ 64 ] Plant-Associated Microbe Gene Ontology [ 65 ]หรือ DisGeNET [ 66 ]และบางส่วนได้ถูกนำไปใช้ในฐานข้อมูลที่มีอยู่แล้ว เช่น Rat Disease Ontology ในฐานข้อมูลจีโนมของหนู[ 67 ]
การบำบัดทางชีวภาพ
เอนไซม์แคตาโบลิกที่ หลากหลายซึ่งเกี่ยวข้องกับ การย่อยสลาย ไฮโดรคาร์บอนโดยแบคทีเรียบางสายพันธุ์นั้นถูกเข้ารหัสโดยยีนที่อยู่ในองค์ประกอบทางพันธุกรรมเคลื่อนที่ (MGEs) การศึกษาองค์ประกอบเหล่านี้มีความสำคัญอย่างยิ่งในด้านการบำบัดทางชีวภาพเนื่องจากเมื่อเร็ว ๆ นี้มีการค้นหาการปลูกเชื้อสายพันธุ์ป่าหรือสายพันธุ์ที่ได้รับการดัดแปลงทางพันธุกรรมด้วย MGEs เหล่านี้เพื่อให้ได้ความสามารถในการย่อยสลายไฮโดรคาร์บอน[ 68 ] ในปี 2013 Phale et al. [ 69 ]ได้ตีพิมพ์คำอธิบายจีโนมของสายพันธุ์Pseudomonas putida (CSV86) ซึ่งเป็นแบคทีเรียที่รู้จักกันดีในเรื่องความชอบแนฟทาลีนและสารประกอบอะโรมาติก อื่น ๆ มากกว่ากลูโคสในฐานะแหล่งคาร์บอนและพลังงาน เพื่อที่จะค้นหา MGEs ของแบคทีเรียนี้ จีโนมของมันได้รับการอธิบายโดยใช้ RAST และNCBI Prokaryotic Genome Annotation Pipeline (PGAP) และสามารถระบุองค์ประกอบเคลื่อนที่ได้เก้าอย่างด้วยฐานข้อมูลInsertion Sequence (IS) Finderการวิเคราะห์นี้สรุปได้ว่ามีการระบุตำแหน่งของยีนเส้นทางด้านบนของการย่อยสลายแนฟทาลีน[ 70 ]ถัดจากยีนที่เข้ารหัส tRNA-Gly และอินทิเกรสรวมถึงการระบุยีนที่เข้ารหัสเอนไซม์ที่เกี่ยวข้องกับการย่อยสลายซาลิไซเลต เบน โซเอต4-ไฮดรอก ซีเบนโซเอต กรดฟีนิลอะซิ ติกกรดไฮดรอกซีฟีนิลอะซิติก และการรับรู้ถึงโอเปรอนที่เกี่ยวข้องกับการขนส่งกลูโคสในสายพันธุ์
การวิเคราะห์ Gene Ontologyมีความสำคัญอย่างยิ่งในการระบุหน้าที่การทำงาน และโดยเฉพาะอย่างยิ่งในการบำบัดทางชีวภาพ สามารถนำไปใช้เพื่อทำความเข้าใจความสัมพันธ์ระหว่างยีนของจุลินทรีย์บางชนิดกับหน้าที่การทำงานและบทบาทของพวกมันในการบำบัดสารปนเปื้อนบางชนิด นี่คือแนวทางของการตรวจสอบและระบุHalomonas zinciduransสายพันธุ์ B6(T) ซึ่งเป็นแบคทีเรียที่มี 31 ยีนที่เข้ารหัสความต้านทานต่อโลหะหนักโดยเฉพาะสังกะสี[ 71 ]และStenotrophomonas sp. DDT-1 ซึ่งเป็นสายพันธุ์ที่สามารถใช้DDTเป็นแหล่งคาร์บอนและพลังงานเพียงอย่างเดียว[ 72 ]เพื่อยกตัวอย่างบางส่วน
ซอฟต์แวร์
ยีนใน จีโนม ยูคาริโอตสามารถระบุคำอธิบายประกอบได้โดยใช้เครื่องมือระบุคำอธิบายประกอบต่างๆ[ 73 ]เช่น FINDER [ 74 ]ไปป์ไลน์การระบุคำอธิบายประกอบที่ทันสมัยสามารถรองรับอินเทอร์เฟซเว็บที่ใช้งานง่ายและการสร้างคอนเทนเนอร์ซอฟต์แวร์ เช่น MOSGA [ 75 ] [ 76 ]ไปป์ไลน์การระบุคำอธิบายประกอบที่ทันสมัยสำหรับ จีโนม โปรคาริโอตได้แก่ Bakta [ 77 ] Prokka [ 51 ]และ PGAP [ 78 ]
ศูนย์แห่งชาติเพื่อออนโทโลยีชีวการแพทย์พัฒนาเครื่องมือสำหรับคำอธิบายประกอบอัตโนมัติ[ 79 ]ของบันทึกฐานข้อมูลโดยอิงจากคำอธิบายข้อความของบันทึกเหล่านั้น
โดยทั่วไปแล้วdcGO [ 80 ]มีขั้นตอนอัตโนมัติสำหรับการอนุมานความสัมพันธ์ทางสถิติระหว่างคำศัพท์ออนโทโลยีและโดเมนโปรตีนหรือการรวมกันของโดเมนจากคำอธิบายประกอบระดับยีน/โปรตีนที่มีอยู่
มีการพัฒนาเครื่องมือซอฟต์แวร์หลากหลายชนิดที่ช่วยให้นักวิทยาศาสตร์สามารถดูและแบ่งปันข้อมูลการระบุตำแหน่งยีนในจีโนม ได้ เช่นMAKER
การระบุตำแหน่งยีนในจีโนมเป็นหัวข้อการวิจัยที่กำลังได้รับความสนใจอย่างมาก และเกี่ยวข้องกับองค์กรต่างๆ มากมายในวงการวิทยาศาสตร์ชีวภาพ ซึ่งเผยแพร่ผลการวิจัยของตนในฐานข้อมูลทางชีววิทยา ที่เปิดให้สาธารณะ เข้าถึงได้ทางเว็บและช่องทางอิเล็กทรอนิกส์อื่นๆ ต่อไปนี้คือรายชื่อโครงการที่กำลังดำเนินการอยู่ซึ่งเกี่ยวข้องกับการระบุตำแหน่งยีนในจีโนม เรียงตามลำดับตัวอักษร:
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การระบุข้อมูลดีเอ็นเอ
ในชีววิทยาโมเลกุลและพันธุศาสตร์การระบุโครงสร้างดีเอ็นเอหรือการระบุจีโนมคือกระบวนการอธิบายโครงสร้างและหน้าที่ของส่วนประกอบของจีโนม
ประวัติศาสตร์
นักอธิบายจีโนมรุ่นแรกใช้ วิธีการ ab initio เฉพาะที่ ซึ่งอาศัยข้อมูลที่สามารถสกัดได้จากลำดับดีเอ็นเอในระดับท้องถิ่นเท่านั้น กล่าวคือ เฟรมการอ่านแบบเปิด (ORF) ทีละเฟรม [ 9 ] [ 10 ] วิธี...
คำอธิบายประกอบเชิงโครงสร้าง
การระบุโครงสร้างอธิบายตำแหน่งที่แม่นยำขององค์ประกอบต่างๆ ในจีโนม เช่น กรอบการอ่านแบบเปิด (ORF) ลำดับการเข้ารหัส (CDS) เอ็ก ซอน อินทรอน ส่วน ที่ซ้ำกัน ตำแหน่งการเชื่อมต่อ ลวดลาย ควบคุม รหัส เริ่ม ต้น และรหัส หยุด และ โปรโมเตอร์ [ 6 ] [ 23 ]...
การระบุและการปิดบังซ้ำ
ขั้นตอนแรกของการระบุโครงสร้างประกอบด้วยการระบุและการปิดบัง ส่วนที่ซ้ำกัน ซึ่งรวมถึงลำดับที่มีความซับซ้อนต่ำ (เช่น AGAGAGAG หรือส่วนของโมโนพอลิเมอร์ เช่น TTTTTTTTT) และ ทรานสโพซอน (ซึ่งเป็นองค์ประกอบขนาดใหญ่ที่มีสำเนาหลายชุดทั่วทั้งจีโนม) [ 2 ] [ 24 ]...