อ่าน 16 นาที
เข้ารหัส
สารานุกรม องค์ประกอบดีเอ็นเอ ( ENCODE ) เป็นโครงการวิจัยสาธารณะที่มีจุดมุ่งหมาย "เพื่อสร้างรายการส่วนประกอบที่ครอบคลุมของ องค์ประกอบการทำงาน ใน จีโนมมนุษย์ " [ 2 ]
เข้ารหัส
![]() | |
| เนื้อหา | |
|---|---|
| คำอธิบาย | ฐานข้อมูลจีโนมทั้งหมด |
| ติดต่อ | |
| ศูนย์วิจัย | มหาวิทยาลัยสแตนฟอร์ด |
| ห้องปฏิบัติการ | ศูนย์เทคโนโลยีจีโนมสแตนฟอร์ด: ห้องปฏิบัติการเชอร์รี; เดิมชื่อ: มหาวิทยาลัยแคลิฟอร์เนีย ซานตาครูซ |
| ผู้เขียน | Eurie L. Hong และอีก 17 คน[ 1 ] |
| การอ้างอิงหลัก | PMID 26980513 |
| วันที่วางจำหน่าย | 2010 |
| เข้าถึง | |
| เว็บไซต์ | encodeproject.org |
สารานุกรมองค์ประกอบดีเอ็นเอ ( ENCODE ) เป็นโครงการวิจัยสาธารณะที่มีจุดมุ่งหมาย "เพื่อสร้างรายการส่วนประกอบที่ครอบคลุมขององค์ประกอบการทำงานในจีโนมมนุษย์ " [ 2 ]
ENCODE ยังสนับสนุนการวิจัยทางชีวการแพทย์เพิ่มเติมโดย "การสร้างทรัพยากรชุมชนของข้อมูลจีโนมิกส์ ซอฟต์แวร์ เครื่องมือและวิธีการสำหรับการวิเคราะห์ข้อมูล จีโนมิกส์ และผลิตภัณฑ์ที่ได้จากการวิเคราะห์และการตีความข้อมูล" [ 3 ] [ 2 ]
ระยะปัจจุบันของ ENCODE (2016-2019) กำลังเพิ่มความลึกให้กับทรัพยากรโดยการเพิ่มจำนวนประเภทเซลล์ ประเภทข้อมูล การทดสอบ และขณะนี้รวมถึงการสนับสนุนการตรวจสอบจีโนมของหนูด้วย[ 3 ]
ประวัติศาสตร์
ENCODE เปิดตัวโดยสถาบันวิจัยจีโนมมนุษย์แห่งชาติ ของสหรัฐอเมริกา (NHGRI) ในเดือนกันยายน พ.ศ. 2546 [ 4 ] [ 5 ] [ 6 ] [ 7 ] [ 8 ] โครงการ ENCODE มีจุดประสงค์เพื่อต่อยอดจากโครงการจีโนมมนุษย์โดยมีเป้าหมายเพื่อระบุองค์ประกอบการทำงานทั้งหมดในจีโนมมนุษย์ [ 9 ]
โครงการนี้เกี่ยวข้องกับกลุ่มวิจัยทั่วโลก และข้อมูลที่สร้างขึ้นจากโครงการนี้สามารถเข้าถึงได้ผ่านฐานข้อมูลสาธารณะ การเปิดตัว ENCODE ครั้งแรกเกิดขึ้นในปี 2013 และตั้งแต่นั้นมาก็มีการเปลี่ยนแปลงตามคำแนะนำของสมาชิกกลุ่มวิจัยและชุมชนนักวิทยาศาสตร์ในวงกว้างที่ใช้พอร์ทัลเพื่อเข้าถึงข้อมูล ENCODE เป้าหมายสองส่วนของ ENCODE คือการทำหน้าที่เป็นฐานข้อมูลที่เข้าถึงได้โดยสาธารณะสำหรับ "โปรโตคอลการทดลอง ขั้นตอนการวิเคราะห์ และข้อมูลเอง" และ "อินเทอร์เฟซเดียวกันควรให้บริการเมตาเดต้าที่ได้รับการดูแลอย่างระมัดระวังซึ่งบันทึกที่มาของข้อมูลและพิสูจน์การตีความในเชิงชีววิทยา" [ 10 ]โครงการเริ่มต้นเฟสที่สี่ (ENCODE 4) ในเดือนกุมภาพันธ์ 2017 [ 11 ]
แรงจูงใจและความสำคัญ
คาดว่ามนุษย์มีประมาณ 20,000 ยีน ที่เข้ารหัสโปรตีน ซึ่งคิดเป็นประมาณ 1.5% ของDNAในจีโนมของมนุษย์ เป้าหมายหลักของโครงการ ENCODE คือการกำหนดบทบาทของส่วนประกอบที่เหลือของจีโนม ซึ่งส่วนใหญ่ถูกมองว่าเป็น "ขยะ" มาแต่เดิม กิจกรรมและการแสดงออกของยีนที่เข้ารหัสโปรตีนสามารถถูกปรับเปลี่ยนได้โดยเรกูโลม ซึ่งเป็นองค์ประกอบ DNAที่หลากหลายเช่นโปรโมเตอร์ลำดับควบคุมการถอดรหัส และบริเวณของโครงสร้างโครมาติน และการดัดแปลง ฮิสโตนเชื่อกันว่าการเปลี่ยนแปลงในการควบคุมกิจกรรมของยีนสามารถขัดขวาง การผลิต โปรตีนและ กระบวนการ ของเซลล์และส่งผลให้เกิดโรค การกำหนดตำแหน่งขององค์ประกอบควบคุมเหล่านี้และวิธีที่พวกมันมีอิทธิพลต่อการถอดรหัสยีนอาจเปิดเผยความเชื่อมโยงระหว่างความแปรผันในการแสดงออกของยีนบางชนิดกับการพัฒนาของโรค[ 12 ]
ENCODE ยังมีจุดประสงค์เพื่อเป็นแหล่งข้อมูลที่ครอบคลุมเพื่อให้ชุมชนวิทยาศาสตร์เข้าใจได้ดียิ่งขึ้นว่าจีโนมสามารถส่งผลต่อสุขภาพของมนุษย์ได้อย่างไร และเพื่อ "กระตุ้นการพัฒนาการบำบัดใหม่เพื่อป้องกันและรักษาโรคเหล่านี้" [ 5 ]

กลุ่มพันธมิตร ENCODE
กลุ่มความร่วมมือ ENCODE ประกอบด้วยนักวิทยาศาสตร์ที่ได้รับการสนับสนุนด้านเงินทุนจากสถาบันวิจัยจีโนมมนุษย์แห่งชาติ ของสหรัฐอเมริกา (NHGRI) เป็นหลัก ผู้เข้าร่วมโครงการรายอื่นๆ จะได้รับการรวมเข้าในกลุ่มความร่วมมือหรือกลุ่มทำงานวิเคราะห์
ในระยะนำร่องประกอบด้วยกลุ่มวิจัยแปดกลุ่มและกลุ่มที่เข้าร่วมในระยะการพัฒนาเทคโนโลยี ENCODE อีกสิบสองกลุ่ม หลังจากปี 2550 จำนวนผู้เข้าร่วมได้ขยายเป็นนักวิทยาศาสตร์ 440 คนจาก 32 ห้องปฏิบัติการทั่วโลก เนื่องจากระยะนำร่องสิ้นสุดลงอย่างเป็นทางการ ในขณะนี้ กลุ่มพันธมิตรประกอบด้วยศูนย์ต่างๆ ที่ทำหน้าที่แตกต่างกัน
ENCODE เป็นสมาชิกของInternational Human Epigenome Consortium (IHEC) [ 14 ]
ข้อกำหนดหลักของ NHGRI สำหรับผลิตภัณฑ์จากการวิจัยที่ได้รับทุนจาก ENCODE คือต้องแบ่งปันในรูปแบบฟรีและเข้าถึงได้ง่ายสำหรับนักวิจัยทุกคนเพื่อส่งเสริมการวิจัยทางจีโนมิกส์ การวิจัยของ ENCODE ช่วยให้สามารถทำซ้ำได้และทำให้เกิดความโปร่งใสของซอฟต์แวร์ วิธีการ ข้อมูล และเครื่องมืออื่นๆ ที่เกี่ยวข้องกับการวิเคราะห์ทางจีโนมิกส์[ 3 ]
โครงการ ENCODE
ปัจจุบัน ENCODE ดำเนินการในสี่ขั้นตอน ได้แก่ ขั้นตอนนำร่องและขั้นตอนการพัฒนาเทคโนโลยี ซึ่งเริ่มต้นพร้อมกัน[ 15 ]และขั้นตอนการผลิต ขั้นตอนที่สี่เป็นการต่อเนื่องจากขั้นตอนที่สาม และรวมถึงการกำหนดลักษณะการทำงานและการวิเคราะห์แบบบูรณาการเพิ่มเติมสำหรับสารานุกรม
เป้าหมายของระยะนำร่องคือการระบุชุดขั้นตอนที่เมื่อรวมกันแล้วสามารถนำไปใช้ได้อย่างคุ้มค่าและมีประสิทธิภาพสูงเพื่อระบุลักษณะเฉพาะของบริเวณขนาดใหญ่ของจีโนมมนุษย์ ได้อย่างแม่นยำและครอบคลุม ระยะนำร่องต้องเปิดเผยช่องว่างในชุดเครื่องมือปัจจุบันสำหรับการตรวจจับลำดับการทำงาน และยังคิดว่าจะเปิดเผยว่าวิธีการบางอย่างที่ใช้ในขณะนั้นไม่มีประสิทธิภาพหรือไม่เหมาะสมสำหรับการใช้งานในวงกว้าง ปัญหาเหล่านี้บางส่วนต้องได้รับการแก้ไขในระยะการพัฒนาเทคโนโลยี ENCODE ซึ่งมีเป้าหมายเพื่อคิดค้นวิธีการทางห้องปฏิบัติการและวิธีการคำนวณใหม่ที่จะปรับปรุงความสามารถของเราในการระบุลำดับการทำงานที่รู้จักหรือค้นพบองค์ประกอบจีโนมการทำงานใหม่ ผลลัพธ์ของสองระยะแรกกำหนดเส้นทางที่ดีที่สุดสำหรับการวิเคราะห์จีโนมมนุษย์ที่เหลืออีก 99% ในระยะการผลิตที่คุ้มค่าและครอบคลุม[ 5 ]
โครงการ ENCODE ระยะที่ 1: โครงการนำร่อง
ในระยะนำร่อง โครงการนี้ได้ทดสอบและเปรียบเทียบวิธีการที่มีอยู่ในการวิเคราะห์ลำดับจีโนมมนุษย์ส่วนที่กำหนดไว้อย่างเข้มงวด โดยจัดตั้งขึ้นในรูปแบบของกลุ่มความร่วมมือแบบเปิด และรวบรวมนักวิจัยที่มีภูมิหลังและความเชี่ยวชาญที่หลากหลายเพื่อประเมินข้อดีข้อเสียของเทคนิค เทคโนโลยี และกลยุทธ์ที่หลากหลาย ในขณะเดียวกัน ระยะการพัฒนาเทคโนโลยีของโครงการมีเป้าหมายเพื่อพัฒนาวิธีการใหม่ที่มีประสิทธิภาพสูงในการระบุองค์ประกอบเชิงฟังก์ชัน เป้าหมายของความพยายามเหล่านี้คือการระบุชุดวิธีการที่จะช่วยให้สามารถระบุองค์ประกอบเชิงฟังก์ชันทั้งหมดในจีโนมมนุษย์ได้อย่างครอบคลุม ผ่านโครงการนำร่อง ENCODE สถาบันวิจัยจีโนมมนุษย์แห่งชาติ (NHGRI) ได้ประเมินความสามารถของวิธีการต่างๆ ในการขยายขนาดเพื่อวิเคราะห์จีโนมมนุษย์ทั้งหมด และเพื่อค้นหาช่องว่างในความสามารถในการระบุองค์ประกอบเชิงฟังก์ชันในลำดับจีโนม
กระบวนการโครงการนำร่อง ENCODE เกี่ยวข้องกับการมีปฏิสัมพันธ์อย่างใกล้ชิดระหว่างนักวิทยาศาสตร์ด้านการคำนวณและนักวิทยาศาสตร์ด้านการทดลองเพื่อประเมินวิธีการต่างๆ ในการระบุตำแหน่งจีโนมมนุษย์ ชุดของภูมิภาคที่แสดงถึงประมาณ 1% (30 Mb) ของจีโนมมนุษย์ถูกเลือกเป็นเป้าหมายสำหรับโครงการนำร่องและได้รับการวิเคราะห์โดยนักวิจัยโครงการนำร่อง ENCODE ทุกคน ข้อมูลทั้งหมดที่สร้างขึ้นโดยผู้เข้าร่วม ENCODE ในภูมิภาคเหล่านี้ได้รับการเผยแพร่อย่างรวดเร็วไปยังฐานข้อมูลสาธารณะ[ 7 ] [ 16 ]
การเลือกเป้าหมาย
สำหรับการใช้งานในโครงการนำร่อง ENCODE ได้มีการคัดเลือกบริเวณที่กำหนดไว้ในจีโนมมนุษย์ ซึ่งมีขนาดประมาณ 30 เมกะเบส หรือประมาณ 1% ของจีโนมมนุษย์ทั้งหมด บริเวณเหล่านี้ทำหน้าที่เป็นพื้นฐานในการทดสอบและประเมินประสิทธิผลและประสิทธิภาพของวิธีการและเทคโนโลยีที่หลากหลายในการค้นหาองค์ประกอบการทำงานต่างๆ ในดีเอ็นเอของมนุษย์
ก่อนเริ่มกระบวนการคัดเลือกเป้าหมาย ได้มีการตัดสินใจว่า 50% ของลำดับดีเอ็นเอขนาด 30 เมกะเบส จะถูกคัดเลือกด้วยตนเอง ในขณะที่ลำดับดีเอ็นเอที่เหลือจะถูกคัดเลือกแบบสุ่ม เกณฑ์หลักสองข้อสำหรับบริเวณที่ถูกคัดเลือกด้วยตนเอง ได้แก่ 1) การมีอยู่ของยีน ที่ได้รับการศึกษามาอย่างดี หรือองค์ประกอบลำดับดีเอ็นเออื่นๆ ที่เป็นที่รู้จัก และ 2) การมีข้อมูลลำดับดีเอ็นเอเปรียบเทียบจำนวนมาก โดยใช้วิธีนี้ มีการคัดเลือกลำดับดีเอ็นเอด้วยตนเองรวม 14.82 เมกะเบส ซึ่งประกอบด้วยเป้าหมาย 14 เป้าหมายที่มีขนาดตั้งแต่ 500 กิโลเบส ถึง 2 เมกะเบส
ลำดับเบสที่เหลืออีก 50% จากทั้งหมด 30 เมกะเบส ประกอบด้วยบริเวณขนาด 500 กิโลเบส จำนวน 30 บริเวณ ซึ่งเลือกโดยใช้กลยุทธ์การสุ่มตัวอย่างแบบแบ่งชั้นตามความหนาแน่นของยีนและระดับการอนุรักษ์ที่ไม่ใช่เอ็กซอน การตัดสินใจใช้เกณฑ์เหล่านี้ก็เพื่อให้แน่ใจว่าได้สุ่มตัวอย่างบริเวณจีโนมที่มีความแตกต่างกันอย่างมากในด้านเนื้อหาของยีนและองค์ประกอบการทำงานอื่นๆ จีโนมมนุษย์ถูกแบ่งออกเป็นสามส่วน ได้แก่ ส่วนบน 20% ส่วนกลาง 30% และส่วนล่าง 50% ตามแกนสองแกน ได้แก่ 1) ความหนาแน่น ของยีนและ 2) ระดับการอนุรักษ์ที่ไม่ใช่เอ็กซอนเมื่อเทียบกับ ลำดับจีโนมของหนู ที่เป็นออร์โธล็อกัส (ดูด้านล่าง) รวมเป็นทั้งหมดเก้าชั้น จากแต่ละชั้น จะเลือกบริเวณแบบสุ่มสามบริเวณสำหรับโครงการนำร่อง สำหรับชั้นที่เลือกด้วยมือแล้วได้บริเวณน้อยกว่าที่ต้องการ จะเลือกบริเวณที่สี่เพิ่ม ทำให้มีบริเวณทั้งหมด 30 บริเวณ สำหรับทุกชั้น จะมีการกำหนดบริเวณ "สำรอง" ไว้ใช้ในกรณีที่เกิดปัญหาทางเทคนิคที่ไม่คาดคิด
โดยละเอียดแล้ว เกณฑ์การแบ่งระดับชั้นมีดังนี้:
- ความหนาแน่น ของยีน : คะแนนความหนาแน่น ของยีนในแต่ละบริเวณ คือเปอร์เซ็นต์ของเบสที่ถูกครอบคลุมโดยยีนใน ฐานข้อมูล Ensemblหรือโดย การจัดเรียงลำดับ BLAT ( BLAST -like alignment tool) ที่ดีที่สุดของ mRNA ในมนุษย์ ในฐานข้อมูลUCSC Genome Browser
- การอนุรักษ์ นอกเอ็กซอน : บริเวณดังกล่าวถูกแบ่งออกเป็นส่วนย่อยที่ไม่ทับซ้อนกันขนาด 125 เบส ส่วนย่อยที่แสดงการเรียงตัวของเบสกับลำดับของเมาส์น้อยกว่า 75% จะถูกตัดทิ้ง สำหรับส่วนย่อยที่เหลืออยู่ เปอร์เซ็นต์ที่มีความเหมือนกันของเบสอย่างน้อย 80% กับเมาส์ และไม่ตรงกับยีนEnsembl , การจัดเรียง BLASTZ ของ mRNA ใน GenBank , การทำนายยีน Fgenesh++, การทำนายยีน TwinScan, การจัดเรียง EST ที่ถูกตัดต่อ หรือลำดับซ้ำ ( DNA ) ถูกนำมาใช้เป็นคะแนนการอนุรักษ์นอกเอ็กซอน
คะแนนข้างต้นคำนวณภายในหน้าต่าง 500 kb ที่ไม่ทับซ้อนกันของลำดับที่เสร็จสมบูรณ์ทั่วทั้งจีโนม และใช้เพื่อกำหนดแต่ละหน้าต่างให้กับชั้น[ 17 ]
ผลลัพธ์จากระยะนำร่อง
ระยะนำร่องเสร็จสิ้นลงอย่างประสบความสำเร็จและผลลัพธ์ได้รับการตีพิมพ์ในเดือนมิถุนายน พ.ศ. 2550 ในNature [ 7 ]และในฉบับพิเศษของGenome Research [ 18 ]ผลลัพธ์ที่ตีพิมพ์ในบทความแรกที่กล่าวถึงได้พัฒนาความรู้โดยรวมเกี่ยวกับ หน้าที่ ของจีโนมมนุษย์ในหลายพื้นที่สำคัญ ซึ่งรวมถึงไฮไลท์ต่อไปนี้: [ 7 ]
- จีโนมของมนุษย์มีการถอดรหัสอย่างแพร่หลาย ส่งผลให้เบส ส่วนใหญ่ เชื่อมโยงกับทรานสคริปต์หลัก อย่างน้อยหนึ่งรายการ และทรานสคริปต์จำนวนมากเชื่อมโยงบริเวณที่อยู่ห่างไกลกับ ตำแหน่งที่เข้ารหัสโปรตีนที่ได้รับการยืนยันแล้ว
- มีการค้นพบสารถอดรหัสที่ไม่เข้ารหัสโปรตีนชนิดใหม่จำนวนมาก โดยสารถอดรหัสเหล่านี้จำนวนมากทับซ้อนกับตำแหน่ง ที่เข้ารหัสโปรตีน และบางส่วนตั้งอยู่ในบริเวณของจีโนมที่ก่อนหน้านี้เคยคิดว่าไม่มีการถอดรหัสเกิดขึ้น
- มีการค้นพบตำแหน่งเริ่มต้น การถอดรหัสจำนวนมากที่ไม่เคยได้รับการระบุมาก่อนซึ่งหลายตำแหน่งแสดง โครงสร้าง โครมาตินและคุณสมบัติการจับโปรตีนแบบจำเพาะลำดับที่คล้ายคลึงกับโปรโมเตอร์ ที่เข้าใจกัน ดี อยู่แล้ว
- ลำดับเบสควบคุมที่อยู่รอบ ๆ บริเวณเริ่มต้นการถอดรหัสมีการกระจายตัวอย่างสมมาตร โดยไม่มีความเอนเอียงไปทางบริเวณต้นน้ำ
- การเข้าถึง โครมาตินและ รูปแบบการดัดแปลง ฮิสโตนสามารถใช้ทำนายการมีอยู่และกิจกรรมของจุดเริ่มต้นการถอดรหัสได้อย่างแม่นยำ
- บริเวณที่ไวต่อ DNaseIที่อยู่ห่างไกลมี รูปแบบการดัดแปลง ฮิสโตนที่ เป็นลักษณะเฉพาะ ซึ่งสามารถแยกแยะออกจากโปรโมเตอร์ ได้อย่างน่าเชื่อถือ บางบริเวณที่ห่างไกลเหล่านี้แสดงเครื่องหมายที่สอดคล้องกับหน้าที่ของฉนวน
- ระยะเวลา ในการจำลองดีเอ็นเอมีความสัมพันธ์กับโครงสร้างของโครมาติน
- สามารถระบุได้อย่างมั่นใจว่า5% ของเบสในจีโนม ของสัตว์เลี้ยงลูกด้วยนมอยู่ภายใต้ ข้อจำกัดทางวิวัฒนาการและสำหรับเบสที่อยู่ภายใต้ข้อจำกัดเหล่านี้ประมาณ 60% มีหลักฐานแสดงถึงหน้าที่การทำงานโดยอิงจากผลการทดสอบทดลองที่ดำเนินการมาจนถึงปัจจุบัน
- แม้ว่าโดยทั่วไปแล้วจะมีการทับซ้อนกันระหว่างบริเวณจีโนมที่ระบุว่ามีฟังก์ชันการทำงานโดยการทดสอบเชิงทดลองและบริเวณที่อยู่ภายใต้ข้อจำกัดทางวิวัฒนาการ แต่ไม่ใช่ว่าทุกเบสภายในบริเวณที่กำหนดโดยการทดลองเหล่านี้จะแสดงหลักฐานของข้อจำกัดดังกล่าว
- องค์ประกอบการทำงานต่างๆ มีความแปรผันของลำดับในประชากรมนุษย์อย่างมาก และมีความน่าจะเป็นที่จะอยู่ในบริเวณที่มีโครงสร้างแปรผันได้ในจีโนม แตกต่างกัน ด้วย
- ที่น่าประหลาดใจคือ องค์ประกอบการทำงานหลายอย่างดูเหมือนจะไม่มีข้อจำกัดใดๆ ในวิวัฒนาการของสัตว์เลี้ยงลูกด้วยนม สิ่งนี้ชี้ให้เห็นถึงความเป็นไปได้ของแหล่งรวมองค์ประกอบที่เป็นกลางจำนวนมาก ซึ่งมีฤทธิ์ทางชีวเคมีแต่ไม่ได้ให้ประโยชน์เฉพาะเจาะจงใดๆ แก่สิ่งมีชีวิต แหล่งรวมนี้อาจทำหน้าที่เป็น 'คลัง' สำหรับการคัดเลือกโดยธรรมชาติ โดยอาจเป็นแหล่งที่มาขององค์ประกอบเฉพาะสายพันธุ์ และองค์ประกอบที่ได้รับการอนุรักษ์ไว้ในเชิงหน้าที่แต่ไม่ใช่คู่ตรงข้ามระหว่างสายพันธุ์ต่างๆ
โครงการ ENCODE ระยะที่ 2: โครงการในขั้นตอนการผลิต

ในเดือนกันยายน พ.ศ. 2550 สถาบันวิจัยจีโนมมนุษย์แห่งชาติ (NHGRI) เริ่มให้ทุนสนับสนุนขั้นตอนการผลิตของโครงการ ENCODE ในขั้นตอนนี้ เป้าหมายคือการวิเคราะห์จีโนมทั้งหมดและดำเนินการ "การศึกษานำร่องเพิ่มเติม" [ 19 ]
เช่นเดียวกับในโครงการนำร่อง ความพยายามในการผลิตได้รับการจัดระเบียบในรูปแบบของกลุ่มความร่วมมือแบบเปิด ในเดือนตุลาคม พ.ศ. 2550 NHGRI ได้มอบทุนสนับสนุนรวมกว่า 80 ล้านดอลลาร์สหรัฐในระยะเวลาสี่ปี[ 20 ]ระยะการผลิตยังรวมถึงศูนย์ประสานงานข้อมูล ศูนย์วิเคราะห์ข้อมูล และความพยายามในการพัฒนาเทคโนโลยี[ 21 ] ในเวลานั้น โครงการได้พัฒนาไปสู่องค์กรระดับโลกอย่างแท้จริง โดยมีนักวิทยาศาสตร์ 440 คนจาก 32 ห้องปฏิบัติการทั่วโลกเข้าร่วม เมื่อระยะนำร่องเสร็จสิ้น โครงการได้ "ขยายขนาด" ในปี พ.ศ. 2550 โดยได้รับประโยชน์อย่างมหาศาลจากเครื่องจัดลำดับรุ่นใหม่ และข้อมูลก็มีขนาดใหญ่มาก นักวิจัยสร้างข้อมูลดิบ ประมาณ 15 เทราไบต์
ภายในปี 2010 โครงการ ENCODE ได้สร้างชุดข้อมูลจีโนมทั่วทั้งจีโนมมากกว่า 1,000 ชุด โดยรวมแล้ว ชุดข้อมูลเหล่านี้แสดงให้เห็นว่าบริเวณใดถูกถอดรหัสเป็น RNA บริเวณใดมีแนวโน้มที่จะควบคุมยีนที่ใช้ในเซลล์ชนิดใดชนิดหนึ่ง และบริเวณใดเกี่ยวข้องกับโปรตีนหลากหลายชนิด การทดสอบหลักที่ใช้ใน ENCODE ได้แก่ChIP-seq , การทดสอบความไวต่อ DNase I , RNA-seqและการทดสอบ การเมทิลเลชั่ น ของ DNA
ผลลัพธ์ในขั้นตอนการผลิต
ในเดือนกันยายน พ.ศ. 2555 โครงการได้เผยแพร่ผลลัพธ์ที่ครอบคลุมมากขึ้นในเอกสาร 30 ฉบับที่ตีพิมพ์พร้อมกันในวารสารหลายฉบับ รวมถึง 6 ฉบับในNature , 6 ฉบับใน Genome Biologyและฉบับพิเศษที่มีเอกสารตีพิมพ์ 18 ฉบับในGenome Research [ 22 ]
ผู้เขียนได้อธิบายถึงการผลิตและการวิเคราะห์เบื้องต้นของชุดข้อมูล 1,640 ชุดที่ออกแบบมาเพื่อระบุองค์ประกอบการทำงานในจีโนมมนุษย์ทั้งหมด โดยบูรณาการผลลัพธ์จากการทดลองที่หลากหลายภายในเซลล์ประเภทต่างๆ การทดลองที่เกี่ยวข้องซึ่งเกี่ยวข้องกับเซลล์ประเภทต่างๆ 147 ประเภท และข้อมูล ENCODE ทั้งหมดพร้อมกับแหล่งข้อมูลอื่นๆ เช่น บริเวณที่คาดว่าจะเป็นเป้าหมายจากการศึกษาการเชื่อมโยงจีโนมทั่วทั้งจีโนม ( GWAS ) และ บริเวณ ที่ถูกจำกัด โดยวิวัฒนาการ ความพยายามเหล่านี้ร่วมกันเปิดเผยคุณลักษณะที่สำคัญเกี่ยวกับการจัดระเบียบและการทำงานของจีโนมมนุษย์ ซึ่งสรุปไว้ในเอกสารภาพรวมดังต่อไปนี้: [ 23 ]
- จีโนมมนุษย์ส่วนใหญ่ (80.4%) มีส่วนร่วมในกระบวนการทางชีวเคมี ที่เกี่ยวข้องกับ RNAและ/หรือโครมาติน อย่างน้อยหนึ่งกระบวนการใน เซลล์อย่างน้อยหนึ่ง ชนิด จีโนมส่วนใหญ่อยู่ใกล้กับกระบวนการควบคุม: 95% ของจีโนมอยู่ภายในระยะ 8 กิโลเบสจาก ปฏิกิริยาระหว่าง DNAกับโปรตีน (วัดโดยใช้ ลวดลาย ChIP-seq ที่จับกัน หรือร่องรอยDNaseI ) และ 99% อยู่ภายในระยะ 1.7 กิโลเบสจากกระบวนการทางชีวเคมีอย่างน้อยหนึ่งกระบวนการที่วัดโดย ENCODE
- องค์ประกอบเฉพาะของไพรเมต รวมถึงองค์ประกอบที่ไม่มีข้อจำกัดของสัตว์เลี้ยงลูกด้วยนมที่ตรวจพบได้นั้น โดยรวมแล้วแสดงให้เห็นหลักฐานของการคัดเลือกเชิงลบ ดังนั้นจึงคาดว่าบางส่วนขององค์ประกอบเหล่านั้นจะมีฟังก์ชันการทำงาน
- การจำแนกจีโนมออกเป็นเจ็ด สถานะของ โครมาตินชี้ให้เห็นถึงชุดเริ่มต้นของบริเวณที่มี ลักษณะคล้ายตัวเร่งปฏิกิริยา (enhancer -like features) จำนวน 399,124 บริเวณ และบริเวณที่มีลักษณะคล้าย ตัวส่งเสริมปฏิกิริยา (promoter -like features ) จำนวน 70,292 บริเวณรวมถึงบริเวณที่อยู่ในสภาวะสงบอีกหลายแสนบริเวณ การวิเคราะห์ที่มีความละเอียดสูงยังแบ่งจีโนม ออก เป็นสถานะย่อยๆ อีกหลายพันสถานะที่มีคุณสมบัติการทำงานที่แตกต่างกัน
- สามารถเชื่อมโยงความสัมพันธ์เชิงปริมาณระหว่าง การผลิตและการประมวลผลลำดับ RNAกับทั้ง เครื่องหมาย โครมาตินและ การจับตัวของ ปัจจัยถอดรหัส (TF) ที่โปรโมเตอร์ได้ซึ่งบ่งชี้ว่าการทำงานของโปรโมเตอร์สามารถอธิบายความแปรผันของการแสดงออกของ RNA ส่วนใหญ่ได้
- ตัวแปร ที่ไม่เข้ารหัสจำนวนมากใน ลำดับ จีโนม ของแต่ละบุคคล นั้นอยู่ในบริเวณที่มีฟังก์ชันการทำงานซึ่งได้รับการระบุโดย ENCODE โดยจำนวนนี้มีอย่างน้อยเท่ากับจำนวนตัวแปรที่อยู่ในยีนที่เข้ารหัสโปรตีน
- SNPที่เกี่ยวข้องกับโรคจากการศึกษา GWASมักพบมากในบริเวณองค์ประกอบการทำงานที่ไม่เข้ารหัส โดยส่วนใหญ่จะอยู่ในหรือใกล้กับบริเวณที่กำหนดโดย ENCODE ซึ่งอยู่นอกเหนือยีนที่เข้ารหัสโปรตีนในหลายกรณีลักษณะอาการ ของโรค อาจเกี่ยวข้องกับชนิดของเซลล์หรือ ปัจจัยถอดรหัส (TF ) ที่เฉพาะเจาะจง
ผลการค้นพบที่โดดเด่นที่สุดคือสัดส่วนของ DNA ของมนุษย์ที่มีการทำงานทางชีวภาพนั้นสูงกว่าการประมาณการก่อนหน้านี้ที่มองโลกในแง่ดีที่สุดเสียอีก ในเอกสารภาพรวม กลุ่ม ENCODE รายงานว่าสมาชิกสามารถกำหนดหน้าที่ทางชีวเคมีให้กับจีโนมได้มากกว่า 80% [ 23 ]พบว่าส่วนใหญ่เกี่ยวข้องกับการควบคุมระดับการแสดงออกของDNA ที่เข้ารหัสซึ่งประกอบขึ้นเป็นจีโนมน้อยกว่า 1%
องค์ประกอบใหม่ที่สำคัญที่สุดของ "สารานุกรม" ประกอบด้วย:
- แผนที่ที่ครอบคลุมของไซต์ที่มีความไวต่อ DNase 1 ซึ่งเป็นเครื่องหมายสำหรับ DNA ควบคุมที่มักจะอยู่ติดกับยีนและอนุญาตให้ปัจจัยทางเคมีมีอิทธิพลต่อการแสดงออกของยีน แผนที่นี้ระบุไซต์ประเภทนี้เกือบ 3 ล้านไซต์ รวมถึงไซต์ที่รู้จักก่อนหน้านี้เกือบทั้งหมดและไซต์ใหม่จำนวนมาก[ 24 ]
- พจนานุกรมของลำดับ DNA สั้นๆ ที่สร้างรูปแบบการจดจำสำหรับโปรตีนที่จับกับ DNA พบลำดับดังกล่าวประมาณ 8.4 ล้านลำดับ ซึ่งประกอบเป็นเศษส่วนของ DNA ทั้งหมดประมาณสองเท่าของขนาดของเอ็กโซมพบโปรโมเตอร์การถอดรหัสหลายพันรายการที่ใช้รูปแบบ 50 คู่เบสแบบตายตัวเพียงรูปแบบเดียว[ 25 ]
- ภาพร่างเบื้องต้นของสถาปัตยกรรมของเครือข่ายปัจจัยการถอดรหัสของมนุษย์ ซึ่งก็คือปัจจัยที่จับกับ DNA เพื่อส่งเสริมหรือยับยั้งการแสดงออกของยีน พบว่าเครือข่ายมีความซับซ้อนมาก โดยมีปัจจัยที่ทำงานในระดับต่างๆ รวมถึงวงจรป้อนกลับหลายประเภท[ 26 ]
- การวัดสัดส่วนของจีโนมมนุษย์ที่สามารถถอดรหัสเป็น RNA ได้ สัดส่วนนี้คาดว่าจะมีมากกว่า 75% ของ DNA ทั้งหมด ซึ่งเป็นค่าที่สูงกว่าการประมาณการก่อนหน้านี้มาก โครงการนี้ยังเริ่มกำหนดลักษณะของ RNA ที่ถูกถอดรหัสซึ่งถูกสร้างขึ้นในตำแหน่งต่างๆ[ 27 ]
การจัดการและการวิเคราะห์ข้อมูล
การรวบรวม จัดเก็บ บูรณาการ และแสดงข้อมูลที่หลากหลายที่สร้างขึ้นนั้นเป็นเรื่องท้าทาย ศูนย์ประสานงานข้อมูล ENCODE (DCC) ทำหน้าที่จัดระเบียบและแสดงข้อมูลที่สร้างขึ้นโดยห้องปฏิบัติการในกลุ่มพันธมิตร และรับรองว่าข้อมูลนั้นตรงตามมาตรฐานคุณภาพเฉพาะเมื่อเผยแพร่สู่สาธารณะ ก่อนที่ห้องปฏิบัติการจะส่งข้อมูลใดๆ DCC และห้องปฏิบัติการจะร่างข้อตกลงข้อมูลที่กำหนดพารามิเตอร์การทดลองและเมตาเดตาที่เกี่ยวข้อง DCC ตรวจสอบความถูกต้องของข้อมูลที่เข้ามาเพื่อให้แน่ใจว่าสอดคล้องกับข้อตกลง นอกจากนี้ยังรับรองว่าข้อมูลทั้งหมดได้รับการระบุคำอธิบายประกอบโดยใช้ออนโทโลยีที่ เหมาะสม [ 28 ]จากนั้นจะโหลดข้อมูลไปยังเซิร์ฟเวอร์ทดสอบเพื่อตรวจสอบเบื้องต้น และประสานงานกับห้องปฏิบัติการเพื่อจัดระเบียบข้อมูลให้เป็นชุดแทร็กที่สอดคล้องกัน เมื่อแทร็กพร้อมแล้ว ทีมประกันคุณภาพของ DCC จะทำการตรวจสอบความสมบูรณ์หลายขั้นตอน ตรวจสอบว่าข้อมูลถูกนำเสนอในลักษณะที่สอดคล้องกับข้อมูลเบราว์เซอร์อื่นๆ และที่สำคัญที่สุดคือ ตรวจสอบว่าเมตาเดตาและข้อความอธิบายประกอบถูกนำเสนอในลักษณะที่เป็นประโยชน์ต่อผู้ใช้ของเรา ข้อมูลจะถูกเผยแพร่บน เว็บไซต์ UCSC Genome Browser สาธารณะ ก็ต่อเมื่อการตรวจสอบทั้งหมดเหล่านี้เสร็จสมบูรณ์แล้ว ในขณะเดียวกัน ข้อมูลจะได้รับการวิเคราะห์โดยศูนย์วิเคราะห์ข้อมูล ENCODE ซึ่งเป็นกลุ่มทีมวิเคราะห์จากห้องปฏิบัติการผลิตต่างๆ รวมถึงนักวิจัยอื่นๆ ทีมเหล่านี้พัฒนาโปรโตคอลมาตรฐานเพื่อวิเคราะห์ข้อมูลจากการทดสอบใหม่ กำหนดแนวทางปฏิบัติที่ดีที่สุด และสร้างชุดวิธีการวิเคราะห์ที่สอดคล้องกัน เช่น ตัวเรียกจุดสูงสุด มาตรฐาน และการสร้างสัญญาณจากกลุ่มการ จัด เรียง[ 29 ]
สถาบันวิจัยจีโนมมนุษย์แห่งชาติ (NHGRI) ได้ระบุ ENCODE ว่าเป็น "โครงการทรัพยากรชุมชน" แนวคิดสำคัญนี้ได้รับการกำหนดไว้ในการประชุมระหว่างประเทศที่จัดขึ้นที่เมืองฟอร์ตลอเดอร์เดลในเดือนมกราคม พ.ศ. 2546 ว่าเป็นโครงการวิจัยที่ออกแบบและดำเนินการโดยเฉพาะเพื่อสร้างชุดข้อมูล สารเคมี หรือวัสดุอื่น ๆ ซึ่งประโยชน์หลักจะเป็นทรัพยากรสำหรับชุมชนวิทยาศาสตร์ในวงกว้าง ดังนั้น นโยบายการเผยแพร่ข้อมูลของ ENCODE จึงกำหนดว่า เมื่อตรวจสอบข้อมูลแล้ว ข้อมูลจะถูกฝากไว้ในฐานข้อมูลสาธารณะและเปิดให้ทุกคนใช้งานได้โดยไม่มีข้อจำกัด[ 29 ]
โครงการอื่นๆ
ในการดำเนินงานระยะที่สามอย่างต่อเนื่อง กลุ่มพันธมิตร ENCODE ได้เข้ามามีส่วนร่วมในโครงการเพิ่มเติมหลายโครงการ ซึ่งมีเป้าหมายที่สอดคล้องกับโครงการ ENCODE โดยบางโครงการเหล่านี้เป็นส่วนหนึ่งของโครงการ ENCODE ระยะที่สอง
โครงการ modENCODE
โครงการ MODEL organism ENCyclopedia Of DNA Elements (modENCODE) เป็นการต่อยอดจากโครงการ ENCODE เดิม โดยมีเป้าหมายเพื่อระบุองค์ประกอบการทำงานใน จีโนม ของสิ่งมีชีวิตต้นแบบ ที่เลือกไว้ โดยเฉพาะDrosophila melanogasterและCaenorhabditis elegans [ 30 ] การขยายไปสู่สิ่งมีชีวิตต้นแบบทำให้สามารถตรวจสอบความถูกต้องทางชีวภาพของผลการคำนวณและการทดลองของโครงการ ENCODE ซึ่งเป็นสิ่งที่ทำได้ยากหรือเป็นไปไม่ได้ในมนุษย์[ 30 ]สถาบันสุขภาพแห่งชาติ (NIH) ประกาศให้ทุนสนับสนุนโครงการ modENCODE ในปี 2550 และรวมถึงสถาบันวิจัยต่างๆ ในสหรัฐอเมริกาหลายแห่ง[ 31 ] [ 32 ]โครงการนี้เสร็จสิ้นการทำงานในปี 2555
ในช่วงปลายปี 2010 กลุ่มความร่วมมือ modENCODE ได้เปิดเผยผลลัพธ์ชุดแรกด้วยการตีพิมพ์เกี่ยวกับการระบุคำอธิบายประกอบและการวิเคราะห์แบบบูรณาการของจีโนมหนอนและแมลงวันในวารสารScience [ 33 ] [ 34 ]ข้อมูลจากสิ่งพิมพ์เหล่านี้มีให้ใช้งานจากเว็บไซต์ modENCODE [ 35 ]
modENCODE ดำเนินงานในรูปแบบเครือข่ายวิจัย และกลุ่มความร่วมมือประกอบด้วยโครงการหลัก 11 โครงการ แบ่งระหว่างงานวิจัยเกี่ยวกับหนอนและแมลงวัน โครงการเหล่านี้ครอบคลุมหัวข้อต่อไปนี้:
- โครงสร้างยีน
- การวิเคราะห์รูปแบบการแสดงออกของ mRNA และ ncRNA
- ตำแหน่งการจับของปัจจัยถอดรหัส
- การดัดแปลงและการทดแทนฮิสโตน
- โครงสร้างโครมาติน
- การเริ่มต้นและการกำหนดเวลาของการจำลองดีเอ็นเอ
- การเปลี่ยนแปลงจำนวนสำเนา[ 36 ]
ทันสมัย
modERN ซึ่งย่อมาจาก model organism encyclopedia of regulatory networks แตกแขนงมาจากโครงการ modENCODE โครงการนี้ได้รวมกลุ่ม C. elegans และ Drosophila เข้าด้วยกัน และมุ่งเน้นไปที่การระบุตำแหน่งการจับของปัจจัยการถอดรหัสเพิ่มเติมของสิ่งมีชีวิตแต่ละชนิด โครงการนี้เริ่มต้นพร้อมกับเฟส III ของ ENCODE และมีแผนจะสิ้นสุดในปี 2017 [ 37 ]จนถึงปัจจุบัน โครงการนี้ได้เผยแพร่การทดลอง 198 ครั้ง[ 38 ]โดยมีการทดลองอื่นๆ อีกประมาณ 500 ครั้งที่ส่งเข้ามาและกำลังอยู่ระหว่างการประมวลผลโดย DCC
จีโนมิกส์ของการควบคุมยีน
ในช่วงต้นปี 2558 NIH ได้เปิดตัวโครงการ Genomics of Gene Regulation (GGR) [ 39 ]เป้าหมายของโครงการนี้ ซึ่งจะดำเนินไปเป็นเวลาสามปี คือการศึกษาเครือข่ายยีนและเส้นทางในระบบต่างๆ ของร่างกาย โดยหวังว่าจะเข้าใจกลไกที่ควบคุมการแสดงออกของยีนได้ดียิ่งขึ้น แม้ว่าโครงการ ENCODE จะแยกจาก GGR แต่ ENCODE DCC ก็ได้จัดเก็บข้อมูล GGR ไว้ในพอร์ทัล ENCODE [ 40 ]
แผนงาน
ในปี 2551 NIH ได้เริ่มก่อตั้ง Roadmap Epigenomics Mapping Consortium ซึ่งมีเป้าหมายเพื่อสร้าง "แหล่งข้อมูลสาธารณะของข้อมูลเอพิเจโนมิกของมนุษย์เพื่อกระตุ้นชีววิทยาพื้นฐานและการวิจัยที่มุ่งเน้นโรค" [ 41 ]ในเดือนกุมภาพันธ์ 2558 กลุ่มความร่วมมือได้เผยแพร่บทความชื่อ "การวิเคราะห์แบบบูรณาการของเอพิเจโนมของมนุษย์อ้างอิง 111 รายการ" ซึ่งบรรลุเป้าหมายของกลุ่มความร่วมมือ กลุ่มความร่วมมือได้บูรณาการข้อมูลและระบุองค์ประกอบควบคุมในเอพิเจโนมอ้างอิง 127 รายการ โดย 16 รายการเป็นส่วนหนึ่งของโครงการ ENCODE [ 42 ]ข้อมูลสำหรับโครงการ Roadmap สามารถพบได้ในพอร์ทัล Roadmap หรือพอร์ทัล ENCODE

โครงการ fruitENCODE
fruitENCODE: สารานุกรมองค์ประกอบดีเอ็นเอสำหรับการสุกของผลไม้ เป็นโครงการ ENCODE ของพืชที่มุ่งสร้างชุดข้อมูลการเมทิลเลชั่นของดีเอ็นเอ การดัดแปลงฮิสโตน DHS การแสดงออกของยีน และการจับตัวของปัจจัยการถอดรหัสสำหรับผลไม้เนื้อนุ่มทุกชนิดในระยะการพัฒนาต่างๆ ข้อมูลเวอร์ชันก่อนเผยแพร่สามารถดูได้ในพอร์ทัล fruitENCODE
คำวิจารณ์โครงการ
แม้ว่ากลุ่มผู้ร่วมงานจะอ้างว่าพวกเขายังไม่เสร็จสิ้นโครงการ ENCODE แต่ปฏิกิริยาต่อเอกสารที่ตีพิมพ์และการรายงานข่าวที่มาพร้อมกับการเผยแพร่นั้นเป็นไปในทางที่ดี บรรณาธิการ ของ Natureและผู้เขียน ENCODE "...ได้ร่วมมือกันเป็นเวลาหลายเดือนเพื่อให้เกิดความฮือฮามากที่สุดเท่าที่จะเป็นไปได้และดึงดูดความสนใจไม่เพียงแต่จากชุมชนวิจัยเท่านั้น แต่ยังรวมถึงสาธารณชนโดยทั่วไปด้วย" [ 44 ] ข้ออ้างของโครงการ ENCODE ที่ว่า 80% ของจีโนมมนุษย์มีหน้าที่ทางชีวเคมี[ 23 ]ได้รับการเผยแพร่อย่างรวดเร็วโดยสื่อกระแสหลัก ซึ่งอธิบายผลลัพธ์ของโครงการว่านำไปสู่การสิ้นสุดของดีเอ็นเอขยะ[ 45 ] [ 46 ]
อย่างไรก็ตาม ข้อสรุปที่ว่าจีโนมส่วนใหญ่ "ทำงานได้" นั้นถูกวิพากษ์วิจารณ์เนื่องจากโครงการ ENCODE ใช้คำจำกัดความของ "ทำงานได้" อย่างกว้างขวาง กล่าวคือ สิ่งใดก็ตามที่ถูกถอดรหัสจะต้องทำงานได้ ข้อสรุปนี้ได้มาแม้จะมีมุมมองที่เป็นที่ยอมรับกันอย่างกว้างขวาง โดยอิงจากการประมาณการการอนุรักษ์จีโนมจากการเปรียบเทียบจีโนมว่าองค์ประกอบ DNA จำนวนมาก เช่นยีนเทียมที่ถูกถอดรหัสนั้นยังคงไม่ทำงาน นอกจากนี้ โครงการ ENCODE ยังเน้นความไวมากกว่าความจำเพาะซึ่งอาจนำไปสู่การตรวจพบผลบวกเท็จ จำนวนมาก [ 47 ] [ 48 ] [ 49 ]การเลือกสายเซลล์และปัจจัยการถอดรหัสที่ค่อนข้างเป็นไปตามอำเภอใจ รวมถึงการขาดการทดลองควบคุมที่เหมาะสม เป็นข้อวิจารณ์หลักเพิ่มเติมของ ENCODE เนื่องจาก DNA แบบสุ่มเลียนแบบพฤติกรรม "ทำงานได้" แบบ ENCODE [ 50 ]
เพื่อตอบสนองต่อคำวิจารณ์บางส่วน นักวิทยาศาสตร์คนอื่นๆ โต้แย้งว่าการถอดรหัสและการตัดต่อที่แพร่หลายซึ่งสังเกตได้ในจีโนมของมนุษย์โดยตรงจากการทดสอบทางชีวเคมีนั้นเป็นตัวบ่งชี้การทำงานทางพันธุกรรมที่แม่นยำกว่าการประมาณการการอนุรักษ์จีโนม เนื่องจากค่าประมาณการการอนุรักษ์ทั้งหมดเป็นแบบสัมพัทธ์และยากที่จะจัดเรียงให้ตรงกันเนื่องจากความแปรผันที่เหลือเชื่อในขนาดจีโนมของแม้แต่สายพันธุ์ที่ใกล้เคียงกันมาก เป็นการกล่าวซ้ำซ้อนบางส่วน และการประมาณการเหล่านี้ไม่ได้ขึ้นอยู่กับการทดสอบโดยตรงสำหรับการทำงานบนจีโนม[ 51 ] [ 52 ]การประมาณการการอนุรักษ์อาจใช้เพื่อให้เบาะแสในการระบุองค์ประกอบการทำงานที่เป็นไปได้ในจีโนม แต่ไม่ได้จำกัดหรือกำหนดขีดจำกัดของปริมาณทั้งหมดขององค์ประกอบการทำงานที่อาจมีอยู่ในจีโนม[ 52 ]ยิ่งไปกว่านั้น จีโนมส่วนใหญ่ที่ถูกโต้แย้งโดยนักวิจารณ์ดูเหมือนจะเกี่ยวข้องกับ การควบคุม เอพิเจเนติกส์เช่น การแสดงออกของยีน และดูเหมือนจะจำเป็นสำหรับการพัฒนาสิ่งมีชีวิตที่ซับซ้อน[ 51 ] [ 53 ]ผลลัพธ์ของ ENCODE ไม่ได้เป็นสิ่งที่คาดไม่ถึงเสมอไป เนื่องจากการเพิ่มขึ้นของการระบุหน้าที่การทำงานนั้นได้รับการบอกใบ้ไว้แล้วจากการวิจัยในช่วงหลายทศวรรษที่ผ่านมา[ 51 ] [ 53 ]นอกจากนี้ ผู้อื่นยังได้ตั้งข้อสังเกตว่าโครงการ ENCODE ตั้งแต่เริ่มต้นมีขอบเขตที่มุ่งเน้นการค้นหาองค์ประกอบการทำงานที่เกี่ยวข้องกับชีวการแพทย์ในจีโนม ไม่ใช่องค์ประกอบการทำงานเชิงวิวัฒนาการ ซึ่งไม่จำเป็นต้องเป็นสิ่งเดียวกันเสมอไป เนื่องจากการคัดเลือกเชิงวิวัฒนาการนั้นไม่เพียงพอและไม่จำเป็นต่อการสร้างหน้าที่การทำงาน มันเป็นตัวแทนที่มีประโยชน์มากสำหรับหน้าที่การทำงานที่เกี่ยวข้อง แต่เป็นตัวแทนที่ไม่สมบูรณ์และไม่ใช่ตัวแทนเดียว[ 54 ]
เมื่อเร็วๆ นี้ นักวิจัยของ ENCODE ได้ย้ำอีกครั้งว่าเป้าหมายหลักคือการระบุองค์ประกอบการทำงานในจีโนมของมนุษย์[ 55 ]ในเอกสารติดตามผลในปี 2020 ENCODE ระบุว่าการระบุคำอธิบายการทำงานขององค์ประกอบที่ระบุได้นั้น "ยังอยู่ในช่วงเริ่มต้น" [ 56 ]
เพื่อตอบสนองต่อข้อร้องเรียนเกี่ยวกับคำจำกัดความของคำว่า "ฟังก์ชัน" บางคนตั้งข้อสังเกตว่า ENCODE ได้กำหนดความหมายของคำนี้ไว้แล้ว และเนื่องจากขอบเขตของ ENCODE คือการค้นหาองค์ประกอบการทำงานที่เกี่ยวข้องกับชีวการแพทย์ในจีโนม ดังนั้นข้อสรุปของโครงการจึงควรตีความได้ว่า "80% ของจีโนมมีส่วนร่วมในกิจกรรมทางชีวเคมีที่เกี่ยวข้องซึ่งมีแนวโน้มสูงที่จะมีบทบาทเชิงสาเหตุในปรากฏการณ์ที่ถือว่าเกี่ยวข้องกับการวิจัยทางชีวการแพทย์" [ 54 ] Ewan Birneyหนึ่งในนักวิจัยของ ENCODE แสดงความคิดเห็นว่า "ฟังก์ชัน" ถูกใช้ในเชิงปฏิบัติเพื่อหมายถึง "กิจกรรมทางชีวเคมีเฉพาะ" ซึ่งรวมถึงการทดสอบประเภทต่างๆ ได้แก่ RNA การดัดแปลงฮิสโตนแบบ "กว้าง" การดัดแปลงฮิสโตนแบบ "แคบ" ตำแหน่งที่ไวต่อ DNaseI สูง จุดสูงสุด ChIP-seq ของปัจจัยการถอดรหัส ร่องรอย DNaseI ลวดลายที่จับกับปัจจัยการถอดรหัส และเอ็กซอน[ 57 ]
ในปี 2014 นักวิจัยของ ENCODE สังเกตว่าในเอกสารทางวิชาการ การระบุส่วนประกอบที่ทำหน้าที่สำคัญของจีโนมนั้นแตกต่างกันไปในแต่ละการศึกษา ขึ้นอยู่กับวิธีการที่ใช้ โดยทั่วไปแล้วมีวิธีการหลัก 3 วิธีที่ใช้ในการระบุส่วนประกอบที่ทำหน้าที่สำคัญของจีโนมมนุษย์ ได้แก่ วิธีการทางพันธุกรรม (ซึ่งอาศัยการเปลี่ยนแปลงของลักษณะภายนอก) วิธีการทางวิวัฒนาการ (ซึ่งอาศัยการอนุรักษ์) และวิธีการทางชีวเคมี (ซึ่งอาศัยการทดสอบทางชีวเคมี และเป็นวิธีการที่ ENCODE ใช้) ทั้งสามวิธีมีข้อจำกัด: วิธีการทางพันธุกรรมอาจพลาดส่วนประกอบที่ทำหน้าที่สำคัญซึ่งไม่ปรากฏให้เห็นทางกายภาพในสิ่งมีชีวิต วิธีการทางวิวัฒนาการมีปัญหาในการใช้การจัดเรียงลำดับหลายสายพันธุ์ที่แม่นยำ เนื่องจากจีโนมของสายพันธุ์ที่ใกล้เคียงกันก็มีความแตกต่างกันอย่างมาก และถึงแม้ว่าวิธีการทางชีวเคมีจะมีผลลัพธ์ที่สามารถทำซ้ำได้สูง แต่สัญญาณทางชีวเคมีก็ไม่ได้บ่งชี้ถึงหน้าที่การทำงานเสมอไป พวกเขาสรุปว่าเมื่อเปรียบเทียบกับหลักฐานเชิงวิวัฒนาการและพันธุกรรม ข้อมูลทางชีวเคมีให้เบาะแสเกี่ยวกับทั้งหน้าที่ระดับโมเลกุลที่ทำหน้าที่โดยองค์ประกอบ DNA พื้นฐานและชนิดของเซลล์ที่องค์ประกอบเหล่านั้นทำงาน และในที่สุดวิธีการทั้งสามนี้สามารถใช้ร่วมกันเพื่อระบุบริเวณที่อาจมีหน้าที่ในชีววิทยาของมนุษย์และโรคต่างๆ ยิ่งไปกว่านั้น พวกเขายังตั้งข้อสังเกตว่าแผนที่ทางชีวเคมีที่จัดทำโดย ENCODE เป็นสิ่งที่มีค่าที่สุดจากโครงการนี้ เนื่องจากเป็นจุดเริ่มต้นสำหรับการทดสอบว่าลายเซ็นเหล่านี้เกี่ยวข้องกับหน้าที่ระดับโมเลกุล เซลล์ และสิ่งมีชีวิตอย่างไร[ 52 ]
โครงการนี้ยังถูกวิพากษ์วิจารณ์ถึงต้นทุนที่สูง (รวมประมาณ 400 ล้านดอลลาร์สหรัฐ) และการให้ความสำคัญกับวิทยาศาสตร์ขนาดใหญ่ซึ่งดึงเงินไปจากการวิจัยที่ริเริ่มโดยนักวิจัยที่มีประสิทธิผลสูง[ 58 ]โครงการนำร่อง ENCODE มีค่าใช้จ่ายประมาณ 55 ล้านดอลลาร์สหรัฐ การขยายขนาดมีค่าใช้จ่ายประมาณ 130 ล้านดอลลาร์สหรัฐ และสถาบันวิจัยจีโนมมนุษย์แห่งชาติ ของสหรัฐอเมริกา (NHGRI) อาจให้ทุนสนับสนุนได้มากถึง 123 ล้านดอลลาร์สหรัฐสำหรับระยะต่อไป นักวิจัยบางคนโต้แย้งว่ายังไม่เห็นผลตอบแทนที่คุ้มค่าจากการลงทุนดังกล่าว มีความพยายามที่จะค้นหาเอกสารทางวิชาการที่ ENCODE มีบทบาทสำคัญ และตั้งแต่ปี 2012 มีเอกสาร 300 ฉบับ ซึ่ง 110 ฉบับมาจากห้องปฏิบัติการที่ไม่ได้ทุนสนับสนุนจาก ENCODE ปัญหาเพิ่มเติมคือ ENCODE ไม่ใช่ชื่อเฉพาะที่ใช้สำหรับโครงการ ENCODE เท่านั้น ดังนั้นคำว่า 'encode' จึงปรากฏในเอกสารทางพันธุศาสตร์และจีโนมิกส์จำนวนมาก[ 59 ]
อีกหนึ่งข้อวิจารณ์สำคัญคือ ผลลัพธ์ที่ได้ไม่คุ้มค่ากับเวลาที่ใช้ไปกับโครงการ และตัวโครงการเองก็แทบจะทำไม่สำเร็จ ถึงแม้ว่ามักจะถูกนำไปเปรียบเทียบกับโครงการจีโนมมนุษย์ (Human Genome Project หรือ HGP) และถึงกับถูกเรียกว่าเป็นก้าวต่อไปของ HGP แต่ HGP มีเป้าหมายที่ชัดเจน ซึ่ง ENCODE ในปัจจุบันยังขาดอยู่
ผู้เขียนดูเหมือนจะเห็นอกเห็นใจกับข้อกังวลทางวิทยาศาสตร์ และในขณะเดียวกันก็พยายามหาเหตุผลสนับสนุนความพยายามของพวกเขาด้วยการให้สัมภาษณ์และอธิบายรายละเอียดของ ENCODE ไม่เพียงแต่ต่อสาธารณชนทางวิทยาศาสตร์เท่านั้น แต่ยังรวมถึงสื่อมวลชนด้วย พวกเขายังอ้างว่าต้องใช้เวลากว่าครึ่งศตวรรษนับตั้งแต่ตระหนักว่าDNAเป็นสารพันธุกรรมของสิ่งมีชีวิตไปจนถึงลำดับจีโนมของมนุษย์ ดังนั้นแผนของพวกเขาสำหรับศตวรรษหน้าคือการทำความเข้าใจลำดับนั้นอย่างแท้จริง[ 59 ]
แฟคทอรีบุ๊ค
การวิเคราะห์ข้อมูลการจับตัวของปัจจัยการถอดรหัสที่สร้างขึ้นโดยโครงการ ENCODE มีให้บริการอยู่ในคลังข้อมูลที่เข้าถึงได้ทางเว็บ FactorBook [ 60 ]โดยพื้นฐานแล้ว Factorbook.org เป็นฐานข้อมูลแบบวิกิสำหรับข้อมูลการจับตัวของปัจจัยการถอดรหัสที่สร้างขึ้นโดยกลุ่ม ENCODE ในเวอร์ชันแรก Factorbook ประกอบด้วย:
- ชุดข้อมูล ChIP-seq จำนวน 457 ชุด ครอบคลุมปัจจัยถอดรหัส (TF) 119 ตัว ในเซลล์ไลน์ของมนุษย์หลายชนิด
- โปรไฟล์เฉลี่ยของการดัดแปลงฮิสโตนและ การจัดตำแหน่ง นิวคลีโอโซมรอบบริเวณที่ TF จับ
- ลำดับโมทีฟที่อุดมสมบูรณ์ในภูมิภาคและระยะห่างและความชอบในการวางแนวระหว่างไซต์โมทีฟ[ 61 ]
ดูเพิ่มเติม
- เจนโค้ด
- ซิมแมป
- จีโนมิกส์เชิงฟังก์ชัน
- โครงการจีโนมมนุษย์
- โครงการพันจีโนม
- โครงการ HapMap ระหว่างประเทศ
- รายชื่อฐานข้อมูลทางชีววิทยา
ลิงก์ภายนอก
- เว็บไซต์อย่างเป็นทางการ
- รายชื่อผลงานตีพิมพ์อย่างเป็นทางการของโครงการ ENCODE
- โครงการ ENCODEที่สถาบันวิจัยจีโนมมนุษย์แห่งชาติ
- สารานุกรมองค์ประกอบดีเอ็นเอในเบราว์เซอร์จีโนม UCSC
- โครงการ ENCODE/GENCODEที่สถาบัน Wellcome Trust Sanger
- บทแนะนำเบื้องต้นที่ได้รับการสนับสนุนจาก ENCODE
- แฟคทอรีบุ๊ค
- modENCODE
- ENCODE threads Explorerในวารสาร Nature
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ เข้ารหัส
สารานุกรม องค์ประกอบดีเอ็นเอ ( ENCODE ) เป็นโครงการวิจัยสาธารณะที่มีจุดมุ่งหมาย "เพื่อสร้างรายการส่วนประกอบที่ครอบคลุมของ องค์ประกอบการทำงาน ใน จีโนมมนุษย์ " [ 2 ]
ประวัติศาสตร์
ENCODE เปิดตัวโดย สถาบันวิจัยจีโนมมนุษย์แห่งชาติ ของสหรัฐอเมริกา (NHGRI) ในเดือนกันยายน พ.ศ. 2546 [ 4 ] [ 5 ] [ 6 ] [ 7 ] [ 8 ] โครงการ ENCODE มีจุดประสงค์เพื่อต่อยอดจาก โครงการจีโนมมนุษย์ โดย มีเป้าหมายเพื่อระบุองค์ประกอบการทำงานทั้งหมดใน จีโนมมนุษย์ [ 9 ]
แรงจูงใจและความสำคัญ
คาดว่ามนุษย์มีประมาณ 20,000 ยีน ที่เข้ารหัสโปรตีน ซึ่งคิดเป็นประมาณ 1.
กลุ่มพันธมิตร ENCODE
กลุ่มความร่วมมือ ENCODE ประกอบด้วยนักวิทยาศาสตร์ที่ได้รับการสนับสนุนด้านเงินทุนจาก สถาบันวิจัยจีโนมมนุษย์แห่งชาติ ของสหรัฐอเมริกา (NHGRI) เป็นหลัก ผู้เข้าร่วมโครงการรายอื่นๆ จะได้รับการรวมเข้าในกลุ่มความร่วมมือหรือกลุ่มทำงานวิเคราะห์
