เข้ารหัส

Q: ข้อมูลสำคัญเกี่ยวกับ เข้ารหัส

สารานุกรม องค์ประกอบดีเอ็นเอ ( ENCODE ) เป็นโครงการวิจัยสาธารณะที่มีจุดมุ่งหมาย "เพื่อสร้างรายการส่วนประกอบที่ครอบคลุมของ องค์ประกอบการทำงาน ใน จีโนมมนุษย์ " [ 2 ]

Q: ประวัติศาสตร์

ENCODE เปิดตัวโดย สถาบันวิจัยจีโนมมนุษย์แห่งชาติ ของสหรัฐอเมริกา (NHGRI) ในเดือนกันยายน พ.ศ. 2546 [ 4 ] [ 5 ] [ 6 ] [ 7 ] [ 8 ] โครงการ ENCODE มีจุดประสงค์เพื่อต่อยอดจาก โครงการจีโนมมนุษย์ โดย มีเป้าหมายเพื่อระบุองค์ประกอบการทำงานทั้งหมดใน จีโนมมนุษย์ [ 9 ]

เข้ารหัส
เนื้อหา
คำอธิบาย	ฐานข้อมูลจีโนมทั้งหมด
ติดต่อ
ศูนย์วิจัย	มหาวิทยาลัยสแตนฟอร์ด
ห้องปฏิบัติการ	ศูนย์เทคโนโลยีจีโนมสแตนฟอร์ด: ห้องปฏิบัติการเชอร์รี; เดิมชื่อ: มหาวิทยาลัยแคลิฟอร์เนีย ซานตาครูซ
ผู้เขียน	Eurie L. Hong และอีก 17 คน
การอ้างอิงหลัก	PMID 26980513
วันที่วางจำหน่าย	2010
เข้าถึง
เว็บไซต์	encodeproject.org

สารานุกรมองค์ประกอบดีเอ็นเอ ( ENCODE ) เป็นโครงการวิจัยสาธารณะที่มีจุดมุ่งหมาย "เพื่อสร้างรายการส่วนประกอบที่ครอบคลุมขององค์ประกอบการทำงานในจีโนมมนุษย์ " ^{[ 2 ]}

ENCODE ยังสนับสนุนการวิจัยทางชีวการแพทย์เพิ่มเติมโดย "การสร้างทรัพยากรชุมชนของข้อมูลจีโนมิกส์ ซอฟต์แวร์ เครื่องมือและวิธีการสำหรับการวิเคราะห์ข้อมูล จีโนมิกส์ และผลิตภัณฑ์ที่ได้จากการวิเคราะห์และการตีความข้อมูล" ^{[ 3 ]}^{[ 2 ]}

ระยะปัจจุบันของ ENCODE (2016-2019) กำลังเพิ่มความลึกให้กับทรัพยากรโดยการเพิ่มจำนวนประเภทเซลล์ ประเภทข้อมูล การทดสอบ และขณะนี้รวมถึงการสนับสนุนการตรวจสอบจีโนมของหนูด้วย^{[ 3 ]}

ประวัติศาสตร์

ENCODE เปิดตัวโดยสถาบันวิจัยจีโนมมนุษย์แห่งชาติ ของสหรัฐอเมริกา (NHGRI) ในเดือนกันยายน พ.ศ. 2546 ^{[ 4 ]}^{[ 5 ]}^{[ 6 ]}^{[ 7 ]}^{[ 8 ]} โครงการ ENCODE มีจุดประสงค์เพื่อต่อยอดจากโครงการจีโนมมนุษย์^โดยมีเป้าหมายเพื่อระบุองค์ประกอบการทำงานทั้งหมดในจีโนมมนุษย์ [ ^{9 ]}

โครงการนี้เกี่ยวข้องกับกลุ่มวิจัยทั่วโลก และข้อมูลที่สร้างขึ้นจากโครงการนี้สามารถเข้าถึงได้ผ่านฐานข้อมูลสาธารณะ การเปิดตัว ENCODE ครั้งแรกเกิดขึ้นในปี 2013 และตั้งแต่นั้นมาก็มีการเปลี่ยนแปลงตามคำแนะนำของสมาชิกกลุ่มวิจัยและชุมชนนักวิทยาศาสตร์ในวงกว้างที่ใช้พอร์ทัลเพื่อเข้าถึงข้อมูล ENCODE เป้าหมายสองส่วนของ ENCODE คือการทำหน้าที่เป็นฐานข้อมูลที่เข้าถึงได้โดยสาธารณะสำหรับ "โปรโตคอลการทดลอง ขั้นตอนการวิเคราะห์ และข้อมูลเอง" และ "อินเทอร์เฟซเดียวกันควรให้บริการเมตาเดต้าที่ได้รับการดูแลอย่างระมัดระวังซึ่งบันทึกที่มาของข้อมูลและพิสูจน์การตีความในเชิงชีววิทยา" ^{[ 10 ]}โครงการเริ่มต้นเฟสที่สี่ (ENCODE 4) ในเดือนกุมภาพันธ์ 2017 ^{[ 11 ]}

แรงจูงใจและความสำคัญ

คาดว่ามนุษย์มีประมาณ 20,000 ยีน ที่เข้ารหัสโปรตีน ซึ่งคิดเป็นประมาณ 1.5% ของDNAในจีโนมของมนุษย์ เป้าหมายหลักของโครงการ ENCODE คือการกำหนดบทบาทของส่วนประกอบที่เหลือของจีโนม ซึ่งส่วนใหญ่ถูกมองว่าเป็น "ขยะ" มาแต่เดิม กิจกรรมและการแสดงออกของยีนที่เข้ารหัสโปรตีนสามารถถูกปรับเปลี่ยนได้โดยเรกูโลม ซึ่งเป็นองค์ประกอบ DNAที่หลากหลายเช่นโปรโมเตอร์ลำดับควบคุมการถอดรหัส และบริเวณของโครงสร้างโครมาติน และการดัดแปลง ฮิสโตนเชื่อกันว่าการเปลี่ยนแปลงในการควบคุมกิจกรรมของยีนสามารถขัดขวาง การผลิต โปรตีนและ กระบวนการ ของเซลล์และส่งผลให้เกิดโรค การกำหนดตำแหน่งขององค์ประกอบควบคุมเหล่านี้และวิธีที่พวกมันมีอิทธิพลต่อการถอดรหัสยีนอาจเปิดเผยความเชื่อมโยงระหว่างความแปรผันในการแสดงออกของยีนบางชนิดกับการพัฒนาของโรค^{[ 12 ]}

ENCODE ยังมีจุดประสงค์เพื่อเป็นแหล่งข้อมูลที่ครอบคลุมเพื่อให้ชุมชนวิทยาศาสตร์เข้าใจได้ดียิ่งขึ้นว่าจีโนมสามารถส่งผลต่อสุขภาพของมนุษย์ได้อย่างไร และเพื่อ "กระตุ้นการพัฒนาการบำบัดใหม่เพื่อป้องกันและรักษาโรคเหล่านี้" ^{[ 5 ]}

กลุ่มพันธมิตร ENCODE

กลุ่มความร่วมมือ ENCODE ประกอบด้วยนักวิทยาศาสตร์ที่ได้รับการสนับสนุนด้านเงินทุนจากสถาบันวิจัยจีโนมมนุษย์แห่งชาติ ของสหรัฐอเมริกา (NHGRI) เป็นหลัก ผู้เข้าร่วมโครงการรายอื่นๆ จะได้รับการรวมเข้าในกลุ่มความร่วมมือหรือกลุ่มทำงานวิเคราะห์

ในระยะนำร่องประกอบด้วยกลุ่มวิจัยแปดกลุ่มและกลุ่มที่เข้าร่วมในระยะการพัฒนาเทคโนโลยี ENCODE อีกสิบสองกลุ่ม หลังจากปี 2550 จำนวนผู้เข้าร่วมได้ขยายเป็นนักวิทยาศาสตร์ 440 คนจาก 32 ห้องปฏิบัติการทั่วโลก เนื่องจากระยะนำร่องสิ้นสุดลงอย่างเป็นทางการ ในขณะนี้ กลุ่มพันธมิตรประกอบด้วยศูนย์ต่างๆ ที่ทำหน้าที่แตกต่างกัน

ENCODE เป็นสมาชิกของInternational Human Epigenome Consortium (IHEC) ^{[ 14 ]}

ข้อกำหนดหลักของ NHGRI สำหรับผลิตภัณฑ์จากการวิจัยที่ได้รับทุนจาก ENCODE คือต้องแบ่งปันในรูปแบบฟรีและเข้าถึงได้ง่ายสำหรับนักวิจัยทุกคนเพื่อส่งเสริมการวิจัยทางจีโนมิกส์ การวิจัยของ ENCODE ช่วยให้สามารถทำซ้ำได้และทำให้เกิดความโปร่งใสของซอฟต์แวร์ วิธีการ ข้อมูล และเครื่องมืออื่นๆ ที่เกี่ยวข้องกับการวิเคราะห์ทางจีโนมิกส์^{[ 3 ]}

โครงการ ENCODE

ปัจจุบัน ENCODE ดำเนินการในสี่ขั้นตอน ได้แก่ ขั้นตอนนำร่องและขั้นตอนการพัฒนาเทคโนโลยี ซึ่งเริ่มต้นพร้อมกัน^{[ 15 ]}และขั้นตอนการผลิต ขั้นตอนที่สี่เป็นการต่อเนื่องจากขั้นตอนที่สาม และรวมถึงการกำหนดลักษณะการทำงานและการวิเคราะห์แบบบูรณาการเพิ่มเติมสำหรับสารานุกรม

เป้าหมายของระยะนำร่องคือการระบุชุดขั้นตอนที่เมื่อรวมกันแล้วสามารถนำไปใช้ได้อย่างคุ้มค่าและมีประสิทธิภาพสูงเพื่อระบุลักษณะเฉพาะของบริเวณขนาดใหญ่ของจีโนมมนุษย์ ได้อย่างแม่นยำและครอบคลุม ระยะนำร่องต้องเปิดเผยช่องว่างในชุดเครื่องมือปัจจุบันสำหรับการตรวจจับลำดับการทำงาน และยังคิดว่าจะเปิดเผยว่าวิธีการบางอย่างที่ใช้ในขณะนั้นไม่มีประสิทธิภาพหรือไม่เหมาะสมสำหรับการใช้งานในวงกว้าง ปัญหาเหล่านี้บางส่วนต้องได้รับการแก้ไขในระยะการพัฒนาเทคโนโลยี ENCODE ซึ่งมีเป้าหมายเพื่อคิดค้นวิธีการทางห้องปฏิบัติการและวิธีการคำนวณใหม่ที่จะปรับปรุงความสามารถของเราในการระบุลำดับการทำงานที่รู้จักหรือค้นพบองค์ประกอบจีโนมการทำงานใหม่ ผลลัพธ์ของสองระยะแรกกำหนดเส้นทางที่ดีที่สุดสำหรับการวิเคราะห์จีโนมมนุษย์ที่เหลืออีก 99% ในระยะการผลิตที่คุ้มค่าและครอบคลุม^{[ 5 ]}

โครงการ ENCODE ระยะที่ 1: โครงการนำร่อง

ในระยะนำร่อง โครงการนี้ได้ทดสอบและเปรียบเทียบวิธีการที่มีอยู่ในการวิเคราะห์ลำดับจีโนมมนุษย์ส่วนที่กำหนดไว้อย่างเข้มงวด โดยจัดตั้งขึ้นในรูปแบบของกลุ่มความร่วมมือแบบเปิด และรวบรวมนักวิจัยที่มีภูมิหลังและความเชี่ยวชาญที่หลากหลายเพื่อประเมินข้อดีข้อเสียของเทคนิค เทคโนโลยี และกลยุทธ์ที่หลากหลาย ในขณะเดียวกัน ระยะการพัฒนาเทคโนโลยีของโครงการมีเป้าหมายเพื่อพัฒนาวิธีการใหม่ที่มีประสิทธิภาพสูงในการระบุองค์ประกอบเชิงฟังก์ชัน เป้าหมายของความพยายามเหล่านี้คือการระบุชุดวิธีการที่จะช่วยให้สามารถระบุองค์ประกอบเชิงฟังก์ชันทั้งหมดในจีโนมมนุษย์ได้อย่างครอบคลุม ผ่านโครงการนำร่อง ENCODE สถาบันวิจัยจีโนมมนุษย์แห่งชาติ (NHGRI) ได้ประเมินความสามารถของวิธีการต่างๆ ในการขยายขนาดเพื่อวิเคราะห์จีโนมมนุษย์ทั้งหมด และเพื่อค้นหาช่องว่างในความสามารถในการระบุองค์ประกอบเชิงฟังก์ชันในลำดับจีโนม

กระบวนการโครงการนำร่อง ENCODE เกี่ยวข้องกับการมีปฏิสัมพันธ์อย่างใกล้ชิดระหว่างนักวิทยาศาสตร์ด้านการคำนวณและนักวิทยาศาสตร์ด้านการทดลองเพื่อประเมินวิธีการต่างๆ ในการระบุตำแหน่งจีโนมมนุษย์ ชุดของภูมิภาคที่แสดงถึงประมาณ 1% (30 Mb) ของจีโนมมนุษย์ถูกเลือกเป็นเป้าหมายสำหรับโครงการนำร่องและได้รับการวิเคราะห์โดยนักวิจัยโครงการนำร่อง ENCODE ทุกคน ข้อมูลทั้งหมดที่สร้างขึ้นโดยผู้เข้าร่วม ENCODE ในภูมิภาคเหล่านี้ได้รับการเผยแพร่อย่างรวดเร็วไปยังฐานข้อมูลสาธารณะ^{[ 7 ]}^{[ 16 ]}

การเลือกเป้าหมาย

สำหรับการใช้งานในโครงการนำร่อง ENCODE ได้มีการคัดเลือกบริเวณที่กำหนดไว้ในจีโนมมนุษย์ ซึ่งมีขนาดประมาณ 30 เมกะเบส หรือประมาณ 1% ของจีโนมมนุษย์ทั้งหมด บริเวณเหล่านี้ทำหน้าที่เป็นพื้นฐานในการทดสอบและประเมินประสิทธิผลและประสิทธิภาพของวิธีการและเทคโนโลยีที่หลากหลายในการค้นหาองค์ประกอบการทำงานต่างๆ ในดีเอ็นเอของมนุษย์

ก่อนเริ่มกระบวนการคัดเลือกเป้าหมาย ได้มีการตัดสินใจว่า 50% ของลำดับดีเอ็นเอขนาด 30 เมกะเบส จะถูกคัดเลือกด้วยตนเอง ในขณะที่ลำดับดีเอ็นเอที่เหลือจะถูกคัดเลือกแบบสุ่ม เกณฑ์หลักสองข้อสำหรับบริเวณที่ถูกคัดเลือกด้วยตนเอง ได้แก่ 1) การมีอยู่ของยีน ที่ได้รับการศึกษามาอย่างดี หรือองค์ประกอบลำดับดีเอ็นเออื่นๆ ที่เป็นที่รู้จัก และ 2) การมีข้อมูลลำดับดีเอ็นเอเปรียบเทียบจำนวนมาก โดยใช้วิธีนี้ มีการคัดเลือกลำดับดีเอ็นเอด้วยตนเองรวม 14.82 เมกะเบส ซึ่งประกอบด้วยเป้าหมาย 14 เป้าหมายที่มีขนาดตั้งแต่ 500 กิโลเบส ถึง 2 เมกะเบส

ลำดับเบสที่เหลืออีก 50% จากทั้งหมด 30 เมกะเบส ประกอบด้วยบริเวณขนาด 500 กิโลเบส จำนวน 30 บริเวณ ซึ่งเลือกโดยใช้กลยุทธ์การสุ่มตัวอย่างแบบแบ่งชั้นตามความหนาแน่นของยีนและระดับการอนุรักษ์ที่ไม่ใช่เอ็กซอน การตัดสินใจใช้เกณฑ์เหล่านี้ก็เพื่อให้แน่ใจว่าได้สุ่มตัวอย่างบริเวณจีโนมที่มีความแตกต่างกันอย่างมากในด้านเนื้อหาของยีนและองค์ประกอบการทำงานอื่นๆ จีโนมมนุษย์ถูกแบ่งออกเป็นสามส่วน ได้แก่ ส่วนบน 20% ส่วนกลาง 30% และส่วนล่าง 50% ตามแกนสองแกน ได้แก่ 1) ความหนาแน่น ของยีนและ 2) ระดับการอนุรักษ์ที่ไม่ใช่เอ็กซอนเมื่อเทียบกับ ลำดับจีโนมของหนู ที่เป็นออร์โธล็อกัส (ดูด้านล่าง) รวมเป็นทั้งหมดเก้าชั้น จากแต่ละชั้น จะเลือกบริเวณแบบสุ่มสามบริเวณสำหรับโครงการนำร่อง สำหรับชั้นที่เลือกด้วยมือแล้วได้บริเวณน้อยกว่าที่ต้องการ จะเลือกบริเวณที่สี่เพิ่ม ทำให้มีบริเวณทั้งหมด 30 บริเวณ สำหรับทุกชั้น จะมีการกำหนดบริเวณ "สำรอง" ไว้ใช้ในกรณีที่เกิดปัญหาทางเทคนิคที่ไม่คาดคิด

โดยละเอียดแล้ว เกณฑ์การแบ่งระดับชั้นมีดังนี้:

ความหนาแน่น ของยีน : คะแนนความหนาแน่น ของยีนในแต่ละบริเวณ คือเปอร์เซ็นต์ของเบสที่ถูกครอบคลุมโดยยีนใน ฐานข้อมูล Ensemblหรือโดย การจัดเรียงลำดับ BLAT ( BLAST -like alignment tool) ที่ดีที่สุดของ mRNA ในมนุษย์ ในฐานข้อมูลUCSC Genome Browser
การอนุรักษ์ นอกเอ็กซอน : บริเวณดังกล่าวถูกแบ่งออกเป็นส่วนย่อยที่ไม่ทับซ้อนกันขนาด 125 เบส ส่วนย่อยที่แสดงการเรียงตัวของเบสกับลำดับของเมาส์น้อยกว่า 75% จะถูกตัดทิ้ง สำหรับส่วนย่อยที่เหลืออยู่ เปอร์เซ็นต์ที่มีความเหมือนกันของเบสอย่างน้อย 80% กับเมาส์ และไม่ตรงกับยีนEnsembl , การจัดเรียง BLASTZ ของ mRNA ใน GenBank , การทำนายยีน Fgenesh++, การทำนายยีน TwinScan, การจัดเรียง EST ที่ถูกตัดต่อ หรือลำดับซ้ำ ( DNA ) ถูกนำมาใช้เป็นคะแนนการอนุรักษ์นอกเอ็กซอน

คะแนนข้างต้นคำนวณภายในหน้าต่าง 500 kb ที่ไม่ทับซ้อนกันของลำดับที่เสร็จสมบูรณ์ทั่วทั้งจีโนม และใช้เพื่อกำหนดแต่ละหน้าต่างให้กับชั้น^{[ 17 ]}

ผลลัพธ์จากระยะนำร่อง

ระยะนำร่องเสร็จสิ้นลงอย่างประสบความสำเร็จและผลลัพธ์ได้รับการตีพิมพ์ในเดือนมิถุนายน พ.ศ. 2550 ในNature ^{[ 7 ]}และในฉบับพิเศษของGenome Research [ ¹⁸^]ผลลัพธ์ที่ตีพิมพ์ในบทความแรกที่กล่าวถึงได้พัฒนาความรู้โดยรวมเกี่ยวกับ หน้าที่ ^ของจีโนมมนุษย์ในหลายพื้นที่สำคัญ ซึ่งรวมถึงไฮไลท์ต่อไปนี้: ^{[ 7 ]}

จีโนมของมนุษย์มีการถอดรหัสอย่างแพร่หลาย ส่งผลให้เบส ส่วนใหญ่ เชื่อมโยงกับทรานสคริปต์หลัก อย่างน้อยหนึ่งรายการ และทรานสคริปต์จำนวนมากเชื่อมโยงบริเวณที่อยู่ห่างไกลกับ ตำแหน่งที่เข้ารหัสโปรตีนที่ได้รับการยืนยันแล้ว
มีการค้นพบสารถอดรหัสที่ไม่เข้ารหัสโปรตีนชนิดใหม่จำนวนมาก โดยสารถอดรหัสเหล่านี้จำนวนมากทับซ้อนกับตำแหน่ง ที่เข้ารหัสโปรตีน และบางส่วนตั้งอยู่ในบริเวณของจีโนมที่ก่อนหน้านี้เคยคิดว่าไม่มีการถอดรหัสเกิดขึ้น
มีการค้นพบตำแหน่งเริ่มต้น การถอดรหัสจำนวนมากที่ไม่เคยได้รับการระบุมาก่อนซึ่งหลายตำแหน่งแสดง โครงสร้าง โครมาตินและคุณสมบัติการจับโปรตีนแบบจำเพาะลำดับที่คล้ายคลึงกับโปรโมเตอร์ ที่เข้าใจกัน ดี อยู่แล้ว
ลำดับเบสควบคุมที่อยู่รอบ ๆ บริเวณเริ่มต้นการถอดรหัสมีการกระจายตัวอย่างสมมาตร โดยไม่มีความเอนเอียงไปทางบริเวณต้นน้ำ
การเข้าถึง โครมาตินและ รูปแบบการดัดแปลง ฮิสโตนสามารถใช้ทำนายการมีอยู่และกิจกรรมของจุดเริ่มต้นการถอดรหัสได้อย่างแม่นยำ
บริเวณที่ไวต่อ DNaseIที่อยู่ห่างไกลมี รูปแบบการดัดแปลง ฮิสโตนที่ เป็นลักษณะเฉพาะ ซึ่งสามารถแยกแยะออกจากโปรโมเตอร์ ได้อย่างน่าเชื่อถือ บางบริเวณที่ห่างไกลเหล่านี้แสดงเครื่องหมายที่สอดคล้องกับหน้าที่ของฉนวน
ระยะเวลา ในการจำลองดีเอ็นเอมีความสัมพันธ์กับโครงสร้างของโครมาติน
สามารถระบุได้อย่างมั่นใจว่า5% ของเบสในจีโนม ของสัตว์เลี้ยงลูกด้วยนมอยู่ภายใต้ ข้อจำกัดทางวิวัฒนาการและสำหรับเบสที่อยู่ภายใต้ข้อจำกัดเหล่านี้ประมาณ 60% มีหลักฐานแสดงถึงหน้าที่การทำงานโดยอิงจากผลการทดสอบทดลองที่ดำเนินการมาจนถึงปัจจุบัน
แม้ว่าโดยทั่วไปแล้วจะมีการทับซ้อนกันระหว่างบริเวณจีโนมที่ระบุว่ามีฟังก์ชันการทำงานโดยการทดสอบเชิงทดลองและบริเวณที่อยู่ภายใต้ข้อจำกัดทางวิวัฒนาการ แต่ไม่ใช่ว่าทุกเบสภายในบริเวณที่กำหนดโดยการทดลองเหล่านี้จะแสดงหลักฐานของข้อจำกัดดังกล่าว
องค์ประกอบการทำงานต่างๆ มีความแปรผันของลำดับในประชากรมนุษย์อย่างมาก และมีความน่าจะเป็นที่จะอยู่ในบริเวณที่มีโครงสร้างแปรผันได้ในจีโนม แตกต่างกัน ด้วย
ที่น่าประหลาดใจคือ องค์ประกอบการทำงานหลายอย่างดูเหมือนจะไม่มีข้อจำกัดใดๆ ในวิวัฒนาการของสัตว์เลี้ยงลูกด้วยนม สิ่งนี้ชี้ให้เห็นถึงความเป็นไปได้ของแหล่งรวมองค์ประกอบที่เป็นกลางจำนวนมาก ซึ่งมีฤทธิ์ทางชีวเคมีแต่ไม่ได้ให้ประโยชน์เฉพาะเจาะจงใดๆ แก่สิ่งมีชีวิต แหล่งรวมนี้อาจทำหน้าที่เป็น 'คลัง' สำหรับการคัดเลือกโดยธรรมชาติ โดยอาจเป็นแหล่งที่มาขององค์ประกอบเฉพาะสายพันธุ์ และองค์ประกอบที่ได้รับการอนุรักษ์ไว้ในเชิงหน้าที่แต่ไม่ใช่คู่ตรงข้ามระหว่างสายพันธุ์ต่างๆ

โครงการ ENCODE ระยะที่ 2: โครงการในขั้นตอนการผลิต

ภาพแสดงข้อมูล ENCODE ในUCSC Genome Browserภาพนี้แสดงแทร็กหลายแทร็กที่มีข้อมูลเกี่ยวกับการควบคุมยีนยีนทางซ้าย ( ATP2B4 ) ถูกถอดรหัสในเซลล์หลากหลายชนิด (ดู ข้อมูล H3K4me1 เพิ่มเติม ) ส่วนยีนทางขวาถูกถอดรหัสในเซลล์เพียงไม่กี่ชนิดเท่านั้น รวมถึงเซลล์ต้นกำเนิดของตัวอ่อน

ในเดือนกันยายน พ.ศ. 2550 สถาบันวิจัยจีโนมมนุษย์แห่งชาติ (NHGRI) เริ่มให้ทุนสนับสนุนขั้นตอนการผลิตของโครงการ ENCODE ในขั้นตอนนี้ เป้าหมายคือการวิเคราะห์จีโนมทั้งหมดและดำเนินการ "การศึกษานำร่องเพิ่มเติม" ^{[ 19 ]}

เช่นเดียวกับในโครงการนำร่อง ความพยายามในการผลิตได้รับการจัดระเบียบในรูปแบบของกลุ่มความร่วมมือแบบเปิด ในเดือนตุลาคม พ.ศ. 2550 NHGRI ได้มอบทุนสนับสนุนรวมกว่า 80 ล้านดอลลาร์สหรัฐในระยะเวลาสี่ปี^{[ 20 ]}ระยะการผลิตยังรวมถึงศูนย์ประสานงานข้อมูล ศูนย์วิเคราะห์ข้อมูล และความพยายามในการพัฒนาเทคโนโลยี^{[ 21 ]} ในเวลานั้น โครงการได้พัฒนาไปสู่องค์กรระดับโลกอย่างแท้จริง โดยมีนักวิทยาศาสตร์ 440 คนจาก 32 ห้องปฏิบัติการทั่วโลกเข้าร่วม เมื่อระยะนำร่องเสร็จสิ้น โครงการได้ "ขยายขนาด" ในปี พ.ศ. 2550 โดยได้รับประโยชน์อย่างมหาศาลจากเครื่องจัดลำดับรุ่นใหม่ และข้อมูลก็มีขนาดใหญ่มาก นักวิจัยสร้างข้อมูลดิบ ประมาณ 15 เทราไบต์

ภายในปี 2010 โครงการ ENCODE ได้สร้างชุดข้อมูลจีโนมทั่วทั้งจีโนมมากกว่า 1,000 ชุด โดยรวมแล้ว ชุดข้อมูลเหล่านี้แสดงให้เห็นว่าบริเวณใดถูกถอดรหัสเป็น RNA บริเวณใดมีแนวโน้มที่จะควบคุมยีนที่ใช้ในเซลล์ชนิดใดชนิดหนึ่ง และบริเวณใดเกี่ยวข้องกับโปรตีนหลากหลายชนิด การทดสอบหลักที่ใช้ใน ENCODE ได้แก่ChIP-seq , การทดสอบความไวต่อ DNase I , RNA-seqและการทดสอบ การเมทิลเลชั่ น ของ DNA

ผลลัพธ์ในขั้นตอนการผลิต

ในเดือนกันยายน พ.ศ. 2555 โครงการได้เผยแพร่ผลลัพธ์ที่ครอบคลุมมากขึ้นในเอกสาร 30 ฉบับที่ตีพิมพ์พร้อมกันในวารสารหลายฉบับ รวมถึง 6 ฉบับในNature , 6 ฉบับใน Genome Biologyและฉบับพิเศษที่มีเอกสารตีพิมพ์ 18 ฉบับในGenome Research ^{[ 22 ]}

ผู้เขียนได้อธิบายถึงการผลิตและการวิเคราะห์เบื้องต้นของชุดข้อมูล 1,640 ชุดที่ออกแบบมาเพื่อระบุองค์ประกอบการทำงานในจีโนมมนุษย์ทั้งหมด โดยบูรณาการผลลัพธ์จากการทดลองที่หลากหลายภายในเซลล์ประเภทต่างๆ การทดลองที่เกี่ยวข้องซึ่งเกี่ยวข้องกับเซลล์ประเภทต่างๆ 147 ประเภท และข้อมูล ENCODE ทั้งหมดพร้อมกับแหล่งข้อมูลอื่นๆ เช่น บริเวณที่คาดว่าจะเป็นเป้าหมายจากการศึกษาการเชื่อมโยงจีโนมทั่วทั้งจีโนม ( GWAS ) และ บริเวณ ที่ถูกจำกัด โดยวิวัฒนาการ ความพยายามเหล่านี้ร่วมกันเปิดเผยคุณลักษณะที่สำคัญเกี่ยวกับการจัดระเบียบและการทำงานของจีโนมมนุษย์ ซึ่งสรุปไว้ในเอกสารภาพรวมดังต่อไปนี้: ^{[ 23 ]}

จีโนมมนุษย์ส่วนใหญ่ (80.4%) มีส่วนร่วมในกระบวนการทางชีวเคมี ที่เกี่ยวข้องกับ RNAและ/หรือโครมาติน อย่างน้อยหนึ่งกระบวนการใน เซลล์อย่างน้อยหนึ่ง ชนิด จีโนมส่วนใหญ่อยู่ใกล้กับกระบวนการควบคุม: 95% ของจีโนมอยู่ภายในระยะ 8 กิโลเบสจาก ปฏิกิริยาระหว่าง DNAกับโปรตีน (วัดโดยใช้ ลวดลาย ChIP-seq ที่จับกัน หรือร่องรอย DNaseI ) และ 99% อยู่ภายในระยะ 1.7 กิโลเบสจากกระบวนการทางชีวเคมีอย่างน้อยหนึ่งกระบวนการที่วัดโดย ENCODE
องค์ประกอบเฉพาะของไพรเมต รวมถึงองค์ประกอบที่ไม่มีข้อจำกัดของสัตว์เลี้ยงลูกด้วยนมที่ตรวจพบได้นั้น โดยรวมแล้วแสดงให้เห็นหลักฐานของการคัดเลือกเชิงลบ ดังนั้นจึงคาดว่าบางส่วนขององค์ประกอบเหล่านั้นจะมีฟังก์ชันการทำงาน
การจำแนกจีโนมออกเป็นเจ็ด สถานะของ โครมาตินชี้ให้เห็นถึงชุดเริ่มต้นของบริเวณที่มี ลักษณะคล้ายตัวเร่งปฏิกิริยา (enhancer -like features) จำนวน 399,124 บริเวณ และบริเวณที่มีลักษณะคล้าย ตัวส่งเสริมปฏิกิริยา (promoter -like features ) จำนวน 70,292 บริเวณรวมถึงบริเวณที่อยู่ในสภาวะสงบอีกหลายแสนบริเวณ การวิเคราะห์ที่มีความละเอียดสูงยังแบ่งจีโนม ออก เป็นสถานะย่อยๆ อีกหลายพันสถานะที่มีคุณสมบัติการทำงานที่แตกต่างกัน
สามารถเชื่อมโยงความสัมพันธ์เชิงปริมาณระหว่าง การผลิตและการประมวลผลลำดับ RNAกับทั้ง เครื่องหมาย โครมาตินและ การจับตัวของ ปัจจัยถอดรหัส (TF) ที่โปรโมเตอร์ได้ซึ่งบ่งชี้ว่าการทำงานของโปรโมเตอร์สามารถอธิบายความแปรผันของการแสดงออกของ RNA ส่วนใหญ่ได้
ตัวแปร ที่ไม่เข้ารหัสจำนวนมากใน ลำดับ จีโนม ของแต่ละบุคคล นั้นอยู่ในบริเวณที่มีฟังก์ชันการทำงานซึ่งได้รับการระบุโดย ENCODE โดยจำนวนนี้มีอย่างน้อยเท่ากับจำนวนตัวแปรที่อยู่ในยีนที่เข้ารหัสโปรตีน
SNPที่เกี่ยวข้องกับโรคจากการศึกษา GWASมักพบมากในบริเวณองค์ประกอบการทำงานที่ไม่เข้ารหัส โดยส่วนใหญ่จะอยู่ในหรือใกล้กับบริเวณที่กำหนดโดย ENCODE ซึ่งอยู่นอกเหนือยีนที่เข้ารหัสโปรตีนในหลายกรณีลักษณะอาการ ของโรค อาจเกี่ยวข้องกับชนิดของเซลล์หรือ ปัจจัยถอดรหัส (TF ) ที่เฉพาะเจาะจง

ผลการค้นพบที่โดดเด่นที่สุดคือสัดส่วนของ DNA ของมนุษย์ที่มีการทำงานทางชีวภาพนั้นสูงกว่าการประมาณการก่อนหน้านี้ที่มองโลกในแง่ดีที่สุดเสียอีก ในเอกสารภาพรวม กลุ่ม ENCODE รายงานว่าสมาชิกสามารถกำหนดหน้าที่ทางชีวเคมีให้กับจีโนมได้มากกว่า 80% ^{[ 23 ]}พบว่าส่วนใหญ่เกี่ยวข้องกับการควบคุมระดับการแสดงออกของDNA ที่เข้ารหัสซึ่งประกอบขึ้นเป็นจีโนมน้อยกว่า 1%

องค์ประกอบใหม่ที่สำคัญที่สุดของ "สารานุกรม" ประกอบด้วย:

แผนที่ที่ครอบคลุมของไซต์ที่มีความไวต่อ DNase 1 ซึ่งเป็นเครื่องหมายสำหรับ DNA ควบคุมที่มักจะอยู่ติดกับยีนและอนุญาตให้ปัจจัยทางเคมีมีอิทธิพลต่อการแสดงออกของยีน แผนที่นี้ระบุไซต์ประเภทนี้เกือบ 3 ล้านไซต์ รวมถึงไซต์ที่รู้จักก่อนหน้านี้เกือบทั้งหมดและไซต์ใหม่จำนวนมาก^{[ 24 ]}
พจนานุกรมของลำดับ DNA สั้นๆ ที่สร้างรูปแบบการจดจำสำหรับโปรตีนที่จับกับ DNA พบลำดับดังกล่าวประมาณ 8.4 ล้านลำดับ ซึ่งประกอบเป็นเศษส่วนของ DNA ทั้งหมดประมาณสองเท่าของขนาดของเอ็กโซมพบโปรโมเตอร์การถอดรหัสหลายพันรายการที่ใช้รูปแบบ 50 คู่เบสแบบตายตัวเพียงรูปแบบเดียว^{[ 25 ]}
ภาพร่างเบื้องต้นของสถาปัตยกรรมของเครือข่ายปัจจัยการถอดรหัสของมนุษย์ ซึ่งก็คือปัจจัยที่จับกับ DNA เพื่อส่งเสริมหรือยับยั้งการแสดงออกของยีน พบว่าเครือข่ายมีความซับซ้อนมาก โดยมีปัจจัยที่ทำงานในระดับต่างๆ รวมถึงวงจรป้อนกลับหลายประเภท^{[ 26 ]}
การวัดสัดส่วนของจีโนมมนุษย์ที่สามารถถอดรหัสเป็น RNA ได้ สัดส่วนนี้คาดว่าจะมีมากกว่า 75% ของ DNA ทั้งหมด ซึ่งเป็นค่าที่สูงกว่าการประมาณการก่อนหน้านี้มาก โครงการนี้ยังเริ่มกำหนดลักษณะของ RNA ที่ถูกถอดรหัสซึ่งถูกสร้างขึ้นในตำแหน่งต่างๆ^{[ 27 ]}

การจัดการและการวิเคราะห์ข้อมูล

การรวบรวม จัดเก็บ บูรณาการ และแสดงข้อมูลที่หลากหลายที่สร้างขึ้นนั้นเป็นเรื่องท้าทาย ศูนย์ประสานงานข้อมูล ENCODE (DCC) ทำหน้าที่จัดระเบียบและแสดงข้อมูลที่สร้างขึ้นโดยห้องปฏิบัติการในกลุ่มพันธมิตร และรับรองว่าข้อมูลนั้นตรงตามมาตรฐานคุณภาพเฉพาะเมื่อเผยแพร่สู่สาธารณะ ก่อนที่ห้องปฏิบัติการจะส่งข้อมูลใดๆ DCC และห้องปฏิบัติการจะร่างข้อตกลงข้อมูลที่กำหนดพารามิเตอร์การทดลองและเมตาเดตาที่เกี่ยวข้อง DCC ตรวจสอบความถูกต้องของข้อมูลที่เข้ามาเพื่อให้แน่ใจว่าสอดคล้องกับข้อตกลง นอกจากนี้ยังรับรองว่าข้อมูลทั้งหมดได้รับการระบุคำอธิบายประกอบโดยใช้ออนโทโลยีที่ เหมาะสม ^{[ 28 ]}จากนั้นจะโหลดข้อมูลไปยังเซิร์ฟเวอร์ทดสอบเพื่อตรวจสอบเบื้องต้น และประสานงานกับห้องปฏิบัติการเพื่อจัดระเบียบข้อมูลให้เป็นชุดแทร็กที่สอดคล้องกัน เมื่อแทร็กพร้อมแล้ว ทีมประกันคุณภาพของ DCC จะทำการตรวจสอบความสมบูรณ์หลายขั้นตอน ตรวจสอบว่าข้อมูลถูกนำเสนอในลักษณะที่สอดคล้องกับข้อมูลเบราว์เซอร์อื่นๆ และที่สำคัญที่สุดคือ ตรวจสอบว่าเมตาเดตาและข้อความอธิบายประกอบถูกนำเสนอในลักษณะที่เป็นประโยชน์ต่อผู้ใช้ของเรา ข้อมูลจะถูกเผยแพร่บน เว็บไซต์ UCSC Genome Browser สาธารณะ ก็ต่อเมื่อการตรวจสอบทั้งหมดเหล่านี้เสร็จสมบูรณ์แล้ว ในขณะเดียวกัน ข้อมูลจะได้รับการวิเคราะห์โดยศูนย์วิเคราะห์ข้อมูล ENCODE ซึ่งเป็นกลุ่มทีมวิเคราะห์จากห้องปฏิบัติการผลิตต่างๆ รวมถึงนักวิจัยอื่นๆ ทีมเหล่านี้พัฒนาโปรโตคอลมาตรฐานเพื่อวิเคราะห์ข้อมูลจากการทดสอบใหม่ กำหนดแนวทางปฏิบัติที่ดีที่สุด และสร้างชุดวิธีการวิเคราะห์ที่สอดคล้องกัน เช่น ตัวเรียกจุดสูงสุด มาตรฐาน และการสร้างสัญญาณจากกลุ่มการ จัด เรียง^{[ 29 ]}

สถาบันวิจัยจีโนมมนุษย์แห่งชาติ (NHGRI) ได้ระบุ ENCODE ว่าเป็น "โครงการทรัพยากรชุมชน" แนวคิดสำคัญนี้ได้รับการกำหนดไว้ในการประชุมระหว่างประเทศที่จัดขึ้นที่เมืองฟอร์ตลอเดอร์เดลในเดือนมกราคม พ.ศ. 2546 ว่าเป็นโครงการวิจัยที่ออกแบบและดำเนินการโดยเฉพาะเพื่อสร้างชุดข้อมูล สารเคมี หรือวัสดุอื่น ๆ ซึ่งประโยชน์หลักจะเป็นทรัพยากรสำหรับชุมชนวิทยาศาสตร์ในวงกว้าง ดังนั้น นโยบายการเผยแพร่ข้อมูลของ ENCODE จึงกำหนดว่า เมื่อตรวจสอบข้อมูลแล้ว ข้อมูลจะถูกฝากไว้ในฐานข้อมูลสาธารณะและเปิดให้ทุกคนใช้งานได้โดยไม่มีข้อจำกัด^{[ 29 ]}

โครงการอื่นๆ

ในการดำเนินงานระยะที่สามอย่างต่อเนื่อง กลุ่มพันธมิตร ENCODE ได้เข้ามามีส่วนร่วมในโครงการเพิ่มเติมหลายโครงการ ซึ่งมีเป้าหมายที่สอดคล้องกับโครงการ ENCODE โดยบางโครงการเหล่านี้เป็นส่วนหนึ่งของโครงการ ENCODE ระยะที่สอง

โครงการ modENCODE

โครงการ MODEL organism ENCyclopedia Of DNA Elements (modENCODE) เป็นการต่อยอดจากโครงการ ENCODE เดิม โดยมีเป้าหมายเพื่อระบุองค์ประกอบการทำงานใน จีโนม ของสิ่งมีชีวิตต้นแบบ ที่เลือกไว้ โดยเฉพาะDrosophila melanogasterและCaenorhabditis elegans [ ^{30 ] การ}ขยายไปสู่สิ่งมีชีวิตต้นแบบทำให้สามารถตรวจสอบความถูกต้องทางชีวภาพของผลการคำนวณและการทดลองของโครงการ ENCODE ซึ่งเป็นสิ่งที่ทำได้ยากหรือเป็นไปไม่ได้ในมนุษย์^{[ 30 ]}สถาบันสุขภาพแห่งชาติ (NIH) ประกาศให้ทุนสนับสนุนโครงการ modENCODE ในปี 2550 และรวมถึงสถาบันวิจัยต่างๆ ในสหรัฐอเมริกาหลายแห่ง^{[ 31 ]}^{[ 32 ]}โครงการนี้เสร็จสิ้นการทำงานในปี 2555

ในช่วงปลายปี 2010 กลุ่มความร่วมมือ modENCODE ได้เปิดเผยผลลัพธ์ชุดแรกด้วยการตีพิมพ์เกี่ยวกับการระบุคำอธิบายประกอบและการวิเคราะห์แบบบูรณาการของจีโนมหนอนและแมลงวันในวารสารScience ^{[ 33 ]}^{[ 34 ]}ข้อมูลจากสิ่งพิมพ์เหล่านี้มีให้ใช้งานจากเว็บไซต์ modENCODE ^{[ 35 ]}

modENCODE ดำเนินงานในรูปแบบเครือข่ายวิจัย และกลุ่มความร่วมมือประกอบด้วยโครงการหลัก 11 โครงการ แบ่งระหว่างงานวิจัยเกี่ยวกับหนอนและแมลงวัน โครงการเหล่านี้ครอบคลุมหัวข้อต่อไปนี้:

โครงสร้างยีน
การวิเคราะห์รูปแบบการแสดงออกของ mRNA และ ncRNA
ตำแหน่งการจับของปัจจัยถอดรหัส
การดัดแปลงและการทดแทนฮิสโตน
โครงสร้างโครมาติน
การเริ่มต้นและการกำหนดเวลาของการจำลองดีเอ็นเอ
การเปลี่ยนแปลงจำนวนสำเนา^{[ 36 ]}

ทันสมัย

modERN ซึ่งย่อมาจาก model organism encyclopedia of regulatory networks แตกแขนงมาจากโครงการ modENCODE โครงการนี้ได้รวมกลุ่ม C. elegans และ Drosophila เข้าด้วยกัน และมุ่งเน้นไปที่การระบุตำแหน่งการจับของปัจจัยการถอดรหัสเพิ่มเติมของสิ่งมีชีวิตแต่ละชนิด โครงการนี้เริ่มต้นพร้อมกับเฟส III ของ ENCODE และมีแผนจะสิ้นสุดในปี 2017 ^{[ 37 ]}จนถึงปัจจุบัน โครงการนี้ได้เผยแพร่การทดลอง 198 ครั้ง^{[ 38 ]}โดยมีการทดลองอื่นๆ อีกประมาณ 500 ครั้งที่ส่งเข้ามาและกำลังอยู่ระหว่างการประมวลผลโดย DCC

จีโนมิกส์ของการควบคุมยีน

ในช่วงต้นปี 2558 NIH ได้เปิดตัวโครงการ Genomics of Gene Regulation (GGR) ^{[ 39 ]}เป้าหมายของโครงการนี้ ซึ่งจะดำเนินไปเป็นเวลาสามปี คือการศึกษาเครือข่ายยีนและเส้นทางในระบบต่างๆ ของร่างกาย โดยหวังว่าจะเข้าใจกลไกที่ควบคุมการแสดงออกของยีนได้ดียิ่งขึ้น แม้ว่าโครงการ ENCODE จะแยกจาก GGR แต่ ENCODE DCC ก็ได้จัดเก็บข้อมูล GGR ไว้ในพอร์ทัล ENCODE ^{[ 40 ]}

แผนงาน

ในปี 2551 NIH ได้เริ่มก่อตั้ง Roadmap Epigenomics Mapping Consortium ซึ่งมีเป้าหมายเพื่อสร้าง "แหล่งข้อมูลสาธารณะของข้อมูลเอพิเจโนมิกของมนุษย์เพื่อกระตุ้นชีววิทยาพื้นฐานและการวิจัยที่มุ่งเน้นโรค" ^{[ 41 ]}ในเดือนกุมภาพันธ์ 2558 กลุ่มความร่วมมือได้เผยแพร่บทความชื่อ "การวิเคราะห์แบบบูรณาการของเอพิเจโนมของมนุษย์อ้างอิง 111 รายการ" ซึ่งบรรลุเป้าหมายของกลุ่มความร่วมมือ กลุ่มความร่วมมือได้บูรณาการข้อมูลและระบุองค์ประกอบควบคุมในเอพิเจโนมอ้างอิง 127 รายการ โดย 16 รายการเป็นส่วนหนึ่งของโครงการ ENCODE ^{[ 42 ]}ข้อมูลสำหรับโครงการ Roadmap สามารถพบได้ในพอร์ทัล Roadmap หรือพอร์ทัล ENCODE

โครงการ fruitENCODE

fruitENCODE: สารานุกรมองค์ประกอบดีเอ็นเอสำหรับการสุกของผลไม้ เป็นโครงการ ENCODE ของพืชที่มุ่งสร้างชุดข้อมูลการเมทิลเลชั่นของดีเอ็นเอ การดัดแปลงฮิสโตน DHS การแสดงออกของยีน และการจับตัวของปัจจัยการถอดรหัสสำหรับผลไม้เนื้อนุ่มทุกชนิดในระยะการพัฒนาต่างๆ ข้อมูลเวอร์ชันก่อนเผยแพร่สามารถดูได้ในพอร์ทัล fruitENCODE

คำวิจารณ์โครงการ

แม้ว่ากลุ่มผู้ร่วมงานจะอ้างว่าพวกเขายังไม่เสร็จสิ้นโครงการ ENCODE แต่ปฏิกิริยาต่อเอกสารที่ตีพิมพ์และการรายงานข่าวที่มาพร้อมกับการเผยแพร่นั้นเป็นไปในทางที่ดี บรรณาธิการ ของ Natureและผู้เขียน ENCODE "...ได้ร่วมมือกันเป็นเวลาหลายเดือนเพื่อให้เกิดความฮือฮามากที่สุดเท่าที่จะเป็นไปได้และดึงดูดความสนใจไม่เพียงแต่จากชุมชนวิจัยเท่านั้น แต่ยังรวมถึงสาธารณชนโดยทั่วไปด้วย" ^{[ 44 ]} ข้ออ้างของโครงการ ENCODE ที่ว่า 80% ของจีโนมมนุษย์มีหน้าที่ทางชีวเคมี^{[ 23 ]}ได้รับการเผยแพร่อย่างรวดเร็วโดยสื่อกระแสหลัก ซึ่งอธิบายผลลัพธ์ของโครงการว่านำไปสู่การสิ้นสุดของดีเอ็นเอขยะ^{[ 45 ]}^{[ 46 ]}

อย่างไรก็ตาม ข้อสรุปที่ว่าจีโนมส่วนใหญ่ "ทำงานได้" นั้นถูกวิพากษ์วิจารณ์เนื่องจากโครงการ ENCODE ใช้คำจำกัดความของ "ทำงานได้" อย่างกว้างขวาง กล่าวคือ สิ่งใดก็ตามที่ถูกถอดรหัสจะต้องทำงานได้ ข้อสรุปนี้ได้มาแม้จะมีมุมมองที่เป็นที่ยอมรับกันอย่างกว้างขวาง โดยอิงจากการประมาณการการอนุรักษ์จีโนมจากการเปรียบเทียบจีโนมว่าองค์ประกอบ DNA จำนวนมาก เช่นยีนเทียมที่ถูกถอดรหัสนั้นยังคงไม่ทำงาน นอกจากนี้ โครงการ ENCODE ยังเน้นความไวมากกว่าความจำเพาะซึ่งอาจนำไปสู่การตรวจพบผลบวกเท็จ จำนวนมาก ^{[ 47 ]}^{[ 48 ]}^{[ 49 ]}การเลือกสายเซลล์และปัจจัยการถอดรหัสที่ค่อนข้างเป็นไปตามอำเภอใจ รวมถึงการขาดการทดลองควบคุมที่เหมาะสม เป็นข้อวิจารณ์หลักเพิ่มเติมของ ENCODE เนื่องจาก DNA แบบสุ่มเลียนแบบพฤติกรรม "ทำงานได้" แบบ ENCODE ^{[ 50 ]}

เพื่อตอบสนองต่อคำวิจารณ์บางส่วน นักวิทยาศาสตร์คนอื่นๆ โต้แย้งว่าการถอดรหัสและการตัดต่อที่แพร่หลายซึ่งสังเกตได้ในจีโนมของมนุษย์โดยตรงจากการทดสอบทางชีวเคมีนั้นเป็นตัวบ่งชี้การทำงานทางพันธุกรรมที่แม่นยำกว่าการประมาณการการอนุรักษ์จีโนม เนื่องจากค่าประมาณการการอนุรักษ์ทั้งหมดเป็นแบบสัมพัทธ์และยากที่จะจัดเรียงให้ตรงกันเนื่องจากความแปรผันที่เหลือเชื่อในขนาดจีโนมของแม้แต่สายพันธุ์ที่ใกล้เคียงกันมาก เป็นการกล่าวซ้ำซ้อนบางส่วน และการประมาณการเหล่านี้ไม่ได้ขึ้นอยู่กับการทดสอบโดยตรงสำหรับการทำงานบนจีโนม^{[ 51 ]}^{[ 52 ]}การประมาณการการอนุรักษ์อาจใช้เพื่อให้เบาะแสในการระบุองค์ประกอบการทำงานที่เป็นไปได้ในจีโนม แต่ไม่ได้จำกัดหรือกำหนดขีดจำกัดของปริมาณทั้งหมดขององค์ประกอบการทำงานที่อาจมีอยู่ในจีโนม^{[ 52 ]}ยิ่งไปกว่านั้น จีโนมส่วนใหญ่ที่ถูกโต้แย้งโดยนักวิจารณ์ดูเหมือนจะเกี่ยวข้องกับ การควบคุม เอพิเจเนติกส์เช่น การแสดงออกของยีน และดูเหมือนจะจำเป็นสำหรับการพัฒนาสิ่งมีชีวิตที่ซับซ้อน^{[ 51 ]}^{[ 53 ]}ผลลัพธ์ของ ENCODE ไม่ได้เป็นสิ่งที่คาดไม่ถึงเสมอไป เนื่องจากการเพิ่มขึ้นของการระบุหน้าที่การทำงานนั้นได้รับการบอกใบ้ไว้แล้วจากการวิจัยในช่วงหลายทศวรรษที่ผ่านมา^{[ 51 ]}^{[ 53 ]}นอกจากนี้ ผู้อื่นยังได้ตั้งข้อสังเกตว่าโครงการ ENCODE ตั้งแต่เริ่มต้นมีขอบเขตที่มุ่งเน้นการค้นหาองค์ประกอบการทำงานที่เกี่ยวข้องกับชีวการแพทย์ในจีโนม ไม่ใช่องค์ประกอบการทำงานเชิงวิวัฒนาการ ซึ่งไม่จำเป็นต้องเป็นสิ่งเดียวกันเสมอไป เนื่องจากการคัดเลือกเชิงวิวัฒนาการนั้นไม่เพียงพอและไม่จำเป็นต่อการสร้างหน้าที่การทำงาน มันเป็นตัวแทนที่มีประโยชน์มากสำหรับหน้าที่การทำงานที่เกี่ยวข้อง แต่เป็นตัวแทนที่ไม่สมบูรณ์และไม่ใช่ตัวแทนเดียว^{[ 54 ]}

เมื่อเร็วๆ นี้ นักวิจัยของ ENCODE ได้ย้ำอีกครั้งว่าเป้าหมายหลักคือการระบุองค์ประกอบการทำงานในจีโนมของมนุษย์^{[ 55 ]}ในเอกสารติดตามผลในปี 2020 ENCODE ระบุว่าการระบุคำอธิบายการทำงานขององค์ประกอบที่ระบุได้นั้น "ยังอยู่ในช่วงเริ่มต้น" ^{[ 56 ]}

เพื่อตอบสนองต่อข้อร้องเรียนเกี่ยวกับคำจำกัดความของคำว่า "ฟังก์ชัน" บางคนตั้งข้อสังเกตว่า ENCODE ได้กำหนดความหมายของคำนี้ไว้แล้ว และเนื่องจากขอบเขตของ ENCODE คือการค้นหาองค์ประกอบการทำงานที่เกี่ยวข้องกับชีวการแพทย์ในจีโนม ดังนั้นข้อสรุปของโครงการจึงควรตีความได้ว่า "80% ของจีโนมมีส่วนร่วมในกิจกรรมทางชีวเคมีที่เกี่ยวข้องซึ่งมีแนวโน้มสูงที่จะมีบทบาทเชิงสาเหตุในปรากฏการณ์ที่ถือว่าเกี่ยวข้องกับการวิจัยทางชีวการแพทย์" ^{[ 54 ]} Ewan Birneyหนึ่งในนักวิจัยของ ENCODE แสดงความคิดเห็นว่า "ฟังก์ชัน" ถูกใช้ในเชิงปฏิบัติเพื่อหมายถึง "กิจกรรมทางชีวเคมีเฉพาะ" ซึ่งรวมถึงการทดสอบประเภทต่างๆ ได้แก่ RNA การดัดแปลงฮิสโตนแบบ "กว้าง" การดัดแปลงฮิสโตนแบบ "แคบ" ตำแหน่งที่ไวต่อ DNaseI สูง จุดสูงสุด ChIP-seq ของปัจจัยการถอดรหัส ร่องรอย DNaseI ลวดลายที่จับกับปัจจัยการถอดรหัส และเอ็กซอน^{[ 57 ]}

ในปี 2014 นักวิจัยของ ENCODE สังเกตว่าในเอกสารทางวิชาการ การระบุส่วนประกอบที่ทำหน้าที่สำคัญของจีโนมนั้นแตกต่างกันไปในแต่ละการศึกษา ขึ้นอยู่กับวิธีการที่ใช้ โดยทั่วไปแล้วมีวิธีการหลัก 3 วิธีที่ใช้ในการระบุส่วนประกอบที่ทำหน้าที่สำคัญของจีโนมมนุษย์ ได้แก่ วิธีการทางพันธุกรรม (ซึ่งอาศัยการเปลี่ยนแปลงของลักษณะภายนอก) วิธีการทางวิวัฒนาการ (ซึ่งอาศัยการอนุรักษ์) และวิธีการทางชีวเคมี (ซึ่งอาศัยการทดสอบทางชีวเคมี และเป็นวิธีการที่ ENCODE ใช้) ทั้งสามวิธีมีข้อจำกัด: วิธีการทางพันธุกรรมอาจพลาดส่วนประกอบที่ทำหน้าที่สำคัญซึ่งไม่ปรากฏให้เห็นทางกายภาพในสิ่งมีชีวิต วิธีการทางวิวัฒนาการมีปัญหาในการใช้การจัดเรียงลำดับหลายสายพันธุ์ที่แม่นยำ เนื่องจากจีโนมของสายพันธุ์ที่ใกล้เคียงกันก็มีความแตกต่างกันอย่างมาก และถึงแม้ว่าวิธีการทางชีวเคมีจะมีผลลัพธ์ที่สามารถทำซ้ำได้สูง แต่สัญญาณทางชีวเคมีก็ไม่ได้บ่งชี้ถึงหน้าที่การทำงานเสมอไป พวกเขาสรุปว่าเมื่อเปรียบเทียบกับหลักฐานเชิงวิวัฒนาการและพันธุกรรม ข้อมูลทางชีวเคมีให้เบาะแสเกี่ยวกับทั้งหน้าที่ระดับโมเลกุลที่ทำหน้าที่โดยองค์ประกอบ DNA พื้นฐานและชนิดของเซลล์ที่องค์ประกอบเหล่านั้นทำงาน และในที่สุดวิธีการทั้งสามนี้สามารถใช้ร่วมกันเพื่อระบุบริเวณที่อาจมีหน้าที่ในชีววิทยาของมนุษย์และโรคต่างๆ ยิ่งไปกว่านั้น พวกเขายังตั้งข้อสังเกตว่าแผนที่ทางชีวเคมีที่จัดทำโดย ENCODE เป็นสิ่งที่มีค่าที่สุดจากโครงการนี้ เนื่องจากเป็นจุดเริ่มต้นสำหรับการทดสอบว่าลายเซ็นเหล่านี้เกี่ยวข้องกับหน้าที่ระดับโมเลกุล เซลล์ และสิ่งมีชีวิตอย่างไร^{[ 52 ]}

โครงการนี้ยังถูกวิพากษ์วิจารณ์ถึงต้นทุนที่สูง (รวมประมาณ 400 ล้านดอลลาร์สหรัฐ) และการให้ความสำคัญกับวิทยาศาสตร์ขนาดใหญ่ซึ่งดึงเงินไปจากการวิจัยที่ริเริ่มโดยนักวิจัยที่มีประสิทธิผลสูง^{[ 58 ]}โครงการนำร่อง ENCODE มีค่าใช้จ่ายประมาณ 55 ล้านดอลลาร์สหรัฐ การขยายขนาดมีค่าใช้จ่ายประมาณ 130 ล้านดอลลาร์สหรัฐ และสถาบันวิจัยจีโนมมนุษย์แห่งชาติ ของสหรัฐอเมริกา (NHGRI) อาจให้ทุนสนับสนุนได้มากถึง 123 ล้านดอลลาร์สหรัฐสำหรับระยะต่อไป นักวิจัยบางคนโต้แย้งว่ายังไม่เห็นผลตอบแทนที่คุ้มค่าจากการลงทุนดังกล่าว มีความพยายามที่จะค้นหาเอกสารทางวิชาการที่ ENCODE มีบทบาทสำคัญ และตั้งแต่ปี 2012 มีเอกสาร 300 ฉบับ ซึ่ง 110 ฉบับมาจากห้องปฏิบัติการที่ไม่ได้ทุนสนับสนุนจาก ENCODE ปัญหาเพิ่มเติมคือ ENCODE ไม่ใช่ชื่อเฉพาะที่ใช้สำหรับโครงการ ENCODE เท่านั้น ดังนั้นคำว่า 'encode' จึงปรากฏในเอกสารทางพันธุศาสตร์และจีโนมิกส์จำนวนมาก^{[ 59 ]}

อีกหนึ่งข้อวิจารณ์สำคัญคือ ผลลัพธ์ที่ได้ไม่คุ้มค่ากับเวลาที่ใช้ไปกับโครงการ และตัวโครงการเองก็แทบจะทำไม่สำเร็จ ถึงแม้ว่ามักจะถูกนำไปเปรียบเทียบกับโครงการจีโนมมนุษย์ (Human Genome Project หรือ HGP) และถึงกับถูกเรียกว่าเป็นก้าวต่อไปของ HGP แต่ HGP มีเป้าหมายที่ชัดเจน ซึ่ง ENCODE ในปัจจุบันยังขาดอยู่

ผู้เขียนดูเหมือนจะเห็นอกเห็นใจกับข้อกังวลทางวิทยาศาสตร์ และในขณะเดียวกันก็พยายามหาเหตุผลสนับสนุนความพยายามของพวกเขาด้วยการให้สัมภาษณ์และอธิบายรายละเอียดของ ENCODE ไม่เพียงแต่ต่อสาธารณชนทางวิทยาศาสตร์เท่านั้น แต่ยังรวมถึงสื่อมวลชนด้วย พวกเขายังอ้างว่าต้องใช้เวลากว่าครึ่งศตวรรษนับตั้งแต่ตระหนักว่าDNAเป็นสารพันธุกรรมของสิ่งมีชีวิตไปจนถึงลำดับจีโนมของมนุษย์ ดังนั้นแผนของพวกเขาสำหรับศตวรรษหน้าคือการทำความเข้าใจลำดับนั้นอย่างแท้จริง^{[ 59 ]}

แฟคทอรีบุ๊ค

การวิเคราะห์ข้อมูลการจับตัวของปัจจัยการถอดรหัสที่สร้างขึ้นโดยโครงการ ENCODE มีให้บริการอยู่ในคลังข้อมูลที่เข้าถึงได้ทางเว็บ FactorBook ^{[ 60 ]}โดยพื้นฐานแล้ว Factorbook.org เป็นฐานข้อมูลแบบวิกิสำหรับข้อมูลการจับตัวของปัจจัยการถอดรหัสที่สร้างขึ้นโดยกลุ่ม ENCODE ในเวอร์ชันแรก Factorbook ประกอบด้วย:

ชุดข้อมูล ChIP-seq จำนวน 457 ชุด ครอบคลุมปัจจัยถอดรหัส (TF) 119 ตัว ในเซลล์ไลน์ของมนุษย์หลายชนิด
โปรไฟล์เฉลี่ยของการดัดแปลงฮิสโตนและ การจัดตำแหน่ง นิวคลีโอโซมรอบบริเวณที่ TF จับ
ลำดับโมทีฟที่อุดมสมบูรณ์ในภูมิภาคและระยะห่างและความชอบในการวางแนวระหว่างไซต์โมทีฟ^{[ 61 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

เว็บไซต์อย่างเป็นทางการ
รายชื่อผลงานตีพิมพ์อย่างเป็นทางการของโครงการ ENCODE
โครงการ ENCODEที่สถาบันวิจัยจีโนมมนุษย์แห่งชาติ
สารานุกรมองค์ประกอบดีเอ็นเอในเบราว์เซอร์จีโนม UCSC
โครงการ ENCODE/GENCODEที่สถาบัน Wellcome Trust Sanger
บทแนะนำเบื้องต้นที่ได้รับการสนับสนุนจาก ENCODE
แฟคทอรีบุ๊ค
modENCODE
ENCODE threads Explorerในวารสาร Nature

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

โดย

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

18

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

30 ] การ

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 59 ]

[ 60 ]