อ่าน 7 นาที
การวิเคราะห์การแสดงออกของยีน
ในสาขา ชีววิทยาระดับโมเลกุล การ วิเคราะห์การแสดงออกของยีน คือการวัดกิจกรรม ( การแสดงออก ) ของยีนหลายพันตัวพร้อมกัน เพื่อสร้างภาพรวมของการทำงานของเซลล์...
การวิเคราะห์การแสดงออกของยีน

ในสาขาชีววิทยาระดับโมเลกุลการวิเคราะห์การแสดงออกของยีนคือการวัดกิจกรรม ( การแสดงออก ) ของยีนหลายพันตัวพร้อมกัน เพื่อสร้างภาพรวมของการทำงานของเซลล์ โปรไฟล์เหล่านี้สามารถแยกแยะเซลล์ที่กำลังแบ่งตัวอย่างต่อเนื่อง หรือแสดงให้เห็นว่าเซลล์ตอบสนองต่อการรักษาแบบใดแบบหนึ่งอย่างไร การทดลองประเภทนี้จำนวนมากวัดจีโนม ทั้งหมด พร้อมกัน นั่นคือ ยีนทุกตัวที่มีอยู่ในเซลล์นั้นๆ
เทคโนโลยีทรานสคริปโตมิกส์หลายอย่างสามารถใช้สร้างข้อมูลที่จำเป็นสำหรับการวิเคราะห์ได้ไมโครอาร์เรย์ DNA [ 1 ]วัดกิจกรรมสัมพัทธ์ของยีนเป้าหมายที่ระบุไว้ก่อนหน้านี้ เทคนิคที่ใช้ลำดับ เช่นRNA-Seqให้ข้อมูลเกี่ยวกับลำดับของยีนนอกเหนือจากระดับการแสดงออกของยีน
พื้นหลัง
การวิเคราะห์รูปแบบการแสดงออกของยีนเป็นขั้นตอนต่อไปที่สมเหตุสมผลหลังจากถอดรหัสลำดับจีโนม : ลำดับจีโนมบอกเราว่าเซลล์นั้นอาจทำอะไรได้บ้าง ในขณะที่รูปแบบการแสดงออกของยีนบอกเราว่าเซลล์นั้นกำลังทำอะไรอยู่จริง ๆ ในช่วงเวลาหนึ่ง ยีนมีคำสั่งสำหรับการสร้างอาร์เอ็นเอส่งสาร ( mRNA ) แต่ในแต่ละช่วงเวลา เซลล์จะสร้าง mRNA จากยีนเพียงส่วนน้อยเท่านั้น หากยีนถูกใช้ในการสร้าง mRNA จะถือว่า "เปิด" มิฉะนั้นจะถือว่า "ปิด" ปัจจัยหลายอย่างกำหนดว่ายีนจะเปิดหรือปิด เช่น เวลาของวัน เซลล์กำลังแบ่งตัวหรือไม่ สภาพแวดล้อมโดยรอบ และสัญญาณทางเคมีจากเซลล์อื่น ๆ ตัวอย่างเช่นเซลล์ผิวหนัง เซลล์ ตับและเซลล์ประสาทจะเปิด (แสดงออก) ยีนที่แตกต่างกันเล็กน้อย และนั่นเป็นส่วนสำคัญที่ทำให้เซลล์เหล่านี้แตกต่างกัน ดังนั้น รูปแบบการแสดงออกของยีนจึงช่วยให้เราสามารถอนุมานประเภท สถานะ สภาพแวดล้อม และอื่น ๆ ของเซลล์ได้
การทดลองการสร้างโปรไฟล์การแสดงออกของยีนมักเกี่ยวข้องกับการวัดปริมาณ mRNA ที่แสดงออกในสภาวะการทดลองสองสภาวะขึ้นไป เนื่องจากระดับที่เปลี่ยนแปลงไปของลำดับ mRNA เฉพาะบ่งชี้ถึงความต้องการโปรตีนที่เข้ารหัสโดย mRNA ที่เปลี่ยนแปลงไป ซึ่งอาจบ่งชี้ถึงการตอบสนองแบบโฮมีโอสแตติกหรือสภาวะทางพยาธิวิทยา ตัวอย่างเช่น ระดับ mRNA ที่เข้ารหัสแอลกอฮอล์ดีไฮโดร จีเนสที่สูงขึ้น บ่งชี้ว่าเซลล์หรือเนื้อเยื่อที่กำลังศึกษาอยู่กำลังตอบสนองต่อระดับเอทานอลที่เพิ่มขึ้นในสภาพแวดล้อม ในทำนองเดียวกัน หากเซลล์มะเร็งเต้านมแสดงระดับ mRNA ที่เกี่ยวข้องกับตัวรับทรานส์เมมเบรน เฉพาะสูง กว่าเซลล์ปกติ อาจเป็นไปได้ว่าตัวรับนี้มีบทบาทในมะเร็งเต้านม ยาที่รบกวนตัวรับนี้อาจป้องกันหรือรักษามะเร็งเต้านมได้ ในการพัฒนายา อาจมีการทำการทดลองการสร้างโปรไฟล์การแสดงออกของยีนเพื่อช่วยประเมินความเป็นพิษของยา อาจโดยการมองหาระดับที่เปลี่ยนแปลงไปในการแสดงออกของ ยีน ไซโตโครม P450ซึ่งอาจเป็นตัวบ่งชี้ทางชีวภาพของการเผาผลาญยา[ 2 ]การสร้างโปรไฟล์การแสดงออกของยีนอาจกลายเป็นการทดสอบวินิจฉัยที่สำคัญ[ 3 ] [ 4 ]
การเปรียบเทียบกับโปรตีโอมิกส์
จีโนมของมนุษย์ประกอบด้วยยีนประมาณ 20,000 ยีน ซึ่งทำงานร่วมกันเพื่อสร้างโปรตีนที่แตกต่างกันประมาณ 1,000,000 ชนิด นี่เป็นผลมาจากการตัดต่อทางเลือก (alternative splicing ) และเนื่องจากเซลล์ทำการเปลี่ยนแปลงที่สำคัญกับโปรตีนผ่านการดัดแปลงหลังการแปล (posttranslational modification)หลังจากที่สร้างโปรตีนขึ้นมาแล้ว ดังนั้นยีนหนึ่งๆ จึงทำหน้าที่เป็นพื้นฐานสำหรับโปรตีนหลายเวอร์ชันที่เป็นไปได้ ไม่ว่าในกรณีใด การทดลองสเปกโทรเมตรีมวลเพียงครั้งเดียวสามารถระบุโปรตีนได้ประมาณ 2,000 ชนิด[ 5 ]หรือ 0.2% ของทั้งหมด แม้ว่าความรู้เกี่ยวกับโปรตีนที่เซลล์สร้างขึ้นอย่างแม่นยำ ( โปรตีโอมิกส์ ) จะมีความเกี่ยวข้องมากกว่าการรู้ว่ามีการสร้าง mRNA จากแต่ละยีนมากน้อยเพียงใด แต่การวิเคราะห์การแสดงออกของยีนจะให้ภาพรวมที่ครอบคลุมมากที่สุดเท่าที่จะเป็นไปได้ในการทดลองเพียงครั้งเดียว อย่างไรก็ตาม วิธีการทางโปรตีโอมิกส์กำลังได้รับการปรับปรุง ในสิ่งมีชีวิตชนิดอื่นๆ เช่น ยีสต์ สามารถระบุโปรตีนได้มากกว่า 4,000 ชนิดในเวลาเพียงกว่าหนึ่งชั่วโมง[ 6 ]
ใช้ในการสร้างและทดสอบสมมติฐาน
บางครั้ง นักวิทยาศาสตร์อาจมีแนวคิดเกี่ยวกับสิ่งที่เกิดขึ้นอยู่แล้ว หรือมีสมมติฐานและทำการทดลองวิเคราะห์การแสดงออกของยีนโดยมีเป้าหมายเพื่อพิสูจน์ว่าสมมติฐานนั้นอาจผิดพลาด กล่าวอีกนัยหนึ่ง นักวิทยาศาสตร์กำลังคาดการณ์ระดับการแสดงออกของยีนอย่างเฉพาะเจาะจง ซึ่งอาจกลายเป็นความคลาดเคลื่อนได้
โดยทั่วไปแล้ว การวิเคราะห์การแสดงออกของยีนมักเกิดขึ้นก่อนที่จะทราบข้อมูลเพียงพอเกี่ยวกับปฏิสัมพันธ์ของยีนกับสภาวะการทดลองเพื่อให้มีสมมติฐานที่สามารถทดสอบได้ หากไม่มีสมมติฐาน ก็ไม่มีอะไรให้พิสูจน์ แต่การวิเคราะห์การแสดงออกของยีนสามารถช่วยระบุสมมติฐานที่เป็นไปได้สำหรับการทดลองในอนาคต การทดลองวิเคราะห์การแสดงออกของยีนในช่วงแรกๆ และการทดลองในปัจจุบันหลายๆ ครั้ง มีรูปแบบนี้[ 7 ]ซึ่งเรียกว่าการค้นพบกลุ่ม การค้นพบกลุ่มที่นิยมใช้กันคือการจัดกลุ่มยีนหรือตัวอย่างที่คล้ายคลึงกันเข้าด้วยกันโดยใช้วิธีการจัดกลุ่มที่มีอยู่มากมาย เช่น การจัดกลุ่ม แบบ k-meansหรือแบบลำดับชั้น แบบดั้งเดิม หรือMCL ที่ทันสมัยกว่า [ 8 ]นอกจากการเลือกอัลกอริทึมการจัดกลุ่มแล้ว ผู้ใช้มักจะต้องเลือกมาตรวัดความใกล้เคียงที่เหมาะสม (ระยะทางหรือความคล้ายคลึงกัน) ระหว่างวัตถุข้อมูล[ 9 ] รูปด้านบนแสดงผลลัพธ์ของการจัดกลุ่มแบบสองมิติ ซึ่งตัวอย่างที่คล้ายคลึงกัน (แถวด้านบน) และโพรบยีนที่คล้ายคลึงกัน (คอลัมน์) ถูกจัดเรียงเพื่อให้อยู่ใกล้กัน วิธีการค้นหากลุ่มยีนที่ง่ายที่สุดคือการระบุรายชื่อยีนทั้งหมดที่มีการเปลี่ยนแปลงมากกว่าปริมาณที่กำหนดไว้ระหว่างสภาวะการทดลองสองสภาวะ
การทำนายกลุ่มนั้นยากกว่าการค้นพบกลุ่ม แต่ช่วยให้สามารถตอบคำถามที่มีความสำคัญทางคลินิกโดยตรงได้ เช่น จากลักษณะอาการนี้ โอกาสที่ผู้ป่วยรายนี้จะตอบสนองต่อยาชนิดนี้มีมากน้อยเพียงใด? ซึ่งต้องอาศัยตัวอย่างจำนวนมากของลักษณะอาการที่ตอบสนองและไม่ตอบสนอง รวมถึง เทคนิค การตรวจสอบความถูกต้องแบบไขว้เพื่อแยกแยะความแตกต่างระหว่างกลุ่มเหล่านั้น
ข้อจำกัด
โดยทั่วไป การศึกษาการวิเคราะห์การแสดงออกของยีนจะรายงานเฉพาะยีนที่แสดงความแตกต่างทางสถิติอย่างมีนัยสำคัญภายใต้สภาวะการทดลองที่เปลี่ยนแปลงไป ซึ่งโดยปกติแล้วจะเป็นเพียงส่วนน้อยของจีโนมด้วยเหตุผลหลายประการ ประการแรก เซลล์และเนื้อเยื่อที่แตกต่างกันจะแสดงออกยีนเพียงบางส่วนอันเป็นผลโดยตรงจากการเปลี่ยนแปลงของเซลล์ดังนั้นยีนจำนวนมากจึงถูกปิดการทำงาน ประการที่สอง ยีนจำนวนมากเข้ารหัสโปรตีนที่จำเป็นต่อการอยู่รอดในปริมาณที่เฉพาะเจาะจงมาก ดังนั้นยีนจำนวนมากจึงไม่เปลี่ยนแปลง ประการที่สาม เซลล์ใช้กลไกอื่นๆ อีกมากมายในการควบคุมโปรตีนนอกเหนือจากการเปลี่ยนแปลงปริมาณmRNAดังนั้นยีนเหล่านี้อาจยังคงแสดงออกอย่างสม่ำเสมอแม้ว่าความเข้มข้นของโปรตีนจะเพิ่มขึ้นและลดลง ประการที่สี่ ข้อจำกัดด้านงบประมาณจำกัดการทดลองการวิเคราะห์การแสดงออกของยีนให้เหลือเพียงการสังเกตยีนเดียวกันภายใต้สภาวะเดียวกันจำนวนน้อย ซึ่งลดพลังทางสถิติของการทดลอง ทำให้การทดลองไม่สามารถระบุการเปลี่ยนแปลงที่สำคัญแต่เล็กน้อยได้ สุดท้าย การอธิบายความสำคัญทางชีววิทยาของแต่ละยีนที่ถูกควบคุมนั้นต้องใช้ความพยายามอย่างมาก ดังนั้นนักวิทยาศาสตร์จึงมักจำกัดการอธิบายไว้เพียงส่วนย่อยเท่านั้นเทคนิคการวิเคราะห์ไมโครอาร์เรย์รุ่นใหม่ช่วยลดความซับซ้อนในการกำหนดความสำคัญทางชีววิทยาให้กับผลลัพธ์การวิเคราะห์การแสดงออกของยีน แต่ปัญหานี้ยังคงเป็นเรื่องยากมาก
ความยาวของรายการยีนที่เผยแพร่จากการทดลองวิเคราะห์การแสดงออกของยีนนั้นค่อนข้างสั้น ทำให้ผลการทดลองที่ดำเนินการในห้องปฏิบัติการต่างๆ มีความสอดคล้องกันน้อย การนำผลการวิเคราะห์การแสดงออกของยีนไปไว้ในฐานข้อมูลไมโครอาร์เรย์ ที่เข้าถึงได้โดยสาธารณะ จะช่วยให้นักวิจัยสามารถประเมินรูปแบบการแสดงออกของยีนได้นอกเหนือขอบเขตของผลลัพธ์ที่เผยแพร่ไปแล้ว และอาจพบความคล้ายคลึงกับงานวิจัยของตนเองได้
การตรวจสอบความถูกต้องของการวัดที่มีปริมาณงานสูง
ทั้งไมโครอาร์เรย์ดีเอ็นเอและqPCR เชิงปริมาณต่างอาศัยการจับคู่แบบเลือกเฉพาะหรือ " การจับคู่เบส " ของ ลำดับ กรดนิวคลีอิก ที่เสริมกัน และทั้งสองวิธีนี้ใช้ในการวิเคราะห์การแสดงออกของยีน โดยมักใช้ในลักษณะอนุกรม แม้ว่าไมโครอาร์เรย์ดีเอ็นเอที่มีความละเอียดสูงจะขาดความแม่นยำเชิงปริมาณเท่ากับ qPCR แต่การวัดการแสดงออกของยีนจำนวนไม่กี่สิบยีนด้วย qPCR ใช้เวลาประมาณเท่ากับการวัดจีโนมทั้งหมดโดยใช้ไมโครอาร์เรย์ดีเอ็นเอ ดังนั้นจึงมักเหมาะสมที่จะทำการวิเคราะห์ไมโครอาร์เรย์ดีเอ็นเอแบบกึ่งเชิงปริมาณเพื่อระบุยีนเป้าหมาย จากนั้นจึงทำการ qPCR กับยีนเป้าหมายที่น่าสนใจที่สุดบางส่วนเพื่อตรวจสอบความถูกต้องของผลลัพธ์จากไมโครอาร์เรย์ การทดลองอื่นๆ เช่น การทำWestern blotของผลิตภัณฑ์โปรตีนบางส่วนของยีนที่มีการแสดงออกแตกต่างกัน ทำให้ข้อสรุปที่ได้จากโปรไฟล์การแสดงออกมีความน่าเชื่อถือมากขึ้น เนื่องจากระดับ mRNA ไม่จำเป็นต้องสัมพันธ์กับปริมาณโปรตีนที่แสดงออกเสมอไป
การวิเคราะห์ทางสถิติ
การวิเคราะห์ข้อมูลไมโครอาร์เรย์ได้กลายเป็นหัวข้อการวิจัยที่เข้มข้น[ 10 ]การระบุเพียงว่ากลุ่มยีนถูกควบคุมอย่างน้อยสองเท่า ซึ่งเคยเป็นแนวปฏิบัติทั่วไปนั้น ขาดพื้นฐานทางสถิติที่มั่นคง ด้วยการทำซ้ำห้าครั้งหรือน้อยกว่าในแต่ละกลุ่ม ซึ่งเป็นเรื่องปกติสำหรับไมโครอาร์เรย์ การสังเกต ที่ผิดปกติ เพียงครั้งเดียว ก็สามารถสร้างความแตกต่างที่เห็นได้ชัดมากกว่าสองเท่าได้ นอกจากนี้ การกำหนดเกณฑ์ไว้ที่สองเท่าโดยพลการนั้นไม่สมเหตุสมผลทางชีววิทยา เนื่องจากเป็นการตัดยีนจำนวนมากที่มีความสำคัญทางชีววิทยาอย่างชัดเจนออกไปจากการพิจารณา
แทนที่จะระบุยีนที่มีการแสดงออกแตกต่างกันโดยใช้ค่าการเปลี่ยนแปลง (fold change) เป็นเกณฑ์ เราสามารถใช้การทดสอบทางสถิติ หลายวิธี หรือการทดสอบแบบครอบคลุมเช่นANOVAซึ่งทั้งหมดนี้จะพิจารณาทั้งค่าการเปลี่ยนแปลงและความแปรปรวนเพื่อสร้างค่า p ซึ่งเป็นการประมาณว่าเราจะพบข้อมูลนั้นโดยบังเอิญบ่อยแค่ไหน การนำค่า p มาใช้กับไมโครอาร์เรย์นั้นซับซ้อนเนื่องจากมี การเปรียบเทียบหลายรายการ (ยีน) จำนวนมากตัวอย่างเช่น โดยทั่วไปแล้วค่า p 0.05 ถือว่าบ่งชี้ถึงนัยสำคัญ เนื่องจากเป็นการประมาณความน่าจะเป็น 5% ที่จะพบข้อมูลนั้นโดยบังเอิญ แต่ด้วยยีน 10,000 ตัวบนไมโครอาร์เรย์ จะมีการระบุยีน 500 ตัวว่ามีนัยสำคัญที่ p < 0.05 แม้ว่าจะไม่มีความแตกต่างระหว่างกลุ่มทดลองก็ตาม วิธีแก้ปัญหาที่เห็นได้ชัดวิธีหนึ่งคือการพิจารณาเฉพาะยีนที่มีนัยสำคัญซึ่งตรงตามเกณฑ์ค่า p ที่เข้มงวดกว่ามาก เช่น อาจทำการแก้ไข Bonferroniกับค่า p หรือใช้ การคำนวณ อัตราการค้นพบที่ผิดพลาดเพื่อปรับค่า p ตามสัดส่วนของจำนวนการทดสอบแบบขนานที่เกี่ยวข้อง น่าเสียดายที่วิธีการเหล่านี้อาจลดจำนวนยีนที่มีนัยสำคัญลงเหลือศูนย์ แม้ว่ายีนเหล่านั้นจะมีการแสดงออกที่แตกต่างกันจริงก็ตาม สถิติปัจจุบัน เช่นผลิตภัณฑ์ Rankมุ่งเป้าไปที่การสร้างสมดุลระหว่างการค้นพบยีนที่ผิดพลาดเนื่องจากความแปรปรวนโดยบังเอิญและการไม่พบยีนที่มีการแสดงออกที่แตกต่างกัน วิธีการที่อ้างถึงโดยทั่วไป ได้แก่ การวิเคราะห์นัยสำคัญของไมโครอาร์เรย์ (SAM) [ 11 ]และมีวิธีการที่หลากหลายจากBioconductorและแพ็คเกจการวิเคราะห์ที่หลากหลายจากบริษัทด้านชีวสารสนเทศ
การเลือกการทดสอบที่แตกต่างกันมักจะระบุรายการยีนที่มีนัยสำคัญที่แตกต่างกัน[ 12 ]เนื่องจากการทดสอบแต่ละครั้งทำงานภายใต้ชุดสมมติฐานเฉพาะ และให้ความสำคัญกับคุณลักษณะบางอย่างในข้อมูลที่แตกต่างกัน การทดสอบหลายอย่างเริ่มต้นด้วยสมมติฐานของการกระจายแบบปกติในข้อมูล เนื่องจากดูเหมือนจะเป็นจุดเริ่มต้นที่สมเหตุสมผลและมักจะให้ผลลัพธ์ที่ดูมีนัยสำคัญมากกว่า การทดสอบบางอย่างพิจารณาการกระจายร่วมของการสังเกตยีนทั้งหมดเพื่อประมาณความแปรปรวนทั่วไปในการวัด[ 13 ] ในขณะที่ การทดสอบอื่นๆ พิจารณายีนแต่ละตัวแยกกัน เทคนิคการวิเคราะห์ไมโครอาร์เรย์สมัยใหม่หลายอย่างเกี่ยวข้องกับการบูตสแตรป (สถิติ) การเรียนรู้ของเครื่องหรือ วิธี การมอนเตคาร์โล[ 14 ]
เมื่อจำนวนการวัดซ้ำในการทดลองไมโครอาร์เรย์เพิ่มขึ้น วิธีการทางสถิติต่างๆ จะให้ผลลัพธ์ที่คล้ายคลึงกันมากขึ้น แต่การขาดความสอดคล้องกันระหว่างวิธีการทางสถิติที่แตกต่างกันทำให้ผลลัพธ์ของอาร์เรย์ดูน่าเชื่อถือน้อยลง โครงการ MAQC [ 15 ]ให้คำแนะนำเพื่อเป็นแนวทางแก่นักวิจัยในการเลือกวิธีการมาตรฐานมากขึ้น (เช่น การใช้ค่า p และการเปลี่ยนแปลงแบบเท่าตัวร่วมกันเพื่อเลือกยีนที่แสดงออกแตกต่างกัน) เพื่อให้การทดลองที่ดำเนินการในห้องปฏิบัติการต่างๆ มีความสอดคล้องกันมากขึ้น
แตกต่างจากการวิเคราะห์ยีนแต่ละตัวที่แสดงออกแตกต่างกัน การวิเคราะห์อีกประเภทหนึ่งมุ่งเน้นไปที่การแสดงออกที่แตกต่างกันหรือการรบกวนของชุดยีนที่กำหนดไว้ล่วงหน้า และเรียกว่าการวิเคราะห์ชุดยีน[ 16 ] [ 17 ]การวิเคราะห์ชุดยีนแสดงให้เห็นข้อดีที่สำคัญหลายประการเหนือการวิเคราะห์การแสดงออกที่แตกต่างกันของยีนแต่ละตัว[ 16 ] [ 17 ]ชุดยีนคือกลุ่มของยีนที่มีความสัมพันธ์กันในเชิงหน้าที่ตามความรู้ในปัจจุบัน ดังนั้น การวิเคราะห์ชุดยีนจึงถือเป็นวิธีการวิเคราะห์ตามความรู้[ 16 ]ชุดยีนที่ใช้กันทั่วไป ได้แก่ ชุดยีนที่ได้มาจากวิถีKEGG คำศัพท์ Gene Ontologyกลุ่มยีนที่มีคำอธิบายประกอบเชิงหน้าที่ร่วมกัน เช่น ตัวควบคุมการถอดรหัสทั่วไป เป็นต้น วิธีการวิเคราะห์ชุดยีนที่เป็นตัวแทน ได้แก่การวิเคราะห์การเสริมคุณค่าชุดยีน (GSEA) [ 16 ]ซึ่งประเมินความสำคัญของชุดยีนโดยอิงจากการเรียงสับเปลี่ยนป้ายกำกับตัวอย่าง และการเสริมคุณค่าชุดยีนที่ใช้ได้ทั่วไป (GAGE) [ 17 ]ซึ่งทดสอบความสำคัญของชุดยีนโดยอิงจากการเรียงสับเปลี่ยนป้ายกำกับยีนหรือการกระจายแบบพาราเมตริก
การระบุยีน
แม้ว่าสถิติอาจระบุว่าผลิตภัณฑ์ยีนใดเปลี่ยนแปลงภายใต้เงื่อนไขการทดลอง แต่การทำความเข้าใจทางชีววิทยาของโปรไฟล์การแสดงออกนั้นขึ้นอยู่กับการรู้ว่าผลิตภัณฑ์ยีน แต่ละชนิด สร้างโปรตีนอะไรและโปรตีนนั้นทำหน้าที่อะไร คำอธิบายประกอบยีนให้ข้อมูลการทำงานและข้อมูลอื่นๆ เช่น ตำแหน่งของแต่ละยีนภายในโครโมโซมที่เฉพาะเจาะจง คำอธิบายประกอบการทำงานบางอย่างมีความน่าเชื่อถือมากกว่าคำอธิบายประกอบอื่นๆ บางอย่างก็ไม่มีเลย ฐานข้อมูลคำอธิบายประกอบยีนมีการเปลี่ยนแปลงอยู่เสมอ และฐานข้อมูลต่างๆ อ้างถึงโปรตีนเดียวกันด้วยชื่อที่แตกต่างกัน ซึ่งสะท้อนให้เห็นถึงความเข้าใจที่เปลี่ยนแปลงไปเกี่ยวกับหน้าที่ของโปรตีน การใช้ระบบการตั้งชื่อยีน ที่เป็นมาตรฐาน ช่วยแก้ไขปัญหาด้านการตั้งชื่อ แต่การจับคู่ทรานสคริปต์กับยีนอย่างแม่นยำ[ 18 ] [ 19 ]ยังคงเป็นสิ่งที่ต้องพิจารณาที่สำคัญ
การจัดหมวดหมู่ยีนที่ถูกควบคุม
หลังจากระบุชุดยีนที่ถูกควบคุมแล้ว ขั้นตอนต่อไปในการวิเคราะห์การแสดงออกของยีนคือการมองหารูปแบบภายในชุดยีนที่ถูกควบคุมนั้น โปรตีนที่สร้างจากยีนเหล่านี้ทำหน้าที่คล้ายกันหรือไม่? มีโครงสร้างทางเคมีคล้ายกันหรือไม่? และอยู่ในส่วนต่างๆ ของเซลล์ที่คล้ายกันหรือไม่? การวิเคราะห์ ออนโทโลยีของยีนเป็นวิธีการมาตรฐานในการกำหนดความสัมพันธ์เหล่านี้ ออนโทโลยีของยีนเริ่มต้นด้วยหมวดหมู่ที่กว้างมาก เช่น "กระบวนการเผาผลาญ" และแบ่งย่อยออกเป็นหมวดหมู่ที่เล็กกว่า เช่น "กระบวนการเผาผลาญคาร์โบไฮเดรต" และสุดท้ายเป็นหมวดหมู่ที่ค่อนข้างจำกัด เช่น "การฟอสฟอริเล ชันของ อิโนซิทอลและอนุพันธ์"
ยีนมีคุณลักษณะอื่นๆ นอกเหนือจากหน้าที่ทางชีวภาพ คุณสมบัติทางเคมี และตำแหน่งในเซลล์ เราสามารถประกอบชุดยีนโดยพิจารณาจากความใกล้เคียงกับยีนอื่นๆ การเชื่อมโยงกับโรค และความสัมพันธ์กับยาหรือสารพิษ ฐานข้อมูลลายเซ็นโมเลกุล[ 20 ]และฐานข้อมูลพิษวิทยาเชิงเปรียบเทียบ[ 21 ]เป็นตัวอย่างของแหล่งข้อมูลในการจัดหมวดหมู่ยีนในหลายๆ วิธี
การค้นหารูปแบบในกลุ่มยีนที่ถูกควบคุม

ยีนที่ถูกควบคุมจะถูกจัดหมวดหมู่ตามลักษณะและหน้าที่ของมัน ความสัมพันธ์ที่สำคัญระหว่างยีนอาจเกิดขึ้นได้[ 23 ]ตัวอย่างเช่น เราอาจเห็นหลักฐานว่ายีนบางตัวสร้างโปรตีนเพื่อสร้างเอนไซม์ที่กระตุ้นโปรตีนเพื่อเปิดใช้งานยีนตัวที่สองในรายการของเรา ยีนตัวที่สองนี้อาจเป็นปัจจัยการถอดรหัสที่ควบคุมยีนอีกตัวหนึ่งจากรายการของเรา การสังเกตความเชื่อมโยงเหล่านี้ เราอาจเริ่มสงสัยว่าความเชื่อมโยงเหล่านี้แสดงถึงมากกว่าความสัมพันธ์โดยบังเอิญในผลลัพธ์ และพวกมันทั้งหมดอยู่ในรายการของเราเนื่องจากกระบวนการทางชีววิทยาพื้นฐาน ในทางกลับกัน อาจเป็นไปได้ว่าหากเลือกยีนแบบสุ่ม เราอาจพบยีนจำนวนมากที่ดูเหมือนจะมีบางอย่างที่เหมือนกัน ในแง่นี้ เราจำเป็นต้องมีขั้นตอนทางสถิติที่เข้มงวดเพื่อทดสอบว่าธีมทางชีววิทยาที่เกิดขึ้นใหม่นั้นมีความสำคัญหรือไม่ นั่นคือจุดที่การวิเคราะห์ชุดยีน[ 16 ] [ 17 ]เข้ามามี บทบาท
ความสัมพันธ์ระหว่างสาเหตุและผลลัพธ์
สถิติที่ค่อนข้างตรงไปตรงมาให้ค่าประมาณว่าความสัมพันธ์ระหว่างยีนในรายการนั้นมากกว่าที่คาดหวังได้จากโอกาสโดยบังเอิญหรือไม่ สถิติเหล่านี้มีความน่าสนใจ แม้ว่าจะแสดงถึงการลดทอนความซับซ้อนของสิ่งที่เกิดขึ้นจริงอย่างมากก็ตาม นี่คือตัวอย่าง สมมติว่ามี 10,000 ยีนในการทดลอง โดยมีเพียง 50 ยีน (0.5%) เท่านั้นที่มีบทบาทในการสร้างคอเลสเตอรอลการทดลองระบุยีนที่ถูกควบคุมได้ 200 ยีน ในจำนวนนั้น 40 ยีน (20%) ปรากฏว่าอยู่ในรายการยีนคอเลสเตอรอลด้วยเช่นกัน จากความชุกโดยรวมของยีนคอเลสเตอรอล (0.5%) เราคาดว่าจะพบยีนคอเลสเตอรอลโดยเฉลี่ย 1 ยีนต่อยีนที่ถูกควบคุม 200 ยีน นั่นคือ 0.005 คูณ 200 ความคาดหวังนี้เป็นค่าเฉลี่ย ดังนั้นเราจึงคาดว่าจะพบมากกว่าหนึ่งในบางครั้ง คำถามก็คือว่าเราจะพบ 40 แทนที่จะเป็น 1 บ่อยแค่ไหนเนื่องจากโอกาสโดยบังเอิญ
ตามการแจกแจงแบบไฮเปอร์จีโอเมตริกเราคาดว่าจะต้องลองประมาณ 10^57 ครั้ง (10 ตามด้วยศูนย์ 56 ตัว) ก่อนที่จะเลือกยีนคอเลสเตอรอล 39 ตัวขึ้นไปจากกลุ่มยีน 10,000 ตัว โดยการสุ่มเลือกยีน 200 ตัว ไม่ว่าเราจะใส่ใจกับความน่าจะเป็นที่น้อยมากของการสังเกตสิ่งนี้โดยบังเอิญมากเพียงใด เราก็จะสรุปได้ว่ารายการยีนที่ถูกควบคุมนั้นอุดมไปด้วย[ 24 ]ยีนที่มีความสัมพันธ์กับคอเลสเตอรอลที่ทราบแล้ว
อาจตั้งสมมติฐานเพิ่มเติมได้ว่า การรักษาแบบทดลองนั้นควบคุมคอเลสเตอรอล เนื่องจากดูเหมือนว่าการรักษาจะควบคุมยีนที่เกี่ยวข้องกับคอเลสเตอรอลอย่างเลือกสรร แม้ว่านี่อาจเป็นความจริง แต่ก็มีเหตุผลหลายประการที่ทำให้การสรุปอย่างแน่ชัดโดยอาศัยเพียงการเพิ่มความเข้มข้นนั้นเป็นการด่วนสรุปที่ไม่มีเหตุผลรองรับ ประเด็นหนึ่งที่กล่าวถึงไปแล้วนั้นเกี่ยวข้องกับการสังเกตว่า การควบคุมยีนอาจไม่มีผลกระทบโดยตรงต่อการควบคุมโปรตีน: แม้ว่าโปรตีนที่ถูกเข้ารหัสโดยยีนเหล่านี้จะไม่ได้ทำอะไรนอกจากสร้างคอเลสเตอรอล การแสดงให้เห็นว่า mRNA ของพวกมันเปลี่ยนแปลงไปก็ไม่ได้บอกเราโดยตรงว่าเกิดอะไรขึ้นในระดับโปรตีน เป็นไปได้มากว่าปริมาณของโปรตีนที่เกี่ยวข้องกับคอเลสเตอรอลเหล่านี้ยังคงที่ภายใต้สภาวะการทดลอง ประการที่สอง แม้ว่าระดับโปรตีนจะเปลี่ยนแปลงไป บางทีอาจมีโปรตีนเหล่านั้นเพียงพอที่จะสร้างคอเลสเตอรอลได้เร็วที่สุดเท่าที่จะเป็นไปได้ นั่นคือ โปรตีนอื่นที่ไม่ได้อยู่ในรายการของเรา อาจเป็นขั้นตอนที่กำหนดอัตราในกระบวนการสร้างคอเลสเตอรอล สุดท้าย โปรตีนมักมีบทบาทหลายอย่าง ดังนั้นยีนเหล่านี้อาจถูกควบคุมไม่ใช่เพราะความเกี่ยวข้องร่วมกันในการสร้างคอเลสเตอรอล แต่เป็นเพราะบทบาทร่วมกันในกระบวนการที่แยกจากกันโดยสิ้นเชิง
เมื่อพิจารณาข้อจำกัดดังกล่าวข้างต้นแล้ว แม้ว่าข้อมูลทางพันธุกรรมจะไม่สามารถพิสูจน์ความสัมพันธ์เชิงสาเหตุระหว่างการรักษาและผลกระทบทางชีวภาพได้โดยตรง แต่ก็ให้ข้อมูลเชิงลึกทางชีวภาพที่ไม่เหมือนใคร ซึ่งมักจะยากที่จะได้มาด้วยวิธีอื่น
การใช้รูปแบบเพื่อค้นหายีนที่ถูกควบคุม
ดังที่กล่าวมาข้างต้น เราสามารถระบุยีนที่มีการควบคุมอย่างมีนัยสำคัญก่อน จากนั้นจึงค้นหารูปแบบโดยการเปรียบเทียบรายชื่อยีนที่มีนัยสำคัญกับชุดยีนที่ทราบว่ามีความสัมพันธ์กันบางอย่าง เรายังสามารถแก้ปัญหาในลำดับย้อนกลับได้อีกด้วย นี่คือตัวอย่างง่ายๆ สมมติว่ามี 40 ยีนที่เกี่ยวข้องกับกระบวนการที่ทราบแล้ว เช่น ความเสี่ยงต่อโรคเบาหวาน เมื่อพิจารณาโปรไฟล์การแสดงออกของยีนสองกลุ่ม กลุ่มหนึ่งสำหรับหนูที่ได้รับอาหารที่มีคาร์โบไฮเดรตสูง และอีกกลุ่มหนึ่งสำหรับหนูที่ได้รับอาหารที่มีคาร์โบไฮเดรตต่ำ เราจะสังเกตเห็นว่ายีนเบาหวานทั้ง 40 ยีนมีการแสดงออกในระดับที่สูงกว่าในกลุ่มที่ได้รับอาหารที่มีคาร์โบไฮเดรตสูงกว่ากลุ่มที่ได้รับอาหารที่มีคาร์โบไฮเดรตต่ำ ไม่ว่ายีนเหล่านี้จะอยู่ในรายชื่อยีนที่มีการเปลี่ยนแปลงอย่างมีนัยสำคัญหรือไม่ การสังเกตเห็นว่าทั้ง 40 ยีนมีการแสดงออกสูงขึ้นและไม่มียีนใดลดลงนั้นดูไม่น่าจะเป็นผลมาจากความบังเอิญล้วนๆ เพราะการโยนเหรียญแล้วได้หัว 40 ครั้งติดต่อกันนั้นคาดว่าจะเกิดขึ้นประมาณหนึ่งในล้านล้านครั้งโดยใช้เหรียญที่ยุติธรรม
สำหรับเซลล์ประเภทหนึ่ง กลุ่มยีนที่มีรูปแบบการแสดงออกรวมกันซึ่งมีลักษณะเฉพาะสำหรับสภาวะที่กำหนด จะประกอบเป็นลายเซ็นยีนของสภาวะนั้น ในอุดมคติแล้ว ลายเซ็นยีนสามารถใช้เพื่อเลือกกลุ่มผู้ป่วยที่อยู่ในสภาวะเฉพาะของโรคได้อย่างแม่นยำ ซึ่งจะช่วยอำนวยความสะดวกในการเลือกวิธีการรักษา[ 25 ] [ 26 ] การวิเคราะห์การเสริมคุณค่าชุดยีน (GSEA) [ 16 ]และวิธีการที่คล้ายกัน[ 17 ]ใช้ประโยชน์จากตรรกะประเภทนี้ แต่ใช้สถิติที่ซับซ้อนกว่า เนื่องจากยีนที่เป็นส่วนประกอบในกระบวนการจริงแสดงพฤติกรรมที่ซับซ้อนกว่าการเคลื่อนที่ขึ้นหรือลงเป็นกลุ่ม และปริมาณที่ยีนเคลื่อนที่ขึ้นและลงนั้นมีความหมาย ไม่ใช่แค่ทิศทาง ไม่ว่าในกรณีใด สถิติเหล่านี้จะวัดว่าพฤติกรรมของชุดยีนขนาดเล็กบางชุดแตกต่างจากยีนที่ไม่ได้อยู่ในชุดขนาดเล็กนั้นมากน้อยเพียงใด
GSEA ใช้ สถิติแบบ Kolmogorov Smirnovเพื่อดูว่าชุดยีนที่กำหนดไว้ก่อนหน้านี้แสดงพฤติกรรมที่ผิดปกติในโปรไฟล์การแสดงออกปัจจุบันหรือไม่ ซึ่งนำไปสู่ความท้าทายในการทดสอบสมมติฐานหลายรายการ แต่มีวิธีการที่เหมาะสมในการแก้ไขปัญหานี้[ 27 ]
ข้อสรุป
การวิเคราะห์โปรไฟล์การแสดงออกให้ข้อมูลใหม่เกี่ยวกับสิ่งที่ยีนทำภายใต้เงื่อนไขต่างๆ โดยรวมแล้ว เทคโนโลยีไมโครอาร์เรย์สร้างโปรไฟล์การแสดงออกที่เชื่อถือได้[ 28 ]จากข้อมูลนี้ เราสามารถสร้างสมมติฐานใหม่เกี่ยวกับชีววิทยาหรือทดสอบสมมติฐานที่มีอยู่ได้ อย่างไรก็ตาม ขนาดและความซับซ้อนของการทดลองเหล่านี้มักส่งผลให้เกิดการตีความที่เป็นไปได้หลากหลาย ในหลายกรณี การวิเคราะห์ผลลัพธ์ของการวิเคราะห์โปรไฟล์การแสดงออกต้องใช้ความพยายามมากกว่าการทำการทดลองเริ่มต้นเสียอีก
นักวิจัยส่วนใหญ่ใช้วิธีการทางสถิติหลายวิธีและการวิเคราะห์ข้อมูลเชิงสำรวจก่อนที่จะเผยแพร่ผลการวิเคราะห์การแสดงออกของยีน โดยประสานงานกับนักชีวสารสนเทศหรือผู้เชี่ยวชาญด้านไมโครอาร์เรย์ดีเอ็นเอการจัดลำดับอาร์เอ็นเอและการจัดลำดับเซลล์เดี่ยวการออกแบบการทดลองที่ดี การทำซ้ำทางชีวภาพที่เพียงพอ และการทดลองติดตามผลมีบทบาทสำคัญในความสำเร็จของการทดลองวิเคราะห์การแสดงออกของยีน
ดูเพิ่มเติม
- การวิเคราะห์การแสดงออกของยีนในมะเร็ง
- การแสดงออกของยีนในเชิงพื้นที่และเวลา
- ทรานสคริปโตมิกส์
- การวิเคราะห์ตัวแปรการเชื่อมต่อ
ลิงก์ภายนอก
- การวิเคราะห์ทรานสคริปโตมิกส์เชิงเปรียบเทียบในโมดูลอ้างอิงในวิทยาศาสตร์ชีวภาพ
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การวิเคราะห์การแสดงออกของยีน
ในสาขา ชีววิทยาระดับโมเลกุล การ วิเคราะห์การแสดงออกของยีน คือการวัดกิจกรรม ( การแสดงออก ) ของยีนหลายพันตัวพร้อมกัน เพื่อสร้างภาพรวมของการทำงานของเซลล์...
พื้นหลัง
การวิเคราะห์รูปแบบการแสดงออกของยีนเป็นขั้นตอนต่อไปที่สมเหตุสมผลหลังจาก ถอดรหัสลำดับจีโนม : ลำดับจีโนมบอกเราว่าเซลล์นั้นอาจทำอะไรได้บ้าง ในขณะที่รูปแบบการแสดงออกของยีนบอกเราว่าเซลล์นั้นกำลังทำอะไรอยู่จริง ๆ ในช่วงเวลาหนึ่ง...
การเปรียบเทียบกับโปรตีโอมิกส์
จี โนมของมนุษย์ ประกอบด้วยยีนประมาณ 20,000 ยีน ซึ่งทำงานร่วมกันเพื่อสร้างโปรตีนที่แตกต่างกันประมาณ 1,000,000 ชนิด นี่เป็นผลมาจาก การตัดต่อทางเลือก (alternative splicing ) และเนื่องจากเซลล์ทำการเปลี่ยนแปลงที่สำคัญกับโปรตีนผ่าน การดัดแปลงหลังการแปล...
ใช้ในการสร้างและทดสอบสมมติฐาน
บางครั้ง นักวิทยาศาสตร์อาจมีแนวคิดเกี่ยวกับสิ่งที่เกิดขึ้นอยู่แล้ว หรือ มีสมมติฐาน และทำการทดลองวิเคราะห์การแสดงออกของยีนโดยมีเป้าหมายเพื่อพิสูจน์ว่าสมมติฐานนั้นอาจผิดพลาด กล่าวอีกนัยหนึ่ง นักวิทยาศาสตร์กำลังคาดการณ์ระดับการแสดงออกของยีนอย่างเฉพาะเจาะจง...