เทคนิคการวิเคราะห์ไมโครอาร์เรย์

Q: เทคนิค

ผู้ผลิตไมโครอาร์เรย์ส่วนใหญ่ เช่น Affymetrix และ Agilent [ 4 ] จัดหาซอฟต์แวร์วิเคราะห์ข้อมูลเชิงพาณิชย์ควบคู่ไปกับผลิตภัณฑ์ไมโครอาร์เรย์ของตน นอกจาก นี้ ยังมีตัวเลือกโอเพนซอร์สที่ใช้หลากหลายวิธีในการวิเคราะห์ข้อมูลไมโครอาร์เรย์

ตัวอย่างของไมโครอาร์เรย์โอลิโกที่มีจุดโพรบประมาณ 40,000 จุด พร้อมภาพขยายเพื่อแสดงรายละเอียด

เทคนิคการวิเคราะห์ไมโครอาร์เรย์ใช้ในการตีความข้อมูลที่ได้จากการทดลองเกี่ยวกับดีเอ็นเอ ( การวิเคราะห์ชิปยีน ) อาร์เอ็นเอ และโปรตีนไมโครอาร์เรย์ซึ่งช่วยให้นักวิจัยสามารถตรวจสอบสถานะการแสดงออกของยีนจำนวนมาก – ในหลายกรณีจีโนม ทั้งหมดของสิ่งมีชีวิต – ในการทดลองเพียงครั้งเดียว^{[ 1 ]}การทดลองดังกล่าวสามารถสร้างข้อมูลจำนวนมหาศาล ทำให้นักวิจัยสามารถประเมินสถานะโดยรวมของเซลล์หรือสิ่งมีชีวิตได้ ข้อมูลจำนวนมากเช่นนี้วิเคราะห์ได้ยาก – หรืออาจเป็นไปไม่ได้เลย – หากปราศจากความช่วยเหลือจากโปรแกรมคอมพิวเตอร์

การแนะนำ

การวิเคราะห์ข้อมูลไมโครอาร์เรย์เป็นขั้นตอนสุดท้ายในการอ่านและประมวลผลข้อมูลที่ได้จากชิปไมโครอาร์เรย์ ตัวอย่างจะผ่านกระบวนการต่างๆ รวมถึงการทำให้บริสุทธิ์และการสแกนโดยใช้ไมโครชิป ซึ่งจะสร้างข้อมูลจำนวนมากที่ต้องประมวลผลผ่านซอฟต์แวร์คอมพิวเตอร์ กระบวนการนี้ประกอบด้วยขั้นตอนที่แตกต่างกันหลายขั้นตอน ดังแสดงในภาพด้านล่าง การเปลี่ยนแปลงขั้นตอนใดขั้นตอนหนึ่งจะส่งผลต่อผลลัพธ์ของการวิเคราะห์ ดังนั้นโครงการ MAQC ^{[ 2 ]}จึงถูกสร้างขึ้นเพื่อระบุชุดกลยุทธ์มาตรฐาน บริษัทต่างๆ ใช้โปรโตคอล MAQC เพื่อทำการวิเคราะห์อย่างครบถ้วน^{[ 3 ]}

เทคนิค

ผู้ผลิตไมโครอาร์เรย์ส่วนใหญ่ เช่นAffymetrixและAgilent [ ⁴^{] จัดหาซอฟต์แวร์วิเคราะห์ข้อมูลเชิงพาณิชย์ควบคู่ไปกับผลิตภัณฑ์ไมโครอาร์เรย์ของตน นอกจาก}^นี้ยังมีตัวเลือกโอเพนซอร์สที่ใช้หลากหลายวิธีในการวิเคราะห์ข้อมูลไมโครอาร์เรย์

การรวมกลุ่มและการทำให้เป็นมาตรฐาน

การเปรียบเทียบอาร์เรย์สองชุดที่แตกต่างกัน หรือตัวอย่างสองชุดที่แตกต่างกันซึ่งถูกไฮบริดกับอาร์เรย์เดียวกัน โดยทั่วไปแล้วจะต้องปรับแก้ข้อผิดพลาดที่เป็นระบบที่เกิดจากความแตกต่างในขั้นตอนและผลกระทบของความเข้มของสีย้อม การทำให้สีย้อมเป็นมาตรฐานสำหรับอาร์เรย์สองสีมักทำได้โดยการถดถอยเฉพาะที่ LIMMA มีชุดเครื่องมือสำหรับการแก้ไขพื้นหลังและการปรับขนาด รวมถึงตัวเลือกในการหาค่าเฉลี่ยของจุดที่ซ้ำกันบนสไลด์^{[ 5 ]}วิธีทั่วไปในการประเมินว่าอาร์เรย์ได้รับการทำให้เป็นมาตรฐานได้ดีเพียงใด คือการพล็อตแผนภูมิ MAของข้อมูล แผนภูมิ MA สามารถสร้างได้โดยใช้โปรแกรมและภาษาต่างๆ เช่น R และ MATLAB ^{[ 6 ]}^{[ 7 ]}

ข้อมูลดิบของ Affy ประกอบด้วยโพรบประมาณยี่สิบตัวสำหรับเป้าหมาย RNA เดียวกัน ครึ่งหนึ่งของโพรบเหล่านี้เป็น "จุดที่ไม่ตรงกัน" ซึ่งไม่ตรงกับลำดับเป้าหมายอย่างแม่นยำ ในทางทฤษฎีแล้ว จุดเหล่านี้สามารถวัดปริมาณการจับที่ไม่จำเพาะเจาะจงสำหรับเป้าหมายที่กำหนดได้ Robust Multi-array Average (RMA) ^{[ 8 ]}เป็นวิธีการปรับค่าให้เป็นมาตรฐานที่ไม่ใช้ประโยชน์จากจุดที่ไม่ตรงกันเหล่านี้ แต่ยังคงต้องสรุปการจับคู่ที่สมบูรณ์แบบผ่านการขัดเงาค่ามัธยฐาน^{[ 9 ]}อัลกอริทึมการขัดเงาค่ามัธยฐาน แม้ว่าจะมีความแข็งแกร่ง แต่ก็มีพฤติกรรมที่แตกต่างกันไปขึ้นอยู่กับจำนวนตัวอย่างที่วิเคราะห์^{[ 10 ]}การปรับค่าให้เป็นมาตรฐานแบบ ควอนไทล์ ซึ่งเป็นส่วนหนึ่งของ RMA เช่นกัน เป็นวิธีการที่เหมาะสมวิธีหนึ่งในการปรับค่าอาร์เรย์ชุดหนึ่งให้เป็นมาตรฐานเพื่อให้การเปรียบเทียบต่อไปมีความหมาย

อัลกอริทึม Affymetrix MAS5 ในปัจจุบัน ซึ่งใช้ทั้งโพรบที่ตรงกันอย่างสมบูรณ์และไม่ตรงกัน ยังคงได้รับความนิยมและทำได้ดีในการทดสอบแบบตัวต่อตัว^{[ 11 ]}

แผนผังแสดงขั้นตอนการทำงานของอัลกอริทึม MAS5 จาก Agilent

การวิเคราะห์ปัจจัยสำหรับการสรุปไมโครอาร์เรย์ที่แข็งแกร่ง (FARMS) ^{[ 12 ]}เป็นเทคนิคแบบจำลองสำหรับการสรุปข้อมูลอาร์เรย์ที่ระดับโพรบที่ตรงกันอย่างสมบูรณ์ โดยอิงตามแบบจำลองการวิเคราะห์ปัจจัยซึ่งวิธีการ Bayesian maximum a posteriori ปรับพารามิเตอร์แบบจำลองให้เหมาะสมภายใต้สมมติฐานของสัญญาณรบกวนการวัดแบบเกาส์เซียน ตามเกณฑ์มาตรฐาน Affycomp ^{[ 13 ]} FARMS มีประสิทธิภาพเหนือกว่าวิธีการสรุปอื่นๆ ทั้งหมดในแง่ของความไวและความจำเพาะ

การระบุการแสดงออกที่แตกต่างกันอย่างมีนัยสำคัญ

มีกลยุทธ์มากมายในการระบุโพรบอาร์เรย์ที่แสดงระดับการแสดงออกเกินหรือต่ำกว่าปกติที่ผิดปกติ วิธีที่ง่ายที่สุดคือการกำหนดว่าโพรบใด ๆ ที่แตกต่างกันโดยเฉลี่ยอย่างน้อยสองเท่าระหว่างกลุ่มการรักษาถือว่า "มีนัยสำคัญ" วิธีการที่ซับซ้อนกว่ามักเกี่ยวข้องกับการทดสอบ tหรือกลไกอื่น ๆ ที่คำนึงถึงทั้งขนาดของผลกระทบและความแปรปรวน ที่น่าสนใจคือ ค่า p ที่เกี่ยวข้องกับยีนเฉพาะนั้นไม่สามารถทำซ้ำได้ดีระหว่างการทดลองซ้ำ และรายการที่สร้างขึ้นโดยการเปลี่ยนแปลงแบบเท่าตัวโดยตรงนั้นมีประสิทธิภาพดีกว่ามาก^{[ 14 ]}^{[ 15 ]}นี่เป็นการสังเกตที่สำคัญอย่างยิ่ง เนื่องจากจุดประสงค์ของการทำการทดลองเกี่ยวข้องกับการทำนายพฤติกรรมทั่วไป กลุ่ม MAQC แนะนำให้ใช้การประเมินการเปลี่ยนแปลงแบบเท่าตัวบวกกับ การตัด ค่า p ที่ไม่เข้มงวด โดยชี้ให้เห็นเพิ่มเติมว่าการเปลี่ยนแปลงในการแก้ไขพื้นหลังและกระบวนการปรับขนาดมีผลกระทบเพียงเล็กน้อยต่อลำดับของความแตกต่างของการเปลี่ยนแปลงแบบเท่าตัว แต่มีผลกระทบอย่างมากต่อค่า p ^{[ 14 ]}

การจัดกลุ่ม

การจัดกลุ่ม (Clustering) เป็น เทคนิค การขุดค้นข้อมูลที่ใช้ในการจัดกลุ่มยีนที่มีรูปแบบการแสดงออกคล้ายคลึงกันการจัดกลุ่มแบบลำดับชั้น (Hierarchical clustering ) และการจัดกลุ่มแบบ k-meansเป็นเทคนิคที่ใช้กันอย่างแพร่หลายในการวิเคราะห์ไมโครอาร์เรย์

การจัดกลุ่มแบบลำดับชั้น

การจัดกลุ่มแบบลำดับชั้น (Hierarchical clustering) เป็นวิธีการทางสถิติสำหรับการค้นหากลุ่มที่มีความคล้ายคลึง กันค่อนข้างสูง การจัดกลุ่มแบบลำดับชั้นประกอบด้วยสองขั้นตอนแยกกัน ในขั้นแรก จะคำนวณ เมทริกซ์ระยะทางที่ประกอบด้วยระยะทางแบบคู่ระหว่างยีนทั้งหมด โดย ทั่วไปจะใช้ค่า สัมประสิทธิ์สหสัมพันธ์ของ PearsonและSpearmanเป็นค่าประมาณความไม่เหมือนกัน แต่ก็สามารถใช้วิธีอื่น ๆ เช่นระยะทางแบบ Manhattanหรือระยะทางแบบ Euclideanได้เช่นกัน เนื่องจากมีมาตรวัดระยะทางจำนวนมากและอิทธิพลของมาตรวัดเหล่านั้นต่อผลลัพธ์ของอัลกอริทึมการจัดกลุ่ม จึงมีการศึกษาหลายชิ้นที่เปรียบเทียบและประเมินมาตรวัดระยะทางต่างๆ สำหรับการจัดกลุ่มข้อมูลไมโครอาร์เรย์ โดยพิจารณาจากคุณสมบัติเฉพาะตัวและความทนทานต่อสัญญาณรบกวน^{[ 16 ]}^{[ 17 ]}^{[ 18 ]}หลังจากคำนวณเมทริกซ์ระยะทางเริ่มต้นแล้ว อัลกอริทึมการจัดกลุ่มแบบลำดับชั้นจะดำเนินการอย่างใดอย่างหนึ่งดังต่อไปนี้ (A) รวมคลัสเตอร์ที่ใกล้ที่สุดสองคลัสเตอร์เข้าด้วยกันโดยเริ่มจากจุดข้อมูลเดียว (วิธีการรวมกลุ่มจากล่างขึ้นบน ซึ่งเป็นวิธีที่ใช้กันทั่วไปมากกว่า) หรือ (B) แบ่งคลัสเตอร์ออกเป็นส่วนๆ โดยเริ่มจากชุดข้อมูลทั้งหมด (วิธีการแบ่งกลุ่มจากบนลงล่าง) หลังจากแต่ละขั้นตอน จะมีการคำนวณเมทริกซ์ระยะทางใหม่ระหว่างคลัสเตอร์ที่สร้างขึ้นใหม่กับคลัสเตอร์อื่นๆ วิธี การวิเคราะห์คลัสเตอร์ แบบลำดับชั้น ได้แก่:

การเชื่อมโยงเดี่ยว (วิธีขั้นต่ำสุด, เพื่อนบ้านที่ใกล้ที่สุด)
การเชื่อมโยงเฉลี่ย ( UPGMA )
การเชื่อมโยงสมบูรณ์ (วิธีสูงสุด, เพื่อนบ้านที่ไกลที่สุด)

การศึกษาวิจัยต่างๆ ได้แสดงให้เห็นแล้วจากประสบการณ์ว่าอัลกอริทึมการจัดกลุ่มแบบ Single linkage ให้ผลลัพธ์ที่ไม่ดีเมื่อนำไปใช้กับข้อมูลไมโครอาร์เรย์การแสดงออกของยีน ดังนั้นจึงควรหลีกเลี่ยง^{[ 18 ]}^{[ 19 ]}

การจัดกลุ่มแบบ K-means

การจัดกลุ่มแบบ K-means เป็นอัลกอริทึมสำหรับการจัดกลุ่มยีนหรือตัวอย่างตามรูปแบบเป็นKกลุ่ม การจัดกลุ่มทำได้โดยการลดผลรวมของกำลังสองของระยะทางระหว่างข้อมูลและจุดศูนย์กลาง ของกลุ่มที่สอดคล้องกัน ดังนั้นวัตถุประสงค์ของการจัดกลุ่มแบบ K-means คือการจำแนกข้อมูลตามการแสดงออกที่คล้ายคลึงกัน^{[ 20 ]}อัลกอริทึมการจัดกลุ่มแบบ K-means และรูปแบบต่างๆ บางส่วน (รวมถึงk-medoids ) ได้แสดงให้เห็นว่าให้ผลลัพธ์ที่ดีสำหรับข้อมูลการแสดงออกของยีน (อย่างน้อยก็ดีกว่าวิธีการจัดกลุ่มแบบลำดับชั้น) การเปรียบเทียบเชิงประจักษ์ของk-means , k-medoids , วิธีการแบบลำดับชั้น และการวัดระยะทางที่แตกต่างกันสามารถพบได้ในเอกสาร^{[ 18 ]}^{[ 19 ]}

การจดจำรูปแบบ

ระบบเชิงพาณิชย์สำหรับการวิเคราะห์เครือข่ายยีน เช่น Ingenuity ^{[ 21 ]}และ Pathway studio ^{[ 22 ]}สร้างภาพแทนของยีนที่แสดงออกแตกต่างกันตามวรรณกรรมทางวิทยาศาสตร์ในปัจจุบัน เครื่องมือที่ไม่ใช่เชิงพาณิชย์ เช่น FunRich ^{[ 23 ]} GenMAPPและMoksiskaanยังช่วยในการจัดระเบียบและแสดงภาพข้อมูลเครือข่ายยีนที่ได้มาจากการทดลองไมโครอาร์เรย์หนึ่งหรือหลายครั้ง เครื่องมือวิเคราะห์ไมโครอาร์เรย์ที่หลากหลายมีให้ใช้งานผ่านBioconductorซึ่งเขียนด้วยภาษาโปรแกรม Rโมดูล SAM ที่อ้างถึงบ่อยครั้งและเครื่องมือไมโครอาร์เรย์อื่นๆ^{[ 24 ]}มีให้ใช้งานผ่านมหาวิทยาลัยสแตนฟอร์ด ชุดอื่นมีให้ใช้งานจากฮาร์วาร์ดและ MIT ^{[ 25 ]}

ตัวอย่างผลลัพธ์จากเครื่องมือ FunRich ภาพแสดงผลลัพธ์ของการเปรียบเทียบยีน 4 ชนิดที่แตกต่างกัน

มีการพัฒนาเครื่องมือซอฟต์แวร์เฉพาะทางสำหรับการวิเคราะห์ทางสถิติเพื่อกำหนดขอบเขตของการแสดงออกของยีนที่มากเกินไปหรือน้อยเกินไปในการทดลองไมโครอาร์เรย์เมื่อเทียบกับสถานะอ้างอิง เพื่อช่วยในการระบุยีนหรือชุดยีนที่เกี่ยวข้องกับฟีโนไทป์ เฉพาะ วิธีการวิเคราะห์วิธีหนึ่งที่เรียกว่าGene Set Enrichment Analysis (GSEA) ใช้ สถิติแบบ Kolmogorov-Smirnovเพื่อระบุกลุ่มยีนที่ถูกควบคุมร่วมกัน^{[ 1 ]}แพ็กเกจสถิติของบุคคลที่สามนี้ให้ข้อมูลแก่ผู้ใช้เกี่ยวกับยีนหรือชุดยีนที่สนใจ รวมถึงลิงก์ไปยังรายการในฐานข้อมูล เช่นGenBank ของ NCBI และฐานข้อมูลที่ได้รับการดูแล เช่น Biocarta ^{[ 26 ]}และGene Ontologyเครื่องมือวิเคราะห์การเสริมคุณค่าของโปรตีนคอมเพล็กซ์ (COMPLEAT) ให้การวิเคราะห์การเสริมคุณค่าที่คล้ายกันในระดับของโปรตีนคอมเพล็กซ์^{[ 27 ]}เครื่องมือนี้สามารถระบุการควบคุมโปรตีนคอมเพล็กซ์แบบไดนามิกภายใต้เงื่อนไขหรือจุดเวลาที่แตกต่างกันได้ ระบบที่เกี่ยวข้อง PAINT ^{[ 28 ]}และ SCOPE ^{[ 29 ]}ทำการวิเคราะห์ทางสถิติในบริเวณโปรโมเตอร์ของยีน โดยระบุถึงการแสดงออกที่มากเกินไปและน้อยเกินไปของ องค์ประกอบการตอบสนองของ ปัจจัยการถอดรหัส ที่ระบุไว้ก่อนหน้านี้ เครื่องมือวิเคราะห์ทางสถิติอีกอย่างหนึ่งคือ Rank Sum Statistics for Gene Set Collections (RssGsc) ซึ่งใช้ฟังก์ชันการกระจายความน่าจะเป็นแบบอันดับผลรวมเพื่อค้นหาชุดยีนที่อธิบายข้อมูลการทดลอง^{[ 30 ]}แนวทางเพิ่มเติมคือการวิเคราะห์เมตา เชิงบริบท กล่าว คือ การค้นหาว่ากลุ่มยีนตอบสนองต่อบริบทการทดลองที่หลากหลายอย่างไรGenevestigator เป็นเครื่องมือสาธารณะสำหรับการ ทำการ วิเคราะห์เมตาเชิงบริบทในบริบทต่างๆ เช่น ส่วนต่างๆ ของกายวิภาค ขั้นตอนการพัฒนา และการตอบสนองต่อโรค สารเคมี ความเครียด และเนื้องอก

การวิเคราะห์ความสำคัญของไมโครอาร์เรย์ (SAM)

การวิเคราะห์ความสำคัญของไมโครอาร์เรย์ (SAM)เป็นเทคนิคทางสถิติที่พัฒนาขึ้นในปี 2001 โดย Virginia Tusher, Robert TibshiraniและGilbert Chuเพื่อตรวจสอบว่าการเปลี่ยนแปลงในการแสดงออกของยีนมีความสำคัญทางสถิติหรือไม่ ด้วยการเกิดขึ้นของไมโครอาร์เรย์ DNAทำให้สามารถวัดการแสดงออกของยีนหลายพันยีนในการทดลองไฮบริดไดเซชันเพียงครั้งเดียว ข้อมูลที่สร้างขึ้นมีจำนวนมาก และวิธีการคัดแยกสิ่งที่สำคัญและสิ่งที่ไม่สำคัญจึงเป็นสิ่งจำเป็น SAM ได้รับการเผยแพร่โดยมหาวิทยาลัยสแตนฟอร์ดในรูป แบบแพ็กเก จR ^{[ 31 ]}

SAM ระบุยีนที่มีนัยสำคัญทางสถิติโดยการทำการทดสอบ t เฉพาะยีน และคำนวณค่าสถิติd _jสำหรับแต่ละยีนjซึ่งวัดความแข็งแกร่งของความสัมพันธ์ระหว่างการแสดงออกของยีนและตัวแปรตอบสนอง^{[ 32 ]}^{[ 33 ]}^{[ 34 ]}การวิเคราะห์นี้ใช้สถิติแบบไม่พาราเมตริกเนื่องจากข้อมูลอาจไม่เป็นไปตามการกระจายแบบปกติตัวแปรตอบสนองอธิบายและจัดกลุ่มข้อมูลตามเงื่อนไขการทดลอง ในวิธีนี้ จะใช้ การเรียงสับเปลี่ยนข้อมูลซ้ำๆ เพื่อพิจารณาว่าการแสดงออกของยีนใดๆ มีความสัมพันธ์กับตัวแปรตอบสนองอย่างมีนัยสำคัญหรือไม่ การใช้การวิเคราะห์แบบเรียงสับเปลี่ยนจะคำนึงถึงความสัมพันธ์ในยีนและหลีกเลี่ยง สมมติฐาน แบบพาราเมตริกเกี่ยวกับการกระจายของยีนแต่ละตัว นี่เป็นข้อได้เปรียบเหนือเทคนิคอื่นๆ (เช่นANOVAและBonferroni ) ซึ่งถือว่าความแปรปรวนเท่ากันและ/หรือความเป็นอิสระของยีน^{[ 35 ]}

โปรโตคอลพื้นฐาน

ทำการ ทดลอง ไมโครอาร์เรย์ — ไมโครอาร์เรย์ดีเอ็นเอโดยใช้ไพรเมอร์โอลิโกและซีดีเอ็นเอ, อาร์เรย์ SNP, อาร์เรย์โปรตีน ฯลฯ ซึ่งช่วยให้สามารถวิเคราะห์การแสดงออกของยีน ความแปรผันทางพันธุกรรม หรือปฏิกิริยาระหว่างโปรตีนในปริมาณมากได้อย่างรวดเร็ว
การวิเคราะห์นิพจน์อินพุตใน Microsoft Excel — ดูด้านล่าง
เรียกใช้ SAM ในฐานะส่วนเสริมของ Microsoft Excel
ปรับพารามิเตอร์การปรับแต่ง Delta เพื่อให้ได้จำนวนยีนที่สำคัญพร้อมกับอัตราการค้นพบที่ผิดพลาด (FDR) ที่ยอมรับได้ และประเมินขนาดตัวอย่างโดยการคำนวณความแตกต่างเฉลี่ยของการแสดงออกในตัวควบคุมพล็อต SAM
แสดงรายการยีนที่มีการแสดงออกแตกต่างกัน (ยีนที่มีการแสดงออกในเชิงบวกและเชิงลบ)

รัน SAM

สามารถดาวน์โหลด SAM ได้ทางออนไลน์ที่http://www-stat.stanford.edu/~tibs/SAM/สำหรับผู้ใช้งานทั้งในและนอกแวดวงวิชาการ หลังจากเสร็จสิ้นขั้นตอนการลงทะเบียนแล้ว
SAM ทำงานในรูปแบบ Add-In ของ Excel โดย SAM Plot Controller ช่วยให้สามารถปรับแต่งอัตราการค้นพบที่ผิดพลาด (False Discovery Rate) และค่า Delta ได้ ในขณะที่ฟังก์ชัน SAM Plot และ SAM Output จะสร้างรายการยีนที่มีนัยสำคัญ ตารางค่า Delta และการประเมินขนาดตัวอย่าง
การเรียงสับเปลี่ยนคำนวณจากจำนวนตัวอย่าง
การเรียงสับเปลี่ยนบล็อก
- บล็อกคือกลุ่มของไมโครอาร์เรย์ ตัวอย่างเช่น สำหรับตัวอย่างแปดตัวอย่างที่แบ่งออกเป็นสองกลุ่ม (กลุ่มควบคุมและกลุ่มที่ได้รับผลกระทบ) จะมีการเรียงสับเปลี่ยน 4!=24 ครั้งสำหรับแต่ละบล็อก และจำนวนการเรียงสับเปลี่ยนทั้งหมดคือ (24)(24)= 576 แนะนำให้มีการเรียงสับเปลี่ยนอย่างน้อย 1000 ครั้ง^{[ 32 ]}^{[ 36 ]}^{[ 37 ]}

จำนวนการเรียงสับเปลี่ยนจะถูกกำหนดโดยผู้ใช้เมื่อป้อนค่าที่ถูกต้องลงในชุดข้อมูลเพื่อเรียกใช้ SAM

รูปแบบการตอบกลับ

ประเภท: ^{[ 32 ]}

เชิงปริมาณ — ค่าจริง (เช่น อัตราการเต้นของหัวใจ)
หนึ่งในการทดสอบนั้นคือการทดสอบว่าค่าเฉลี่ยของการแสดงออกของยีนแตกต่างจากศูนย์หรือไม่
สองชั้นเรียน — สองชุดการวัด
- ไม่จับคู่ — หน่วยวัดในสองกลุ่มแตกต่างกัน เช่น กลุ่มควบคุมและกลุ่มทดลองมีตัวอย่างจากผู้ป่วยต่างกัน
- เปรียบเทียบ แบบจับคู่ — วัดหน่วยทดลองเดียวกันในทั้งสองกลุ่ม เช่น ตัวอย่างก่อนและหลังการรักษาจากผู้ป่วยรายเดียวกัน
กลุ่มหลายคลาส — กลุ่มมากกว่าสองกลุ่ม โดยแต่ละกลุ่มประกอบด้วยหน่วยทดลองที่แตกต่างกัน เป็นการขยายความจากกลุ่มสองคลาสแบบไม่จับคู่
อัตราการรอดชีวิต — ข้อมูลเกี่ยวกับระยะเวลาจนกว่าจะเกิดเหตุการณ์ใดเหตุการณ์หนึ่ง (เช่น การเสียชีวิตหรือการกลับมาเป็นซ้ำ)
การวัดตามช่วงเวลา — หน่วยทดลองแต่ละหน่วยจะถูกวัดมากกว่าหนึ่งจุดเวลา หน่วยทดลองจัดอยู่ในรูปแบบการออกแบบหนึ่งหรือสองกลุ่ม
การค้นหารูปแบบ — ไม่มีการระบุพารามิเตอร์การตอบสนองอย่างชัดเจน ผู้ใช้ระบุ eigengene (ส่วนประกอบหลัก) ของข้อมูลการแสดงออกและถือว่าเป็นการตอบสนองเชิงปริมาณ

อัลกอริทึม

SAM คำนวณสถิติการทดสอบสำหรับความแตกต่างสัมพัทธ์ในการแสดงออกของยีนโดยอาศัยการวิเคราะห์การเรียงสับเปลี่ยนของข้อมูลการแสดงออก และคำนวณอัตราการค้นพบที่ผิดพลาด การคำนวณหลักของโปรแกรมแสดงไว้ด้านล่าง^{[ 32 ]}^{[ 33 ]}^{[ 34 ]}

ค่า คงที่ s _oถูกเลือกเพื่อให้ค่าสัมประสิทธิ์ความแปรผันของd _i มีค่าน้อยที่สุด โดยที่ r _iเท่ากับระดับการแสดงออก (x) ของยีนiภายใต้เงื่อนไขการทดลอง y

$อัตราการค้นพบที่ผิดพลาด (FDR) = {\frac {ค่ามัธยฐาน (หรือเปอร์เซ็นไทล์ที่ 90) ของจำนวนยีนที่ถูกระบุว่ามีนัยสำคัญอย่างผิดพลาด}{จำนวนยีนที่ถูกระบุว่ามีนัยสำคัญ}}} }$

ค่าการเปลี่ยนแปลง (t) ถูกกำหนดขึ้นเพื่อรับประกันว่ายีนที่ถูกเรียกว่ามีการเปลี่ยนแปลงอย่างมีนัยสำคัญอย่างน้อยในปริมาณที่กำหนดไว้ล่วงหน้า ซึ่งหมายความว่าค่าสัมบูรณ์ของระดับการแสดงออกเฉลี่ยของยีนภายใต้เงื่อนไขทั้งสองจะต้องมากกว่าค่าการเปลี่ยนแปลง (t) จึงจะเรียกว่าเป็นบวก และต้องน้อยกว่าค่าผกผันของค่าการเปลี่ยนแปลง (t) จึงจะเรียกว่าเป็นลบ

สามารถอธิบายอัลกอริทึม SAM ได้ดังนี้:

เรียงลำดับสถิติการทดสอบตามขนาด^{[ 33 ]}^{[ 34 ]}
สำหรับการเรียงสับเปลี่ยนแต่ละครั้ง ให้คำนวณคะแนนว่าง (ไม่ได้รับผลกระทบ) ที่เรียงลำดับ^{[ 33 ]}^{[ 34 ]}
พล็อตสถิติการทดสอบที่เรียงลำดับเทียบกับคะแนนว่างที่คาดหวัง^{[ 33 ]}^{[ 34 ]}
เรียกยีนแต่ละตัวว่ามีความสำคัญหากค่าสัมบูรณ์ของสถิติการทดสอบสำหรับยีนนั้นลบด้วยค่าเฉลี่ยสถิติการทดสอบสำหรับยีนนั้นมีค่ามากกว่าเกณฑ์ที่กำหนดไว้^{[ 34 ]}
ประมาณอัตราการค้นพบที่ผิดพลาดโดยพิจารณาจากค่าที่คาดหวังเทียบกับค่าที่สังเกตได้^{[ 33 ]}^{[ 34 ]}

เอาต์พุต

ชุดยีนที่สำคัญ
- ชุดยีนเชิงบวก — การแสดงออกของยีนส่วนใหญ่ในชุดยีนที่สูงขึ้นมีความสัมพันธ์กับค่าฟีโนไทป์y ที่สูงขึ้น
- ชุดยีนเชิงลบ — การแสดงออกของยีนส่วนใหญ่ในชุดยีนที่ลดลงมีความสัมพันธ์กับค่าฟีโนไทป์y ที่สูงขึ้น

คุณสมบัติของ SAM

ข้อมูลจากอาร์เรย์ Oligo หรือ cDNA, อาร์เรย์ SNP, อาร์เรย์โปรตีน ฯลฯ สามารถนำมาใช้ใน SAM ได้^{[ 33 ]}^{[ 34 ]}
เชื่อมโยงข้อมูลการแสดงออกกับพารามิเตอร์ทางคลินิก^{[ 35 ]}
เชื่อมโยงข้อมูลการแสดงออกกับเวลา^{[ 32 ]}
ใช้การเรียงสับเปลี่ยนข้อมูลเพื่อประมาณอัตราการค้นพบที่ผิดพลาดสำหรับการทดสอบหลายครั้ง^{[ 33 ]}^{[ 34 ]}^{[ 35 ]}^{[ 38 ]}
รายงานอัตราการค้นพบที่ผิดพลาดในท้องถิ่น (FDR สำหรับยีนที่มี d _i คล้าย กับยีนนั้น) ^{[ 32 ]}และอัตราการพลาด^{[ 32 ]}^{[ 33 ]}
สามารถทำงานร่วมกับการออกแบบแบบบล็อกได้เมื่อมีการใช้การรักษาภายในอาร์เรย์ชุดต่างๆ^{[ 32 ]}
สามารถปรับเกณฑ์กำหนดจำนวนยีนที่เรียกว่าสำคัญได้^{[ 32 ]}

การแก้ไขข้อผิดพลาดและการควบคุมคุณภาพ

การควบคุมคุณภาพ

อาร์เรย์ทั้งหมดอาจมีข้อบกพร่องที่เห็นได้ชัดซึ่งสามารถตรวจพบได้ด้วยการตรวจสอบด้วยสายตา การเปรียบเทียบแบบจับคู่กับอาร์เรย์ในกลุ่มทดลองเดียวกัน หรือการวิเคราะห์การเสื่อมสภาพของ RNA ^{[ 39 ]}ผลลัพธ์อาจดีขึ้นได้โดยการลบอาร์เรย์เหล่านี้ออกจากการวิเคราะห์ทั้งหมด

การแก้ไขพื้นหลัง

ขึ้นอยู่กับประเภทของอาร์เรย์ สัญญาณที่เกี่ยวข้องกับการจับแบบไม่จำเพาะของฟลูออโรฟอร์สามารถลบออกได้เพื่อให้ได้ผลลัพธ์ที่ดีขึ้น วิธีหนึ่งคือการลบความเข้มของสัญญาณเฉลี่ยของพื้นที่ระหว่างจุด เครื่องมือต่างๆ สำหรับการแก้ไขพื้นหลังและการวิเคราะห์เพิ่มเติมมีให้บริการจาก TIGR ^{[ 40 ]} Agilent ( GeneSpring ) ^{[ 41 ]}และOcimum Bio Solutions (Genowiz) ^{[ 42 ]}

การกรองเฉพาะจุด

การระบุสิ่งผิดปกติเฉพาะจุดด้วยสายตา เช่น ข้อบกพร่องจากการพิมพ์หรือการซัก อาจบ่งชี้ถึงการกำจัดจุดเหล่านั้นได้ ซึ่งอาจใช้เวลานานพอสมควร ขึ้นอยู่กับคุณภาพของการผลิตอาร์เรย์ นอกจากนี้ บางขั้นตอนยังกำหนดให้กำจัดจุดทั้งหมดที่มีค่าการแสดงออกต่ำกว่าเกณฑ์ความเข้มที่กำหนดไว้ด้วย

ดูเพิ่มเติม

ลิงก์ภายนอก

ArrayExplorer - เปรียบเทียบไมโครอาร์เรย์แบบเคียงข้างกัน เพื่อค้นหาตัวที่เหมาะสมที่สุดสำหรับความต้องการในการวิจัยของคุณ
FARMS - Factor Analysis for Robust Microarray Summarization, an R package —software
StatsArray - บริการวิเคราะห์ไมโครอาร์เรย์ออนไลน์ —ซอฟต์แวร์
ArrayMining.net - แอปพลิเคชันบนเว็บสำหรับการวิเคราะห์ข้อมูลไมโครอาร์เรย์แบบออนไลน์ —ซอฟต์แวร์
FunRich - ซอฟต์แวร์สำหรับการวิเคราะห์การเสริมคุณค่าของชุดยีน
การวิเคราะห์ทรานสคริปโตมิกส์เชิงเปรียบเทียบในโมดูลอ้างอิงในวิทยาศาสตร์ชีวภาพ
คำแนะนำในการดาวน์โหลด SAM
การวิเคราะห์การแสดงออกของยีนด้วย GeneChip® - หลักการพื้นฐานการวิเคราะห์ข้อมูล (โดย Affymetrix)
คู่มือพื้นฐานการวิเคราะห์ข้อมูลของ Duke

[ 2 ]

[ 3 ]

4

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]