ชีวสถิติ

ชีวสถิติ (บางครั้งเรียกว่าไบโอเมทรี ) เป็นสาขาหนึ่งของสถิติที่ประยุกต์ใช้วิธีการทางสถิติกับหัวข้อต่างๆ มากมายในวิทยาศาสตร์ชีวภาพโดยเน้นที่การแพทย์ทางคลินิกและการประยุกต์ใช้ด้านสาธารณสุข^{[ 1 ]} สาขานี้ครอบคลุมถึงการออกแบบการทดลอง การรวบรวมและการวิเคราะห์ข้อมูลจากการทดลองและการสังเกต และการตีความผลลัพธ์ มีความเกี่ยวข้องอย่างใกล้ชิดกับ สถิติ ทางการ แพทย์

ประวัติศาสตร์

สถิติชีวภาพและพันธุศาสตร์

การสร้างแบบจำลองทางสถิติชีวภาพเป็นส่วนสำคัญของทฤษฎีทางชีววิทยาสมัยใหม่จำนวนมาก การศึกษา พันธุศาสตร์ตั้งแต่เริ่มต้นได้ใช้แนวคิดทางสถิติเพื่อทำความเข้าใจผลการทดลองที่สังเกตได้ นักวิทยาศาสตร์ด้านพันธุศาสตร์บางคนยังได้มีส่วนร่วมในการพัฒนาทางสถิติด้วยการพัฒนาวิธีการและเครื่องมือต่างๆเกรกอร์ เมนเดลเริ่มการศึกษาพันธุศาสตร์โดยการตรวจสอบรูปแบบการแยกตัวทางพันธุกรรมในครอบครัวของถั่ว และใช้สถิติเพื่ออธิบายข้อมูลที่รวบรวมได้ ในช่วงต้นทศวรรษ 1900 หลังจากที่การค้นพบการถ่ายทอดทางพันธุกรรมแบบเมนเดลของเมนเดลได้รับการค้นพบอีกครั้ง ก็มีความเข้าใจที่ขาดหายไประหว่างพันธุศาสตร์และทฤษฎีวิวัฒนาการของดาร์วิน ฟรานซิส กัลตันพยายามขยายการค้นพบของเมนเดลด้วยข้อมูลของมนุษย์และเสนอแบบจำลองที่แตกต่างออกไป โดยมีสัดส่วนของการถ่ายทอดทางพันธุกรรมมาจากบรรพบุรุษแต่ละคนซึ่งประกอบเป็นอนุกรมอนันต์ เขาเรียกสิ่งนี้ว่าทฤษฎี "กฎแห่งการถ่ายทอดทางพันธุกรรมจากบรรพบุรุษ " แนวคิดของเขาถูกคัดค้านอย่างรุนแรงโดยวิลเลียม เบตสันซึ่งยึดถือข้อสรุปของเมนเดลที่ว่า การถ่ายทอดทางพันธุกรรมมาจากพ่อแม่เท่านั้น โดยครึ่งหนึ่งมาจากแต่ละคน สิ่งนี้ทำให้เกิดการถกเถียงอย่างดุเดือดระหว่างนักชีวสถิติที่สนับสนุนแนวคิดของกัลตัน เช่นราฟาเอล เวลดอน , อาร์เธอร์ ดูคินฟิลด์ ดาร์บิเชอร์และคาร์ล เพียร์สันกับนักทฤษฎีวิวัฒนาการของเมนเดลที่สนับสนุนแนวคิดของเบตสัน (และเมนเดล) เช่นชาร์ลส์ เดเวนพอร์ตและวิลเฮล์ม โยฮันเซนต่อมา นักชีวสถิติไม่สามารถทำซ้ำข้อสรุปของกัลตันได้ในการทดลองต่างๆ และแนวคิดของเมนเดลก็ได้รับชัยชนะ ในช่วงทศวรรษ 1930 แบบจำลองที่สร้างขึ้นบนพื้นฐานของเหตุผลทางสถิติได้ช่วยแก้ไขความแตกต่างเหล่านี้และก่อให้เกิดการสังเคราะห์วิวัฒนาการสมัยใหม่ แบบนีโอ - ดาร์วิน

การแก้ไขความแตกต่างเหล่านี้ยังช่วยให้สามารถกำหนดแนวคิดของพันธุศาสตร์ประชากรและเชื่อมโยงพันธุศาสตร์และวิวัฒนาการเข้าด้วยกันได้ บุคคลสำคัญทั้งสามในการก่อตั้งพันธุศาสตร์ประชากรและการสังเคราะห์นี้ล้วนอาศัยสถิติและพัฒนาการใช้งานในทางชีววิทยา

โรนัลด์ ฟิชเชอร์ทำงานร่วมกับนักสถิติ เบ็ตตี อัลลัน ในการพัฒนาวิธีการทางสถิติพื้นฐานหลายวิธีเพื่อสนับสนุนงานวิจัยของเขาเกี่ยวกับการทดลองพืชผลที่ศูนย์วิจัยรอธัมสเตด ซึ่ง ตีพิมพ์ในหนังสือของฟิชเชอร์เรื่องStatistical Methods for Research Workers (1925) และThe Genetical Theory of Natural Selection (1930) รวมถึงเอกสารทางวิทยาศาสตร์ของอัลลันด้วย^{[ 2 ]} ฟิชเชอร์ได้สร้างคุณูปการมากมายให้กับพันธุศาสตร์ และสถิติ บางส่วนได้แก่ANOVAแนวคิดค่า p การทดสอบที่แม่นยำของฟิชเชอร์และสมการของฟิชเชอร์สำหรับพลวัตของประชากรเขาได้รับการยกย่องว่าเป็นผู้กล่าวประโยคที่ว่า "การคัดเลือกโดยธรรมชาติเป็นกลไกในการสร้างระดับความน่าจะเป็นที่สูงมาก" ^{[ 3 ]}
Sewall G. Wrightเป็นผู้พัฒนาสถิติ Fและวิธีการคำนวณสถิติเหล่านั้น รวมถึงได้กำหนดค่าสัมประสิทธิ์การผสมพันธุ์ในสายเลือดเดียวกัน
หนังสือ " สาเหตุของวิวัฒนาการ " ของเจ.บี.เอส. ฮัลเดนได้ฟื้นฟูทฤษฎีการคัดเลือกโดยธรรมชาติให้เป็นกลไกหลักของวิวัฒนาการ โดยอธิบายในแง่ของผลลัพธ์ทางคณิตศาสตร์จากพันธุศาสตร์ของเมนเดล นอกจากนี้เขายังพัฒนาทฤษฎีซุปดั้งเดิม อีกด้วย

บุคคลเหล่านี้และนักสถิติชีวภาพ นักชีววิทยาเชิงคณิตศาสตร์และนักพันธุศาสตร์ที่สนใจด้านสถิติ ได้ช่วยกันรวบรวมชีววิทยาเชิงวิวัฒนาการและพันธุศาสตร์เข้าด้วยกันอย่างสอดคล้องและเป็นองค์รวม ซึ่งสามารถเริ่มสร้างแบบจำลอง เชิงปริมาณ ได้

ควบคู่ไปกับการพัฒนาโดยรวมนี้ งานบุกเบิกของD'Arcy Thompsonในหนังสือ On Growth and Formยังช่วยเพิ่มระเบียบวิธีเชิงปริมาณให้กับการศึกษาทางชีววิทยาอีกด้วย

แม้ว่าการใช้เหตุผลทางสถิติจะมีความสำคัญพื้นฐานและจำเป็นอย่างยิ่ง แต่นักชีววิทยาก็อาจมีแนวโน้มที่จะไม่ไว้วางใจหรือดูถูกผลลัพธ์ที่ไม่ ปรากฏชัดเจน ในเชิงคุณภาพเรื่องเล่าหนึ่งกล่าวถึงโทมัส ฮันต์ มอร์แกนที่สั่งห้ามใช้เครื่องคิดเลข Fridenในแผนกของเขาที่Caltechโดยกล่าวว่า "ผมก็เหมือนกับคนที่กำลังสำรวจหาทองคำตามริมฝั่งแม่น้ำแซคราเมนโตในปี 1849 ด้วยสติปัญญาเพียงเล็กน้อย ผมก็สามารถเอื้อมมือลงไปหยิบก้อนทองคำขนาดใหญ่ได้ และตราบใดที่ผมยังทำได้ ผมก็จะไม่ยอมให้ใครในแผนกของผมเสียทรัพยากรอันมีค่าไปกับการทำเหมืองแร่แบบเปิด " ^{[ 4 ]}

การวางแผนการวิจัย

งานวิจัยใดๆ ในสาขาวิทยาศาสตร์ชีวภาพมีจุดมุ่งหมายเพื่อตอบคำถามทางวิทยาศาสตร์ที่เราอาจมี เพื่อให้ได้คำตอบที่แน่ชัด เราจำเป็นต้องได้ ผลลัพธ์ ที่แม่นยำ การกำหนด สมมติฐานหลักและแผนการวิจัยที่ถูกต้องจะช่วยลดข้อผิดพลาดในการตัดสินใจเพื่อทำความเข้าใจปรากฏการณ์ แผนการวิจัยอาจรวมถึงคำถามวิจัย สมมติฐานที่จะทดสอบ การออกแบบการทดลองวิธีการเก็บรวบรวมข้อมูล มุมมอง การวิเคราะห์ข้อมูลและค่าใช้จ่ายที่เกี่ยวข้อง สิ่งสำคัญคือต้องดำเนินการศึกษาโดยยึดหลักการพื้นฐานสามประการของสถิติเชิงทดลอง ได้แก่การสุ่ม การทำซ้ำและการควบคุมเฉพาะที่

คำถามวิจัย

คำถามวิจัยจะกำหนดวัตถุประสงค์ของการศึกษา การวิจัยจะต้องนำโดยคำถาม ดังนั้นจึงต้องกระชับ ในขณะเดียวกันก็ต้องมุ่งเน้นไปที่หัวข้อที่น่าสนใจและแปลกใหม่ซึ่งอาจช่วยพัฒนาวิทยาศาสตร์และความรู้ในสาขานั้นได้ การกำหนดวิธีการตั้งคำถามทางวิทยาศาสตร์ อาจจำเป็นต้องมี การทบทวนวรรณกรรมอย่างละเอียดถี่ถ้วนดังนั้นการวิจัยจึงสามารถเป็นประโยชน์ในการเพิ่มคุณค่าให้กับชุมชนวิทยาศาสตร์ได้^{[ 5 ]}

นิยามสมมติฐาน

เมื่อกำหนดเป้าหมายของการศึกษาแล้ว ก็สามารถเสนอคำตอบที่เป็นไปได้สำหรับคำถามวิจัย โดยเปลี่ยนคำถามนี้ให้เป็นสมมติฐานข้อเสนอหลักเรียกว่าสมมติฐานว่าง (H₀ ₎และโดยทั่วไปจะอิงตามความรู้ถาวรเกี่ยวกับหัวข้อหรือการเกิดขึ้นที่ชัดเจนของปรากฏการณ์ ซึ่งได้รับการสนับสนุนจากการทบทวนวรรณกรรมอย่างละเอียด เราอาจกล่าวได้ว่ามันเป็นคำตอบมาตรฐานที่คาดหวังสำหรับข้อมูลภายใต้สถานการณ์ในการทดสอบโดยทั่วไป H₀ _จะถือว่าไม่มีความสัมพันธ์ระหว่างการรักษา ในทางกลับกันสมมติฐานทางเลือกคือการปฏิเสธ H₀ _โดยจะถือว่ามีความสัมพันธ์ในระดับหนึ่งระหว่างการรักษาและผลลัพธ์ แม้ว่าสมมติฐานจะได้รับการสนับสนุนจากคำถามวิจัยและคำตอบที่คาดหวังและไม่คาดหวังก็ตาม^{[ 5 ]}

ยกตัวอย่างเช่น พิจารณากลุ่มสัตว์ที่คล้ายคลึงกัน (เช่น หนู) ภายใต้ระบบอาหารสองแบบที่แตกต่างกัน คำถามวิจัยคือ: อาหารแบบไหนดีที่สุด? ในกรณีนี้ สมมติฐานหลัก (H₀ ₎คือไม่มีความแตกต่างระหว่างอาหารทั้งสองแบบในกระบวนการเผาผลาญ ของหนู (H₀ _: μ₁ ₌ μ₂ ₎และสมมติฐานทางเลือกคืออาหารทั้งสองแบบมีผลต่อกระบวนการเผาผลาญของสัตว์แตกต่างกัน ( _H₁ : _μ₁ ≠ _μ₂ )

สมมติฐานถูกกำหนดโดยนักวิจัยตามความสนใจของเขา/เธอในการตอบคำถามหลัก นอกจากนั้นสมมติฐานทางเลือก อาจมีมากกว่าหนึ่งสมมติฐาน และอาจไม่เพียงแต่คาดการณ์ความแตกต่างระหว่างพารามิเตอร์ที่สังเกตได้เท่านั้น แต่ยังรวม ถึงระดับความแตกต่างด้วย ( เช่นสูงกว่าหรือต่ำกว่า)

การสุ่มตัวอย่าง

โดยทั่วไป การศึกษาหนึ่ง ๆมักมีจุดมุ่งหมายเพื่อทำความเข้าใจผลกระทบของปรากฏการณ์หนึ่งๆ ต่อประชากรในทางชีววิทยาประชากรหมายถึงสิ่งมีชีวิต ทั้งหมดของ สายพันธุ์หนึ่งๆในพื้นที่เฉพาะ ณ เวลาใดเวลาหนึ่ง ในทางชีวสถิติ แนวคิดนี้ขยายไปสู่กลุ่มตัวอย่างที่หลากหลายที่สามารถศึกษาได้ แม้ว่าในทางชีวสถิติประชากรจะไม่ใช่แค่สิ่งมีชีวิตแต่ละตัวเท่านั้น แต่ยังรวมถึงส่วนประกอบทั้งหมดของสิ่งมีชีวิต นั้นๆ ด้วย เช่นจีโนม ทั้งหมด หรือเซลล์ สเปิร์มทั้งหมด สำหรับสัตว์ หรือพื้นที่ใบทั้งหมดสำหรับพืช เป็นต้น

ไม่สามารถวัดค่าจากทุกองค์ประกอบของประชากรได้ ด้วยเหตุนี้ กระบวนการ สุ่มตัวอย่างจึงมีความสำคัญมากสำหรับการอนุมานทางสถิติการสุ่มตัวอย่างหมายถึงการสุ่มเลือกส่วนที่เป็นตัวแทนของประชากรทั้งหมด เพื่อทำการอนุมานภายหลังเกี่ยวกับประชากร ดังนั้นตัวอย่าง อาจจับ ความแปรปรวนได้มากที่สุดในประชากร^{[ 6 ]}ขนาดตัวอย่างถูกกำหนดโดยหลายสิ่งหลายอย่าง ตั้งแต่ขอบเขตของการวิจัยไปจนถึงทรัพยากรที่มีอยู่ ในการวิจัยทางคลินิกประเภทของการทดลอง เช่นความด้อยกว่าความเท่าเทียมและความเหนือกว่าเป็นกุญแจสำคัญในการกำหนดขนาดตัวอย่าง^{[ 5 ]}

การออกแบบการทดลอง

การออกแบบการทดลองสนับสนุนหลักการพื้นฐานของสถิติการทดลองมีการออกแบบการทดลองพื้นฐานสามแบบเพื่อจัดสรรวิธีการทดลอง แบบสุ่มใน แปลงทดลองทั้งหมดได้แก่การออกแบบแบบสุ่มสมบูรณ์การออกแบบแบบบล็อกสุ่มและการออกแบบแบบแฟคทอเรียลสามารถจัดเรียงวิธีการทดลองได้หลายวิธี ในด้านการเกษตร การออกแบบการทดลองที่ถูกต้องเป็นรากฐานของการศึกษาที่ดี และการจัดเรียงวิธี การทดลองภายในงานวิจัยมีความสำคัญอย่างยิ่ง เนื่องจากสภาพแวดล้อมมีผลกระทบอย่างมากต่อแปลงทดลอง ( พืชสัตว์เลี้ยงจุลินทรีย์) การจัดเรียงหลักเหล่านี้สามารถพบได้ในเอกสารทางวิชาการภายใต้ชื่อ " แบบตาราง " "แบบบล็อกไม่สมบูรณ์" " แบบแปลงแยก " "แบบบล็อกเสริม" และอื่นๆ อีกมากมาย การออกแบบทั้งหมดอาจรวมถึงแปลงควบคุมซึ่งกำหนดโดยนักวิจัย เพื่อใช้ในการประมาณค่าความคลาดเคลื่อนระหว่างการสรุปผล

ในการศึกษาทางคลินิกตัวอย่าง มักจะมีขนาดเล็กกว่าในการศึกษาทางชีววิทยา ประเภทอื่น และในกรณีส่วนใหญ่ ผลกระทบ จากสิ่งแวดล้อมสามารถควบคุมหรือวัดได้ โดยทั่วไปมักใช้การทดลองทางคลินิกแบบสุ่มที่มีการควบคุมซึ่งผลลัพธ์มักจะถูกเปรียบเทียบกับ การออกแบบ การศึกษาเชิงสังเกตเช่นกรณีศึกษาและกลุ่มควบคุมหรือ การ ศึกษาแบบกลุ่ม^{[ 7 ]}

การเก็บรวบรวมข้อมูล

วิธีการเก็บรวบรวมข้อมูลต้องได้รับการพิจารณาในการวางแผนการวิจัย เนื่องจากมีอิทธิพลอย่างมากต่อขนาดของกลุ่มตัวอย่างและการออกแบบการทดลอง

การเก็บรวบรวมข้อมูลจะแตกต่างกันไปตามประเภทของข้อมูล สำหรับข้อมูลเชิงคุณภาพการเก็บรวบรวมข้อมูลสามารถทำได้โดยใช้แบบสอบถามที่มีโครงสร้างหรือโดยการสังเกต โดยพิจารณาจากการมีอยู่หรือความรุนแรงของโรค โดยใช้เกณฑ์คะแนนเพื่อจัดประเภทระดับของการเกิดขึ้น^{[ 8 ]}สำหรับข้อมูลเชิงปริมาณการเก็บรวบรวมข้อมูลจะทำโดยการวัดข้อมูลเชิงตัวเลขโดยใช้เครื่องมือ

ในการศึกษาด้านเกษตรกรรมและชีววิทยา ข้อมูลผลผลิตและองค์ประกอบต่างๆ สามารถหาได้จากการวัดเชิงปริมาณอย่างไรก็ตาม ความเสียหายจากศัตรูพืชและโรคในพืชได้มาจากการสังเกต โดยพิจารณาจากระดับความเสียหายโดยใช้มาตรวัดคะแนน โดยเฉพาะอย่างยิ่งในการศึกษาทางพันธุกรรม ควรพิจารณาใช้วิธีการเก็บรวบรวมข้อมูลที่ทันสมัยทั้งในภาคสนามและห้องปฏิบัติการ ซึ่งเป็นแพลตฟอร์มที่มีประสิทธิภาพสูงสำหรับการวิเคราะห์ลักษณะทางฟีโนไทป์และจีโนไทป์ เครื่องมือเหล่านี้ช่วยให้สามารถทำการทดลองขนาดใหญ่ขึ้นได้ ในขณะเดียวกันก็สามารถประเมินแปลงทดลองจำนวนมากได้ในเวลาที่น้อยกว่าวิธีการเก็บรวบรวมข้อมูลโดยมนุษย์เพียงอย่างเดียว สุดท้าย ข้อมูลที่น่าสนใจทั้งหมดที่รวบรวมได้จะต้องถูกจัดเก็บไว้ในกรอบข้อมูลที่เป็นระบบเพื่อการวิเคราะห์เพิ่มเติม

การวิเคราะห์และการตีความข้อมูล

เครื่องมือเชิงพรรณนา

ข้อมูลสามารถแสดงได้ในรูปแบบตารางหรือกราฟเช่น แผนภูมิเส้น แผนภูมิแท่ง ฮิสโตแกรม แผนภาพกระจาย นอกจากนี้มาตรวัดแนวโน้มส่วนกลางและความแปรปรวนยังเป็นประโยชน์อย่างมากในการอธิบายภาพรวมของข้อมูล ต่อไปนี้เป็นตัวอย่างบางส่วน:

ตารางความถี่

ตารางประเภทหนึ่งคือ ตาราง ความถี่ซึ่งประกอบด้วยข้อมูลที่จัดเรียงเป็นแถวและคอลัมน์ โดยความถี่คือจำนวนครั้งที่เกิดขึ้นหรือซ้ำกันของข้อมูล ความถี่อาจเป็น: ^{[ 9 ]}

ค่าสัมบูรณ์ : แสดงถึงจำนวนครั้งที่ค่าที่กำหนดปรากฏขึ้น

$N=f_{1}+f_{2}+f_{3}+...+f_{n}$

สัมพัทธ์ : ได้จากการหารความถี่สัมบูรณ์ด้วยจำนวนทั้งหมด;

$n_{i}={\frac {f_{i}}{N}}$

ในตัวอย่างถัดไป เราจะแสดงจำนวนยีนในโอเปรอน สิบชุด ของสิ่งมีชีวิตชนิดเดียวกัน

ยีน = {2,3,3,4,5,3,3,3,3,4}


จำนวนยีน	ความถี่สัมบูรณ์	ความถี่สัมพัทธ์
1	0	0
2	1	0.1
3	6	0.6
4	2	0.2
5	1	0.1

กราฟเส้น

กราฟเส้นแสดงถึงการเปลี่ยนแปลงของค่าหนึ่งเมื่อเทียบกับอีกค่าหนึ่ง เช่น เวลา โดยทั่วไป ค่าต่างๆ จะแสดงอยู่บนแกนตั้ง ในขณะที่การเปลี่ยนแปลงตามเวลาจะแสดงอยู่บนแกนนอน^{[ 11 ]}

แผนภูมิแท่ง

แผนภูมิแท่งเป็นกราฟที่แสดงข้อมูลเชิงหมวดหมู่เป็นแท่ง โดยแท่งแสดงความสูง (แท่งแนวตั้ง) หรือความกว้าง (แท่งแนวนอน) ที่มีสัดส่วนเพื่อแสดงค่า แผนภูมิแท่งให้ภาพที่สามารถแสดงในรูปแบบตารางได้เช่นกัน^{[ 11 ]}

ในตัวอย่างแผนภูมิแท่ง เรามีอัตราการเกิดในบราซิลสำหรับเดือนธันวาคมตั้งแต่ปี 2010 ถึง 2016 ^{[ 10 ]}การลดลงอย่างรวดเร็วในเดือนธันวาคม 2016 สะท้อนให้เห็นถึงการระบาดของไวรัสซิกาในอัตราการเกิดในบราซิล

ฮิสโตแกรม

ฮิสโตแกรม (หรือการแจกแจงความถี่) เป็นการแสดงข้อมูลในรูปแบบกราฟที่จัดเรียงและแบ่งออกเป็นคลาสที่สม่ำเสมอหรือไม่สม่ำเสมอ โดยKarl Pearsonเป็น ผู้นำเสนอเป็นครั้งแรก ^{[ 12 ]}

แผนภาพกระจาย

แผนภาพกระจายจุดเป็นแผนภาพทางคณิตศาสตร์ที่ใช้พิกัดคาร์ทีเซียนเพื่อแสดงค่าของชุดข้อมูล แผนภาพกระจายจุดแสดงข้อมูลเป็นชุดของจุด โดยแต่ละจุดแสดงค่าของตัวแปรหนึ่งตัวที่กำหนดตำแหน่งบนแกนแนวนอนและตัวแปรอีกตัวหนึ่งบนแกนแนวตั้ง^{[ 13 ]}เรียกอีกอย่างว่ากราฟกระจายจุดแผนภูมิกระจายจุด แผนภาพกระจายจุดหรือแผนภาพกระจายจุด^{[ 14 ]}

หมายถึง

ค่าเฉลี่ยเลขคณิตคือผลรวมของชุดค่า ( ) หารด้วยจำนวนรายการในชุดค่านี้ ( ) ${x_{1}+x_{2}+x_{3}+\cdots +x_{n}}$ ${n}$

{\bar {x}}={\frac {1}{n}}\left(\sum _{i=1}^{n}{x_{i}}\right)={\frac {x_{1}+x_{2}+\cdots +x_{n}}{n}}

ค่ามัธยฐาน

ค่ามัธยฐานคือค่าที่อยู่ตรงกลางของชุดข้อมูล

โหมด

โหมดคือค่าของชุดข้อมูลที่ปรากฏบ่อยที่สุด^{[ 15 ]}

การเปรียบเทียบค่าเฉลี่ย มัธยฐาน และฐานนิยม ค่า = { 2,3,3,3,3,3,4,4,11 }
พิมพ์	ตัวอย่าง	ผลลัพธ์
หมายถึง	( 2 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 11 ) / 9	4
ค่ามัธยฐาน	2, 3, 3, 3, 3 , 3, 4, 4, 11	3
โหมด	2, 3, 3, 3, 3, 3 , 4, 4, 11	3

แผนภาพกล่อง

แผนภาพกล่อง (Box plot ) เป็นวิธีการแสดงข้อมูลเชิงตัวเลขเป็นกลุ่มๆ ด้วยกราฟ โดยเส้นจะแสดงค่าสูงสุดและต่ำสุด ส่วนช่วงควาร์ไทล์ (IQR) จะแสดงค่า 25–75% ของข้อมูลทั้งหมด และวงกลมจะแสดงค่าผิดปกติ ( Outliers )

สัมประสิทธิ์สหสัมพันธ์

แม้ว่าความสัมพันธ์ระหว่างข้อมูลสองประเภทที่แตกต่างกันจะสามารถอนุมานได้จากกราฟ เช่น แผนภาพกระจาย แต่จำเป็นต้องตรวจสอบความถูกต้องด้วยข้อมูลเชิงตัวเลข ด้วยเหตุนี้จึง ต้องใช้ สัมประสิทธิ์สหสัมพันธ์ซึ่งให้ค่าตัวเลขที่สะท้อนถึงความแข็งแกร่งของความสัมพันธ์^{[ 11 ]}

สัมประสิทธิ์สหสัมพันธ์เพียร์สัน

สัมประสิทธิ์สหสัมพันธ์เพียร์สันเป็นการวัดความสัมพันธ์ระหว่างตัวแปรสองตัว X และ Y สัมประสิทธิ์นี้มักจะแทนด้วยρ (โร) สำหรับประชากรและrสำหรับตัวอย่าง โดยมีค่าอยู่ระหว่าง -1 ถึง 1 โดยที่ρ = 1 แสดงถึงความสัมพันธ์เชิงบวกที่สมบูรณ์แบบρ = -1 แสดงถึงความสัมพันธ์เชิงลบที่สมบูรณ์แบบ และρ = 0 คือไม่มีความสัมพันธ์เชิงเส้น^{[ 11 ]}

สถิติเชิงอนุมาน

ใช้เพื่อทำการอนุมาน^{[ 16 ]}เกี่ยวกับประชากรที่ไม่รู้จัก โดยการประมาณค่าและ/หรือการทดสอบสมมติฐาน กล่าวอีกนัยหนึ่งคือ เป็นที่พึงปรารถนาที่จะได้รับพารามิเตอร์เพื่ออธิบายประชากรที่สนใจ แต่เนื่องจากข้อมูลมีจำกัด จึงจำเป็นต้องใช้ตัวอย่างที่เป็นตัวแทนเพื่อประมาณค่าพารามิเตอร์เหล่านั้น ด้วยวิธีนี้ จึงสามารถทดสอบสมมติฐานที่กำหนดไว้ก่อนหน้านี้และนำข้อสรุปไปใช้กับประชากรทั้งหมดได้ ค่าความคลาดเคลื่อนมาตรฐานของค่าเฉลี่ยเป็นการวัดความแปรปรวนที่สำคัญต่อการทำอนุมาน^{[ 6 ]}

การทดสอบสมมติฐาน

การทดสอบสมมติฐานเป็นสิ่งจำเป็นสำหรับการอนุมานเกี่ยวกับประชากรที่มุ่งตอบคำถามการวิจัย ดังที่ได้กำหนดไว้ในส่วน "การวางแผนการวิจัย" ผู้เขียนได้กำหนดขั้นตอนสี่ขั้นตอนที่จะต้องดำเนินการ: ^{[ 6 ]}

สมมติฐานที่จะทดสอบ : ดังที่กล่าวไว้ก่อนหน้านี้ เราต้องทำงานกับคำจำกัดความของสมมติฐานว่าง (H₀ ₎ซึ่งจะถูกทดสอบ และสมมติฐานทางเลือกแต่สมมติฐานเหล่านี้ต้องกำหนดไว้ก่อนที่จะดำเนินการทดลอง
ระดับนัยสำคัญและกฎการตัดสินใจ : กฎการตัดสินใจขึ้นอยู่กับระดับนัยสำคัญหรือกล่าวอีกนัยหนึ่งคือ อัตราความคลาดเคลื่อนที่ยอมรับได้ (α) อาจเข้าใจได้ง่ายกว่าหากเรากำหนดค่าวิกฤตที่บ่งชี้ถึงนัยสำคัญทางสถิติเมื่อ เปรียบเทียบ ค่าสถิติทดสอบกับค่าวิกฤตนั้น ดังนั้น α จึงต้องกำหนดไว้ล่วงหน้าก่อนการทดลองด้วย
การทดลองและการวิเคราะห์ทางสถิติ : ขั้นตอนนี้คือการดำเนินการทดลองจริงตามแผนการทดลอง ที่เหมาะสม การเก็บรวบรวมข้อมูล และการประเมินผลด้วยการทดสอบทางสถิติที่เหมาะสมที่สุด
การอนุมาน : เกิดขึ้นเมื่อสมมติฐานว่างถูกปฏิเสธหรือไม่ถูกปฏิเสธ โดยพิจารณาจากหลักฐานที่ได้จากการเปรียบเทียบค่า pและ α ข้อสังเกตคือ การไม่ปฏิเสธ H₀ _{หมายความ}ว่ามีหลักฐานไม่เพียงพอที่จะสนับสนุนการปฏิเสธ แต่ไม่ได้หมายความว่าสมมติฐานนั้นเป็นจริง

ช่วงความเชื่อมั่น

ช่วงความเชื่อมั่นคือช่วงของค่าที่สามารถบรรจุค่าพารามิเตอร์จริงได้ โดยกำหนดระดับความเชื่อมั่นที่แน่นอน ขั้นตอนแรกคือการประมาณค่าประมาณที่ไม่เอนเอียงที่ดีที่สุดของพารามิเตอร์ประชากร ค่าสูงสุดของช่วงจะได้รับจากการรวมค่าประมาณนี้กับการคูณระหว่างค่าความคลาดเคลื่อนมาตรฐานของค่าเฉลี่ยและระดับความเชื่อมั่น การคำนวณค่าต่ำสุดจะคล้ายกัน แต่แทนที่จะบวก จะต้องใช้การลบ^{[ 6 ]}

การพิจารณาทางสถิติ

กำลังและความคลาดเคลื่อนทางสถิติ

ในการทดสอบสมมติฐาน มีข้อผิดพลาดทางสถิติที่เป็นไปได้สองประเภท ได้แก่ข้อผิดพลาดประเภทที่ 1และ ข้อผิด พลาด ประเภทที่ 2

ความผิดพลาดประเภทที่ 1 หรือผลบวกเท็จคือการปฏิเสธสมมติฐานว่างที่เป็นจริงอย่างไม่ถูกต้อง
ความผิดพลาดประเภทที่ 2 หรือผลลบเท็จคือการไม่ปฏิเสธสมมติฐานว่าง ที่ ผิด พลาด

ระดับนัยสำคัญที่แสดงด้วย α คืออัตราความผิดพลาดประเภทที่ 1 และควรเลือกก่อนทำการทดสอบ อัตราความผิดพลาดประเภทที่ 2 แสดงด้วย β และกำลังทางสถิติของการทดสอบคือ 1 − β

ค่า p

ค่าpคือความน่าจะเป็นของการได้ผลลัพธ์ที่รุนแรงเท่ากับหรือรุนแรงกว่าผลลัพธ์ที่สังเกตได้ โดยถือว่าสมมติฐานว่าง (H ₀ ) เป็นจริง เรียกอีกอย่างว่าความน่าจะเป็นที่คำนวณได้ เป็นเรื่องปกติที่จะสับสนระหว่างค่า p กับระดับนัยสำคัญ (α)แต่ α เป็นเกณฑ์ที่กำหนดไว้ล่วงหน้าสำหรับการเรียกผลลัพธ์ที่มีนัยสำคัญ หาก p น้อยกว่า α สมมติฐานว่าง (H ₀ ) จะถูกปฏิเสธ^{[ 17 ]}

การทดสอบหลายครั้ง

ในการทดสอบสมมติฐานเดียวกันหลายครั้ง ความน่าจะเป็นของการเกิดผลบวกเท็จ (อัตราความผิดพลาดแบบครอบคลุมทั้งกลุ่ม)จะเพิ่มขึ้น และจำเป็นต้องมีกลยุทธ์เพื่อรับมือกับการเกิดเหตุการณ์นี้ โดยทั่วไปแล้วจะทำได้โดยการใช้เกณฑ์ที่เข้มงวดมากขึ้นในการปฏิเสธสมมติฐานว่างการแก้ไขแบบบอนเฟอร์โรนี (Bonferroni correction)กำหนดระดับนัยสำคัญโดยรวมที่ยอมรับได้ ซึ่งแสดงด้วย α* และการทดสอบแต่ละครั้งจะถูกเปรียบเทียบกับค่า α = α*/m ทีละรายการ วิธีนี้ทำให้มั่นใจได้ว่าอัตราความผิดพลาดแบบครอบคลุมทั้งกลุ่มในการทดสอบทั้ง m ครั้ง จะน้อยกว่าหรือเท่ากับ α* เมื่อ m มีค่ามาก การแก้ไขแบบบอนเฟอร์โรนีอาจเข้มงวดเกินไป ทางเลือกอื่นนอกเหนือจากการแก้ไขแบบบอนเฟอร์โรนีคือการควบคุมอัตราการค้นพบเท็จ (FDR) FDR ควบคุมสัดส่วนที่คาดหวังของสมมติฐานว่าง ที่ถูกปฏิเสธ (ที่เรียกว่าการค้นพบ) ที่เป็นเท็จ (การปฏิเสธที่ไม่ถูกต้อง) ขั้นตอนนี้ทำให้มั่นใจได้ว่าสำหรับการทดสอบที่เป็นอิสระ อัตราการค้นพบเท็จจะมีค่าไม่เกิน q* ดังนั้น FDR จึงมีความอนุรักษ์น้อยกว่าการแก้ไข Bonferroni และมีประสิทธิภาพมากกว่า โดยแลกกับการเกิดผลบวกเท็จมากขึ้น^{[ 18 ]}

การตรวจสอบความคลาดเคลื่อนของข้อกำหนดและความทนทาน

สมมติฐานหลักที่กำลังทดสอบ (เช่น ไม่มีความสัมพันธ์ระหว่างการรักษาและผลลัพธ์) มักจะมาพร้อมกับสมมติฐานทางเทคนิคอื่นๆ (เช่น เกี่ยวกับรูปแบบของการกระจายความน่าจะเป็นของผลลัพธ์) ซึ่งเป็นส่วนหนึ่งของสมมติฐานว่างด้วย เมื่อสมมติฐานทางเทคนิคถูกละเมิดในทางปฏิบัติ สมมติฐานว่างอาจถูกปฏิเสธบ่อยครั้งแม้ว่าสมมติฐานหลักจะเป็นจริงก็ตาม การปฏิเสธดังกล่าวเรียกว่าเกิดจากการกำหนดแบบจำลองผิดพลาด^{[ 19 ]}การตรวจสอบว่าผลลัพธ์ของการทดสอบทางสถิติไม่เปลี่ยนแปลงเมื่อสมมติฐานทางเทคนิคถูกเปลี่ยนแปลงเล็กน้อย (ที่เรียกว่าการตรวจสอบความแข็งแกร่ง) เป็นวิธีหลักในการต่อสู้กับการกำหนดแบบจำลองผิดพลาด

เกณฑ์การคัดเลือกแบบจำลอง

เกณฑ์การเลือกแบบจำลองจะเลือกหรือสร้างแบบจำลองที่ใกล้เคียงกับแบบจำลองที่แท้จริงมากที่สุดเกณฑ์สารสนเทศของอะไคเกะ (AIC)และเกณฑ์สารสนเทศของเบย์เซียน (BIC)เป็นตัวอย่างของเกณฑ์ที่มีประสิทธิภาพเชิงอะซิมโทติก

การพัฒนาและข้อมูลขนาดใหญ่

ความก้าวหน้าล่าสุดส่งผลกระทบอย่างมากต่อสถิติชีวภาพ การเปลี่ยนแปลงที่สำคัญสองประการคือ ความสามารถในการเก็บรวบรวมข้อมูลในปริมาณมาก และความสามารถในการวิเคราะห์ที่ซับซ้อนมากขึ้นโดยใช้เทคนิคการคำนวณ ซึ่งมาจากการพัฒนาในด้านต่างๆ เช่นเทคโนโลยีการจัดลำดับ ดีเอ็นเอ ชีวสารสนเทศและการเรียนรู้ของเครื่อง ( การเรียนรู้ของเครื่องในชีวสารสนเทศ )

ใช้ในการประมวลผลข้อมูลปริมาณมาก

เทคโนโลยีชีวการแพทย์ใหม่ๆ เช่นไมโครอาร์เรย์เครื่องจัดลำดับรุ่นต่อไป (สำหรับจีโนมิกส์) และแมสสเปกโทรเมตรี (สำหรับโปรตีโอมิกส์) สร้างข้อมูลจำนวนมหาศาล ทำให้สามารถทำการทดสอบได้พร้อมกันหลายรายการ^{[ 20 ]}จำเป็นต้องมีการวิเคราะห์อย่างละเอียดด้วยวิธีการทางสถิติชีวภาพเพื่อแยกสัญญาณออกจากสัญญาณรบกวน ตัวอย่างเช่น ไมโครอาร์เรย์สามารถใช้ในการวัดยีนหลายพันตัวพร้อมกัน เพื่อตรวจสอบว่ายีนใดมีการแสดงออกที่แตกต่างกันในเซลล์ที่เป็นโรคเมื่อเทียบกับเซลล์ปกติ อย่างไรก็ตาม จะมีเพียงยีนบางส่วนเท่านั้นที่มีการแสดงออกแตกต่างกัน^{[ 21 ]}

ปัญหาความสัมพันธ์เชิงเส้นร่วมกัน (Multicollinearity)มักเกิดขึ้นในการวิเคราะห์ทางสถิติชีวภาพที่มีปริมาณข้อมูลสูง เนื่องจากมีความสัมพันธ์กันสูงระหว่างตัวแปรทำนาย (เช่น ระดับ การแสดงออกของยีน ) ข้อมูลของตัวแปรทำนายหนึ่งอาจถูกบรรจุอยู่ในตัวแปรทำนายอื่น อาจเป็นไปได้ว่าตัวแปรทำนายเพียง 5% รับผิดชอบต่อความแปรปรวนของตัวแปรตอบสนองถึง 90% ในกรณีเช่นนี้ อาจใช้วิธีการทางสถิติชีวภาพในการลดมิติ (เช่น ผ่านการวิเคราะห์องค์ประกอบหลัก) เทคนิคทางสถิติแบบดั้งเดิม เช่นการถดถอยเชิงเส้นหรือโลจิสติกและการวิเคราะห์จำแนกเชิงเส้นไม่ได้ผลดีกับข้อมูลที่มีมิติสูง (เช่น เมื่อจำนวนการสังเกต n น้อยกว่าจำนวนคุณลักษณะหรือตัวแปรทำนาย p: n < p) ที่จริงแล้ว อาจได้ค่า R² ที่ค่อนข้างสูง^{แม้ว่า}พลังการทำนายของแบบจำลองทางสถิติจะต่ำมากก็ตาม เทคนิคทางสถิติแบบดั้งเดิมเหล่านี้ (โดยเฉพาะ การถดถอยเชิงเส้น กำลังสองน้อยที่สุด ) ถูกพัฒนาขึ้นสำหรับข้อมูลที่มีมิติต่ำ (เช่น เมื่อจำนวนการสังเกต n มากกว่าจำนวนตัวแปรทำนาย p มาก: n >> p) ในกรณีที่มีมิติสูง ควรพิจารณาชุดทดสอบการตรวจสอบความถูกต้องที่เป็นอิสระเสมอ และผลรวมกำลังสองของส่วนเหลือ (RSS) และค่า R² ^ของชุดทดสอบการตรวจสอบความถูกต้องนั้น ไม่ใช่ค่าของชุดฝึกฝน

บ่อยครั้ง การรวบรวมข้อมูลจากตัวทำนายหลายตัวเข้าด้วยกันนั้นมีประโยชน์ ตัวอย่างเช่นการวิเคราะห์การเสริมคุณค่าชุดยีน (GSEA) พิจารณาการเปลี่ยนแปลงของชุดยีนทั้งหมด (ที่เกี่ยวข้องกับการทำงาน) แทนที่จะเป็นยีนเดี่ยว^{[ 22 ]}ชุดยีนเหล่านี้อาจเป็นวิถีทางชีวเคมีที่รู้จักหรือยีนที่เกี่ยวข้องกับการทำงานอื่นๆ ข้อดีของวิธีการนี้คือมีความแข็งแกร่งกว่า กล่าวคือ มีโอกาสมากกว่าที่ยีนเดี่ยวจะถูกพบว่ามีการเปลี่ยนแปลงอย่างผิดพลาด มากกว่าที่วิถีทางทั้งหมดจะถูกเปลี่ยนแปลงอย่างผิดพลาด นอกจากนี้ เรายังสามารถบูรณาการความรู้ที่สะสมเกี่ยวกับวิถีทางชีวเคมี (เช่นวิถีการส่งสัญญาณ JAK-STAT ) โดยใช้วิธีการนี้ ได้อีกด้วย

ความก้าวหน้าของชีวสารสนเทศในด้านฐานข้อมูล การวิเคราะห์ข้อมูล และการตีความทางชีววิทยา

การพัฒนาฐานข้อมูลทางชีววิทยาทำให้สามารถจัดเก็บและจัดการข้อมูลทางชีววิทยาได้ โดยมีความเป็นไปได้ที่จะรับประกันการเข้าถึงสำหรับผู้ใช้ทั่วโลก ฐานข้อมูลเหล่านี้มีประโยชน์สำหรับนักวิจัยในการฝากข้อมูล ดึงข้อมูลและไฟล์ (ดิบหรือประมวลผลแล้ว) ที่มาจากการทดลองอื่น ๆ หรือจัดทำดัชนีบทความทางวิทยาศาสตร์ เช่นPubMedอีกความเป็นไปได้หนึ่งคือการค้นหาคำที่ต้องการ (ยีน โปรตีน โรค สิ่งมีชีวิต เป็นต้น) และตรวจสอบผลลัพธ์ทั้งหมดที่เกี่ยวข้องกับการค้นหานี้ มีฐานข้อมูลที่อุทิศให้กับSNP ( dbSNP ) ความรู้เกี่ยวกับลักษณะเฉพาะของยีนและวิถีของยีน ( KEGG ) และคำอธิบายของหน้าที่ของยีนโดยจำแนกตามส่วนประกอบของเซลล์ หน้าที่ของโมเลกุล และกระบวนการทางชีววิทยา ( Gene Ontology ) ^{[ 23 ]}นอกจากฐานข้อมูลที่ประกอบด้วยข้อมูลโมเลกุลเฉพาะแล้ว ยังมีฐานข้อมูลอื่น ๆ ที่กว้างขวางในแง่ที่ว่ามันจัดเก็บข้อมูลเกี่ยวกับสิ่งมีชีวิตหรือกลุ่มของสิ่งมีชีวิต ตัวอย่างของฐานข้อมูลที่มุ่งเน้นไปที่สิ่งมีชีวิตเพียงชนิดเดียว แต่มีข้อมูลมากมายเกี่ยวกับสิ่งมีชีวิตนั้น คือ ฐานข้อมูลทางพันธุกรรมและโมเลกุลของ Arabidopsis thaliana – TAIR ^{[ 24 ]} Phytozome ^{[ 25 ]}ในทางกลับกัน จะจัดเก็บไฟล์การประกอบและคำอธิบายประกอบของจีโนมพืชหลายสิบรายการ รวมถึงเครื่องมือการแสดงภาพและการวิเคราะห์ด้วย ยิ่งไปกว่านั้น ยังมีการเชื่อมต่อระหว่างฐานข้อมูลบางแห่งในการแลกเปลี่ยน/แบ่งปันข้อมูล และโครงการริเริ่มที่สำคัญคือInternational Nucleotide Sequence Database Collaboration (INSDC) ^{[ 26 ]}ซึ่งเชื่อมโยงข้อมูลจาก DDBJ ^{[ 27 ]} EMBL-EBI ^{[ 28 ]}และ NCBI ^{[ 29 ]}

ในปัจจุบัน การเพิ่มขนาดและความซับซ้อนของชุดข้อมูลโมเลกุลนำไปสู่การใช้วิธีการทางสถิติที่มีประสิทธิภาพซึ่งจัดหาโดยอัลกอริธึมวิทยาศาสตร์คอมพิวเตอร์ที่พัฒนาโดย สาขา การเรียนรู้ของเครื่องดังนั้น การขุดข้อมูลและการเรียนรู้ของเครื่องจึงช่วยให้สามารถตรวจจับรูปแบบในข้อมูลที่มีโครงสร้างซับซ้อน เช่น ข้อมูลทางชีววิทยา โดยใช้วิธีการ เรียนรู้แบบ มีผู้กำกับดูแลและไม่มีผู้กำกับดูแลการถดถอย การตรวจจับคลัสเตอร์และการขุดกฎความสัมพันธ์เป็นต้น^{[ 23 ]}เพื่อระบุบางส่วนแผนที่จัดระเบียบตนเองและk -meansเป็นตัวอย่างของอัลกอริธึมคลัสเตอร์ การใช้งาน เครือข่ายประสาทเทียมและ แบบจำลอง เครื่องเวกเตอร์สนับสนุนเป็นตัวอย่างของอัลกอริธึมการเรียนรู้ของเครื่องทั่วไป

การทำงานร่วมกันระหว่างนักชีววิทยาโมเลกุล นักชีวสารสนเทศ นักสถิติ และนักวิทยาศาสตร์คอมพิวเตอร์มีความสำคัญต่อการทำการทดลองอย่างถูกต้อง โดยเริ่มตั้งแต่การวางแผน การสร้างและการวิเคราะห์ข้อมูล ไปจนถึงการตีความผลลัพธ์ทางชีววิทยา^{[ 23 ]}

การใช้วิธีการที่ต้องใช้การคำนวณอย่างหนัก

ในทางกลับกัน การเกิดขึ้นของเทคโนโลยีคอมพิวเตอร์สมัยใหม่และทรัพยากรการคำนวณที่มีราคาค่อนข้างถูก ทำให้สามารถนำวิธีการทางสถิติชีวภาพที่ต้องใช้การคำนวณอย่างหนักมาใช้ได้ เช่นวิธี การบูตสแตรปและการสุ่มตัวอย่างซ้ำ

ในปัจจุบันRandom Forestsได้รับความนิยมมากขึ้นในฐานะวิธีการจัดกลุ่มทางสถิติเทคนิค Random Forests สร้างแผงของต้นไม้ตัดสินใจ ต้นไม้ตัดสินใจมีข้อดีคือสามารถวาดและตีความได้ (แม้จะมีความเข้าใจพื้นฐานทางคณิตศาสตร์และสถิติ) ดังนั้น Random Forests จึงถูกนำมาใช้ในระบบสนับสนุนการตัดสินใจทางคลินิก^{[ 30 ]}

แอปพลิเคชัน

สาธารณสุข

สาธารณสุขรวมถึงระบาดวิทยาการวิจัยบริการสุขภาพโภชนาการสุขภาพสิ่งแวดล้อมและนโยบายและการจัดการด้านการดูแลสุขภาพ ในเนื้อหาทางการแพทย์เหล่านี้สิ่ง สำคัญคือต้องพิจารณาการออกแบบและการวิเคราะห์การทดลองทางคลินิกตัวอย่างเช่น การประเมินระดับความรุนแรงของผู้ป่วยและการพยากรณ์ผลลัพธ์ของโรค

ด้วยเทคโนโลยีใหม่และความรู้ทางพันธุศาสตร์ ปัจจุบันสถิติชีวภาพยังถูกนำมาใช้ในเวชศาสตร์ระบบซึ่งประกอบด้วยเวชศาสตร์เฉพาะบุคคลมากขึ้น เพื่อการนี้ จึงมีการบูรณาการข้อมูลจากแหล่งต่างๆ รวมถึงข้อมูลผู้ป่วยทั่วไป พารามิเตอร์ทางคลินิกและพยาธิวิทยา ข้อมูลโมเลกุลและพันธุกรรม ตลอดจนข้อมูลที่สร้างขึ้นจากเทคโนโลยีโอไมซ์ใหม่เพิ่มเติม^{[ 31 ]}

พันธุศาสตร์เชิงปริมาณ

การศึกษาพันธุศาสตร์ประชากรและพันธุศาสตร์เชิงสถิติเพื่อเชื่อมโยงความแปรผันในจีโนไทป์กับความแปรผันในฟีโนไทป์กล่าวอีกนัยหนึ่งคือ เป็นที่พึงปรารถนาที่จะค้นพบพื้นฐานทางพันธุกรรมของลักษณะที่วัดได้ ซึ่งเป็นลักษณะเชิงปริมาณที่อยู่ภายใต้การควบคุมของยีนหลายตัว บริเวณจีโนมที่รับผิดชอบต่อลักษณะต่อเนื่องเรียกว่าตำแหน่งลักษณะเชิงปริมาณ (QTL) การศึกษา QTL เป็นไปได้โดยใช้เครื่องหมายโมเลกุลและการวัดลักษณะในประชากร แต่การทำแผนที่จำเป็นต้องได้รับประชากรจากการผสมพันธุ์ทดลอง เช่น F2 หรือ สาย พันธุ์/สายผสมแบบรีคอมบิแนนท์ (RILs) เพื่อสแกนหาบริเวณ QTL ในจีโนม จำเป็นต้องสร้าง แผนที่ยีนโดยอิงจากการเชื่อมโยง อัลกอริทึมการทำแผนที่ QTL ที่เป็นที่รู้จักดีที่สุดบางส่วน ได้แก่ การทำแผนที่ช่วง การทำแผนที่ช่วงแบบผสม และการทำแผนที่ช่วงหลายช่วง^{[ 32 ]}

อย่างไรก็ตาม ความละเอียดของการทำแผนที่ QTL จะลดลงเนื่องจากปริมาณการรวมตัวใหม่ที่ทดสอบ ซึ่งเป็นปัญหาสำหรับสายพันธุ์ที่ยากต่อการได้ลูกหลานจำนวนมาก นอกจากนี้ ความหลากหลายของอัลลีลยังจำกัดอยู่เฉพาะบุคคลที่มาจากพ่อแม่ที่แตกต่างกัน ซึ่งจำกัดการศึกษาความหลากหลายของอัลลีลเมื่อเรามีกลุ่มบุคคลที่เป็นตัวแทนของประชากรตามธรรมชาติ^{[ 33 ]}ด้วยเหตุนี้ จึง มีการเสนอ การศึกษาการเชื่อมโยงทั่วทั้งจีโนมเพื่อระบุ QTL โดยอาศัยความไม่สมดุลของการเชื่อมโยงนั่นคือ การเชื่อมโยงที่ไม่เป็นแบบสุ่มระหว่างลักษณะและเครื่องหมายโมเลกุล โดยใช้ประโยชน์จากการพัฒนาการ ตรวจหา จีโนไทป์SNP ที่มีความเร็วสูง ^{[ 34 ]}

ใน การปรับปรุงพันธุ์ สัตว์และพืชการใช้เครื่องหมายในการคัดเลือกเพื่อการปรับปรุงพันธุ์ โดยเฉพาะเครื่องหมายระดับโมเลกุล ได้ช่วยส่งเสริมการพัฒนาการคัดเลือกโดยใช้เครื่องหมายช่วยในขณะที่การทำแผนที่ QTL มีข้อจำกัดด้านความละเอียด GWAS ก็ไม่มีประสิทธิภาพเพียงพอเมื่อพบตัวแปรที่หายากซึ่งมีผลกระทบเล็กน้อยและได้รับอิทธิพลจากสิ่งแวดล้อมด้วย ดังนั้น แนวคิดของการคัดเลือกทางจีโนม (Genomic Selection: GS) จึงเกิดขึ้นเพื่อใช้เครื่องหมายระดับโมเลกุลทั้งหมดในการคัดเลือกและช่วยให้สามารถทำนายประสิทธิภาพของผู้สมัครในการคัดเลือกนี้ได้ ข้อเสนอคือการกำหนดจีโนไทป์และฟีโนไทป์ของประชากรฝึกอบรม พัฒนาแบบจำลองที่สามารถหาค่าประมาณการทางพันธุกรรม (GEBVs) ของแต่ละบุคคลที่อยู่ในประชากรที่มีจีโนไทป์แต่ไม่มีฟีโนไทป์ เรียกว่าประชากรทดสอบ^{[ 35 ]}การศึกษาประเภทนี้อาจรวมถึงประชากรตรวจสอบความถูกต้อง โดยคิดในแนวคิดของการตรวจสอบแบบไขว้ (cross-validation ) ซึ่งผลลัพธ์ฟีโนไทป์จริงที่วัดได้ในประชากรนี้จะถูกเปรียบเทียบกับผลลัพธ์ฟีโนไทป์ตามการทำนาย ซึ่งใช้ในการตรวจสอบความถูกต้องของแบบจำลอง

โดยสรุปแล้ว ประเด็นสำคัญเกี่ยวกับการประยุกต์ใช้พันธุศาสตร์เชิงปริมาณมีดังนี้:

เทคนิคนี้ถูกนำมาใช้ในภาคเกษตรกรรมเพื่อปรับปรุงพันธุ์พืช ( การปรับปรุงพันธุ์พืช ) และปศุสัตว์ ( การปรับปรุงพันธุ์สัตว์ )
ในการวิจัยทางชีวการแพทย์ งานวิจัยนี้สามารถช่วยค้นหาอัลลีล ของยีน ที่อาจก่อให้เกิดหรือมีอิทธิพลต่อความเสี่ยงต่อการเกิดโรคในพันธุศาสตร์ของมนุษย์ ได้

ข้อมูลการแสดงออก

การศึกษาการแสดงออกของยีนที่แตกต่างกันจากข้อมูลRNA-Seq เช่นเดียวกับ RT-qPCRและไมโครอาร์เรย์จำเป็นต้องเปรียบเทียบสภาวะต่างๆ เป้าหมายคือการระบุยีนที่มีการเปลี่ยนแปลงปริมาณอย่างมีนัยสำคัญระหว่างสภาวะต่างๆ จากนั้นจึงออกแบบการทดลองอย่างเหมาะสม โดยมีการทำซ้ำสำหรับแต่ละสภาวะ/การรักษา การสุ่ม และการแบ่งกลุ่มเมื่อจำเป็น ใน RNA-Seq การหาปริมาณการแสดงออกใช้ข้อมูลของลำดับที่จับคู่ซึ่งสรุปไว้ในหน่วยทางพันธุกรรมบางอย่าง เช่นเอ็กซอนซึ่งเป็นส่วนหนึ่งของลำดับยีน เนื่องจาก ผลลัพธ์ ของไมโครอาร์เรย์สามารถประมาณได้ด้วยการแจกแจงแบบปกติ ข้อมูลการนับ RNA-Seq จึงอธิบายได้ดีกว่าด้วยการแจกแจงอื่นๆ การแจกแจงที่ใช้ครั้งแรกคือการแจกแจงปัวซง แต่ประเมินความคลาดเคลื่อนของตัวอย่างต่ำเกินไป ทำให้เกิดผลบวกเท็จ ปัจจุบัน ความแปรปรวนทางชีวภาพถูกพิจารณาโดยวิธีการที่ประมาณค่าพารามิเตอร์การกระจายของการแจกแจงทวินามเชิงลบแบบจำลองเชิงเส้นทั่วไปถูกใช้เพื่อทำการทดสอบความสำคัญทางสถิติ และเนื่องจากจำนวนยีนมีมาก จึงต้องพิจารณาการแก้ไขการทดสอบหลายครั้ง^{[ 36 ]}ตัวอย่างอื่นๆ ของการวิเคราะห์ ข้อมูล จีโนมิกส์มาจากการทดลอง ไมโครอาร์เรย์หรือ โปรตีโอมิกส์^{[ 37 ]}^{[ 38 ]}มักเกี่ยวข้องกับโรคหรือระยะของโรค^{[ 39 ]}

การศึกษาอื่นๆ

นิเวศวิทยา การพยากรณ์ ทางนิเวศวิทยา
การวิเคราะห์ลำดับทางชีววิทยา^{[ 40 ]}
ชีววิทยาระบบสำหรับการอนุมานเครือข่ายยีนหรือการวิเคราะห์เส้นทาง^{[ 41 ]}
การวิจัยทางคลินิกและการพัฒนายา
พลวัตของประชากรโดยเฉพาะอย่างยิ่งในด้านวิทยาศาสตร์การประมง
พันธุศาสตร์เชิงวิวัฒนาการและวิวัฒนาการ
เภสัชพลศาสตร์
เภสัชจลนศาสตร์
การถ่ายภาพระบบประสาท

เครื่องมือ

มีเครื่องมือมากมายที่สามารถใช้ในการวิเคราะห์ทางสถิติกับข้อมูลทางชีววิทยา เครื่องมือส่วนใหญ่มีประโยชน์ในสาขาความรู้ด้านอื่นๆ ด้วย ครอบคลุมการใช้งานจำนวนมาก (เรียงตามตัวอักษร) ต่อไปนี้เป็นคำอธิบายโดยย่อของเครื่องมือบางส่วน:

ASReml : ซอฟต์แวร์อีกตัวที่พัฒนาโดย VSNi ^{[ 42 ]}ซึ่งสามารถใช้ในสภาพแวดล้อม R ในรูปแบบแพ็กเกจได้เช่นกัน พัฒนาขึ้นเพื่อประมาณค่าส่วนประกอบความแปรปรวนภายใต้แบบจำลองเชิงเส้นผสมทั่วไปโดยใช้ความน่าจะเป็นสูงสุดแบบจำกัด (REML) อนุญาตให้ใช้แบบจำลองที่มีผลกระทบคงที่และผลกระทบสุ่ม รวมถึงแบบจำลองที่ซ้อนกันหรือแบบไขว้กัน ทำให้สามารถตรวจสอบโครงสร้างเมทริกซ์ความแปรปรวนร่วมที่ แตกต่างกันได้
CycDesigN: ^{[ 43 ]}แพ็คเกจคอมพิวเตอร์ที่พัฒนาโดย VSNi ^{[ 42 ]}ซึ่งช่วยให้นักวิจัยสร้างการออกแบบการทดลองและวิเคราะห์ข้อมูลที่ได้จากการออกแบบที่มีอยู่ในหนึ่งในสามคลาสที่จัดการโดย CycDesigN คลาสเหล่านี้ได้แก่ การออกแบบที่สามารถแก้ไขได้ การออกแบบที่ไม่สามารถแก้ไขได้ การออกแบบที่ทำซ้ำบางส่วน และการออกแบบแบบค รอสโอเวอร์ รวมถึงการออกแบบที่ใช้น้อยกว่า เช่น การออกแบบแบบละติน เช่น การออกแบบแบบ t-Latinized ^{[ 44 ]}
ออเรนจ์ : อินเทอร์เฟซการเขียนโปรแกรมสำหรับการประมวลผลข้อมูลระดับสูง การขุดข้อมูล และการแสดงภาพข้อมูล รวมถึงเครื่องมือสำหรับการแสดงออกของยีนและจีโนมิกส์^{[ 23 ]}
R : สภาพแวดล้อม โอเพนซอร์สและภาษาโปรแกรมที่อุทิศให้กับการคำนวณทางสถิติและกราฟิก เป็นการใช้งาน ภาษา Sที่ดูแลโดย CRAN ^{[ 45 ]}นอกเหนือจากฟังก์ชันในการอ่านตารางข้อมูล การคำนวณสถิติเชิงพรรณนา การพัฒนาและประเมินแบบจำลองแล้ว คลังข้อมูลของ R ยังมีแพ็กเกจที่พัฒนาโดยนักวิจัยทั่วโลก ซึ่งช่วยให้สามารถพัฒนาฟังก์ชันที่เขียนขึ้นเพื่อจัดการกับการวิเคราะห์ทางสถิติของข้อมูลที่มาจากแอปพลิเคชันเฉพาะ^{[ 46 ]}ในกรณีของชีวสารสนเทศศาสตร์ ตัวอย่างเช่น มีแพ็กเกจที่อยู่ในคลังข้อมูลหลัก (CRAN) และในคลังข้อมูลอื่นๆ เช่นBioconductor นอกจากนี้ยังสามารถใช้แพ็กเกจที่อยู่ระหว่างการพัฒนาซึ่งมีการแชร์ในบริการโฮส ติ้งเช่นGitHub ได้อีกด้วย
SAS : ซอฟต์แวร์วิเคราะห์ข้อมูลที่ใช้กันอย่างแพร่หลายในมหาวิทยาลัย หน่วยงานบริการ และภาคอุตสาหกรรม พัฒนาโดยบริษัทชื่อเดียวกัน ( SAS Institute ) โดยใช้ภาษา SASในการเขียนโปรแกรม
PLA 3.0: ^{[ 47 ]}เป็นซอฟต์แวร์วิเคราะห์ทางชีวสถิติสำหรับสภาพแวดล้อมที่มีการควบคุม (เช่น การทดสอบยา) ซึ่งรองรับการทดสอบการตอบสนองเชิงปริมาณ (Parallel-Line, Parallel-Logistics, Slope-Ratio) และการทดสอบแบบสองตัวเลือก (Quantal Response, Binary Assays) นอกจากนี้ยังรองรับวิธีการถ่วงน้ำหนักสำหรับการคำนวณแบบผสมผสานและการรวมข้อมูลการทดสอบอิสระโดยอัตโนมัติ
Weka : ซอฟต์แวร์ Javaสำหรับการเรียนรู้ของเครื่องและการขุดข้อมูลรวมถึงเครื่องมือและวิธีการสำหรับการแสดงภาพ การจัดกลุ่ม การถดถอย กฎความสัมพันธ์ และการจำแนกประเภท มีเครื่องมือสำหรับการตรวจสอบแบบไขว้ การบูตสแตรป และโมดูลสำหรับการเปรียบเทียบอัลกอริทึม นอกจากนี้ Weka ยังสามารถทำงานในภาษาโปรแกรมอื่น ๆ เช่น Perl หรือ R ได้อีกด้วย^{[ 23 ]}
การวิเคราะห์ภาพด้วย ภาษา Python (ภาษาโปรแกรม) , การเรียนรู้เชิงลึก, การเรียนรู้ของเครื่อง
ฐานข้อมูลSQL
NoSQL
NumPyตัวเลขในภาษา Python
ไซพาย
เซจแมธ
พีชคณิตเชิงเส้นLAPACK
MATLAB
Apache Hadoop
Apache Spark
บริการเว็บอเมซอน

ขอบเขตและโปรแกรมการฝึกอบรม

หลักสูตรการศึกษาด้านชีวสถิติเกือบทั้งหมดอยู่ใน ระดับ บัณฑิตศึกษาโดยส่วนใหญ่จะอยู่ในโรงเรียนสาธารณสุข สังกัดโรงเรียนแพทย์ ป่าไม้ หรือเกษตรศาสตร์ หรือเป็นสาขาประยุกต์ในภาควิชาสถิติ

ในสหรัฐอเมริกา ซึ่งมีมหาวิทยาลัยหลายแห่งที่มีภาควิชาชีวสถิติโดยเฉพาะ มหาวิทยาลัยชั้นนำอื่นๆ อีกมากมายได้บูรณาการคณาจารย์ด้านชีวสถิติเข้ากับภาควิชาสถิติหรือภาควิชาอื่นๆ เช่นระบาดวิทยาดังนั้น ภาควิชาที่ใช้ชื่อว่า "ชีวสถิติ" อาจมีโครงสร้างที่แตกต่างกันออกไป ตัวอย่างเช่น ภาควิชาชีวสถิติที่ค่อนข้างใหม่ก่อตั้งขึ้นโดยเน้นด้านชีวสารสนเทศและชีววิทยาเชิง คำนวณ ในขณะที่ภาควิชาที่เก่าแก่กว่า ซึ่งโดยทั่วไปแล้วมักสังกัดคณะสาธารณสุขศาสตร์จะมีสายงานวิจัยแบบดั้งเดิมมากกว่า เช่น การศึกษาทางระบาดวิทยาและการทดลองทางคลินิกรวมถึงชีวสารสนเทศด้วย ในมหาวิทยาลัยขนาดใหญ่ทั่วโลก ที่มีทั้งภาควิชาสถิติและภาควิชาชีวสถิติ ระดับของการบูรณาการระหว่างสองภาควิชาอาจแตกต่างกันไปตั้งแต่ขั้นต่ำสุดไปจนถึงความร่วมมืออย่างใกล้ชิด โดยทั่วไป ความแตกต่างระหว่างหลักสูตรสถิติและหลักสูตรชีวสถิติมีอยู่สองประการ คือ (i) ภาควิชาสถิติมักจะทำการวิจัยเชิงทฤษฎี/ระเบียบวิธี ซึ่งพบได้น้อยในหลักสูตรชีวสถิติ และ (ii) ภาควิชาสถิติมีสายงานวิจัยที่อาจรวมถึงการประยุกต์ใช้ในด้านชีวการแพทย์ แต่ยังรวมถึงด้านอื่นๆ เช่น อุตสาหกรรม ( การควบคุมคุณภาพ ) ธุรกิจเศรษฐศาสตร์และสาขาชีววิทยาอื่นๆ นอกเหนือจากทางการแพทย์ด้วย

วารสารเฉพาะทาง

สถิติชีวภาพ^{[ 48 ]}
วารสารสถิติชีวภาพระหว่างประเทศ^{[ 49 ]}
วารสารระบาดวิทยาและสถิติชีวภาพ^{[ 50 ]}
สถิติชีวภาพและสาธารณสุข^{[ 51 ]}
ไบโอเมตริกส์^{[ 52 ]}
ไบโอเมตริก^{[ 53 ]}
วารสารไบโอเมตริกส์^{[ 54 ]}
การสื่อสารในชีวสถิติและวิทยาศาสตร์พืชผล^{[ 55 ]}
การประยุกต์ใช้ทางสถิติในพันธุศาสตร์และชีววิทยาโมเลกุล^{[ 56 ]}
วิธีการทางสถิติในการวิจัยทางการแพทย์^{[ 57 ]}
สถิติเภสัชกรรม^{[ 58 ]}
สถิติทางการแพทย์^{[ 59 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

สื่อที่เกี่ยวข้องกับสถิติชีวภาพในวิกิมีเดียคอมมอนส์
สมาคมไบโอเมตริกส์ระหว่างประเทศ
คลังเอกสารงานวิจัยด้านสถิติชีวภาพ
คู่มือสถิติชีวภาพ (MedPageToday.com) เก็บถาวรเมื่อ 22 พฤษภาคม 2012 ที่Wayback Machine
สถิติชีวการแพทย์

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]