กลับไปหน้าบทความ

อ่าน 14 นาที

ชีวสถิติ

ชีวสถิติ (บางครั้งเรียกว่าไบโอเมทรี ) เป็นสาขาหนึ่งของสถิติที่ประยุกต์ใช้วิธีการทางสถิติกับหัวข้อต่างๆ...

ชีวสถิติ

ชีวสถิติ (บางครั้งเรียกว่าไบโอเมทรี ) เป็นสาขาหนึ่งของสถิติที่ประยุกต์ใช้วิธีการทางสถิติกับหัวข้อต่างๆ มากมายในวิทยาศาสตร์ชีวภาพโดยเน้นที่การแพทย์ทางคลินิกและการประยุกต์ใช้ด้านสาธารณสุข[ 1 ] สาขานี้ครอบคลุมถึงการออกแบบการทดลอง การรวบรวมและการวิเคราะห์ข้อมูลจากการทดลองและการสังเกต และการตีความผลลัพธ์ มีความเกี่ยวข้องอย่างใกล้ชิดกับ สถิติ ทางการ แพทย์

ประวัติศาสตร์

สถิติชีวภาพและพันธุศาสตร์

การสร้างแบบจำลองทางสถิติชีวภาพเป็นส่วนสำคัญของทฤษฎีทางชีววิทยาสมัยใหม่จำนวนมาก การศึกษา พันธุศาสตร์ตั้งแต่เริ่มต้นได้ใช้แนวคิดทางสถิติเพื่อทำความเข้าใจผลการทดลองที่สังเกตได้ นักวิทยาศาสตร์ด้านพันธุศาสตร์บางคนยังได้มีส่วนร่วมในการพัฒนาทางสถิติด้วยการพัฒนาวิธีการและเครื่องมือต่างๆเกรกอร์ เมนเดลเริ่มการศึกษาพันธุศาสตร์โดยการตรวจสอบรูปแบบการแยกตัวทางพันธุกรรมในครอบครัวของถั่ว และใช้สถิติเพื่ออธิบายข้อมูลที่รวบรวมได้ ในช่วงต้นทศวรรษ 1900 หลังจากที่การค้นพบการถ่ายทอดทางพันธุกรรมแบบเมนเดลของเมนเดลได้รับการค้นพบอีกครั้ง ก็มีความเข้าใจที่ขาดหายไประหว่างพันธุศาสตร์และทฤษฎีวิวัฒนาการของดาร์วิน ฟรานซิส กัลตันพยายามขยายการค้นพบของเมนเดลด้วยข้อมูลของมนุษย์และเสนอแบบจำลองที่แตกต่างออกไป โดยมีสัดส่วนของการถ่ายทอดทางพันธุกรรมมาจากบรรพบุรุษแต่ละคนซึ่งประกอบเป็นอนุกรมอนันต์ เขาเรียกสิ่งนี้ว่าทฤษฎี "กฎแห่งการถ่ายทอดทางพันธุกรรมจากบรรพบุรุษ " แนวคิดของเขาถูกคัดค้านอย่างรุนแรงโดยวิลเลียม เบตสันซึ่งยึดถือข้อสรุปของเมนเดลที่ว่า การถ่ายทอดทางพันธุกรรมมาจากพ่อแม่เท่านั้น โดยครึ่งหนึ่งมาจากแต่ละคน สิ่งนี้ทำให้เกิดการถกเถียงอย่างดุเดือดระหว่างนักชีวสถิติที่สนับสนุนแนวคิดของกัลตัน เช่นราฟาเอล เวลดอน , อาร์เธอร์ ดูคินฟิลด์ ดาร์บิเชอร์และคาร์ล เพียร์สันกับนักทฤษฎีวิวัฒนาการของเมนเดลที่สนับสนุนแนวคิดของเบตสัน (และเมนเดล) เช่นชาร์ลส์ เดเวนพอร์ตและวิลเฮล์ม โยฮันเซนต่อมา นักชีวสถิติไม่สามารถทำซ้ำข้อสรุปของกัลตันได้ในการทดลองต่างๆ และแนวคิดของเมนเดลก็ได้รับชัยชนะ ในช่วงทศวรรษ 1930 แบบจำลองที่สร้างขึ้นบนพื้นฐานของเหตุผลทางสถิติได้ช่วยแก้ไขความแตกต่างเหล่านี้และก่อให้เกิดการสังเคราะห์วิวัฒนาการสมัยใหม่ แบบนีโอ - ดาร์วิน

การแก้ไขความแตกต่างเหล่านี้ยังช่วยให้สามารถกำหนดแนวคิดของพันธุศาสตร์ประชากรและเชื่อมโยงพันธุศาสตร์และวิวัฒนาการเข้าด้วยกันได้ บุคคลสำคัญทั้งสามในการก่อตั้งพันธุศาสตร์ประชากรและการสังเคราะห์นี้ล้วนอาศัยสถิติและพัฒนาการใช้งานในทางชีววิทยา

บุคคลเหล่านี้และนักสถิติชีวภาพ นักชีววิทยาเชิงคณิตศาสตร์และนักพันธุศาสตร์ที่สนใจด้านสถิติ ได้ช่วยกันรวบรวมชีววิทยาเชิงวิวัฒนาการและพันธุศาสตร์เข้าด้วยกันอย่างสอดคล้องและเป็นองค์รวม ซึ่งสามารถเริ่มสร้างแบบจำลอง เชิงปริมาณ ได้

ควบคู่ไปกับการพัฒนาโดยรวมนี้ งานบุกเบิกของD'Arcy Thompsonในหนังสือ On Growth and Formยังช่วยเพิ่มระเบียบวิธีเชิงปริมาณให้กับการศึกษาทางชีววิทยาอีกด้วย

แม้ว่าการใช้เหตุผลทางสถิติจะมีความสำคัญพื้นฐานและจำเป็นอย่างยิ่ง แต่นักชีววิทยาก็อาจมีแนวโน้มที่จะไม่ไว้วางใจหรือดูถูกผลลัพธ์ที่ไม่ ปรากฏชัดเจน ในเชิงคุณภาพเรื่องเล่าหนึ่งกล่าวถึงโทมัส ฮันต์ มอร์แกนที่สั่งห้ามใช้เครื่องคิดเลข Fridenในแผนกของเขาที่Caltechโดยกล่าวว่า "ผมก็เหมือนกับคนที่กำลังสำรวจหาทองคำตามริมฝั่งแม่น้ำแซคราเมนโตในปี 1849 ด้วยสติปัญญาเพียงเล็กน้อย ผมก็สามารถเอื้อมมือลงไปหยิบก้อนทองคำขนาดใหญ่ได้ และตราบใดที่ผมยังทำได้ ผมก็จะไม่ยอมให้ใครในแผนกของผมเสียทรัพยากรอันมีค่าไปกับการทำเหมืองแร่แบบเปิด " [ 4 ]

การวางแผนการวิจัย

งานวิจัยใดๆ ในสาขาวิทยาศาสตร์ชีวภาพมีจุดมุ่งหมายเพื่อตอบคำถามทางวิทยาศาสตร์ที่เราอาจมี เพื่อให้ได้คำตอบที่แน่ชัด เราจำเป็นต้องได้ ผลลัพธ์ ที่แม่นยำ การกำหนด สมมติฐานหลักและแผนการวิจัยที่ถูกต้องจะช่วยลดข้อผิดพลาดในการตัดสินใจเพื่อทำความเข้าใจปรากฏการณ์ แผนการวิจัยอาจรวมถึงคำถามวิจัย สมมติฐานที่จะทดสอบ การออกแบบการทดลองวิธีการเก็บรวบรวมข้อมูล มุมมอง การวิเคราะห์ข้อมูลและค่าใช้จ่ายที่เกี่ยวข้อง สิ่งสำคัญคือต้องดำเนินการศึกษาโดยยึดหลักการพื้นฐานสามประการของสถิติเชิงทดลอง ได้แก่การสุ่มการทำซ้ำและการควบคุมเฉพาะที่

คำถามวิจัย

คำถามวิจัยจะกำหนดวัตถุประสงค์ของการศึกษา การวิจัยจะต้องนำโดยคำถาม ดังนั้นจึงต้องกระชับ ในขณะเดียวกันก็ต้องมุ่งเน้นไปที่หัวข้อที่น่าสนใจและแปลกใหม่ซึ่งอาจช่วยพัฒนาวิทยาศาสตร์และความรู้ในสาขานั้นได้ การกำหนดวิธีการตั้งคำถามทางวิทยาศาสตร์ อาจจำเป็นต้องมี การทบทวนวรรณกรรมอย่างละเอียดถี่ถ้วนดังนั้นการวิจัยจึงสามารถเป็นประโยชน์ในการเพิ่มคุณค่าให้กับชุมชนวิทยาศาสตร์ได้[ 5 ]

นิยามสมมติฐาน

เมื่อกำหนดเป้าหมายของการศึกษาแล้ว ก็สามารถเสนอคำตอบที่เป็นไปได้สำหรับคำถามวิจัย โดยเปลี่ยนคำถามนี้ให้เป็นสมมติฐานข้อเสนอหลักเรียกว่าสมมติฐานว่าง (H₀ )และโดยทั่วไปจะอิงตามความรู้ถาวรเกี่ยวกับหัวข้อหรือการเกิดขึ้นที่ชัดเจนของปรากฏการณ์ ซึ่งได้รับการสนับสนุนจากการทบทวนวรรณกรรมอย่างละเอียด เราอาจกล่าวได้ว่ามันเป็นคำตอบมาตรฐานที่คาดหวังสำหรับข้อมูลภายใต้สถานการณ์ในการทดสอบโดยทั่วไป H₀ จะถือว่าไม่มีความสัมพันธ์ระหว่างการรักษา ในทางกลับกันสมมติฐานทางเลือกคือการปฏิเสธ H₀ โดยจะถือว่ามีความสัมพันธ์ในระดับหนึ่งระหว่างการรักษาและผลลัพธ์ แม้ว่าสมมติฐานจะได้รับการสนับสนุนจากคำถามวิจัยและคำตอบที่คาดหวังและไม่คาดหวังก็ตาม[ 5 ]

ยกตัวอย่างเช่น พิจารณากลุ่มสัตว์ที่คล้ายคลึงกัน (เช่น หนู) ภายใต้ระบบอาหารสองแบบที่แตกต่างกัน คำถามวิจัยคือ: อาหารแบบไหนดีที่สุด? ในกรณีนี้ สมมติฐานหลัก (H₀ )คือไม่มีความแตกต่างระหว่างอาหารทั้งสองแบบในกระบวนการเผาผลาญ ของหนู (H₀ : μ₁ = μ₂ )และสมมติฐานทางเลือกคืออาหารทั้งสองแบบมีผลต่อกระบวนการเผาผลาญของสัตว์แตกต่างกัน ( H₁ : μ₁μ₂ )

สมมติฐานถูกกำหนดโดยนักวิจัยตามความสนใจของเขา/เธอในการตอบคำถามหลัก นอกจากนั้นสมมติฐานทางเลือก อาจมีมากกว่าหนึ่งสมมติฐาน และอาจไม่เพียงแต่คาดการณ์ความแตกต่างระหว่างพารามิเตอร์ที่สังเกตได้เท่านั้น แต่ยังรวม ถึงระดับความแตกต่างด้วย ( เช่นสูงกว่าหรือต่ำกว่า)

การสุ่มตัวอย่าง

โดยทั่วไป การศึกษาหนึ่ง ๆมักมีจุดมุ่งหมายเพื่อทำความเข้าใจผลกระทบของปรากฏการณ์หนึ่งๆ ต่อประชากรในทางชีววิทยาประชากรหมายถึงสิ่งมีชีวิต ทั้งหมดของ สายพันธุ์หนึ่งๆในพื้นที่เฉพาะ ณ เวลาใดเวลาหนึ่ง ในทางชีวสถิติ แนวคิดนี้ขยายไปสู่กลุ่มตัวอย่างที่หลากหลายที่สามารถศึกษาได้ แม้ว่าในทางชีวสถิติประชากรจะไม่ใช่แค่สิ่งมีชีวิตแต่ละตัวเท่านั้น แต่ยังรวมถึงส่วนประกอบทั้งหมดของสิ่งมีชีวิต นั้นๆ ด้วย เช่นจีโนม ทั้งหมด หรือเซลล์ สเปิร์มทั้งหมด สำหรับสัตว์ หรือพื้นที่ใบทั้งหมดสำหรับพืช เป็นต้น

ไม่สามารถวัดค่าจากทุกองค์ประกอบของประชากรได้ ด้วยเหตุนี้ กระบวนการ สุ่มตัวอย่างจึงมีความสำคัญมากสำหรับการอนุมานทางสถิติการสุ่มตัวอย่างหมายถึงการสุ่มเลือกส่วนที่เป็นตัวแทนของประชากรทั้งหมด เพื่อทำการอนุมานภายหลังเกี่ยวกับประชากร ดังนั้นตัวอย่าง อาจจับ ความแปรปรวนได้มากที่สุดในประชากร[ 6 ]ขนาดตัวอย่างถูกกำหนดโดยหลายสิ่งหลายอย่าง ตั้งแต่ขอบเขตของการวิจัยไปจนถึงทรัพยากรที่มีอยู่ ในการวิจัยทางคลินิกประเภทของการทดลอง เช่นความด้อยกว่าความเท่าเทียมและความเหนือกว่าเป็นกุญแจสำคัญในการกำหนดขนาดตัวอย่าง[ 5 ]

การออกแบบการทดลอง

การออกแบบการทดลองสนับสนุนหลักการพื้นฐานของสถิติการทดลองมีการออกแบบการทดลองพื้นฐานสามแบบเพื่อจัดสรรวิธีการทดลอง แบบสุ่มใน แปลงทดลองทั้งหมดได้แก่การออกแบบแบบสุ่มสมบูรณ์การออกแบบแบบบล็อกสุ่มและการออกแบบแบบแฟคทอเรียลสามารถจัดเรียงวิธีการทดลองได้หลายวิธี ในด้านการเกษตรการออกแบบการทดลองที่ถูกต้องเป็นรากฐานของการศึกษาที่ดี และการจัดเรียงวิธีการทดลองภายในงานวิจัยมีความสำคัญอย่างยิ่ง เนื่องจากสภาพแวดล้อมมีผลกระทบอย่างมากต่อแปลงทดลอง ( พืชสัตว์เลี้ยงจุลินทรีย์) การจัดเรียงหลักเหล่านี้สามารถพบได้ในเอกสารทางวิชาการภายใต้ชื่อ " แบบตาราง " "แบบบล็อกไม่สมบูรณ์" " แบบแปลงแยก " "แบบบล็อกเสริม" และอื่นๆ อีกมากมาย การออกแบบทั้งหมดอาจรวมถึงแปลงควบคุมซึ่งกำหนดโดยนักวิจัย เพื่อใช้ในการประมาณค่าความคลาดเคลื่อนระหว่างการสรุปผล

ในการศึกษาทางคลินิกตัวอย่าง มักจะมีขนาดเล็กกว่าในการศึกษาทางชีววิทยา ประเภทอื่น และในกรณีส่วนใหญ่ ผลกระทบ จากสิ่งแวดล้อมสามารถควบคุมหรือวัดได้ โดยทั่วไปมักใช้การทดลองทางคลินิกแบบสุ่มที่มีการควบคุมซึ่งผลลัพธ์มักจะถูกเปรียบเทียบกับ การออกแบบ การศึกษาเชิงสังเกตเช่นกรณีศึกษาและกลุ่มควบคุมหรือ การ ศึกษาแบบกลุ่ม[ 7 ]

การเก็บรวบรวมข้อมูล

วิธีการเก็บรวบรวมข้อมูลต้องได้รับการพิจารณาในการวางแผนการวิจัย เนื่องจากมีอิทธิพลอย่างมากต่อขนาดของกลุ่มตัวอย่างและการออกแบบการทดลอง

การเก็บรวบรวมข้อมูลจะแตกต่างกันไปตามประเภทของข้อมูล สำหรับข้อมูลเชิงคุณภาพการเก็บรวบรวมข้อมูลสามารถทำได้โดยใช้แบบสอบถามที่มีโครงสร้างหรือโดยการสังเกต โดยพิจารณาจากการมีอยู่หรือความรุนแรงของโรค โดยใช้เกณฑ์คะแนนเพื่อจัดประเภทระดับของการเกิดขึ้น[ 8 ]สำหรับข้อมูลเชิงปริมาณการเก็บรวบรวมข้อมูลจะทำโดยการวัดข้อมูลเชิงตัวเลขโดยใช้เครื่องมือ

ในการศึกษาด้านเกษตรกรรมและชีววิทยา ข้อมูลผลผลิตและองค์ประกอบต่างๆ สามารถหาได้จากการวัดเชิงปริมาณอย่างไรก็ตาม ความเสียหายจากศัตรูพืชและโรคในพืชได้มาจากการสังเกต โดยพิจารณาจากระดับความเสียหายโดยใช้มาตรวัดคะแนน โดยเฉพาะอย่างยิ่งในการศึกษาทางพันธุกรรม ควรพิจารณาใช้วิธีการเก็บรวบรวมข้อมูลที่ทันสมัยทั้งในภาคสนามและห้องปฏิบัติการ ซึ่งเป็นแพลตฟอร์มที่มีประสิทธิภาพสูงสำหรับการวิเคราะห์ลักษณะทางฟีโนไทป์และจีโนไทป์ เครื่องมือเหล่านี้ช่วยให้สามารถทำการทดลองขนาดใหญ่ขึ้นได้ ในขณะเดียวกันก็สามารถประเมินแปลงทดลองจำนวนมากได้ในเวลาที่น้อยกว่าวิธีการเก็บรวบรวมข้อมูลโดยมนุษย์เพียงอย่างเดียว สุดท้าย ข้อมูลที่น่าสนใจทั้งหมดที่รวบรวมได้จะต้องถูกจัดเก็บไว้ในกรอบข้อมูลที่เป็นระบบเพื่อการวิเคราะห์เพิ่มเติม

การวิเคราะห์และการตีความข้อมูล

เครื่องมือเชิงพรรณนา

ข้อมูลสามารถแสดงได้ในรูปแบบตารางหรือกราฟเช่น แผนภูมิเส้น แผนภูมิแท่ง ฮิสโตแกรม แผนภาพกระจาย นอกจากนี้มาตรวัดแนวโน้มส่วนกลางและความแปรปรวนยังเป็นประโยชน์อย่างมากในการอธิบายภาพรวมของข้อมูล ต่อไปนี้เป็นตัวอย่างบางส่วน:

ตารางความถี่

ตารางประเภทหนึ่งคือ ตาราง ความถี่ซึ่งประกอบด้วยข้อมูลที่จัดเรียงเป็นแถวและคอลัมน์ โดยความถี่คือจำนวนครั้งที่เกิดขึ้นหรือซ้ำกันของข้อมูล ความถี่อาจเป็น: [ 9 ]

ค่าสัมบูรณ์ : แสดงถึงจำนวนครั้งที่ค่าที่กำหนดปรากฏขึ้น

สัมพัทธ์ : ได้จากการหารความถี่สัมบูรณ์ด้วยจำนวนทั้งหมด;

ในตัวอย่างถัดไป เราจะแสดงจำนวนยีนในโอเปรอน สิบชุด ของสิ่งมีชีวิตชนิดเดียวกัน

ยีน = {2,3,3,4,5,3,3,3,3,4}
จำนวนยีน ความถี่สัมบูรณ์ ความถี่สัมพัทธ์
1 0 0
2 1 0.1
3 6 0.6
4 2 0.2
5 1 0.1

กราฟเส้น

รูป A: ตัวอย่างกราฟเส้นอัตราการเกิดในบราซิล (2010–2016); [ 10 ]รูป B: ตัวอย่างแผนภูมิแท่งอัตราการเกิดในบราซิลสำหรับเดือนธันวาคมตั้งแต่ปี 2010 ถึง 2016; รูป C: ตัวอย่างแผนภาพกล่อง : จำนวนไกลซีนในโปรตีโอมของสิ่งมีชีวิตแปดชนิดที่แตกต่างกัน (AH); รูป D: ตัวอย่างแผนภาพกระจาย

กราฟเส้นแสดงถึงการเปลี่ยนแปลงของค่าหนึ่งเมื่อเทียบกับอีกค่าหนึ่ง เช่น เวลา โดยทั่วไป ค่าต่างๆ จะแสดงอยู่บนแกนตั้ง ในขณะที่การเปลี่ยนแปลงตามเวลาจะแสดงอยู่บนแกนนอน[ 11 ]

แผนภูมิแท่ง

แผนภูมิแท่งเป็นกราฟที่แสดงข้อมูลเชิงหมวดหมู่เป็นแท่ง โดยแท่งแสดงความสูง (แท่งแนวตั้ง) หรือความกว้าง (แท่งแนวนอน) ที่มีสัดส่วนเพื่อแสดงค่า แผนภูมิแท่งให้ภาพที่สามารถแสดงในรูปแบบตารางได้เช่นกัน[ 11 ]

ในตัวอย่างแผนภูมิแท่ง เรามีอัตราการเกิดในบราซิลสำหรับเดือนธันวาคมตั้งแต่ปี 2010 ถึง 2016 [ 10 ]การลดลงอย่างรวดเร็วในเดือนธันวาคม 2016 สะท้อนให้เห็นถึงการระบาดของไวรัสซิกาในอัตราการเกิดในบราซิล

ฮิสโตแกรม

ตัวอย่างฮิสโตแกรม

ฮิสโตแกรม (หรือการแจกแจงความถี่) เป็นการแสดงข้อมูลในรูปแบบกราฟที่จัดเรียงและแบ่งออกเป็นคลาสที่สม่ำเสมอหรือไม่สม่ำเสมอ โดยKarl Pearsonเป็น ผู้นำเสนอเป็นครั้งแรก [ 12 ]

แผนภาพกระจาย

แผนภาพกระจายจุดเป็นแผนภาพทางคณิตศาสตร์ที่ใช้พิกัดคาร์ทีเซียนเพื่อแสดงค่าของชุดข้อมูล แผนภาพกระจายจุดแสดงข้อมูลเป็นชุดของจุด โดยแต่ละจุดแสดงค่าของตัวแปรหนึ่งตัวที่กำหนดตำแหน่งบนแกนแนวนอนและตัวแปรอีกตัวหนึ่งบนแกนแนวตั้ง[ 13 ]เรียกอีกอย่างว่ากราฟกระจายจุดแผนภูมิกระจายจุด แผนภาพกระจายจุดหรือแผนภาพกระจายจุด[ 14 ]

หมายถึง

ค่าเฉลี่ยเลขคณิตคือผลรวมของชุดค่า ( ) หารด้วยจำนวนรายการในชุดค่านี้ ( )

ค่ามัธยฐาน

ค่ามัธยฐานคือค่าที่อยู่ตรงกลางของชุดข้อมูล

โหมด

โหมดคือค่าของชุดข้อมูลที่ปรากฏบ่อยที่สุด[ 15 ]

การเปรียบเทียบค่าเฉลี่ย มัธยฐาน และฐานนิยม ค่า = { 2,3,3,3,3,3,4,4,11 }
พิมพ์ ตัวอย่าง ผลลัพธ์
หมายถึง( 2 + 3 + 3 + 3 + 3 + 3 + 4 + 4 + 11 ) / 9 4
ค่ามัธยฐาน2, 3, 3, 3, 3 , 3, 4, 4, 11 3
โหมด 2, 3, 3, 3, 3, 3 , 4, 4, 11 3

แผนภาพกล่อง

แผนภาพกล่อง (Box plot ) เป็นวิธีการแสดงข้อมูลเชิงตัวเลขเป็นกลุ่มๆ ด้วยกราฟ โดยเส้นจะแสดงค่าสูงสุดและต่ำสุด ส่วนช่วงควาร์ไทล์ (IQR) จะแสดงค่า 25–75% ของข้อมูลทั้งหมด และวงกลมจะแสดงค่าผิดปกติ ( Outliers )

สัมประสิทธิ์สหสัมพันธ์

แม้ว่าความสัมพันธ์ระหว่างข้อมูลสองประเภทที่แตกต่างกันจะสามารถอนุมานได้จากกราฟ เช่น แผนภาพกระจาย แต่จำเป็นต้องตรวจสอบความถูกต้องด้วยข้อมูลเชิงตัวเลข ด้วยเหตุนี้จึง ต้องใช้ สัมประสิทธิ์สหสัมพันธ์ซึ่งให้ค่าตัวเลขที่สะท้อนถึงความแข็งแกร่งของความสัมพันธ์[ 11 ]

สัมประสิทธิ์สหสัมพันธ์เพียร์สัน

แผนภาพกระจายจุดที่แสดงค่าสัมประสิทธิ์สหสัมพันธ์เพียร์สันสำหรับค่าρ ที่แตกต่างกัน

สัมประสิทธิ์สหสัมพันธ์เพียร์สันเป็นการวัดความสัมพันธ์ระหว่างตัวแปรสองตัว X และ Y สัมประสิทธิ์นี้มักจะแทนด้วยρ (โร) สำหรับประชากรและrสำหรับตัวอย่าง โดยมีค่าอยู่ระหว่าง -1 ถึง 1 โดยที่ρ = 1 แสดงถึงความสัมพันธ์เชิงบวกที่สมบูรณ์แบบρ = -1 แสดงถึงความสัมพันธ์เชิงลบที่สมบูรณ์แบบ และρ = 0 คือไม่มีความสัมพันธ์เชิงเส้น[ 11 ]

สถิติเชิงอนุมาน

ใช้เพื่อทำการอนุมาน[ 16 ]เกี่ยวกับประชากรที่ไม่รู้จัก โดยการประมาณค่าและ/หรือการทดสอบสมมติฐาน กล่าวอีกนัยหนึ่งคือ เป็นที่พึงปรารถนาที่จะได้รับพารามิเตอร์เพื่ออธิบายประชากรที่สนใจ แต่เนื่องจากข้อมูลมีจำกัด จึงจำเป็นต้องใช้ตัวอย่างที่เป็นตัวแทนเพื่อประมาณค่าพารามิเตอร์เหล่านั้น ด้วยวิธีนี้ จึงสามารถทดสอบสมมติฐานที่กำหนดไว้ก่อนหน้านี้และนำข้อสรุปไปใช้กับประชากรทั้งหมดได้ ค่าความคลาดเคลื่อนมาตรฐานของค่าเฉลี่ยเป็นการวัดความแปรปรวนที่สำคัญต่อการทำอนุมาน[ 6 ]

การทดสอบสมมติฐานเป็นสิ่งจำเป็นสำหรับการอนุมานเกี่ยวกับประชากรที่มุ่งตอบคำถามการวิจัย ดังที่ได้กำหนดไว้ในส่วน "การวางแผนการวิจัย" ผู้เขียนได้กำหนดขั้นตอนสี่ขั้นตอนที่จะต้องดำเนินการ: [ 6 ]

  1. สมมติฐานที่จะทดสอบ : ดังที่กล่าวไว้ก่อนหน้านี้ เราต้องทำงานกับคำจำกัดความของสมมติฐานว่าง (H₀ )ซึ่งจะถูกทดสอบ และสมมติฐานทางเลือกแต่สมมติฐานเหล่านี้ต้องกำหนดไว้ก่อนที่จะดำเนินการทดลอง
  2. ระดับนัยสำคัญและกฎการตัดสินใจ : กฎการตัดสินใจขึ้นอยู่กับระดับนัยสำคัญหรือกล่าวอีกนัยหนึ่งคือ อัตราความคลาดเคลื่อนที่ยอมรับได้ (α) อาจเข้าใจได้ง่ายกว่าหากเรากำหนดค่าวิกฤตที่บ่งชี้ถึงนัยสำคัญทางสถิติเมื่อ เปรียบเทียบ ค่าสถิติทดสอบกับค่าวิกฤตนั้น ดังนั้น α จึงต้องกำหนดไว้ล่วงหน้าก่อนการทดลองด้วย
  3. การทดลองและการวิเคราะห์ทางสถิติ : ขั้นตอนนี้คือการดำเนินการทดลองจริงตามแผนการทดลอง ที่เหมาะสม การเก็บรวบรวมข้อมูล และการประเมินผลด้วยการทดสอบทางสถิติที่เหมาะสมที่สุด
  4. การอนุมาน : เกิดขึ้นเมื่อสมมติฐานว่างถูกปฏิเสธหรือไม่ถูกปฏิเสธ โดยพิจารณาจากหลักฐานที่ได้จากการเปรียบเทียบค่า pและ α ข้อสังเกตคือ การไม่ปฏิเสธ H₀ หมายความว่ามีหลักฐานไม่เพียงพอที่จะสนับสนุนการปฏิเสธ แต่ไม่ได้หมายความว่าสมมติฐานนั้นเป็นจริง

ช่วงความเชื่อมั่นคือช่วงของค่าที่สามารถบรรจุค่าพารามิเตอร์จริงได้ โดยกำหนดระดับความเชื่อมั่นที่แน่นอน ขั้นตอนแรกคือการประมาณค่าประมาณที่ไม่เอนเอียงที่ดีที่สุดของพารามิเตอร์ประชากร ค่าสูงสุดของช่วงจะได้รับจากการรวมค่าประมาณนี้กับการคูณระหว่างค่าความคลาดเคลื่อนมาตรฐานของค่าเฉลี่ยและระดับความเชื่อมั่น การคำนวณค่าต่ำสุดจะคล้ายกัน แต่แทนที่จะบวก จะต้องใช้การลบ[ 6 ]

การพิจารณาทางสถิติ

กำลังและความคลาดเคลื่อนทางสถิติ

ในการทดสอบสมมติฐาน มีข้อผิดพลาดทางสถิติที่เป็นไปได้สองประเภท ได้แก่ข้อผิดพลาดประเภทที่ 1และ ข้อผิด พลาด ประเภทที่ 2

  • ความผิดพลาดประเภทที่ 1 หรือผลบวกเท็จคือการปฏิเสธสมมติฐานว่างที่เป็นจริงอย่างไม่ถูกต้อง
  • ความผิดพลาดประเภทที่ 2 หรือผลลบเท็จคือการไม่ปฏิเสธสมมติฐานว่าง ที่ ผิด พลาด

ระดับนัยสำคัญที่แสดงด้วย α คืออัตราความผิดพลาดประเภทที่ 1 และควรเลือกก่อนทำการทดสอบ อัตราความผิดพลาดประเภทที่ 2 แสดงด้วย β และกำลังทางสถิติของการทดสอบคือ 1 − β

ค่า p

ค่าpคือความน่าจะเป็นของการได้ผลลัพธ์ที่รุนแรงเท่ากับหรือรุนแรงกว่าผลลัพธ์ที่สังเกตได้ โดยถือว่าสมมติฐานว่าง (H 0 ) เป็นจริง เรียกอีกอย่างว่าความน่าจะเป็นที่คำนวณได้ เป็นเรื่องปกติที่จะสับสนระหว่างค่า p กับระดับนัยสำคัญ (α)แต่ α เป็นเกณฑ์ที่กำหนดไว้ล่วงหน้าสำหรับการเรียกผลลัพธ์ที่มีนัยสำคัญ หาก p น้อยกว่า α สมมติฐานว่าง (H 0 ) จะถูกปฏิเสธ[ 17 ]

การทดสอบหลายครั้ง

ในการทดสอบสมมติฐานเดียวกันหลายครั้ง ความน่าจะเป็นของการเกิดผลบวกเท็จ(อัตราความผิดพลาดแบบครอบคลุมทั้งกลุ่ม)จะเพิ่มขึ้น และจำเป็นต้องมีกลยุทธ์เพื่อรับมือกับการเกิดเหตุการณ์นี้ โดยทั่วไปแล้วจะทำได้โดยการใช้เกณฑ์ที่เข้มงวดมากขึ้นในการปฏิเสธสมมติฐานว่างการแก้ไขแบบบอนเฟอร์โรนี (Bonferroni correction)กำหนดระดับนัยสำคัญโดยรวมที่ยอมรับได้ ซึ่งแสดงด้วย α* และการทดสอบแต่ละครั้งจะถูกเปรียบเทียบกับค่า α = α*/m ทีละรายการ วิธีนี้ทำให้มั่นใจได้ว่าอัตราความผิดพลาดแบบครอบคลุมทั้งกลุ่มในการทดสอบทั้ง m ครั้ง จะน้อยกว่าหรือเท่ากับ α* เมื่อ m มีค่ามาก การแก้ไขแบบบอนเฟอร์โรนีอาจเข้มงวดเกินไป ทางเลือกอื่นนอกเหนือจากการแก้ไขแบบบอนเฟอร์โรนีคือการควบคุมอัตราการค้นพบเท็จ (FDR) FDR ควบคุมสัดส่วนที่คาดหวังของสมมติฐานว่าง ที่ถูกปฏิเสธ (ที่เรียกว่าการค้นพบ) ที่เป็นเท็จ (การปฏิเสธที่ไม่ถูกต้อง) ขั้นตอนนี้ทำให้มั่นใจได้ว่าสำหรับการทดสอบที่เป็นอิสระ อัตราการค้นพบเท็จจะมีค่าไม่เกิน q* ดังนั้น FDR จึงมีความอนุรักษ์น้อยกว่าการแก้ไข Bonferroni และมีประสิทธิภาพมากกว่า โดยแลกกับการเกิดผลบวกเท็จมากขึ้น[ 18 ]

การตรวจสอบความคลาดเคลื่อนของข้อกำหนดและความทนทาน

สมมติฐานหลักที่กำลังทดสอบ (เช่น ไม่มีความสัมพันธ์ระหว่างการรักษาและผลลัพธ์) มักจะมาพร้อมกับสมมติฐานทางเทคนิคอื่นๆ (เช่น เกี่ยวกับรูปแบบของการกระจายความน่าจะเป็นของผลลัพธ์) ซึ่งเป็นส่วนหนึ่งของสมมติฐานว่างด้วย เมื่อสมมติฐานทางเทคนิคถูกละเมิดในทางปฏิบัติ สมมติฐานว่างอาจถูกปฏิเสธบ่อยครั้งแม้ว่าสมมติฐานหลักจะเป็นจริงก็ตาม การปฏิเสธดังกล่าวเรียกว่าเกิดจากการกำหนดแบบจำลองผิดพลาด[ 19 ]การตรวจสอบว่าผลลัพธ์ของการทดสอบทางสถิติไม่เปลี่ยนแปลงเมื่อสมมติฐานทางเทคนิคถูกเปลี่ยนแปลงเล็กน้อย (ที่เรียกว่าการตรวจสอบความแข็งแกร่ง) เป็นวิธีหลักในการต่อสู้กับการกำหนดแบบจำลองผิดพลาด

เกณฑ์การคัดเลือกแบบจำลอง

เกณฑ์การเลือกแบบจำลองจะเลือกหรือสร้างแบบจำลองที่ใกล้เคียงกับแบบจำลองที่แท้จริงมากที่สุดเกณฑ์สารสนเทศของอะไคเกะ (AIC)และเกณฑ์สารสนเทศของเบย์เซียน (BIC)เป็นตัวอย่างของเกณฑ์ที่มีประสิทธิภาพเชิงอะซิมโทติก

การพัฒนาและข้อมูลขนาดใหญ่

ความก้าวหน้าล่าสุดส่งผลกระทบอย่างมากต่อสถิติชีวภาพ การเปลี่ยนแปลงที่สำคัญสองประการคือ ความสามารถในการเก็บรวบรวมข้อมูลในปริมาณมาก และความสามารถในการวิเคราะห์ที่ซับซ้อนมากขึ้นโดยใช้เทคนิคการคำนวณ ซึ่งมาจากการพัฒนาในด้านต่างๆ เช่นเทคโนโลยีการจัดลำดับดีเอ็นเอ ชีวสารสนเทศและการเรียนรู้ของเครื่อง ( การเรียนรู้ของเครื่องในชีวสารสนเทศ )

ใช้ในการประมวลผลข้อมูลปริมาณมาก

เทคโนโลยีชีวการแพทย์ใหม่ๆ เช่นไมโครอาร์เรย์เครื่องจัดลำดับรุ่นต่อไป (สำหรับจีโนมิกส์) และแมสสเปกโทรเมตรี (สำหรับโปรตีโอมิกส์) สร้างข้อมูลจำนวนมหาศาล ทำให้สามารถทำการทดสอบได้พร้อมกันหลายรายการ[ 20 ]จำเป็นต้องมีการวิเคราะห์อย่างละเอียดด้วยวิธีการทางสถิติชีวภาพเพื่อแยกสัญญาณออกจากสัญญาณรบกวน ตัวอย่างเช่น ไมโครอาร์เรย์สามารถใช้ในการวัดยีนหลายพันตัวพร้อมกัน เพื่อตรวจสอบว่ายีนใดมีการแสดงออกที่แตกต่างกันในเซลล์ที่เป็นโรคเมื่อเทียบกับเซลล์ปกติ อย่างไรก็ตาม จะมีเพียงยีนบางส่วนเท่านั้นที่มีการแสดงออกแตกต่างกัน[ 21 ]

ปัญหาความสัมพันธ์เชิงเส้นร่วมกัน (Multicollinearity)มักเกิดขึ้นในการวิเคราะห์ทางสถิติชีวภาพที่มีปริมาณข้อมูลสูง เนื่องจากมีความสัมพันธ์กันสูงระหว่างตัวแปรทำนาย (เช่น ระดับ การแสดงออกของยีน ) ข้อมูลของตัวแปรทำนายหนึ่งอาจถูกบรรจุอยู่ในตัวแปรทำนายอื่น อาจเป็นไปได้ว่าตัวแปรทำนายเพียง 5% รับผิดชอบต่อความแปรปรวนของตัวแปรตอบสนองถึง 90% ในกรณีเช่นนี้ อาจใช้วิธีการทางสถิติชีวภาพในการลดมิติ (เช่น ผ่านการวิเคราะห์องค์ประกอบหลัก) เทคนิคทางสถิติแบบดั้งเดิม เช่นการถดถอยเชิงเส้นหรือโลจิสติกและการวิเคราะห์จำแนกเชิงเส้นไม่ได้ผลดีกับข้อมูลที่มีมิติสูง (เช่น เมื่อจำนวนการสังเกต n น้อยกว่าจำนวนคุณลักษณะหรือตัวแปรทำนาย p: n < p) ที่จริงแล้ว อาจได้ค่า R² ที่ค่อนข้างสูงแม้ว่าพลังการทำนายของแบบจำลองทางสถิติจะต่ำมากก็ตาม เทคนิคทางสถิติแบบดั้งเดิมเหล่านี้ (โดยเฉพาะ การถดถอยเชิงเส้น กำลังสองน้อยที่สุด ) ถูกพัฒนาขึ้นสำหรับข้อมูลที่มีมิติต่ำ (เช่น เมื่อจำนวนการสังเกต n มากกว่าจำนวนตัวแปรทำนาย p มาก: n >> p) ในกรณีที่มีมิติสูง ควรพิจารณาชุดทดสอบการตรวจสอบความถูกต้องที่เป็นอิสระเสมอ และผลรวมกำลังสองของส่วนเหลือ (RSS) และค่า R² ของชุดทดสอบการตรวจสอบความถูกต้องนั้น ไม่ใช่ค่าของชุดฝึกฝน

บ่อยครั้ง การรวบรวมข้อมูลจากตัวทำนายหลายตัวเข้าด้วยกันนั้นมีประโยชน์ ตัวอย่างเช่นการวิเคราะห์การเสริมคุณค่าชุดยีน (GSEA) พิจารณาการเปลี่ยนแปลงของชุดยีนทั้งหมด (ที่เกี่ยวข้องกับการทำงาน) แทนที่จะเป็นยีนเดี่ยว[ 22 ]ชุดยีนเหล่านี้อาจเป็นวิถีทางชีวเคมีที่รู้จักหรือยีนที่เกี่ยวข้องกับการทำงานอื่นๆ ข้อดีของวิธีการนี้คือมีความแข็งแกร่งกว่า กล่าวคือ มีโอกาสมากกว่าที่ยีนเดี่ยวจะถูกพบว่ามีการเปลี่ยนแปลงอย่างผิดพลาด มากกว่าที่วิถีทางทั้งหมดจะถูกเปลี่ยนแปลงอย่างผิดพลาด นอกจากนี้ เรายังสามารถบูรณาการความรู้ที่สะสมเกี่ยวกับวิถีทางชีวเคมี (เช่นวิถีการส่งสัญญาณ JAK-STAT ) โดยใช้วิธีการนี้ ได้อีกด้วย

ความก้าวหน้าของชีวสารสนเทศในด้านฐานข้อมูล การวิเคราะห์ข้อมูล และการตีความทางชีววิทยา

การพัฒนาฐานข้อมูลทางชีววิทยาทำให้สามารถจัดเก็บและจัดการข้อมูลทางชีววิทยาได้ โดยมีความเป็นไปได้ที่จะรับประกันการเข้าถึงสำหรับผู้ใช้ทั่วโลก ฐานข้อมูลเหล่านี้มีประโยชน์สำหรับนักวิจัยในการฝากข้อมูล ดึงข้อมูลและไฟล์ (ดิบหรือประมวลผลแล้ว) ที่มาจากการทดลองอื่น ๆ หรือจัดทำดัชนีบทความทางวิทยาศาสตร์ เช่นPubMedอีกความเป็นไปได้หนึ่งคือการค้นหาคำที่ต้องการ (ยีน โปรตีน โรค สิ่งมีชีวิต เป็นต้น) และตรวจสอบผลลัพธ์ทั้งหมดที่เกี่ยวข้องกับการค้นหานี้ มีฐานข้อมูลที่อุทิศให้กับSNP ( dbSNP ) ความรู้เกี่ยวกับลักษณะเฉพาะของยีนและวิถีของยีน ( KEGG ) และคำอธิบายของหน้าที่ของยีนโดยจำแนกตามส่วนประกอบของเซลล์ หน้าที่ของโมเลกุล และกระบวนการทางชีววิทยา ( Gene Ontology ) [ 23 ]นอกจากฐานข้อมูลที่ประกอบด้วยข้อมูลโมเลกุลเฉพาะแล้ว ยังมีฐานข้อมูลอื่น ๆ ที่กว้างขวางในแง่ที่ว่ามันจัดเก็บข้อมูลเกี่ยวกับสิ่งมีชีวิตหรือกลุ่มของสิ่งมีชีวิต ตัวอย่างของฐานข้อมูลที่มุ่งเน้นไปที่สิ่งมีชีวิตเพียงชนิดเดียว แต่มีข้อมูลมากมายเกี่ยวกับสิ่งมีชีวิตนั้น คือ ฐานข้อมูลทางพันธุกรรมและโมเลกุลของ Arabidopsis thaliana – TAIR [ 24 ] Phytozome [ 25 ]ในทางกลับกัน จะจัดเก็บไฟล์การประกอบและคำอธิบายประกอบของจีโนมพืชหลายสิบรายการ รวมถึงเครื่องมือการแสดงภาพและการวิเคราะห์ด้วย ยิ่งไปกว่านั้น ยังมีการเชื่อมต่อระหว่างฐานข้อมูลบางแห่งในการแลกเปลี่ยน/แบ่งปันข้อมูล และโครงการริเริ่มที่สำคัญคือInternational Nucleotide Sequence Database Collaboration (INSDC) [ 26 ]ซึ่งเชื่อมโยงข้อมูลจาก DDBJ [ 27 ] EMBL-EBI [ 28 ]และ NCBI [ 29 ]

ในปัจจุบัน การเพิ่มขนาดและความซับซ้อนของชุดข้อมูลโมเลกุลนำไปสู่การใช้วิธีการทางสถิติที่มีประสิทธิภาพซึ่งจัดหาโดยอัลกอริธึมวิทยาศาสตร์คอมพิวเตอร์ที่พัฒนาโดย สาขา การเรียนรู้ของเครื่องดังนั้น การขุดข้อมูลและการเรียนรู้ของเครื่องจึงช่วยให้สามารถตรวจจับรูปแบบในข้อมูลที่มีโครงสร้างซับซ้อน เช่น ข้อมูลทางชีววิทยา โดยใช้วิธีการ เรียนรู้แบบ มีผู้กำกับดูแลและไม่มีผู้กำกับดูแลการถดถอย การตรวจจับคลัสเตอร์และการขุดกฎความสัมพันธ์เป็นต้น[ 23 ]เพื่อระบุบางส่วนแผนที่จัดระเบียบตนเองและk -meansเป็นตัวอย่างของอัลกอริธึมคลัสเตอร์ การใช้งาน เครือข่ายประสาทเทียมและ แบบจำลอง เครื่องเวกเตอร์สนับสนุนเป็นตัวอย่างของอัลกอริธึมการเรียนรู้ของเครื่องทั่วไป

การทำงานร่วมกันระหว่างนักชีววิทยาโมเลกุล นักชีวสารสนเทศ นักสถิติ และนักวิทยาศาสตร์คอมพิวเตอร์มีความสำคัญต่อการทำการทดลองอย่างถูกต้อง โดยเริ่มตั้งแต่การวางแผน การสร้างและการวิเคราะห์ข้อมูล ไปจนถึงการตีความผลลัพธ์ทางชีววิทยา[ 23 ]

การใช้วิธีการที่ต้องใช้การคำนวณอย่างหนัก

ในทางกลับกัน การเกิดขึ้นของเทคโนโลยีคอมพิวเตอร์สมัยใหม่และทรัพยากรการคำนวณที่มีราคาค่อนข้างถูก ทำให้สามารถนำวิธีการทางสถิติชีวภาพที่ต้องใช้การคำนวณอย่างหนักมาใช้ได้ เช่นวิธี การบูตสแตรปและการสุ่มตัวอย่างซ้ำ

ในปัจจุบันRandom Forestsได้รับความนิยมมากขึ้นในฐานะวิธีการจัดกลุ่มทางสถิติเทคนิค Random Forests สร้างแผงของต้นไม้ตัดสินใจ ต้นไม้ตัดสินใจมีข้อดีคือสามารถวาดและตีความได้ (แม้จะมีความเข้าใจพื้นฐานทางคณิตศาสตร์และสถิติ) ดังนั้น Random Forests จึงถูกนำมาใช้ในระบบสนับสนุนการตัดสินใจทางคลินิก[ 30 ]

แอปพลิเคชัน

สาธารณสุข

สาธารณสุขรวมถึงระบาดวิทยาการวิจัยบริการสุขภาพโภชนาการสุขภาพสิ่งแวดล้อมและนโยบายและการจัดการด้านการดูแลสุขภาพ ในเนื้อหาทางการแพทย์เหล่านี้สิ่งสำคัญคือต้องพิจารณาการออกแบบและการวิเคราะห์การทดลองทางคลินิกตัวอย่างเช่น การประเมินระดับความรุนแรงของผู้ป่วยและการพยากรณ์ผลลัพธ์ของโรค

ด้วยเทคโนโลยีใหม่และความรู้ทางพันธุศาสตร์ ปัจจุบันสถิติชีวภาพยังถูกนำมาใช้ในเวชศาสตร์ระบบซึ่งประกอบด้วยเวชศาสตร์เฉพาะบุคคลมากขึ้น เพื่อการนี้ จึงมีการบูรณาการข้อมูลจากแหล่งต่างๆ รวมถึงข้อมูลผู้ป่วยทั่วไป พารามิเตอร์ทางคลินิกและพยาธิวิทยา ข้อมูลโมเลกุลและพันธุกรรม ตลอดจนข้อมูลที่สร้างขึ้นจากเทคโนโลยีโอไมซ์ใหม่เพิ่มเติม[ 31 ]

พันธุศาสตร์เชิงปริมาณ

การศึกษาพันธุศาสตร์ประชากรและพันธุศาสตร์เชิงสถิติเพื่อเชื่อมโยงความแปรผันในจีโนไทป์กับความแปรผันในฟีโนไทป์กล่าวอีกนัยหนึ่งคือ เป็นที่พึงปรารถนาที่จะค้นพบพื้นฐานทางพันธุกรรมของลักษณะที่วัดได้ ซึ่งเป็นลักษณะเชิงปริมาณที่อยู่ภายใต้การควบคุมของยีนหลายตัว บริเวณจีโนมที่รับผิดชอบต่อลักษณะต่อเนื่องเรียกว่าตำแหน่งลักษณะเชิงปริมาณ (QTL) การศึกษา QTL เป็นไปได้โดยใช้เครื่องหมายโมเลกุลและการวัดลักษณะในประชากร แต่การทำแผนที่จำเป็นต้องได้รับประชากรจากการผสมพันธุ์ทดลอง เช่น F2 หรือ สาย พันธุ์/สายผสมแบบรีคอมบิแนนท์ (RILs) เพื่อสแกนหาบริเวณ QTL ในจีโนม จำเป็นต้องสร้าง แผนที่ยีนโดยอิงจากการเชื่อมโยง อัลกอริทึมการทำแผนที่ QTL ที่เป็นที่รู้จักดีที่สุดบางส่วน ได้แก่ การทำแผนที่ช่วง การทำแผนที่ช่วงแบบผสม และการทำแผนที่ช่วงหลายช่วง[ 32 ]

อย่างไรก็ตาม ความละเอียดของการทำแผนที่ QTL จะลดลงเนื่องจากปริมาณการรวมตัวใหม่ที่ทดสอบ ซึ่งเป็นปัญหาสำหรับสายพันธุ์ที่ยากต่อการได้ลูกหลานจำนวนมาก นอกจากนี้ ความหลากหลายของอัลลีลยังจำกัดอยู่เฉพาะบุคคลที่มาจากพ่อแม่ที่แตกต่างกัน ซึ่งจำกัดการศึกษาความหลากหลายของอัลลีลเมื่อเรามีกลุ่มบุคคลที่เป็นตัวแทนของประชากรตามธรรมชาติ[ 33 ]ด้วยเหตุนี้ จึง มีการเสนอ การศึกษาการเชื่อมโยงทั่วทั้งจีโนมเพื่อระบุ QTL โดยอาศัยความไม่สมดุลของการเชื่อมโยงนั่นคือ การเชื่อมโยงที่ไม่เป็นแบบสุ่มระหว่างลักษณะและเครื่องหมายโมเลกุล โดยใช้ประโยชน์จากการพัฒนาการ ตรวจหา จีโนไทป์SNP ที่มีความเร็วสูง [ 34 ]

ใน การปรับปรุงพันธุ์ สัตว์และพืชการใช้เครื่องหมายในการคัดเลือกเพื่อการปรับปรุงพันธุ์ โดยเฉพาะเครื่องหมายระดับโมเลกุล ได้ช่วยส่งเสริมการพัฒนาการคัดเลือกโดยใช้เครื่องหมายช่วยในขณะที่การทำแผนที่ QTL มีข้อจำกัดด้านความละเอียด GWAS ก็ไม่มีประสิทธิภาพเพียงพอเมื่อพบตัวแปรที่หายากซึ่งมีผลกระทบเล็กน้อยและได้รับอิทธิพลจากสิ่งแวดล้อมด้วย ดังนั้น แนวคิดของการคัดเลือกทางจีโนม (Genomic Selection: GS) จึงเกิดขึ้นเพื่อใช้เครื่องหมายระดับโมเลกุลทั้งหมดในการคัดเลือกและช่วยให้สามารถทำนายประสิทธิภาพของผู้สมัครในการคัดเลือกนี้ได้ ข้อเสนอคือการกำหนดจีโนไทป์และฟีโนไทป์ของประชากรฝึกอบรม พัฒนาแบบจำลองที่สามารถหาค่าประมาณการทางพันธุกรรม (GEBVs) ของแต่ละบุคคลที่อยู่ในประชากรที่มีจีโนไทป์แต่ไม่มีฟีโนไทป์ เรียกว่าประชากรทดสอบ[ 35 ]การศึกษาประเภทนี้อาจรวมถึงประชากรตรวจสอบความถูกต้อง โดยคิดในแนวคิดของการตรวจสอบแบบไขว้ (cross-validation ) ซึ่งผลลัพธ์ฟีโนไทป์จริงที่วัดได้ในประชากรนี้จะถูกเปรียบเทียบกับผลลัพธ์ฟีโนไทป์ตามการทำนาย ซึ่งใช้ในการตรวจสอบความถูกต้องของแบบจำลอง

โดยสรุปแล้ว ประเด็นสำคัญเกี่ยวกับการประยุกต์ใช้พันธุศาสตร์เชิงปริมาณมีดังนี้:

ข้อมูลการแสดงออก

การศึกษาการแสดงออกของยีนที่แตกต่างกันจากข้อมูลRNA-Seq เช่นเดียวกับ RT-qPCRและไมโครอาร์เรย์จำเป็นต้องเปรียบเทียบสภาวะต่างๆ เป้าหมายคือการระบุยีนที่มีการเปลี่ยนแปลงปริมาณอย่างมีนัยสำคัญระหว่างสภาวะต่างๆ จากนั้นจึงออกแบบการทดลองอย่างเหมาะสม โดยมีการทำซ้ำสำหรับแต่ละสภาวะ/การรักษา การสุ่ม และการแบ่งกลุ่มเมื่อจำเป็น ใน RNA-Seq การหาปริมาณการแสดงออกใช้ข้อมูลของลำดับที่จับคู่ซึ่งสรุปไว้ในหน่วยทางพันธุกรรมบางอย่าง เช่นเอ็กซอนซึ่งเป็นส่วนหนึ่งของลำดับยีน เนื่องจาก ผลลัพธ์ ของไมโครอาร์เรย์สามารถประมาณได้ด้วยการแจกแจงแบบปกติ ข้อมูลการนับ RNA-Seq จึงอธิบายได้ดีกว่าด้วยการแจกแจงอื่นๆ การแจกแจงที่ใช้ครั้งแรกคือการแจกแจงปัวซง แต่ประเมินความคลาดเคลื่อนของตัวอย่างต่ำเกินไป ทำให้เกิดผลบวกเท็จ ปัจจุบัน ความแปรปรวนทางชีวภาพถูกพิจารณาโดยวิธีการที่ประมาณค่าพารามิเตอร์การกระจายของการแจกแจงทวินามเชิงลบแบบจำลองเชิงเส้นทั่วไปถูกใช้เพื่อทำการทดสอบความสำคัญทางสถิติ และเนื่องจากจำนวนยีนมีมาก จึงต้องพิจารณาการแก้ไขการทดสอบหลายครั้ง[ 36 ]ตัวอย่างอื่นๆ ของการวิเคราะห์ ข้อมูล จีโนมิกส์มาจากการทดลอง ไมโครอาร์เรย์หรือ โปรตีโอมิกส์[ 37 ] [ 38 ]มักเกี่ยวข้องกับโรคหรือระยะของโรค[ 39 ]

การศึกษาอื่นๆ

เครื่องมือ

มีเครื่องมือมากมายที่สามารถใช้ในการวิเคราะห์ทางสถิติกับข้อมูลทางชีววิทยา เครื่องมือส่วนใหญ่มีประโยชน์ในสาขาความรู้ด้านอื่นๆ ด้วย ครอบคลุมการใช้งานจำนวนมาก (เรียงตามตัวอักษร) ต่อไปนี้เป็นคำอธิบายโดยย่อของเครื่องมือบางส่วน:

  • ASReml : ซอฟต์แวร์อีกตัวที่พัฒนาโดย VSNi [ 42 ]ซึ่งสามารถใช้ในสภาพแวดล้อม R ในรูปแบบแพ็กเกจได้เช่นกัน พัฒนาขึ้นเพื่อประมาณค่าส่วนประกอบความแปรปรวนภายใต้แบบจำลองเชิงเส้นผสมทั่วไปโดยใช้ความน่าจะเป็นสูงสุดแบบจำกัด (REML) อนุญาตให้ใช้แบบจำลองที่มีผลกระทบคงที่และผลกระทบสุ่ม รวมถึงแบบจำลองที่ซ้อนกันหรือแบบไขว้กัน ทำให้สามารถตรวจสอบโครงสร้างเมทริกซ์ความแปรปรวนร่วมที่ แตกต่างกันได้
  • CycDesigN: [ 43 ]แพ็คเกจคอมพิวเตอร์ที่พัฒนาโดย VSNi [ 42 ]ซึ่งช่วยให้นักวิจัยสร้างการออกแบบการทดลองและวิเคราะห์ข้อมูลที่ได้จากการออกแบบที่มีอยู่ในหนึ่งในสามคลาสที่จัดการโดย CycDesigN คลาสเหล่านี้ได้แก่ การออกแบบที่สามารถแก้ไขได้ การออกแบบที่ไม่สามารถแก้ไขได้ การออกแบบที่ทำซ้ำบางส่วน และการออกแบบแบบค รอสโอเวอร์ รวมถึงการออกแบบที่ใช้น้อยกว่า เช่น การออกแบบแบบละติน เช่น การออกแบบแบบ t-Latinized [ 44 ]
  • ออเรนจ์ : อินเทอร์เฟซการเขียนโปรแกรมสำหรับการประมวลผลข้อมูลระดับสูง การขุดข้อมูล และการแสดงภาพข้อมูล รวมถึงเครื่องมือสำหรับการแสดงออกของยีนและจีโนมิกส์[ 23 ]
  • R : สภาพแวดล้อม โอเพนซอร์สและภาษาโปรแกรมที่อุทิศให้กับการคำนวณทางสถิติและกราฟิก เป็นการใช้งาน ภาษา Sที่ดูแลโดย CRAN [ 45 ]นอกเหนือจากฟังก์ชันในการอ่านตารางข้อมูล การคำนวณสถิติเชิงพรรณนา การพัฒนาและประเมินแบบจำลองแล้ว คลังข้อมูลของ R ยังมีแพ็กเกจที่พัฒนาโดยนักวิจัยทั่วโลก ซึ่งช่วยให้สามารถพัฒนาฟังก์ชันที่เขียนขึ้นเพื่อจัดการกับการวิเคราะห์ทางสถิติของข้อมูลที่มาจากแอปพลิเคชันเฉพาะ[ 46 ]ในกรณีของชีวสารสนเทศศาสตร์ ตัวอย่างเช่น มีแพ็กเกจที่อยู่ในคลังข้อมูลหลัก (CRAN) และในคลังข้อมูลอื่นๆ เช่นBioconductor นอกจากนี้ยังสามารถใช้แพ็กเกจที่อยู่ระหว่างการพัฒนาซึ่งมีการแชร์ในบริการโฮส ติ้งเช่นGitHub ได้อีกด้วย
  • SAS : ซอฟต์แวร์วิเคราะห์ข้อมูลที่ใช้กันอย่างแพร่หลายในมหาวิทยาลัย หน่วยงานบริการ และภาคอุตสาหกรรม พัฒนาโดยบริษัทชื่อเดียวกัน ( SAS Institute ) โดยใช้ภาษา SASในการเขียนโปรแกรม
  • PLA 3.0: [ 47 ]เป็นซอฟต์แวร์วิเคราะห์ทางชีวสถิติสำหรับสภาพแวดล้อมที่มีการควบคุม (เช่น การทดสอบยา) ซึ่งรองรับการทดสอบการตอบสนองเชิงปริมาณ (Parallel-Line, Parallel-Logistics, Slope-Ratio) และการทดสอบแบบสองตัวเลือก (Quantal Response, Binary Assays) นอกจากนี้ยังรองรับวิธีการถ่วงน้ำหนักสำหรับการคำนวณแบบผสมผสานและการรวมข้อมูลการทดสอบอิสระโดยอัตโนมัติ
  • Weka : ซอฟต์แวร์ Javaสำหรับการเรียนรู้ของเครื่องและการขุดข้อมูลรวมถึงเครื่องมือและวิธีการสำหรับการแสดงภาพ การจัดกลุ่ม การถดถอย กฎความสัมพันธ์ และการจำแนกประเภท มีเครื่องมือสำหรับการตรวจสอบแบบไขว้ การบูตสแตรป และโมดูลสำหรับการเปรียบเทียบอัลกอริทึม นอกจากนี้ Weka ยังสามารถทำงานในภาษาโปรแกรมอื่น ๆ เช่น Perl หรือ R ได้อีกด้วย[ 23 ]
  • การวิเคราะห์ภาพด้วย ภาษา Python (ภาษาโปรแกรม) , การเรียนรู้เชิงลึก, การเรียนรู้ของเครื่อง
  • ฐานข้อมูลSQL
  • NoSQL
  • NumPyตัวเลขในภาษา Python
  • ไซพาย
  • เซจแมธ
  • พีชคณิตเชิงเส้นLAPACK
  • MATLAB
  • Apache Hadoop
  • Apache Spark
  • บริการเว็บอเมซอน

ขอบเขตและโปรแกรมการฝึกอบรม

หลักสูตรการศึกษาด้านชีวสถิติเกือบทั้งหมดอยู่ใน ระดับ บัณฑิตศึกษาโดยส่วนใหญ่จะอยู่ในโรงเรียนสาธารณสุข สังกัดโรงเรียนแพทย์ ป่าไม้ หรือเกษตรศาสตร์ หรือเป็นสาขาประยุกต์ในภาควิชาสถิติ

ในสหรัฐอเมริกา ซึ่งมีมหาวิทยาลัยหลายแห่งที่มีภาควิชาชีวสถิติโดยเฉพาะ มหาวิทยาลัยชั้นนำอื่นๆ อีกมากมายได้บูรณาการคณาจารย์ด้านชีวสถิติเข้ากับภาควิชาสถิติหรือภาควิชาอื่นๆ เช่นระบาดวิทยาดังนั้น ภาควิชาที่ใช้ชื่อว่า "ชีวสถิติ" อาจมีโครงสร้างที่แตกต่างกันออกไป ตัวอย่างเช่น ภาควิชาชีวสถิติที่ค่อนข้างใหม่ก่อตั้งขึ้นโดยเน้นด้านชีวสารสนเทศและชีววิทยาเชิง คำนวณ ในขณะที่ภาควิชาที่เก่าแก่กว่า ซึ่งโดยทั่วไปแล้วมักสังกัดคณะสาธารณสุขศาสตร์จะมีสายงานวิจัยแบบดั้งเดิมมากกว่า เช่น การศึกษาทางระบาดวิทยาและการทดลองทางคลินิกรวมถึงชีวสารสนเทศด้วย ในมหาวิทยาลัยขนาดใหญ่ทั่วโลก ที่มีทั้งภาควิชาสถิติและภาควิชาชีวสถิติ ระดับของการบูรณาการระหว่างสองภาควิชาอาจแตกต่างกันไปตั้งแต่ขั้นต่ำสุดไปจนถึงความร่วมมืออย่างใกล้ชิด โดยทั่วไป ความแตกต่างระหว่างหลักสูตรสถิติและหลักสูตรชีวสถิติมีอยู่สองประการ คือ (i) ภาควิชาสถิติมักจะทำการวิจัยเชิงทฤษฎี/ระเบียบวิธี ซึ่งพบได้น้อยในหลักสูตรชีวสถิติ และ (ii) ภาควิชาสถิติมีสายงานวิจัยที่อาจรวมถึงการประยุกต์ใช้ในด้านชีวการแพทย์ แต่ยังรวมถึงด้านอื่นๆ เช่น อุตสาหกรรม ( การควบคุมคุณภาพ ) ธุรกิจเศรษฐศาสตร์และสาขาชีววิทยาอื่นๆ นอกเหนือจากทางการแพทย์ด้วย

วารสารเฉพาะทาง

  • สถิติชีวภาพ[ 48 ]
  • วารสารสถิติชีวภาพระหว่างประเทศ[ 49 ]
  • วารสารระบาดวิทยาและสถิติชีวภาพ[ 50 ]
  • สถิติชีวภาพและสาธารณสุข[ 51 ]
  • ไบโอเมตริกส์[ 52 ]
  • ไบโอเมตริก[ 53 ]
  • วารสารไบโอเมตริกส์[ 54 ]
  • การสื่อสารในชีวสถิติและวิทยาศาสตร์พืชผล[ 55 ]
  • การประยุกต์ใช้ทางสถิติในพันธุศาสตร์และชีววิทยาโมเลกุล[ 56 ]
  • วิธีการทางสถิติในการวิจัยทางการแพทย์[ 57 ]
  • สถิติเภสัชกรรม[ 58 ]
  • สถิติทางการแพทย์[ 59 ]

ดูเพิ่มเติม

  • โลโก้ Wikimedia Commonsสื่อที่เกี่ยวข้องกับสถิติชีวภาพในวิกิมีเดียคอมมอนส์
  • สมาคมไบโอเมตริกส์ระหว่างประเทศ
  • คลังเอกสารงานวิจัยด้านสถิติชีวภาพ
  • คู่มือสถิติชีวภาพ (MedPageToday.com) เก็บถาวรเมื่อ 22 พฤษภาคม 2012 ที่Wayback Machine
  • สถิติชีวการแพทย์
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Biostatistics&oldid=1359738472 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ชีวสถิติ

ชีวสถิติ (บางครั้งเรียกว่าไบโอเมทรี ) เป็นสาขาหนึ่งของสถิติที่ประยุกต์ใช้วิธีการทางสถิติกับหัวข้อต่างๆ...

สถิติชีวภาพและพันธุศาสตร์

การสร้างแบบจำลองทางสถิติชีวภาพเป็นส่วนสำคัญของทฤษฎีทางชีววิทยาสมัยใหม่จำนวนมาก การศึกษา พันธุศาสตร์ ตั้งแต่เริ่มต้นได้ใช้แนวคิดทางสถิติเพื่อทำความเข้าใจผลการทดลองที่สังเกตได้...

การวางแผนการวิจัย

งานวิจัยใดๆ ใน สาขาวิทยาศาสตร์ชีวภาพ มีจุดมุ่งหมายเพื่อตอบ คำถามทางวิทยาศาสตร์ ที่เราอาจมี เพื่อให้ได้คำตอบที่แน่ชัด เราจำเป็นต้องได้ ผลลัพธ์ ที่แม่นยำ การกำหนด สมมติฐาน หลักและแผนการวิจัยที่ถูกต้องจะช่วยลดข้อผิดพลาดในการตัดสินใจเพื่อทำความเข้าใจปรากฏการณ์...

คำถามวิจัย

คำถามวิจัยจะกำหนดวัตถุประสงค์ของการศึกษา การวิจัยจะต้องนำโดยคำถาม ดังนั้นจึงต้องกระชับ ในขณะเดียวกันก็ต้องมุ่งเน้นไปที่หัวข้อที่น่าสนใจและแปลกใหม่ซึ่งอาจช่วยพัฒนาวิทยาศาสตร์และความรู้ในสาขานั้นได้ การกำหนดวิธีการตั้ง คำถามทางวิทยาศาสตร์ อาจจำเป็นต้องมี...