กลับไปหน้าบทความ

อ่าน 5 นาที

สถิติหลายตัวแปร

สถิติหลายตัวแปร เป็นสาขาย่อยของ สถิติ ที่ครอบคลุมการสังเกตและการวิเคราะห์ ตัวแปรผลลัพธ์ มากกว่าหนึ่งตัวพร้อมกัน กล่าวคือ ตัวแปรสุ่ม หลายตัวแปร...

สถิติหลายตัวแปร

สถิติหลายตัวแปรเป็นสาขาย่อยของสถิติ ที่ครอบคลุมการสังเกตและการวิเคราะห์ ตัวแปรผลลัพธ์มากกว่าหนึ่งตัวพร้อมกัน กล่าวคือตัวแปรสุ่มหลายตัวแปร สถิติหลายตัวแปรเกี่ยวข้องกับการทำความเข้าใจเป้าหมายและพื้นฐานที่แตกต่างกันของรูปแบบการวิเคราะห์หลายตัวแปรแต่ละแบบ และความสัมพันธ์ระหว่างกัน การประยุกต์ใช้สถิติหลายตัวแปรในทางปฏิบัติกับปัญหาเฉพาะอาจเกี่ยวข้องกับการวิเคราะห์ตัวแปรเดียวและหลายตัวแปรหลายประเภท เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรและความเกี่ยวข้องกับปัญหาที่กำลังศึกษา

นอกจากนี้ สถิติหลายตัวแปรยังเกี่ยวข้องกับการกระจายความน่าจะ เป็นหลายตัวแปร ทั้งในแง่ของตัวแปรเชิงจำนวนและตัวแปรเชิงปริมาณ

  • วิธีการนำสิ่งเหล่านี้มาใช้เพื่อแสดงการกระจายของข้อมูลที่สังเกตได้
  • วิธีการนำไปใช้ในการอนุมานทางสถิติโดยเฉพาะอย่างยิ่งในกรณีที่สนใจปริมาณที่แตกต่างกันหลายอย่างในการวิเคราะห์เดียวกัน

ปัญหาบางประเภทที่เกี่ยวข้องกับข้อมูลหลายตัวแปร เช่นการถดถอยเชิงเส้นอย่างง่ายและการถดถอยพหุตัวแปรมักไม่ถือว่าเป็นกรณีพิเศษของสถิติหลายตัวแปร เนื่องจากเป็นการวิเคราะห์โดยพิจารณาการแจกแจงแบบมีเงื่อนไข (แบบตัวแปรเดียว) ของตัวแปรผลลัพธ์ตัวเดียว โดยกำหนดให้ตัวแปรอื่นๆ เป็นตัวกำหนด

การวิเคราะห์หลายตัวแปร

การวิเคราะห์หลายตัวแปร ( MVA ) อิงตามหลักการของสถิติหลายตัวแปร โดยทั่วไป MVA ใช้เพื่อจัดการกับสถานการณ์ที่มีการวัดหลายครั้งในแต่ละหน่วยทดลอง และความสัมพันธ์ระหว่างการวัดเหล่านี้และโครงสร้างของพวกมันมีความสำคัญ[ 1 ]การจัดหมวดหมู่ MVA ที่ทันสมัยและทับซ้อนกัน ได้แก่: [ 1 ]

การวิเคราะห์หลายตัวแปรอาจมีความซับซ้อนมากขึ้นเมื่อต้องการรวมการวิเคราะห์ตามหลักฟิสิกส์เพื่อคำนวณผลกระทบของตัวแปรสำหรับ "ระบบของระบบ" แบบลำดับชั้น บ่อยครั้งที่งานวิจัยที่ต้องการใช้การวิเคราะห์หลายตัวแปรต้องหยุดชะงักลงเนื่องจากมิติของปัญหา ความกังวลเหล่านี้มักจะบรรเทาลงได้ด้วยการใช้แบบจำลองตัวแทน (surrogate models)ซึ่งเป็นการประมาณค่าที่แม่นยำสูงของรหัสตามหลักฟิสิกส์ เนื่องจากแบบจำลองตัวแทนอยู่ในรูปของสมการ จึงสามารถประเมินผลได้อย่างรวดเร็วมาก สิ่งนี้กลายเป็นตัวช่วยสำหรับงานวิจัย MVA ขนาดใหญ่: ในขณะที่การจำลองแบบมอนเตคาร์โลทั่วพื้นที่การออกแบบทำได้ยากด้วยรหัสตามหลักฟิสิกส์ แต่จะกลายเป็นเรื่องง่ายเมื่อประเมินแบบจำลองตัวแทน ซึ่งมักอยู่ในรูปของสมการ พื้นผิวการตอบสนอง

ประเภทของการวิเคราะห์

ใน MVA มีการใช้โมเดลที่หลากหลาย โดยแต่ละโมเดลมีวิธีการวิเคราะห์เฉพาะของตนเอง:

  1. การวิเคราะห์ความแปรปรวนหลายตัวแปร (MANOVA) เป็นการขยายขอบเขตของการวิเคราะห์ความแปรปรวนเพื่อครอบคลุมกรณีที่มีตัวแปรตามมากกว่าหนึ่งตัวที่ต้องวิเคราะห์พร้อมกัน โปรดดูเพิ่มเติมที่การวิเคราะห์ความแปรปรวนร่วมหลายตัวแปร (MANCOVA)
  2. การถดถอยแบบหลายตัวแปรพยายามกำหนดสูตรที่สามารถอธิบายได้ว่าองค์ประกอบในเวกเตอร์ของตัวแปรตอบสนองต่อการเปลี่ยนแปลงในตัวแปรอื่นพร้อมกันอย่างไร สำหรับความสัมพันธ์เชิงเส้น การวิเคราะห์การถดถอยในที่นี้จะขึ้นอยู่กับรูปแบบของแบบจำลองเชิงเส้นทั่วไปบางคนเสนอว่าการถดถอยแบบหลายตัวแปรแตกต่างจากการถดถอยแบบหลายตัวแปร อย่างไรก็ตาม เรื่องนี้ยังเป็นที่ถกเถียงและไม่เป็นจริงอย่างสม่ำเสมอในสาขาวิทยาศาสตร์[ 2 ]
  3. การวิเคราะห์ส่วนประกอบหลัก (PCA) สร้างชุด ตัวแปร เชิง ตั้งฉากชุดใหม่ ที่มีข้อมูลเดียวกันกับชุดเดิม โดยจะหมุนแกนของการแปรผันเพื่อให้ได้ชุดแกนเชิงตั้งฉากชุดใหม่ ซึ่งเรียงลำดับตามสัดส่วนของการแปรผันที่ลดลง
  4. การวิเคราะห์ปัจจัยคล้ายกับการวิเคราะห์องค์ประกอบหลัก (PCA) แต่ช่วยให้ผู้ใช้สามารถดึงตัวแปรสังเคราะห์ออกมาได้ตามจำนวนที่กำหนด ซึ่งน้อยกว่าชุดตัวแปรเดิม ทำให้ความแปรปรวนที่เหลือซึ่งอธิบายไม่ได้ถูกเรียกว่าค่าความคลาดเคลื่อน ตัวแปรที่ดึงออกมาเรียกว่าตัวแปรแฝงหรือปัจจัย โดยแต่ละปัจจัยอาจอธิบายความแปรปรวนร่วมกันในกลุ่มของตัวแปรที่สังเกตได้
  5. การวิเคราะห์ความสัมพันธ์แบบแคนอนิกจะค้นหาความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองชุด ซึ่งเป็นเวอร์ชันทั่วไป (เช่น แคนอนิก) ของความสัมพันธ์ แบบสองตัวแปร [ 3 ]
  6. การวิเคราะห์ความซ้ำซ้อน[ 4 ] (RDA) คล้ายกับการวิเคราะห์ความสัมพันธ์แบบแคนอนิก แต่ช่วยให้ผู้ใช้สามารถสร้างตัวแปรสังเคราะห์จำนวนหนึ่งจากชุดตัวแปร (อิสระ) ชุดหนึ่งที่อธิบายความแปรปรวนได้มากที่สุดเท่าที่จะเป็นไปได้ในอีกชุดหนึ่ง (อิสระ) ถือเป็นแบบจำลองการถดถอย แบบหลายตัวแปร [ 5 ]
  7. การวิเคราะห์ความสัมพันธ์ (Correspondence Analysis: CA) หรือการหาค่าเฉลี่ยแบบผกผัน จะค้นหาชุดตัวแปรสังเคราะห์ (เช่นเดียวกับ PCA) ที่สรุปชุดตัวแปรดั้งเดิม โดยแบบจำลองพื้นฐานจะถือว่ามีความแตกต่างกันแบบไคสแควร์ระหว่างบันทึก (กรณีต่างๆ)
  8. การวิเคราะห์ความสัมพันธ์แบบแคนอนิก (หรือ "แบบจำกัด") (CCA) สำหรับสรุปความแปรผันร่วมกันในตัวแปรสองชุด (เช่น การวิเคราะห์ความซ้ำซ้อน) ซึ่งเป็นการผสมผสานระหว่างการวิเคราะห์ความสัมพันธ์และการวิเคราะห์การถดถอยแบบหลายตัวแปร โดยแบบจำลองพื้นฐานจะถือว่ามีความแตกต่างแบบไคกำลังสองระหว่างบันทึก (กรณีต่างๆ)
  9. การวิเคราะห์แบบสเกลลิ่งหลายมิติประกอบด้วยอัลกอริธึมต่างๆ เพื่อกำหนดชุดของตัวแปรสังเคราะห์ที่แสดงถึงระยะห่างระหว่างคู่ข้อมูลได้ดีที่สุด วิธีการดั้งเดิมคือการวิเคราะห์พิกัดหลัก (PCoA; อิงตาม PCA)
  10. การวิเคราะห์จำแนกกลุ่มหรือการวิเคราะห์ตัวแปรหลัก พยายามที่จะตรวจสอบว่าชุดของตัวแปรสามารถใช้ในการแยกแยะความแตกต่างระหว่างกลุ่มกรณีสองกลุ่มขึ้นไปได้หรือไม่
  11. การวิเคราะห์จำแนกเชิงเส้น (LDA) คำนวณตัวทำนายเชิงเส้นจากชุดข้อมูลสองชุดที่มีการกระจายแบบปกติ เพื่อใช้ในการจำแนกประเภทของข้อมูลใหม่
  12. ระบบการจัดกลุ่มจะกำหนดวัตถุต่างๆ เข้าเป็นกลุ่ม (เรียกว่าคลัสเตอร์) โดยที่วัตถุ (กรณีต่างๆ) จากคลัสเตอร์เดียวกันจะมีความคล้ายคลึงกันมากกว่าวัตถุจากคลัสเตอร์ที่แตกต่างกัน
  13. การแบ่งพาร์ติชันแบบเรียกซ้ำจะสร้างแผนผังการตัดสินใจที่พยายามจำแนกสมาชิกของประชากรอย่างถูกต้องโดยอาศัยตัวแปรตามแบบสองค่า
  14. โครงข่ายประสาทเทียมขยายวิธีการถดถอยและการจัดกลุ่มไปสู่แบบจำลองหลายตัวแปรที่ไม่เป็นเชิงเส้น
  15. สามารถใช้กราฟทางสถิติเช่น แผนภูมิแสดงเส้นทาง แผนภูมิพิกัดขนาน และเมทริกซ์แผนภูมิกระจาย เพื่อสำรวจข้อมูลหลายตัวแปรได้
  16. แบบจำลองสมการพร้อมกันเกี่ยวข้องกับสมการถดถอยมากกว่าหนึ่งสมการ โดยมีตัวแปรตามที่แตกต่างกัน ซึ่งจะถูกประมาณค่าพร้อมกัน
  17. การวิเคราะห์การถดถอยอัตโนมัติแบบเวกเตอร์ เกี่ยวข้องกับการวิเคราะห์การถดถอยพร้อมกันของตัวแปรอนุกรม เวลาต่างๆกับค่าที่ล่าช้าของตัวแปรเหล่านั้นเองและของตัวแปรอื่นๆ
  18. การวิเคราะห์ เส้นโค้งการตอบสนองหลัก (PRC) เป็นวิธีการที่ใช้ RDA ซึ่งช่วยให้ผู้ใช้สามารถมุ่งเน้นไปที่ผลกระทบของการรักษาเมื่อเวลาผ่านไปโดยการแก้ไขการเปลี่ยนแปลงในการรักษาแบบควบคุมเมื่อเวลาผ่านไป[ 6 ]
  19. การแสดงความสัมพันธ์เชิงสัญลักษณ์นั้นคือการแทนที่เมทริกซ์ความสัมพันธ์ด้วยแผนภาพ โดยความสัมพันธ์ที่ "โดดเด่น" จะแสดงด้วยเส้นทึบ (ความสัมพันธ์เชิงบวก) หรือเส้นประ (ความสัมพันธ์เชิงลบ)

การจัดการกับข้อมูลที่ไม่สมบูรณ์

เป็นเรื่องปกติมากที่ในชุดข้อมูลที่ได้จากการทดลอง ค่าของส่วนประกอบบางส่วนของจุดข้อมูลที่กำหนดจะขาดหายไปแทนที่จะทิ้งจุดข้อมูลทั้งหมด มักจะ "เติม" ค่าสำหรับส่วนประกอบที่ขาดหายไป ซึ่งเป็นกระบวนการที่เรียกว่า " การเติมค่า " [ 7 ]

การแจกแจงความน่าจะเป็นที่สำคัญ

มีชุดของการแจกแจงความน่าจะเป็นที่ใช้ในการวิเคราะห์หลายตัวแปร ซึ่งมีบทบาทคล้ายคลึงกับชุดของการแจกแจงความน่าจะเป็นที่ใช้ในการวิเคราะห์ ตัวแปรเดียว เมื่อการแจกแจงปกติเหมาะสมกับชุดข้อมูล การแจกแจงหลายตัวแปรเหล่านี้ได้แก่:

การแจกแจงแบบ Inverse-Wishartมีความสำคัญในการอนุมานแบบเบย์เซียนตัวอย่างเช่น ในการถดถอยเชิงเส้นหลายตัวแปรแบบเบย์เซียนนอกจากนี้การแจกแจงแบบ Hotelling's T-squaredเป็นการแจกแจงหลายตัวแปร ซึ่งเป็นการขยายความของการ แจกแจงแบบ Student's t-distributionที่ ใช้ในการทดสอบสมมติฐาน หลายตัวแปร

ประวัติศาสตร์

CR Raoมีส่วนสำคัญอย่างยิ่งต่อทฤษฎีสถิติหลายตัวแปรตลอดอาชีพการงานของเขา โดยเฉพาะอย่างยิ่งในช่วงกลางศตวรรษที่ 20 ผลงานชิ้นสำคัญชิ้นหนึ่งของเขาคือหนังสือชื่อ "Advanced Statistical Methods in Biometric Research" ซึ่งตีพิมพ์ในปี 1952 ผลงานชิ้นนี้ได้วางรากฐานสำหรับแนวคิดหลายอย่างในสถิติหลายตัวแปร[ 8 ] ตำราเรียนของ Anderson ในปี 1958 เรื่องAn Introduction to Multivariate Statistical Analysis [ 9 ] ได้ให้ความรู้แก่นักทฤษฎีและนักสถิติประยุกต์รุ่นหนึ่ง หนังสือของ Anderson เน้นการทดสอบสมมติฐานผ่านการทดสอบอัตราส่วนความน่าจะเป็นและคุณสมบัติของฟังก์ชันกำลังได้แก่การยอมรับได้ความไม่ลำเอียงและความเป็นเอกภาค[ 10 ] [ 11 ]

เดิมที MVA ถูกกล่าวถึงเฉพาะในบริบทของทฤษฎีทางสถิติเท่านั้น เนื่องจากขนาดและความซับซ้อนของชุดข้อมูลพื้นฐานและการใช้ทรัพยากรการคำนวณสูง แต่ด้วยการเติบโตอย่างรวดเร็วของกำลังการคำนวณ ปัจจุบัน MVA จึงมีบทบาทสำคัญมากขึ้นในการวิเคราะห์ข้อมูลและมีการประยุกต์ใช้อย่างกว้างขวางในสาขา โอไมซ์ (Omics )

แอปพลิเคชัน

ซอฟต์แวร์และเครื่องมือ

มีโปรแกรมและเครื่องมือมากมายสำหรับการวิเคราะห์หลายตัวแปร ซึ่งรวมถึง:

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • จอห์นสัน, ริชาร์ด เอ.; วิเชิร์น, ดีน ดับเบิลยู. (2007). การวิเคราะห์ทางสถิติหลายตัวแปรประยุกต์ (ฉบับที่หก). เพรนติส ฮอลล์. ISBN 978-0-13-187715-3.
  • KV Mardia ; JT Kent; JM Bibby (1979). การวิเคราะห์หลายตัวแปร . สำนักพิมพ์ Academic Press. ISBN 0-12-471252-5.
  • A. Sen, M. Srivastava, การวิเคราะห์การถดถอย — ทฤษฎี วิธีการ และการประยุกต์ใช้ , Springer-Verlag, เบอร์ลิน, 2011 (พิมพ์ครั้งที่ 4)
  • คุก, สเวย์น (2007). กราฟิกเชิงโต้ตอบสำหรับการวิเคราะห์ข้อมูล
  • มาลาคูติ, บี. (2013). ระบบการดำเนินงานและการผลิตที่มีหลายวัตถุประสงค์ จอห์น ไวลีย์ แอนด์ ซันส์
  • ที.วาย. แอนเดอร์สัน, บทนำสู่การวิเคราะห์ทางสถิติแบบหลายตัวแปร , ไวลีย์, นิวยอร์ก, 1958
  • KV Mardia; JT Kent & JM Bibby (1979). การวิเคราะห์หลายตัวแปร. สำนักพิมพ์ Academic Press . ISBN 978-0-12-471252-2.(แนวทาง "ความน่าจะเป็น" ระดับ MA)
  • Feinstein, AR (1996) การวิเคราะห์หลายตัวแปรนิวเฮเวน รัฐคอนเนตทิคัต: สำนักพิมพ์มหาวิทยาลัยเยล
  • Hair, JF Jr. (1995) การวิเคราะห์ข้อมูลหลายตัวแปรพร้อมบทอ่านฉบับที่ 4 Prentice-Hall.
  • Schafer, JL (1997) การวิเคราะห์ข้อมูลหลายตัวแปรที่ไม่สมบูรณ์ CRC Press (ขั้นสูง)
  • Sharma, S. (1996) เทคนิคหลายตัวแปรประยุกต์ . Wiley. (ไม่เป็นทางการ, ประยุกต์)
  • Izenman, Alan J. (2008). เทคนิคทางสถิติหลายตัวแปรสมัยใหม่: การถดถอย การจำแนกประเภท และการเรียนรู้แบบแมนิโฟลด์ Springer Texts in Statistics. นิวยอร์ก: Springer-Verlag. ISBN 9780387781884.
  • Tinsley, Howard EA; Brown, Steven D., บรรณาธิการ (2000). คู่มือสถิติหลายตัวแปรประยุกต์และการสร้างแบบจำลองทางคณิตศาสตร์ . สำนักพิมพ์ Academic Press. doi : 10.1016/B978-0-12-691360-6.X5000-9 . ISBN 978-0-12-691360-6.
  • สถิติเชิงตัวเลข: หัวข้อในการวิเคราะห์ข้อมูลหลายตัวแปร โดย จี. เดวิด การ์สัน
  • ไมค์ พาล์มเมอร์: หน้าเว็บเกี่ยวกับการบวช
  • InsightsNow: ผู้ผลิต ReportsNow, ProfilesNow และ KnowledgeNow
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Multivariate_statistics&oldid=1335423565 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ สถิติหลายตัวแปร

สถิติหลายตัวแปร เป็นสาขาย่อยของ สถิติ ที่ครอบคลุมการสังเกตและการวิเคราะห์ ตัวแปรผลลัพธ์ มากกว่าหนึ่งตัวพร้อมกัน กล่าวคือ ตัวแปรสุ่ม หลายตัวแปร...

การวิเคราะห์หลายตัวแปร

การวิเคราะห์หลายตัวแปร ( MVA ) อิงตามหลักการของสถิติหลายตัวแปร โดยทั่วไป MVA ใช้เพื่อจัดการกับสถานการณ์ที่มีการวัดหลายครั้งในแต่ละหน่วยทดลอง และความสัมพันธ์ระหว่างการวัดเหล่านี้และโครงสร้างของพวกมันมีความสำคัญ [ 1 ] การจัดหมวดหมู่ MVA ที่ทันสมัยและทับซ้อนกัน...

ประเภทของการวิเคราะห์

ใน MVA มีการใช้โมเดลที่หลากหลาย โดยแต่ละโมเดลมีวิธีการวิเคราะห์เฉพาะของตนเอง:

การจัดการกับข้อมูลที่ไม่สมบูรณ์

เป็นเรื่องปกติมากที่ในชุดข้อมูลที่ได้จากการทดลอง ค่าของส่วนประกอบบางส่วนของจุดข้อมูลที่กำหนดจะ ขาดหายไป แทนที่จะทิ้งจุดข้อมูลทั้งหมด มักจะ "เติม" ค่าสำหรับส่วนประกอบที่ขาดหายไป ซึ่งเป็นกระบวนการที่เรียกว่า " การเติมค่า " [ 7 ]