อ่าน 5 นาที
สถิติหลายตัวแปร
สถิติหลายตัวแปร เป็นสาขาย่อยของ สถิติ ที่ครอบคลุมการสังเกตและการวิเคราะห์ ตัวแปรผลลัพธ์ มากกว่าหนึ่งตัวพร้อมกัน กล่าวคือ ตัวแปรสุ่ม หลายตัวแปร...
สถิติหลายตัวแปร
สถิติหลายตัวแปรเป็นสาขาย่อยของสถิติ ที่ครอบคลุมการสังเกตและการวิเคราะห์ ตัวแปรผลลัพธ์มากกว่าหนึ่งตัวพร้อมกัน กล่าวคือตัวแปรสุ่มหลายตัวแปร สถิติหลายตัวแปรเกี่ยวข้องกับการทำความเข้าใจเป้าหมายและพื้นฐานที่แตกต่างกันของรูปแบบการวิเคราะห์หลายตัวแปรแต่ละแบบ และความสัมพันธ์ระหว่างกัน การประยุกต์ใช้สถิติหลายตัวแปรในทางปฏิบัติกับปัญหาเฉพาะอาจเกี่ยวข้องกับการวิเคราะห์ตัวแปรเดียวและหลายตัวแปรหลายประเภท เพื่อทำความเข้าใจความสัมพันธ์ระหว่างตัวแปรและความเกี่ยวข้องกับปัญหาที่กำลังศึกษา
นอกจากนี้ สถิติหลายตัวแปรยังเกี่ยวข้องกับการกระจายความน่าจะ เป็นหลายตัวแปร ทั้งในแง่ของตัวแปรเชิงจำนวนและตัวแปรเชิงปริมาณ
- วิธีการนำสิ่งเหล่านี้มาใช้เพื่อแสดงการกระจายของข้อมูลที่สังเกตได้
- วิธีการนำไปใช้ในการอนุมานทางสถิติโดยเฉพาะอย่างยิ่งในกรณีที่สนใจปริมาณที่แตกต่างกันหลายอย่างในการวิเคราะห์เดียวกัน
ปัญหาบางประเภทที่เกี่ยวข้องกับข้อมูลหลายตัวแปร เช่นการถดถอยเชิงเส้นอย่างง่ายและการถดถอยพหุตัวแปรมักไม่ถือว่าเป็นกรณีพิเศษของสถิติหลายตัวแปร เนื่องจากเป็นการวิเคราะห์โดยพิจารณาการแจกแจงแบบมีเงื่อนไข (แบบตัวแปรเดียว) ของตัวแปรผลลัพธ์ตัวเดียว โดยกำหนดให้ตัวแปรอื่นๆ เป็นตัวกำหนด
การวิเคราะห์หลายตัวแปร
การวิเคราะห์หลายตัวแปร ( MVA ) อิงตามหลักการของสถิติหลายตัวแปร โดยทั่วไป MVA ใช้เพื่อจัดการกับสถานการณ์ที่มีการวัดหลายครั้งในแต่ละหน่วยทดลอง และความสัมพันธ์ระหว่างการวัดเหล่านี้และโครงสร้างของพวกมันมีความสำคัญ[ 1 ]การจัดหมวดหมู่ MVA ที่ทันสมัยและทับซ้อนกัน ได้แก่: [ 1 ]
- แบบจำลองปกติและแบบจำลองหลายตัวแปรทั่วไป และทฤษฎีการกระจายตัว
- การศึกษาและการวัดความสัมพันธ์
- การคำนวณ ความน่าจะเป็นของพื้นที่หลายมิติ
- การสำรวจโครงสร้างข้อมูลและรูปแบบต่างๆ
การวิเคราะห์หลายตัวแปรอาจมีความซับซ้อนมากขึ้นเมื่อต้องการรวมการวิเคราะห์ตามหลักฟิสิกส์เพื่อคำนวณผลกระทบของตัวแปรสำหรับ "ระบบของระบบ" แบบลำดับชั้น บ่อยครั้งที่งานวิจัยที่ต้องการใช้การวิเคราะห์หลายตัวแปรต้องหยุดชะงักลงเนื่องจากมิติของปัญหา ความกังวลเหล่านี้มักจะบรรเทาลงได้ด้วยการใช้แบบจำลองตัวแทน (surrogate models)ซึ่งเป็นการประมาณค่าที่แม่นยำสูงของรหัสตามหลักฟิสิกส์ เนื่องจากแบบจำลองตัวแทนอยู่ในรูปของสมการ จึงสามารถประเมินผลได้อย่างรวดเร็วมาก สิ่งนี้กลายเป็นตัวช่วยสำหรับงานวิจัย MVA ขนาดใหญ่: ในขณะที่การจำลองแบบมอนเตคาร์โลทั่วพื้นที่การออกแบบทำได้ยากด้วยรหัสตามหลักฟิสิกส์ แต่จะกลายเป็นเรื่องง่ายเมื่อประเมินแบบจำลองตัวแทน ซึ่งมักอยู่ในรูปของสมการ พื้นผิวการตอบสนอง
ประเภทของการวิเคราะห์
ใน MVA มีการใช้โมเดลที่หลากหลาย โดยแต่ละโมเดลมีวิธีการวิเคราะห์เฉพาะของตนเอง:
- การวิเคราะห์ความแปรปรวนหลายตัวแปร (MANOVA) เป็นการขยายขอบเขตของการวิเคราะห์ความแปรปรวนเพื่อครอบคลุมกรณีที่มีตัวแปรตามมากกว่าหนึ่งตัวที่ต้องวิเคราะห์พร้อมกัน โปรดดูเพิ่มเติมที่การวิเคราะห์ความแปรปรวนร่วมหลายตัวแปร (MANCOVA)
- การถดถอยแบบหลายตัวแปรพยายามกำหนดสูตรที่สามารถอธิบายได้ว่าองค์ประกอบในเวกเตอร์ของตัวแปรตอบสนองต่อการเปลี่ยนแปลงในตัวแปรอื่นพร้อมกันอย่างไร สำหรับความสัมพันธ์เชิงเส้น การวิเคราะห์การถดถอยในที่นี้จะขึ้นอยู่กับรูปแบบของแบบจำลองเชิงเส้นทั่วไปบางคนเสนอว่าการถดถอยแบบหลายตัวแปรแตกต่างจากการถดถอยแบบหลายตัวแปร อย่างไรก็ตาม เรื่องนี้ยังเป็นที่ถกเถียงและไม่เป็นจริงอย่างสม่ำเสมอในสาขาวิทยาศาสตร์[ 2 ]
- การวิเคราะห์ส่วนประกอบหลัก (PCA) สร้างชุด ตัวแปร เชิง ตั้งฉากชุดใหม่ ที่มีข้อมูลเดียวกันกับชุดเดิม โดยจะหมุนแกนของการแปรผันเพื่อให้ได้ชุดแกนเชิงตั้งฉากชุดใหม่ ซึ่งเรียงลำดับตามสัดส่วนของการแปรผันที่ลดลง
- การวิเคราะห์ปัจจัยคล้ายกับการวิเคราะห์องค์ประกอบหลัก (PCA) แต่ช่วยให้ผู้ใช้สามารถดึงตัวแปรสังเคราะห์ออกมาได้ตามจำนวนที่กำหนด ซึ่งน้อยกว่าชุดตัวแปรเดิม ทำให้ความแปรปรวนที่เหลือซึ่งอธิบายไม่ได้ถูกเรียกว่าค่าความคลาดเคลื่อน ตัวแปรที่ดึงออกมาเรียกว่าตัวแปรแฝงหรือปัจจัย โดยแต่ละปัจจัยอาจอธิบายความแปรปรวนร่วมกันในกลุ่มของตัวแปรที่สังเกตได้
- การวิเคราะห์ความสัมพันธ์แบบแคนอนิกจะค้นหาความสัมพันธ์เชิงเส้นระหว่างตัวแปรสองชุด ซึ่งเป็นเวอร์ชันทั่วไป (เช่น แคนอนิก) ของความสัมพันธ์ แบบสองตัวแปร [ 3 ]
- การวิเคราะห์ความซ้ำซ้อน[ 4 ] (RDA) คล้ายกับการวิเคราะห์ความสัมพันธ์แบบแคนอนิก แต่ช่วยให้ผู้ใช้สามารถสร้างตัวแปรสังเคราะห์จำนวนหนึ่งจากชุดตัวแปร (อิสระ) ชุดหนึ่งที่อธิบายความแปรปรวนได้มากที่สุดเท่าที่จะเป็นไปได้ในอีกชุดหนึ่ง (อิสระ) ถือเป็นแบบจำลองการถดถอย แบบหลายตัวแปร [ 5 ]
- การวิเคราะห์ความสัมพันธ์ (Correspondence Analysis: CA) หรือการหาค่าเฉลี่ยแบบผกผัน จะค้นหาชุดตัวแปรสังเคราะห์ (เช่นเดียวกับ PCA) ที่สรุปชุดตัวแปรดั้งเดิม โดยแบบจำลองพื้นฐานจะถือว่ามีความแตกต่างกันแบบไคสแควร์ระหว่างบันทึก (กรณีต่างๆ)
- การวิเคราะห์ความสัมพันธ์แบบแคนอนิก (หรือ "แบบจำกัด") (CCA) สำหรับสรุปความแปรผันร่วมกันในตัวแปรสองชุด (เช่น การวิเคราะห์ความซ้ำซ้อน) ซึ่งเป็นการผสมผสานระหว่างการวิเคราะห์ความสัมพันธ์และการวิเคราะห์การถดถอยแบบหลายตัวแปร โดยแบบจำลองพื้นฐานจะถือว่ามีความแตกต่างแบบไคกำลังสองระหว่างบันทึก (กรณีต่างๆ)
- การวิเคราะห์แบบสเกลลิ่งหลายมิติประกอบด้วยอัลกอริธึมต่างๆ เพื่อกำหนดชุดของตัวแปรสังเคราะห์ที่แสดงถึงระยะห่างระหว่างคู่ข้อมูลได้ดีที่สุด วิธีการดั้งเดิมคือการวิเคราะห์พิกัดหลัก (PCoA; อิงตาม PCA)
- การวิเคราะห์จำแนกกลุ่มหรือการวิเคราะห์ตัวแปรหลัก พยายามที่จะตรวจสอบว่าชุดของตัวแปรสามารถใช้ในการแยกแยะความแตกต่างระหว่างกลุ่มกรณีสองกลุ่มขึ้นไปได้หรือไม่
- การวิเคราะห์จำแนกเชิงเส้น (LDA) คำนวณตัวทำนายเชิงเส้นจากชุดข้อมูลสองชุดที่มีการกระจายแบบปกติ เพื่อใช้ในการจำแนกประเภทของข้อมูลใหม่
- ระบบการจัดกลุ่มจะกำหนดวัตถุต่างๆ เข้าเป็นกลุ่ม (เรียกว่าคลัสเตอร์) โดยที่วัตถุ (กรณีต่างๆ) จากคลัสเตอร์เดียวกันจะมีความคล้ายคลึงกันมากกว่าวัตถุจากคลัสเตอร์ที่แตกต่างกัน
- การแบ่งพาร์ติชันแบบเรียกซ้ำจะสร้างแผนผังการตัดสินใจที่พยายามจำแนกสมาชิกของประชากรอย่างถูกต้องโดยอาศัยตัวแปรตามแบบสองค่า
- โครงข่ายประสาทเทียมขยายวิธีการถดถอยและการจัดกลุ่มไปสู่แบบจำลองหลายตัวแปรที่ไม่เป็นเชิงเส้น
- สามารถใช้กราฟทางสถิติเช่น แผนภูมิแสดงเส้นทาง แผนภูมิพิกัดขนาน และเมทริกซ์แผนภูมิกระจาย เพื่อสำรวจข้อมูลหลายตัวแปรได้
- แบบจำลองสมการพร้อมกันเกี่ยวข้องกับสมการถดถอยมากกว่าหนึ่งสมการ โดยมีตัวแปรตามที่แตกต่างกัน ซึ่งจะถูกประมาณค่าพร้อมกัน
- การวิเคราะห์การถดถอยอัตโนมัติแบบเวกเตอร์ เกี่ยวข้องกับการวิเคราะห์การถดถอยพร้อมกันของตัวแปรอนุกรม เวลาต่างๆกับค่าที่ล่าช้าของตัวแปรเหล่านั้นเองและของตัวแปรอื่นๆ
- การวิเคราะห์ เส้นโค้งการตอบสนองหลัก (PRC) เป็นวิธีการที่ใช้ RDA ซึ่งช่วยให้ผู้ใช้สามารถมุ่งเน้นไปที่ผลกระทบของการรักษาเมื่อเวลาผ่านไปโดยการแก้ไขการเปลี่ยนแปลงในการรักษาแบบควบคุมเมื่อเวลาผ่านไป[ 6 ]
- การแสดงความสัมพันธ์เชิงสัญลักษณ์นั้นคือการแทนที่เมทริกซ์ความสัมพันธ์ด้วยแผนภาพ โดยความสัมพันธ์ที่ "โดดเด่น" จะแสดงด้วยเส้นทึบ (ความสัมพันธ์เชิงบวก) หรือเส้นประ (ความสัมพันธ์เชิงลบ)
การจัดการกับข้อมูลที่ไม่สมบูรณ์
เป็นเรื่องปกติมากที่ในชุดข้อมูลที่ได้จากการทดลอง ค่าของส่วนประกอบบางส่วนของจุดข้อมูลที่กำหนดจะขาดหายไปแทนที่จะทิ้งจุดข้อมูลทั้งหมด มักจะ "เติม" ค่าสำหรับส่วนประกอบที่ขาดหายไป ซึ่งเป็นกระบวนการที่เรียกว่า " การเติมค่า " [ 7 ]
การแจกแจงความน่าจะเป็นที่สำคัญ
มีชุดของการแจกแจงความน่าจะเป็นที่ใช้ในการวิเคราะห์หลายตัวแปร ซึ่งมีบทบาทคล้ายคลึงกับชุดของการแจกแจงความน่าจะเป็นที่ใช้ในการวิเคราะห์ ตัวแปรเดียว เมื่อการแจกแจงปกติเหมาะสมกับชุดข้อมูล การแจกแจงหลายตัวแปรเหล่านี้ได้แก่:
การแจกแจงแบบ Inverse-Wishartมีความสำคัญในการอนุมานแบบเบย์เซียนตัวอย่างเช่น ในการถดถอยเชิงเส้นหลายตัวแปรแบบเบย์เซียนนอกจากนี้การแจกแจงแบบ Hotelling's T-squaredเป็นการแจกแจงหลายตัวแปร ซึ่งเป็นการขยายความของการ แจกแจงแบบ Student's t-distributionที่ ใช้ในการทดสอบสมมติฐาน หลายตัวแปร
ประวัติศาสตร์
CR Raoมีส่วนสำคัญอย่างยิ่งต่อทฤษฎีสถิติหลายตัวแปรตลอดอาชีพการงานของเขา โดยเฉพาะอย่างยิ่งในช่วงกลางศตวรรษที่ 20 ผลงานชิ้นสำคัญชิ้นหนึ่งของเขาคือหนังสือชื่อ "Advanced Statistical Methods in Biometric Research" ซึ่งตีพิมพ์ในปี 1952 ผลงานชิ้นนี้ได้วางรากฐานสำหรับแนวคิดหลายอย่างในสถิติหลายตัวแปร[ 8 ] ตำราเรียนของ Anderson ในปี 1958 เรื่องAn Introduction to Multivariate Statistical Analysis [ 9 ] ได้ให้ความรู้แก่นักทฤษฎีและนักสถิติประยุกต์รุ่นหนึ่ง หนังสือของ Anderson เน้นการทดสอบสมมติฐานผ่านการทดสอบอัตราส่วนความน่าจะเป็นและคุณสมบัติของฟังก์ชันกำลังได้แก่การยอมรับได้ความไม่ลำเอียงและความเป็นเอกภาค[ 10 ] [ 11 ]
เดิมที MVA ถูกกล่าวถึงเฉพาะในบริบทของทฤษฎีทางสถิติเท่านั้น เนื่องจากขนาดและความซับซ้อนของชุดข้อมูลพื้นฐานและการใช้ทรัพยากรการคำนวณสูง แต่ด้วยการเติบโตอย่างรวดเร็วของกำลังการคำนวณ ปัจจุบัน MVA จึงมีบทบาทสำคัญมากขึ้นในการวิเคราะห์ข้อมูลและมีการประยุกต์ใช้อย่างกว้างขวางในสาขา โอไมซ์ (Omics )
แอปพลิเคชัน
- การทดสอบสมมติฐานแบบหลายตัวแปร
- การลดมิติ
- การค้นพบโครงสร้างแฝง[ 12 ]
- การจัดกลุ่ม
- การวิเคราะห์การถดถอยหลายตัวแปร[ 13 ]
- การวิเคราะห์การจำแนกและแยกแยะ
- การเลือกตัวแปร
- การวิเคราะห์หลายมิติ
- การปรับขนาดหลายมิติ
- การขุดข้อมูล
ซอฟต์แวร์และเครื่องมือ
มีโปรแกรมและเครื่องมือมากมายสำหรับการวิเคราะห์หลายตัวแปร ซึ่งรวมถึง:
- JMP (ซอฟต์แวร์ทางสถิติ)
- มินิแท็บ
- แคลอรี
- พีเอสพีพี
- R [ 14 ]
- SAS (ซอฟต์แวร์)
- SciPyสำหรับPython
- SPSS
- สเตต้า
- สถิติ
- ตัวถอดรหัส
- วาร์ปพีแอลเอส
- สมาร์ทพีแอลเอส
- MATLAB
- อีวิวส์
- โปรแกรม NCSS (ซอฟต์แวร์ทางสถิติ)มีฟังก์ชันการวิเคราะห์แบบหลายตัวแปร
- Unscrambler® Xเป็นเครื่องมือวิเคราะห์ข้อมูลหลายตัวแปร
- ซิมก้า
- DataPandit (แอปพลิเคชัน SaaS ฟรีจากLet's Excel Analytics Solutions )
ดูเพิ่มเติม
- การประมาณค่าเมทริกซ์ความแปรปรวนร่วม
- ผลงานตีพิมพ์ที่สำคัญในด้านการวิเคราะห์หลายตัวแปร
- การทดสอบแบบหลายตัวแปรในด้านการตลาด
- การวิเคราะห์ข้อมูลเชิงโครงสร้าง (สถิติ)
- การสร้างแบบจำลองสมการโครงสร้าง
- สัมประสิทธิ์ RV
- การวิเคราะห์แบบสองตัวแปร
- การออกแบบการทดลอง (DoE)
- การวิเคราะห์มิติ
- การวิเคราะห์ข้อมูลเชิงสำรวจ
- โอแอลเอส
- การถดถอยกำลังสองน้อยที่สุดบางส่วน
- การจดจำรูปแบบ
- การวิเคราะห์ส่วนประกอบหลัก (PCA)
- การวิเคราะห์การถดถอย
- การสร้างแบบจำลองอิสระแบบอ่อนของการเปรียบเทียบชั้นเรียน (SIMCA)
- การรบกวนทางสถิติ
- การวิเคราะห์ตัวแปรเดียว
อ่านเพิ่มเติม
- จอห์นสัน, ริชาร์ด เอ.; วิเชิร์น, ดีน ดับเบิลยู. (2007). การวิเคราะห์ทางสถิติหลายตัวแปรประยุกต์ (ฉบับที่หก). เพรนติส ฮอลล์. ISBN 978-0-13-187715-3.
- KV Mardia ; JT Kent; JM Bibby (1979). การวิเคราะห์หลายตัวแปร . สำนักพิมพ์ Academic Press. ISBN 0-12-471252-5.
- A. Sen, M. Srivastava, การวิเคราะห์การถดถอย — ทฤษฎี วิธีการ และการประยุกต์ใช้ , Springer-Verlag, เบอร์ลิน, 2011 (พิมพ์ครั้งที่ 4)
- คุก, สเวย์น (2007). กราฟิกเชิงโต้ตอบสำหรับการวิเคราะห์ข้อมูล
- มาลาคูติ, บี. (2013). ระบบการดำเนินงานและการผลิตที่มีหลายวัตถุประสงค์ จอห์น ไวลีย์ แอนด์ ซันส์
- ที.วาย. แอนเดอร์สัน, บทนำสู่การวิเคราะห์ทางสถิติแบบหลายตัวแปร , ไวลีย์, นิวยอร์ก, 1958
- KV Mardia; JT Kent & JM Bibby (1979). การวิเคราะห์หลายตัวแปร. สำนักพิมพ์ Academic Press . ISBN 978-0-12-471252-2.(แนวทาง "ความน่าจะเป็น" ระดับ MA)
- Feinstein, AR (1996) การวิเคราะห์หลายตัวแปรนิวเฮเวน รัฐคอนเนตทิคัต: สำนักพิมพ์มหาวิทยาลัยเยล
- Hair, JF Jr. (1995) การวิเคราะห์ข้อมูลหลายตัวแปรพร้อมบทอ่านฉบับที่ 4 Prentice-Hall.
- Schafer, JL (1997) การวิเคราะห์ข้อมูลหลายตัวแปรที่ไม่สมบูรณ์ CRC Press (ขั้นสูง)
- Sharma, S. (1996) เทคนิคหลายตัวแปรประยุกต์ . Wiley. (ไม่เป็นทางการ, ประยุกต์)
- Izenman, Alan J. (2008). เทคนิคทางสถิติหลายตัวแปรสมัยใหม่: การถดถอย การจำแนกประเภท และการเรียนรู้แบบแมนิโฟลด์ Springer Texts in Statistics. นิวยอร์ก: Springer-Verlag. ISBN 9780387781884.
- Tinsley, Howard EA; Brown, Steven D., บรรณาธิการ (2000). คู่มือสถิติหลายตัวแปรประยุกต์และการสร้างแบบจำลองทางคณิตศาสตร์ . สำนักพิมพ์ Academic Press. doi : 10.1016/B978-0-12-691360-6.X5000-9 . ISBN 978-0-12-691360-6.
ลิงก์ภายนอก
- สถิติเชิงตัวเลข: หัวข้อในการวิเคราะห์ข้อมูลหลายตัวแปร โดย จี. เดวิด การ์สัน
- ไมค์ พาล์มเมอร์: หน้าเว็บเกี่ยวกับการบวช
- InsightsNow: ผู้ผลิต ReportsNow, ProfilesNow และ KnowledgeNow
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ สถิติหลายตัวแปร
สถิติหลายตัวแปร เป็นสาขาย่อยของ สถิติ ที่ครอบคลุมการสังเกตและการวิเคราะห์ ตัวแปรผลลัพธ์ มากกว่าหนึ่งตัวพร้อมกัน กล่าวคือ ตัวแปรสุ่ม หลายตัวแปร...
การวิเคราะห์หลายตัวแปร
การวิเคราะห์หลายตัวแปร ( MVA ) อิงตามหลักการของสถิติหลายตัวแปร โดยทั่วไป MVA ใช้เพื่อจัดการกับสถานการณ์ที่มีการวัดหลายครั้งในแต่ละหน่วยทดลอง และความสัมพันธ์ระหว่างการวัดเหล่านี้และโครงสร้างของพวกมันมีความสำคัญ [ 1 ] การจัดหมวดหมู่ MVA ที่ทันสมัยและทับซ้อนกัน...
ประเภทของการวิเคราะห์
ใน MVA มีการใช้โมเดลที่หลากหลาย โดยแต่ละโมเดลมีวิธีการวิเคราะห์เฉพาะของตนเอง:
การจัดการกับข้อมูลที่ไม่สมบูรณ์
เป็นเรื่องปกติมากที่ในชุดข้อมูลที่ได้จากการทดลอง ค่าของส่วนประกอบบางส่วนของจุดข้อมูลที่กำหนดจะ ขาดหายไป แทนที่จะทิ้งจุดข้อมูลทั้งหมด มักจะ "เติม" ค่าสำหรับส่วนประกอบที่ขาดหายไป ซึ่งเป็นกระบวนการที่เรียกว่า " การเติมค่า " [ 7 ]