อ่าน 4 นาที
ตารางความน่าจะเป็น
ในทางสถิติตารางความสัมพันธ์ (หรือที่รู้จักกันในชื่อตารางไขว้หรือตารางไขว้ ) เป็น ตารางประเภทหนึ่งใน รูปแบบ เมทริกซ์ที่แสดงการแจกแจงความถี่ แบบหลายตัวแปร ของตัวแปรต่างๆ...
ตารางความน่าจะเป็น
ในทางสถิติตารางความสัมพันธ์ (หรือที่รู้จักกันในชื่อตารางไขว้หรือตารางไขว้ ) เป็น ตารางประเภทหนึ่งใน รูปแบบ เมทริกซ์ที่แสดงการแจกแจงความถี่ แบบหลายตัวแปร ของตัวแปรต่างๆ มีการใช้กันอย่างแพร่หลายในการวิจัยสำรวจ การวิเคราะห์ข้อมูลทางธุรกิจ วิศวกรรม และการวิจัยทางวิทยาศาสตร์ ตารางเหล่านี้ให้ภาพพื้นฐานของความสัมพันธ์ระหว่างตัวแปรสองตัว และสามารถช่วยค้นหาปฏิสัมพันธ์ระหว่างตัวแปรเหล่านั้นได้ คำว่าตารางความสัมพันธ์ถูกใช้ครั้งแรกโดยKarl Pearsonใน "On the Theory of Contingency and Its Relation to Association and Normal Correlation" [ 1 ]ซึ่งเป็นส่วนหนึ่งของDrapers' Company Research Memoirs Biometric Series Iที่ตีพิมพ์ในปี 1904
ปัญหาสำคัญอย่างหนึ่งของสถิติหลายตัวแปรคือการค้นหาโครงสร้างความสัมพันธ์ (โดยตรง) ที่อยู่เบื้องหลังตัวแปรต่างๆ ที่อยู่ในตารางความสัมพันธ์ที่มีมิติสูง หาก สามารถเปิดเผย ความเป็นอิสระแบบมีเงื่อนไข บางส่วน ได้ การจัดเก็บข้อมูลก็สามารถทำได้อย่างชาญฉลาดมากขึ้น (ดู Lauritzen (2002)) เพื่อให้บรรลุเป้าหมายนี้ สามารถใช้ แนวคิด ทฤษฎีสารสนเทศซึ่งจะได้รับข้อมูลเฉพาะจากการกระจายความน่าจะเป็น ซึ่งสามารถแสดงออกมาได้ง่ายจากตารางความสัมพันธ์โดยใช้ความถี่สัมพัทธ์
ตารางPivot Tableคือวิธีการสร้างตารางความสัมพันธ์โดยใช้โปรแกรมสเปรดชีต
ตัวอย่าง
สมมติว่ามีตัวแปรสองตัว คือ เพศ (ชายหรือหญิง) และความถนัดมือ (มือขวาหรือมือซ้าย) และสมมติเพิ่มเติมว่าสุ่มตัวอย่างบุคคล 100 คนจากประชากรขนาดใหญ่มาก เพื่อทำการศึกษาความแตกต่างทางเพศในเรื่องความถนัดมือ เราสามารถสร้างตารางความสัมพันธ์เพื่อแสดงจำนวนบุคคลที่เป็นชายถนัดมือขวาและมือซ้าย และหญิงถนัดมือขวาและมือซ้ายได้ ตารางความสัมพันธ์ดังกล่าวแสดงไว้ด้านล่าง
ความถนัดมือ เพศ | ถนัดมือขวา | คนถนัดซ้าย | ทั้งหมด |
|---|---|---|---|
| ชาย | 43 | 9 | 52 |
| หญิง | 44 | 4 | 48 |
| ทั้งหมด | 87 | 13 | 100 |
จำนวนของเพศชาย เพศหญิง และผู้ที่ถนัดมือขวาและมือซ้าย เรียกว่าผลรวมส่วนย่อย ส่วนผลรวมทั้งหมด (จำนวนบุคคลทั้งหมดที่แสดงในตารางความสัมพันธ์) คือตัวเลขที่อยู่มุมล่างขวา
ตารางนี้ช่วยให้ผู้ใช้เห็นได้อย่างรวดเร็วว่า สัดส่วนของผู้ชายที่ถนัดมือขวาใกล้เคียงกับสัดส่วนของผู้หญิงที่ถนัดมือขวา แม้ว่าสัดส่วนจะไม่เท่ากันเป๊ะก็ตาม ความแข็งแกร่งของความสัมพันธ์สามารถวัดได้ด้วยอัตราส่วนความน่าจะเป็น (odds ratio ) และอัตราส่วนความน่าจะเป็นของประชากรสามารถประมาณได้จากอัตราส่วนความน่าจะเป็นของกลุ่มตัวอย่างความสำคัญของความแตกต่างระหว่างสัดส่วนทั้งสองสามารถประเมินได้ด้วยการทดสอบทางสถิติหลายวิธี รวมถึงการทดสอบไคสแควร์ของเพียร์สันการทดสอบจีการทดสอบความแม่นยำของฟิชเชอร์การทดสอบของบอชลูและการทดสอบของบาร์นาร์ดโดยมีเงื่อนไขว่าข้อมูลในตารางต้องเป็นบุคคลที่สุ่มตัวอย่างมาจากประชากรที่ต้องการสรุปผล หากสัดส่วนของบุคคลในคอลัมน์ต่างๆ แตกต่างกันอย่างมีนัยสำคัญระหว่างแถว (หรือในทางกลับกัน) จะกล่าวได้ว่ามีความสัมพันธ์กันระหว่างตัวแปรทั้งสอง กล่าวคือ ตัวแปรทั้งสองไม่เป็นอิสระต่อกัน หากไม่มีความสัมพันธ์กัน จะกล่าวได้ว่าตัวแปรทั้งสองเป็นอิสระต่อกัน
ตัวอย่างข้างต้นเป็นตารางความสัมพันธ์แบบง่ายที่สุด ซึ่งแต่ละตัวแปรมีเพียงสองระดับ เรียกว่าตารางความสัมพันธ์แบบ 2 × 2 ในทางทฤษฎีแล้ว สามารถใช้จำนวนแถวและคอลัมน์เท่าใดก็ได้ นอกจากนี้ยังอาจมีตัวแปรมากกว่าสองตัว แต่ตารางความสัมพันธ์ที่มีลำดับสูงกว่านั้นยากต่อการแสดงผลด้วยภาพ ความสัมพันธ์ระหว่างตัวแปรเชิงลำดับหรือระหว่างตัวแปรเชิงลำดับและตัวแปรเชิงหมวดหมู่ ก็สามารถแสดงในตารางความสัมพันธ์ได้เช่นกัน แม้ว่าการปฏิบัติเช่นนั้นจะพบได้น้อย สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้ตารางความสัมพันธ์สำหรับความสัมพันธ์ระหว่างตัวแปรเชิงลำดับสองตัว โปรดดูที่ แกมมาของ Goodman และ Kruskal
เนื้อหามาตรฐานของตารางความน่าจะเป็น
- ประกอบด้วยหลายคอลัมน์ (ในอดีต ออกแบบมาเพื่อใช้พื้นที่ว่างทั้งหมดของหน้ากระดาษ) โดยแต่ละแถวหมายถึงกลุ่มย่อยเฉพาะในประชากร (ในกรณีนี้คือชายหรือหญิง) บางครั้งคอลัมน์เหล่านี้เรียกว่าจุดแบนเนอร์หรือส่วนตัด (และบางครั้งแถวเรียกว่าส่วนย่อย )
- การทดสอบนัยสำคัญ โดยทั่วไปจะ เป็นการ เปรียบเทียบระหว่างคอลัมน์ซึ่งทดสอบความแตกต่างระหว่างคอลัมน์และแสดงผลลัพธ์โดยใช้ตัวอักษร หรือการเปรียบเทียบระหว่างเซลล์ซึ่งใช้สีหรือลูกศรเพื่อระบุเซลล์ในตารางที่โดดเด่นกว่าเซลล์อื่น ๆ
- ยอดสุทธิหรือยอดรวมย่อย
- อย่างน้อยหนึ่งรายการต่อไปนี้: เปอร์เซ็นต์, เปอร์เซ็นต์แถว, เปอร์เซ็นต์คอลัมน์, ดัชนี หรือค่าเฉลี่ย
- ขนาดตัวอย่างที่ไม่ถ่วงน้ำหนัก (จำนวนนับ)
การวัดความสัมพันธ์
ระดับความสัมพันธ์ระหว่างตัวแปรทั้งสองสามารถประเมินได้โดยใช้ค่าสัมประสิทธิ์หลายตัว หัวข้อย่อยต่อไปนี้จะอธิบายค่าสัมประสิทธิ์บางส่วน สำหรับการอธิบายการใช้งานอย่างละเอียดเพิ่มเติม โปรดดูบทความหลักที่เชื่อมโยงอยู่ใต้หัวข้อย่อยแต่ละหัวข้อ
อัตราส่วนความน่าจะเป็น
มาตรวัดความสัมพันธ์ที่ง่ายที่สุดสำหรับตารางความถี่ 2 × 2 คืออัตราส่วนความน่าจะเป็น (odds ratio ) เมื่อกำหนดเหตุการณ์สองเหตุการณ์ A และ B อัตราส่วนความน่าจะเป็นจะถูกกำหนดให้เป็นอัตราส่วนของความน่าจะเป็นของ A ในกรณีที่มี B และความน่าจะเป็นของ A ในกรณีที่ไม่มี B หรือเทียบเท่า (เนื่องจากสมมาตร) คือ อัตราส่วนของความน่าจะเป็นของ B ในกรณีที่มี A และความน่าจะเป็นของ B ในกรณีที่ไม่มี A เหตุการณ์สองเหตุการณ์จะเป็นอิสระต่อกันก็ต่อเมื่ออัตราส่วนความน่าจะเป็นเท่ากับ 1 เท่านั้น ถ้าอัตราส่วนความน่าจะเป็นมากกว่า 1 เหตุการณ์ทั้งสองจะมีความสัมพันธ์เชิงบวก ถ้าอัตราส่วนความน่าจะเป็นน้อยกว่า 1 เหตุการณ์ทั้งสองจะมีความสัมพันธ์เชิงลบ
อัตราส่วนความน่าจะเป็นสามารถแสดงออกมาในรูปแบบง่ายๆ โดยใช้ความน่าจะเป็น โดยกำหนดการกระจายความน่าจะเป็นร่วมดังนี้:
อัตราส่วนความน่าจะเป็นคือ:
สัมประสิทธิ์ฟี
มาตรวัดอย่างง่าย ซึ่งใช้ได้เฉพาะกับตารางความสัมพันธ์ 2 × 2 เท่านั้น คือสัมประสิทธิ์ฟี (φ) ซึ่งกำหนดโดย
โดยที่χ²คำนวณตามการทดสอบไคกำลังสองของ PearsonและN คือผลรวมทั้งหมดของการ สังเกต φ มีค่าตั้งแต่ 0 (ซึ่งสอดคล้องกับการไม่มีความสัมพันธ์ระหว่างตัวแปร) ถึง 1 หรือ −1 (ความสัมพันธ์สมบูรณ์หรือความสัมพันธ์ผกผันสมบูรณ์) โดยมีเงื่อนไขว่าต้องอิงตามข้อมูลความถี่ที่แสดงในตาราง 2 × 2 จากนั้นเครื่องหมายของ φ จะเท่ากับเครื่องหมายของผลคูณของ องค์ประกอบ แนวทแยงหลักของตารางลบด้วยผลคูณขององค์ประกอบนอกแนวทแยง φ จะมีค่าต่ำสุดที่ −1.0 หรือค่าสูงสุดที่ +1.0 ก็ต่อเมื่อสัดส่วนขอบทุกค่าเท่ากับ 0.5 (และเซลล์แนวทแยงสองเซลล์ว่างเปล่า) [ 2 ]
ค่า Vของ Cramér และสัมประสิทธิ์ความสัมพันธ์C
ทางเลือกสองทางคือสัมประสิทธิ์ความบังเอิญCและV ของ Cramér
สูตรสำหรับ ค่าสัมประสิทธิ์ CและVมีดังนี้:
- และ
โดยที่ kคือจำนวนแถวหรือจำนวนคอลัมน์ แล้วแต่ว่าจำนวนใดน้อยกว่า
Cมีข้อเสียคือค่าสูงสุดไม่ถึง 1.0 โดยเฉพาะอย่างยิ่งค่าสูงสุดที่สามารถเข้าถึงได้ในตาราง 2 × 2 คือ 0.707 ค่า C สามารถเข้าใกล้ 1.0 ได้มากขึ้นในตารางความสัมพันธ์ที่มีหมวดหมู่มากกว่า ตัวอย่างเช่น ค่าสูงสุดที่สามารถเข้าถึงได้คือ 0.870 ในตาราง 4 × 4 ดังนั้นจึงไม่ควรใช้ C เพื่อเปรียบเทียบความสัมพันธ์ในตารางต่างๆ หากตารางเหล่านั้นมีจำนวนหมวดหมู่ที่แตกต่างกัน[ 3 ]
Cสามารถปรับให้มีค่าสูงสุดที่ 1.0 ได้เมื่อมีการเชื่อมโยงอย่างสมบูรณ์ในตารางที่มีจำนวนแถวและคอลัมน์เท่าใดก็ได้ โดยการหารCด้วย โดยที่kคือจำนวนแถวหรือคอลัมน์ เมื่อตารางเป็นตารางสี่เหลี่ยมจัตุรัส หรือหารด้วย โดยที่rคือจำนวนแถวและcคือจำนวนคอลัมน์[ 4 ]
สัมประสิทธิ์สหสัมพันธ์เทตราคอริก
อีกทางเลือกหนึ่งคือสัมประสิทธิ์สหสัมพันธ์แบบเทตราคอริกแต่ใช้ได้เฉพาะกับตาราง 2 × 2 เท่านั้นสัมประสิทธิ์สหสัมพันธ์แบบโพลีคอริกเป็นการต่อยอดจากสัมประสิทธิ์สหสัมพันธ์แบบเทตราคอริกไปใช้กับตารางที่มีตัวแปรมากกว่าสองระดับ
ความสัมพันธ์แบบเทตราคอริกถือว่าตัวแปรที่อยู่เบื้องหลังการวัดแบบสองค่าแต่ละตัวมีการกระจายแบบปกติ[ 5 ]ค่าสัมประสิทธิ์นี้ให้ "การวัดความสัมพันธ์ [แบบเพียร์สัน-โมเมนต์] ที่สะดวกเมื่อการวัดแบบแบ่งระดับลดลงเหลือสองหมวดหมู่" [ 6 ]
ไม่ควรสับสนระหว่างสัมประสิทธิ์สหสัมพันธ์แบบเทตราคอริกกับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันซึ่งคำนวณโดยการกำหนดค่า เช่น 0.0 และ 1.0 แทนระดับสองระดับของแต่ละตัวแปร (ซึ่งในทางคณิตศาสตร์เทียบเท่ากับสัมประสิทธิ์ φ)
สัมประสิทธิ์แลมบ์ดา
สัมประสิทธิ์แลมบ์ดาเป็นตัววัดความแข็งแกร่งของความสัมพันธ์ระหว่างตารางไขว้เมื่อตัวแปรถูกวัดในระดับนามนัยค่าของสัมประสิทธิ์แลมบ์ดาอยู่ระหว่าง 0.0 (ไม่มีความสัมพันธ์) ถึง 1.0 (ความสัมพันธ์สูงสุดที่เป็นไปได้)
ค่าแลมบ์ดาแบบไม่สมมาตรวัดเปอร์เซ็นต์การปรับปรุงในการทำนายตัวแปรตาม ในขณะที่ค่าแลมบ์ดาแบบสมมาตรวัดเปอร์เซ็นต์การปรับปรุงเมื่อทำการทำนายในทั้งสองทิศทาง
สัมประสิทธิ์ความไม่แน่นอน
สัมประสิทธิ์ความไม่แน่นอนหรือ ยู ของธีล (Theil's U) เป็นอีกมาตรวัดหนึ่งสำหรับตัวแปรในระดับนามนัย ค่าของมันมีตั้งแต่ -1.0 (ความสัมพันธ์เชิงลบ 100% หรือการผกผันที่สมบูรณ์แบบ) ถึง +1.0 (ความสัมพันธ์เชิงบวก 100% หรือการสอดคล้องกันที่สมบูรณ์แบบ) ค่า 0.0 แสดงว่าไม่มีความสัมพันธ์กัน
นอกจากนี้ สัมประสิทธิ์ความไม่แน่นอนยังเป็นแบบมีเงื่อนไขและเป็นการวัดความสัมพันธ์แบบไม่สมมาตร ซึ่งสามารถแสดงได้ดังนี้
- .
คุณสมบัติที่ไม่สมมาตรนี้สามารถนำไปสู่ข้อมูลเชิงลึกที่ไม่ชัดเจนในการวัดความสัมพันธ์แบบสมมาตรได้[ 7 ]
คนอื่น
ค่า Gamma, Tau-b และ Tau-c จะถูกใช้เมื่อหมวดหมู่หรือระดับของตัวแปรทั้งสองมีลำดับที่เป็นธรรมชาติ
- การทดสอบแกมมา : ไม่มีการปรับแก้สำหรับขนาดตารางหรือค่าที่เท่ากัน
- ค่าเทาของเคนดัลล์ : การปรับค่าสำหรับกรณีที่ผลคะแนนเท่ากัน
ดูเพิ่มเติม
- เมทริกซ์ความสับสน
- ตาราง Pivotในโปรแกรมสเปรดชีต จะสร้างตารางไขว้ระหว่างข้อมูลตัวอย่างกับจำนวนนับ (ตารางความสัมพันธ์) และ/หรือผลรวม
- TPL Tablesเป็นเครื่องมือสำหรับสร้างและพิมพ์ตารางไขว้ (crosstab)
- กระบวนการปรับสัดส่วนแบบวนซ้ำโดยพื้นฐานแล้วเป็นการปรับเปลี่ยนตารางความน่าจะเป็นเพื่อให้ตรงกับการกระจายร่วมที่เปลี่ยนแปลงไปหรือผลรวมส่วนขอบ
- สถิติหลายตัวแปรในแบบจำลองความน่าจะเป็นแบบไม่ต่อเนื่องหลายตัวแปร ขั้นตอนบางอย่างที่ใช้ในบริบทนี้สามารถนำไปใช้ในการจัดการกับตารางความสัมพันธ์ได้
- OLAP cubeคือรูปแบบการคำนวณแบบหลายมิติสมัยใหม่ของตารางความสัมพันธ์
- ข้อมูลแบบพาเนล (Panel data)คือข้อมูลหลายมิติที่เปลี่ยนแปลงไปตามเวลา
อ่านเพิ่มเติม
- Andersen, Erling B. 1980. แบบจำลองทางสถิติแบบไม่ต่อเนื่องกับการประยุกต์ใช้ในสังคมศาสตร์ . นอร์ทฮอลแลนด์, 1980.
- Bishop, YMM ; Fienberg, SE ; Holland, PW (1975). การวิเคราะห์หลายตัวแปรแบบไม่ต่อเนื่อง: ทฤษฎีและการปฏิบัติ . สำนักพิมพ์ MIT. ISBN 978-0-262-02113-5MR 0381130
- Christensen, Ronald (1997). แบบจำลองเชิงเส้นลอการิทึมและการถดถอยโลจิสติก . Springer Texts in Statistics (ฉบับพิมพ์ครั้งที่สอง). นิวยอร์ก: Springer-Verlag. หน้า xvi+483. ISBN 0-387-98247-7MR 1633357
- Lauritzen, Steffen L. (1979). การบรรยายเรื่องตารางความสัมพันธ์ (มหาวิทยาลัย Aalborg) (PDF) (ฉบับที่ 4 (ฉบับอิเล็กทรอนิกส์ครั้งแรก), ฉบับปี 2002)
- Gokhale, DV; Kullback, Solomon (1978). ข้อมูลในตารางความสัมพันธ์เชิงสาเหตุ . Marcel Dekker. ISBN 0-824-76698-9.
ลิงก์ภายนอก
- การวิเคราะห์ตารางความน่าจะเป็นแบบออนไลน์: เครื่องคำนวณพร้อมตัวอย่าง
- ตารางไขว้แบบโต้ตอบ การทดสอบไคสแควร์แบบอิสระ และบทช่วยสอน
- เครื่องคำนวณฟิชเชอร์และไคสแควร์ของตารางความสัมพันธ์ 2 × 2
- ค่าสัมประสิทธิ์สหสัมพันธ์เพิ่มเติม
- ความสัมพันธ์เชิงนาม: Phi, สัมประสิทธิ์ความบังเอิญ, Tschuprow's T, Cramer's V, Lambda, สัมประสิทธิ์ความไม่แน่นอน , 24 มีนาคม 2551, G. David Garson, มหาวิทยาลัยแห่งรัฐนอร์ทแคโรไลนา
- ตารางไขว้ CustomInsight.com
- โครงการ POWERMUTT: IV. การแสดงข้อมูลเชิงหมวดหมู่
- สถิติ: ความพยายามของสตีฟในการสอนสถิติ อัตราส่วนความน่าจะเป็นเทียบกับความเสี่ยงสัมพัทธ์ (9 มกราคม 2544)
- บทเรียนที่ 5 การวิเคราะห์: การสร้างสถิติ จากคู่มือการประเมินสุขภาพชุมชนของ Epi Info
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ตารางความน่าจะเป็น
ในทางสถิติตารางความสัมพันธ์ (หรือที่รู้จักกันในชื่อตารางไขว้หรือตารางไขว้ ) เป็น ตารางประเภทหนึ่งใน รูปแบบ เมทริกซ์ที่แสดงการแจกแจงความถี่ แบบหลายตัวแปร ของตัวแปรต่างๆ...
ตัวอย่าง
สมมติว่ามีตัวแปรสองตัว คือ เพศ (ชายหรือหญิง) และ ความถนัดมือ (มือขวาหรือมือซ้าย) และสมมติเพิ่มเติมว่าสุ่มตัวอย่างบุคคล 100 คนจากประชากรขนาดใหญ่มาก เพื่อทำการศึกษาความแตกต่างทางเพศในเรื่องความถนัดมือ...
เนื้อหามาตรฐานของตารางความน่าจะเป็น
ประกอบด้วยหลายคอลัมน์ (ในอดีต ออกแบบมาเพื่อใช้พื้นที่ว่างทั้งหมดของหน้ากระดาษ) โดยแต่ละแถวหมายถึงกลุ่มย่อยเฉพาะในประชากร (ในกรณีนี้คือชายหรือหญิง) บางครั้งคอลัมน์เหล่านี้เรียกว่า จุดแบนเนอร์ หรือ ส่วนตัด (และบางครั้งแถวเรียกว่า ส่วนย่อย ) การทดสอบนัยสำคัญ...
การวัดความสัมพันธ์
ระดับความสัมพันธ์ระหว่างตัวแปรทั้งสองสามารถประเมินได้โดยใช้ค่าสัมประสิทธิ์หลายตัว หัวข้อย่อยต่อไปนี้จะอธิบายค่าสัมประสิทธิ์บางส่วน สำหรับการอธิบายการใช้งานอย่างละเอียดเพิ่มเติม โปรดดูบทความหลักที่เชื่อมโยงอยู่ใต้หัวข้อย่อยแต่ละหัวข้อ