ตารางความน่าจะเป็น

ในทางสถิติตารางความสัมพันธ์ (หรือที่รู้จักกันในชื่อตารางไขว้หรือตารางไขว้ ) เป็น ตารางประเภทหนึ่งใน รูปแบบ เมทริกซ์ที่แสดงการแจกแจงความถี่ แบบหลายตัวแปร ของตัวแปรต่างๆ มีการใช้กันอย่างแพร่หลายในการวิจัยสำรวจ การวิเคราะห์ข้อมูลทางธุรกิจ วิศวกรรม และการวิจัยทางวิทยาศาสตร์ ตารางเหล่านี้ให้ภาพพื้นฐานของความสัมพันธ์ระหว่างตัวแปรสองตัว และสามารถช่วยค้นหาปฏิสัมพันธ์ระหว่างตัวแปรเหล่านั้นได้ คำว่าตารางความสัมพันธ์ถูกใช้ครั้งแรกโดยKarl Pearsonใน "On the Theory of Contingency and Its Relation to Association and Normal Correlation" ^{[ 1 ]}ซึ่งเป็นส่วนหนึ่งของDrapers' Company Research Memoirs Biometric Series Iที่ตีพิมพ์ในปี 1904

ปัญหาสำคัญอย่างหนึ่งของสถิติหลายตัวแปรคือการค้นหาโครงสร้างความสัมพันธ์ (โดยตรง) ที่อยู่เบื้องหลังตัวแปรต่างๆ ที่อยู่ในตารางความสัมพันธ์ที่มีมิติสูง หาก สามารถเปิดเผย ความเป็นอิสระแบบมีเงื่อนไข บางส่วน ได้ การจัดเก็บข้อมูลก็สามารถทำได้อย่างชาญฉลาดมากขึ้น (ดู Lauritzen (2002)) เพื่อให้บรรลุเป้าหมายนี้ สามารถใช้ แนวคิด ทฤษฎีสารสนเทศซึ่งจะได้รับข้อมูลเฉพาะจากการกระจายความน่าจะเป็น ซึ่งสามารถแสดงออกมาได้ง่ายจากตารางความสัมพันธ์โดยใช้ความถี่สัมพัทธ์

ตารางPivot Tableคือวิธีการสร้างตารางความสัมพันธ์โดยใช้โปรแกรมสเปรดชีต

ตัวอย่าง

สมมติว่ามีตัวแปรสองตัว คือ เพศ (ชายหรือหญิง) และความถนัดมือ (มือขวาหรือมือซ้าย) และสมมติเพิ่มเติมว่าสุ่มตัวอย่างบุคคล 100 คนจากประชากรขนาดใหญ่มาก เพื่อทำการศึกษาความแตกต่างทางเพศในเรื่องความถนัดมือ เราสามารถสร้างตารางความสัมพันธ์เพื่อแสดงจำนวนบุคคลที่เป็นชายถนัดมือขวาและมือซ้าย และหญิงถนัดมือขวาและมือซ้ายได้ ตารางความสัมพันธ์ดังกล่าวแสดงไว้ด้านล่าง

ความถนัดมือ เพศ	ถนัดมือขวา	คนถนัดซ้าย	ทั้งหมด
ชาย	43	9	52
หญิง	44	4	48
ทั้งหมด	87	13	100

จำนวนของเพศชาย เพศหญิง และผู้ที่ถนัดมือขวาและมือซ้าย เรียกว่าผลรวมส่วนย่อย ส่วนผลรวมทั้งหมด (จำนวนบุคคลทั้งหมดที่แสดงในตารางความสัมพันธ์) คือตัวเลขที่อยู่มุมล่างขวา

ตารางนี้ช่วยให้ผู้ใช้เห็นได้อย่างรวดเร็วว่า สัดส่วนของผู้ชายที่ถนัดมือขวาใกล้เคียงกับสัดส่วนของผู้หญิงที่ถนัดมือขวา แม้ว่าสัดส่วนจะไม่เท่ากันเป๊ะก็ตาม ความแข็งแกร่งของความสัมพันธ์สามารถวัดได้ด้วยอัตราส่วนความน่าจะเป็น (odds ratio ) และอัตราส่วนความน่าจะเป็นของประชากรสามารถประมาณได้จากอัตราส่วนความน่าจะเป็นของกลุ่มตัวอย่างความสำคัญของความแตกต่างระหว่างสัดส่วนทั้งสองสามารถประเมินได้ด้วยการทดสอบทางสถิติหลายวิธี รวมถึงการทดสอบไคสแควร์ของเพียร์สัน การทดสอบจีการทดสอบความแม่นยำของฟิชเชอร์การทดสอบของบอชลูและการทดสอบของบาร์นาร์ดโดยมีเงื่อนไขว่าข้อมูลในตารางต้องเป็นบุคคลที่สุ่มตัวอย่างมาจากประชากรที่ต้องการสรุปผล หากสัดส่วนของบุคคลในคอลัมน์ต่างๆ แตกต่างกันอย่างมีนัยสำคัญระหว่างแถว (หรือในทางกลับกัน) จะกล่าวได้ว่ามีความสัมพันธ์กันระหว่างตัวแปรทั้งสอง กล่าวคือ ตัวแปรทั้งสองไม่เป็นอิสระต่อกัน หากไม่มีความสัมพันธ์กัน จะกล่าวได้ว่าตัวแปรทั้งสองเป็นอิสระต่อกัน

ตัวอย่างข้างต้นเป็นตารางความสัมพันธ์แบบง่ายที่สุด ซึ่งแต่ละตัวแปรมีเพียงสองระดับ เรียกว่าตารางความสัมพันธ์แบบ 2 × 2 ในทางทฤษฎีแล้ว สามารถใช้จำนวนแถวและคอลัมน์เท่าใดก็ได้ นอกจากนี้ยังอาจมีตัวแปรมากกว่าสองตัว แต่ตารางความสัมพันธ์ที่มีลำดับสูงกว่านั้นยากต่อการแสดงผลด้วยภาพ ความสัมพันธ์ระหว่างตัวแปรเชิงลำดับหรือระหว่างตัวแปรเชิงลำดับและตัวแปรเชิงหมวดหมู่ ก็สามารถแสดงในตารางความสัมพันธ์ได้เช่นกัน แม้ว่าการปฏิบัติเช่นนั้นจะพบได้น้อย สำหรับข้อมูลเพิ่มเติมเกี่ยวกับการใช้ตารางความสัมพันธ์สำหรับความสัมพันธ์ระหว่างตัวแปรเชิงลำดับสองตัว โปรดดูที่ แกมมาของ Goodman และ Kruskal

เนื้อหามาตรฐานของตารางความน่าจะเป็น

ประกอบด้วยหลายคอลัมน์ (ในอดีต ออกแบบมาเพื่อใช้พื้นที่ว่างทั้งหมดของหน้ากระดาษ) โดยแต่ละแถวหมายถึงกลุ่มย่อยเฉพาะในประชากร (ในกรณีนี้คือชายหรือหญิง) บางครั้งคอลัมน์เหล่านี้เรียกว่าจุดแบนเนอร์หรือส่วนตัด (และบางครั้งแถวเรียกว่าส่วนย่อย )
การทดสอบนัยสำคัญ โดยทั่วไปจะ เป็นการ เปรียบเทียบระหว่างคอลัมน์ซึ่งทดสอบความแตกต่างระหว่างคอลัมน์และแสดงผลลัพธ์โดยใช้ตัวอักษร หรือการเปรียบเทียบระหว่างเซลล์ซึ่งใช้สีหรือลูกศรเพื่อระบุเซลล์ในตารางที่โดดเด่นกว่าเซลล์อื่น ๆ
ยอดสุทธิหรือยอดรวมย่อย
อย่างน้อยหนึ่งรายการต่อไปนี้: เปอร์เซ็นต์, เปอร์เซ็นต์แถว, เปอร์เซ็นต์คอลัมน์, ดัชนี หรือค่าเฉลี่ย
ขนาดตัวอย่างที่ไม่ถ่วงน้ำหนัก (จำนวนนับ)

การวัดความสัมพันธ์

ระดับความสัมพันธ์ระหว่างตัวแปรทั้งสองสามารถประเมินได้โดยใช้ค่าสัมประสิทธิ์หลายตัว หัวข้อย่อยต่อไปนี้จะอธิบายค่าสัมประสิทธิ์บางส่วน สำหรับการอธิบายการใช้งานอย่างละเอียดเพิ่มเติม โปรดดูบทความหลักที่เชื่อมโยงอยู่ใต้หัวข้อย่อยแต่ละหัวข้อ

อัตราส่วนความน่าจะเป็น

มาตรวัดความสัมพันธ์ที่ง่ายที่สุดสำหรับตารางความถี่ 2 × 2 คืออัตราส่วนความน่าจะเป็น (odds ratio ) เมื่อกำหนดเหตุการณ์สองเหตุการณ์ A และ B อัตราส่วนความน่าจะเป็นจะถูกกำหนดให้เป็นอัตราส่วนของความน่าจะเป็นของ A ในกรณีที่มี B และความน่าจะเป็นของ A ในกรณีที่ไม่มี B หรือเทียบเท่า (เนื่องจากสมมาตร) คือ อัตราส่วนของความน่าจะเป็นของ B ในกรณีที่มี A และความน่าจะเป็นของ B ในกรณีที่ไม่มี A เหตุการณ์สองเหตุการณ์จะเป็นอิสระต่อกันก็ต่อเมื่ออัตราส่วนความน่าจะเป็นเท่ากับ 1 เท่านั้น ถ้าอัตราส่วนความน่าจะเป็นมากกว่า 1 เหตุการณ์ทั้งสองจะมีความสัมพันธ์เชิงบวก ถ้าอัตราส่วนความน่าจะเป็นน้อยกว่า 1 เหตุการณ์ทั้งสองจะมีความสัมพันธ์เชิงลบ

อัตราส่วนความน่าจะเป็นสามารถแสดงออกมาในรูปแบบง่ายๆ โดยใช้ความน่าจะเป็น โดยกำหนดการกระจายความน่าจะเป็นร่วมดังนี้:

{\begin{array}{c|cc}&B=1&B=0\\\hline A=1&p_{11}&p_{10}\\A=0&p_{01}&p_{00}\end{array}}

อัตราส่วนความน่าจะเป็นคือ:

OR={\frac {p_{11}p_{00}}{p_{10}p_{01}}}.

สัมประสิทธิ์ฟี

มาตรวัดอย่างง่าย ซึ่งใช้ได้เฉพาะกับตารางความสัมพันธ์ 2 × 2 เท่านั้น คือสัมประสิทธิ์ฟี (φ) ซึ่งกำหนดโดย

\phi =\pm {\sqrt {\frac {\chi ^{2}}{N}}},

โดยที่ $χ²$ คำนวณตามการทดสอบไคกำลังสองของ PearsonและN คือผลรวมทั้งหมดของการ $สังเกต$ φ มีค่าตั้งแต่ 0 (ซึ่งสอดคล้องกับการไม่มีความสัมพันธ์ระหว่างตัวแปร) ถึง 1 หรือ −1 (ความสัมพันธ์สมบูรณ์หรือความสัมพันธ์ผกผันสมบูรณ์) โดยมีเงื่อนไขว่าต้องอิงตามข้อมูลความถี่ที่แสดงในตาราง 2 × 2 จากนั้นเครื่องหมายของ φ จะเท่ากับเครื่องหมายของผลคูณของ องค์ประกอบ แนวทแยงหลักของตารางลบด้วยผลคูณขององค์ประกอบนอกแนวทแยง φ จะมีค่าต่ำสุดที่ −1.0 หรือค่าสูงสุดที่ +1.0 ก็ต่อเมื่อสัดส่วนขอบทุกค่าเท่ากับ 0.5 (และเซลล์แนวทแยงสองเซลล์ว่างเปล่า) ^{[ 2 ]}

ค่า Vของ Cramér และสัมประสิทธิ์ความสัมพันธ์C

ทางเลือกสองทางคือสัมประสิทธิ์ความบังเอิญCและV ของ Cramér

สูตรสำหรับ ค่าสัมประสิทธิ์ CและVมีดังนี้:

C={\sqrt {\frac {\chi ^{2}}{N+\chi ^{2}}}}

และ

V={\sqrt {\frac {\chi ^{2}}{N(k-1)}}},

โดยที่ kคือจำนวนแถวหรือจำนวนคอลัมน์ แล้วแต่ว่าจำนวนใดน้อยกว่า

Cมีข้อเสียคือค่าสูงสุดไม่ถึง 1.0 โดยเฉพาะอย่างยิ่งค่าสูงสุดที่สามารถเข้าถึงได้ในตาราง 2 × 2 คือ 0.707 ค่า C สามารถเข้าใกล้ 1.0 ได้มากขึ้นในตารางความสัมพันธ์ที่มีหมวดหมู่มากกว่า ตัวอย่างเช่น ค่าสูงสุดที่สามารถเข้าถึงได้คือ 0.870 ในตาราง 4 × 4 ดังนั้นจึงไม่ควรใช้ C เพื่อเปรียบเทียบความสัมพันธ์ในตารางต่างๆ หากตารางเหล่านั้นมีจำนวนหมวดหมู่ที่แตกต่างกัน^{[ 3 ]}

Cสามารถปรับให้มีค่าสูงสุดที่ 1.0 ได้เมื่อมีการเชื่อมโยงอย่างสมบูรณ์ในตารางที่มีจำนวนแถวและคอลัมน์เท่าใดก็ได้ โดยการหารCด้วย โดยที่kคือจำนวนแถวหรือคอลัมน์ เมื่อตารางเป็นตารางสี่เหลี่ยมจัตุรัส หรือหารด้วย โดยที่rคือจำนวนแถวและcคือจำนวนคอลัมน์^[⁴^] ${\sqrt {\frac {k-1}{k}}}$ ${\sqrt[{\scriptstyle 4}]{{r-1 \over r}\times {c-1 \over c}}}$

สัมประสิทธิ์สหสัมพันธ์เทตราคอริก

อีกทางเลือกหนึ่งคือสัมประสิทธิ์สหสัมพันธ์แบบเทตราคอริกแต่ใช้ได้เฉพาะกับตาราง 2 × 2 เท่านั้นสัมประสิทธิ์สหสัมพันธ์แบบโพลีคอริกเป็นการต่อยอดจากสัมประสิทธิ์สหสัมพันธ์แบบเทตราคอริกไปใช้กับตารางที่มีตัวแปรมากกว่าสองระดับ

ความสัมพันธ์แบบเทตราคอริกถือว่าตัวแปรที่อยู่เบื้องหลังการวัดแบบสองค่าแต่ละตัวมีการกระจายแบบปกติ^{[ 5 ]}ค่าสัมประสิทธิ์นี้ให้ "การวัดความสัมพันธ์ [แบบเพียร์สัน-โมเมนต์] ที่สะดวกเมื่อการวัดแบบแบ่งระดับลดลงเหลือสองหมวดหมู่" ^{[ 6 ]}

ไม่ควรสับสนระหว่างสัมประสิทธิ์สหสัมพันธ์แบบเทตราคอริกกับสัมประสิทธิ์สหสัมพันธ์แบบเพียร์สันซึ่งคำนวณโดยการกำหนดค่า เช่น 0.0 และ 1.0 แทนระดับสองระดับของแต่ละตัวแปร (ซึ่งในทางคณิตศาสตร์เทียบเท่ากับสัมประสิทธิ์ φ)

สัมประสิทธิ์แลมบ์ดา

สัมประสิทธิ์แลมบ์ดาเป็นตัววัดความแข็งแกร่งของความสัมพันธ์ระหว่างตารางไขว้เมื่อตัวแปรถูกวัดในระดับนามนัยค่าของสัมประสิทธิ์แลมบ์ดาอยู่ระหว่าง 0.0 (ไม่มีความสัมพันธ์) ถึง 1.0 (ความสัมพันธ์สูงสุดที่เป็นไปได้)

ค่าแลมบ์ดาแบบไม่สมมาตรวัดเปอร์เซ็นต์การปรับปรุงในการทำนายตัวแปรตาม ในขณะที่ค่าแลมบ์ดาแบบสมมาตรวัดเปอร์เซ็นต์การปรับปรุงเมื่อทำการทำนายในทั้งสองทิศทาง

สัมประสิทธิ์ความไม่แน่นอน

สัมประสิทธิ์ความไม่แน่นอนหรือ ยู ของธีล (Theil's U) เป็นอีกมาตรวัดหนึ่งสำหรับตัวแปรในระดับนามนัย ค่าของมันมีตั้งแต่ -1.0 (ความสัมพันธ์เชิงลบ 100% หรือการผกผันที่สมบูรณ์แบบ) ถึง +1.0 (ความสัมพันธ์เชิงบวก 100% หรือการสอดคล้องกันที่สมบูรณ์แบบ) ค่า 0.0 แสดงว่าไม่มีความสัมพันธ์กัน

นอกจากนี้ สัมประสิทธิ์ความไม่แน่นอนยังเป็นแบบมีเงื่อนไขและเป็นการวัดความสัมพันธ์แบบไม่สมมาตร ซึ่งสามารถแสดงได้ดังนี้

U(X|Y)\neq U(Y|X)

.

คุณสมบัติที่ไม่สมมาตรนี้สามารถนำไปสู่ข้อมูลเชิงลึกที่ไม่ชัดเจนในการวัดความสัมพันธ์แบบสมมาตรได้^{[ 7 ]}

คนอื่น

ค่า Gamma, Tau-b และ Tau-c จะถูกใช้เมื่อหมวดหมู่หรือระดับของตัวแปรทั้งสองมีลำดับที่เป็นธรรมชาติ

การทดสอบแกมมา : ไม่มีการปรับแก้สำหรับขนาดตารางหรือค่าที่เท่ากัน
ค่าเทาของเคนดัลล์ : การปรับค่าสำหรับกรณีที่ผลคะแนนเท่ากัน
- Tau-b : ใช้สำหรับโต๊ะสี่เหลี่ยมจัตุรัส
- Tau-c : ใช้สำหรับโต๊ะสี่เหลี่ยมผืนผ้า

ดูเพิ่มเติม

เมทริกซ์ความสับสน
ตาราง Pivotในโปรแกรมสเปรดชีต จะสร้างตารางไขว้ระหว่างข้อมูลตัวอย่างกับจำนวนนับ (ตารางความสัมพันธ์) และ/หรือผลรวม
TPL Tablesเป็นเครื่องมือสำหรับสร้างและพิมพ์ตารางไขว้ (crosstab)
กระบวนการปรับสัดส่วนแบบวนซ้ำโดยพื้นฐานแล้วเป็นการปรับเปลี่ยนตารางความน่าจะเป็นเพื่อให้ตรงกับการกระจายร่วมที่เปลี่ยนแปลงไปหรือผลรวมส่วนขอบ
สถิติหลายตัวแปรในแบบจำลองความน่าจะเป็นแบบไม่ต่อเนื่องหลายตัวแปร ขั้นตอนบางอย่างที่ใช้ในบริบทนี้สามารถนำไปใช้ในการจัดการกับตารางความสัมพันธ์ได้
OLAP cubeคือรูปแบบการคำนวณแบบหลายมิติสมัยใหม่ของตารางความสัมพันธ์
ข้อมูลแบบพาเนล (Panel data)คือข้อมูลหลายมิติที่เปลี่ยนแปลงไปตามเวลา

อ่านเพิ่มเติม

Andersen, Erling B. 1980. แบบจำลองทางสถิติแบบไม่ต่อเนื่องกับการประยุกต์ใช้ในสังคมศาสตร์ . นอร์ทฮอลแลนด์, 1980.
Bishop, YMM ; Fienberg, SE ; Holland, PW (1975). การวิเคราะห์หลายตัวแปรแบบไม่ต่อเนื่อง: ทฤษฎีและการปฏิบัติ . สำนักพิมพ์ MIT. ISBN 978-0-262-02113-5MR 0381130
Christensen, Ronald (1997). แบบจำลองเชิงเส้นลอการิทึมและการถดถอยโลจิสติก . Springer Texts in Statistics (ฉบับพิมพ์ครั้งที่สอง). นิวยอร์ก: Springer-Verlag. หน้า xvi+483. ISBN 0-387-98247-7MR 1633357
Lauritzen, Steffen L. (1979). การบรรยายเรื่องตารางความสัมพันธ์ (มหาวิทยาลัย Aalborg) (PDF) (ฉบับที่ 4 (ฉบับอิเล็กทรอนิกส์ครั้งแรก), ฉบับปี 2002)
Gokhale, DV; Kullback, Solomon (1978). ข้อมูลในตารางความสัมพันธ์เชิงสาเหตุ . Marcel Dekker. ISBN 0-824-76698-9.

ลิงก์ภายนอก

การวิเคราะห์ตารางความน่าจะเป็นแบบออนไลน์: เครื่องคำนวณพร้อมตัวอย่าง
ตารางไขว้แบบโต้ตอบ การทดสอบไคสแควร์แบบอิสระ และบทช่วยสอน
เครื่องคำนวณฟิชเชอร์และไคสแควร์ของตารางความสัมพันธ์ 2 × 2
ค่าสัมประสิทธิ์สหสัมพันธ์เพิ่มเติม
ความสัมพันธ์เชิงนาม: Phi, สัมประสิทธิ์ความบังเอิญ, Tschuprow's T, Cramer's V, Lambda, สัมประสิทธิ์ความไม่แน่นอน , 24 มีนาคม 2551, G. David Garson, มหาวิทยาลัยแห่งรัฐนอร์ทแคโรไลนา
ตารางไขว้ CustomInsight.com
โครงการ POWERMUTT: IV. การแสดงข้อมูลเชิงหมวดหมู่
สถิติ: ความพยายามของสตีฟในการสอนสถิติ อัตราส่วนความน่าจะเป็นเทียบกับความเสี่ยงสัมพัทธ์ (9 มกราคม 2544)
บทเรียนที่ 5 การวิเคราะห์: การสร้างสถิติ จากคู่มือการประเมินสุขภาพชุมชนของ Epi Info

[ 1 ]

[ 2 ]

[ 3 ]

[

[ 5 ]

[ 6 ]

[ 7 ]