อ่าน 8 นาที
ข้อมูลร่วมกันแบบจุดต่อจุด
ใน ทางสถิติ ทฤษฎี ความน่าจะเป็น และ ทฤษฎีสารสนเทศ ข้อมูล ร่วมกันแบบจุดต่อจุด ( PMI ) [ 1 ] หรือ ข้อมูลร่วมกันแบบจุดต่อจุด เป็นการวัด ความสัมพันธ์...
ข้อมูลร่วมกันแบบจุดต่อจุด
ในทางสถิติทฤษฎีความน่าจะเป็นและทฤษฎีสารสนเทศข้อมูลร่วมกันแบบจุดต่อจุด ( PMI ) [ 1 ]หรือข้อมูลร่วมกันแบบจุดต่อจุดเป็นการวัดความสัมพันธ์โดยจะเปรียบเทียบความน่าจะเป็นของเหตุการณ์สองเหตุการณ์ที่เกิดขึ้นพร้อมกันกับความน่าจะเป็นที่จะเป็นหากเหตุการณ์เหล่านั้นเป็นอิสระต่อกัน[ 2 ]
PMI (โดยเฉพาะใน รูปแบบ ข้อมูลร่วมกันแบบจุดบวก ) ได้รับการอธิบายว่าเป็น "หนึ่งในแนวคิดที่สำคัญที่สุดในNLP " ซึ่ง "ดึงมาจากสัญชาตญาณที่ว่าวิธีที่ดีที่สุดในการชั่งน้ำหนักความสัมพันธ์ระหว่างสองคำคือการถามว่าคำสองคำนั้นปรากฏร่วมกันในคอร์ปัสมากกว่าที่เราคาดหวังว่าจะปรากฏโดยบังเอิญมากน้อยเพียงใด" [ 2 ]
แนวคิดนี้ได้รับการนำเสนอในปี พ.ศ. 2504 โดยRobert Fanoภายใต้ชื่อ "ข้อมูลร่วม" แต่ปัจจุบันคำนี้ถูกใช้แทนสำหรับการวัดความสัมพันธ์ระหว่างตัวแปรสุ่มที่เกี่ยวข้อง: [ 2 ]ข้อมูลร่วม (MI) ของตัวแปรสุ่มแบบไม่ต่อเนื่องสองตัวหมายถึงค่าเฉลี่ย PMI ของเหตุการณ์ที่เป็นไปได้ทั้งหมด
คำนิยาม
PMI ของ ผลลัพธ์ คู่xและyที่เป็นของตัวแปรสุ่มแบบไม่ต่อเนื่องXและYจะวัดความแตกต่างระหว่างความน่าจะเป็นของการเกิดขึ้นพร้อมกันโดยพิจารณาจากการกระจายร่วมและการกระจายรายบุคคล โดยถือว่ามีความเป็นอิสระต่อกันในทางคณิตศาสตร์: [ 2 ]
(โดยที่สองนิพจน์หลังเท่ากับนิพจน์แรกตามทฤษฎีบทของเบย์ส ) ข้อมูลร่วม (MI) ของตัวแปรสุ่มXและYคือค่าคาดหวังของ PMI (เหนือผลลัพธ์ที่เป็นไปได้ทั้งหมด)
การวัดนี้มีความสมมาตร ( ) สามารถมีค่าเป็นบวกหรือลบได้ แต่จะเป็นศูนย์หากXและYเป็นอิสระต่อกันโปรดทราบว่าแม้ว่า PMI อาจเป็นลบหรือบวก แต่ผลลัพธ์ที่คาดหวังจากเหตุการณ์ร่วมทั้งหมด (MI) จะไม่เป็นลบ PMI จะมีค่าสูงสุดเมื่อXและYมีความสัมพันธ์กันอย่างสมบูรณ์ (เช่นหรือ) ซึ่งให้ขอบเขตดังต่อไปนี้:
สุดท้าย ค่าจะเพิ่มขึ้นหากค่าคงที่ แต่จะลดลงหากค่าคงที่
ต่อไปนี้เป็นตัวอย่างเพื่ออธิบาย:
| x | y | p ( x , y ) |
|---|---|---|
| 0 | 0 | 0.1 |
| 0 | 1 | 0.7 |
| 1 | 0 | 0.15 |
| 1 | 1 | 0.05 |
เมื่อใช้ตารางนี้ เราสามารถหาค่าเฉลี่ยเพื่อสร้างตารางเพิ่มเติมสำหรับข้อมูลการแจกแจงรายบุคคลได้ดังนี้:
| พี ( x ) | พี ( y ) | |
|---|---|---|
| 0 | 0.8 | 0.25 |
| 1 | 0.2 | 0.75 |
จากตัวอย่างนี้ เราสามารถคำนวณค่าสี่ค่าสำหรับโดยใช้ลอการิทึมฐาน 2 ได้ดังนี้:
(เพื่อเป็นข้อมูลอ้างอิงค่าข้อมูลร่วม (mutual information ) จะเท่ากับ 0.2141709)
ความคล้ายคลึงกับข้อมูลร่วมกัน
ข้อมูลร่วมเชิงจุด (Pointwise Mutual Information) มีความสัมพันธ์หลายอย่างคล้ายคลึงกับข้อมูลร่วม (Mutual Information) โดยเฉพาะอย่างยิ่ง
ข้อมูลเกี่ยวกับตนเองอยู่ที่ไหนหรือ...
ตัวแปร
มีการเสนอรูปแบบต่างๆ ของ PMI หลายรูปแบบ โดยเฉพาะอย่างยิ่งเพื่อแก้ไขสิ่งที่ถูกอธิบายว่าเป็น "ข้อจำกัดหลักสองประการ": [ 3 ]
- PMI สามารถรับค่าได้ทั้งบวกและลบ และไม่มีขอบเขตที่แน่นอน ซึ่งทำให้การตีความทำได้ยากขึ้น[ 3 ]
- PMI มี "แนวโน้มที่เป็นที่รู้จักกันดีในการให้คะแนนที่สูงกว่าแก่เหตุการณ์ที่มีความถี่ต่ำ" แต่ในการใช้งานเช่นการวัดความคล้ายคลึงของคำ จะเป็นที่พึงปรารถนามากกว่าหาก "ให้คะแนนที่สูงกว่าแก่คู่คำที่มีความสัมพันธ์กันซึ่งได้รับการสนับสนุนจากหลักฐานที่มากกว่า" [ 3 ]
PMI ที่เป็นบวก
การวัดข้อมูลร่วมกันแบบจุดบวก (PPMI) ถูกกำหนดโดยการตั้งค่าค่าลบของ PMI ให้เป็นศูนย์: [ 2 ]
คำจำกัดความนี้ได้รับแรงบันดาลใจจากการสังเกตว่า "ค่า PMI ที่เป็นลบ (ซึ่งหมายความว่าสิ่งต่างๆ เกิดขึ้นร่วมกันน้อยกว่าที่เราคาดหวังโดยบังเอิญ) มักจะไม่น่าเชื่อถือเว้นแต่ว่าคลังข้อมูลของเราจะมีขนาดใหญ่มาก" และยังเกิดจากความกังวลว่า "ยังไม่ชัดเจนว่าเป็นไปได้หรือไม่ที่จะประเมินคะแนน 'ความไม่เกี่ยวข้อง' ดังกล่าวด้วยการตัดสินของมนุษย์" [ 2 ]นอกจากนี้ยังหลีกเลี่ยงการต้องจัดการกับค่าสำหรับเหตุการณ์ที่ไม่เคยเกิดขึ้นร่วมกัน ( ) โดยการตั้งค่า PPMI สำหรับสิ่งเหล่านี้เป็น 0 [ 2 ]
ข้อมูลร่วมแบบจุดต่อจุดที่ปรับให้เป็นมาตรฐาน (npmi)
ข้อมูลร่วมกันแบบจุดต่อจุดสามารถทำให้เป็นมาตรฐานระหว่าง [-1,+1] ส่งผลให้ -1 (ในขีดจำกัด) สำหรับการไม่เกิดขึ้นร่วมกันเลย 0 สำหรับความเป็นอิสระ และ +1 สำหรับการเกิดขึ้นร่วมกันอย่าง สมบูรณ์ [ 4 ]
ข้อมูล ร่วมกันเกี่ยวกับตนเอง อยู่ที่ไหน
ครอบครัวPMI k
การวัด PMI k (สำหรับ k=2, 3 เป็นต้น) ซึ่งแนะนำโดยBéatrice Dailleประมาณปี 1994 และในปี 2011 ได้รับการอธิบายว่าเป็น "รูปแบบที่ใช้กันอย่างแพร่หลายที่สุด" ได้รับการกำหนดดังนี้[ 5 ] [ 3 ]
In particular, . The additional factors of inside the logarithm are intended to correct the bias of PMI towards low-frequency events, by boosting the scores of frequent pairs.[3] A 2011 case study demonstrated the success of PMI3 in correcting this bias on a corpus drawn from English Wikipedia. Taking x to be the word "football", its most strongly associated words y according to the PMI measure (i.e. those maximizing ) were domain-specific ("midfielder", "cornerbacks", "goalkeepers") whereas the terms ranked most highly by PMI3 were much more general ("league", "clubs", "england").[3]
Specific correlation
Total correlation is an extension of mutual information to multi-variables. Analogously to the definition of total correlation, the extension of PMI to multi-variables is "specific correlation".[6] The SI of the results of random variables is expressed as the following:
Chain-rule
Like mutual information,[7] point mutual information follows the chain rule, that is,
This is proven through application of Bayes' theorem:
Applications
PMI could be used in various disciplines e.g. in information theory, linguistics or chemistry (in profiling and analysis of chemical compounds).[8] In computational linguistics, PMI has been used for finding collocations and associations between words. For instance, countings of occurrences and co-occurrences of words in a text corpus can be used to approximate the probabilities and respectively. The following table shows counts of pairs of words getting the most and the least PMI scores in the first 50 millions of words in Wikipedia (dump of October 2015) filtering by 1,000 or more co-occurrences. The frequency of each count can be obtained by dividing its value by 50,000,952. (Note: natural log is used to calculate the PMI values in this example, instead of log base 2)
| word 1 | word 2 | count word 1 | count word 2 | count of co-occurrences | PMI |
|---|---|---|---|---|---|
| puerto | rico | 1938 | 1311 | 1159 | 10.0349081703 |
| hong | kong | 2438 | 2694 | 2205 | 9.72831972408 |
| los | angeles | 3501 | 2808 | 2791 | 9.56067615065 |
| carbon | dioxide | 4265 | 1353 | 1032 | 9.09852946116 |
| prize | laureate | 5131 | 1676 | 1210 | 8.85870710982 |
| san | francisco | 5237 | 2477 | 1779 | 8.83305176711 |
| nobel | prize | 4098 | 5131 | 2498 | 8.68948811416 |
| ice | hockey | 5607 | 3002 | 1933 | 8.6555759741 |
| star | trek | 8264 | 1594 | 1489 | 8.63974676575 |
| car | driver | 5578 | 2749 | 1384 | 8.41470768304 |
| it | the | 283891 | 3293296 | 3347 | -1.72037278119 |
| are | of | 234458 | 1761436 | 1019 | -2.09254205335 |
| นี้ | ที่ | 199882 | 3293296 | 1211 | -2.38612756961 |
| เป็น | ของ | 565679 | 1761436 | 1562 | -2.54614706831 |
| และ | ของ | 1375396 | 1761436 | 2949 | -2.79911817902 |
| เอ | และ | 984442 | 1375396 | 1457 | -2.92239510038 |
| ใน | และ | 1187652 | 1375396 | 1537 | -3.05660070757 |
| ถึง | และ | 1025659 | 1375396 | 1286 | -3.08825363041 |
| ถึง | ใน | 1025659 | 1187652 | 1066 | -3.12911348956 |
| ของ | และ | 1761436 | 1375396 | 1190 | -3.70663100173 |
คู่คำที่มีการจัดเรียงที่ดีจะมีค่า PMI สูง เนื่องจากความน่าจะเป็นของการปรากฏร่วมกันนั้นต่ำกว่าความน่าจะเป็นของการปรากฏของแต่ละคำเพียงเล็กน้อย ในทางกลับกัน คู่คำที่มีความน่าจะเป็นของการปรากฏสูงกว่าความน่าจะเป็นของการปรากฏร่วมกันอย่างมาก จะมีค่า PMI ต่ำ
ดูเพิ่มเติม
ลิงก์ภายนอก
- การสาธิตบนเซิร์ฟเวอร์ Rensselaer MSR (ค่า PMI ถูกปรับให้เป็นค่าระหว่าง 0 ถึง 1)
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ข้อมูลร่วมกันแบบจุดต่อจุด
ใน ทางสถิติ ทฤษฎี ความน่าจะเป็น และ ทฤษฎีสารสนเทศ ข้อมูล ร่วมกันแบบจุดต่อจุด ( PMI ) [ 1 ] หรือ ข้อมูลร่วมกันแบบจุดต่อจุด เป็นการวัด ความสัมพันธ์...
คำนิยาม
PMI ของ ผลลัพธ์ คู่ x และ y ที่เป็นของ ตัวแปรสุ่มแบบไม่ต่อเนื่อง X และ Y จะวัดความแตกต่างระหว่างความน่าจะเป็นของการเกิดขึ้นพร้อมกันโดยพิจารณาจาก การกระจายร่วม และการกระจายรายบุคคล โดยถือว่า มีความเป็นอิสระต่อกัน ในทางคณิตศาสตร์: [ 2 ]
ความคล้ายคลึงกับข้อมูลร่วมกัน
ข้อมูลร่วมเชิงจุด (Pointwise Mutual Information) มีความสัมพันธ์หลายอย่างคล้ายคลึงกับข้อมูลร่วม (Mutual Information) โดยเฉพาะอย่างยิ่ง
ตัวแปร
มีการเสนอรูปแบบต่างๆ ของ PMI หลายรูปแบบ โดยเฉพาะอย่างยิ่งเพื่อแก้ไขสิ่งที่ถูกอธิบายว่าเป็น "ข้อจำกัดหลักสองประการ": [ 3 ]