ข้อมูลร่วมกันแบบจุดต่อจุด

Q: คำนิยาม

PMI ของ ผลลัพธ์ คู่ x และ y ที่เป็นของ ตัวแปรสุ่มแบบไม่ต่อเนื่อง X และ Y จะวัดความแตกต่างระหว่างความน่าจะเป็นของการเกิดขึ้นพร้อมกันโดยพิจารณาจาก การกระจายร่วม และการกระจายรายบุคคล โดยถือว่า มีความเป็นอิสระต่อกัน ในทางคณิตศาสตร์: [ 2 ]

ในทางสถิติทฤษฎีความน่าจะเป็นและทฤษฎีสารสนเทศข้อมูลร่วมกันแบบจุดต่อจุด ( PMI ) ^{[ 1 ]}หรือข้อมูลร่วมกันแบบจุดต่อจุดเป็นการวัดความสัมพันธ์โดยจะเปรียบเทียบความน่าจะเป็นของเหตุการณ์สองเหตุการณ์ที่เกิดขึ้นพร้อมกันกับความน่าจะเป็นที่จะเป็นหากเหตุการณ์เหล่านั้นเป็นอิสระต่อกัน^{[ 2 ]}

PMI (โดยเฉพาะใน รูปแบบ ข้อมูลร่วมกันแบบจุดบวก ) ได้รับการอธิบายว่าเป็น "หนึ่งในแนวคิดที่สำคัญที่สุดในNLP " ซึ่ง "ดึงมาจากสัญชาตญาณที่ว่าวิธีที่ดีที่สุดในการชั่งน้ำหนักความสัมพันธ์ระหว่างสองคำคือการถามว่าคำสองคำนั้นปรากฏร่วมกันในคอร์ปัสมากกว่าที่เราคาดหวังว่าจะปรากฏโดยบังเอิญมากน้อยเพียงใด" ^[²^]

แนวคิดนี้ได้รับการนำเสนอในปี พ.ศ. 2504 โดยRobert Fanoภายใต้ชื่อ "ข้อมูลร่วม" แต่ปัจจุบันคำนี้ถูกใช้แทนสำหรับการวัดความสัมพันธ์ระหว่างตัวแปรสุ่มที่เกี่ยวข้อง: ^{[ 2 ]}ข้อมูลร่วม (MI) ของตัวแปรสุ่มแบบไม่ต่อเนื่องสองตัวหมายถึงค่าเฉลี่ย PMI ของเหตุการณ์ที่เป็นไปได้ทั้งหมด

คำนิยาม

PMI ของ ผลลัพธ์ คู่xและyที่เป็นของตัวแปรสุ่มแบบไม่ต่อเนื่องXและYจะวัดความแตกต่างระหว่างความน่าจะเป็นของการเกิดขึ้นพร้อมกันโดยพิจารณาจากการกระจายร่วมและการกระจายรายบุคคล โดยถือว่ามีความเป็นอิสระต่อกันในทางคณิตศาสตร์: ^{[ 2 ]}

\operatorname {pmi} (x;y)\equiv \log _{2}{\frac {p(x,y)}{p(x)p(y)}}=\log _{2}{\frac {p(x|y)}{p(x)}}=\log _{2}{\frac {p(y|x)}{p(y)}}

(โดยที่สองนิพจน์หลังเท่ากับนิพจน์แรกตามทฤษฎีบทของเบย์ส ) ข้อมูลร่วม (MI) ของตัวแปรสุ่มXและYคือค่าคาดหวังของ PMI (เหนือผลลัพธ์ที่เป็นไปได้ทั้งหมด)

การวัดนี้มีความสมมาตร ( ) สามารถมีค่าเป็นบวกหรือลบได้ แต่จะเป็นศูนย์หากXและYเป็นอิสระต่อกันโปรดทราบว่าแม้ว่า PMI อาจเป็นลบหรือบวก แต่ผลลัพธ์ที่คาดหวังจากเหตุการณ์ร่วมทั้งหมด (MI) จะไม่เป็นลบ PMI จะมีค่าสูงสุดเมื่อXและYมีความสัมพันธ์กันอย่างสมบูรณ์ (เช่นหรือ) ซึ่งให้ขอบเขตดังต่อไปนี้: $\operatorname {pmi} (x;y)=\operatorname {pmi} (y;x)$ $p(x|y)$ $p(y|x)=1$

-\infty \leq \operatorname {pmi} (x;y)\leq \min \left[-\log p(x),-\log p(y)\right].

สุดท้าย ค่าจะเพิ่มขึ้นหากค่าคงที่ แต่จะลดลงหากค่าคงที่ $\operatorname {pmi} (x;y)$ $p(x|y)$ $p(x)$

ต่อไปนี้เป็นตัวอย่างเพื่ออธิบาย:

x	y	p ( x , y )
0	0	0.1
0	1	0.7
1	0	0.15
1	1	0.05

เมื่อใช้ตารางนี้ เราสามารถหาค่าเฉลี่ยเพื่อสร้างตารางเพิ่มเติมสำหรับข้อมูลการแจกแจงรายบุคคลได้ดังนี้:

	พี ( x )	พี ( y )
0	0.8	0.25
1	0.2	0.75

จากตัวอย่างนี้ เราสามารถคำนวณค่าสี่ค่าสำหรับโดยใช้ลอการิทึมฐาน 2 ได้ดังนี้: $\operatorname {pmi} (x;y)$

\operatorname {pmi} (x=0;y=0)=-1

\operatorname {pmi} (x=0;y=1)=0.222392

\operatorname {pmi} (x=1;y=0)=1.584963

\operatorname {pmi} (x=1;y=1)=-1.584963

(เพื่อเป็นข้อมูลอ้างอิงค่าข้อมูลร่วม (mutual information ) จะเท่ากับ 0.2141709) $\operatorname {I} (X;Y)$

ความคล้ายคลึงกับข้อมูลร่วมกัน

ข้อมูลร่วมเชิงจุด (Pointwise Mutual Information) มีความสัมพันธ์หลายอย่างคล้ายคลึงกับข้อมูลร่วม (Mutual Information) โดยเฉพาะอย่างยิ่ง

${\begin{aligned}\operatorname {pmi} (x;y)&=&h(x)+h(y)-h(x,y)\\&=&h(x)-h(x\mid y)\\&=&h(y)-h(y\mid x)\end{aligned}}$

ข้อมูลเกี่ยวกับตนเองอยู่ที่ไหนหรือ... $h(x)$ $-\log _{2}p(x)$

ตัวแปร

มีการเสนอรูปแบบต่างๆ ของ PMI หลายรูปแบบ โดยเฉพาะอย่างยิ่งเพื่อแก้ไขสิ่งที่ถูกอธิบายว่าเป็น "ข้อจำกัดหลักสองประการ": ^{[ 3 ]}

PMI สามารถรับค่าได้ทั้งบวกและลบ และไม่มีขอบเขตที่แน่นอน ซึ่งทำให้การตีความทำได้ยากขึ้น^{[ 3 ]}
PMI มี "แนวโน้มที่เป็นที่รู้จักกันดีในการให้คะแนนที่สูงกว่าแก่เหตุการณ์ที่มีความถี่ต่ำ" แต่ในการใช้งานเช่นการวัดความคล้ายคลึงของคำ จะเป็นที่พึงปรารถนามากกว่าหาก "ให้คะแนนที่สูงกว่าแก่คู่คำที่มีความสัมพันธ์กันซึ่งได้รับการสนับสนุนจากหลักฐานที่มากกว่า" ^{[ 3 ]}

PMI ที่เป็นบวก

การวัดข้อมูลร่วมกันแบบจุดบวก (PPMI) ถูกกำหนดโดยการตั้งค่าค่าลบของ PMI ให้เป็นศูนย์: ^{[ 2 ]}

$\operatorname {ppmi} (x;y)\equiv \max \left(\log _{2}{\frac {p(x,y)}{p(x)p(y)}},0\right)$

คำจำกัดความนี้ได้รับแรงบันดาลใจจากการสังเกตว่า "ค่า PMI ที่เป็นลบ (ซึ่งหมายความว่าสิ่งต่างๆ เกิดขึ้นร่วมกันน้อยกว่าที่เราคาดหวังโดยบังเอิญ) มักจะไม่น่าเชื่อถือเว้นแต่ว่าคลังข้อมูลของเราจะมีขนาดใหญ่มาก" และยังเกิดจากความกังวลว่า "ยังไม่ชัดเจนว่าเป็นไปได้หรือไม่ที่จะประเมินคะแนน 'ความไม่เกี่ยวข้อง' ดังกล่าวด้วยการตัดสินของมนุษย์" ^{[ 2 ]}นอกจากนี้ยังหลีกเลี่ยงการต้องจัดการกับค่าสำหรับเหตุการณ์ที่ไม่เคยเกิดขึ้นร่วมกัน ( ) โดยการตั้งค่า PPMI สำหรับสิ่งเหล่านี้เป็น 0 ^[²^] $-\infty$ $p(x,y)=0$

ข้อมูลร่วมแบบจุดต่อจุดที่ปรับให้เป็นมาตรฐาน (npmi)

ข้อมูลร่วมกันแบบจุดต่อจุดสามารถทำให้เป็นมาตรฐานระหว่าง [-1,+1] ส่งผลให้ -1 (ในขีดจำกัด) สำหรับการไม่เกิดขึ้นร่วมกันเลย 0 สำหรับความเป็นอิสระ และ +1 สำหรับการเกิดขึ้นร่วมกันอย่าง สมบูรณ์ ^{[ 4 ]}

$\operatorname {npmi} (x;y)={\frac {\operatorname {pmi} (x;y)}{h(x,y)}}$

ข้อมูล ร่วมกันเกี่ยวกับตนเอง อยู่ที่ไหน $h(x,y)$ $-\log _{2}p(x,y)$

ครอบครัวPMI ^k

การวัด PMI ^k (สำหรับ k=2, 3 เป็นต้น) ซึ่งแนะนำโดยBéatrice Dailleประมาณปี 1994 และในปี 2011 ได้รับการอธิบายว่าเป็น "รูปแบบที่ใช้กันอย่างแพร่หลายที่สุด" ได้รับการกำหนดดังนี้^{[ 5 ]}^{[ 3 ]}

$\operatorname {pmi} ^{k}(x;y)\equiv \log _{2}{\frac {p(x,y)^{k}}{p(x)p(y)}}=\operatorname {pmi} (x;y)-(-(k-1)\log _{2}p(x,y))$

In particular, $pmi^{1}(x;y)=pmi(x;y)$ . The additional factors of $p(x,y)$ inside the logarithm are intended to correct the bias of PMI towards low-frequency events, by boosting the scores of frequent pairs.^[3] A 2011 case study demonstrated the success of PMI³ in correcting this bias on a corpus drawn from English Wikipedia. Taking x to be the word "football", its most strongly associated words y according to the PMI measure (i.e. those maximizing $pmi(x;y)$ ) were domain-specific ("midfielder", "cornerbacks", "goalkeepers") whereas the terms ranked most highly by PMI³ were much more general ("league", "clubs", "england").^[3]

Specific correlation

Total correlation is an extension of mutual information to multi-variables. Analogously to the definition of total correlation, the extension of PMI to multi-variables is "specific correlation".^[6] The SI of the results of random variables ${\boldsymbol {x}}=(x_{1},x_{2},\ldots {},x_{n})$ is expressed as the following:

\mathrm {SI} (x_{1},x_{2},\ldots ,x_{n})\equiv \log {\frac {p(x_{1},x_{2},\ldots ,x_{n})}{\prod _{i=1}^{n}p(x_{i})}}=\log p({\boldsymbol {x}})-\log \prod _{i=1}^{n}p\left(x_{i}\right)

Chain-rule

Like mutual information,^[7] point mutual information follows the chain rule, that is,

\operatorname {pmi} (x;yz)=\operatorname {pmi} (x;y)+\operatorname {pmi} (x;z|y)

This is proven through application of Bayes' theorem:

{\begin{aligned}\operatorname {pmi} (x;y)+\operatorname {pmi} (x;z|y)&{}=\log {\frac {p(x,y)}{p(x)p(y)}}+\log {\frac {p(x,z|y)}{p(x|y)p(z|y)}}\\&{}=\log \left[{\frac {p(x,y)}{p(x)p(y)}}{\frac {p(x,z|y)}{p(x|y)p(z|y)}}\right]\\&{}=\log {\frac {p(x|y)p(y)p(x,z|y)}{p(x)p(y)p(x|y)p(z|y)}}\\&{}=\log {\frac {p(x,yz)}{p(x)p(yz)}}\\&{}=\operatorname {pmi} (x;yz)\end{aligned}}

Applications

PMI could be used in various disciplines e.g. in information theory, linguistics or chemistry (in profiling and analysis of chemical compounds).^[8] In computational linguistics, PMI has been used for finding collocations and associations between words. For instance, countings of occurrences and co-occurrences of words in a text corpus can be used to approximate the probabilities $p(x)$ and $p(x,y)$ respectively. The following table shows counts of pairs of words getting the most and the least PMI scores in the first 50 millions of words in Wikipedia (dump of October 2015) filtering by 1,000 or more co-occurrences. The frequency of each count can be obtained by dividing its value by 50,000,952. (Note: natural log is used to calculate the PMI values in this example, instead of log base 2)

word 1	word 2	count word 1	count word 2	count of co-occurrences	PMI
puerto	rico	1938	1311	1159	10.0349081703
hong	kong	2438	2694	2205	9.72831972408
los	angeles	3501	2808	2791	9.56067615065
carbon	dioxide	4265	1353	1032	9.09852946116
prize	laureate	5131	1676	1210	8.85870710982
san	francisco	5237	2477	1779	8.83305176711
nobel	prize	4098	5131	2498	8.68948811416
ice	hockey	5607	3002	1933	8.6555759741
star	trek	8264	1594	1489	8.63974676575
car	driver	5578	2749	1384	8.41470768304
it	the	283891	3293296	3347	-1.72037278119
are	of	234458	1761436	1019	-2.09254205335
นี้	ที่	199882	3293296	1211	-2.38612756961
เป็น	ของ	565679	1761436	1562	-2.54614706831
และ	ของ	1375396	1761436	2949	-2.79911817902
เอ	และ	984442	1375396	1457	-2.92239510038
ใน	และ	1187652	1375396	1537	-3.05660070757
ถึง	และ	1025659	1375396	1286	-3.08825363041
ถึง	ใน	1025659	1187652	1066	-3.12911348956
ของ	และ	1761436	1375396	1190	-3.70663100173

คู่คำที่มีการจัดเรียงที่ดีจะมีค่า PMI สูง เนื่องจากความน่าจะเป็นของการปรากฏร่วมกันนั้นต่ำกว่าความน่าจะเป็นของการปรากฏของแต่ละคำเพียงเล็กน้อย ในทางกลับกัน คู่คำที่มีความน่าจะเป็นของการปรากฏสูงกว่าความน่าจะเป็นของการปรากฏร่วมกันอย่างมาก จะมีค่า PMI ต่ำ

ดูเพิ่มเติม

ข้อมูลที่ขึ้นอยู่กับสถานะ

ลิงก์ภายนอก

การสาธิตบนเซิร์ฟเวอร์ Rensselaer MSR (ค่า PMI ถูกปรับให้เป็นค่าระหว่าง 0 ถึง 1)

[ 1 ]

[ 4 ]

[ 5 ]

[6]

[7]

[8]