ถุงมือ

Q: การนับคำ

ให้ คำศัพท์ เป็นเซตของคำที่เป็นไปได้ทั้งหมด (หรือที่เรียกว่า "โทเค็น") เครื่องหมายวรรคตอนจะถูกละเลยหรือถือว่าเป็นคำศัพท์ และเช่นเดียวกันสำหรับการใช้อักษรตัวใหญ่และรายละเอียดการพิมพ์อื่นๆ [ 1 ] วี {\displaystyle V}

GloVeซึ่งตั้งชื่อตามGlobal Vectorsเป็นแบบจำลองสำหรับการแสดงคำแบบกระจาย แบบจำลองนี้เป็น อัลกอริธึม การเรียนรู้แบบไม่กำกับดูแลสำหรับการได้มา ซึ่ง การแสดงเวกเตอร์ของคำ ซึ่งทำได้โดยการแมปคำไปยังพื้นที่ที่มีความหมาย โดยระยะห่างระหว่างคำจะสัมพันธ์กับความคล้ายคลึงทางความหมาย^{[ 1 ]} การฝึกอบรมดำเนินการกับ สถิติ การเกิดขึ้น ร่วมกันของคำทั่วโลกที่รวบรวมจากคอร์ปัสและการแสดงผลลัพธ์จะแสดงโครงสร้างย่อยเชิงเส้นที่น่าสนใจของพื้นที่เวกเตอร์คำในฐานะแบบจำลองการถดถอยแบบลอการิทึมเชิงเส้นสำหรับการเรียนรู้แบบไม่กำกับดูแลของการแสดงคำ มันรวมคุณสมบัติของแบบจำลองสองตระกูล ได้แก่ การแยกตัวประกอบเมทริกซ์ทั่วโลกและวิธีการหน้าต่างบริบทท้องถิ่น

มันถูกพัฒนาเป็น โครงการ โอเพนซอร์สที่มหาวิทยาลัยสแตนฟอร์ด^{[ 2 ]}และเปิดตัวในปี 2014 มันถูกออกแบบมาเพื่อเป็นคู่แข่งกับword2vecและเอกสารต้นฉบับได้ระบุถึงการปรับปรุงหลายประการของ GloVe เหนือ word2vec ณ ปี 2022 ทั้งสองแนวทางนั้นล้าสมัยแล้ว และ โมเดลที่ใช้ Transformerเช่นBERTซึ่งเพิ่มเลเยอร์ความสนใจของเครือข่ายประสาทหลายชั้นไว้บนโมเดลการฝังคำที่คล้ายกับ Word2vec ได้กลายเป็นที่รู้จักในฐานะเทคโนโลยีล้ำสมัยในการประมวลผลภาษาธรรมชาติ (NLP) ^{[ 3 ]}

คำนิยาม

คุณจะรู้จักคำพูดได้จากกลุ่มคนที่มันคบหาด้วย (Firth, JR 1957:11) ^{[ 4 ]}

แนวคิดของ GloVe คือการสร้างเวกเตอร์สองตัว สำหรับแต่ละคำ โดยที่ตำแหน่งสัมพัทธ์ของเวกเตอร์เหล่านี้จะแสดงถึงความสม่ำเสมอทางสถิติบางส่วนของคำนั้นความสม่ำเสมอทางสถิตินี้กำหนดโดยความน่าจะเป็นของการปรากฏร่วมกัน คำที่มีความหมายคล้ายคลึงกันควรมีความน่าจะเป็นของการปรากฏร่วมกันที่คล้ายคลึงกันด้วย $i$ $w_{i},{\ตัวหนอน {w}__{i}$ $i$

การนับคำ

ให้คำศัพท์เป็นเซตของคำที่เป็นไปได้ทั้งหมด (หรือที่เรียกว่า "โทเค็น") เครื่องหมายวรรคตอนจะถูกละเลยหรือถือว่าเป็นคำศัพท์ และเช่นเดียวกันสำหรับการใช้อักษรตัวใหญ่และรายละเอียดการพิมพ์อื่นๆ^[¹^] $V$

ถ้าคำสองคำปรากฏอยู่ใกล้กัน เราจะกล่าวว่าคำเหล่านั้นปรากฏอยู่ในบริบทเดียวกัน ตัวอย่างเช่น ถ้าความยาวของบริบทคือ 3 เราจะกล่าวว่าในประโยคต่อไปนี้

GloVe ₁ซึ่งบัญญัติขึ้น₂จาก₃เวกเตอร์ทั่วโลก₄₅คือ₆แบบจำลอง7 _{สำหรับ} 9 _การแสดงคำ_แบบกระจาย₁₀₁₁₁₂

คำว่า "model ₈ " อยู่ในบริบทของ "word ₁₁ " แต่ไม่อยู่ในบริบทของ "representation ₁₂ "

คำๆ หนึ่งจะไม่นับรวมอยู่ในบริบทของตัวมันเอง ดังนั้น "model ₈ " จึงไม่นับรวมอยู่ในบริบทของคำว่า "model ₈ " อย่างไรก็ตาม หากคำนั้นปรากฏอีกครั้งในบริบทเดียวกัน ก็จะนับรวมด้วย

ให้เป็นจำนวนครั้งที่คำนั้นปรากฏในบริบทของคำนั้นตลอดทั้งชุดข้อมูล ตัวอย่างเช่น ถ้าชุดข้อมูลคือ "I don't think that that is a problem." เราจะมีเนื่องจากคำว่า "that" คำแรกปรากฏในบริบทของคำที่สอง และในทางกลับกัน $X_{ij}$ $j$ $i$ $X_{{\text{that}},{\text{that}}}=2$

ให้เป็นจำนวนคำในบริบทของคำทั้งหมดที่ปรากฏโดยการนับ เราจะได้(ยกเว้นคำที่ปรากฏอยู่ต้นและท้ายของชุดข้อมูล) $X_{i}=\sum _{j\in V}X_{ij}$ $i$ $X_{i}=2\times ({\text{ขนาดบริบท}})\times \#({\text{จำนวนครั้งที่ปรากฏของคำ }}i)$

การสร้างแบบจำลองความน่าจะเป็น

ให้เป็นความน่าจะเป็นของการปรากฏร่วมกันนั่นคือ ถ้าเราสุ่มเลือกคำในเอกสารทั้งหมด และสุ่มเลือกคำ ในบริบทของคำนั้น คำนั้นจะ ปรากฏ ร่วมกันด้วยความน่าจะเป็น โปรดสังเกตว่าโดยทั่วไปแล้ว ตัวอย่างเช่น ในคลังข้อมูลภาษาอังกฤษสมัยใหม่ทั่วไปจะมีค่าใกล้เคียงกับหนึ่ง แต่จะมีค่าใกล้เคียงกับศูนย์ นี่เป็นเพราะคำว่า "ado" แทบจะใช้เฉพาะในบริบทของวลีโบราณ " much ado about " เท่านั้น แต่คำว่า "much" ปรากฏในบริบทต่างๆ มากมาย $P_{ik}:=P(k|i):={\frac {X_{ik}}{X_{i}}}$ $i$ $k$ $P_{ik}$ $P_{ik}\neq P_{ki}$ $P_{{\text{ado}},{\text{much}}}$ $P_{{\text{much}},{\text{ado}}}$

ตัวอย่างเช่น ในชุดโทเค็นขนาด 6 พันล้านโทเค็น เรามี

ตารางที่ 1 ของ^{[ 1 ]}
ความน่าจะเป็นและอัตราส่วน	$k={\text{ solid }}$	$k={\text{ gas }}$	$k={\text{ water }}$	$k={\text{ fashion }}$
$P(k\mid {\text{ ice }})$	$1.9\times 10^{-4}$	$6.6\times 10^{-5}$	$3.0\times 10^{-3}$	$1.7\times 10^{-5}$
$P(k\mid {\text{ steam }})$	$2.2\times 10^{-5}$	$7.8\times 10^{-4}$	$2.2\times 10^{-3}$	$1.8\times 10^{-5}$
$P(k\mid {\text{ ice }})/P(k\mid {\text{ steam }})$	$8.9$	$8.5\times 10^{-2}$	$1.36$	$0.96$

เมื่อพิจารณาตาราง เราจะเห็นว่าคำว่า "น้ำแข็ง" และ "ไอน้ำ" แทบจะแยกไม่ออกเมื่อเปรียบเทียบกับคำว่า "น้ำ" (มักปรากฏร่วมกับทั้งสองคำ) และ "แฟชั่น" (ไม่ค่อยปรากฏร่วมกับคำใดคำหนึ่ง) แต่สามารถแยกออกได้เมื่อเปรียบเทียบกับคำว่า "ของแข็ง" (มักปรากฏร่วมกับน้ำแข็งมากกว่า) และ "ก๊าซ" (มักปรากฏร่วมกับ "ไอน้ำ" มากกว่า)

แนวคิดคือการเรียนรู้เวกเตอร์สองตัวสำหรับแต่ละคำเพื่อให้ได้การถดถอยโลจิสติกแบบหลายตัวแปรโดยที่เทอมต่างๆเป็นพารามิเตอร์ที่ไม่สำคัญ $w_{i},{\tilde {w}}_{i}$ $i$ $w_{i}^{T}{\tilde {w}}_{j}+b_{i}+{\tilde {b}}_{j}\approx \ln P_{ij}$ $b_{i},{\tilde {b}}_{j}$

นั่นหมายความว่า หากคำเหล่านั้นมีโอกาสปรากฏร่วมกันใกล้เคียงกัน เวกเตอร์ของ คำ เหล่านั้นก็ควรจะใกล้เคียงกันด้วย $i,j$ $(P_{ik})_{k\in V}\approx (P_{jk})_{k\in V}$ $w_{i}\approx w_{j}$

การถดถอยโลจิสติก

โดยทั่วไปแล้ว การวิเคราะห์การถดถอยโลจิสติกส์สามารถทำได้โดยการลดค่าความสูญเสียกำลังสองให้เหลือน้อยที่สุดอย่างไรก็ตาม วิธีนี้จะทำให้เกิดสัญญาณรบกวนมากสำหรับเหตุการณ์ร่วมที่เกิดขึ้นไม่บ่อย เพื่อแก้ไขปัญหานี้ ค่าความสูญเสียกำลังสองจะถูกถ่วงน้ำหนักเพื่อให้ค่าความสูญเสียค่อยๆ เพิ่มขึ้นตามจำนวนเหตุการณ์ร่วมที่เพิ่มขึ้นโดยที่และเป็นพารามิเตอร์เสริมในบทความต้นฉบับ ผู้เขียนพบว่าดูเหมือนจะใช้งานได้ดีในทางปฏิบัติ $L=\sum _{i,j\in V}(w_{i}^{T}{\tilde {w}}_{j}+b_{i}+{\tilde {b}}_{j}-\ln P_{ij})^{2}$ $X_{ij}$ $L=\sum _{i,j\in V}f(X_{ij})(w_{i}^{T}{\tilde {w}}_{j}+b_{i}+{\tilde {b}}_{j}-\ln P_{ij})^{2}$ $f(x)=\left\{{\begin{array}{cc}\left(x/x_{\max }\right)^{\alpha }&{\text{ if }}x<x_{\max }\\1&{\text{ otherwise }}\end{array}}\right.$ $x_{\max },\alpha$ $x_{\max }=100,\alpha =3/4$

ใช้

เมื่อโมเดลได้รับการฝึกฝนแล้ว เราจะมีพารามิเตอร์ที่ฝึกฝนแล้ว 4 ตัวสำหรับแต่ละคำ: พารามิเตอร์เหล่านี้ไม่เกี่ยวข้อง และมีเพียงเท่านั้นที่เกี่ยวข้อง $w_{i},{\tilde {w}}_{i},b_{i},{\tilde {b}}_{i}$ $b_{i},{\tilde {b}}_{i}$ $w_{i},{\tilde {w}}_{i}$

ผู้เขียนแนะนำให้ใช้เป็นเวกเตอร์แสดงผลสุดท้ายสำหรับคำเนื่องจากจากการทดลองพบว่าได้ผลดีกว่าหรือใช้เพียงอย่างเดียว $w_{i}+{\tilde {w}}_{i}$ $i$ $w_{i}$ ${\tilde {w}}_{i}$

แอปพลิเคชัน

GloVe สามารถใช้เพื่อค้นหาความสัมพันธ์ระหว่างคำต่างๆ เช่น คำพ้องความหมาย ความสัมพันธ์ระหว่างบริษัทกับผลิตภัณฑ์ รหัสไปรษณีย์ และเมือง เป็นต้น อย่างไรก็ตาม อัลกอริทึมการเรียนรู้แบบไม่กำกับดูแลไม่มีประสิทธิภาพในการระบุคำที่มีการสะกดเหมือนกันแต่มีความหมายต่างกัน เนื่องจากอัลกอริทึมการเรียนรู้แบบไม่กำกับดูแลจะคำนวณเวกเตอร์ชุดเดียวสำหรับคำที่มีโครงสร้างทางสัณฐานวิทยาเหมือนกัน^{[ 5 ]}อัลกอริทึมนี้ยังถูกใช้โดย ไลบรารี SpaCyเพื่อสร้างคุณลักษณะการฝังคำเชิงความหมาย ในขณะที่คำนวณรายการคำอันดับต้นๆ ที่ตรงกันด้วยการวัดระยะทาง เช่นความคล้ายคลึงแบบโคไซน์และวิธีการระยะทางแบบยูคลิด^{[ 6 ]} GloVe ยังถูกใช้เป็นกรอบงานการแสดงคำสำหรับระบบออนไลน์และออฟไลน์ที่ออกแบบมาเพื่อตรวจจับความทุกข์ทางจิตใจในการสัมภาษณ์ผู้ป่วย^{[ 7 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

GloVe เก็บถาวรเมื่อวันที่ 19 ธันวาคม 2016 ที่Wayback Machine
Deeplearning4j GloVe เก็บถาวรเมื่อ 2019-02-02 ที่Wayback Machine

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]