อ่าน 6 นาที
ถุงมือ
GloVe ซึ่งตั้งชื่อตาม Global Vectors เป็นแบบจำลองสำหรับการแสดงคำแบบกระจาย แบบจำลองนี้เป็น อัลกอริธึม การเรียนรู้แบบไม่กำกับดูแล สำหรับการได้มา ซึ่ง การแสดงเวกเตอร์ ของคำ...
ถุงมือ
GloVeซึ่งตั้งชื่อตามGlobal Vectorsเป็นแบบจำลองสำหรับการแสดงคำแบบกระจาย แบบจำลองนี้เป็น อัลกอริธึม การเรียนรู้แบบไม่กำกับดูแลสำหรับการได้มา ซึ่ง การแสดงเวกเตอร์ของคำ ซึ่งทำได้โดยการแมปคำไปยังพื้นที่ที่มีความหมาย โดยระยะห่างระหว่างคำจะสัมพันธ์กับความคล้ายคลึงทางความหมาย[ 1 ] การฝึกอบรมดำเนินการกับ สถิติการเกิดขึ้น ร่วมกันของคำทั่วโลกที่รวบรวมจากคอร์ปัสและการแสดงผลลัพธ์จะแสดงโครงสร้างย่อยเชิงเส้นที่น่าสนใจของพื้นที่เวกเตอร์คำในฐานะแบบจำลองการถดถอยแบบลอการิทึมเชิงเส้นสำหรับการเรียนรู้แบบไม่กำกับดูแลของการแสดงคำ มันรวมคุณสมบัติของแบบจำลองสองตระกูล ได้แก่ การแยกตัวประกอบเมทริกซ์ทั่วโลกและวิธีการหน้าต่างบริบทท้องถิ่น
มันถูกพัฒนาเป็น โครงการ โอเพนซอร์สที่มหาวิทยาลัยสแตนฟอร์ด[ 2 ]และเปิดตัวในปี 2014 มันถูกออกแบบมาเพื่อเป็นคู่แข่งกับword2vecและเอกสารต้นฉบับได้ระบุถึงการปรับปรุงหลายประการของ GloVe เหนือ word2vec ณ ปี 2022 ทั้งสองแนวทางนั้นล้าสมัยแล้ว และ โมเดลที่ใช้ Transformerเช่นBERTซึ่งเพิ่มเลเยอร์ความสนใจของเครือข่ายประสาทหลายชั้นไว้บนโมเดลการฝังคำที่คล้ายกับ Word2vec ได้กลายเป็นที่รู้จักในฐานะเทคโนโลยีล้ำสมัยในการประมวลผลภาษาธรรมชาติ (NLP) [ 3 ]
คำนิยาม
คุณจะรู้จักคำพูดได้จากกลุ่มคนที่มันคบหาด้วย (Firth, JR 1957:11) [ 4 ]
แนวคิดของ GloVe คือการสร้างเวกเตอร์สองตัว สำหรับแต่ละคำ โดยที่ตำแหน่งสัมพัทธ์ของเวกเตอร์เหล่านี้จะแสดงถึงความสม่ำเสมอทางสถิติบางส่วนของคำนั้นความสม่ำเสมอทางสถิตินี้กำหนดโดยความน่าจะเป็นของการปรากฏร่วมกัน คำที่มีความหมายคล้ายคลึงกันควรมีความน่าจะเป็นของการปรากฏร่วมกันที่คล้ายคลึงกันด้วย
การนับคำ
ให้คำศัพท์เป็นเซตของคำที่เป็นไปได้ทั้งหมด (หรือที่เรียกว่า "โทเค็น") เครื่องหมายวรรคตอนจะถูกละเลยหรือถือว่าเป็นคำศัพท์ และเช่นเดียวกันสำหรับการใช้อักษรตัวใหญ่และรายละเอียดการพิมพ์อื่นๆ[ 1 ]
ถ้าคำสองคำปรากฏอยู่ใกล้กัน เราจะกล่าวว่าคำเหล่านั้นปรากฏอยู่ในบริบทเดียวกัน ตัวอย่างเช่น ถ้าความยาวของบริบทคือ 3 เราจะกล่าวว่าในประโยคต่อไปนี้
GloVe 1ซึ่งบัญญัติขึ้น2จาก3เวกเตอร์ทั่วโลก4 5คือ6แบบจำลอง7 สำหรับ 9 การแสดงคำแบบกระจาย10 11 12
คำว่า "model 8 " อยู่ในบริบทของ "word 11 " แต่ไม่อยู่ในบริบทของ "representation 12 "
คำๆ หนึ่งจะไม่นับรวมอยู่ในบริบทของตัวมันเอง ดังนั้น "model 8 " จึงไม่นับรวมอยู่ในบริบทของคำว่า "model 8 " อย่างไรก็ตาม หากคำนั้นปรากฏอีกครั้งในบริบทเดียวกัน ก็จะนับรวมด้วย
ให้เป็นจำนวนครั้งที่คำนั้นปรากฏในบริบทของคำนั้นตลอดทั้งชุดข้อมูล ตัวอย่างเช่น ถ้าชุดข้อมูลคือ "I don't think that that is a problem." เราจะมีเนื่องจากคำว่า "that" คำแรกปรากฏในบริบทของคำที่สอง และในทางกลับกัน
ให้เป็นจำนวนคำในบริบทของคำทั้งหมดที่ปรากฏโดยการนับ เราจะได้(ยกเว้นคำที่ปรากฏอยู่ต้นและท้ายของชุดข้อมูล)
การสร้างแบบจำลองความน่าจะเป็น
ให้เป็นความน่าจะเป็นของการปรากฏร่วมกันนั่นคือ ถ้าเราสุ่มเลือกคำในเอกสารทั้งหมด และสุ่มเลือกคำ ในบริบทของคำนั้น คำนั้นจะ ปรากฏ ร่วมกันด้วยความน่าจะเป็น โปรดสังเกตว่าโดยทั่วไปแล้ว ตัวอย่างเช่น ในคลังข้อมูลภาษาอังกฤษสมัยใหม่ทั่วไปจะมีค่าใกล้เคียงกับหนึ่ง แต่จะมีค่าใกล้เคียงกับศูนย์ นี่เป็นเพราะคำว่า "ado" แทบจะใช้เฉพาะในบริบทของวลีโบราณ " much ado about " เท่านั้น แต่คำว่า "much" ปรากฏในบริบทต่างๆ มากมาย
ตัวอย่างเช่น ในชุดโทเค็นขนาด 6 พันล้านโทเค็น เรามี
| ความน่าจะเป็นและอัตราส่วน | ||||
|---|---|---|---|---|
เมื่อพิจารณาตาราง เราจะเห็นว่าคำว่า "น้ำแข็ง" และ "ไอน้ำ" แทบจะแยกไม่ออกเมื่อเปรียบเทียบกับคำว่า "น้ำ" (มักปรากฏร่วมกับทั้งสองคำ) และ "แฟชั่น" (ไม่ค่อยปรากฏร่วมกับคำใดคำหนึ่ง) แต่สามารถแยกออกได้เมื่อเปรียบเทียบกับคำว่า "ของแข็ง" (มักปรากฏร่วมกับน้ำแข็งมากกว่า) และ "ก๊าซ" (มักปรากฏร่วมกับ "ไอน้ำ" มากกว่า)
แนวคิดคือการเรียนรู้เวกเตอร์สองตัวสำหรับแต่ละคำเพื่อให้ได้การถดถอยโลจิสติกแบบหลายตัวแปรโดยที่เทอมต่างๆเป็นพารามิเตอร์ที่ไม่สำคัญ
นั่นหมายความว่า หากคำเหล่านั้นมีโอกาสปรากฏร่วมกันใกล้เคียงกัน เวกเตอร์ของ คำ เหล่านั้นก็ควรจะใกล้เคียงกันด้วย
การถดถอยโลจิสติก
โดยทั่วไปแล้ว การวิเคราะห์การถดถอยโลจิสติกส์สามารถทำได้โดยการลดค่าความสูญเสียกำลังสองให้เหลือน้อยที่สุดอย่างไรก็ตาม วิธีนี้จะทำให้เกิดสัญญาณรบกวนมากสำหรับเหตุการณ์ร่วมที่เกิดขึ้นไม่บ่อย เพื่อแก้ไขปัญหานี้ ค่าความสูญเสียกำลังสองจะถูกถ่วงน้ำหนักเพื่อให้ค่าความสูญเสียค่อยๆ เพิ่มขึ้นตามจำนวนเหตุการณ์ร่วมที่เพิ่มขึ้นโดยที่และเป็นพารามิเตอร์เสริมในบทความต้นฉบับ ผู้เขียนพบว่าดูเหมือนจะใช้งานได้ดีในทางปฏิบัติ
ใช้
เมื่อโมเดลได้รับการฝึกฝนแล้ว เราจะมีพารามิเตอร์ที่ฝึกฝนแล้ว 4 ตัวสำหรับแต่ละคำ: พารามิเตอร์เหล่านี้ไม่เกี่ยวข้อง และมีเพียงเท่านั้นที่เกี่ยวข้อง
ผู้เขียนแนะนำให้ใช้เป็นเวกเตอร์แสดงผลสุดท้ายสำหรับคำเนื่องจากจากการทดลองพบว่าได้ผลดีกว่าหรือใช้เพียงอย่างเดียว
แอปพลิเคชัน
GloVe สามารถใช้เพื่อค้นหาความสัมพันธ์ระหว่างคำต่างๆ เช่น คำพ้องความหมาย ความสัมพันธ์ระหว่างบริษัทกับผลิตภัณฑ์ รหัสไปรษณีย์ และเมือง เป็นต้น อย่างไรก็ตาม อัลกอริทึมการเรียนรู้แบบไม่กำกับดูแลไม่มีประสิทธิภาพในการระบุคำที่มีการสะกดเหมือนกันแต่มีความหมายต่างกัน เนื่องจากอัลกอริทึมการเรียนรู้แบบไม่กำกับดูแลจะคำนวณเวกเตอร์ชุดเดียวสำหรับคำที่มีโครงสร้างทางสัณฐานวิทยาเหมือนกัน[ 5 ]อัลกอริทึมนี้ยังถูกใช้โดย ไลบรารี SpaCyเพื่อสร้างคุณลักษณะการฝังคำเชิงความหมาย ในขณะที่คำนวณรายการคำอันดับต้นๆ ที่ตรงกันด้วยการวัดระยะทาง เช่นความคล้ายคลึงแบบโคไซน์และวิธีการระยะทางแบบยูคลิด[ 6 ] GloVe ยังถูกใช้เป็นกรอบงานการแสดงคำสำหรับระบบออนไลน์และออฟไลน์ที่ออกแบบมาเพื่อตรวจจับความทุกข์ทางจิตใจในการสัมภาษณ์ผู้ป่วย[ 7 ]
ดูเพิ่มเติม
ลิงก์ภายนอก
- GloVe เก็บถาวรเมื่อวันที่ 19 ธันวาคม 2016 ที่Wayback Machine
- Deeplearning4j GloVe เก็บถาวรเมื่อ 2019-02-02 ที่Wayback Machine
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ถุงมือ
GloVe ซึ่งตั้งชื่อตาม Global Vectors เป็นแบบจำลองสำหรับการแสดงคำแบบกระจาย แบบจำลองนี้เป็น อัลกอริธึม การเรียนรู้แบบไม่กำกับดูแล สำหรับการได้มา ซึ่ง การแสดงเวกเตอร์ ของคำ...
คำนิยาม
คุณจะรู้จักคำพูดได้จากกลุ่มคนที่มันคบหาด้วย (Firth, JR 1957:11) [ 4 ]
การนับคำ
ให้ คำศัพท์ เป็นเซตของคำที่เป็นไปได้ทั้งหมด (หรือที่เรียกว่า "โทเค็น") เครื่องหมายวรรคตอนจะถูกละเลยหรือถือว่าเป็นคำศัพท์ และเช่นเดียวกันสำหรับการใช้อักษรตัวใหญ่และรายละเอียดการพิมพ์อื่นๆ [ 1 ] วี {\displaystyle V}
การสร้างแบบจำลองความน่าจะเป็น
ให้เป็น ความน่าจะเป็นของการปรากฏร่วมกัน นั่นคือ ถ้าเราสุ่มเลือกคำในเอกสารทั้งหมด และสุ่มเลือกคำ ในบริบทของคำนั้น คำนั้นจะ ปรากฏ ร่วมกันด้วยความน่าจะเป็น โปรดสังเกตว่าโดยทั่วไปแล้ว ตัวอย่างเช่น ในคลังข้อมูลภาษาอังกฤษสมัยใหม่ทั่วไปจะมีค่าใกล้เคียงกับหนึ่ง...