กลับไปหน้าบทความ

อ่าน 4 นาที

แบบจำลองปริภูมิเวกเตอร์

แบบจำลองพื้นที่เวกเตอร์ (VSM) หรือ คำว่าแบบจำลองเวกเตอร์ เป็นแบบจำลองเชิงพีชคณิตสำหรับการแสดงเอกสารข้อความ (หรือโดยทั่วไปคือรายการต่างๆ) ในรูป ของเวกเตอร์...

แบบจำลองปริภูมิเวกเตอร์

แบบจำลองพื้นที่เวกเตอร์ (VSM) หรือคำว่าแบบจำลองเวกเตอร์เป็นแบบจำลองเชิงพีชคณิตสำหรับการแสดงเอกสารข้อความ (หรือโดยทั่วไปคือรายการต่างๆ) ในรูปของเวกเตอร์โดยที่ระยะห่างระหว่างเวกเตอร์แสดงถึงความเกี่ยวข้องระหว่างเอกสาร แบบจำลองนี้ใช้ในการกรองข้อมูลการค้นหาข้อมูล การจัดทำดัชนีและการจัดอันดับความเกี่ยวข้อง การใช้งานครั้งแรกอยู่ในระบบค้นหาข้อมูล SMART [ 1 ]

คำจำกัดความ

ในส่วนนี้ เราจะพิจารณารูปแบบเวกเตอร์สเปซเฉพาะแบบหนึ่งซึ่งอิงตาม การแสดงแทนแบบ ถุงคำ (bag-of-words ) โดยเอกสารและคำค้นหาจะถูกแทนด้วยเวกเตอร์

แต่ละมิติจะสอดคล้องกับคำศัพท์ที่แยกจากกัน หากคำศัพท์นั้นปรากฏในเอกสาร ค่าของคำศัพท์นั้นในเวกเตอร์จะไม่เป็นศูนย์ มีวิธีการคำนวณค่าเหล่านี้หลายวิธี ซึ่งเรียกอีกอย่างว่า น้ำหนัก (ของคำศัพท์) หนึ่งในวิธีการที่เป็นที่รู้จักมากที่สุดคือ การถ่วงน้ำหนัก แบบ tf-idf (ดูตัวอย่างด้านล่าง)

ความหมายของคำศัพท์ขึ้นอยู่กับการใช้งาน โดยทั่วไปแล้ว คำศัพท์อาจเป็นคำเดี่ยวคำหลักหรือวลีที่ยาวกว่านั้น หากเลือกคำเป็นคำศัพท์ มิติของเวกเตอร์จะเป็นจำนวนคำในคำศัพท์ (จำนวนคำที่แตกต่างกันที่ปรากฏในคลังข้อมูล )

การดำเนินการเวกเตอร์สามารถใช้เพื่อเปรียบเทียบเอกสารกับคำถามได้[ 2 ]

แอปพลิเคชัน

สามารถดึงเอกสารที่เกี่ยวข้องจากคลังข้อมูลและจัดอันดับได้โดยใช้วิธีการต่างๆการจัดอันดับความเกี่ยวข้อง ของเอกสารในการค้นหาคำหลักสามารถคำนวณได้โดยใช้สมมติฐานของ ทฤษฎี ความคล้ายคลึงของเอกสารโดยการเปรียบเทียบค่าเบี่ยงเบนของมุมระหว่างเวกเตอร์ของแต่ละเอกสารกับเวกเตอร์คำค้นหาดั้งเดิม ซึ่งคำค้นหาถูกแทนด้วยเวกเตอร์ที่มีมิติเท่ากับเวกเตอร์ที่แทนเอกสารอื่นๆ

ในทางปฏิบัติ การคำนวณ ค่าโคไซน์ ของมุมระหว่างเวกเตอร์ นั้นง่ายกว่าการคำนวณ ค่า มุมโดยตรง:

จุดตัด (เช่นผลคูณดอท ) ของเวกเตอร์เอกสาร (d 2ในรูปด้านขวา) และเวกเตอร์คำถาม (q ในรูป) อยู่ ที่ไหนค่าบรรทัดฐานของเวกเตอร์ d 2 คืออะไร และค่าบรรทัดฐานของเวกเตอร์ q คืออะไรค่าบรรทัดฐานของเวกเตอร์คำนวณได้ดังนี้:

โดยใช้ฟังก์ชันโคไซน์สามารถคำนวณ ความคล้ายคลึงกันระหว่างเอกสาร d jและคำค้นหาq ได้ดังนี้:

เนื่องจากเวกเตอร์ทั้งหมดที่แบบจำลองนี้พิจารณามีค่าไม่เป็นลบในแต่ละองค์ประกอบ ค่าโคไซน์เป็นศูนย์หมายความว่าเวกเตอร์คำถามและเวกเตอร์เอกสารตั้งฉากกันและไม่มีการจับคู่ (กล่าวคือ คำค้นหาไม่มีอยู่ในเอกสารที่กำลังพิจารณา) ดูความคล้ายคลึงของโคไซน์สำหรับข้อมูลเพิ่มเติม[ 2 ]

น้ำหนักความถี่ของคำและความถี่ผกผันของเอกสาร (tf–idf)

ในแบบจำลองพื้นที่เวกเตอร์แบบคลาสสิกที่เสนอโดยSalton , Wong และ Yang [ 3 ]น้ำหนักเฉพาะคำในเวกเตอร์เอกสารเป็นผลคูณของพารามิเตอร์ท้องถิ่นและทั่วโลก แบบจำลองนี้เรียกว่า แบบ จำลองความถี่คำ-ความถี่เอกสารผกผัน (tf–idf) เวกเตอร์น้ำหนักสำหรับเอกสารdคือโดยที่

และ

  • คือความถี่ของคำtในเอกสารd (พารามิเตอร์เฉพาะที่)
  • คือค่าผกผันของความถี่เอกสาร (พารามิเตอร์โดยรวม) คือจำนวนเอกสารทั้งหมดในชุดเอกสารคือจำนวนเอกสารที่มีคำว่าtอยู่

ข้อดี

แบบจำลองปริภูมิเวกเตอร์มีข้อดีเหนือกว่าแบบจำลองบูลีนมาตรฐาน ดังต่อไปนี้ :

  1. ช่วยให้สามารถจัดอันดับเอกสารตามความเกี่ยวข้องที่เป็นไปได้
  2. อนุญาตให้ดึงรายการที่มีการทับซ้อนของคำบางส่วน[ 2 ]

ข้อดีส่วนใหญ่เหล่านี้เป็นผลมาจากความแตกต่างของความหนาแน่นในการแสดงชุดเอกสารระหว่างวิธีการถ่วงน้ำหนักแบบบูลีนและวิธีการถ่วงน้ำหนักความถี่คำ-ความถี่เอกสารผกผัน เมื่อใช้การถ่วงน้ำหนักแบบบูลีน เอกสารใดๆ จะอยู่บนจุดยอดในไฮเปอร์คิวบ์ n มิติ ดังนั้น การแสดงเอกสารที่เป็นไปได้คือและระยะทางยูคลิดสูงสุดระหว่างคู่คือเมื่อเพิ่มเอกสารลงในชุดเอกสาร บริเวณที่กำหนดโดยจุดยอดของไฮเปอร์คิวบ์จะมีความหนาแน่นมากขึ้น ต่างจากบูลีน เมื่อเพิ่มเอกสารโดยใช้การถ่วงน้ำหนักความถี่คำ-ความถี่เอกสารผกผัน ความถี่เอกสารผกผันของคำในเอกสารใหม่จะลดลง ในขณะที่ความถี่เอกสารผกผันของคำที่เหลือจะเพิ่มขึ้น โดยเฉลี่ยแล้ว เมื่อเพิ่มเอกสาร บริเวณที่เอกสารอยู่จะขยายตัว ซึ่งควบคุมความหนาแน่นของการแสดงชุดเอกสารทั้งหมด พฤติกรรมนี้จำลองแรงจูงใจดั้งเดิมของ Salton และเพื่อนร่วมงานของเขาที่ว่า ชุดเอกสารที่แสดงในบริเวณที่มีความหนาแน่นต่ำอาจให้ผลลัพธ์การค้นหาที่ดีกว่า

ข้อจำกัด

แบบจำลองปริภูมิเวกเตอร์มีข้อจำกัดดังต่อไปนี้:

  1. โดยทั่วไปแล้ว คำค้นหาจะถือว่ามีความเป็นอิสระต่อกัน ดังนั้นวลีต่างๆ อาจไม่ได้รับการแสดงผลที่ดีในอันดับ
  2. ความไวต่อความหมาย; เอกสารที่มีบริบทคล้ายกันแต่คำศัพท์ต่างกันจะไม่ถูกเชื่อมโยงกัน[ 2 ]

อย่างไรก็ตาม ความยากลำบากเหล่านี้หลายอย่างสามารถเอาชนะได้ด้วยการบูรณาการเครื่องมือต่างๆ รวมถึงเทคนิคทางคณิตศาสตร์ เช่น การแยก ส่วนค่า เอกลักษณ์ (singular value decomposition)และฐานข้อมูลคำศัพท์เช่นWordNet

แบบจำลองที่อิงตามและต่อยอดจากแบบจำลองปริภูมิเวกเตอร์

แบบจำลองที่พัฒนาต่อยอดจากแบบจำลองปริภูมิเวกเตอร์ ได้แก่:

ซอฟต์แวร์ที่ใช้แบบจำลองปริภูมิเวกเตอร์

โปรแกรมต่อไปนี้อาจเป็นประโยชน์สำหรับผู้ที่ต้องการทดลองใช้โมเดลเวกเตอร์และนำโมเดลเหล่านั้นไปใช้ในการให้บริการค้นหา

ซอฟต์แวร์โอเพนซอร์สฟรี

  • Apache Luceneคือไลบรารีเครื่องมือค้นหาข้อความประสิทธิภาพสูงแบบโอเพนซอร์สที่มีฟังก์ชันการทำงานครบครัน ซึ่งเขียนขึ้นทั้งหมดด้วยภาษา Java
  • OpenSearch (ซอฟต์แวร์) , ElasticsearchและSolr : โปรแกรมเครื่องมือค้นหาที่รู้จักกันดีที่สุดสามโปรแกรมซึ่งใช้ Lucene เป็นพื้นฐาน นอกจากนี้ยังมีโปรแกรมอื่นๆ อีกด้วย
  • Gensimเป็นเฟรมเวิร์ก Python+ NumPyสำหรับการสร้างแบบจำลองพื้นที่เวกเตอร์ ประกอบด้วยอัลกอริธึมแบบเพิ่มทีละขั้น (ประหยัดหน่วยความจำ) สำหรับ การหา ความถี่ของคำผกผันกับความถี่ของเอกสารการ จัดทำดัชนี ความหมายแฝงการฉายภาพแบบสุ่มและการจัดสรร Dirichlet แฝง
  • Wekaคือแพ็กเกจการทำเหมืองข้อมูลยอดนิยมสำหรับภาษา Java ซึ่งรวมถึงโมเดล WordVectors และBag Of Words
  • Word2vecใช้พื้นที่เวกเตอร์สำหรับการฝังคำ (word embeddings)

แบบจำลองปริภูมิเวกเตอร์ทั่วไป

แบบจำลองพื้นที่เวกเตอร์ทั่วไปเป็นการวางนัยทั่วไปของ VSM ที่ใช้ในการดึงข้อมูล Wong et al. [ 4 ]ได้นำเสนอการวิเคราะห์ปัญหาที่สมมติฐานความเป็นตั้งฉากแบบคู่ของ VSM สร้างขึ้น จากนั้นพวกเขาก็ขยาย VSM ไปยังแบบจำลองพื้นที่เวกเตอร์ทั่วไป (GVSM)

เมื่อเร็วๆ นี้ Tsatsaronis [ 5 ]มุ่งเน้นไปที่แนวทางแรก พวกเขาวัดความสัมพันธ์เชิงความหมาย ( SR ) โดยใช้พจนานุกรมคำพ้องความหมาย ( O ) เช่นWordNetโดยพิจารณาความยาวของเส้นทางที่วัดได้จากความกะทัดรัด ( SCM ) และความลึกของเส้นทางที่วัดได้จากการขยายความเส้นทางเชิงความหมาย ( SPE )

นอกจากนี้ Waitelonis et al. [ 6 ] ยัง ได้สร้างความสัมพันธ์เชิงความหมายจากแหล่งข้อมูล Linked Open Data รวมถึง DBpediaและอนุกรมวิธาน YAGO ด้วย โดยพวกเขาใช้ประโยชน์จากความสัมพันธ์เชิงอนุกรมวิธานระหว่างเอนทิตีเชิงความหมายในเอกสารและแบบสอบถามหลังจากการเชื่อมโยงเอนทิตีที่มีชื่อ

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • G. Salton (1962), " การทดลองบางอย่างในการสร้างความสัมพันธ์ระหว่างคำและเอกสาร " รายงานการประชุม AFIPS '62 (ฤดูใบไม้ร่วง) รายงานการประชุมร่วมด้านคอมพิวเตอร์ประจำวันที่ 4-6 ธันวาคม 1962 ฤดูใบไม้ร่วงหน้า 234-250 (บทความแรกของ Salton ที่ใช้รูปแบบเมทริกซ์คำ-เอกสาร)
  • G. Salton , A. Wong และ CS Yang (1975), " แบบจำลองปริภูมิเวกเตอร์สำหรับการจัดทำดัชนีอัตโนมัติ " Communications of the ACM , เล่มที่ 18, ฉบับที่ 11, หน้า 613–620 (บทความที่นำเสนอแบบจำลองปริภูมิเวกเตอร์)
  • เดวิด ดูบิน (2004), บทความที่มีอิทธิพลมากที่สุดที่เจอราร์ด ซัลตันไม่เคยเขียน(อธิบายประวัติของแบบจำลองปริภูมิเวกเตอร์และการไม่มีอยู่จริงของเอกสารที่ถูกอ้างอิงบ่อยครั้ง)
  • คำอธิบายของแบบจำลองปริภูมิเวกเตอร์
  • คำอธิบายแบบจำลองปริภูมิเวกเตอร์แบบคลาสสิก โดย ดร. อี. การ์เซีย
  • ความสัมพันธ์ของการค้นหาในปริภูมิเวกเตอร์กับการค้นหาแบบ "เพื่อนบ้านที่ใกล้ที่สุด k ตัว"
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Vector_space_model&oldid=1349395790 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ แบบจำลองปริภูมิเวกเตอร์

แบบจำลองพื้นที่เวกเตอร์ (VSM) หรือ คำว่าแบบจำลองเวกเตอร์ เป็นแบบจำลองเชิงพีชคณิตสำหรับการแสดงเอกสารข้อความ (หรือโดยทั่วไปคือรายการต่างๆ) ในรูป ของเวกเตอร์...

คำจำกัดความ

ในส่วนนี้ เราจะพิจารณารูปแบบเวกเตอร์สเปซเฉพาะแบบหนึ่งซึ่งอิงตาม การแสดงแทนแบบ ถุงคำ (bag-of-words ) โดยเอกสารและคำค้นหาจะถูกแทนด้วยเวกเตอร์

แอปพลิเคชัน

สามารถดึงเอกสารที่เกี่ยวข้องจากคลังข้อมูลและจัดอันดับได้โดยใช้วิธีการต่างๆ การจัดอันดับ ความเกี่ยวข้อง ของเอกสารในการค้นหาคำหลักสามารถคำนวณได้โดยใช้สมมติฐานของ ทฤษฎี ความคล้ายคลึงของเอกสาร...

น้ำหนักความถี่ของคำและความถี่ผกผันของเอกสาร (tf–idf)

ในแบบจำลองพื้นที่เวกเตอร์แบบคลาสสิกที่เสนอโดย Salton , Wong และ Yang [ 3 ] น้ำหนักเฉพาะคำในเวกเตอร์เอกสารเป็นผลคูณของพารามิเตอร์ท้องถิ่นและทั่วโลก แบบจำลองนี้เรียกว่า แบบ จำลองความถี่คำ-ความถี่เอกสารผกผัน (tf–idf) เวกเตอร์น้ำหนักสำหรับเอกสาร d คือโดยที่ v d =...