แบบจำลองปริภูมิเวกเตอร์

แบบจำลองพื้นที่เวกเตอร์ (VSM) หรือคำว่าแบบจำลองเวกเตอร์เป็นแบบจำลองเชิงพีชคณิตสำหรับการแสดงเอกสารข้อความ (หรือโดยทั่วไปคือรายการต่างๆ) ในรูปของเวกเตอร์โดยที่ระยะห่างระหว่างเวกเตอร์แสดงถึงความเกี่ยวข้องระหว่างเอกสาร แบบจำลองนี้ใช้ในการกรองข้อมูล การค้นหาข้อมูล การจัดทำดัชนีและการจัดอันดับความเกี่ยวข้อง การใช้งานครั้งแรกอยู่ในระบบค้นหาข้อมูล SMART ^{[ 1 ]}

คำจำกัดความ

ในส่วนนี้ เราจะพิจารณารูปแบบเวกเตอร์สเปซเฉพาะแบบหนึ่งซึ่งอิงตาม การแสดงแทนแบบ ถุงคำ (bag-of-words ) โดยเอกสารและคำค้นหาจะถูกแทนด้วยเวกเตอร์

d_{j}=(w_{1,j},w_{2,j},\dotsc ,w_{n,j})

q=(w_{1,q},w_{2,q},\dotsc ,w_{n,q})

แต่ละมิติจะสอดคล้องกับคำศัพท์ที่แยกจากกัน หากคำศัพท์นั้นปรากฏในเอกสาร ค่าของคำศัพท์นั้นในเวกเตอร์จะไม่เป็นศูนย์ มีวิธีการคำนวณค่าเหล่านี้หลายวิธี ซึ่งเรียกอีกอย่างว่า น้ำหนัก (ของคำศัพท์) หนึ่งในวิธีการที่เป็นที่รู้จักมากที่สุดคือ การถ่วงน้ำหนัก แบบ tf-idf (ดูตัวอย่างด้านล่าง)

ความหมายของคำศัพท์ขึ้นอยู่กับการใช้งาน โดยทั่วไปแล้ว คำศัพท์อาจเป็นคำเดี่ยวคำหลักหรือวลีที่ยาวกว่านั้น หากเลือกคำเป็นคำศัพท์ มิติของเวกเตอร์จะเป็นจำนวนคำในคำศัพท์ (จำนวนคำที่แตกต่างกันที่ปรากฏในคลังข้อมูล )

การดำเนินการเวกเตอร์สามารถใช้เพื่อเปรียบเทียบเอกสารกับคำถามได้^{[ 2 ]}

แอปพลิเคชัน

สามารถดึงเอกสารที่เกี่ยวข้องจากคลังข้อมูลและจัดอันดับได้โดยใช้วิธีการต่างๆการจัดอันดับ ความเกี่ยวข้อง ของเอกสารในการค้นหาคำหลักสามารถคำนวณได้โดยใช้สมมติฐานของ ทฤษฎี ความคล้ายคลึงของเอกสารโดยการเปรียบเทียบค่าเบี่ยงเบนของมุมระหว่างเวกเตอร์ของแต่ละเอกสารกับเวกเตอร์คำค้นหาดั้งเดิม ซึ่งคำค้นหาถูกแทนด้วยเวกเตอร์ที่มีมิติเท่ากับเวกเตอร์ที่แทนเอกสารอื่นๆ

ในทางปฏิบัติ การคำนวณ ค่าโคไซน์ ของมุมระหว่างเวกเตอร์ นั้นง่ายกว่าการคำนวณ ค่า มุมโดยตรง:

\cos {\theta }={\frac {\mathbf {d_{2}} \cdot \mathbf {q} }{\left\|\mathbf {d_{2}} \right\|\left\|\mathbf {q} \right\|}}

จุดตัด (เช่นผลคูณดอท ) ของเวกเตอร์เอกสาร (d ₂ในรูปด้านขวา) และเวกเตอร์คำถาม (q ในรูป) อยู่ ที่ไหนค่าบรรทัดฐานของเวกเตอร์ d ₂ คืออะไร และค่าบรรทัดฐานของเวกเตอร์ q คืออะไรค่าบรรทัดฐานของเวกเตอร์คำนวณได้ดังนี้: $\mathbf {d_{2}} \cdot \mathbf {q}$ $\left\|\mathbf {d_{2}} \right\|$ $\left\|\mathbf {q} \right\|$

\left\|\mathbf {q} \right\|={\sqrt {\sum _{i=1}^{n}q_{i}^{2}}}

โดยใช้ฟังก์ชันโคไซน์สามารถคำนวณ ความคล้ายคลึงกันระหว่างเอกสาร d _jและคำค้นหาq ได้ดังนี้:

\mathrm {cos} (d_{j},q)={\frac {\mathbf {d_{j}} \cdot \mathbf {q} }{\left\|\mathbf {d_{j}} \right\|\left\|\mathbf {q} \right\|}}={\frac {\sum _{i=1}^{N}d_{i,j}q_{i}}{{\sqrt {\sum _{i=1}^{N}d_{i,j}^{2}}}{\sqrt {\sum _{i=1}^{N}q_{i}^{2}}}}}

เนื่องจากเวกเตอร์ทั้งหมดที่แบบจำลองนี้พิจารณามีค่าไม่เป็นลบในแต่ละองค์ประกอบ ค่าโคไซน์เป็นศูนย์หมายความว่าเวกเตอร์คำถามและเวกเตอร์เอกสารตั้งฉากกันและไม่มีการจับคู่ (กล่าวคือ คำค้นหาไม่มีอยู่ในเอกสารที่กำลังพิจารณา) ดูความคล้ายคลึงของโคไซน์สำหรับข้อมูลเพิ่มเติม^{[ 2 ]}

น้ำหนักความถี่ของคำและความถี่ผกผันของเอกสาร (tf–idf)

ในแบบจำลองพื้นที่เวกเตอร์แบบคลาสสิกที่เสนอโดยSalton , Wong และ Yang ^{[ 3 ]}น้ำหนักเฉพาะคำในเวกเตอร์เอกสารเป็นผลคูณของพารามิเตอร์ท้องถิ่นและทั่วโลก แบบจำลองนี้เรียกว่า แบบ จำลองความถี่คำ-ความถี่เอกสารผกผัน (tf–idf) เวกเตอร์น้ำหนักสำหรับเอกสารdคือโดยที่ $\mathbf {v} _{d}=[w_{1,d},w_{2,d},\ldots ,w_{N,d}]^{T}$

w_{t,d}=\mathrm {tf} _{t,d}\cdot \log {\frac {|D|}{|\{d'\in D\,|\,t\in d'\}|}}

และ

$\mathrm {tf} _{t,d}$ คือความถี่ของคำtในเอกสารd (พารามิเตอร์เฉพาะที่)
$\log {\frac {|D|}{|\{d'\in D\,|\,t\in d'\}|}}$ คือค่าผกผันของความถี่เอกสาร (พารามิเตอร์โดยรวม) คือจำนวนเอกสารทั้งหมดในชุดเอกสารคือจำนวนเอกสารที่มีคำว่าtอยู่ $|D|$ $|\{d'\in D\,|\,t\in d'\}|$

ข้อดี

แบบจำลองปริภูมิเวกเตอร์มีข้อดีเหนือกว่าแบบจำลองบูลีนมาตรฐาน ดังต่อไปนี้ :

ช่วยให้สามารถจัดอันดับเอกสารตามความเกี่ยวข้องที่เป็นไปได้
อนุญาตให้ดึงรายการที่มีการทับซ้อนของคำบางส่วน^{[ 2 ]}

ข้อดีส่วนใหญ่เหล่านี้เป็นผลมาจากความแตกต่างของความหนาแน่นในการแสดงชุดเอกสารระหว่างวิธีการถ่วงน้ำหนักแบบบูลีนและวิธีการถ่วงน้ำหนักความถี่คำ-ความถี่เอกสารผกผัน เมื่อใช้การถ่วงน้ำหนักแบบบูลีน เอกสารใดๆ จะอยู่บนจุดยอดในไฮเปอร์คิวบ์ n มิติ ดังนั้น การแสดงเอกสารที่เป็นไปได้คือและระยะทางยูคลิดสูงสุดระหว่างคู่คือเมื่อเพิ่มเอกสารลงในชุดเอกสาร บริเวณที่กำหนดโดยจุดยอดของไฮเปอร์คิวบ์จะมีความหนาแน่นมากขึ้น ต่างจากบูลีน เมื่อเพิ่มเอกสารโดยใช้การถ่วงน้ำหนักความถี่คำ-ความถี่เอกสารผกผัน ความถี่เอกสารผกผันของคำในเอกสารใหม่จะลดลง ในขณะที่ความถี่เอกสารผกผันของคำที่เหลือจะเพิ่มขึ้น โดยเฉลี่ยแล้ว เมื่อเพิ่มเอกสาร บริเวณที่เอกสารอยู่จะขยายตัว ซึ่งควบคุมความหนาแน่นของการแสดงชุดเอกสารทั้งหมด พฤติกรรมนี้จำลองแรงจูงใจดั้งเดิมของ Salton และเพื่อนร่วมงานของเขาที่ว่า ชุดเอกสารที่แสดงในบริเวณที่มีความหนาแน่นต่ำอาจให้ผลลัพธ์การค้นหาที่ดีกว่า $2^{n}$ ${\sqrt {n}}$

ข้อจำกัด

แบบจำลองปริภูมิเวกเตอร์มีข้อจำกัดดังต่อไปนี้:

โดยทั่วไปแล้ว คำค้นหาจะถือว่ามีความเป็นอิสระต่อกัน ดังนั้นวลีต่างๆ อาจไม่ได้รับการแสดงผลที่ดีในอันดับ
ความไวต่อความหมาย; เอกสารที่มีบริบทคล้ายกันแต่คำศัพท์ต่างกันจะไม่ถูกเชื่อมโยงกัน^{[ 2 ]}

อย่างไรก็ตาม ความยากลำบากเหล่านี้หลายอย่างสามารถเอาชนะได้ด้วยการบูรณาการเครื่องมือต่างๆ รวมถึงเทคนิคทางคณิตศาสตร์ เช่น การแยก ส่วนค่า เอกลักษณ์ (singular value decomposition)และฐานข้อมูลคำศัพท์เช่นWordNet

แบบจำลองที่อิงตามและต่อยอดจากแบบจำลองปริภูมิเวกเตอร์

แบบจำลองที่พัฒนาต่อยอดจากแบบจำลองปริภูมิเวกเตอร์ ได้แก่:

ซอฟต์แวร์ที่ใช้แบบจำลองปริภูมิเวกเตอร์

โปรแกรมต่อไปนี้อาจเป็นประโยชน์สำหรับผู้ที่ต้องการทดลองใช้โมเดลเวกเตอร์และนำโมเดลเหล่านั้นไปใช้ในการให้บริการค้นหา

ซอฟต์แวร์โอเพนซอร์สฟรี

Apache Luceneคือไลบรารีเครื่องมือค้นหาข้อความประสิทธิภาพสูงแบบโอเพนซอร์สที่มีฟังก์ชันการทำงานครบครัน ซึ่งเขียนขึ้นทั้งหมดด้วยภาษา Java
OpenSearch (ซอฟต์แวร์) , ElasticsearchและSolr : โปรแกรมเครื่องมือค้นหาที่รู้จักกันดีที่สุดสามโปรแกรมซึ่งใช้ Lucene เป็นพื้นฐาน นอกจากนี้ยังมีโปรแกรมอื่นๆ อีกด้วย
Gensimเป็นเฟรมเวิร์ก Python+ NumPyสำหรับการสร้างแบบจำลองพื้นที่เวกเตอร์ ประกอบด้วยอัลกอริธึมแบบเพิ่มทีละขั้น (ประหยัดหน่วยความจำ) สำหรับ การหา ความถี่ของคำผกผันกับความถี่ของเอกสารการ จัดทำดัชนี ความหมายแฝงการฉายภาพแบบสุ่มและการจัดสรร Dirichlet แฝง
Wekaคือแพ็กเกจการทำเหมืองข้อมูลยอดนิยมสำหรับภาษา Java ซึ่งรวมถึงโมเดล WordVectors และBag Of Words
Word2vecใช้พื้นที่เวกเตอร์สำหรับการฝังคำ (word embeddings)

แบบจำลองปริภูมิเวกเตอร์ทั่วไป

แบบจำลองพื้นที่เวกเตอร์ทั่วไปเป็นการวางนัยทั่วไปของ VSM ที่ใช้ในการดึงข้อมูล Wong et al. ^{[ 4 ]}ได้นำเสนอการวิเคราะห์ปัญหาที่สมมติฐานความเป็นตั้งฉากแบบคู่ของ VSM สร้างขึ้น จากนั้นพวกเขาก็ขยาย VSM ไปยังแบบจำลองพื้นที่เวกเตอร์ทั่วไป (GVSM)

เมื่อเร็วๆ นี้ Tsatsaronis ^{[ 5 ]}มุ่งเน้นไปที่แนวทางแรก พวกเขาวัดความสัมพันธ์เชิงความหมาย ( SR ) โดยใช้พจนานุกรมคำพ้องความหมาย ( O ) เช่นWordNetโดยพิจารณาความยาวของเส้นทางที่วัดได้จากความกะทัดรัด ( SCM ) และความลึกของเส้นทางที่วัดได้จากการขยายความเส้นทางเชิงความหมาย ( SPE )

นอกจากนี้ Waitelonis et al. ^{[ 6 ]} ยัง ได้สร้างความสัมพันธ์เชิงความหมายจากแหล่งข้อมูล Linked Open Data รวมถึง DBpediaและอนุกรมวิธาน YAGO ด้วย โดยพวกเขาใช้ประโยชน์จากความสัมพันธ์เชิงอนุกรมวิธานระหว่างเอนทิตีเชิงความหมายในเอกสารและแบบสอบถามหลังจากการเชื่อมโยงเอนทิตีที่มีชื่อ

ดูเพิ่มเติม

อ่านเพิ่มเติม

G. Salton (1962), " การทดลองบางอย่างในการสร้างความสัมพันธ์ระหว่างคำและเอกสาร " รายงานการประชุม AFIPS '62 (ฤดูใบไม้ร่วง) รายงานการประชุมร่วมด้านคอมพิวเตอร์ประจำวันที่ 4-6 ธันวาคม 1962 ฤดูใบไม้ร่วงหน้า 234-250 (บทความแรกของ Salton ที่ใช้รูปแบบเมทริกซ์คำ-เอกสาร)
G. Salton , A. Wong และ CS Yang (1975), " แบบจำลองปริภูมิเวกเตอร์สำหรับการจัดทำดัชนีอัตโนมัติ " Communications of the ACM , เล่มที่ 18, ฉบับที่ 11, หน้า 613–620 (บทความที่นำเสนอแบบจำลองปริภูมิเวกเตอร์)
เดวิด ดูบิน (2004), บทความที่มีอิทธิพลมากที่สุดที่เจอราร์ด ซัลตันไม่เคยเขียน(อธิบายประวัติของแบบจำลองปริภูมิเวกเตอร์และการไม่มีอยู่จริงของเอกสารที่ถูกอ้างอิงบ่อยครั้ง)
คำอธิบายของแบบจำลองปริภูมิเวกเตอร์
คำอธิบายแบบจำลองปริภูมิเวกเตอร์แบบคลาสสิก โดย ดร. อี. การ์เซีย
ความสัมพันธ์ของการค้นหาในปริภูมิเวกเตอร์กับการค้นหาแบบ "เพื่อนบ้านที่ใกล้ที่สุด k ตัว"

[ 1 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]