อ่าน 7 นาที
ฐานข้อมูลเวกเตอร์
ฐาน ข้อมูลเวกเตอร์ , ที่เก็บเวกเตอร์ หรือ เครื่องมือค้นหาเวกเตอร์ คือ ฐานข้อมูล ที่จัดเก็บและเรียก ค้น ข้อมูล ฝังตัว ใน พื้นที่เวกเตอร์ [ 1 ] โดย ทั่วไปแล้ว ฐานข้อมูลเวกเตอร์จะใช้...
ฐานข้อมูลเวกเตอร์
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| การเรียนรู้ของเครื่องจักรและการขุดข้อมูล |
|---|
ฐานข้อมูลเวกเตอร์ , ที่เก็บเวกเตอร์หรือเครื่องมือค้นหาเวกเตอร์คือฐานข้อมูลที่จัดเก็บและเรียก ค้น ข้อมูลฝังตัว ใน พื้นที่เวกเตอร์ [ 1 ] โดย ทั่วไปแล้ว ฐานข้อมูลเวกเตอร์จะใช้ อัลกอริทึม เพื่อนบ้านที่ใกล้ที่สุดโดยประมาณเพื่อให้ผู้ใช้สามารถค้นหาบันทึกที่มีความหมายคล้ายคลึงกับข้อมูลป้อนเข้าที่กำหนด ซึ่งแตกต่างจากฐานข้อมูลแบบดั้งเดิมที่ส่วนใหญ่จะค้นหาบันทึกโดยการจับคู่ที่ตรงกันทุกประการ[ 2 ] [ 3 ] กรณีการใช้งานสำหรับฐานข้อมูลเวกเตอร์ ได้แก่ การค้นหา ความคล้ายคลึงการค้นหา เชิงความหมาย การค้นหาแบบหลายโมด อล เครื่องมือแนะนำการตรวจจับวัตถุและการสร้างผลลัพธ์ที่เพิ่มประสิทธิภาพการค้นหา (RAG) [ 1 ]
เวกเตอร์ฝังตัว (Vector embeddings) คือการแสดงข้อมูลทางคณิตศาสตร์ในพื้นที่มิติสูง ในพื้นที่นี้ แต่ละมิติจะสอดคล้องกับคุณลักษณะของข้อมูล โดยจำนวนมิติมีตั้งแต่ไม่กี่ร้อยไปจนถึงหลายหมื่น ขึ้นอยู่กับความซับซ้อนของข้อมูลที่แสดง ข้อมูลแต่ละรายการจะถูกแทนด้วยเวกเตอร์หนึ่งตัวในพื้นที่นี้ คำ วลี หรือเอกสารทั้งหมด รวมถึงรูปภาพ เสียง และข้อมูลประเภทอื่นๆ สามารถแปลงเป็นเวกเตอร์ได้[ 1 ]
เวกเตอร์คุณลักษณะเหล่านี้อาจคำนวณจากข้อมูลดิบโดยใช้ วิธี การเรียนรู้ของเครื่องเช่นอัลกอริทึมการสกัดคุณลักษณะการฝังคำ[ 4 ]หรือ เครือข่าย การเรียนรู้เชิงลึกเป้าหมายคือรายการข้อมูลที่มีความหมายคล้ายกันจะได้รับเวกเตอร์คุณลักษณะที่ใกล้เคียงกัน
การดึงเวกเตอร์สามารถรวมเข้ากับการกรองเมตาเดตาหรือการค้นหาตามคำศัพท์เพื่อรองรับเวิร์กโฟลว์การดึงข้อมูลแบบกรองและแบบผสม[ 5 ] [ 6 ]
เทคนิค
เทคนิคทั่วไปสำหรับการค้นหาความคล้ายคลึงกันบนเวกเตอร์ที่มีมิติสูง ได้แก่:
- กราฟโลกขนาดเล็กที่นำทางได้แบบลำดับชั้น (HNSW)
- การแฮชแบบไวต่อตำแหน่ง (LSH) และการสเก็ตช์
- การหาปริมาณผลิตภัณฑ์ (PQ)
- ไฟล์กลับด้าน
เทคนิคเหล่านี้อาจนำมาใช้ร่วมกันในระบบค้นหาเวกเตอร์ได้เช่นกัน[ 7 ]
ในการทดสอบประสิทธิภาพล่าสุด การใช้งานตาม HNSW ถือเป็นผลลัพธ์ที่ดีที่สุด[ 8 ] [ 9 ]การประชุมต่างๆ เช่น การประชุมนานาชาติว่าด้วยการค้นหาความคล้ายคลึงและการประยุกต์ใช้ (SISAP) [ 10 ]และการประชุมว่าด้วยระบบประมวลผลข้อมูลประสาท (NeurIPS) [ 11 ]ได้จัดการแข่งขันการค้นหาเวกเตอร์ในฐานข้อมูลขนาดใหญ่
แอปพลิเคชัน
ฐานข้อมูลเวกเตอร์ถูกใช้ในแอปพลิเคชันการเรียนรู้ของเครื่อง ที่หลากหลาย รวมถึงการค้นหาความคล้ายคลึงการค้นหาเชิงความหมายการค้นหาแบบหลายรูปแบบเครื่องมือแนะนำการตรวจจับวัตถุและการสร้างผลลัพธ์ที่เพิ่มประสิทธิภาพการค้นหา[ 1 ]
การสร้างที่เสริมด้วยการดึงข้อมูล
กรณีการใช้งานฐานข้อมูลเวกเตอร์ที่พบได้บ่อยเป็นพิเศษคือการสร้างข้อความเสริมการค้นหา (RAG) ซึ่งเป็นวิธีการปรับปรุงการตอบสนองเฉพาะโดเมนของแบบจำลองภาษาขนาดใหญ่ส่วนประกอบการค้นหาของ RAG สามารถเป็นระบบการค้นหาใดก็ได้ แต่ส่วนใหญ่มักถูกนำไปใช้เป็นฐานข้อมูลเวกเตอร์ เอกสารข้อความที่อธิบายโดเมนที่สนใจจะถูกรวบรวม และสำหรับแต่ละเอกสารหรือส่วนของเอกสาร เวกเตอร์คุณลักษณะ (ที่เรียกว่า " การฝัง ") จะถูกคำนวณ โดยทั่วไปจะใช้เครือข่ายการเรียนรู้เชิงลึก และจัดเก็บไว้ในฐานข้อมูลเวกเตอร์พร้อมกับลิงก์ไปยังเอกสาร เมื่อได้รับข้อความแจ้งจากผู้ใช้ เวกเตอร์คุณลักษณะของข้อความแจ้งจะถูกคำนวณ และฐานข้อมูลจะถูกสอบถามเพื่อดึงเอกสารที่เกี่ยวข้องมากที่สุด จากนั้นเอกสารเหล่านี้จะถูกเพิ่มเข้าไปในหน้าต่างบริบทของแบบจำลองภาษาขนาดใหญ่โดยอัตโนมัติ และแบบจำลองภาษาขนาดใหญ่จะดำเนินการสร้างการตอบสนองต่อข้อความแจ้งโดยใช้บริบทนี้[ 12 ]
การนำไปใช้
ดูเพิ่มเติม
- คำสาปแห่งมิติ – ความยากลำบากที่เกิดขึ้นเมื่อวิเคราะห์ข้อมูลที่มีหลายแง่มุม ("มิติ")
- ฐานข้อมูลกราฟ – ฐานข้อมูลที่ใช้โครงสร้างกราฟในการค้นหาข้อมูล
- การเรียนรู้ของเครื่องจักร – สาขาย่อยของปัญญาประดิษฐ์
- การค้นหาเพื่อนบ้านที่ใกล้ที่สุด – ปัญหาการหาค่าเหมาะสมที่สุดในวิทยาการคอมพิวเตอร์
- ระบบแนะนำ – ระบบที่ใช้ทำนายความชอบของผู้ใช้
ลิงก์ภายนอก
- Sawers, Paul (2024-04-20). "เหตุใดฐานข้อมูลเวกเตอร์จึงกำลังได้รับความนิยมในช่วงที่กระแสความนิยม AI พุ่งถึงจุดสูงสุด" . TechCrunch . สืบค้นเมื่อ2024-04-23 .
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ฐานข้อมูลเวกเตอร์
ฐาน ข้อมูลเวกเตอร์ , ที่เก็บเวกเตอร์ หรือ เครื่องมือค้นหาเวกเตอร์ คือ ฐานข้อมูล ที่จัดเก็บและเรียก ค้น ข้อมูล ฝังตัว ใน พื้นที่เวกเตอร์ [ 1 ] โดย ทั่วไปแล้ว ฐานข้อมูลเวกเตอร์จะใช้...
เทคนิค
เทคนิคทั่วไปสำหรับการค้นหาความคล้ายคลึงกันบนเวกเตอร์ที่มีมิติสูง ได้แก่:
แอปพลิเคชัน
ฐานข้อมูลเวกเตอร์ถูกใช้ในแอปพลิเคชันการเรียนรู้ของเครื่อง ที่หลากหลาย รวมถึง การค้นหาความคล้ายคลึง การค้นหาเชิงความหมาย การ ค้นหาแบบหลายรูป แบบ เครื่องมือแนะนำ การตรวจจับวัตถุ และ การสร้างผลลัพธ์ที่เพิ่มประสิทธิภาพ การค้นหา [ 1 ]
การสร้างที่เสริมด้วยการดึงข้อมูล
กรณีการใช้งานฐานข้อมูลเวกเตอร์ที่พบได้บ่อยเป็นพิเศษคือ การสร้างข้อความเสริมการค้นหา (RAG) ซึ่งเป็นวิธีการปรับปรุงการตอบสนองเฉพาะโดเมนของ แบบจำลองภาษาขนาดใหญ่ ส่วนประกอบการค้นหาของ RAG สามารถเป็นระบบการค้นหาใดก็ได้ แต่ส่วนใหญ่มักถูกนำไปใช้เป็นฐานข้อมูลเวกเตอร์...