การสร้างที่เสริมด้วยการดึงข้อมูล

การสร้างข้อความเสริมด้วยการดึงข้อมูล ( RAG ) เป็นเทคนิคที่ช่วยให้โมเดลภาษาขนาดใหญ่ (LLM) สามารถดึงและรวมข้อมูลใหม่จากแหล่งข้อมูลภายนอกได้^{[ 1 ]}ด้วย RAG นั้น LLM จะอ้างอิงถึงชุดเอกสารที่กำหนดไว้ก่อน จากนั้นจึงตอบคำถามของผู้ใช้ เอกสารเหล่านี้จะเสริมข้อมูลจากข้อมูลการฝึกอบรม ที่มีอยู่ก่อนแล้วของ LLM ^{[ 2 ]}ซึ่งช่วยให้ LLM สามารถใช้ข้อมูลเฉพาะโดเมนและ/หรือข้อมูลที่อัปเดตซึ่งไม่มีอยู่ในข้อมูลการฝึกอบรมได้^{[ 2 ]}ตัวอย่างเช่น เทคนิคนี้ช่วยให้แชทบอท ที่ใช้ LLM สามารถเข้าถึงข้อมูลภายในบริษัทหรือสร้างคำตอบโดยอิงจากแหล่งข้อมูลที่เชื่อถือได้ เทคนิคนี้ได้รับการเสนอครั้งแรกในปี 2020 และตั้งแต่นั้นมาก็กลายเป็นแนวทางที่ได้รับการยอมรับอย่างกว้างขวางในระบบ AI สมัยใหม่

RAG ปรับปรุง LLM โดยการรวมการดึงข้อมูลก่อนที่จะสร้างคำตอบ^{[ 3 ]}ต่างจาก LLM ที่อาศัยข้อมูลการฝึกอบรมแบบคงที่ RAG ดึงข้อความที่เกี่ยวข้องจากฐานข้อมูล เอกสารที่อัปโหลด หรือแหล่งข้อมูลบนเว็บ^{[ 1 ]}ตามที่Ars Technica กล่าวไว้ ว่า "RAG เป็นวิธีการปรับปรุงประสิทธิภาพของ LLM โดยพื้นฐานแล้วคือการผสมผสานกระบวนการ LLM กับการค้นหาบนเว็บหรือกระบวนการค้นหาเอกสารอื่นๆ เพื่อช่วยให้ LLM ยึดติดกับข้อเท็จจริง" วิธีนี้ช่วยลดภาพลวงตาของ AI [ ^{3 ] ซึ่ง}ทำให้แชทบอทอธิบายนโยบายที่ไม่มีอยู่จริง หรือแนะนำคดีทางกฎหมายที่ไม่มีอยู่จริงให้กับทนายความที่กำลังมองหาการอ้างอิงเพื่อสนับสนุนข้อโต้แย้งของพวกเขา^{[ 4 ]}

นอกจากนี้ RAG ยังช่วยลดความจำเป็นในการฝึกอบรม LLM ใหม่ด้วยข้อมูลใหม่ ซึ่งช่วยประหยัดต้นทุนการคำนวณและทางการเงิน^{[ 1 ]}นอกเหนือจากประสิทธิภาพที่เพิ่มขึ้นแล้ว RAG ยังช่วยให้ LLM สามารถใส่แหล่งที่มาในคำตอบของตนได้ เพื่อให้ผู้ใช้สามารถตรวจสอบแหล่งที่มาที่อ้างอิงได้ ซึ่งจะช่วยเพิ่มความโปร่งใส เนื่องจากผู้ใช้สามารถตรวจสอบเนื้อหาที่ดึงมาได้เพื่อให้แน่ใจว่ามีความถูกต้องและเกี่ยวข้อง

คำว่า การสร้างที่เสริมด้วยการเรียกค้น (RAG) ได้รับการแนะนำในเอกสารปี 2020 ซึ่งอธิบายถึงการรวมแบบจำลองภาษาแบบพาราเมตริกเข้ากับหน่วยความจำภายนอกที่ไม่ใช่พาราเมตริกที่เข้าถึงได้ผ่านการเรียกค้นในเวลาอนุมาน^{[ 3 ]}

ข้อจำกัดของ RAG และ LLM

LLM สามารถให้ข้อมูลที่ไม่ถูกต้องได้ ตัวอย่างเช่น เมื่อ Google สาธิตเครื่องมือ LLM " Google Bard " (ต่อมาเปลี่ยนชื่อเป็น Gemini) เป็นครั้งแรก LLM ได้ให้ข้อมูลที่ไม่ถูกต้องเกี่ยวกับกล้องโทรทรรศน์อวกาศเจมส์ เวบบ์ ข้อผิดพลาดนี้ส่งผลให้ มูลค่าหุ้นของ Googleลดลงถึง 100 พันล้านดอลลาร์^{[ 4 ]} RAG ถูกใช้เพื่อป้องกันข้อผิดพลาดเหล่านี้ แต่ก็ไม่ได้แก้ปัญหาทั้งหมด ตัวอย่างเช่น LLM สามารถสร้างข้อมูลที่ผิดพลาดได้แม้ว่าจะดึงข้อมูลจากแหล่งข้อมูลที่ถูกต้องตามข้อเท็จจริง หากตีความบริบทผิดพลาดMIT Technology Reviewยกตัวอย่างการตอบกลับที่สร้างโดย AI ที่ระบุว่า "สหรัฐอเมริกามีประธานาธิบดีมุสลิมหนึ่งคน คือ บารัค ฮุสเซน โอบามา" โมเดลดึงข้อมูลนี้มาจากบทที่บารัค ฮุสเซน โอบามา: ประธานาธิบดีมุสลิมคนแรกของอเมริกา?ภายในหนังสือวิชาการFaith in the New Millennium: The Future of Religion and American Politics [ ^{5 ] LLM}ไม่ได้ "รู้" หรือ "เข้าใจ" บริบทของชื่อเรื่อง จึงสร้างข้อความที่ผิดพลาด^{[ 2 ]}

LLM ที่มี RAG ได้รับการตั้งโปรแกรมให้จัดลำดับความสำคัญของข้อมูลใหม่ เทคนิคนี้เรียกว่า "การยัดเยียดข้อความแจ้งเตือน" หากไม่มีการยัดเยียดข้อความแจ้งเตือน ข้อมูลป้อนเข้าของ LLM จะถูกสร้างขึ้นโดยผู้ใช้ แต่หากมีการยัดเยียดข้อความแจ้งเตือน จะมีการเพิ่มบริบทที่เกี่ยวข้องเพิ่มเติมลงในข้อมูลป้อนเข้านี้เพื่อชี้นำการตอบสนองของโมเดล วิธีนี้จะช่วยให้ LLM ได้รับข้อมูลสำคัญในช่วงต้นของข้อความแจ้งเตือน ซึ่งกระตุ้นให้ LLM จัดลำดับความสำคัญของข้อมูลที่ให้มามากกว่าความรู้การฝึกอบรมที่มีอยู่ก่อนแล้ว^{[ 6 ]}

กระบวนการ

การสร้างข้อความเสริมด้วยการดึงข้อมูล (RAG) ช่วยเพิ่มประสิทธิภาพของโมเดลภาษาขนาดใหญ่ (LLM) โดยการรวม กลไก การดึงข้อมูลที่ช่วยให้โมเดลสามารถเข้าถึงและใช้ข้อมูลเพิ่มเติมนอกเหนือจากชุดข้อมูลการฝึกอบรมดั้งเดิมArs Technicaตั้งข้อสังเกตว่า "เมื่อมีข้อมูลใหม่เกิดขึ้น แทนที่จะต้องฝึกอบรมโมเดลใหม่ สิ่งที่จำเป็นคือการเพิ่มฐานความรู้ภายนอกของโมเดลด้วยข้อมูลที่อัปเดตแล้ว" ("การเสริม") ^{[ 4 ]} IBM ระบุว่า "ในขั้นตอนการสร้าง LLM จะดึงข้อมูลจากข้อความแจ้งที่ได้รับการเสริมและตัวแทนภายในของข้อมูลการฝึกอบรมเพื่อสังเคราะห์" คำตอบ^{[ 1 ]}

ขั้นตอนสำคัญของ RAG

โดยทั่วไป ข้อมูลที่จะอ้างอิงจะถูกแปลงเป็น LLM embeddingsซึ่งเป็นการแสดงผลเชิงตัวเลขในรูปแบบของพื้นที่เวกเตอร์ขนาดใหญ่ RAG สามารถใช้กับข้อมูลที่ไม่เป็นโครงสร้าง (โดยปกติคือข้อความ) ข้อมูลกึ่งโครงสร้าง หรือข้อมูลที่มีโครงสร้าง (เช่นกราฟความรู้ ) จากนั้น embeddings เหล่านี้จะถูกจัดเก็บไว้ในฐานข้อมูลเวกเตอร์เพื่อให้สามารถเรียกค้นเอกสารได้

เมื่อได้รับคำถามจากผู้ใช้ ระบบจะเรียกใช้ตัวดึงเอกสารก่อนเพื่อเลือกเอกสารที่เกี่ยวข้องมากที่สุดที่จะใช้ในการปรับปรุงคำถาม^{[ 2 ]}^{[ 3 ]}การเปรียบเทียบนี้สามารถทำได้โดยใช้วิธีการที่หลากหลาย ซึ่งขึ้นอยู่กับประเภทของการจัดทำดัชนีที่ใช้บางส่วน^{[ 1 ]}

โมเดลจะป้อนข้อมูลที่ดึงมาได้ที่เกี่ยวข้องนี้เข้าสู่ LLM ผ่านการออกแบบคำถามเริ่มต้นของผู้ใช้โดยอัตโนมัติเวอร์ชันใหม่กว่า (ณ ปี 2023) ยังสามารถรวมโมดูลเสริมเฉพาะที่มีความสามารถต่างๆ เช่น การขยายคำถามไปยังหลายโดเมน และการใช้หน่วยความจำและการพัฒนาตนเองเพื่อเรียนรู้จากผลการค้นหาครั้งก่อนๆ ได้อีกด้วย

ในที่สุด LLM สามารถสร้างเอาต์พุตโดยอิงจากทั้งคำถามและเอกสารที่ดึงมาได้^{[ 2 ]}^{[ 3 ]}บางโมเดลรวมขั้นตอนเพิ่มเติมเพื่อปรับปรุงเอาต์พุต เช่น การจัดอันดับข้อมูลที่ดึงมาใหม่ การเลือกบริบท และการปรับแต่งอย่างละเอียด

แอปพลิเคชัน

การสร้างข้อความโดยอาศัยการดึงข้อมูลมาเสริม จะถูกนำมาใช้ในแอปพลิเคชันที่ข้อความที่สร้างขึ้นจำเป็นต้องอ้างอิงจากข้อมูลภายนอกหรือข้อมูลที่มีการอัปเดตบ่อยครั้ง

ในด้านการดูแลสุขภาพ RAG ได้รับการศึกษาในฐานะวิธีการวางรากฐานผลลัพธ์ของแบบจำลองภาษาขนาดใหญ่ในแหล่งความรู้ทางการแพทย์ภายนอก แม้ว่าการทบทวนจะระบุถึงความท้าทายอย่างต่อเนื่องเกี่ยวกับการประเมิน จริยธรรม และความน่าเชื่อถือทางคลินิก^{[ 7 ]}

การปรับปรุง

การปรับปรุงกระบวนการพื้นฐานข้างต้นสามารถนำไปประยุกต์ใช้ได้ในขั้นตอนต่างๆ ของกระบวนการ RAG

ตัวเข้ารหัส

วิธีการเหล่านี้มุ่งเน้นไปที่การเข้ารหัสข้อความเป็นเวกเตอร์แบบหนาแน่นหรือแบบเบาบางเวกเตอร์แบบเบาบางซึ่งเข้ารหัสเอกลักษณ์ของคำ มัก มีความยาวเท่ากับ พจนานุกรมและส่วนใหญ่ประกอบด้วยศูนย์ เวกเตอร์แบบหนาแน่นซึ่งเข้ารหัสความหมาย จะมีขนาดกะทัดรัดกว่าและประกอบด้วยศูนย์น้อยกว่า การปรับปรุงต่างๆ สามารถปรับปรุงวิธีการคำนวณความคล้ายคลึงกันในที่เก็บเวกเตอร์ (ฐานข้อมูล) ได้^{[ 8 ]}

ประสิทธิภาพดีขึ้นเมื่อปรับวิธีการคำนวณความคล้ายคลึงของเวกเตอร์ให้เหมาะสมผลคูณดอทช่วยเพิ่มคะแนนความคล้ายคลึง ในขณะที่ การค้นหา เพื่อนบ้านที่ใกล้ที่สุดโดยประมาณ (ANN) ช่วยเพิ่มประสิทธิภาพการเรียกค้นข้อมูลมากกว่า การค้นหา เพื่อนบ้านที่ใกล้ที่สุด K ตัว (KNN) ^{[ 9 ]}
ความแม่นยำอาจได้รับการปรับปรุงด้วยปฏิสัมพันธ์ล่าช้า ซึ่งช่วยให้ระบบสามารถเปรียบเทียบคำได้อย่างแม่นยำยิ่งขึ้นหลังจากการดึงข้อมูล ซึ่งจะช่วยปรับปรุงการจัดอันดับเอกสารและปรับปรุงความเกี่ยวข้องของการค้นหา^{[ 10 ]}
อาจใช้แนวทางเวกเตอร์แบบไฮบริดเพื่อรวมการแสดงเวกเตอร์หนาแน่นเข้ากับ เวกเตอร์ วันฮอตแบบ เบาบาง โดยใช้ประโยชน์จากประสิทธิภาพการคำนวณของผลคูณดอทแบบเบาบางเหนือการดำเนินการเวกเตอร์หนาแน่น^{[ 8 ]}
เทคนิคการเรียกค้นอื่นๆ มุ่งเน้นไปที่การปรับปรุงความแม่นยำโดยการปรับปรุงวิธีการเลือกเอกสาร วิธีการเรียกค้นบางวิธีรวมการแสดงข้อมูลแบบกระจัดกระจาย เช่น SPLADE เข้ากับกลยุทธ์การขยายคำค้นเพื่อปรับปรุงความแม่นยำและการเรียกคืนข้อมูลในการค้นหา^{[ 11 ]}

วิธีการที่เน้นผู้เรียกกลับ

วิธีการเหล่านี้มีจุดมุ่งหมายเพื่อปรับปรุงคุณภาพการค้นหาเอกสารในฐานข้อมูลเวกเตอร์:

ฝึกฝนตัวดึงข้อมูลล่วงหน้าโดยใช้Inverse Cloze Task (ICT) ซึ่งเป็นเทคนิคที่ช่วยให้โมเดลเรียนรู้รูปแบบการดึงข้อมูลโดยการทำนายข้อความที่ถูกปิดบังไว้ภายในเอกสาร^{[ 12 ]}
การเพิ่มประสิทธิภาพการดึงข้อมูลแบบมีผู้กำกับดูแลจะปรับความน่าจะเป็นของการดึงข้อมูลให้สอดคล้องกับการกระจายความน่าจะเป็นของแบบจำลองตัวสร้าง ซึ่งเกี่ยวข้องกับการดึงเวกเตอร์ 10 อันดับแรกสำหรับคำถามที่กำหนด การให้คะแนนความซับซ้อน ของการตอบสนองที่สร้างขึ้น และการลดความแตกต่าง KLระหว่างการเลือกของผู้ดึงข้อมูลและความน่าจะเป็นของแบบจำลองเพื่อปรับปรุงการดึงข้อมูล^{[ 13 ]}
เทคนิคการจัดอันดับใหม่สามารถปรับปรุงประสิทธิภาพของตัวดึงข้อมูลโดยให้ความสำคัญกับเอกสารที่ดึงมาที่เกี่ยวข้องมากที่สุดระหว่างการฝึกอบรม^{[ 14 ]}

แบบจำลองภาษา

โมเดลภาษาแบบเรโทรสำหรับ RAG แต่ละบล็อกเรโทรประกอบด้วยเลเยอร์ Attention, Chunked Cross Attention และ Feed Forward กล่องตัวอักษรสีดำแสดงข้อมูลที่กำลังเปลี่ยนแปลง และกล่องตัวอักษรสีน้ำเงินแสดงอัลกอริทึมที่ทำการเปลี่ยนแปลง

ด้วยการออกแบบโมเดลภาษาใหม่โดยคำนึงถึงตัวดึงข้อมูล เครือข่ายที่มีขนาดเล็กกว่า 25 เท่าก็สามารถได้ค่าความซับซ้อนที่เทียบเท่ากับเครือข่ายที่มีขนาดใหญ่กว่ามาก^{[ 15 ]}เนื่องจากได้รับการฝึกฝนตั้งแต่เริ่มต้น วิธีนี้ (Retro) จึงมีค่าใช้จ่ายสูงในการดำเนินการฝึกฝน ซึ่งแผนการ RAG ดั้งเดิมหลีกเลี่ยงได้ สมมติฐานคือ การให้ความรู้เกี่ยวกับโดเมนระหว่างการฝึกฝน ทำให้ Retro ต้องการความสนใจในโดเมนน้อยลง และสามารถทุ่มเททรัพยากรน้ำหนักที่น้อยกว่าให้กับความหมายของภาษาเท่านั้น โมเดลภาษาที่ออกแบบใหม่แสดงไว้ที่นี่

มีรายงานว่า Retro ไม่สามารถทำซ้ำได้ ดังนั้นจึงมีการปรับเปลี่ยนเพื่อให้สามารถทำซ้ำได้ เวอร์ชันที่สามารถทำซ้ำได้มากขึ้นเรียกว่า Retro++ และรวมถึง RAG ในบริบท^{[ 16 ]}

การแบ่งกลุ่ม

การแบ่งข้อมูลออกเป็นส่วนย่อย (Chunking) เกี่ยวข้องกับกลยุทธ์ต่างๆ ในการแบ่งข้อมูลออกเป็นเวกเตอร์ เพื่อให้โปรแกรมค้นหาสามารถค้นหารายละเอียดภายในข้อมูลได้

รูปแบบข้อมูลที่แตกต่างกันมีรูปแบบเฉพาะที่การแบ่งกลุ่มข้อมูลอย่างถูกต้องสามารถใช้ประโยชน์ได้

กลยุทธ์การแบ่งกลุ่มข้อมูลมี 3 ประเภท ได้แก่:

ความยาวคงที่พร้อมส่วนที่ซ้อนทับกัน วิธีนี้รวดเร็วและง่าย การซ้อนทับส่วนย่อยที่ต่อเนื่องกันช่วยรักษาบริบททางความหมายระหว่างส่วนย่อยต่างๆ
การแบ่งเอกสารออกเป็นส่วนๆ ตามไวยากรณ์สามารถช่วยแบ่งเอกสารออกเป็นประโยคได้ ไลบรารีอย่างspaCyหรือNLTKก็สามารถช่วยได้เช่นกัน
การแบ่งไฟล์ตามรูปแบบไฟล์ ไฟล์บางประเภทมีการแบ่งส่วนตามธรรมชาติอยู่แล้ว และควรเคารพการแบ่งส่วนเหล่านั้น ตัวอย่างเช่น ไฟล์โค้ดควรแบ่งส่วนและแปลงเป็นเวกเตอร์โดยใช้ฟังก์ชันหรือคลาสทั้งหมด ไฟล์ HTML ควรคงองค์ประกอบ <table> หรือ <img> ที่เข้ารหัสแบบ base64 ไว้เหมือนเดิม ควรพิจารณาในทำนองเดียวกันสำหรับไฟล์ PDF ไลบรารีเช่น Unstructured หรือLangChainสามารถช่วยในวิธีการนี้ได้

การค้นหาแบบไฮบริด

บางครั้งการค้นหาฐานข้อมูลเวกเตอร์อาจพลาดข้อเท็จจริงสำคัญที่จำเป็นในการตอบคำถามของผู้ใช้ วิธีหนึ่งในการลดปัญหานี้คือการค้นหาข้อความแบบดั้งเดิม เพิ่มผลลัพธ์เหล่านั้นลงในกลุ่มข้อความที่เชื่อมโยงกับเวกเตอร์ที่ดึงมาจากการค้นหาเวกเตอร์ และป้อนข้อความไฮบริดที่รวมกันลงในแบบจำลองภาษาสำหรับการสร้าง^{[ 17 ]}

ความท้าทาย

RAG ไม่สามารถป้องกันอาการประสาทหลอนใน LLM ได้ ตามที่Ars Technica กล่าวไว้ว่า "มันไม่ใช่วิธีแก้ปัญหาโดยตรง เพราะ LLM ยังคงสามารถเกิดอาการประสาทหลอนเกี่ยวกับเนื้อหาต้นฉบับในการตอบสนองได้" ^{[ 4 ]}

แม้ว่า RAG จะช่วยปรับปรุงความแม่นยำของโมเดลภาษาขนาดใหญ่ (LLM) แต่ก็ไม่ได้ขจัดความท้าทายทั้งหมด ข้อจำกัดประการหนึ่งคือ แม้ว่า RAG จะช่วยลดความจำเป็นในการฝึกโมเดลใหม่บ่อยครั้ง แต่ก็ไม่ได้ขจัดออกไปทั้งหมด นอกจากนี้ LLM อาจประสบปัญหาในการรับรู้ว่าเมื่อใดที่ขาดข้อมูลที่เพียงพอในการให้คำตอบที่เชื่อถือได้ หากไม่มีการฝึกอบรมเฉพาะ โมเดลอาจสร้างคำตอบได้แม้ว่าจะควรระบุความไม่แน่นอนก็ตาม ตามที่IBM ระบุ ปัญหานี้อาจเกิดขึ้นเมื่อโมเดลขาดความสามารถในการประเมินข้อจำกัดความรู้ของตนเอง^{[ 1 ]}

พิษจาก RAG

ระบบ RAG อาจดึงแหล่งข้อมูลที่ถูกต้องตามข้อเท็จจริงแต่ทำให้เข้าใจผิด ซึ่งนำไปสู่ข้อผิดพลาดในการตีความ ในบางกรณี LLM อาจดึงข้อความจากแหล่งข้อมูลโดยไม่พิจารณาบริบท ส่งผลให้ได้ข้อสรุปที่ไม่ถูกต้อง นอกจากนี้ เมื่อเผชิญกับข้อมูลที่ขัดแย้งกัน โมเดล RAG อาจประสบปัญหาในการพิจารณาว่าแหล่งข้อมูลใดถูกต้อง ผลลัพธ์ที่เลวร้ายที่สุดของข้อจำกัดนี้คือ โมเดลอาจรวมรายละเอียดจากหลายแหล่งข้อมูล ทำให้เกิดการตอบสนองที่ผสมผสานข้อมูลที่ล้าสมัยและข้อมูลที่อัปเดตเข้าด้วยกันในลักษณะที่ทำให้เข้าใจผิด ตาม รายงานของ MIT Technology Reviewปัญหาเหล่านี้เกิดขึ้นเนื่องจากระบบ RAG อาจตีความข้อมูลที่ดึงมาผิดพลาด^{[ 2 ]}

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

5 ] LLM

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]