การตอบคำถาม

Q: สถาปัตยกรรม

นับตั้งแต่ปี 2544 ระบบตอบคำถามโดยทั่วไปจะมี โมดูล จำแนกคำถาม ที่กำหนดประเภทของคำถามและประเภทของคำตอบ [ 22 ]

การตอบคำถาม ( QA ) เป็น สาขา วิทยาศาสตร์คอมพิวเตอร์ภายในสาขาการค้นหาข้อมูลและ การประมวล ^ผลภาษาธรรมชาติ (NLP) ซึ่งเกี่ยวข้องกับการสร้างระบบที่ตอบคำถามที่มนุษย์ถามโดยอัตโนมัติด้วยภาษาธรรมชาติ [ ^{1 ]}

ระบบตอบคำถาม ซึ่งโดยทั่วไปคือโปรแกรมคอมพิวเตอร์ อาจสร้างคำตอบโดยการสอบถามฐานข้อมูลความรู้หรือข้อมูลที่มีโครงสร้าง ซึ่งโดยปกติคือฐานความรู้ แต่ที่พบได้บ่อยกว่าคือ ระบบตอบคำถามสามารถดึงคำตอบจากชุดเอกสารภาษาธรรมชาติที่ไม่มีโครงสร้างได้

ตัวอย่างบางส่วนของชุดเอกสารภาษาธรรมชาติที่ใช้สำหรับระบบตอบคำถาม ได้แก่ ข้อความอ้างอิงรายงานข่าว ที่รวบรวมไว้ หน้าWikipedia ^{[ 2 ]}และหน้า เว็บอื่นๆ ทั่วโลก

ประวัติศาสตร์

ระบบตอบคำถามสองระบบแรกคือ BASEBALL ^{[ 3 ]}และ LUNAR ^{[ 4 ]} BASEBALL ตอบคำถามเกี่ยวกับเมเจอร์ลีกเบสบอลในช่วงระยะเวลาหนึ่งปี LUNAR ตอบคำถามเกี่ยวกับการวิเคราะห์ทางธรณีวิทยาของหินที่นำกลับมาโดยภารกิจอะพอลโลบนดวงจันทร์ ระบบตอบคำถามทั้งสองระบบมีประสิทธิภาพมากในโดเมนที่เลือก LUNAR ได้รับการสาธิตในงานประชุมวิทยาศาสตร์ดวงจันทร์ในปี 1971 และสามารถตอบคำถามได้ 90% ในโดเมนที่ถามโดยผู้ที่ไม่ได้รับการฝึกฝนเกี่ยวกับระบบ

ระบบตอบคำถามเฉพาะด้านเพิ่มเติมได้รับการพัฒนาขึ้นในอีกหลายปีต่อมา คุณลักษณะร่วมกันของระบบเหล่านี้คือมีฐานข้อมูลหลักหรือระบบความรู้ที่เขียนขึ้นด้วยลายมือโดยผู้เชี่ยวชาญในสาขาที่เลือก ความสามารถด้านภาษาของ BASEBALL และ LUNAR ใช้เทคนิคที่คล้ายกับELIZAและDOCTOR ซึ่ง เป็นโปรแกรม แชทบอทรุ่นแรกๆ

SHRDLUเป็นโปรแกรมตอบคำถามที่ประสบความสำเร็จซึ่งพัฒนาโดยเทอร์รี วินโนกราดในช่วงปลายทศวรรษ 1960 และต้นทศวรรษ 1970 โปรแกรมนี้จำลองการทำงานของหุ่นยนต์ในโลกของเล่น ("โลกของบล็อก") และเปิดโอกาสให้ผู้ใช้สามารถถามคำถามเกี่ยวกับสถานะของโลกได้ จุดแข็งของระบบนี้อยู่ที่การเลือกโดเมนที่เฉพาะเจาะจงมาก และโลกที่เรียบง่ายมาก โดยมีกฎทางฟิสิกส์ที่ง่ายต่อการเขียนโปรแกรมลงในคอมพิวเตอร์

ในทศวรรษ 1970 มีการพัฒนา ระบบฐานความรู้ที่มุ่งเป้าไปที่ขอบเขตความรู้ที่แคบลง ระบบตอบคำถามที่พัฒนาขึ้นเพื่อเชื่อมต่อกับระบบผู้เชี่ยวชาญ เหล่านี้ สามารถสร้าง คำตอบ ที่ทำซ้ำได้และถูกต้องมากขึ้นสำหรับคำถามภายในขอบเขตความรู้หนึ่งๆ ระบบผู้เชี่ยวชาญเหล่านี้มีความคล้ายคลึงกับระบบตอบคำถามสมัยใหม่ ยกเว้นในด้านสถาปัตยกรรมภายใน ระบบผู้เชี่ยวชาญพึ่งพาฐานความรู้ ที่สร้างและจัดระเบียบโดยผู้เชี่ยวชาญเป็นอย่างมาก ในขณะที่ระบบตอบคำถามสมัยใหม่จำนวนมากพึ่งพาการประมวลผลทางสถิติของชุดข้อความภาษาธรรมชาติขนาดใหญ่ที่ไม่มีโครงสร้าง

ในช่วงทศวรรษ1970 และ 1980 ทฤษฎีด้านภาษาศาสตร์เชิงคำนวณ ได้รับการพัฒนาอย่างครอบคลุม ซึ่งนำไปสู่การพัฒนาโครงการที่ทะเยอทะยานในการทำความเข้าใจข้อความและการตอบคำถาม ตัวอย่างหนึ่งคือ Unix Consultant (UC) ที่พัฒนาโดยRobert Wilenskyที่มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์ ในช่วงปลายทศวรรษ 1980 ระบบนี้ตอบคำถามที่เกี่ยวข้องกับระบบปฏิบัติการ Unixโดยมีฐานความรู้ที่ครอบคลุมและสร้างขึ้นด้วยมือในโดเมนนั้น และมุ่งเน้นการกำหนดรูปแบบคำตอบให้เหมาะสมกับผู้ใช้ประเภทต่างๆ อีกโครงการหนึ่งคือ LILOG ระบบ ทำความเข้าใจข้อความที่ทำงานในโดเมนข้อมูลการท่องเที่ยวในเมืองหนึ่งของเยอรมนี ระบบที่พัฒนาขึ้นในโครงการ UC และ LILOG ไม่เคยไปไกลกว่าขั้นการสาธิตอย่างง่าย แต่ก็ช่วยในการพัฒนาทฤษฎีด้านภาษาศาสตร์เชิงคำนวณและการให้เหตุผล

มีการพัฒนาระบบตอบคำถามภาษาธรรมชาติเฉพาะทาง เช่น EAGLi สำหรับนักวิทยาศาสตร์ด้านสุขภาพและชีววิทยา^{[ 5 ]}

ระบบตอบคำถามได้รับการขยายขอบเขตในช่วงไม่กี่ปีที่ผ่านมาเพื่อครอบคลุมโดเมนความรู้เพิ่มเติม^{[ 6 ]}ตัวอย่างเช่น มีการพัฒนาระบบเพื่อตอบคำถามเกี่ยวกับเวลาและภูมิศาสตร์ คำถามเกี่ยวกับคำจำกัดความและศัพท์เฉพาะ คำถามเกี่ยวกับชีวประวัติ คำถามหลายภาษา และคำถามเกี่ยวกับเนื้อหาของเสียง รูปภาพ^{[ 7 ]}และวิดีโอ^{[ 8 ]}โดยอัตโนมัติ หัวข้อวิจัยการตอบคำถามในปัจจุบัน ได้แก่:

ปฏิสัมพันธ์—การชี้แจงคำถามหรือคำตอบ^{[ 9 ]}
การนำคำตอบกลับมาใช้ใหม่หรือการแคช^{[ 10 ]}
การวิเคราะห์ความหมาย^{[ 11 ]}
การนำเสนอคำตอบ^{[ 12 ]}
การแสดงความรู้และการอนุมาน ความหมาย ^{[ 13 ]}
การวิเคราะห์สื่อสังคมออนไลน์ด้วยระบบตอบคำถาม
การวิเคราะห์ความรู้สึก^{[ 14 ]}
การใช้บทบาทตามหัวข้อ^{[ 15 ]}
การใส่คำบรรยายภาพสำหรับการตอบคำถามด้วยภาพ^{[ 7 ]}
การตอบคำถามแบบมีตัวตน^{[ 16 ]}

ในปี 2011 Watsonซึ่งเป็นระบบคอมพิวเตอร์ตอบคำถามที่พัฒนาโดยIBMได้เข้าร่วมการแข่งขันJeopardy! สองรอบ กับBrad RutterและKen Jenningsและชนะด้วยคะแนนที่ห่างกันมาก^{[ 17 ]} Facebook Researchได้เปิดให้ ใช้งาน ระบบDrQA ของพวกเขา ^{[ 18 ]}ภายใต้ใบอนุญาตโอเพนซอร์สระบบนี้ใช้Wikipediaเป็นแหล่งความรู้^{[ 2 ]}เฟรม เวิร์กโอ เพนซอร์ส Haystack โดยdeepsetผสมผสานการตอบคำถามแบบเปิดโดเมนเข้ากับการตอบคำถามแบบสร้าง และสนับสนุนการปรับโดเมนของแบบจำลองภาษาพื้นฐาน สำหรับกรณีการใช้งานในอุตสาหกรรม^[¹⁹^]^[²⁰^]

โมเดลภาษาขนาดใหญ่ (LLMs) ^[36]เช่น GPT-4 ^[37]และ Gemini ^[38]เป็นตัวอย่างของระบบ QA ที่ประสบความสำเร็จ ซึ่งช่วยให้เข้าใจและสร้างข้อความที่ซับซ้อนยิ่งขึ้น เมื่อผนวกกับระบบ QA แบบมัลติโมดอล^[39]ซึ่งสามารถประมวลผลและเข้าใจข้อมูลจากรูปแบบต่างๆ เช่น ข้อความ รูปภาพ และเสียง LLMs จะช่วยปรับปรุงความสามารถของระบบ QA ได้อย่างมาก

ประเภท

การวิจัยเกี่ยวกับการตอบคำถามพยายามพัฒนาวิธีการตอบคำถามหลากหลายประเภท รวมถึงคำถามเกี่ยวกับข้อเท็จจริง รายการ คำจำกัดความวิธีการ ทำไม สมมติฐาน คำถามที่มีข้อจำกัดทางความหมาย และคำถามข้ามภาษา

การตอบคำถามที่เกี่ยวข้องกับบทความเพื่อประเมินความเข้าใจในการอ่านนั้นเป็นรูปแบบการตอบคำถามที่ค่อนข้างง่าย เนื่องจากบทความที่กำหนดนั้นค่อนข้างสั้นเมื่อเทียบกับขอบเขตของปัญหาการตอบคำถามประเภทอื่น ตัวอย่างของคำถามดังกล่าวคือ "อัลเบิร์ต ไอน์สไตน์ได้รับรางวัลโนเบลจากอะไร?" หลังจากที่ระบบได้รับบทความเกี่ยวกับหัวข้อนี้แล้ว
การตอบคำถาม แบบปิดหนังสือคือระบบที่จดจำข้อเท็จจริงบางอย่างไว้ระหว่างการฝึกฝน และสามารถตอบคำถามได้โดยไม่ต้องได้รับบริบทใดๆ อย่างชัดเจน ซึ่งคล้ายกับการที่มนุษย์ทำข้อสอบแบบปิดหนังสือ
การตอบคำถาม แบบปิดโดเมนเกี่ยวข้องกับคำถามภายใต้โดเมนเฉพาะ (เช่น การแพทย์หรือการบำรุงรักษายานยนต์) และสามารถใช้ประโยชน์จากความรู้เฉพาะโดเมนซึ่งมักจะได้รับการกำหนดรูปแบบอย่างเป็นทางการในออนโทโลยีในทางกลับกัน "ปิดโดเมน" อาจหมายถึงสถานการณ์ที่ยอมรับเฉพาะคำถามประเภทจำกัดเท่านั้น เช่น คำถามที่ขอ ข้อมูล เชิงพรรณนามากกว่าข้อมูลเชิงกระบวนการ ระบบตอบคำถาม ในบริบทของแอปพลิเคชันการอ่านด้วยเครื่องจักรได้รับการสร้างขึ้นในโดเมนทางการแพทย์เช่นกัน ตัวอย่างเช่นที่เกี่ยวข้องกับโรคอัลไซเมอร์^{[ 21 ]}
การตอบคำถาม แบบเปิดกว้างเกี่ยวข้องกับคำถามเกี่ยวกับเกือบทุกเรื่อง และสามารถอาศัยเพียงองค์ความรู้ทั่วไปและความรู้เกี่ยวกับโลกเท่านั้น ระบบที่ออกแบบมาสำหรับการตอบคำถามแบบเปิดกว้างมักจะมีข้อมูลจำนวนมากให้เลือกใช้ในการหาคำตอบ ตัวอย่างของคำถามแบบเปิดกว้างคือ "อัลเบิร์ต ไอน์สไตน์ได้รับรางวัลโนเบลจากอะไร?" ในขณะที่ไม่มีบทความเกี่ยวกับเรื่องนี้ป้อนให้กับระบบ

อีกวิธีหนึ่งในการจำแนกประเภทระบบถามตอบคือตามวิธีการทางเทคนิคที่ใช้ มีระบบถามตอบหลายประเภท ได้แก่:

ระบบที่ใช้กฎเกณฑ์
ระบบสถิติ และ
ระบบไฮบริด

ระบบที่ใช้กฎเกณฑ์จะใช้ชุดกฎเพื่อกำหนดคำตอบที่ถูกต้องสำหรับคำถาม ระบบเชิงสถิติจะใช้วิธีการทางสถิติเพื่อค้นหาคำตอบที่มีความเป็นไปได้มากที่สุดสำหรับคำถาม ระบบแบบผสมผสานจะใช้การผสมผสานระหว่างระบบที่ใช้กฎเกณฑ์และวิธีการทางสถิติ

สถาปัตยกรรม

นับตั้งแต่ปี 2544 ระบบตอบคำถามโดยทั่วไปจะมี โมดูล จำแนกคำถามที่กำหนดประเภทของคำถามและประเภทของคำตอบ^{[ 22 ]}

ระบบตอบคำถามประเภทต่างๆ ใช้สถาปัตยกรรมที่แตกต่างกัน ตัวอย่างเช่น ระบบตอบคำถามแบบเปิดโดเมนสมัยใหม่อาจใช้สถาปัตยกรรมแบบดึงข้อมูล-อ่านข้อมูล โดยตัวดึงข้อมูลมีจุดมุ่งหมายเพื่อดึงเอกสารที่เกี่ยวข้องกับคำถามที่กำหนด ในขณะที่ตัวอ่านข้อมูลใช้เพื่ออนุมานคำตอบจากเอกสารที่ดึงมา ระบบต่างๆ เช่นGPT-3 , T5, ^{[ 23 ]}และ BART ^{[ 24 ]}ใช้สถาปัตยกรรมแบบ end-to-end ซึ่งสถาปัตยกรรมแบบ transformer จะจัดเก็บข้อมูลข้อความขนาดใหญ่ไว้ในพารามิเตอร์พื้นฐาน โมเดลดังกล่าวสามารถตอบคำถามได้โดยไม่ต้องเข้าถึงแหล่งความรู้ภายนอกใดๆ

วิธีการ

การตอบคำถามขึ้นอยู่กับคลัง ข้อมูลการค้นหาที่ดี หากไม่มีเอกสารที่มีคำตอบ ระบบตอบคำถามใดๆ ก็แทบจะทำอะไรไม่ได้เลย โดยทั่วไปแล้ว คอลเลกชันขนาดใหญ่จะหมายถึงประสิทธิภาพการตอบคำถามที่ดีขึ้น เว้นแต่ว่าโดเมนของคำถามจะตั้งฉากกับคอลเลกชันความซ้ำซ้อนของข้อมูลในคอลเลกชันขนาดใหญ่ เช่น เว็บ หมายความว่าข้อมูลชิ้นเล็กๆ มีแนวโน้มที่จะถูกเรียบเรียงในหลายวิธีที่แตกต่างกันในบริบทและเอกสารที่แตกต่างกัน^{[ 25 ]}ซึ่งนำไปสู่ประโยชน์สองประการ:

หากข้อมูลที่ถูกต้องปรากฏในหลายรูปแบบ ระบบตอบคำถามก็ไม่จำเป็นต้องใช้เทคนิค NLP ที่ซับซ้อนมากนักในการทำความเข้าใจข้อความ
สามารถกรองคำตอบที่ถูกต้องออกจากคำตอบที่ผิดพลาดได้เนื่องจากระบบสามารถอาศัยจำนวนครั้งที่คำตอบที่ถูกต้องปรากฏในชุดข้อมูลมากกว่าคำตอบที่ไม่ถูกต้อง

ระบบตอบคำถามบางระบบอาศัยการให้เหตุผลอัตโนมัติ เป็นอย่างมาก ^{[ 26 ]}^{[ 27 ]}

โดเมนเปิด

ในการดึงข้อมูลระบบตอบคำถามแบบเปิดโดเมนจะพยายามส่งคืนคำตอบเพื่อตอบคำถามของผู้ใช้ คำตอบที่ส่งคืนมานั้นอยู่ในรูปแบบของข้อความสั้นๆ แทนที่จะเป็นรายการเอกสารที่เกี่ยวข้อง^{[ 28 ]}ระบบจะค้นหาคำตอบโดยใช้เทคนิคต่างๆ จากภาษาศาสตร์เชิงคำนวณการดึงข้อมูลและการแสดงความรู้ร่วมกัน

ระบบนี้รับ คำถาม ที่เป็นภาษาธรรมชาติเป็นอินพุต แทนที่จะเป็นชุดคำหลัก ตัวอย่างเช่น "วันชาติของจีนคือวันไหน?" จากนั้นระบบจะแปลงประโยคอินพุตนี้ให้เป็นคำถามในรูปแบบตรรกะการยอมรับคำถามที่เป็นภาษาธรรมชาติทำให้ระบบใช้งานง่ายขึ้น แต่ทำให้การพัฒนาระบบยากขึ้น เนื่องจากมีคำถามหลายประเภท และระบบจะต้องระบุประเภทคำถามที่ถูกต้องเพื่อให้ได้คำตอบที่สมเหตุสมผล การกำหนดประเภทคำถามให้กับคำถามเป็นงานที่สำคัญมาก กระบวนการดึงคำตอบทั้งหมดขึ้นอยู่กับการค้นหาประเภทคำถามที่ถูกต้อง และด้วยเหตุนี้จึงได้ประเภทคำตอบที่ถูกต้อง

การสกัดคำหลักเป็นขั้นตอนแรกในการระบุประเภทคำถามที่ป้อนเข้ามา^{[ 29 ]}ในบางกรณี คำบางคำบ่งบอกประเภทคำถามได้อย่างชัดเจน เช่น "ใคร" "ที่ไหน" "เมื่อไหร่" หรือ "จำนวนเท่าใด" คำเหล่านี้อาจแนะนำระบบว่าคำตอบควรเป็นประเภท "บุคคล" "สถานที่" "วันที่" หรือ "จำนวน" ตามลำดับ เทคนิค การติดแท็ก POS (ส่วนของคำพูด)และการวิเคราะห์ไวยากรณ์ยังสามารถกำหนดประเภทคำตอบได้ ในตัวอย่างข้างต้น ประธานคือ "วันชาติจีน" กริยาคือ "คือ" และคำขยายกริยาวิเศษณ์คือ "เมื่อไหร่" ดังนั้นประเภทคำตอบคือ "วันที่" น่าเสียดายที่คำถามบางคำ เช่น "อันไหน" "อะไร" หรือ "อย่างไร" ไม่สอดคล้องกับประเภทคำตอบที่ชัดเจน: แต่ละคำสามารถแทนได้มากกว่าหนึ่งประเภท ในสถานการณ์เช่นนี้ จำเป็นต้องพิจารณาคำอื่นๆ ในคำถาม พจนานุกรมคำศัพท์ เช่นWordNetสามารถใช้เพื่อทำความเข้าใจบริบทได้

เมื่อระบบระบุประเภทของคำถามแล้ว ระบบจะใช้ ระบบ ค้นหาข้อมูลเพื่อค้นหาชุดเอกสารที่มีคำสำคัญที่ถูกต้องตัวระบุแท็กและตัวจัดกลุ่มคำนาม/คำกริยาจะตรวจสอบว่ามีการกล่าวถึงเอนทิตีและความสัมพันธ์ที่ถูกต้องในเอกสารที่พบหรือไม่ สำหรับคำถามเช่น "ใคร" หรือ "ที่ไหน" ตัวระบุเอนทิตีชื่อเฉพาะจะค้นหาชื่อ "บุคคล" และ "สถานที่" ที่เกี่ยวข้องจากเอกสารที่ดึงมาได้เฉพาะย่อหน้าที่เกี่ยวข้องเท่านั้นที่จะถูกเลือกเพื่อจัดอันดับ

แบบจำลองปริภูมิเวกเตอร์สามารถจำแนกประเภทคำตอบที่เป็นไปได้ ตรวจสอบว่าคำตอบนั้นเป็นประเภทที่ถูกต้องตามที่กำหนดไว้ในขั้นตอนการวิเคราะห์ประเภทคำถามหรือไม่ เทคนิคการอนุมานสามารถตรวจสอบความถูกต้องของคำตอบที่เป็นไปได้ จากนั้นจะมีการให้คะแนนแก่คำตอบแต่ละข้อตามจำนวนคำถามที่มีอยู่และความใกล้เคียงของคำเหล่านั้นกับคำตอบที่เป็นไปได้ ยิ่งมีคำมากและใกล้เคียงกันมากเท่าไหร่ก็ยิ่งดีเท่านั้น จากนั้นคำตอบจะถูกแปลโดยการแยกวิเคราะห์ให้เป็นรูปแบบที่กระชับและมีความหมาย ในตัวอย่างก่อนหน้านี้ คำตอบที่คาดหวังคือ "1st Oct."

คณิตศาสตร์

ระบบตอบคำถามทางคณิตศาสตร์แบบโอเพนซอร์สชื่อMathQAซึ่งใช้Ask PlatypusและWikidata เป็นพื้นฐาน ได้รับการเผยแพร่ในปี 2018 ^{[ 30 ]} MathQA รับคำถามภาษาอังกฤษหรือภาษาฮินดีเป็นอินพุต และส่งคืนสูตรทางคณิตศาสตร์ที่ดึงมาจาก Wikidata เป็นคำตอบที่กระชับ แปลเป็นรูปแบบที่คำนวณได้ ซึ่งอนุญาตให้ผู้ใช้ใส่ค่าสำหรับตัวแปร ระบบจะดึงชื่อและค่าของตัวแปรและค่าคงที่ทั่วไปจาก Wikidata หากมีอยู่ มีการอ้างว่าระบบนี้มีประสิทธิภาพเหนือกว่าเครื่องมือความรู้ทางคณิตศาสตร์เชิงพาณิชย์ในชุดทดสอบ^{[ 30 ]} MathQA โฮสต์โดย Wikimedia ที่https://mathqa.wmflabs.org/ในปี 2022 ได้มีการขยายให้ตอบคำถามทางคณิตศาสตร์ได้ 15 ประเภท^{[ 31 ]}

วิธีการของ MathQA จำเป็นต้องผสมผสานภาษาธรรมชาติและภาษาสูตรเข้าด้วยกัน แนวทางหนึ่งที่เป็นไปได้คือการทำการใส่คำอธิบายประกอบแบบมีผู้กำกับดูแลผ่านการเชื่อมโยงเอนทิตี “ARQMath Task” ในCLEF 2020 ^{[ 32 ]}เปิดตัวเพื่อแก้ไขปัญหาการเชื่อมโยงคำถามที่โพสต์ใหม่จากแพลตฟอร์ม Math Stack Exchangeกับคำถามที่มีอยู่ซึ่งชุมชนได้ตอบไปแล้ว การให้ไฮเปอร์ลิงก์ไปยังคำถามที่มีคำตอบแล้วและมีความหมายเกี่ยวข้องจะช่วยให้ผู้ใช้ได้รับคำตอบได้เร็วขึ้น แต่เป็นปัญหาที่ท้าทายเนื่องจากความสัมพันธ์ทางความหมายไม่ใช่เรื่องง่าย^{[ 33 ]}ห้องปฏิบัติการนี้ได้รับแรงบันดาลใจจากข้อเท็จจริงที่ว่า 20% ของคำถามทางคณิตศาสตร์ในเครื่องมือค้นหาทั่วไปนั้นแสดงออกมาในรูปแบบของคำถามที่มีรูปแบบที่ดี^{[ 34 ]}ความท้าทายนี้ประกอบด้วยงานย่อยสองงานแยกกัน งานที่ 1: “การดึงคำตอบ” ที่จับคู่คำตอบของโพสต์เก่ากับคำถามที่โพสต์ใหม่ และงานที่ 2: “การดึงสูตร” ที่จับคู่สูตรของโพสต์เก่ากับคำถามใหม่ เริ่มต้นด้วยขอบเขตของคณิตศาสตร์ซึ่งเกี่ยวข้องกับภาษาสูตร เป้าหมายคือการขยายงานไปยังขอบเขตอื่น ๆ ในภายหลัง (เช่น สาขาวิทยาศาสตร์ เทคโนโลยี วิศวกรรมศาสตร์ และคณิตศาสตร์ เช่น เคมี ชีววิทยา เป็นต้น) ซึ่งใช้สัญลักษณ์พิเศษประเภทอื่น ๆ (เช่น สูตรเคมี) ^{[ 32 ]}^{[ 33 ]}

งานวิจัยยังได้ทำการวิจัยเกี่ยวกับสิ่งที่ตรงกันข้ามกับการตอบคำถามทางคณิตศาสตร์ นั่นคือ การสร้างคำถามทางคณิตศาสตร์ เครื่องมือสร้างคำถามและทดสอบฟิสิกส์ PhysWikiQuiz จะดึงสูตรทางคณิตศาสตร์จาก Wikidata พร้อมกับข้อมูลเชิงความหมายเกี่ยวกับตัวระบุที่ประกอบขึ้นเป็นสูตรเหล่านั้น (ชื่อและค่าของตัวแปร) ^{[ 35 ]}จากนั้นสูตรเหล่านั้นจะถูกจัดเรียงใหม่เพื่อสร้างชุดของสูตรที่แตกต่างกัน ต่อมา ตัวแปรจะถูกแทนที่ด้วยค่าสุ่มเพื่อสร้างคำถามที่แตกต่างกันจำนวนมากซึ่งเหมาะสำหรับการทดสอบนักเรียนแต่ละคน

แอปพลิเคชัน

ระบบ QA ถูกนำไปใช้ในแอปพลิเคชันที่หลากหลาย รวมถึง:

การตรวจสอบข้อเท็จจริงหากข้อเท็จจริงนั้นได้รับการยืนยันแล้ว โดยการตั้งคำถามเช่น: ข้อเท็จจริงX เป็น จริงหรือเท็จ?
ฝ่ายบริการลูกค้า
ฝ่ายสนับสนุนด้านเทคนิค
การวิจัยตลาด
การสร้าง รายงานหรือผลการวิจัยด้วยภาษาธรรมชาติ

อ่านเพิ่มเติม

Dragomir R. Radev, John Prager และ Valerie Samn. การจัดอันดับคำตอบที่คาดการณ์ไว้สำหรับคำถามภาษาธรรมชาติโดยใช้การระบุคำอธิบายแบบทำนายเก็บถาวรเมื่อ 2011-08-26 ที่Wayback Machineในรายงานการประชุมวิชาการด้านการประมวลผลภาษาธรรมชาติประยุกต์ ครั้งที่ 6 เมืองซีแอตเติล รัฐวอชิงตัน พฤษภาคม 2000
John Prager, Eric Brown, Anni Coden และ Dragomir Radev. การตอบคำถามด้วยการระบุคำอธิบายแบบคาดการณ์ เก็บถาวรเมื่อ 2011-08-23 ที่Wayback Machineในรายงานการประชุม การประชุมวิชาการนานาชาติ ACM SIGIR ครั้งที่ 23 ว่าด้วยการวิจัยและพัฒนาด้านการค้นหาข้อมูล ณ กรุงเอเธนส์ ประเทศกรีซ เดือนกรกฎาคม 2000
ฮัทชินส์, ดับเบิลยู. จอห์น ; ฮาโรลด์ แอล. ซอมเมอร์ส (1992). บทนำสู่การแปลด้วยเครื่องจักร . ลอนดอน: สำนักพิมพ์ Academic Press. ISBN 978-0-12-362830-5.
L. Fortnow, Steve Homer (2002/2003). ประวัติย่อของความซับซ้อนในการคำนวณใน D. van Dalen, J. Dawson และ A. Kanamori บรรณาธิการ, ประวัติศาสตร์ของตรรกศาสตร์ทางคณิตศาสตร์ สำนัก พิมพ์ North-Holland, อัมสเตอร์ดัม
Tunstall, Lewis (5 กรกฎาคม 2022). การประมวลผลภาษาธรรมชาติด้วย Transformers: การสร้างแอปพลิเคชันภาษาด้วย Hugging Face (ฉบับที่ 2). O'Reilly UK Ltd. หน้า บทที่ 7. ISBN 978-1098136796.

ลิงก์ภายนอก

การประเมินการตอบคำถามที่ TREC
การประเมินการตอบคำถามที่ CLEF

ผล

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[

[

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 34 ]

[ 35 ]