อ่าน 4 นาที
การจำแนกประเภทเอกสาร
การจำแนกประเภทเอกสารหรือการจัดหมวดหมู่เอกสารเป็นปัญหาในสาขาบรรณารักษศาสตร์สารสนเทศศาสตร์และวิทยาการคอมพิวเตอร์งานนี้คือการกำหนดให้เอกสาร หนึ่งฉบับอยู่ใน...
การจำแนกประเภทเอกสาร
การจำแนกประเภทเอกสารหรือการจัดหมวดหมู่เอกสารเป็นปัญหาในสาขาบรรณารักษศาสตร์สารสนเทศศาสตร์และวิทยาการคอมพิวเตอร์งานนี้คือการกำหนดให้เอกสาร หนึ่งฉบับอยู่ใน กลุ่มหรือหมวดหมู่หนึ่งหรือมากกว่านั้นซึ่งอาจทำได้โดย "วิธีการด้วยตนเอง" (หรือ "วิธีการทางปัญญา") หรือโดยวิธีการทางอัลกอริทึม การจำแนกประเภทเอกสารด้วยวิธีการทางปัญญาเป็นงานหลักของบรรณารักษศาสตร์ ในขณะที่การจำแนกประเภทเอกสารด้วยวิธีการทางอัลกอริทึมส่วนใหญ่เป็นงานของสารสนเทศศาสตร์และวิทยาการคอมพิวเตอร์ อย่างไรก็ตาม ปัญหาเหล่านี้มีความเกี่ยวข้องกัน ดังนั้นจึงมีการวิจัยแบบสหวิทยาการเกี่ยวกับการจำแนกประเภทเอกสาร
เอกสารที่จะจัดประเภทอาจเป็นข้อความ รูปภาพ เพลง ฯลฯ เอกสารแต่ละประเภทมีปัญหาในการจัดประเภทเฉพาะของตนเอง หากไม่ได้ระบุไว้เป็นอย่างอื่นการจัดประเภทข้อความจะหมายความโดยปริยาย
เอกสารอาจถูกจัดประเภทตามหัวเรื่องหรือตามคุณลักษณะอื่นๆ (เช่น ประเภทเอกสาร ผู้เขียน ปีที่พิมพ์ เป็นต้น) ในบทความนี้จะกล่าวถึงเฉพาะการจัดประเภทตามหัวเรื่องเท่านั้น มีหลักการสำคัญสองประการในการจัดประเภทเอกสารตามหัวเรื่อง ได้แก่ แนวทางที่อิงตามเนื้อหา และแนวทางที่อิงตามคำขอ
การจำแนกประเภท "ตามเนื้อหา" เทียบกับการจำแนกประเภท "ตามคำขอ"
การจัดประเภทตามเนื้อหาคือการจัดประเภทที่น้ำหนักที่กำหนดให้กับหัวข้อเฉพาะในเอกสารจะเป็นตัวกำหนดชั้นที่เอกสารนั้นถูกจัดไว้ ตัวอย่างเช่น เป็นกฎทั่วไปสำหรับการจัดประเภทในห้องสมุดว่าอย่างน้อย 20% ของเนื้อหาของหนังสือควรเกี่ยวกับชั้นที่หนังสือนั้นถูกจัดไว้[ 1 ]ในการจัดประเภทอัตโนมัติ อาจเป็นจำนวนครั้งที่คำที่กำหนดปรากฏในเอกสาร
การจำแนกประเภท (หรือ -ดัชนี) ที่มุ่งเน้นคำขอคือการจำแนกประเภทที่คำขอที่คาดการณ์ไว้จากผู้ใช้มีอิทธิพลต่อวิธีการจำแนกเอกสาร ผู้จำแนกประเภทจะถามตัวเองว่า “ควรพบเอนทิตีนี้ภายใต้คำอธิบายใด” และ “ลองนึกถึงคำถามที่เป็นไปได้ทั้งหมดและตัดสินใจว่าเอนทิตีที่อยู่ในมือมีความเกี่ยวข้องกับคำถามใดบ้าง” (Soergel, 1985, หน้า 230 [ 2 ] )
การจัดหมวดหมู่ตามความต้องการอาจเป็นการจัดหมวดหมู่ที่มุ่งเป้าไปที่กลุ่มเป้าหมายหรือกลุ่มผู้ใช้เฉพาะกลุ่ม ตัวอย่างเช่น ห้องสมุดหรือฐานข้อมูลด้านสตรีศึกษาอาจจัดหมวดหมู่/จัดทำดัชนีเอกสารแตกต่างจากห้องสมุดประวัติศาสตร์ อย่างไรก็ตาม อาจจะดีกว่าหากเข้าใจการจัดหมวดหมู่ตามความต้องการว่าเป็นการจัดหมวดหมู่ตามนโยบาย กล่าว คือ การจัดหมวดหมู่ทำตามอุดมคติบางอย่างและสะท้อนถึงวัตถุประสงค์ของห้องสมุดหรือฐานข้อมูลที่ทำการจัดหมวดหมู่ ในลักษณะนี้จึงไม่จำเป็นต้องเป็นการจัดหมวดหมู่หรือการจัดทำดัชนีที่อิงจากการศึกษาผู้ใช้ การจัดหมวดหมู่ตามความต้องการจะถือว่าเป็นแนวทางที่อิงผู้ใช้ก็ต่อเมื่อมีการนำข้อมูลเชิงประจักษ์เกี่ยวกับการใช้งานหรือผู้ใช้มาใช้เท่านั้น
การจำแนกประเภทเทียบกับการจัดทำดัชนี
บางครั้งมีการแบ่งแยกความแตกต่างระหว่างการกำหนดเอกสารให้กับชั้นเรียน ("การจำแนกประเภท") กับการกำหนดหัวข้อให้กับเอกสาร (" การจัดทำดัชนีหัวข้อ ") แต่ดังที่Frederick Wilfrid Lancasterได้โต้แย้งไว้ การแบ่งแยกนี้ไม่มีประโยชน์ “การแบ่งแยกทางศัพท์เหล่านี้” เขาเขียน “ไม่มีความหมายและมีแต่จะทำให้เกิดความสับสน” (Lancaster, 2003, หน้า 21 [ 3 ] ) มุมมองที่ว่าการแบ่งแยกนี้เป็นเพียงผิวเผินยังได้รับการสนับสนุนจากข้อเท็จจริงที่ว่าระบบการจำแนกประเภทอาจถูกแปลงเป็นพจนานุกรมศัพท์พ้องความหมายและในทางกลับกัน (ดู Aitchison, 1986, [ 4 ] 2004; [ 5 ] Broughton, 2008; [ 6 ] Riesthuis & Bliedung, 1991 [ 7 ] ) ดังนั้น การกำหนดหัวเรื่องให้กับเอกสารในดัชนี จึงเทียบเท่ากับการกำหนดเอกสารนั้นให้อยู่ในกลุ่มเอกสารที่จัดทำดัชนีโดยหัวเรื่องนั้น (เอกสารทั้งหมดที่จัดทำดัชนีหรือจัดประเภทเป็น X จะอยู่ในกลุ่มเอกสารเดียวกัน)
การจำแนกประเภทเอกสารอัตโนมัติ (ADC)
งานจำแนกเอกสารอัตโนมัติสามารถแบ่งออกได้เป็น 3 ประเภท ได้แก่การจำแนกเอกสารแบบมีผู้กำกับดูแล โดยที่กลไกภายนอกบางอย่าง (เช่น ข้อเสนอแนะจากมนุษย์) ให้ข้อมูลเกี่ยวกับการจำแนกเอกสารที่ถูกต้องการจำแนกเอกสารแบบไม่มีผู้ กำกับดูแล (หรือที่เรียกว่าการจัดกลุ่มเอกสาร ) ซึ่งการจำแนกจะต้องทำโดยไม่ต้องอ้างอิงถึงข้อมูลภายนอก และการจำแนกเอกสารแบบกึ่งมีผู้กำกับดูแล[ 8 ]โดยที่บางส่วนของเอกสารจะถูกติดป้ายกำกับโดยกลไกภายนอก มีผลิตภัณฑ์ซอฟต์แวร์หลายรายการภายใต้รูปแบบใบอนุญาตต่างๆ ให้เลือก[ 9 ] [ 10 ] [ 11 ] [ 12 ] [ 13 ] [ 14 ]
เทคนิค
เทคนิคการจำแนกประเภทเอกสารอัตโนมัติ ได้แก่:
- เครือข่ายประสาทเทียม
- การขุดค้นแนวคิด
- แผนผังการตัดสินใจเช่นID3หรือC4.5
- การเพิ่มความคาดหวังสูงสุด (EM)
- เครือข่ายประสาทเทียมที่ได้รับการฝึกฝนแบบทันที
- การจัดทำดัชนีความหมายแฝง
- การเรียนรู้แบบหลายอินสแตนซ์
- ตัวจำแนกแบบ Naive Bayes
- แนวทางการประมวลผลภาษาธรรมชาติ
- ตัวจำแนกประเภทตามเซตแบบหยาบ
- ตัวจำแนกประเภทแบบเซตอ่อน
- เครื่องสนับสนุนเวกเตอร์ (SVM)
- อัลกอริทึมเพื่อนบ้านใกล้ที่สุด K ตัว
- tf–idf
แอปพลิเคชัน
เทคนิคการจำแนกประเภทได้ถูกนำมาใช้กับ
- การกรองสแปมคือกระบวนการที่พยายามแยกแยะ ข้อความ อีเมลสแปมออกจากอีเมลที่ถูกต้อง
- การกำหนดเส้นทางอีเมลการส่งอีเมลที่ส่งไปยังที่อยู่ทั่วไปไปยังที่อยู่หรือกล่องจดหมายเฉพาะเจาะจงขึ้นอยู่กับหัวข้อ[ 15 ]
- การระบุภาษาโดยจะกำหนดภาษาของข้อความโดยอัตโนมัติ
- การจำแนกประเภทแนววรรณกรรม กำหนดแนววรรณกรรมของข้อความโดยอัตโนมัติ[ 16 ]
- การประเมินความอ่านง่ายคือ การกำหนดระดับความอ่านง่ายของข้อความโดยอัตโนมัติ เพื่อค้นหาสื่อที่เหมาะสมสำหรับกลุ่มอายุหรือประเภทผู้อ่านที่แตกต่างกัน หรือเป็นส่วนหนึ่งของระบบการลดความซับซ้อนของข้อความ ที่ใหญ่กว่า
- การวิเคราะห์ความรู้สึกคือ การพิจารณาทัศนคติของผู้พูดหรือผู้เขียนที่มีต่อหัวข้อใดหัวข้อหนึ่ง หรือพิจารณาขั้วทางบริบทโดยรวมของเอกสาร
- การจำแนกประเภทที่เกี่ยวข้องกับสุขภาพโดยใช้สื่อสังคมออนไลน์ในการเฝ้าระวังสาธารณสุข[ 17 ]
- การคัดกรองบทความ การเลือกบทความที่เกี่ยวข้องกับการคัดกรองวรรณกรรมด้วยตนเอง เช่น การดำเนินการเป็นขั้นตอนแรกในการสร้างฐานข้อมูลคำอธิบายประกอบที่คัดกรองด้วยตนเองในสาขาชีววิทยา[ 18 ]
ดูเพิ่มเติม
อ่านเพิ่มเติม
- Fabrizio Sebastiani. การเรียนรู้ของเครื่องในการจัดหมวดหมู่ข้อความอัตโนมัติ ACM Computing Surveys, 34(1):1–47, 2002.
- Stefan Büttcher, Charles LA Clarke และ Gordon V. Cormack. การค้นหาข้อมูล: การนำไปใช้และการประเมินเครื่องมือค้นหา . สำนักพิมพ์ MIT, 2010. เก็บถาวรเมื่อ 2020-10-05 ที่Wayback Machine .
ลิงก์ภายนอก
- บทนำเกี่ยวกับการจำแนกประเภทเอกสาร
- บรรณานุกรมเกี่ยวกับการจัดหมวดหมู่ข้อความอัตโนมัติเก็บถาวรเมื่อวันที่ 26 กันยายน 2019 ที่Wayback Machine
- บรรณานุกรมเกี่ยวกับการจำแนกประเภทคำค้น ( เก็บถาวรเมื่อ 2 ตุลาคม 2019 ที่Wayback Machine)
- หน้าวิเคราะห์การจำแนกประเภทข้อความ
- การเรียนรู้การจำแนกประเภทข้อความ - บทที่ 6 จากหนังสือ การประมวลผลภาษาธรรมชาติด้วย Python (มีให้ดาวน์โหลดออนไลน์)
- TechTC - คลังข้อมูลการจัดหมวดหมู่ข้อความของ Technion ถูกเก็บถาวรเมื่อวันที่ 14 กุมภาพันธ์ 2020 ที่Wayback Machine
- ชุดข้อมูลของเดวิด ดี. ลูอิส
- ชุดข้อมูล BioCreative III ACT (งานจำแนกประเภทบทความ)
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การจำแนกประเภทเอกสาร
การจำแนกประเภทเอกสารหรือการจัดหมวดหมู่เอกสารเป็นปัญหาในสาขาบรรณารักษศาสตร์สารสนเทศศาสตร์และวิทยาการคอมพิวเตอร์งานนี้คือการกำหนดให้เอกสาร หนึ่งฉบับอยู่ใน...
การจำแนกประเภท "ตามเนื้อหา" เทียบกับการจำแนกประเภท "ตามคำขอ"
การจัดประเภทตามเนื้อหา คือการจัดประเภทที่น้ำหนักที่กำหนดให้กับหัวข้อเฉพาะในเอกสารจะเป็นตัวกำหนดชั้นที่เอกสารนั้นถูกจัดไว้ ตัวอย่างเช่น เป็นกฎทั่วไปสำหรับการจัดประเภทในห้องสมุดว่าอย่างน้อย 20% ของเนื้อหาของหนังสือควรเกี่ยวกับชั้นที่หนังสือนั้นถูกจัดไว้ [ 1 ]...
การจำแนกประเภทเทียบกับการจัดทำดัชนี
บางครั้งมีการแบ่งแยกความแตกต่างระหว่างการกำหนดเอกสารให้กับชั้นเรียน ("การจำแนกประเภท") กับการกำหนด หัวข้อ ให้กับเอกสาร (" การจัดทำดัชนีหัวข้อ ") แต่ดังที่ Frederick Wilfrid Lancaster ได้โต้แย้งไว้ การแบ่งแยกนี้ไม่มีประโยชน์ “การแบ่งแยกทางศัพท์เหล่านี้”...
การจำแนกประเภทเอกสารอัตโนมัติ (ADC)
งานจำแนกเอกสารอัตโนมัติสามารถแบ่งออกได้เป็น 3 ประเภท ได้แก่ การจำแนกเอกสารแบบมีผู้กำกับดูแล โดย ที่กลไกภายนอกบางอย่าง (เช่น ข้อเสนอแนะจากมนุษย์) ให้ข้อมูลเกี่ยวกับการจำแนกเอกสารที่ถูกต้อง การจำแนกเอกสารแบบไม่มีผู้ กำกับดูแล (หรือที่เรียกว่า การจัดกลุ่มเอกสาร...