กลับไปหน้าบทความ

อ่าน 4 นาที

การจำแนกประเภทเอกสาร

การจำแนกประเภทเอกสารหรือการจัดหมวดหมู่เอกสารเป็นปัญหาในสาขาบรรณารักษศาสตร์สารสนเทศศาสตร์และวิทยาการคอมพิวเตอร์งานนี้คือการกำหนดให้เอกสาร หนึ่งฉบับอยู่ใน...

การจำแนกประเภทเอกสาร

การจำแนกประเภทเอกสารหรือการจัดหมวดหมู่เอกสารเป็นปัญหาในสาขาบรรณารักษศาสตร์สารสนเทศศาสตร์และวิทยาการคอมพิวเตอร์งานนี้คือการกำหนดให้เอกสาร หนึ่งฉบับอยู่ใน กลุ่มหรือหมวดหมู่หนึ่งหรือมากกว่านั้นซึ่งอาจทำได้โดย "วิธีการด้วยตนเอง" (หรือ "วิธีการทางปัญญา") หรือโดยวิธีการทางอัลกอริทึม การจำแนกประเภทเอกสารด้วยวิธีการทางปัญญาเป็นงานหลักของบรรณารักษศาสตร์ ในขณะที่การจำแนกประเภทเอกสารด้วยวิธีการทางอัลกอริทึมส่วนใหญ่เป็นงานของสารสนเทศศาสตร์และวิทยาการคอมพิวเตอร์ อย่างไรก็ตาม ปัญหาเหล่านี้มีความเกี่ยวข้องกัน ดังนั้นจึงมีการวิจัยแบบสหวิทยาการเกี่ยวกับการจำแนกประเภทเอกสาร

เอกสารที่จะจัดประเภทอาจเป็นข้อความ รูปภาพ เพลง ฯลฯ เอกสารแต่ละประเภทมีปัญหาในการจัดประเภทเฉพาะของตนเอง หากไม่ได้ระบุไว้เป็นอย่างอื่นการจัดประเภทข้อความจะหมายความโดยปริยาย

เอกสารอาจถูกจัดประเภทตามหัวเรื่องหรือตามคุณลักษณะอื่นๆ (เช่น ประเภทเอกสาร ผู้เขียน ปีที่พิมพ์ เป็นต้น) ในบทความนี้จะกล่าวถึงเฉพาะการจัดประเภทตามหัวเรื่องเท่านั้น มีหลักการสำคัญสองประการในการจัดประเภทเอกสารตามหัวเรื่อง ได้แก่ แนวทางที่อิงตามเนื้อหา และแนวทางที่อิงตามคำขอ

การจำแนกประเภท "ตามเนื้อหา" เทียบกับการจำแนกประเภท "ตามคำขอ"

การจัดประเภทตามเนื้อหาคือการจัดประเภทที่น้ำหนักที่กำหนดให้กับหัวข้อเฉพาะในเอกสารจะเป็นตัวกำหนดชั้นที่เอกสารนั้นถูกจัดไว้ ตัวอย่างเช่น เป็นกฎทั่วไปสำหรับการจัดประเภทในห้องสมุดว่าอย่างน้อย 20% ของเนื้อหาของหนังสือควรเกี่ยวกับชั้นที่หนังสือนั้นถูกจัดไว้[ 1 ]ในการจัดประเภทอัตโนมัติ อาจเป็นจำนวนครั้งที่คำที่กำหนดปรากฏในเอกสาร

การจำแนกประเภท (หรือ -ดัชนี) ที่มุ่งเน้นคำขอคือการจำแนกประเภทที่คำขอที่คาดการณ์ไว้จากผู้ใช้มีอิทธิพลต่อวิธีการจำแนกเอกสาร ผู้จำแนกประเภทจะถามตัวเองว่า “ควรพบเอนทิตีนี้ภายใต้คำอธิบายใด” และ “ลองนึกถึงคำถามที่เป็นไปได้ทั้งหมดและตัดสินใจว่าเอนทิตีที่อยู่ในมือมีความเกี่ยวข้องกับคำถามใดบ้าง” (Soergel, 1985, หน้า 230 [ 2 ] )

การจัดหมวดหมู่ตามความต้องการอาจเป็นการจัดหมวดหมู่ที่มุ่งเป้าไปที่กลุ่มเป้าหมายหรือกลุ่มผู้ใช้เฉพาะกลุ่ม ตัวอย่างเช่น ห้องสมุดหรือฐานข้อมูลด้านสตรีศึกษาอาจจัดหมวดหมู่/จัดทำดัชนีเอกสารแตกต่างจากห้องสมุดประวัติศาสตร์ อย่างไรก็ตาม อาจจะดีกว่าหากเข้าใจการจัดหมวดหมู่ตามความต้องการว่าเป็นการจัดหมวดหมู่ตามนโยบาย กล่าว คือ การจัดหมวดหมู่ทำตามอุดมคติบางอย่างและสะท้อนถึงวัตถุประสงค์ของห้องสมุดหรือฐานข้อมูลที่ทำการจัดหมวดหมู่ ในลักษณะนี้จึงไม่จำเป็นต้องเป็นการจัดหมวดหมู่หรือการจัดทำดัชนีที่อิงจากการศึกษาผู้ใช้ การจัดหมวดหมู่ตามความต้องการจะถือว่าเป็นแนวทางที่อิงผู้ใช้ก็ต่อเมื่อมีการนำข้อมูลเชิงประจักษ์เกี่ยวกับการใช้งานหรือผู้ใช้มาใช้เท่านั้น

การจำแนกประเภทเทียบกับการจัดทำดัชนี

บางครั้งมีการแบ่งแยกความแตกต่างระหว่างการกำหนดเอกสารให้กับชั้นเรียน ("การจำแนกประเภท") กับการกำหนดหัวข้อให้กับเอกสาร (" การจัดทำดัชนีหัวข้อ ") แต่ดังที่Frederick Wilfrid Lancasterได้โต้แย้งไว้ การแบ่งแยกนี้ไม่มีประโยชน์ “การแบ่งแยกทางศัพท์เหล่านี้” เขาเขียน “ไม่มีความหมายและมีแต่จะทำให้เกิดความสับสน” (Lancaster, 2003, หน้า 21 [ 3 ] ) มุมมองที่ว่าการแบ่งแยกนี้เป็นเพียงผิวเผินยังได้รับการสนับสนุนจากข้อเท็จจริงที่ว่าระบบการจำแนกประเภทอาจถูกแปลงเป็นพจนานุกรมศัพท์พ้องความหมายและในทางกลับกัน (ดู Aitchison, 1986, [ 4 ] 2004; [ 5 ] Broughton, 2008; [ 6 ] Riesthuis & Bliedung, 1991 [ 7 ] ) ดังนั้น การกำหนดหัวเรื่องให้กับเอกสารในดัชนี จึงเทียบเท่ากับการกำหนดเอกสารนั้นให้อยู่ในกลุ่มเอกสารที่จัดทำดัชนีโดยหัวเรื่องนั้น (เอกสารทั้งหมดที่จัดทำดัชนีหรือจัดประเภทเป็น X จะอยู่ในกลุ่มเอกสารเดียวกัน)

การจำแนกประเภทเอกสารอัตโนมัติ (ADC)

งานจำแนกเอกสารอัตโนมัติสามารถแบ่งออกได้เป็น 3 ประเภท ได้แก่การจำแนกเอกสารแบบมีผู้กำกับดูแล โดยที่กลไกภายนอกบางอย่าง (เช่น ข้อเสนอแนะจากมนุษย์) ให้ข้อมูลเกี่ยวกับการจำแนกเอกสารที่ถูกต้องการจำแนกเอกสารแบบไม่มีผู้ กำกับดูแล (หรือที่เรียกว่าการจัดกลุ่มเอกสาร ) ซึ่งการจำแนกจะต้องทำโดยไม่ต้องอ้างอิงถึงข้อมูลภายนอก และการจำแนกเอกสารแบบกึ่งมีผู้กำกับดูแล[ 8 ]โดยที่บางส่วนของเอกสารจะถูกติดป้ายกำกับโดยกลไกภายนอก มีผลิตภัณฑ์ซอฟต์แวร์หลายรายการภายใต้รูปแบบใบอนุญาตต่างๆ ให้เลือก[ 9 ] [ 10 ] [ 11 ] [ 12 ] [ 13 ] [ 14 ]

เทคนิค

เทคนิคการจำแนกประเภทเอกสารอัตโนมัติ ได้แก่:

แอปพลิเคชัน

เทคนิคการจำแนกประเภทได้ถูกนำมาใช้กับ

  • การกรองสแปมคือกระบวนการที่พยายามแยกแยะ ข้อความ อีเมลสแปมออกจากอีเมลที่ถูกต้อง
  • การกำหนดเส้นทางอีเมลการส่งอีเมลที่ส่งไปยังที่อยู่ทั่วไปไปยังที่อยู่หรือกล่องจดหมายเฉพาะเจาะจงขึ้นอยู่กับหัวข้อ[ 15 ]
  • การระบุภาษาโดยจะกำหนดภาษาของข้อความโดยอัตโนมัติ
  • การจำแนกประเภทแนววรรณกรรม กำหนดแนววรรณกรรมของข้อความโดยอัตโนมัติ[ 16 ]
  • การประเมินความอ่านง่ายคือ การกำหนดระดับความอ่านง่ายของข้อความโดยอัตโนมัติ เพื่อค้นหาสื่อที่เหมาะสมสำหรับกลุ่มอายุหรือประเภทผู้อ่านที่แตกต่างกัน หรือเป็นส่วนหนึ่งของระบบการลดความซับซ้อนของข้อความ ที่ใหญ่กว่า
  • การวิเคราะห์ความรู้สึกคือ การพิจารณาทัศนคติของผู้พูดหรือผู้เขียนที่มีต่อหัวข้อใดหัวข้อหนึ่ง หรือพิจารณาขั้วทางบริบทโดยรวมของเอกสาร
  • การจำแนกประเภทที่เกี่ยวข้องกับสุขภาพโดยใช้สื่อสังคมออนไลน์ในการเฝ้าระวังสาธารณสุข[ 17 ]
  • การคัดกรองบทความ การเลือกบทความที่เกี่ยวข้องกับการคัดกรองวรรณกรรมด้วยตนเอง เช่น การดำเนินการเป็นขั้นตอนแรกในการสร้างฐานข้อมูลคำอธิบายประกอบที่คัดกรองด้วยตนเองในสาขาชีววิทยา[ 18 ]

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Fabrizio Sebastiani. การเรียนรู้ของเครื่องในการจัดหมวดหมู่ข้อความอัตโนมัติ ACM Computing Surveys, 34(1):1–47, 2002.
  • Stefan Büttcher, Charles LA Clarke และ Gordon V. Cormack. การค้นหาข้อมูล: การนำไปใช้และการประเมินเครื่องมือค้นหา . สำนักพิมพ์ MIT, 2010. เก็บถาวรเมื่อ 2020-10-05 ที่Wayback Machine .
  • บทนำเกี่ยวกับการจำแนกประเภทเอกสาร
  • บรรณานุกรมเกี่ยวกับการจัดหมวดหมู่ข้อความอัตโนมัติเก็บถาวรเมื่อวันที่ 26 กันยายน 2019 ที่Wayback Machine
  • บรรณานุกรมเกี่ยวกับการจำแนกประเภทคำค้น ( เก็บถาวรเมื่อ 2 ตุลาคม 2019 ที่Wayback Machine)
  • หน้าวิเคราะห์การจำแนกประเภทข้อความ
  • การเรียนรู้การจำแนกประเภทข้อความ - บทที่ 6 จากหนังสือ การประมวลผลภาษาธรรมชาติด้วย Python (มีให้ดาวน์โหลดออนไลน์)
  • TechTC - คลังข้อมูลการจัดหมวดหมู่ข้อความของ Technion ถูกเก็บถาวรเมื่อวันที่ 14 กุมภาพันธ์ 2020 ที่Wayback Machine
  • ชุดข้อมูลของเดวิด ดี. ลูอิส
  • ชุดข้อมูล BioCreative III ACT (งานจำแนกประเภทบทความ)
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Document_classification&oldid=1332228383 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การจำแนกประเภทเอกสาร

การจำแนกประเภทเอกสารหรือการจัดหมวดหมู่เอกสารเป็นปัญหาในสาขาบรรณารักษศาสตร์สารสนเทศศาสตร์และวิทยาการคอมพิวเตอร์งานนี้คือการกำหนดให้เอกสาร หนึ่งฉบับอยู่ใน...

การจำแนกประเภท "ตามเนื้อหา" เทียบกับการจำแนกประเภท "ตามคำขอ"

การจัดประเภทตามเนื้อหา คือการจัดประเภทที่น้ำหนักที่กำหนดให้กับหัวข้อเฉพาะในเอกสารจะเป็นตัวกำหนดชั้นที่เอกสารนั้นถูกจัดไว้ ตัวอย่างเช่น เป็นกฎทั่วไปสำหรับการจัดประเภทในห้องสมุดว่าอย่างน้อย 20% ของเนื้อหาของหนังสือควรเกี่ยวกับชั้นที่หนังสือนั้นถูกจัดไว้ [ 1 ]...

การจำแนกประเภทเทียบกับการจัดทำดัชนี

บางครั้งมีการแบ่งแยกความแตกต่างระหว่างการกำหนดเอกสารให้กับชั้นเรียน ("การจำแนกประเภท") กับการกำหนด หัวข้อ ให้กับเอกสาร (" การจัดทำดัชนีหัวข้อ ") แต่ดังที่ Frederick Wilfrid Lancaster ได้โต้แย้งไว้ การแบ่งแยกนี้ไม่มีประโยชน์ “การแบ่งแยกทางศัพท์เหล่านี้”...

การจำแนกประเภทเอกสารอัตโนมัติ (ADC)

งานจำแนกเอกสารอัตโนมัติสามารถแบ่งออกได้เป็น 3 ประเภท ได้แก่ การจำแนกเอกสารแบบมีผู้กำกับดูแล โดย ที่กลไกภายนอกบางอย่าง (เช่น ข้อเสนอแนะจากมนุษย์) ให้ข้อมูลเกี่ยวกับการจำแนกเอกสารที่ถูกต้อง การจำแนกเอกสารแบบไม่มีผู้ กำกับดูแล (หรือที่เรียกว่า การจัดกลุ่มเอกสาร...