กลับไปหน้าบทความ

อ่าน 2 นาที

การจำแนกประเภทคำค้นหาบนเว็บ

การจำแนก/จัดหมวดหมู่หัวข้อการค้นหาบนเว็บ เป็นปัญหาหนึ่งใน วิทยาศาสตร์สารสนเทศ งานนี้คือการกำหนด คำค้นหาบนเว็บ ให้กับ หมวดหมู่ ที่กำหนดไว้ล่วงหน้าอย่างน้อยหนึ่ง หมวด หมู่...

การจำแนกประเภทคำค้นหาบนเว็บ

การจำแนก/จัดหมวดหมู่หัวข้อการค้นหาบนเว็บเป็นปัญหาหนึ่งในวิทยาศาสตร์สารสนเทศงานนี้คือการกำหนดคำค้นหาบนเว็บ ให้กับ หมวดหมู่ที่กำหนดไว้ล่วงหน้าอย่างน้อยหนึ่ง หมวด หมู่ โดยพิจารณาจากหัวข้อของคำค้นหา ความสำคัญของการจำแนกคำค้นหาได้รับการเน้นย้ำจากบริการมากมายที่ให้บริการโดยการค้นหาบนเว็บ การประยุกต์ใช้โดยตรงคือการแสดงหน้าผลการค้นหาที่ดีขึ้นสำหรับผู้ใช้ที่มีความสนใจในหมวดหมู่ที่แตกต่างกัน ตัวอย่างเช่น ผู้ใช้ที่ป้อนคำค้นหาบนเว็บเช่น "แอปเปิล" อาจคาดหวังที่จะเห็นหน้าเว็บที่เกี่ยวข้องกับผลไม้แอปเปิล หรือพวกเขาอาจต้องการเห็นผลิตภัณฑ์หรือข่าวสารที่เกี่ยวข้องกับบริษัทคอมพิวเตอร์ บริการโฆษณาออนไลน์สามารถใช้ผลลัพธ์การจำแนกคำค้นหาเพื่อส่งเสริมผลิตภัณฑ์ต่างๆ ได้อย่างแม่นยำยิ่งขึ้น หน้าผลการค้นหาสามารถจัดกลุ่มได้ตามหมวดหมู่ที่คาดการณ์โดยอัลกอริทึมการจำแนกคำค้นหา อย่างไรก็ตาม การคำนวณการจำแนกคำค้นหานั้นไม่ใช่เรื่องง่าย แตกต่างจาก งาน การจำแนกเอกสารคำค้นหาที่ผู้ใช้การค้นหาบนเว็บส่งมามักจะสั้นและคลุมเครือ นอกจากนี้ความหมายของคำค้นหายังเปลี่ยนแปลงไปตามเวลา ดังนั้นการจำแนกหัวข้อคำค้นหาจึงยากกว่างานการจำแนกเอกสารแบบดั้งเดิมมาก

ความยากลำบาก

การจำแนกประเภทหัวข้อการค้นหาบนเว็บ คือการกำหนดคำค้นหาให้กับหมวดหมู่ที่กำหนดไว้ล่วงหน้าโดยอัตโนมัติ ซึ่งแตกต่างจากงานจำแนกประเภทเอกสารแบบดั้งเดิม มีอุปสรรคสำคัญหลายประการที่ขัดขวางความก้าวหน้าในการทำความเข้าใจการค้นหา บนเว็บ :

สร้างรูปแบบการแสดงคุณลักษณะที่เหมาะสมสำหรับคำค้นหาบนเว็บ

คำค้นหาจำนวนมากมีขนาดสั้น และเงื่อนไขการค้นหามักไม่ชัดเจน ตัวอย่างเช่น ในชุดข้อมูล KDDCUP 2005 คำค้นหาที่มี 3 คำเป็นคำค้นหาที่พบบ่อยที่สุด (22%) นอกจากนี้ 79% ของคำค้นหาประกอบด้วยคำไม่เกิน 4 คำ คำค้นหาของผู้ใช้มักมีความหมายหลายอย่าง ตัวอย่างเช่น "apple" อาจหมายถึงผลไม้ชนิดหนึ่งหรือบริษัทคอมพิวเตอร์ ในขณะที่ "Java" อาจหมายถึงภาษาโปรแกรมหรือเกาะแห่งหนึ่งในอินโดนีเซีย ในชุดข้อมูล KDDCUP 2005 คำค้นหาส่วนใหญ่มีความหมายมากกว่าหนึ่งความหมาย ดังนั้น การใช้เพียงคำหลักของคำค้นหาเพื่อสร้างแบบจำลองพื้นที่เวกเตอร์สำหรับการจำแนกประเภทจึงไม่เหมาะสม

วิธีการเสริมข้อมูลคำค้นหา[ 1 ] [ 2 ]เริ่มต้นด้วยการเสริมข้อมูลคำค้นหาของผู้ใช้ไปยังชุดเอกสารข้อความผ่านเครื่องมือค้นหาดังนั้น คำค้นหาแต่ละคำจะถูกแทนด้วยเอกสารเสมือนซึ่งประกอบด้วยส่วนย่อยของหน้าผลลัพธ์ที่มีอันดับสูงสุดที่ดึงมาจากเครื่องมือค้นหา ต่อมา เอกสารข้อความจะถูกจัดประเภทเป็นหมวดหมู่เป้าหมายโดยใช้ตัวจำแนกตามคำพ้องความหมายหรือตัวจำแนกทางสถิติ เช่นNaive Bayes (NB) และSupport Vector Machines (SVMs)

การปรับตัวให้เข้ากับการเปลี่ยนแปลงของคำค้นหาและหมวดหมู่เมื่อเวลาผ่านไป

ความหมายของคำค้นหาอาจเปลี่ยนแปลงไปตามกาลเวลา ดังนั้น คำค้นหาฝึกอบรมที่มีป้ายกำกับแบบเก่าอาจล้าสมัยและไร้ประโยชน์ในไม่ช้า การทำให้ตัวจำแนกประเภทสามารถปรับตัวได้ตามกาลเวลาจึงกลายเป็นประเด็นสำคัญ ตัวอย่างเช่น คำว่า " Barcelona " มีความหมายใหม่ว่า ไมโครโปรเซสเซอร์รุ่นใหม่ของ AMD ในขณะที่ก่อนปี 2007 คำนี้หมายถึงเมืองหรือสโมสรฟุตบอล ดังนั้น การกระจายความหมายของคำนี้จึงเป็นฟังก์ชันของเวลาบนเว็บ

วิธีการจัดหมวดหมู่ระดับกลาง[ 3 ]จะสร้างตัวจำแนกเชื่อมโยงบนการจัดหมวดหมู่ระดับกลาง เช่นOpen Directory Project (ODP) ในโหมดออฟไลน์ก่อน จากนั้นจะใช้ตัวจำแนกนี้ในโหมดออนไลน์เพื่อแมปคำค้นหาของผู้ใช้ไปยังหมวดหมู่เป้าหมายผ่านการจัดหมวดหมู่ระดับกลาง ข้อดีของวิธีการนี้คือตัวจำแนกเชื่อมโยงจำเป็นต้องได้รับการฝึกฝนเพียงครั้งเดียวและปรับตัวได้สำหรับชุดหมวดหมู่เป้าหมายและคำค้นหาขาเข้าชุดใหม่แต่ละชุด

ใช้บันทึกการค้นหาที่ไม่มีป้ายกำกับเพื่อช่วยในการจำแนกประเภทการค้นหา

เนื่องจากข้อมูลฝึกฝนที่ติดป้ายกำกับด้วยตนเองสำหรับการจำแนกประเภทคำค้นหามีราคาแพง วิธีการใช้บันทึกคำค้นหาขนาดใหญ่จากเครื่องมือค้นหาบนเว็บเป็นแหล่งข้อมูลที่ไม่ติดป้ายกำกับเพื่อช่วยในการจำแนกประเภทคำค้นหาอัตโนมัติจึงกลายเป็นประเด็นร้อน บันทึกเหล่านี้บันทึกพฤติกรรมของผู้ใช้เว็บเมื่อพวกเขาค้นหาข้อมูลผ่านเครื่องมือค้นหา ตลอดหลายปีที่ผ่านมา บันทึกคำค้นหาได้กลายเป็นแหล่งข้อมูลอันทรงคุณค่าซึ่งประกอบด้วยความรู้ของผู้ใช้เว็บเกี่ยวกับเวิลด์ไวด์เว็บ

วิธีการจัดกลุ่มคำค้นหา[ 4 ]พยายามเชื่อมโยงคำค้นหาที่เกี่ยวข้องโดยการจัดกลุ่ม "ข้อมูลเซสชัน" ซึ่งประกอบด้วยคำค้นหาหลายรายการและข้อมูลการคลิกผ่านจากการโต้ตอบของผู้ใช้รายเดียว โดยคำนึงถึงคำจากเอกสารผลลัพธ์ที่ชุดคำค้นหามีร่วมกัน การใช้คำหลักของคำค้นหาร่วมกับข้อมูลเซสชันแสดงให้เห็นว่าเป็นวิธีที่มีประสิทธิภาพที่สุดในการดำเนินการจัดกลุ่มคำค้นหา

วิธีการตามความชอบในการเลือก[ 5 ]พยายามใช้กฎความสัมพันธ์ บางอย่าง ระหว่างคำค้นหาเพื่อช่วยในการจำแนกประเภทคำค้นหา โดยใช้ข้อมูลการฝึกอบรม พวกเขาใช้แนวทางการจำแนกประเภทหลายวิธี รวมถึงการจับคู่ที่ตรงกันโดยใช้ข้อมูลที่มีป้ายกำกับ การจับคู่ N-Gram โดยใช้ข้อมูลที่มีป้ายกำกับ และตัวจำแนกประเภทตามการรับรู้ พวกเขาเน้นย้ำถึงแนวทางที่ดัดแปลงมาจากภาษาศาสตร์เชิงคำนวณที่เรียกว่าความชอบในการเลือก หาก x และ y สร้างคู่ (x; y) และ y อยู่ในหมวดหมู่ c แล้วคู่ (x; z) อื่นๆ ทั้งหมดที่นำโดย x จะอยู่ในหมวดหมู่ c พวกเขาใช้ข้อมูลบันทึกคำค้นหาที่ไม่มีป้ายกำกับเพื่อขุดกฎเหล่านี้และตรวจสอบประสิทธิภาพของแนวทางของพวกเขาในคำค้นหาที่มีป้ายกำกับบางคำ

แอปพลิเคชัน

  • เครื่องมือค้นหาแบบเมตาเสิร์ชจะส่งคำค้นหาของผู้ใช้ไปยังเครื่องมือค้นหาหลายแห่ง และรวมผลลัพธ์ที่ดีที่สุดจากแต่ละแห่งเข้าไว้ในรายการเดียว เครื่องมือค้นหาสามารถจัดระเบียบหน้าเว็บจำนวนมากในผลการค้นหาตามหมวดหมู่ที่เป็นไปได้ของคำค้นหา เพื่อความสะดวกในการใช้งานของผู้ใช้เว็บ
  • การค้นหาเฉพาะด้านเมื่อเปรียบเทียบกับการค้นหาทั่วไป จะเน้นไปที่โดเมนเฉพาะและตอบสนองความต้องการข้อมูลเฉพาะของกลุ่มเป้าหมายและวิชาชีพเฉพาะกลุ่ม เมื่อเครื่องมือค้นหาสามารถคาดเดาหมวดหมู่ของข้อมูลที่ผู้ใช้เว็บกำลังมองหาได้แล้ว ก็จะสามารถเลือกเครื่องมือค้นหาเฉพาะด้านที่เหมาะสมได้โดยอัตโนมัติ โดยไม่ต้องบังคับให้ผู้ใช้เข้าถึงเครื่องมือค้นหาเฉพาะด้านนั้นโดยตรง
  • การโฆษณาออนไลน์[ 6 ] [ 7 ]มีเป้าหมายเพื่อนำเสนอโฆษณาที่น่าสนใจแก่ผู้ใช้เว็บในระหว่างกิจกรรมการค้นหาของพวกเขา เครื่องมือค้นหาสามารถนำเสนอโฆษณาที่เกี่ยวข้องแก่ผู้ใช้เว็บตามความสนใจของพวกเขา เพื่อให้ผู้ใช้เว็บสามารถประหยัดเวลาและความพยายามในการค้นคว้า ในขณะที่ผู้โฆษณาสามารถลดต้นทุนการโฆษณาของตนได้

บริการทั้งหมดนี้อาศัยความเข้าใจเจตนาในการค้นหาของผู้ใช้งานเว็บผ่านคำค้นหาบนเว็บของพวกเขา

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Shen. "การทำความเข้าใจคำค้นหาบนเว็บโดยใช้การเรียนรู้"วิทยานิพนธ์ปริญญาเอก มหาวิทยาลัยวิทยาศาสตร์และเทคโนโลยีฮ่องกงมิถุนายน 2550
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Web_query_classification&oldid=1267164977 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การจำแนกประเภทคำค้นหาบนเว็บ

การจำแนก/จัดหมวดหมู่หัวข้อการค้นหาบนเว็บ เป็นปัญหาหนึ่งใน วิทยาศาสตร์สารสนเทศ งานนี้คือการกำหนด คำค้นหาบนเว็บ ให้กับ หมวดหมู่ ที่กำหนดไว้ล่วงหน้าอย่างน้อยหนึ่ง หมวด หมู่...

ความยากลำบาก

การจำแนกประเภทหัวข้อการค้นหาบนเว็บ คือการกำหนดคำค้นหาให้กับหมวดหมู่ที่กำหนดไว้ล่วงหน้าโดยอัตโนมัติ ซึ่งแตกต่างจากงานจำแนกประเภทเอกสารแบบดั้งเดิม มีอุปสรรคสำคัญหลายประการที่ขัดขวางความก้าวหน้าในการ ทำความเข้าใจการค้นหา บนเว็บ :

สร้างรูปแบบการแสดงคุณลักษณะที่เหมาะสมสำหรับคำค้นหาบนเว็บ

คำค้นหาจำนวนมากมีขนาดสั้น และเงื่อนไขการค้นหามักไม่ชัดเจน ตัวอย่างเช่น ในชุดข้อมูล KDDCUP 2005 คำค้นหาที่มี 3 คำเป็นคำค้นหาที่พบบ่อยที่สุด (22%) นอกจากนี้ 79% ของคำค้นหาประกอบด้วยคำไม่เกิน 4 คำ คำค้นหาของผู้ใช้มักมีความหมายหลายอย่าง ตัวอย่างเช่น "apple"...

การปรับตัวให้เข้ากับการเปลี่ยนแปลงของคำค้นหาและหมวดหมู่เมื่อเวลาผ่านไป

ความหมายของคำค้นหาอาจเปลี่ยนแปลงไปตามกาลเวลา ดังนั้น คำค้นหาฝึกอบรมที่มีป้ายกำกับแบบเก่าอาจล้าสมัยและไร้ประโยชน์ในไม่ช้า การทำให้ตัวจำแนกประเภทสามารถปรับตัวได้ตามกาลเวลาจึงกลายเป็นประเด็นสำคัญ ตัวอย่างเช่น คำว่า " Barcelona " มีความหมายใหม่ว่า...