อ่าน 4 นาที
ดีพพีป
DeepPeep เป็น เครื่องมือค้นหา ที่มีเป้าหมายใน การรวบรวม และจัดทำดัชนีฐานข้อมูลทุกแห่งบนเว็บสาธารณะ [ 1 ] [ 2 ]...
ดีพพีป
DeepPeepเป็นเครื่องมือค้นหาที่มีเป้าหมายในการรวบรวมและจัดทำดัชนีฐานข้อมูลทุกแห่งบนเว็บสาธารณะ[ 1 ] [ 2 ]แตกต่างจากเครื่องมือค้นหาแบบดั้งเดิมที่รวบรวมข้อมูลจากเว็บเพจที่มีอยู่และไฮเปอร์ลิงก์ DeepPeep มีเป้าหมายที่จะอนุญาตให้เข้าถึงสิ่งที่เรียกว่าDeep webซึ่งเป็นเนื้อหา World Wide Web ที่สามารถเข้าถึงได้ผ่านการค้นหาแบบพิมพ์ลงในฐานข้อมูลเท่านั้น[ 3 ]โครงการนี้เริ่มต้นที่มหาวิทยาลัยยูทาห์และอยู่ภายใต้การดูแลของJuliana Freireรองศาสตราจารย์ประจำกลุ่ม WebDB ของ School of Computing ของมหาวิทยาลัย[ 4 ] [ 5 ] Freire กล่าวว่าเป้าหมายคือการทำให้เนื้อหา WWW ทั้งหมด 90% สามารถเข้าถึงได้[ 6 ] [ 7 ]โครงการนี้ได้ดำเนินการเครื่องมือค้นหารุ่นเบต้าและได้รับการสนับสนุนจากมหาวิทยาลัยยูทาห์และเงินทุนสนับสนุน 243,000 ดอลลาร์จากNational Science Foundation [ 8 ] ซึ่งสร้างความสนใจไปทั่วโลก[ 9 ] [ 10 ] [ 11 ] [ 12 ] [ 13 ]
วิธีการทำงาน
เช่นเดียวกับGoogle , Yahooและเครื่องมือค้นหาอื่นๆ DeepPeep อนุญาตให้ผู้ใช้พิมพ์คำหลักและแสดงรายการลิงก์และฐานข้อมูลที่มีข้อมูลเกี่ยวกับคำหลักนั้น
อย่างไรก็ตาม สิ่งที่ทำให้ DeepPeep แตกต่างจากเครื่องมือค้นหาอื่นๆ คือ DeepPeep ใช้ACHE crawler , ' การระบุแบบฟอร์มตามลำดับชั้น ', ' การจัดกลุ่มแบบฟอร์มตามบริบท ' และ 'LabelEx' เพื่อค้นหา วิเคราะห์ และจัดระเบียบแบบฟอร์มเว็บเพื่อให้ผู้ใช้เข้าถึงได้ง่าย[ 14 ]
อะเช่ ครอว์เลอร์
ACHE Crawlerใช้ในการรวบรวมลิงก์และใช้กลยุทธ์การเรียนรู้ที่เพิ่มอัตราการรวบรวมลิงก์เมื่อ Crawler เหล่านี้ค้นหาอย่างต่อเนื่อง สิ่งที่ทำให้ACHE Crawlerแตกต่างจาก Crawler อื่นๆ คือ Crawler อื่นๆ จะเน้นการรวบรวมเว็บเพจที่มีคุณสมบัติหรือคำหลักเฉพาะ ในขณะที่ ACHE Crawler มีตัวจำแนกหน้าเว็บที่ช่วยให้สามารถคัดกรองหน้าเว็บที่ไม่เกี่ยวข้องของโดเมนออกไปได้ รวมถึงตัวจำแนกลิงก์ที่จัดอันดับลิงก์ตามความเกี่ยวข้องสูงสุดกับหัวข้อ ส่งผลให้ACHE Crawlerดาวน์โหลดเว็บลิงก์ที่มีความเกี่ยวข้องสูงกว่าก่อน และประหยัดทรัพยากรโดยไม่ต้องดาวน์โหลดข้อมูลที่ไม่เกี่ยวข้อง[ 15 ]
การระบุรูปแบบลำดับชั้น
เพื่อกำจัดลิงก์และผลการค้นหาที่ไม่เกี่ยวข้องออกไปเพิ่มเติม DeepPeep ใช้ กรอบงาน การระบุแบบฟอร์มตามลำดับชั้น (HIFI)ซึ่งจัดประเภทลิงก์และผลการค้นหาตามโครงสร้างและเนื้อหาของเว็บไซต์[ 14 ]แตกต่างจากรูปแบบการจัดประเภทอื่นๆ ที่อาศัยเพียงป้ายกำกับแบบฟอร์มเว็บ ในการจัดระเบียบ HIFIใช้ทั้งโครงสร้างและเนื้อหาของแบบฟอร์มเว็บในการจัดประเภท โดยใช้ตัวจัดประเภททั้งสองนี้ HIFI จะจัดระเบียบแบบฟอร์มเว็บในลักษณะลำดับชั้นซึ่งจัดอันดับความเกี่ยวข้องของแบบฟอร์มเว็บกับคำหลักเป้าหมาย[ 16 ]
การจัดกลุ่มตามบริบท
เมื่อไม่มีโดเมนที่สนใจหรือโดเมนที่ระบุมีคำจำกัดความหลายประเภท DeepPeep จะต้องแยกแบบฟอร์มเว็บและจัดกลุ่มเข้าเป็นโดเมนที่คล้ายกัน เครื่องมือค้นหาใช้การจัดกลุ่มตามบริบทเพื่อจัดกลุ่มลิงก์ที่คล้ายกันในโดเมนเดียวกันโดยการจำลองแบบฟอร์มเว็บเป็นชุดของไฮเปอร์ลิงก์และใช้บริบทเพื่อเปรียบเทียบ ซึ่งแตกต่างจากเทคนิคอื่นๆ ที่ต้องใช้การดึงป้ายกำกับที่ซับซ้อนและการประมวลผลล่วงหน้าด้วยตนเองของแบบฟอร์มเว็บการจัดกลุ่ม ตามบริบท จะทำโดยอัตโนมัติและใช้เมตาเดต้าเพื่อจัดการแบบฟอร์มเว็บที่มีเนื้อหามากมายและมีคุณลักษณะหลายอย่าง[ 14 ]
เลเบลเอ็กซ์
DeepPeep ยังดึงข้อมูลที่เรียกว่าMeta-Dataจากหน้าเว็บเหล่านี้ ซึ่งช่วยให้การจัดอันดับลิงก์และฐานข้อมูลดีขึ้นโดยใช้ LabelEx ซึ่งเป็นแนวทางสำหรับการแยกส่วนและการดึงข้อมูล Meta-Data โดยอัตโนมัติ Meta-Data คือข้อมูลจากลิงก์เว็บที่ให้ข้อมูลเกี่ยวกับโดเมนอื่น LabelEx ระบุการแมปองค์ประกอบ-ป้ายกำกับและใช้การแมปเพื่อดึงข้อมูล Meta-Data ด้วยความแม่นยำ ซึ่งแตกต่างจากแนวทางทั่วไปที่ใช้กฎการดึงข้อมูลเฉพาะที่กำหนดเอง[ 14 ]
อันดับ
เมื่อผลการค้นหาปรากฏขึ้นหลังจากที่ผู้ใช้ป้อนคำหลัก DeepPeep จะจัดอันดับลิงก์ตามคุณลักษณะ 3 ประการ ได้แก่ เนื้อหาของคำ จำนวนแบ็กลิงก์และอันดับเพจประการแรก เนื้อหาของคำจะถูกกำหนดโดยเนื้อหาของลิงก์เว็บและความเกี่ยวข้อง แบ็กลิงก์คือไฮเปอร์ลิงก์หรือลิงก์ที่นำผู้ใช้ไปยังเว็บไซต์อื่น อันดับเพจคือการจัดอันดับเว็บไซต์ในผลการค้นหาของเครื่องมือค้นหา โดยจะนับจำนวนและคุณภาพของลิงก์ไปยังเว็บไซต์เพื่อกำหนดความสำคัญ ข้อมูลอันดับเพจและแบ็กลิงก์ได้มาจากแหล่งภายนอกเช่น Google , YahooและBing [ 14 ]
เปิดตัวเวอร์ชันเบต้า
DeepPeep Beta เปิดตัวและครอบคลุมเพียงเจ็ดโดเมน ได้แก่ รถยนต์ ค่าตั๋วเครื่องบิน ชีววิทยา หนังสือ โรงแรม งาน และการเช่า ภายใต้เจ็ดโดเมนนี้ DeepPeep ให้การเข้าถึงแบบฟอร์มเว็บ 13,000 แบบ[ 17 ]สามารถเข้าถึงเว็บไซต์ได้ที่DeepPeep.orgแต่เว็บไซต์ดังกล่าวไม่ได้ใช้งานแล้วหลังจากที่เวอร์ชันเบต้าถูกปิดลง
ลิงก์ภายนอก
- เว็บไซต์ DeepPeep.orgถูกพบว่าปิดตัวลงในเดือนพฤศจิกายน 2016 โดยเว็บไซต์นี้ปรากฏอยู่ในส่วนที่เกี่ยวข้องกับ Register.comข้อความสุดท้ายคือ "DeepPeep: Discover the hidden web"เก็บถาวรจากต้นฉบับเมื่อวันที่ 9 พฤษภาคม 2012 เรียกดูเมื่อ วันที่ 23 กุมภาพันธ์2009
{{cite web}}: CS1 maint: bot: สถานะ URL เดิมไม่ทราบ ( ลิงก์ ).
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ดีพพีป
DeepPeep เป็น เครื่องมือค้นหา ที่มีเป้าหมายใน การรวบรวม และจัดทำดัชนีฐานข้อมูลทุกแห่งบนเว็บสาธารณะ [ 1 ] [ 2 ]...
วิธีการทำงาน
เช่นเดียวกับ Google , Yahoo และเครื่องมือค้นหาอื่นๆ DeepPeep อนุญาตให้ผู้ใช้พิมพ์คำหลักและแสดงรายการลิงก์และฐานข้อมูลที่มีข้อมูลเกี่ยวกับคำหลักนั้น
อะเช่ ครอว์เลอร์
ACHE Crawlerใช้ในการรวบรวมลิงก์และใช้กลยุทธ์การเรียนรู้ที่เพิ่มอัตราการรวบรวมลิงก์เมื่อ Crawler เหล่านี้ค้นหาอย่างต่อเนื่อง สิ่งที่ทำให้ACHE Crawlerแตกต่างจาก Crawler อื่นๆ คือ Crawler อื่นๆ จะเน้นการรวบรวมเว็บเพจที่มีคุณสมบัติหรือคำหลักเฉพาะ ในขณะที่ ACHE...
การระบุรูปแบบลำดับชั้น
เพื่อกำจัดลิงก์และผลการค้นหาที่ไม่เกี่ยวข้องออกไปเพิ่มเติม DeepPeep ใช้ กรอบงาน การระบุแบบฟอร์มตามลำดับชั้น (HIFI)ซึ่งจัดประเภทลิงก์และผลการค้นหาตามโครงสร้างและเนื้อหาของเว็บไซต์ [ 14 ] แตกต่างจากรูปแบบการจัดประเภทอื่นๆ ที่อาศัยเพียงป้ายกำกับ แบบฟอร์มเว็บ...