อ่าน 1 นาที
กับดักแมงมุม
กับ ดักแมงมุม (หรือกับดักครอว์เลอร์ ) คือชุดของหน้าเว็บที่อาจถูกใช้โดยตั้งใจหรือไม่ตั้งใจ เพื่อทำให้เว็บครอว์เลอร์หรือบอทค้นหาทำการร้องขอเป็นจำนวนอนันต์...
กับดักแมงมุม
กับ ดักแมงมุม (หรือกับดักครอว์เลอร์ ) คือชุดของหน้าเว็บที่อาจถูกใช้โดยตั้งใจหรือไม่ตั้งใจ เพื่อทำให้เว็บครอว์เลอร์หรือบอทค้นหาทำการร้องขอเป็นจำนวนอนันต์ หรือทำให้ครอว์เลอร์ที่สร้างขึ้นอย่างไม่ดีล่ม เว็บครอว์เลอร์เรียกอีกอย่างว่าเว็บสไปเดอร์ซึ่งเป็นที่มาของชื่อนี้ กับดักแมงมุมอาจถูกสร้างขึ้นเพื่อ "ดักจับ" สแปมบอทหรือครอว์เลอร์อื่นๆ ที่สิ้นเปลืองแบนด์วิดท์ของเว็บไซต์ นอกจากนี้ยังอาจถูกสร้างขึ้นโดยไม่ตั้งใจโดยปฏิทินที่ใช้หน้าเว็บแบบไดนามิกที่มีลิงก์ที่ชี้ไปยังวันหรือปีถัดไปอย่างต่อเนื่อง
เทคนิคที่ใช้กันทั่วไป ได้แก่:
- การสร้าง โครงสร้าง ไดเร็กทอรี ที่มีความลึกไม่จำกัด เช่น
http://example.com/abc/def/abc/def/abc/def/abc/... - หน้าเว็บแบบไดนามิกที่สร้างเอกสารจำนวนไม่จำกัดเพื่อให้เว็บครอว์เลอร์ติดตาม ตัวอย่างเช่น ปฏิทิน[ 1 ]และบทกวีภาษาที่สร้างขึ้นโดยอัลกอริทึม[ 2 ]
- เอกสารที่มีอักขระจำนวนมากทำให้โปรแกรมวิเคราะห์คำศัพท์ ทำงานผิดพลาด ขณะทำการวิเคราะห์เอกสาร
- เอกสารที่มี session-id อ้างอิงจากคุกกี้ที่จำเป็น
ไม่มีอัลกอริทึมใดที่สามารถตรวจจับกับดักแมงมุมได้ทุกชนิดอย่างครอบคลุม แม้ว่ากับดักบางประเภทจะสามารถระบุได้ด้วยวิธีการอัตโนมัติ แต่กับดักชนิดใหม่ที่ไม่เคยรู้จักมาก่อนก็ยังคงปรากฏขึ้นอย่างรวดเร็ว
ความสุภาพ
กับดักแมงมุมทำให้เว็บครอว์เลอร์เข้าสู่สิ่งที่คล้ายกับลูปอนันต์ [ 3 ] ซึ่งทำให้สิ้นเปลืองทรัพยากรของแมงมุม[ 4 ]ลดประสิทธิภาพการทำงาน และในกรณีของครอว์เลอร์ที่เขียนไม่ดี อาจทำให้โปรแกรมล่มได้ แมงมุมที่สุภาพจะสลับการร้องขอระหว่างโฮสต์ต่างๆ และจะไม่ร้องขอเอกสารจากเซิร์ฟเวอร์เดียวกันมากกว่าหนึ่งครั้งทุกๆ สองสามวินาที[ 5 ]ซึ่งหมายความว่าเว็บครอว์เลอร์ที่ "สุภาพ" จะได้รับผลกระทบน้อยกว่าครอว์เลอร์ที่ "ไม่สุภาพ" มาก
นอกจากนี้ ไซต์ที่มีกับดักแมงมุมมักจะมีไฟล์robots.txtที่บอกบอทไม่ให้เข้าไปในกับดัก ดังนั้นบอทที่ "สุภาพ" อย่างถูกต้องจะไม่ตกเป็นเหยื่อของกับดัก ในขณะที่บอทที่ "ไม่สุภาพ" ซึ่งไม่สนใจการตั้งค่า robots.txt จะได้รับผลกระทบจากกับดัก[ 6 ]
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ กับดักแมงมุม
กับ ดักแมงมุม (หรือกับดักครอว์เลอร์ ) คือชุดของหน้าเว็บที่อาจถูกใช้โดยตั้งใจหรือไม่ตั้งใจ เพื่อทำให้เว็บครอว์เลอร์หรือบอทค้นหาทำการร้องขอเป็นจำนวนอนันต์...
ความสุภาพ
กับดักแมงมุมทำให้เว็บครอว์เลอร์เข้าสู่สิ่งที่คล้ายกับ ลูปอนันต์ [ 3 ] ซึ่ง ทำให้สิ้นเปลืองทรัพยากรของแมงมุม [ 4 ] ลดประสิทธิภาพการทำงาน และในกรณีของครอว์เลอร์ที่เขียนไม่ดี อาจทำให้โปรแกรมล่มได้ แมงมุมที่สุภาพจะสลับการร้องขอระหว่างโฮสต์ต่างๆ...
ดูเพิ่มเติม
มาตรฐานการกีดกันหุ่นยนต์ เว็บครอว์เลอร์ ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Spider_trap&oldid=1293919909 "