คลานชายแดน

ขอบเขตการรวบรวมข้อมูล (crawl frontier)คือโครงสร้างข้อมูลที่ใช้สำหรับจัดเก็บURLที่มีคุณสมบัติเหมาะสมสำหรับการรวบรวมข้อมูล และสนับสนุนการดำเนินการต่างๆ เช่น การเพิ่ม URL และการเลือกสำหรับการรวบรวมข้อมูล บางครั้งอาจมองได้ว่าเป็น คิว ลำดับความสำคัญ^{[ 1 ]}

ภาพรวม

ส่วนควบคุมการรวบรวมข้อมูล (Crawl frontier) เป็นหนึ่งในส่วนประกอบที่ประกอบขึ้นเป็นโครงสร้างของโปรแกรมรวบรวมข้อมูลบนเว็บ ส่วนควบคุมการรวบรวมข้อมูลนี้ประกอบด้วยตรรกะและนโยบายที่โปรแกรมรวบรวมข้อมูลปฏิบัติตามเมื่อเข้าเยี่ยมชมเว็บไซต์ต่างๆ กิจกรรมนี้เรียกว่าการรวบรวมข้อมูล (Crawling )

นโยบายอาจรวมถึงสิ่งต่างๆ เช่น ควรเยี่ยมชมหน้าใดต่อไป ลำดับความสำคัญในการค้นหาแต่ละหน้า และความถี่ในการเยี่ยมชมหน้านั้นๆ ประสิทธิภาพของขอบเขตการรวบรวมข้อมูลมีความสำคัญอย่างยิ่ง เนื่องจากลักษณะเฉพาะอย่างหนึ่งของเว็บที่ทำให้การรวบรวมข้อมูลเว็บเป็นเรื่องท้าทายคือเว็บมีข้อมูลจำนวนมากและมีการเปลี่ยนแปลงอยู่ตลอดเวลา^{[ 2 ]}

สถาปัตยกรรม

รายการ URL เริ่มต้นที่มีอยู่ใน frontier ของ crawler เรียกว่า seeds เว็บ crawler จะถาม frontier อย่างต่อเนื่องว่าควรเยี่ยมชมหน้าใดบ้าง เมื่อ crawler เยี่ยมชมแต่ละหน้าเหล่านั้น มันจะแจ้ง frontier ด้วยการตอบสนองของแต่ละหน้า นอกจากนี้ crawler จะอัปเดต frontier ของ crawler ด้วยไฮเปอร์ลิงก์ใหม่ ๆ ที่มีอยู่ในหน้าเหล่านั้นที่มันได้เยี่ยมชม ไฮเปอร์ลิงก์เหล่านี้จะถูกเพิ่มเข้าไปใน frontier และ crawler จะเยี่ยมชมเว็บเพจใหม่ตามนโยบายของ frontier ^{[ 2 ]}กระบวนการนี้จะดำเนินต่อไปแบบวนซ้ำจนกว่า URL ทั้งหมดใน crawl frontier จะถูกเยี่ยมชม

โดยทั่วไปแล้ว นโยบายที่ใช้ในการพิจารณาว่าควรเยี่ยมชมหน้าเว็บใดบ้างนั้น จะอิงตามคะแนน คะแนนนี้มักคำนวณจากคุณลักษณะหลายประการ เช่น ความใหม่ของหน้าเว็บ เวลาที่หน้าเว็บได้รับการอัปเดต และความเกี่ยวข้องของเนื้อหาต่อคำค้นหาบางคำ

ส่วนประกอบ

ฟรอนเทียร์ API/ตัวจัดการ

Frontier Manager คือส่วนประกอบที่เว็บครอว์เลอร์จะใช้ในการสื่อสารกับครอว์ลฟรอนเทียร์ นอกจากนี้ยังสามารถใช้ API ของฟรอนเทียร์ในการสื่อสารกับครอว์ลฟรอนเทียร์ได้อีกด้วย^{[ 2 ]}

มิดเดิลแวร์

มิดเดิลแวร์ฟรอนเทียร์จะอยู่ระหว่างตัวจัดการและแบ็กเอนด์ วัตถุประสงค์ของมิดเดิลแวร์คือการจัดการการสื่อสารระหว่างฟรอนเทียร์และแบ็กเอนด์ มิดเดิลแวร์เป็นวิธีที่เหมาะสมในการเพิ่มหรือขยายฟังก์ชันการทำงานเพิ่มเติมโดยการเสียบโค้ดเพิ่มเติม^{[ 3 ]}

แบ็กเอนด์

ส่วนประกอบแบ็กเอนด์ประกอบด้วยตรรกะและนโยบายทั้งหมดที่ใช้ในการค้นหา หน้าที่ของแบ็กเอนด์คือการระบุหน้าเว็บที่จะทำการรวบรวมข้อมูล^{[ 3 ]}

[ 1 ]