กลับไปหน้าบทความ

อ่าน 1 นาที

คลานชายแดน

ขอบเขตการรวบรวมข้อมูล (crawl frontier)คือโครงสร้างข้อมูลที่ใช้สำหรับจัดเก็บURLที่มีคุณสมบัติเหมาะสมสำหรับการรวบรวมข้อมูล และสนับสนุนการดำเนินการต่างๆ เช่น การเพิ่ม URL...

คลานชายแดน

ขอบเขตการรวบรวมข้อมูล (crawl frontier)คือโครงสร้างข้อมูลที่ใช้สำหรับจัดเก็บURLที่มีคุณสมบัติเหมาะสมสำหรับการรวบรวมข้อมูล และสนับสนุนการดำเนินการต่างๆ เช่น การเพิ่ม URL และการเลือกสำหรับการรวบรวมข้อมูล บางครั้งอาจมองได้ว่าเป็น คิว ลำดับความสำคัญ[ 1 ]

ภาพรวม

สถาปัตยกรรมของเว็บครอว์เลอร์

ส่วนควบคุมการรวบรวมข้อมูล (Crawl frontier) เป็นหนึ่งในส่วนประกอบที่ประกอบขึ้นเป็นโครงสร้างของโปรแกรมรวบรวมข้อมูลบนเว็บ ส่วนควบคุมการรวบรวมข้อมูลนี้ประกอบด้วยตรรกะและนโยบายที่โปรแกรมรวบรวมข้อมูลปฏิบัติตามเมื่อเข้าเยี่ยมชมเว็บไซต์ต่างๆ กิจกรรมนี้เรียกว่าการรวบรวมข้อมูล (Crawling )

นโยบายอาจรวมถึงสิ่งต่างๆ เช่น ควรเยี่ยมชมหน้าใดต่อไป ลำดับความสำคัญในการค้นหาแต่ละหน้า และความถี่ในการเยี่ยมชมหน้านั้นๆ ประสิทธิภาพของขอบเขตการรวบรวมข้อมูลมีความสำคัญอย่างยิ่ง เนื่องจากลักษณะเฉพาะอย่างหนึ่งของเว็บที่ทำให้การรวบรวมข้อมูลเว็บเป็นเรื่องท้าทายคือเว็บมีข้อมูลจำนวนมากและมีการเปลี่ยนแปลงอยู่ตลอดเวลา[ 2 ]

สถาปัตยกรรม

รายการ URL เริ่มต้นที่มีอยู่ใน frontier ของ crawler เรียกว่า seeds เว็บ crawler จะถาม frontier อย่างต่อเนื่องว่าควรเยี่ยมชมหน้าใดบ้าง เมื่อ crawler เยี่ยมชมแต่ละหน้าเหล่านั้น มันจะแจ้ง frontier ด้วยการตอบสนองของแต่ละหน้า นอกจากนี้ crawler จะอัปเดต frontier ของ crawler ด้วยไฮเปอร์ลิงก์ใหม่ ๆ ที่มีอยู่ในหน้าเหล่านั้นที่มันได้เยี่ยมชม ไฮเปอร์ลิงก์เหล่านี้จะถูกเพิ่มเข้าไปใน frontier และ crawler จะเยี่ยมชมเว็บเพจใหม่ตามนโยบายของ frontier [ 2 ]กระบวนการนี้จะดำเนินต่อไปแบบวนซ้ำจนกว่า URL ทั้งหมดใน crawl frontier จะถูกเยี่ยมชม

โดยทั่วไปแล้ว นโยบายที่ใช้ในการพิจารณาว่าควรเยี่ยมชมหน้าเว็บใดบ้างนั้น จะอิงตามคะแนน คะแนนนี้มักคำนวณจากคุณลักษณะหลายประการ เช่น ความใหม่ของหน้าเว็บ เวลาที่หน้าเว็บได้รับการอัปเดต และความเกี่ยวข้องของเนื้อหาต่อคำค้นหาบางคำ

ส่วนประกอบ

สถาปัตยกรรม Crawler Frontier

ฟรอนเทียร์ API/ตัวจัดการ

Frontier Manager คือส่วนประกอบที่เว็บครอว์เลอร์จะใช้ในการสื่อสารกับครอว์ลฟรอนเทียร์ นอกจากนี้ยังสามารถใช้ API ของฟรอนเทียร์ในการสื่อสารกับครอว์ลฟรอนเทียร์ได้อีกด้วย[ 2 ]

มิดเดิลแวร์

มิดเดิลแวร์ฟรอนเทียร์จะอยู่ระหว่างตัวจัดการและแบ็กเอนด์ วัตถุประสงค์ของมิดเดิลแวร์คือการจัดการการสื่อสารระหว่างฟรอนเทียร์และแบ็กเอนด์ มิดเดิลแวร์เป็นวิธีที่เหมาะสมในการเพิ่มหรือขยายฟังก์ชันการทำงานเพิ่มเติมโดยการเสียบโค้ดเพิ่มเติม[ 3 ]

แบ็กเอนด์

ส่วนประกอบแบ็กเอนด์ประกอบด้วยตรรกะและนโยบายทั้งหมดที่ใช้ในการค้นหา หน้าที่ของแบ็กเอนด์คือการระบุหน้าเว็บที่จะทำการรวบรวมข้อมูล[ 3 ]

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Crawl_frontier&oldid=1324240580 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ คลานชายแดน

ขอบเขตการรวบรวมข้อมูล (crawl frontier)คือโครงสร้างข้อมูลที่ใช้สำหรับจัดเก็บURLที่มีคุณสมบัติเหมาะสมสำหรับการรวบรวมข้อมูล และสนับสนุนการดำเนินการต่างๆ เช่น การเพิ่ม URL...

ภาพรวม

ส่วนควบคุมการรวบรวมข้อมูล (Crawl frontier) เป็นหนึ่งในส่วนประกอบที่ประกอบขึ้นเป็นโครงสร้างของโปรแกรมรวบรวมข้อมูลบนเว็บ ส่วนควบคุมการรวบรวมข้อมูลนี้ประกอบด้วยตรรกะและนโยบายที่ โปรแกรมรวบรวมข้อมูล ปฏิบัติตามเมื่อเข้าเยี่ยมชมเว็บไซต์ต่างๆ...

สถาปัตยกรรม

รายการ URL เริ่มต้นที่มีอยู่ใน frontier ของ crawler เรียกว่า seeds เว็บ crawler จะถาม frontier อย่างต่อเนื่องว่าควรเยี่ยมชมหน้าใดบ้าง เมื่อ crawler เยี่ยมชมแต่ละหน้าเหล่านั้น มันจะแจ้ง frontier ด้วยการตอบสนองของแต่ละหน้า นอกจากนี้ crawler จะอัปเดต frontier...

ฟรอนเทียร์ API/ตัวจัดการ

Frontier Manager คือส่วนประกอบที่เว็บครอว์เลอร์จะใช้ในการสื่อสารกับครอว์ลฟรอนเทียร์ นอกจากนี้ยังสามารถใช้ API ของฟรอนเทียร์ในการสื่อสารกับครอว์ลฟรอนเทียร์ได้อีกด้วย [ 2 ]