อ่าน 4 นาที
เครื่องมือค้นหา (คอมพิวเตอร์)
ใน ด้านคอมพิวเตอร์ เครื่องมือ ค้นหา คือ ระบบซอฟต์แวร์ ค้นหาข้อมูล ที่ออกแบบมาเพื่อช่วยค้นหาข้อมูลที่จัดเก็บไว้ใน ระบบคอมพิวเตอร์ ตั้งแต่หนึ่งระบบขึ้นไป เครื่องมือค้นหาจะค้นหา คลาน...
เครื่องมือค้นหา (คอมพิวเตอร์)
ในด้านคอมพิวเตอร์เครื่องมือค้นหาคือ ระบบซอฟต์แวร์ ค้นหาข้อมูลที่ออกแบบมาเพื่อช่วยค้นหาข้อมูลที่จัดเก็บไว้ในระบบคอมพิวเตอร์ ตั้งแต่หนึ่งระบบขึ้นไป เครื่องมือค้นหาจะค้นหา คลาน แปลง และจัดเก็บข้อมูลเพื่อเรียกใช้และแสดงผลตามคำค้นหาของผู้ใช้ ผลการค้นหามักจะแสดงในรูปแบบรายการและโดยทั่วไปเรียกว่า"ผลลัพธ์ที่ค้นพบ " ประเภทของเครื่องมือค้นหาที่ใช้กันอย่างแพร่หลายที่สุดคือเครื่องมือค้นหาบนเว็บซึ่งค้นหาข้อมูลบน เวิลด์ไว ด์ เว็บ
โดยปกติแล้ว เครื่องมือค้นหาประกอบด้วยส่วนประกอบสี่ส่วนดังนี้: ส่วนติดต่อผู้ใช้สำหรับการค้นหา, โปรแกรมรวบรวมข้อมูล (หรือที่เรียกว่า สไปเดอร์ หรือ บอท), ตัวจัดทำดัชนี และฐานข้อมูล โปรแกรมรวบรวมข้อมูลจะสำรวจชุดเอกสาร แยกแยะข้อความในเอกสาร และกำหนดตัวแทนเพื่อจัดเก็บในดัชนีของเครื่องมือค้นหา เครื่องมือค้นหาออนไลน์จะจัดเก็บรูปภาพ ข้อมูลลิงก์ และข้อมูลเมตาของเอกสาร
วิธีการทำงานของเครื่องมือค้นหา
เครื่องมือค้นหาจัดเตรียมอินเทอร์เฟซสำหรับกลุ่มรายการต่างๆ ซึ่งช่วยให้ผู้ใช้สามารถระบุเกณฑ์เกี่ยวกับรายการที่สนใจและให้เครื่องมือค้นหาค้นหารายการที่ตรงกัน เกณฑ์เหล่านี้เรียกว่าคำค้นหาในกรณีของเครื่องมือค้นหาข้อความ คำค้นหามักจะแสดงเป็นชุดคำที่ระบุแนวคิด ที่ต้องการ ซึ่งอาจมีอยู่ในเอกสาร หนึ่งฉบับหรือมากกว่า [ 1 ]มีรูปแบบไวยากรณ์ คำค้นหาหลายแบบ ที่แตกต่างกันในด้านความเข้มงวด นอกจากนี้ยังสามารถเปลี่ยนชื่อภายในเครื่องมือค้นหาจากเว็บไซต์ก่อนหน้าได้ ในขณะที่เครื่องมือค้นหาข้อความบางโปรแกรมกำหนดให้ผู้ใช้ป้อนคำสองหรือสามคำคั่นด้วยช่องว่างเครื่องมือค้นหาอื่นๆ อาจอนุญาตให้ผู้ใช้ระบุเอกสารทั้งหมด รูปภาพ เสียง และรูปแบบต่างๆ ของภาษาธรรมชาติได้เครื่องมือค้นหาบางโปรแกรมใช้การปรับปรุงกับคำค้นหาเพื่อเพิ่มโอกาสในการให้ชุดรายการที่มีคุณภาพผ่านกระบวนการที่เรียกว่าการขยายคำค้นหา วิธี การทำความเข้าใจคำค้นหาสามารถใช้เป็นภาษาคำค้นหามาตรฐาน ได้

โดยทั่วไปแล้ว รายการที่ตรงตามเกณฑ์ที่ระบุโดยคำค้นหาจะถูกจัดเรียงหรือจัดอันดับ การจัดอันดับรายการตามความเกี่ยวข้อง (จากสูงสุดไปต่ำสุด) จะช่วยลดเวลาที่ใช้ในการค้นหาข้อมูลที่ต้องการ เครื่องมือค้นหา แบบความน่าจะเป็น จะจัดอันดับรายการ ตามมาตรวัดความคล้ายคลึงกัน (ระหว่างแต่ละรายการกับคำค้นหา โดยทั่วไปจะอยู่ในระดับ 1 ถึง 0 โดย 1 คือคล้ายคลึงกันมากที่สุด) และบางครั้งอาจพิจารณาจากความนิยมหรือความน่าเชื่อถือ ( ดูบรรณานุกรม ) หรือใช้การตอบรับความเกี่ยวข้อง เครื่องมือค้นหา แบบบูลีนโดยทั่วไปจะส่งคืนเฉพาะรายการที่ตรงกันอย่างแม่นยำโดยไม่คำนึงถึงลำดับ แม้ว่าคำว่าเครื่องมือค้นหาแบบบูลีนอาจหมายถึงการใช้ไวยากรณ์แบบบูลีน (การใช้ตัวดำเนินการAND , OR , NOT และXOR ) ในบริบทแบบความน่าจะเป็นก็ตาม
เพื่อให้ได้ชุดรายการที่ตรงกันซึ่งจัดเรียงตามเกณฑ์บางอย่างได้อย่างรวดเร็ว เครื่องมือค้นหาโดยทั่วไปจะรวบรวมข้อมูลเมตาเกี่ยวกับกลุ่มรายการที่กำลังพิจารณาไว้ล่วงหน้าผ่านกระบวนการที่เรียกว่าการจัดทำดัชนีดัชนีมักต้องการพื้นที่จัดเก็บข้อมูลในคอมพิวเตอร์ น้อยกว่า ซึ่งเป็นเหตุผลว่าทำไมเครื่องมือค้นหาบางแห่งจึงจัดเก็บเฉพาะข้อมูลที่จัดทำดัชนีไว้เท่านั้น ไม่ใช่เนื้อหาทั้งหมดของแต่ละรายการ และแทนที่จะจัดเก็บเนื้อหาทั้งหมดของแต่ละรายการ จะมีวิธีการนำทางไปยังรายการเหล่านั้นในหน้าผลการค้นหาของเครื่องมือค้นหาหรืออีกทางหนึ่ง เครื่องมือค้นหาอาจจัดเก็บสำเนาของแต่ละรายการไว้ในแคชเพื่อให้ผู้ใช้สามารถดูสถานะของรายการในขณะที่จัดทำดัชนี หรือเพื่อวัตถุประสงค์ในการเก็บถาวร หรือเพื่อให้กระบวนการที่ทำซ้ำทำงานได้อย่างมีประสิทธิภาพและรวดเร็วยิ่งขึ้น[ 2 ]
เครื่องมือค้นหาประเภทอื่น ๆ ไม่เก็บดัชนี เครื่องมือค้นหาแบบ Crawlerหรือ Spider (หรือที่เรียกว่าเครื่องมือค้นหาแบบเรียลไทม์) อาจรวบรวมและประเมินรายการต่าง ๆ ในขณะที่มีการค้นหา โดยพิจารณารายการเพิ่มเติมแบบไดนามิกตามเนื้อหาของรายการเริ่มต้น (ที่เรียกว่า seed หรือ seed URL ในกรณีของโปรแกรมรวบรวมข้อมูลบนอินเทอร์เน็ต) เครื่องมือค้นหาแบบ Metaไม่เก็บทั้งดัชนีหรือแคช แต่จะนำดัชนีหรือผลลัพธ์จากเครื่องมือค้นหาอื่น ๆ มาใช้ซ้ำเพื่อให้ได้ผลลัพธ์สุดท้ายที่รวบรวมไว้
ขนาดฐานข้อมูล ซึ่งเคยเป็นจุดเด่นทางการตลาดที่สำคัญในช่วงต้นทศวรรษ 2000 ถูกแทนที่ด้วยการเน้นการจัดอันดับตามความเกี่ยวข้อง ซึ่งเป็นวิธีการที่เครื่องมือค้นหาพยายามจัดเรียงผลลัพธ์ที่ดีที่สุดไว้ก่อน การจัดอันดับตามความเกี่ยวข้องกลายเป็นประเด็นสำคัญครั้งแรกประมาณ ปี 1996เมื่อเห็นได้ชัดว่าการตรวจสอบรายการผลลัพธ์ทั้งหมดนั้นไม่สามารถทำได้จริง ด้วยเหตุนี้อัลกอริทึม สำหรับการจัดอันดับตามความเกี่ยวข้องจึงได้รับการปรับปรุงอย่างต่อเนื่อง วิธี การ PageRankของ Google สำหรับการจัดเรียงผลลัพธ์ได้รับความสนใจจากสื่อมากที่สุด แต่เครื่องมือค้นหาหลักทั้งหมดต่างก็ปรับปรุงวิธีการจัดอันดับของตนอย่างต่อเนื่องโดยมีเป้าหมายเพื่อปรับปรุงการจัดเรียงผลลัพธ์ ตั้งแต่ปี 2006 เป็นต้นมา การจัดอันดับของเครื่องมือค้นหามีความสำคัญมากกว่าที่เคยเป็นมามาก จนถึงขั้นมีการพัฒนาอุตสาหกรรม (" ผู้เพิ่มประสิทธิภาพเครื่องมือค้นหา " หรือ "SEO") เพื่อช่วยนักพัฒนาเว็บปรับปรุงการจัดอันดับการค้นหาของตน และมีกฎหมาย ที่เกี่ยวข้องมากมาย เกิดขึ้นเกี่ยวกับเรื่องที่ส่งผลต่อการจัดอันดับของเครื่องมือค้นหา เช่น การใช้เครื่องหมายการค้าในเมตาแท็ก การขายอันดับการค้นหาโดยเครื่องมือค้นหาบางแห่งยังก่อให้เกิดข้อโต้แย้งในหมู่บรรณารักษ์และผู้สนับสนุนผู้บริโภคอีกด้วย[ 3 ]

ประสบการณ์การใช้งานเครื่องมือค้นหาสำหรับผู้ใช้ยังคงได้รับการปรับปรุงอย่างต่อเนื่อง การเพิ่ม Google Knowledge Graphของ Google นั้นมีผลกระทบในวงกว้างต่ออินเทอร์เน็ต อาจถึงขั้นจำกัดปริมาณการเข้าชมเว็บไซต์บางแห่ง เช่น Wikipedia การดึงข้อมูลและนำเสนอในหน้าเว็บของ Google บางคนโต้แย้งว่าอาจส่งผลเสียต่อเว็บไซต์อื่นๆ อย่างไรก็ตาม ยังไม่มีข้อกังวลที่สำคัญใดๆ[ 4 ]
หมวดหมู่เครื่องมือค้นหา
เครื่องมือค้นหาบนเว็บ
เครื่องมือค้นหาที่ออกแบบมาโดยเฉพาะสำหรับการค้นหาหน้าเว็บ เอกสาร และรูปภาพ ถูกพัฒนาขึ้นเพื่ออำนวยความสะดวกในการค้นหาผ่านกลุ่มทรัพยากรขนาดใหญ่ที่ไม่เป็นระเบียบ พวกมันถูกออกแบบมาให้ทำงานตามกระบวนการหลายขั้นตอน: คลานไปในคลังข้อมูลหน้าเว็บและเอกสารจำนวนมหาศาลเพื่อคัดกรองเนื้อหาสำคัญ จัดทำดัชนีเนื้อหา/คำสำคัญในรูปแบบกึ่งโครงสร้าง (ฐานข้อมูลหรือสิ่งอื่น ๆ) และสุดท้าย ประมวลผลคำค้นหา/คำถามของผู้ใช้เพื่อแสดงผลลัพธ์และลิงก์ที่เกี่ยวข้องส่วนใหญ่ไปยังเอกสารหรือหน้าเว็บที่คัดกรองแล้วจากคลังข้อมูล
คลาน
ในกรณีของการค้นหาด้วยข้อความล้วนๆ ขั้นตอนแรกในการจัดหมวดหมู่เว็บเพจคือการค้นหา 'รายการดัชนี' ที่อาจเกี่ยวข้องกับ 'คำค้นหา' โดยตรง ในอดีต เครื่องมือค้นหาเริ่มต้นด้วยรายการ URL จำนวนเล็กน้อยที่เรียกว่ารายการเริ่มต้น (seed list) ดึงเนื้อหา และวิเคราะห์ลิงก์ในหน้าเหล่านั้นเพื่อหาข้อมูลที่เกี่ยวข้อง ซึ่งจะให้ลิงก์ใหม่ๆ ต่อไป กระบวนการนี้เป็นวัฏจักรและดำเนินต่อไปจนกว่าจะพบหน้าเว็บมากพอสำหรับผู้ค้นหา ปัจจุบันนี้ วิธีการรวบรวมข้อมูลอย่างต่อเนื่องถูกนำมาใช้แทนการค้นพบโดยบังเอิญจากรายการเริ่มต้น วิธีการรวบรวมข้อมูลนี้เป็นการต่อยอดจากวิธีการค้นพบที่กล่าวมาข้างต้น
เครื่องมือค้นหาส่วนใหญ่ใช้ขั้นตอนวิธีจัดตารางเวลาที่ซับซ้อนเพื่อ "ตัดสินใจ" ว่าจะกลับมาเยี่ยมชมหน้าเว็บใดอีกครั้งเมื่อใด โดยคำนึงถึงความเกี่ยวข้อง ขั้นตอนวิธีเหล่านี้มีตั้งแต่การกำหนดช่วงเวลาการเยี่ยมชมคงที่ โดยให้ความสำคัญกับหน้าเว็บที่มีการเปลี่ยนแปลงบ่อยกว่า ไปจนถึงการกำหนดช่วงเวลาการเยี่ยมชมแบบปรับเปลี่ยนได้ตามเกณฑ์หลายประการ เช่น ความถี่ในการเปลี่ยนแปลง ความนิยม และคุณภาพโดยรวมของเว็บไซต์ ความเร็วของเว็บเซิร์ฟเวอร์ที่รันหน้าเว็บ รวมถึงข้อจำกัดด้านทรัพยากร เช่น ปริมาณฮาร์ดแวร์หรือแบนด์วิดท์ ก็เป็นปัจจัยสำคัญเช่นกัน
แผนที่ลิงก์
หน้าเว็บที่ถูกค้นพบโดยการรวบรวมข้อมูลของเว็บมักจะถูกกระจายและป้อนเข้าสู่คอมพิวเตอร์อีกเครื่องหนึ่งที่สร้างแผนที่ของทรัพยากรที่ค้นพบ กลุ่มข้อมูลขนาดใหญ่จะดูคล้ายกราฟ โดยที่หน้าเว็บต่างๆ ถูกแทนด้วยโหนดเล็กๆ ที่เชื่อมต่อกันด้วยลิงก์ระหว่างหน้าเว็บ ข้อมูลส่วนเกินจะถูกจัดเก็บไว้ในโครงสร้างข้อมูลหลายแบบที่อนุญาตให้เข้าถึงข้อมูลดังกล่าวได้อย่างรวดเร็วโดยอัลกอริทึมบางอย่างที่คำนวณคะแนนความนิยมของหน้าเว็บโดยพิจารณาจากจำนวนลิงก์ที่ชี้ไปยังหน้าเว็บนั้นๆ ซึ่งเป็นวิธีที่ผู้คนสามารถเข้าถึงทรัพยากรต่างๆ ที่เกี่ยวข้องกับการวินิจฉัยโรคจิตเภทได้ อีกตัวอย่างหนึ่งคือ การเข้าถึง/อันดับของหน้าเว็บที่มีข้อมูลเกี่ยวกับโมฮัมหมัด มอร์ซี เทียบกับสถานที่ท่องเที่ยวที่ดีที่สุดในไคโรหลังจากป้อนคำว่า 'อียิปต์' เป็นคำค้นหา อัลกอริทึมหนึ่งที่รู้จักกันดีและได้รับความสนใจอย่างมากคือPageRankซึ่งเสนอโดยแลร์รี เพจและเซอร์เกย์ บริน ผู้ก่อตั้ง Google เพราะมันเน้นให้เห็นถึงความซ้ำซากจำเจของการค้นหาเว็บของนักเรียนที่ไม่รู้วิธีค้นคว้าข้อมูลอย่างถูกต้องบน Google
แนวคิดการวิเคราะห์ลิงก์เพื่อคำนวณอันดับความนิยมนั้นมีมานานกว่า PageRank แล้ว อย่างไรก็ตาม ในเดือนตุลาคม 2014 จอห์น มุลเลอร์ จาก Google ได้ยืนยันว่า Google จะไม่ทำการอัปเดต PageRank อีกต่อไป แต่แนวคิดเดียวกันนี้ก็ยังถูกนำมาใช้ในรูปแบบอื่นอยู่ เช่น เด็กนักเรียนประถมก็ใช้การคำนวณแบบเดียวกันนี้ในการเลือกทีมเล่นกีฬา แนวคิดเหล่านี้สามารถแบ่งออกเป็นสามประเภทหลัก ได้แก่ อันดับของแต่ละหน้าเว็บ และลักษณะของเนื้อหาเว็บไซต์ เครื่องมือค้นหามักจะแยกความแตกต่างระหว่างลิงก์ภายในและลิงก์ภายนอก เนื่องจากผู้สร้างเนื้อหาเว็บมักทำการโปรโมตตัวเองอย่างไม่ละอายใจ โครงสร้างข้อมูลแผนที่ลิงก์มักจะจัดเก็บข้อความแองเคอร์ที่ฝังอยู่ในลิงก์ด้วย เนื่องจากข้อความแองเคอร์มักให้ข้อมูลสรุปที่มีคุณภาพสูงเกี่ยวกับเนื้อหาของหน้าเว็บได้
เครื่องมือค้นหาฐานข้อมูล
การค้นหาเนื้อหาที่เป็นข้อความในฐานข้อมูลนั้นมีความท้าทายพิเศษอยู่บ้าง ซึ่งเป็นเหตุผลที่ทำให้เกิดเครื่องมือค้นหาเฉพาะทางจำนวนมาก ฐานข้อมูลอาจทำงานช้าเมื่อต้องแก้ปัญหาคำค้นหาที่ซับซ้อน (ที่มีอาร์กิวเมนต์เชิงตรรกะหรือการจับคู่สตริงหลายตัว) ฐานข้อมูลอนุญาตให้ใช้คำค้นหาเชิงตรรกะเทียม ซึ่งการค้นหาข้อความเต็มรูปแบบไม่ได้ใช้ ไม่จำเป็นต้องมีการรวบรวมข้อมูลในฐานข้อมูลเนื่องจากข้อมูลมีโครงสร้างอยู่แล้ว อย่างไรก็ตาม มักจำเป็นต้องจัดทำดัชนีข้อมูลในรูปแบบที่ประหยัดกว่าเพื่อให้สามารถค้นหาได้รวดเร็วยิ่งขึ้น
เครื่องมือค้นหาแบบผสม
บางครั้ง ข้อมูลที่ค้นหามีทั้งเนื้อหาจากฐานข้อมูลและหน้าเว็บหรือเอกสาร เทคโนโลยีเครื่องมือค้นหาได้พัฒนาขึ้นเพื่อตอบสนองความต้องการทั้งสองชุดนี้ เครื่องมือค้นหาแบบผสมส่วนใหญ่เป็นเครื่องมือค้นหาบนเว็บขนาดใหญ่ เช่น Google พวกมันค้นหาทั้งจาก แหล่ง ข้อมูลที่มีโครงสร้างและไม่มีโครงสร้างยกตัวอย่างเช่น คำว่า 'ball' ในรูปแบบที่ง่ายที่สุด คำนี้ให้ผลลัพธ์มากกว่า 40 รูปแบบใน Wikipedia เพียงแห่งเดียว คุณหมายถึงลูกบอลในงานสังสรรค์/การเต้นรำหรือไม่? ลูกฟุตบอล? หรือปลายเท้า? หน้าเว็บและเอกสารจะถูกรวบรวมและจัดทำดัชนีในดัชนีแยกต่างหาก ฐานข้อมูลก็ได้รับการจัดทำดัชนีจากแหล่งต่างๆ เช่นกัน จากนั้นผลการค้นหาจะถูกสร้างขึ้นสำหรับผู้ใช้โดยการสอบถามดัชนีหลายๆ ดัชนีเหล่านี้พร้อมกันและรวมผลลัพธ์ตาม "กฎ"
ประวัติความเป็นมาของเทคโนโลยีการค้นหา
เมเม็กซ์
แนวคิดของไฮเปอร์เท็กซ์และการขยายหน่วยความจำมีต้นกำเนิดมาจากบทความที่ตีพิมพ์ในThe Atlantic Monthlyในเดือนกรกฎาคม พ.ศ. 2488 ซึ่งเขียนโดยVannevar Bushในชื่อเรื่อง " As We May Think " ในบทความนี้ Vannevar ได้กระตุ้นให้นักวิทยาศาสตร์ทำงานร่วมกันเพื่อช่วยสร้างองค์ความรู้สำหรับมวลมนุษยชาติ จากนั้นเขาได้เสนอแนวคิดเกี่ยวกับระบบจัดเก็บและเรียกค้นหน่วยความจำแบบเชื่อมโยงที่รวดเร็ว เชื่อถือได้ ขยายได้ และแทบจะไร้ขีดจำกัด เขาตั้งชื่ออุปกรณ์นี้ว่าmemex [ 5 ]
บุชถือว่าแนวคิดเรื่อง “การจัดทำดัชนีแบบเชื่อมโยง” เป็นผลงานเชิงแนวคิดที่สำคัญของเขา ดังที่เขาอธิบายไว้ว่า “เป็นข้อกำหนดที่ทำให้รายการใดๆ ก็ตามสามารถเลือกรายการอื่นได้ทันทีและโดยอัตโนมัติตามต้องการ นี่คือคุณลักษณะที่สำคัญของเมเม็กซ์ กระบวนการเชื่อมโยงสองรายการเข้าด้วยกันเป็นสิ่งสำคัญ[ 6 ]
เอกสารทั้งหมดที่ใช้ในระบบเมเม็กซ์จะอยู่ในรูปแบบสำเนาไมโครฟิล์มที่ได้มาโดยตรง หรือในกรณีของบันทึกส่วนบุคคล จะถูกแปลงเป็นไมโครฟิล์มโดยเครื่องเอง เมเม็กซ์จะใช้เทคนิคการค้นหาข้อมูลแบบใหม่โดยอิงจากดัชนีแบบเชื่อมโยงชนิดใหม่ ซึ่งมีแนวคิดพื้นฐานคือการที่เอกสารใดๆ ก็สามารถเลือกเอกสารอื่นได้ทันทีและโดยอัตโนมัติเพื่อสร้าง "เส้นทาง" ส่วนบุคคลผ่านเอกสารที่เชื่อมโยงกัน บุชคาดการณ์ว่ากระบวนการใหม่เหล่านี้จะช่วยอำนวยความสะดวกในการจัดเก็บและค้นหาข้อมูล และจะนำไปสู่การพัฒนาสารานุกรมรูปแบบใหม่ทั้งหมด
กลไกที่สำคัญที่สุด ซึ่งคิดค้นโดยบุช คือ เส้นทางเชื่อมโยง (associative trail) มันจะเป็นวิธีการสร้างลำดับเชิงเส้นใหม่ของเฟรมไมโครฟิล์มข้ามลำดับเฟรมไมโครฟิล์มใดๆ ก็ได้ โดยการสร้างลำดับการเชื่อมโยงแบบลูกโซ่ตามที่ได้อธิบายไปแล้ว พร้อมด้วยความคิดเห็นส่วนตัวและเส้นทางย่อยต่างๆ
ในปี พ.ศ. 2508 บุชได้เข้าร่วมโครงการ INTREX ของ MIT เพื่อพัฒนาเทคโนโลยีสำหรับการประมวลผลข้อมูลแบบอัตโนมัติสำหรับการใช้งานในห้องสมุด ในบทความปี พ.ศ. 2510 เรื่อง "Memex Revisited" เขาชี้ให้เห็นว่าการพัฒนาคอมพิวเตอร์ดิจิทัล ทรานซิสเตอร์ วิดีโอ และอุปกรณ์อื่นๆ ที่คล้ายกันได้เพิ่มความเป็นไปได้ของการประมวลผลแบบอัตโนมัติดังกล่าว แต่ต้นทุนจะทำให้ความสำเร็จล่าช้า[ 7 ]
ปราดเปรื่อง
เจอราร์ด ซัลตันผู้เสียชีวิตเมื่อวันที่ 28 สิงหาคม ค.ศ. 1995 ถือเป็นบิดาแห่งเทคโนโลยีการค้นหาสมัยใหม่ ทีมงานของเขาที่มหาวิทยาลัยฮาร์วาร์ดและคอร์เนลได้พัฒนาระบบค้นหาข้อมูลอัตโนมัติ SMART (Magic Automatic Retriever of Text) ของซัลตัน ซึ่งประกอบด้วยแนวคิดสำคัญๆ เช่นแบบจำลองปริภูมิเวกเตอร์ ความถี่ผกผัน ของเอกสาร ( Inverse Document Frequency : IDF) ความถี่ของคำ (Term Frequency: TF) ค่าการจำแนกคำ และกลไกการตอบรับความเกี่ยวข้อง
เขาเขียนหนังสือความยาว 56 หน้าชื่อ"ทฤษฎีการจัดทำดัชนี"ซึ่งอธิบายการทดสอบหลายอย่างของเขา ซึ่งการค้นหายังคงใช้พื้นฐานนี้เป็นหลักจนถึงปัจจุบัน
เครื่องมือค้นหาสตริง
ในปี 1987 มีการตีพิมพ์บทความที่ให้รายละเอียดเกี่ยวกับการพัฒนาเครื่องมือค้นหาสตริงอักขระ (SSE) สำหรับการค้นหาข้อความอย่างรวดเร็วบนวงจรโซลิดสเตท CMOS แบบ n-well สองชั้นโลหะขนาด 1.6 ไมโครเมตร ที่มีทรานซิสเตอร์ 217,600 ตัว เรียงตัวอยู่บนพื้นที่ไดขนาด 8.62x12.76 มิลลิเมตร SSE นี้มีสถาปัตยกรรมค้นหาสตริงแบบใหม่ ซึ่งรวมตรรกะออโตมาตาแบบสถานะจำกัด (FSA) 512 ขั้น เข้ากับหน่วยความจำที่สามารถระบุตำแหน่งเนื้อหาได้ (CAM) เพื่อให้สามารถเปรียบเทียบสตริงได้ประมาณ 80 ล้านสตริงต่อวินาที เซลล์ CAM ประกอบด้วยเซลล์ RAM แบบคงที่ (SRAM) ทั่วไปสี่เซลล์และวงจรการอ่าน/เขียน การเปรียบเทียบสตริงที่จัดเก็บไว้ 64 สตริงที่มีความยาวแปรผันพร้อมกัน ทำได้ใน 50 นาโนวินาที สำหรับกระแสข้อความขาเข้า 10 ล้านอักขระต่อวินาที ทำให้สามารถทำงานได้แม้จะมีข้อผิดพลาดของอักขระเดี่ยวในรูปแบบของรหัสอักขระ นอกจากนี้ ชิปยังอนุญาตให้ค้นหาสตริงที่ไม่ใช่จุดยึดและค้นหาสตริงที่ไม่สนใจความยาวแปรผัน (VLDC) [ 8 ]
ดูเพิ่มเติม
โดยแหล่งที่มา
- เครื่องมือค้นหาฐานข้อมูล
- การค้นหาบนเดสก์ท็อป
- การค้นหาองค์กร
- การค้นหาแบบรวมศูนย์
- เครื่องมือค้นหาของมนุษย์
- เครื่องมือค้นหาแบบเมตา
- การค้นหาหลายรายการ
- ตัวรวบรวมข้อมูลการค้นหา
- เครื่องมือค้นหาบนเว็บ
ตามประเภทเนื้อหา
โดยอินเทอร์เฟซ
ตามหัวข้อ
คนอื่น
- การสรุปอัตโนมัติ
- เอมานูเอล โกลด์เบิร์ก (ผู้คิดค้นเครื่องมือค้นหาในยุคแรก)
- ดัชนี (เครื่องมือค้นหา)
- ดัชนีผกผัน
- รายชื่อเครื่องมือค้นหา
- บริการค้นหา
- การจัดทำดัชนีของเครื่องมือค้นหา
- การเพิ่มประสิทธิภาพเครื่องมือค้นหา
- ผลการค้นหาแนะนำรายการแบบดรอปดาวน์
- โปรแกรมแก้ปัญหา (วิทยาการคอมพิวเตอร์)
- สแปมเด็กซ์
- คำสั่ง SQL
- การขุดค้นข้อมูลจากข้อความ
- เว็บครอว์เลอร์
- การแยกความหมายของคำ (การจัดการกับความกำกวม )