อ่าน 2 นาที
ระบบค้นหาข้อมูลอัจฉริยะ (SMART Information Retrieval System)
ระบบค้นหาข้อมูล SMART (System for the Mechanical Analysis and Retrieval of Text) เป็น ระบบ ค้นหาข้อมูล ที่พัฒนาขึ้นที่ มหาวิทยาลัยคอร์เนลล์ ในช่วงทศวรรษ 1960 [ 1 ]...
ระบบค้นหาข้อมูลอัจฉริยะ (SMART Information Retrieval System)
ระบบค้นหาข้อมูล SMART (System for the Mechanical Analysis and Retrieval of Text)เป็น ระบบ ค้นหาข้อมูลที่พัฒนาขึ้นที่มหาวิทยาลัยคอร์เนลล์ในช่วงทศวรรษ 1960 [ 1 ]แนวคิดสำคัญหลายประการในการค้นหาข้อมูลได้รับการพัฒนาขึ้นเป็นส่วนหนึ่งของการวิจัยเกี่ยวกับระบบ SMART รวมถึงแบบจำลองพื้นที่เวกเตอร์การตอบรับความเกี่ยวข้องและ การ จำแนก ประเภท Rocchio
เจอราร์ด ซัลตันเป็นผู้นำกลุ่มที่พัฒนา SMART โดยมีไมค์ เลสก์เป็น ผู้ร่วมงานคนอื่นๆ
ระบบ SMART ยังมีชุดคลังข้อมูล คำถาม และการจัดอันดับอ้างอิง ซึ่งได้มาจากหลากหลายสาขาวิชา โดยเฉพาะอย่างยิ่ง
- ADI : สิ่งพิมพ์จากวารสารวิทยาศาสตร์สารสนเทศ
- วิทยาการคอมพิวเตอร์
- ชุดเอกสาร แครนฟิลด์ : สิ่งพิมพ์จากวารสารด้านการบิน
- นิติวิทยาศาสตร์ : บรรณารักษศาสตร์
- ชุดเอกสาร MEDLARS : บทความตีพิมพ์จากวารสารทางการแพทย์
- ชุดเอกสาร นิตยสารไทม์ : เอกสารสำคัญของนิตยสารไทม์ฉบับปี 1963
ระบบ SMART ได้นำมาซึ่งสิ่งที่เรียกว่า สัญกรณ์สามตัวของ SMART ซึ่งเป็นรูปแบบตัวย่อสำหรับแสดงค่าถ่วงน้ำหนักtf-idfddd.qqq ในแบบจำลองพื้นที่เวกเตอร์ รูปแบบตัวย่อสำหรับการแสดงค่าถ่วงน้ำหนักแบบผสมผสานจะมีรูปแบบ โดยตัวอักษรสามตัวแรกแสดงถึงค่าถ่วงน้ำหนักของเวกเตอร์เอกสารชุด และตัวอักษรสามตัวหลังแสดงถึงค่าถ่วงน้ำหนักของเวกเตอร์เอกสารแบบสอบถาม ตัวอย่างเช่นltc.lnnแสดงถึงltcค่าถ่วงน้ำหนักที่ใช้กับเอกสารชุด และ แสดงถึง lnnค่าถ่วงน้ำหนักที่ใช้กับเอกสารแบบสอบถาม
ตารางต่อไปนี้กำหนดสัญกรณ์ SMART: [ 2 ]
| แสดงถึงเวกเตอร์เอกสาร โดยที่คือค่าน้ำหนักของคำในและคือจำนวนคำที่ไม่ซ้ำกันในคุณลักษณะเชิงบวกบ่งบอกถึงคำที่ปรากฏในเอกสาร และค่าน้ำหนักเป็นศูนย์ใช้สำหรับคำที่ไม่ปรากฏในเอกสาร | |||
| ความถี่ในการปรากฏของคำในเอกสาร | จำนวนคำที่ไม่ซ้ำกันในเอกสาร | ||
| จำนวนเอกสารสะสม | จำนวนคำที่ไม่ซ้ำกันโดยเฉลี่ยในเอกสาร | ||
| จำนวนเอกสารที่มีคำว่า"ปัจจุบัน" | จำนวนอักขระในเอกสาร | ||
| ความถี่ในการปรากฏของคำที่พบบ่อยที่สุดในเอกสาร | จำนวนอักขระโดยเฉลี่ยในเอกสาร | ||
| ความถี่เฉลี่ยของการปรากฏของคำในเอกสาร | สถิติการเก็บรวบรวมทั่วโลก | ||
| ความลาดชันในบริบทของการทำให้ความยาวเอกสารหมุนเป็นมาตรฐาน[ 3 ] | |||
| ความถี่ของคำ | ความถี่ของเอกสาร | การปรับความยาวเอกสารให้เป็นมาตรฐาน | |||||||||
|---|---|---|---|---|---|---|---|---|---|---|---|
b | น้ำหนักไบนารี | x | n | ไม่คำนึงถึงความถี่ในการเก็บรวบรวมข้อมูล | x | n | ไม่มีการปรับความยาวเอกสารให้เป็นมาตรฐาน | ||||
t | n | ความถี่ของคำศัพท์ดิบ | f | ความถี่การรวบรวมผกผัน | c | การทำให้เป็นมาตรฐานโคไซน์ | |||||
a | ความถี่ของคำที่ได้รับการปรับให้เป็นมาตรฐานเพิ่มเติม | t | ความถี่การรวบรวมผกผัน | u | การทำให้เป็นมาตรฐานที่ไม่ซ้ำกันแบบหมุน[ 3 ] | ||||||
l | ลอการิทึม | p | ความถี่การรวบรวมผกผันเชิงความน่าจะเป็น | b | การปรับความยาวตัวอักษรแบบหมุน[ 3 ] | ||||||
L | การทำให้เป็นมาตรฐานตามความถี่ของเทอมเฉลี่ย[ 3 ] | ||||||||||
d | ลอการิทึมคู่ | ||||||||||
ตัวอักษรสีเทาในคอลัมน์ที่หนึ่ง ที่ห้า และที่เก้า คือรูปแบบที่ Salton และ Buckley ใช้ในบทความปี 1988 ของพวกเขา[ 4 ]ตัวอักษรตัวหนาในคอลัมน์ที่สอง ที่หก และที่สิบ คือรูปแบบที่ใช้ในการทดลองที่รายงานหลังจากนั้น
ลิงก์ภายนอก
- ซอฟต์แวร์และชุดทดสอบ (FTP ที่มหาวิทยาลัยคอร์เนลล์ )
- บทเรียน SMART แบบโต้ตอบ
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ระบบค้นหาข้อมูลอัจฉริยะ (SMART Information Retrieval System)
ระบบค้นหาข้อมูล SMART (System for the Mechanical Analysis and Retrieval of Text) เป็น ระบบ ค้นหาข้อมูล ที่พัฒนาขึ้นที่ มหาวิทยาลัยคอร์เนลล์ ในช่วงทศวรรษ 1960 [ 1 ]...
ลิงก์ภายนอก
ซอฟต์แวร์และชุดทดสอบ (FTP ที่ มหาวิทยาลัยคอร์เนลล์ ) บทเรียน SMART แบบโต้ตอบ บทความเกี่ยวกับ วิศวกรรมซอฟต์แวร์ นี้ ยัง ไม่สมบูรณ์คุณสามารถช่วยวิกิพีเดียได้โดยการเพิ่มข้อมูลที่ขาดหายไป วี ที อี ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?