ไซต์ซีเออร์เอ็กซ์

ไซต์ซีเออร์เอ็กซ์
ประเภทของไซต์	ฐานข้อมูลบรรณานุกรม
เจ้าของ	วิทยาลัยวิทยาศาสตร์และเทคโนโลยีสารสนเทศมหาวิทยาลัยรัฐเพนซิลเวเนีย
URL	citeseerx .ist .psu .edu
การลงทะเบียน	ไม่จำเป็น
เปิดตัว	2008/1997
สถานะปัจจุบัน	ออฟไลน์
ใบอนุญาตเนื้อหา	ใบอนุญาต Creative Commons BY-NC-SA

CiteSeerX (มักเขียนในรูปแบบCiteSeer ^X ; เดิมชื่อCiteSeer ) เป็นเครื่องมือค้นหาและห้องสมุดดิจิทัล สาธารณะ สำหรับเอกสารทางวิทยาศาสตร์และวิชาการ โดยเฉพาะอย่างยิ่งในสาขาวิทยาการ คอมพิวเตอร์และสารสนเทศ

เป้าหมายของ CiteSeer คือการปรับปรุงการเผยแพร่และการเข้าถึงเอกสารทางวิชาการและวิทยาศาสตร์ ในฐานะบริการที่ไม่แสวงหาผลกำไรซึ่งทุกคนสามารถใช้งานได้ฟรี CiteSeer ถือเป็นส่วนหนึ่งของ การเคลื่อนไหว การเข้าถึงแบบเปิดที่พยายามเปลี่ยนแปลงการเผยแพร่ทางวิชาการและวิทยาศาสตร์เพื่อให้สามารถเข้าถึงเอกสารทางวิทยาศาสตร์ได้มากขึ้น CiteSeer ให้บริการข้อมูลเมตา ของ Open Archives Initiative สำหรับเอกสารที่จัดทำดัชนีทั้งหมดโดยไม่เสีย ^ค่า ใช้ จ่ายและเชื่อมโยงเอกสารที่จัดทำดัชนีไปยังแหล่งข้อมูลเมตาอื่นๆ เช่นDBLPและACM Portal เมื่อเป็นไปได้ เพื่อส่งเสริมข้อมูลแบบเปิด CiteSeerX แบ่งปันข้อมูลเพื่อวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์ภายใต้ใบอนุญาต Creative Commons [ ¹^]

CiteSeer ถือเป็นต้นแบบของเครื่องมือค้นหาทางวิชาการ เช่นGoogle ScholarและMicrosoft Academic Search [ ^{2 ] เครื่องมือ}และคลังข้อมูลที่คล้ายกับ CiteSeer มักจะรวบรวมเอกสารจากเว็บไซต์ที่เปิดเผยต่อสาธารณะเท่านั้น และจะไม่รวบรวมข้อมูลจากเว็บไซต์ของผู้จัดพิมพ์ ด้วยเหตุนี้ ผู้เขียนที่มีเอกสารเผยแพร่อย่างเปิดเผยจึงมีแนวโน้มที่จะปรากฏอยู่ในดัชนีมากกว่า

CiteSeer เปลี่ยนชื่อเป็น ResearchIndex ในช่วงหนึ่ง แล้วก็เปลี่ยนกลับมาใช้ชื่อเดิม^{[ 3 ]}

ประวัติศาสตร์

CiteSeer และ CiteSeer.IST

CiteSeer ถูกสร้างขึ้นโดยนักวิจัยLee Giles , Kurt BollackerและSteve Lawrenceในปี 1997 ขณะที่พวกเขากำลังทำงานอยู่ที่สถาบันวิจัย NEC (ปัจจุบันคือNEC Labs ) เมืองพรินซ์ตัน รัฐนิวเจอร์ซีย์สหรัฐอเมริกา เป้าหมายของ CiteSeer คือการรวบรวมและจัดเก็บเอกสารทางวิชาการและวิทยาศาสตร์บนเว็บอย่างมีประสิทธิภาพ และใช้การจัดทำดัชนีการอ้างอิง แบบอัตโนมัติ เพื่อให้สามารถค้นหาตามการอ้างอิงหรือตามเอกสาร โดยจัดอันดับตามผลกระทบของการอ้างอิงครั้งหนึ่งเคยใช้ชื่อว่า ResearchIndex

CiteSeer เปิดตัวสู่สาธารณะในปี 1998 และมีคุณสมบัติใหม่มากมายที่ไม่มีในเครื่องมือค้นหาทางวิชาการในขณะนั้น ซึ่งรวมถึง:

ระบบสร้างดัชนีอ้างอิงอัตโนมัติ (Autonomous Citation Indexing) สร้างดัชนีอ้างอิงที่สามารถนำไปใช้ในการค้นหาและประเมินวรรณกรรมได้โดยอัตโนมัติ
มีการคำนวณสถิติการอ้างอิงและเอกสารที่เกี่ยวข้องสำหรับบทความทั้งหมดที่ถูกอ้างอิงในฐานข้อมูล ไม่ใช่เฉพาะบทความที่ถูกจัดทำดัชนีเท่านั้น
การเชื่อมโยงอ้างอิง ช่วยให้สามารถเรียกดูฐานข้อมูลโดยใช้ลิงก์อ้างอิงได้
บริบทการอ้างอิงแสดงบริบทของการอ้างอิงถึงบทความที่กำหนด ช่วยให้นักวิจัยสามารถดูได้อย่างรวดเร็วและง่ายดายว่านักวิจัยคนอื่นๆ กล่าวถึงบทความที่สนใจอย่างไร
เอกสารที่เกี่ยวข้องแสดงโดยใช้การอ้างอิงและจำนวนคำเป็นเกณฑ์ และมีการแสดงบรรณานุกรมที่อัปเดตอย่างต่อเนื่องสำหรับเอกสารแต่ละฉบับ

CiteSeer ได้รับ สิทธิบัตรของสหรัฐอเมริกาหมายเลข 6289342 ในชื่อ " การจัดทำดัชนีการอ้างอิงและการเรียกดูเอกสารโดยอัตโนมัติโดยใช้บริบทการอ้างอิง"เมื่อวันที่ 11 กันยายน 2544 สิทธิบัตรนี้ยื่นขอเมื่อวันที่ 20 พฤษภาคม 2541 และมีสิทธิได้รับสิทธิบัตรก่อนหน้าเมื่อวันที่ 5 มกราคม 2541 สิทธิบัตรต่อเนื่อง (สิทธิบัตรของสหรัฐอเมริกาหมายเลข 6738780) ยื่นขอเมื่อวันที่ 16 พฤษภาคม 2544 และได้รับอนุมัติเมื่อวันที่ 18 พฤษภาคม 2547

หลังจาก NEC ในปี 2004 CiteSeer ได้ถูกนำไปเผยแพร่ในชื่อ CiteSeer.IST บนเวิลด์ไวด์เว็บที่วิทยาลัยวิทยาศาสตร์และเทคโนโลยีสารสนเทศมหาวิทยาลัยเพนซิลเวเนียสเตทและมีเอกสารมากกว่า 700,000 รายการ เพื่อเพิ่มประสิทธิภาพการเข้าถึง การทำงาน และการวิจัย จึงมีการสนับสนุนเวอร์ชันที่คล้ายกันของ CiteSeer ในมหาวิทยาลัยต่างๆ เช่นสถาบันเทคโนโลยีแมสซา ชูเซต ส์มหาวิทยาลัยซูริคและมหาวิทยาลัยแห่งชาติสิงคโปร์อย่างไรก็ตาม เวอร์ชันของ CiteSeer เหล่านี้พิสูจน์แล้วว่าดูแลรักษายากและปัจจุบันไม่สามารถใช้งานได้อีกต่อไป เนื่องจาก CiteSeer จัดทำดัชนีเฉพาะเอกสารที่เผยแพร่อย่างอิสระบนเว็บเท่านั้น และไม่สามารถเข้าถึงข้อมูลเมตาของผู้จัดพิมพ์ได้ จึงทำให้จำนวนการอ้างอิงน้อยกว่าเว็บไซต์ เช่นGoogle Scholarที่มีข้อมูลเมตาของผู้จัดพิมพ์

CiteSeer ไม่ได้รับการอัปเดตอย่างครอบคลุมมาตั้งแต่ปี 2005 เนื่องจากข้อจำกัดในการออกแบบสถาปัตยกรรม ถึงแม้ว่าจะมีตัวอย่างเอกสารงานวิจัยที่เป็นตัวแทนในสาขาวิทยาการคอมพิวเตอร์และสารสนเทศ แต่ขอบเขตการครอบคลุมนั้นจำกัดอยู่เฉพาะเอกสารที่เผยแพร่สู่สาธารณะ ซึ่งโดยปกติจะอยู่ที่โฮมเพจของผู้เขียน หรือเอกสารที่ผู้เขียนส่งเข้ามา เพื่อเอาชนะข้อจำกัดเหล่านี้ จึงได้ออกแบบสถาปัตยกรรมแบบโมดูลาร์และโอเพนซอร์สสำหรับ CiteSeer ขึ้นมา – นั่นคือ CiteSeerX

ไซต์ซีเออร์เอ็กซ์

CiteSeerX เข้ามาแทนที่ CiteSeer และการค้นหาทั้งหมดไปยัง CiteSeer ถูกเปลี่ยนเส้นทาง CiteSeerX ^{[ 4 ]} เป็น เครื่องมือค้นหาสาธารณะและห้องสมุดดิจิทัลและคลังข้อมูลสำหรับเอกสารทางวิทยาศาสตร์และวิชาการ โดยเน้นที่วิทยาการคอมพิวเตอร์และสารสนเทศ เป็นหลัก ^{[ 4 ]}อย่างไรก็ตาม เมื่อไม่นานมานี้ CiteSeerX ได้ขยายไปสู่สาขาวิชาการอื่นๆ เช่น เศรษฐศาสตร์ ฟิสิกส์ และอื่นๆ เปิดตัวในปี 2551 โดยอิงจากเครื่องมือค้นหาและห้องสมุดดิจิทัล CiteSeer รุ่นก่อนหน้า และสร้างขึ้นด้วย โครงสร้างพื้นฐาน โอเพนซอร์ส ใหม่ SeerSuite และอัลกอริทึมใหม่และการนำไปใช้ พัฒนาโดยนักวิจัย Isaac Councill และ C. Lee Gilesที่วิทยาลัยวิทยาศาสตร์และเทคโนโลยีสารสนเทศ มหาวิทยาลัยเพนซิลเวเนียสเตทยังคงสนับสนุนเป้าหมายที่ CiteSeer กำหนดไว้ คือ การรวบรวมและเก็บรวบรวมเอกสารทางวิชาการและวิทยาศาสตร์บนเว็บสาธารณะอย่างแข็งขัน และใช้การสอบถามการอ้างอิงโดยการอ้างอิงและการจัดอันดับเอกสารตามผลกระทบของการอ้างอิง ปัจจุบัน Lee Giles, Prasenjit Mitra, Susan Gauch, Min-Yen Kan, Pradeep Teregowda, Juan Pablo Fernández Ramírez, Pucktada Treeratpituk, Jian Wu, Hung-Hsuan Chen, Madian Khabsa, Kyle Williams, Douglas Jordan, Steve Carman, Jack Carroll, Jim Jansen และ Shuyi Zheng มีส่วนร่วมหรือเคยมีส่วนร่วมอย่างแข็งขันในการพัฒนาระบบนี้ เมื่อเร็วๆ นี้ได้มีการเพิ่มฟีเจอร์การค้นหาตารางเข้ามา^{[ 5 ]}ระบบนี้ได้รับการสนับสนุนทางการเงินจากNational Science Foundation , NASAและMicrosoft Research

CiteSeerX ยังคงได้รับการจัดอันดับให้เป็นหนึ่งในคลังข้อมูลชั้นนำของโลก และได้รับการจัดอันดับเป็นอันดับ 1 ในเดือนกรกฎาคม 2553 ^{[ 6 ]}ปัจจุบันมีเอกสารมากกว่า 6 ล้านฉบับ โดยมีผู้เขียนที่ไม่ซ้ำกันเกือบ 6 ล้านคน และมีการอ้างอิง 120 ล้านครั้ง

CiteSeerX ยังแบ่งปันซอฟต์แวร์ ข้อมูล ฐานข้อมูล และเมตาเดตาให้กับนักวิจัยรายอื่น ๆ โดยปัจจุบันใช้Amazon S3และrsync ^{[ 7 ]}สถาปัตยกรรมและซอฟต์แวร์โอเพนซอร์สแบบโมดูลาร์ใหม่ (ก่อนหน้านี้มีให้บริการบนSourceForgeแต่ตอนนี้อยู่บนGitHub ) สร้างขึ้นบนApache Solrและ เครื่องมือ Apache และโอเพ นซอร์สอื่น ๆ ซึ่งทำให้สามารถเป็นสนามทดสอบสำหรับอัลกอริธึมใหม่ ๆ ในการรวบรวมเอกสาร การจัดอันดับ การจัดทำดัชนี และการสกัดข้อมูล

CiteSeerX จะแคชไฟล์ PDF บางไฟล์ที่สแกนไว้ ดังนั้นแต่ละหน้าจึงมี ลิงก์ DMCAซึ่งสามารถใช้รายงานการละเมิดลิขสิทธิ์ได้^{[ 8 ]}

คุณสมบัติปัจจุบัน

การดึงข้อมูลอัตโนมัติ

CiteSeerX ใช้ เครื่องมือ การดึงข้อมูล อัตโนมัติ ซึ่งโดยทั่วไปสร้างขึ้นจากวิธีการเรียนรู้ของเครื่อง เช่น ParsCit เพื่อดึงข้อมูลเมตาของเอกสารทางวิชาการ เช่น ชื่อเรื่อง ผู้เขียน บทคัดย่อ การอ้างอิง เป็นต้น ดังนั้นบางครั้งอาจมีข้อผิดพลาดเกี่ยวกับผู้เขียนและชื่อเรื่อง เครื่องมือค้นหาทางวิชาการอื่นๆ ก็มีข้อผิดพลาดที่คล้ายกันเช่นกัน

การคลานอย่างมีสมาธิ

CiteSeerX รวบรวมข้อมูลจากเอกสารวิชาการที่เปิดเผยต่อสาธารณะเป็นหลักจากเว็บไซต์ของผู้เขียนและแหล่งข้อมูลเปิดอื่นๆ และไม่สามารถเข้าถึงข้อมูลเมตาของผู้จัดพิมพ์ได้ ดังนั้น จำนวนการอ้างอิงใน CiteSeerX จึงมักน้อยกว่าใน Google Scholar และ Microsoft Academic Search ซึ่งสามารถเข้าถึงข้อมูลเมตาของผู้จัดพิมพ์ได้

การใช้งาน

CiteSeerX มีผู้ใช้งานเกือบหนึ่งล้านคนทั่วโลกโดยอิงจากที่อยู่ IP ที่ไม่ซ้ำกัน และมีการเข้าชมหลายล้านครั้งต่อวัน ยอดดาวน์โหลดเอกสาร PDF ต่อปีอยู่ที่เกือบ 200 ล้านครั้งในปี 2015 ปัจจุบัน CiteSeerX ปิดตัวลงเนื่องจากขาดเงินทุนและการสนับสนุนจากมหาวิทยาลัยเพนน์สเตท ข้อมูลของ CiteSeerX ได้รับการสนับสนุนจาก Internet Archive และ AWS

ข้อมูล

ข้อมูลจาก CiteSeerX ได้รับการเผยแพร่เป็นประจำภายใต้สัญญาอนุญาต Creative Commons BY-NC-SAให้แก่นักวิจัยทั่วโลก และถูกนำไปใช้ในงานทดลองและการแข่งขันมากมาย

ด้วยจุดสิ้นสุดOAI-PMH ^{[ 9 ]} CiteSeerX จึงเป็นคลังข้อมูลแบบเปิดและเนื้อหาของคลังข้อมูลนี้จะถูกจัดทำดัชนีเหมือนกับคลังข้อมูลของสถาบันในเครื่องมือค้นหาทางวิชาการเช่นBASEและผู้ใช้ Unpaywall

เครื่องมือค้นหาอื่นๆ ที่ใช้ SeerSuite

โมเดล CiteSeer ได้ถูกขยายให้ครอบคลุมเอกสารทางวิชาการในภาคธุรกิจด้วยSmealSearchและในภาคธุรกิจอิเล็กทรอนิกส์ด้วยeBizSearchอย่างไรก็ตาม ผู้สนับสนุนไม่ได้ดูแลรักษาโปรแกรมเหล่านี้อีกต่อไป เวอร์ชันเก่าของทั้งสองโปรแกรมเคยพบได้ที่BizSeer.ISTแต่ปัจจุบันไม่สามารถใช้งานได้แล้ว

ระบบค้นหาและจัดเก็บข้อมูลที่คล้ายกับ Seer อื่นๆ ได้ถูกสร้างขึ้นสำหรับสาขาเคมี ( ChemXSeer ) และสำหรับโบราณคดี (ArchSeer) นอกจากนี้ยังมีระบบที่สร้างขึ้นสำหรับการค้นหาไฟล์robots.txt ชื่อ BotSeerระบบทั้งหมดนี้สร้างขึ้นบนเครื่องมือโอเพนซอร์สSeerSuiteซึ่งใช้ตัวจัดทำดัชนีโอเพนซอร์ส Lucene

ดูเพิ่มเติม

อาร์เน็ตไมเนอร์
อาร์เอ็กซ์ไอวี
รวมบรรณานุกรมด้านวิทยาศาสตร์คอมพิวเตอร์
DBLP (โครงการบรรณานุกรมและห้องสมุดดิจิทัล)
คลังข้อมูลทางวินัย
Google Scholar
รายชื่อฐานข้อมูลทางวิชาการและเครื่องมือค้นหา
ไมโครซอฟต์ อคาเดมี
บทความวิจัยทางเศรษฐศาสตร์ (RePEc)
นักวิชาการด้านความหมาย

อ่านเพิ่มเติม

Giles, C. Lee; Bollacker, Kurt D.; Lawrence, Steve (1998). "CiteSeer: ระบบจัดทำดัชนีการอ้างอิงอัตโนมัติ". รายงานการประชุม ACM ครั้งที่ 3 ว่าด้วยห้องสมุดดิจิทัลหน้า 89–98 . CiteSeerX 10.1.1.30.6847 . doi : 10.1145/276675.276685 . ISBN 978-0-89791-965-4. S2CID 514080 .

ลิงก์ภายนอก

เว็บไซต์อย่างเป็นทางการ

[ 1 ]

2 ] เครื่องมือ

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

ไซต์ซีเออร์เอ็กซ์

ประวัติศาสตร์

CiteSeer และ CiteSeer.IST

ไซต์ซีเออร์เอ็กซ์

คุณสมบัติปัจจุบัน

การดึงข้อมูลอัตโนมัติ

การคลานอย่างมีสมาธิ

การใช้งาน

ข้อมูล

เครื่องมือค้นหาอื่นๆ ที่ใช้ SeerSuite

ดูเพิ่มเติม

อ่านเพิ่มเติม

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ