อ่าน 5 นาที
การเก็บรักษาเว็บ
การเก็บรักษาข้อมูลบนเว็บเป็นกระบวนการรวบรวม เก็บรักษา และให้การเข้าถึงข้อมูลจากเวิลด์ไวด์เว็บจุดมุ่งหมายคือเพื่อให้แน่ใจว่าข้อมูลได้รับการเก็บรักษาไว้ใน รูปแบบ
การเก็บรักษาเว็บ
การเก็บรักษาข้อมูลบนเว็บเป็นกระบวนการรวบรวม เก็บรักษา และให้การเข้าถึงข้อมูลจากเวิลด์ไวด์เว็บจุดมุ่งหมายคือเพื่อให้แน่ใจว่าข้อมูลได้รับการเก็บรักษาไว้ใน รูปแบบ การเก็บรักษาเพื่อการวิจัยและสาธารณะ[ 1 ]กระบวนการสร้างแพลตฟอร์มสำหรับการเก็บรักษาข้อมูล การแปลงบันทึกทางประวัติศาสตร์ให้เป็นดิจิทัลผ่านอินเทอร์เฟซที่มีรูปแบบคล้ายกับแพลตฟอร์มโซเชียลมีเดีย สามารถปรับเปลี่ยนความทรงจำร่วมกันโดยให้ความสำคัญกับเนื้อหาที่สอดคล้องกับตรรกะของโซเชียลมีเดีย เช่น ความนิยม การเชื่อมต่อ และความสามารถในการตั้งโปรแกรม[ 2 ]
โดยทั่วไปแล้ว ผู้ดูแลคลังข้อมูลเว็บจะใช้ โปรแกรมรวบรวมข้อมูลเว็บอัตโนมัติเพื่อเก็บรวบรวมข้อมูลจำนวนมหาศาลบนเว็บ บริการคลังข้อมูลเว็บที่เป็นที่รู้จักกันอย่างแพร่หลายคือWayback Machineซึ่งดำเนินการโดยInternet Archive
สัดส่วนของวัฒนธรรมมนุษย์ที่สร้างและบันทึกไว้บนเว็บเพิ่มมากขึ้นเรื่อยๆ ทำให้ห้องสมุดและหอจดหมายเหตุต้องเผชิญกับความท้าทายในการเก็บรักษาเว็บมากขึ้นเรื่อยๆ อย่างหลีกเลี่ยงไม่ได้[ 3 ]ห้องสมุดแห่งชาติหอจดหมายเหตุแห่งชาติและกลุ่มองค์กรต่างๆ ก็มีส่วนร่วมในการเก็บรักษาเนื้อหาเว็บเพื่อป้องกันการสูญหายเช่น กัน
นอกจากนี้ ยังมีซอฟต์แวร์และบริการเก็บรักษาเว็บไซต์เชิงพาณิชย์สำหรับองค์กรที่ต้องการเก็บรักษาเนื้อหาเว็บไซต์ของตนเองเพื่อวัตถุประสงค์ด้านมรดกองค์กร ข้อบังคับ หรือทางกฎหมาย
ประวัติและพัฒนาการ
แม้ว่าการดูแลจัดการและการจัดระเบียบเว็บจะแพร่หลายมาตั้งแต่ช่วงกลางถึงปลายทศวรรษ 1990 แต่หนึ่งในโครงการเก็บรักษาเว็บขนาดใหญ่ครั้งแรกคือInternet Archiveซึ่งเป็นองค์กรไม่แสวงหาผลกำไรที่ก่อตั้งโดยBrewster Kahleในปี 1996 [ 4 ] Internet Archive ได้เปิดตัวเครื่องมือค้นหาของตนเองสำหรับการดูเนื้อหาเว็บที่เก็บถาวรWayback Machineในปี 2001 [ 4 ]ณ ปี 2018 Internet Archive มีข้อมูลอยู่ 40 เพตาไบต์[ 5 ] Internet Archive ยังได้พัฒนาเครื่องมือของตนเองมากมายสำหรับการรวบรวมและจัดเก็บข้อมูล รวมถึงPetaBoxสำหรับจัดเก็บข้อมูลจำนวนมากอย่างมีประสิทธิภาพและปลอดภัย และHeritrixซึ่งเป็นเว็บครอว์เลอร์ที่พัฒนาขึ้นร่วมกับห้องสมุดแห่งชาติของกลุ่มประเทศนอร์ดิก[ 4 ]โครงการอื่นๆ ที่เปิดตัวในช่วงเวลาเดียวกัน ได้แก่ โครงการเก็บรักษาเว็บโดยห้องสมุดแห่งชาติของแคนาดาPandoraของออสเตรเลียคลังเว็บของแทสเมเนีย และ Kulturarw3 ของสวีเดน[ 6 ] [ 7 ]
ตั้งแต่ปี 2001 ถึง 2010การประชุมเชิงปฏิบัติการการเก็บรักษาเว็บระหว่างประเทศ (IWAW) ได้จัดเตรียมแพลตฟอร์มเพื่อแบ่งปันประสบการณ์และแลกเปลี่ยนความคิดเห็น[ 8 ] [ 9 ]สมาคมการอนุรักษ์อินเทอร์เน็ตระหว่างประเทศ (IIPC) ซึ่งก่อตั้งขึ้นในปี 2003 ได้อำนวยความสะดวกในการทำงานร่วมกันระหว่างประเทศในการพัฒนามาตรฐานและเครื่องมือโอเพนซอร์สสำหรับการสร้างคลังเว็บ[ 10 ]
มูลนิธิ Internet Memory Foundationซึ่งปัจจุบันเลิกกิจการไปแล้ว ก่อตั้งขึ้นในปี 2547 โดยคณะกรรมาธิการยุโรปเพื่อเก็บรักษาเว็บในยุโรป[ 4 ]โครงการนี้ได้พัฒนาและเผยแพร่เครื่องมือโอเพนซอร์สมากมาย เช่น "การจับภาพสื่อที่หลากหลาย การวิเคราะห์ความสอดคล้องเชิงเวลา การประเมินสแปม และการตรวจจับวิวัฒนาการของคำศัพท์" [ 4 ]ปัจจุบันข้อมูลจากมูลนิธินี้ถูกเก็บรักษาไว้โดย Internet Archive แต่ยังไม่สามารถเข้าถึงได้โดยสาธารณะ[ 11 ]
แม้ว่าจะไม่มีหน่วยงานกลางที่รับผิดชอบในการเก็บรักษา แต่เนื้อหาบนเว็บกำลังกลายเป็นบันทึกอย่างเป็นทางการอย่างรวดเร็ว ตัวอย่างเช่น ในปี 2017 กระทรวงยุติธรรมของสหรัฐอเมริกายืนยันว่ารัฐบาลถือว่าทวีต ของประธานาธิบดี เป็นคำแถลงอย่างเป็นทางการ[ 12 ]
วิธีการเก็บรวบรวมข้อมูล
โดยทั่วไปแล้ว ผู้ดูแลคลังข้อมูลเว็บจะเก็บรักษาเนื้อหาเว็บประเภทต่างๆ รวมถึงหน้าเว็บHTML , สไตล์ชีต , JavaScript , รูปภาพและวิดีโอนอกจากนี้ยังเก็บรักษาเมตาเดตาเกี่ยวกับทรัพยากรที่รวบรวมไว้ เช่น เวลาเข้าถึงประเภท MIMEและความยาวของเนื้อหา เมตาเดตาเหล่านี้มีประโยชน์ในการตรวจสอบความถูกต้องและที่มาของชุดข้อมูลที่เก็บรักษาไว้
การเก็บรักษาธุรกรรม
การเก็บถาวรธุรกรรมเป็นแนวทางที่ขับเคลื่อนด้วยเหตุการณ์ ซึ่งรวบรวมธุรกรรมจริงที่เกิดขึ้นระหว่างเว็บเซิร์ฟเวอร์และเว็บเบราว์เซอร์โดยส่วนใหญ่ใช้เป็นวิธีการเก็บรักษาหลักฐานของเนื้อหาที่ถูกดูจริงบนเว็บไซต์ ใดเว็บไซต์หนึ่ง ในวันที่กำหนด ซึ่งอาจมีความสำคัญเป็นพิเศษสำหรับองค์กรที่ต้องปฏิบัติตามข้อกำหนดทางกฎหมายหรือข้อบังคับเกี่ยวกับการเปิดเผยและการเก็บรักษาข้อมูล[ 13 ]
โดยทั่วไป ระบบจัดเก็บข้อมูลธุรกรรมจะทำงานโดยการดักจับทุก คำขอ HTTPที่ส่งไปยังและตอบกลับจากเว็บเซิร์ฟเวอร์ กรองการตอบกลับแต่ละรายการเพื่อกำจัดเนื้อหาที่ซ้ำกัน และจัดเก็บการตอบกลับเหล่านั้นอย่างถาวรในรูปแบบบิตสตรีม
ความยากลำบากและข้อจำกัด
ครอว์เลอร์
เว็บอาร์ไคฟ์ที่อาศัยการรวบรวมข้อมูลจากเว็บเป็นหลักในการเก็บรวบรวมข้อมูลจากเว็บนั้น ได้รับผลกระทบจากความยากลำบากของการรวบรวมข้อมูลจากเว็บ:
- โปรโตคอลการยกเว้นบอทอาจขอให้โปรแกรมรวบรวมข้อมูลไม่เข้าถึงบางส่วนของเว็บไซต์ แต่ผู้ดูแลคลังข้อมูลเว็บบางรายอาจเพิกเฉยต่อคำขอและรวบรวมข้อมูลในส่วนเหล่านั้นอยู่ดี
- ส่วนสำคัญของเว็บไซต์อาจถูกซ่อนอยู่ในDeep Webตัวอย่างเช่น หน้าผลลัพธ์หลังแบบฟอร์มบนเว็บอาจอยู่ใน Deep Web หากโปรแกรมรวบรวมข้อมูลไม่สามารถติดตามลิงก์ไปยังหน้าผลลัพธ์ได้
- กับดักของโปรแกรมรวบรวมข้อมูล (เช่น ปฏิทิน) อาจทำให้โปรแกรมรวบรวมข้อมูลดาวน์โหลดหน้าเว็บจำนวนมหาศาล ดังนั้นโดยปกติแล้วโปรแกรมรวบรวมข้อมูลจึงถูกตั้งค่าให้จำกัดจำนวนหน้าเว็บแบบไดนามิกที่พวกมันรวบรวมข้อมูล
- เครื่องมือจัดเก็บข้อมูลส่วนใหญ่ไม่ได้บันทึกหน้าเว็บในรูปแบบเดิม พบว่าแบนเนอร์โฆษณาและรูปภาพมักจะหายไปในระหว่างการจัดเก็บข้อมูล
อย่างไรก็ตาม การสร้างเว็บอาร์ไคฟ์ในรูปแบบดั้งเดิม กล่าวคือ เว็บอาร์ไคฟ์ที่สามารถเรียกดูได้อย่างสมบูรณ์ พร้อมลิงก์ที่ใช้งานได้ สื่อต่างๆ ฯลฯ นั้น จะเป็นไปได้อย่างแท้จริงก็ต่อเมื่อใช้เทคโนโลยีครอว์เลอร์เท่านั้น
เว็บนั้นกว้างใหญ่มาก การรวบรวมข้อมูลในส่วนสำคัญของเว็บจึงต้องใช้ทรัพยากรทางเทคนิคจำนวนมาก นอกจากนี้ เว็บยังเปลี่ยนแปลงอย่างรวดเร็วมาก จนบางส่วนของเว็บไซต์อาจได้รับการแก้ไขก่อนที่โปรแกรมรวบรวมข้อมูลจะรวบรวมข้อมูลเสร็จสิ้นเสียด้วยซ้ำ
ข้อจำกัดทั่วไป
เว็บเซิร์ฟเวอร์บางแห่งถูกตั้งค่าให้ส่งหน้าเว็บที่แตกต่างกันกลับไปยังโปรแกรมเก็บข้อมูลเว็บ (web archiver) เมื่อเทียบกับการตอบสนองต่อคำขอปกติจากเบราว์เซอร์ โดยทั่วไปแล้ว การทำเช่นนี้มีจุดประสงค์เพื่อหลอกเครื่องมือค้นหาให้ส่งผู้เข้าชมเว็บไซต์มากขึ้น และมักทำเพื่อหลีกเลี่ยงความรับผิดชอบ หรือเพื่อให้เนื้อหาที่ได้รับการปรับปรุงแล้วแก่เบราว์เซอร์ที่สามารถแสดงผลได้เท่านั้น
ผู้ดูแลเว็บไม่เพียงต้องรับมือกับความท้าทายทางเทคนิคของการเก็บรักษาเว็บเท่านั้น แต่ยังต้องรับมือกับกฎหมายทรัพย์สินทางปัญญาด้วย ปีเตอร์ ไลแมน[ 14 ]กล่าวว่า "แม้ว่าเว็บจะได้รับการยอมรับโดยทั่วไปว่าเป็น ทรัพยากร สาธารณะแต่ก็มีลิขสิทธิ์ดังนั้นผู้ดูแลเว็บจึงไม่มีสิทธิ์ตามกฎหมายที่จะคัดลอกเว็บ" อย่างไรก็ตามห้องสมุดแห่งชาติในบางประเทศ[ 15 ]มีสิทธิ์ตามกฎหมายที่จะคัดลอกบางส่วนของเว็บภายใต้การขยาย การฝาก ตาม กฎหมาย
เว็บอาร์ไคฟ์ส่วนตัวที่ไม่แสวงหาผลกำไรบางแห่งที่เปิดให้สาธารณะเข้าถึงได้ เช่นWebCite , Internet ArchiveหรือInternet Memory Foundationอนุญาตให้เจ้าของเนื้อหาซ่อนหรือลบเนื้อหาที่เก็บถาวรไว้ซึ่งพวกเขาไม่ต้องการให้สาธารณะเข้าถึงได้ เว็บอาร์ไคฟ์อื่นๆ สามารถเข้าถึงได้จากบางสถานที่เท่านั้น หรือมีการควบคุมการใช้งาน WebCite อ้างถึงคดีฟ้องร้องล่าสุดเกี่ยวกับการแคชของ Google ซึ่งGoogleเป็นฝ่ายชนะ[ 16 ]
กฎหมาย
ในปี 2017 Financial Industry Regulatory Authority, Inc. (FINRA) ซึ่งเป็นองค์กรกำกับดูแลทางการเงินของสหรัฐอเมริกา ได้ออกประกาศว่าธุรกิจทั้งหมดที่ทำการสื่อสารดิจิทัลจะต้องเก็บรักษาบันทึก ซึ่งรวมถึงข้อมูลเว็บไซต์ โพสต์โซเชียลมีเดีย และข้อความ[ 17 ]กฎหมายลิขสิทธิ์บางฉบับอาจขัดขวางการเก็บรักษาข้อมูลบนเว็บ ตัวอย่างเช่น การเก็บรักษาข้อมูลทางวิชาการโดยSci-Hubอยู่นอกเหนือขอบเขตของกฎหมายลิขสิทธิ์ในปัจจุบัน เว็บไซต์นี้ให้การเข้าถึงงานทางวิชาการอย่างถาวร รวมถึงงานที่ไม่มี ใบอนุญาต การเข้าถึงแบบเปิดและมีส่วนช่วยในการเก็บรักษางานวิจัยทางวิทยาศาสตร์ซึ่งอาจสูญหายไปได้[ 18 ] [ 19 ]
ดูเพิ่มเติม
- คลังเอกสารของแอนนา
- เว็บไซต์เก็บข้อมูล
- ทีมเก็บรักษาเอกสาร
- archive.today (เดิมชื่อ archive.is)
- ความทรงจำร่วมกัน
- คลานธรรมดา
- การกักตุนสินค้าดิจิทัล
- การเก็บรักษาข้อมูลดิจิทัล
- ห้องสมุดดิจิทัล
- คลังข้อมูลผี
- แคชของ Google
- รายชื่อโครงการเก็บรักษาข้อมูลเว็บ
- โครงการของที่ระลึก
- โครงการมิเนอร์วา
- เว็บไซต์มิเรอร์
- โครงการโครงสร้างพื้นฐานและการอนุรักษ์ข้อมูลดิจิทัลแห่งชาติ (NDIIPP)
- โครงการห้องสมุดดิจิทัลแห่งชาติ (NDLP)
- ปาดิแคท
- เพจฟรีเซอร์
- คลังข้อมูลแพนโดรา
- UK Web Archive
- สิ่งประดิษฐ์เสมือนจริง
- เครื่องย้อนเวลา
- การรวบรวมข้อมูลเว็บ
- เว็บไซต์
- เครื่องบันทึกเว็บ
บรรณานุกรมทั่วไป
- บราวน์, เอ. (2006). การเก็บรักษาเว็บไซต์: คู่มือปฏิบัติสำหรับผู้เชี่ยวชาญด้านการจัดการข้อมูล . ลอนดอน: สำนักพิมพ์เฟเซต. ISBN 978-1-85604-553-7.
- Brügger, N. (2005). การเก็บรักษาเว็บไซต์: ข้อพิจารณาทั่วไปและกลยุทธ์ . อาร์ฮุส: ศูนย์วิจัยอินเทอร์เน็ต. ISBN 978-87-990507-0-3เก็บถาวรจากต้นฉบับเมื่อวันที่ 29 มกราคม 2552
- เดย์, เอ็ม. ( 2003). "การรักษาโครงสร้างพื้นฐานของชีวิตเรา: การสำรวจโครงการริเริ่มการอนุรักษ์เว็บ" (PDF) การวิจัยและเทคโนโลยีขั้นสูงสำหรับห้องสมุดดิจิทัลบันทึกการบรรยายในวิทยาการคอมพิวเตอร์ เล่มที่ 2769 หน้า 461–472 doi : 10.1007/978-3-540-45175-4_42 ISBN 978-3-540-40726-3. เก็บถาวร(PDF)จากต้นฉบับเมื่อวันที่ 29 ตุลาคม 2023 . เรียกดูเมื่อวันที่ 16 พฤศจิกายน 2023 .
- Eysenbach, G. & Trudel, M. (2005). "Going, going, still there: using the WebCite service to permanently archive cited web pages" . Journal of Medical Internet Research . 7 (5) e60. doi : 10.2196/jmir.7.5.e60 . PMC 1550686 . PMID 16403724 .
- ฟิตช์, เคนท์ (2003). "การเก็บรักษาเว็บไซต์—แนวทางในการบันทึกการตอบสนองที่แตกต่างกันทุกรูปแบบที่เกิดขึ้นจากเว็บไซต์" . Ausweb 03 . เก็บถาวรจากต้นฉบับเมื่อวันที่ 20 กรกฎาคม 2003 . สืบค้นเมื่อ 27 กันยายน 2006 .
- จาโคบี, โรเบิร์ต (19 สิงหาคม 2553). "การเก็บรักษาหน้าเว็บ" . seoq.com . เก็บถาวรจากต้นฉบับเมื่อวันที่ 3 มกราคม 2554 . เรียกดูเมื่อวันที่ 23 ตุลาคม 2553 .
- ไลแมน, ปีเตอร์ (2002). "การเก็บรักษาเวิลด์ไวด์เว็บ" . การสร้างยุทธศาสตร์ระดับชาติเพื่อการอนุรักษ์: ประเด็นปัญหาในการเก็บรักษาสื่อดิจิทัล (PDF) . สภาห้องสมุดและทรัพยากรสารสนเทศ . หน้า 38–51 . ISBN 978-1-887334-91-4.
- Masanès, J., บรรณาธิการ (2006). การเก็บรักษาข้อมูลบนเว็บ . เบอร์ลิน: Springer-Verlag . ISBN 978-3-540-23338-1.
- Pennock, Maureen (2013). การเก็บรักษาข้อมูลบนเว็บ . รายงานการเฝ้าระวังเทคโนโลยีของ DPC. สหราชอาณาจักร: Digital Preservation Coalition . doi : 10.7207/twr13-01 . ISSN 2048-7916 .
- Toyoda, M.; Kitsuregawa, M. (2012). "ประวัติศาสตร์ของการเก็บรักษาข้อมูลบนเว็บ" . Proceedings of the IEEE . 100 (ฉบับพิเศษครบรอบร้อยปี): 1441– 1443. doi : 10.1109/JPROC.2012.2189920 .
ลิงก์ภายนอก
- สมาคมอนุรักษ์อินเทอร์เน็ตนานาชาติ (IIPC) — สมาคมนานาชาติที่มีพันธกิจในการรวบรวม อนุรักษ์ และทำให้ความรู้และข้อมูลจากอินเทอร์เน็ตสามารถเข้าถึงได้สำหรับคนรุ่นหลัง
- หอสมุดแห่งชาติออสเตรเลีย, การรักษาการเข้าถึงข้อมูลดิจิทัล (PADI)
- หอสมุดรัฐสภาสหรัฐอเมริกา—การเก็บรักษาข้อมูลบนเว็บ
- องค์กรไม่แสวงหาผลกำไรด้านการกักตุนข้อมูล
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การเก็บรักษาเว็บ
การเก็บรักษาข้อมูลบนเว็บเป็นกระบวนการรวบรวม เก็บรักษา และให้การเข้าถึงข้อมูลจากเวิลด์ไวด์เว็บจุดมุ่งหมายคือเพื่อให้แน่ใจว่าข้อมูลได้รับการเก็บรักษาไว้ใน รูปแบบ
ประวัติและพัฒนาการ
แม้ว่าการดูแลจัดการและการจัดระเบียบเว็บจะแพร่หลายมาตั้งแต่ช่วงกลางถึงปลายทศวรรษ 1990 แต่หนึ่งในโครงการเก็บรักษาเว็บขนาดใหญ่ครั้งแรกคือ Internet Archive ซึ่งเป็นองค์กรไม่แสวงหาผลกำไรที่ก่อตั้งโดย Brewster Kahle ในปี 1996 [ 4 ] Internet Archive...
วิธีการเก็บรวบรวมข้อมูล
โดยทั่วไปแล้ว ผู้ดูแลคลังข้อมูลเว็บจะเก็บรักษาเนื้อหาเว็บประเภทต่างๆ รวมถึงหน้าเว็บ HTML , สไตล์ชีต , JavaScript , รูปภาพ และ วิดีโอ นอกจากนี้ยังเก็บรักษา เมตาเดตา เกี่ยวกับทรัพยากรที่รวบรวมไว้ เช่น เวลาเข้าถึง ประเภท MIME และความยาวของเนื้อหา...
การเก็บรักษาธุรกรรม
การเก็บถาวรธุรกรรมเป็นแนวทางที่ขับเคลื่อนด้วยเหตุการณ์ ซึ่งรวบรวมธุรกรรมจริงที่เกิดขึ้นระหว่าง เว็บเซิร์ฟเวอร์ และ เว็บเบราว์เซอร์ โดยส่วนใหญ่ใช้เป็นวิธีการเก็บรักษาหลักฐานของเนื้อหาที่ถูกดูจริงบน เว็บไซต์ ใดเว็บไซต์หนึ่ง ในวันที่กำหนด...