การเก็บรักษาเว็บ

Q: ข้อมูลสำคัญเกี่ยวกับ การเก็บรักษาเว็บ

การเก็บรักษาข้อมูลบนเว็บเป็นกระบวนการรวบรวม เก็บรักษา และให้การเข้าถึงข้อมูลจากเวิลด์ไวด์เว็บจุดมุ่งหมายคือเพื่อให้แน่ใจว่าข้อมูลได้รับการเก็บรักษาไว้ใน รูปแบบ

การเก็บรักษาข้อมูลบนเว็บเป็นกระบวนการรวบรวม เก็บรักษา และให้การเข้าถึงข้อมูลจากเวิลด์ไวด์เว็บจุดมุ่งหมายคือเพื่อให้แน่ใจว่าข้อมูลได้รับการเก็บรักษาไว้ใน รูปแบบ การเก็บรักษาเพื่อการวิจัยและสาธารณะ^{[ 1 ]}กระบวนการสร้างแพลตฟอร์มสำหรับการเก็บรักษาข้อมูล การแปลงบันทึกทางประวัติศาสตร์ให้เป็นดิจิทัลผ่านอินเทอร์เฟซที่มีรูปแบบคล้ายกับแพลตฟอร์มโซเชียลมีเดีย สามารถปรับเปลี่ยนความทรงจำร่วมกันโดยให้ความสำคัญกับเนื้อหาที่สอดคล้องกับตรรกะของโซเชียลมีเดีย เช่น ความนิยม การเชื่อมต่อ และความสามารถในการตั้งโปรแกรม^{[ 2 ]}

โดยทั่วไปแล้ว ผู้ดูแลคลังข้อมูลเว็บจะใช้ โปรแกรมรวบรวมข้อมูลเว็บอัตโนมัติเพื่อเก็บรวบรวมข้อมูลจำนวนมหาศาลบนเว็บ บริการคลังข้อมูลเว็บที่เป็นที่รู้จักกันอย่างแพร่หลายคือWayback Machineซึ่งดำเนินการโดยInternet Archive

สัดส่วนของวัฒนธรรมมนุษย์ที่สร้างและบันทึกไว้บนเว็บเพิ่มมากขึ้นเรื่อยๆ ทำให้ห้องสมุดและหอจดหมายเหตุต้องเผชิญกับความท้าทายในการเก็บรักษาเว็บมากขึ้นเรื่อยๆ อย่างหลีกเลี่ยงไม่ได้^{[ 3 ]}ห้องสมุดแห่งชาติ หอจดหมายเหตุแห่งชาติและกลุ่มองค์กรต่างๆ ก็มีส่วนร่วมในการเก็บรักษาเนื้อหาเว็บเพื่อป้องกันการสูญหายเช่น กัน

นอกจากนี้ ยังมีซอฟต์แวร์และบริการเก็บรักษาเว็บไซต์เชิงพาณิชย์สำหรับองค์กรที่ต้องการเก็บรักษาเนื้อหาเว็บไซต์ของตนเองเพื่อวัตถุประสงค์ด้านมรดกองค์กร ข้อบังคับ หรือทางกฎหมาย

ประวัติและพัฒนาการ

แม้ว่าการดูแลจัดการและการจัดระเบียบเว็บจะแพร่หลายมาตั้งแต่ช่วงกลางถึงปลายทศวรรษ 1990 แต่หนึ่งในโครงการเก็บรักษาเว็บขนาดใหญ่ครั้งแรกคือInternet Archiveซึ่งเป็นองค์กรไม่แสวงหาผลกำไรที่ก่อตั้งโดยBrewster Kahleในปี 1996 ^{[ 4 ]} Internet Archive ได้เปิดตัวเครื่องมือค้นหาของตนเองสำหรับการดูเนื้อหาเว็บที่เก็บถาวรWayback Machineในปี 2001 ^{[ 4 ]}ณ ปี 2018 Internet Archive มีข้อมูลอยู่ 40 เพตาไบต์^{[ 5 ]} Internet Archive ยังได้พัฒนาเครื่องมือของตนเองมากมายสำหรับการรวบรวมและจัดเก็บข้อมูล รวมถึงPetaBoxสำหรับจัดเก็บข้อมูลจำนวนมากอย่างมีประสิทธิภาพและปลอดภัย และHeritrixซึ่งเป็นเว็บครอว์เลอร์ที่พัฒนาขึ้นร่วมกับห้องสมุดแห่งชาติของกลุ่มประเทศนอร์ดิก^{[ 4 ]}โครงการอื่นๆ ที่เปิดตัวในช่วงเวลาเดียวกัน ได้แก่ โครงการเก็บรักษาเว็บโดยห้องสมุดแห่งชาติของแคนาดา Pandoraของออสเตรเลียคลังเว็บของแทสเมเนีย และ Kulturarw3 ของสวีเดน^{[ 6 ]}^{[ 7 ]}

ตั้งแต่ปี 2001 ถึง 2010การประชุมเชิงปฏิบัติการการเก็บรักษาเว็บระหว่างประเทศ (IWAW) ได้จัดเตรียมแพลตฟอร์มเพื่อแบ่งปันประสบการณ์และแลกเปลี่ยนความคิดเห็น^{[ 8 ]}^{[ 9 ]}สมาคมการอนุรักษ์อินเทอร์เน็ตระหว่างประเทศ (IIPC) ซึ่งก่อตั้งขึ้นในปี 2003 ได้อำนวยความสะดวกในการทำงานร่วมกันระหว่างประเทศในการพัฒนามาตรฐานและเครื่องมือโอเพนซอร์สสำหรับการสร้างคลังเว็บ^{[ 10 ]}

มูลนิธิ Internet Memory Foundationซึ่งปัจจุบันเลิกกิจการไปแล้ว ก่อตั้งขึ้นในปี 2547 โดยคณะกรรมาธิการยุโรปเพื่อเก็บรักษาเว็บในยุโรป^{[ 4 ]}โครงการนี้ได้พัฒนาและเผยแพร่เครื่องมือโอเพนซอร์สมากมาย เช่น "การจับภาพสื่อที่หลากหลาย การวิเคราะห์ความสอดคล้องเชิงเวลา การประเมินสแปม และการตรวจจับวิวัฒนาการของคำศัพท์" ^{[ 4 ]}ปัจจุบันข้อมูลจากมูลนิธินี้ถูกเก็บรักษาไว้โดย Internet Archive แต่ยังไม่สามารถเข้าถึงได้โดยสาธารณะ^{[ 11 ]}

แม้ว่าจะไม่มีหน่วยงานกลางที่รับผิดชอบในการเก็บรักษา แต่เนื้อหาบนเว็บกำลังกลายเป็นบันทึกอย่างเป็นทางการอย่างรวดเร็ว ตัวอย่างเช่น ในปี 2017 กระทรวงยุติธรรมของสหรัฐอเมริกายืนยันว่ารัฐบาลถือว่าทวีต ของประธานาธิบดี เป็นคำแถลงอย่างเป็นทางการ^{[ 12 ]}

วิธีการเก็บรวบรวมข้อมูล

โดยทั่วไปแล้ว ผู้ดูแลคลังข้อมูลเว็บจะเก็บรักษาเนื้อหาเว็บประเภทต่างๆ รวมถึงหน้าเว็บHTML , สไตล์ชีต , JavaScript , รูปภาพและวิดีโอนอกจากนี้ยังเก็บรักษาเมตาเดตาเกี่ยวกับทรัพยากรที่รวบรวมไว้ เช่น เวลาเข้าถึงประเภท MIMEและความยาวของเนื้อหา เมตาเดตาเหล่านี้มีประโยชน์ในการตรวจสอบความถูกต้องและที่มาของชุดข้อมูลที่เก็บรักษาไว้

การเก็บรักษาธุรกรรม

การเก็บถาวรธุรกรรมเป็นแนวทางที่ขับเคลื่อนด้วยเหตุการณ์ ซึ่งรวบรวมธุรกรรมจริงที่เกิดขึ้นระหว่างเว็บเซิร์ฟเวอร์และเว็บเบราว์เซอร์โดยส่วนใหญ่ใช้เป็นวิธีการเก็บรักษาหลักฐานของเนื้อหาที่ถูกดูจริงบนเว็บไซต์ ใดเว็บไซต์หนึ่ง ในวันที่กำหนด ซึ่งอาจมีความสำคัญเป็นพิเศษสำหรับองค์กรที่ต้องปฏิบัติตามข้อกำหนดทางกฎหมายหรือข้อบังคับเกี่ยวกับการเปิดเผยและการเก็บรักษาข้อมูล^{[ 13 ]}

โดยทั่วไป ระบบจัดเก็บข้อมูลธุรกรรมจะทำงานโดยการดักจับทุก คำขอ HTTPที่ส่งไปยังและตอบกลับจากเว็บเซิร์ฟเวอร์ กรองการตอบกลับแต่ละรายการเพื่อกำจัดเนื้อหาที่ซ้ำกัน และจัดเก็บการตอบกลับเหล่านั้นอย่างถาวรในรูปแบบบิตสตรีม

ความยากลำบากและข้อจำกัด

ครอว์เลอร์

เว็บอาร์ไคฟ์ที่อาศัยการรวบรวมข้อมูลจากเว็บเป็นหลักในการเก็บรวบรวมข้อมูลจากเว็บนั้น ได้รับผลกระทบจากความยากลำบากของการรวบรวมข้อมูลจากเว็บ:

โปรโตคอลการยกเว้นบอทอาจขอให้โปรแกรมรวบรวมข้อมูลไม่เข้าถึงบางส่วนของเว็บไซต์ แต่ผู้ดูแลคลังข้อมูลเว็บบางรายอาจเพิกเฉยต่อคำขอและรวบรวมข้อมูลในส่วนเหล่านั้นอยู่ดี
ส่วนสำคัญของเว็บไซต์อาจถูกซ่อนอยู่ในDeep Webตัวอย่างเช่น หน้าผลลัพธ์หลังแบบฟอร์มบนเว็บอาจอยู่ใน Deep Web หากโปรแกรมรวบรวมข้อมูลไม่สามารถติดตามลิงก์ไปยังหน้าผลลัพธ์ได้
กับดักของโปรแกรมรวบรวมข้อมูล (เช่น ปฏิทิน) อาจทำให้โปรแกรมรวบรวมข้อมูลดาวน์โหลดหน้าเว็บจำนวนมหาศาล ดังนั้นโดยปกติแล้วโปรแกรมรวบรวมข้อมูลจึงถูกตั้งค่าให้จำกัดจำนวนหน้าเว็บแบบไดนามิกที่พวกมันรวบรวมข้อมูล
เครื่องมือจัดเก็บข้อมูลส่วนใหญ่ไม่ได้บันทึกหน้าเว็บในรูปแบบเดิม พบว่าแบนเนอร์โฆษณาและรูปภาพมักจะหายไปในระหว่างการจัดเก็บข้อมูล

อย่างไรก็ตาม การสร้างเว็บอาร์ไคฟ์ในรูปแบบดั้งเดิม กล่าวคือ เว็บอาร์ไคฟ์ที่สามารถเรียกดูได้อย่างสมบูรณ์ พร้อมลิงก์ที่ใช้งานได้ สื่อต่างๆ ฯลฯ นั้น จะเป็นไปได้อย่างแท้จริงก็ต่อเมื่อใช้เทคโนโลยีครอว์เลอร์เท่านั้น

เว็บนั้นกว้างใหญ่มาก การรวบรวมข้อมูลในส่วนสำคัญของเว็บจึงต้องใช้ทรัพยากรทางเทคนิคจำนวนมาก นอกจากนี้ เว็บยังเปลี่ยนแปลงอย่างรวดเร็วมาก จนบางส่วนของเว็บไซต์อาจได้รับการแก้ไขก่อนที่โปรแกรมรวบรวมข้อมูลจะรวบรวมข้อมูลเสร็จสิ้นเสียด้วยซ้ำ

ข้อจำกัดทั่วไป

เว็บเซิร์ฟเวอร์บางแห่งถูกตั้งค่าให้ส่งหน้าเว็บที่แตกต่างกันกลับไปยังโปรแกรมเก็บข้อมูลเว็บ (web archiver) เมื่อเทียบกับการตอบสนองต่อคำขอปกติจากเบราว์เซอร์ โดยทั่วไปแล้ว การทำเช่นนี้มีจุดประสงค์เพื่อหลอกเครื่องมือค้นหาให้ส่งผู้เข้าชมเว็บไซต์มากขึ้น และมักทำเพื่อหลีกเลี่ยงความรับผิดชอบ หรือเพื่อให้เนื้อหาที่ได้รับการปรับปรุงแล้วแก่เบราว์เซอร์ที่สามารถแสดงผลได้เท่านั้น

ผู้ดูแลเว็บไม่เพียงต้องรับมือกับความท้าทายทางเทคนิคของการเก็บรักษาเว็บเท่านั้น แต่ยังต้องรับมือกับกฎหมายทรัพย์สินทางปัญญาด้วย ปีเตอร์ ไลแมน^{[ 14 ]}กล่าวว่า "แม้ว่าเว็บจะได้รับการยอมรับโดยทั่วไปว่าเป็น ทรัพยากร สาธารณะแต่ก็มีลิขสิทธิ์ดังนั้นผู้ดูแลเว็บจึงไม่มีสิทธิ์ตามกฎหมายที่จะคัดลอกเว็บ" อย่างไรก็ตามห้องสมุดแห่งชาติในบางประเทศ^{[ 15 ]}มีสิทธิ์ตามกฎหมายที่จะคัดลอกบางส่วนของเว็บภายใต้การขยาย การฝาก ตาม กฎหมาย

เว็บอาร์ไคฟ์ส่วนตัวที่ไม่แสวงหาผลกำไรบางแห่งที่เปิดให้สาธารณะเข้าถึงได้ เช่นWebCite , Internet ArchiveหรือInternet Memory Foundationอนุญาตให้เจ้าของเนื้อหาซ่อนหรือลบเนื้อหาที่เก็บถาวรไว้ซึ่งพวกเขาไม่ต้องการให้สาธารณะเข้าถึงได้ เว็บอาร์ไคฟ์อื่นๆ สามารถเข้าถึงได้จากบางสถานที่เท่านั้น หรือมีการควบคุมการใช้งาน WebCite อ้างถึงคดีฟ้องร้องล่าสุดเกี่ยวกับการแคชของ Google ซึ่งGoogleเป็นฝ่ายชนะ^{[ 16 ]}

กฎหมาย

ในปี 2017 Financial Industry Regulatory Authority, Inc. (FINRA) ซึ่งเป็นองค์กรกำกับดูแลทางการเงินของสหรัฐอเมริกา ได้ออกประกาศว่าธุรกิจทั้งหมดที่ทำการสื่อสารดิจิทัลจะต้องเก็บรักษาบันทึก ซึ่งรวมถึงข้อมูลเว็บไซต์ โพสต์โซเชียลมีเดีย และข้อความ^{[ 17 ]}กฎหมายลิขสิทธิ์บางฉบับอาจขัดขวางการเก็บรักษาข้อมูลบนเว็บ ตัวอย่างเช่น การเก็บรักษาข้อมูลทางวิชาการโดยSci-Hubอยู่นอกเหนือขอบเขตของกฎหมายลิขสิทธิ์ในปัจจุบัน เว็บไซต์นี้ให้การเข้าถึงงานทางวิชาการอย่างถาวร รวมถึงงานที่ไม่มี ใบอนุญาต การเข้าถึงแบบเปิดและมีส่วนช่วยในการเก็บรักษางานวิจัยทางวิทยาศาสตร์ซึ่งอาจสูญหายไปได้^{[ 18 ]}^{[ 19 ]}

ดูเพิ่มเติม

บรรณานุกรมทั่วไป

บราวน์, เอ. (2006). การเก็บรักษาเว็บไซต์: คู่มือปฏิบัติสำหรับผู้เชี่ยวชาญด้านการจัดการข้อมูล . ลอนดอน: สำนักพิมพ์เฟเซต. ISBN 978-1-85604-553-7.
Brügger, N. (2005). การเก็บรักษาเว็บไซต์: ข้อพิจารณาทั่วไปและกลยุทธ์ . อาร์ฮุส: ศูนย์วิจัยอินเทอร์เน็ต. ISBN 978-87-990507-0-3เก็บถาวรจากต้นฉบับเมื่อวันที่ 29 มกราคม 2552
เดย์, เอ็ม. ( 2003). "การรักษาโครงสร้างพื้นฐานของชีวิตเรา: การสำรวจโครงการริเริ่มการอนุรักษ์เว็บ" (PDF) การวิจัยและเทคโนโลยีขั้นสูงสำหรับห้องสมุดดิจิทัลบันทึกการบรรยายในวิทยาการคอมพิวเตอร์ เล่มที่ 2769 หน้า 461–472 doi : 10.1007/978-3-540-45175-4_42 ISBN 978-3-540-40726-3. เก็บถาวร(PDF)จากต้นฉบับเมื่อวันที่ 29 ตุลาคม 2023 . เรียกดูเมื่อวันที่ 16 พฤศจิกายน 2023 .
Eysenbach, G. & Trudel, M. (2005). "Going, going, still there: using the WebCite service to permanently archive cited web pages" . Journal of Medical Internet Research . 7 (5) e60. doi : 10.2196/jmir.7.5.e60 . PMC 1550686 . PMID 16403724 .
ฟิตช์, เคนท์ (2003). "การเก็บรักษาเว็บไซต์—แนวทางในการบันทึกการตอบสนองที่แตกต่างกันทุกรูปแบบที่เกิดขึ้นจากเว็บไซต์" . Ausweb 03 . เก็บถาวรจากต้นฉบับเมื่อวันที่ 20 กรกฎาคม 2003 . สืบค้นเมื่อ 27 กันยายน 2006 .
จาโคบี, โรเบิร์ต (19 สิงหาคม 2553). "การเก็บรักษาหน้าเว็บ" . seoq.com . เก็บถาวรจากต้นฉบับเมื่อวันที่ 3 มกราคม 2554 . เรียกดูเมื่อวันที่ 23 ตุลาคม 2553 .
ไลแมน, ปีเตอร์ (2002). "การเก็บรักษาเวิลด์ไวด์เว็บ" . การสร้างยุทธศาสตร์ระดับชาติเพื่อการอนุรักษ์: ประเด็นปัญหาในการเก็บรักษาสื่อดิจิทัล (PDF) . สภาห้องสมุดและทรัพยากรสารสนเทศ . หน้า 38–51 . ISBN 978-1-887334-91-4.
Masanès, J., บรรณาธิการ (2006). การเก็บรักษาข้อมูลบนเว็บ . เบอร์ลิน: Springer-Verlag . ISBN 978-3-540-23338-1.
Pennock, Maureen (2013). การเก็บรักษาข้อมูลบนเว็บ . รายงานการเฝ้าระวังเทคโนโลยีของ DPC. สหราชอาณาจักร: Digital Preservation Coalition . doi : 10.7207/twr13-01 . ISSN 2048-7916 .
Toyoda, M.; Kitsuregawa, M. (2012). "ประวัติศาสตร์ของการเก็บรักษาข้อมูลบนเว็บ" . Proceedings of the IEEE . 100 (ฉบับพิเศษครบรอบร้อยปี): 1441– 1443. doi : 10.1109/JPROC.2012.2189920 .

ลิงก์ภายนอก

แหล่งข้อมูลห้องสมุดเกี่ยวกับ การเก็บรักษาข้อมูลบนเว็บ

หนังสือออนไลน์
แหล่งข้อมูลในห้องสมุดของคุณ
แหล่งข้อมูลในห้องสมุดอื่นๆ

สมาคมอนุรักษ์อินเทอร์เน็ตนานาชาติ (IIPC) — สมาคมนานาชาติที่มีพันธกิจในการรวบรวม อนุรักษ์ และทำให้ความรู้และข้อมูลจากอินเทอร์เน็ตสามารถเข้าถึงได้สำหรับคนรุ่นหลัง
หอสมุดแห่งชาติออสเตรเลีย, การรักษาการเข้าถึงข้อมูลดิจิทัล (PADI)
หอสมุดรัฐสภาสหรัฐอเมริกา—การเก็บรักษาข้อมูลบนเว็บ
องค์กรไม่แสวงหาผลกำไรด้านการกักตุนข้อมูล

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]