การระบุข้อมูลซ้ำ

Q: บันทึกทางการแพทย์

ข้อมูลทางการแพทย์ ของผู้ป่วยกำลังมีให้ใช้งานมากขึ้นบนอินเทอร์เน็ต บนแพลตฟอร์มที่เข้าถึงได้ฟรีและเปิดเผยต่อสาธารณะ เช่น HealthData.

การระบุตัวตนข้อมูลใหม่หรือการเพิกถอนความเป็นนิรนามคือ การปฏิบัติในการจับคู่ข้อมูลนิรนาม (หรือที่เรียกว่าข้อมูลที่ถูกเพิกถอนความเป็นนิรนาม) กับข้อมูลที่เปิดเผยต่อสาธารณะ หรือข้อมูลเสริม เพื่อค้นหาบุคคลที่เป็นเจ้าของข้อมูลนั้น^{[ 1 ]}นี่เป็นเรื่องที่น่ากังวล เนื่องจากบริษัทที่มีนโยบายความเป็นส่วนตัวผู้ให้บริการด้านการดูแลสุขภาพ และสถาบันการเงิน อาจเปิดเผยข้อมูลที่พวกเขารวบรวมหลังจากที่ข้อมูลผ่านกระบวนการเพิกถอนความเป็นนิรนามแล้ว

กระบวนการลบข้อมูลระบุตัวตนเกี่ยวข้องกับการปกปิด การทำให้เป็นทั่วไป หรือการลบข้อมูลระบุ ตัวตนทั้งทางตรงและทางอ้อม คำจำกัดความของกระบวนการนี้ไม่ได้เป็นสากล ข้อมูลในโดเมนสาธารณะแม้จะดูเหมือนไม่มีชื่อระบุตัวตน ก็อาจถูกระบุตัวตนใหม่ได้เมื่อรวมกับข้อมูลอื่นๆ ที่มีอยู่และเทคนิควิทยาศาสตร์คอมพิวเตอร์พื้นฐาน กฎการคุ้มครองมนุษย์ (' กฎทั่วไป ') ซึ่งเป็นการรวมตัวของหน่วยงานและกระทรวงของรัฐบาลกลางสหรัฐฯ หลายแห่ง รวมถึงกระทรวงสาธารณสุขและบริการมนุษย์ของสหรัฐฯเตือนว่าการระบุตัวตนใหม่กำลังง่ายขึ้นเรื่อยๆ เนื่องจาก " บิ๊กดาต้า " ซึ่งหมายถึงความอุดมสมบูรณ์และการรวบรวมและวิเคราะห์ข้อมูลอย่างต่อเนื่องควบคู่ไปกับการวิวัฒนาการของเทคโนโลยีและความก้าวหน้าของอัลกอริทึม อย่างไรก็ตาม บางคนอ้างว่าการลบข้อมูลระบุตัวตนเป็นเครื่องมือปลดปล่อยข้อมูลที่ปลอดภัยและมีประสิทธิภาพ และไม่มองว่าการระบุตัวตนใหม่เป็นเรื่องที่น่ากังวล^{[ 2 ]}

ปัจจุบันมีข้อมูลจำนวนมากขึ้นเรื่อยๆ ที่ถูกเผยแพร่สู่สาธารณะทางอินเทอร์เน็ต ข้อมูลเหล่านี้ถูกเผยแพร่หลังจากใช้เทคนิคการปกปิดข้อมูลส่วนบุคคล เช่น การลบข้อมูลส่วนบุคคลที่สามารถระบุตัวตนได้ (PII) เช่น ชื่อ ที่อยู่ และหมายเลขประกันสังคม เพื่อให้มั่นใจในความเป็นส่วนตัวของผู้ให้ข้อมูล การรับประกันความเป็นส่วนตัวนี้ทำให้รัฐบาลสามารถแบ่งปันชุดข้อมูลจำนวนจำกัดกับบุคคลที่สามได้อย่างถูกกฎหมายโดยไม่ต้องขออนุญาตเป็นลายลักษณ์อักษร ข้อมูลดังกล่าวพิสูจน์แล้วว่ามีคุณค่าอย่างมากสำหรับนักวิจัย โดยเฉพาะอย่างยิ่งในด้านการดูแลสุขภาพ

การใช้นามแฝงที่สอดคล้องกับ GDPRมุ่งลดความเสี่ยงในการระบุตัวตนซ้ำโดยใช้ "ข้อมูลเพิ่มเติม" ที่จัดเก็บแยกต่างหาก แนวทางนี้อิงจากการประเมินชุดข้อมูลโดยผู้เชี่ยวชาญเพื่อกำหนดตัวระบุบางส่วนเป็น "โดยตรง" และบางส่วนเป็น "โดยอ้อม" ผู้สนับสนุนแนวทางนี้โต้แย้งว่าสามารถหลีกเลี่ยงการระบุตัวตนซ้ำได้โดยการจำกัดการเข้าถึง "ข้อมูลเพิ่มเติม" ที่ผู้ควบคุมข้อมูลจัดเก็บแยกต่างหาก ทฤษฎีนี้กล่าวว่าการเข้าถึง "ข้อมูลเพิ่มเติม" ที่จัดเก็บแยกต่างหากนั้นจำเป็นสำหรับการระบุตัวตนซ้ำ การระบุข้อมูลไปยังเจ้าของข้อมูลเฉพาะสามารถจำกัดได้โดยผู้ควบคุมข้อมูลเพื่อสนับสนุนวัตถุประสงค์ที่ถูกต้องตามกฎหมายเท่านั้น แนวทางนี้เป็นที่ถกเถียงกัน เนื่องจากจะล้มเหลวหากมีชุดข้อมูลเพิ่มเติมที่สามารถนำมาใช้ในการระบุตัวตนซ้ำได้ ชุดข้อมูลเพิ่มเติมดังกล่าวอาจไม่เป็นที่รู้จักของผู้ที่รับรองการใช้นามแฝงที่สอดคล้องกับ GDPR หรืออาจไม่มีอยู่ ณ เวลาที่ใช้นามแฝง แต่Hอาจมีอยู่จริงในอนาคต

การคุ้มครองข้อมูลตามกฎหมายในสหรัฐอเมริกา

โดยทั่วไปแล้ว กฎระเบียบความเป็นส่วนตัวที่มีอยู่จะคุ้มครองข้อมูลที่ได้รับการแก้ไขแล้ว เพื่อให้ข้อมูลนั้นถือว่าเป็นข้อมูลนิรนามหรือข้อมูลที่ไม่สามารถระบุตัวตนได้ สำหรับข้อมูลทางการเงินคณะกรรมการการค้าของรัฐบาลกลางอนุญาตให้มีการเผยแพร่ได้หากข้อมูลนั้นไม่สามารถระบุตัวตนได้และเป็นข้อมูลรวม^{[ 3 ]}พระราชบัญญัติแกรมม์ ลีช บลิลีย์ (GLBA) ซึ่งกำหนดให้สถาบันการเงินต้องให้โอกาสแก่ผู้บริโภคในการเลือกที่จะไม่ให้ข้อมูลของตนถูกแบ่งปันกับบุคคลที่สาม ไม่ครอบคลุมข้อมูลที่ไม่สามารถระบุตัวตนได้ หากข้อมูลนั้นเป็นข้อมูลรวมและไม่มีตัวระบุส่วนบุคคล เนื่องจากข้อมูลนี้ไม่ถือว่าเป็นข้อมูลที่สามารถระบุตัวตนได้^{[ 3 ]}

บันทึกทางการศึกษา

ในแง่ของบันทึกของมหาวิทยาลัย หน่วยงานทั้งในระดับรัฐและระดับรัฐบาลกลางได้แสดงให้เห็นถึงความตระหนักเกี่ยวกับประเด็นความเป็นส่วนตัวในการศึกษาและความไม่พอใจต่อการเปิดเผยข้อมูลของสถาบันกระทรวงศึกษาธิการของสหรัฐอเมริกาได้ให้คำแนะนำเกี่ยวกับการสนทนาและการระบุข้อมูล โดยสั่งให้สถาบันการศึกษาตระหนักถึงความเสี่ยงของการระบุตัวตนซ้ำของข้อมูลนิรนามโดยการอ้างอิงข้ามกับข้อมูลเสริม เพื่อลดปริมาณข้อมูลในโดเมนสาธารณะโดยการลดการเผยแพร่ข้อมูลรายชื่อเกี่ยวกับนักศึกษาและบุคลากรของสถาบัน และเพื่อให้มีความสอดคล้องในกระบวนการปกปิดข้อมูล^{[ 4 ]}

บันทึกทางการแพทย์

ข้อมูลทางการแพทย์ของผู้ป่วยกำลังมีให้ใช้งานมากขึ้นบนอินเทอร์เน็ต บนแพลตฟอร์มที่เข้าถึงได้ฟรีและเปิดเผยต่อสาธารณะ เช่นHealthData.govและPatientsLikeMeซึ่งได้รับการสนับสนุนจาก นโยบาย ข้อมูลเปิด ของรัฐบาล และ โครงการริเริ่ม การแบ่งปันข้อมูลที่นำโดยภาคเอกชน แม้ว่าระดับการเข้าถึงนี้จะก่อให้เกิดประโยชน์มากมาย แต่ก็มีข้อกังวลเกี่ยวกับการเลือกปฏิบัติและความเป็นส่วนตัวเกิดขึ้น^{[ 5 ]}การคุ้มครองเวชระเบียนและข้อมูลผู้บริโภคจากร้านขายยามีความเข้มแข็งกว่าเมื่อเทียบกับข้อมูลผู้บริโภคประเภทอื่นพระราชบัญญัติการพกพาและการรับผิดชอบด้านการประกันสุขภาพ (HIPAA) คุ้มครองความเป็นส่วนตัวของข้อมูลที่ระบุตัวตนได้เกี่ยวกับสุขภาพ แต่ก็อนุญาตให้เปิดเผยข้อมูลแก่บุคคลที่สามได้หากมีการทำให้ไม่สามารถระบุตัวตนได้ นอกจากนี้ยังกำหนดให้ผู้ป่วยได้รับการแจ้งเตือนการละเมิดหากมีความน่าจะเป็นมากกว่าต่ำที่ข้อมูลของผู้ป่วยจะถูกเปิดเผยหรือนำไปใช้โดยไม่เหมาะสมโดยไม่มีการบรรเทาความเสียหายต่อเขาหรือเธออย่างเพียงพอ^{[ 6 ]}ความน่าจะเป็นของการระบุตัวตนซ้ำเป็นปัจจัยหนึ่งในการกำหนดความน่าจะเป็นที่ข้อมูลของผู้ป่วยถูกละเมิด โดยทั่วไป ร้านขายยาจะขายข้อมูลที่ไม่ระบุตัวตนให้กับ บริษัท ขุดข้อมูลซึ่งจะขายต่อให้กับบริษัทยาอีกที^{[ 3 ]}

มีการออกกฎหมายของรัฐเพื่อห้ามการขุดข้อมูลทางการแพทย์ แต่กฎหมายเหล่านั้นถูกศาลรัฐบาลกลางในเมนและนิวแฮมป์เชอร์เพิกถอนโดยอ้างเหตุผลตามการแก้ไขเพิ่มเติมครั้งที่ 1 ศาลรัฐบาลกลางอีกแห่งในคดีอื่นใช้คำว่า "คลุมเครือ" เพื่ออธิบายความกังวลเกี่ยวกับความเป็นส่วนตัวของผู้ป่วยและไม่รับรู้ถึงความเสี่ยงของการระบุตัวตนซ้ำ^{[ 3 ]}

ตัวอย่างชีวภาพ

ประกาศร่างกฎระเบียบที่เผยแพร่โดยหน่วยงานกฎระเบียบทั่วไปในเดือนกันยายน พ.ศ. 2558 ได้ขยายความหมายของคำว่า "มนุษย์" ในการวิจัยให้รวมถึงตัวอย่างทางชีวภาพหรือวัสดุที่ได้จากร่างกายมนุษย์ เช่น เลือด ปัสสาวะ เนื้อเยื่อ เป็นต้น ซึ่งกำหนดให้ผู้วิจัยที่ใช้ตัวอย่างทางชีวภาพต้องปฏิบัติตามข้อกำหนดที่เข้มงวดกว่าในการทำวิจัยกับมนุษย์ เหตุผลก็คือความเสี่ยงที่เพิ่มขึ้นของการระบุตัวตนของตัวอย่างทางชีวภาพ^{[ 7 ]}การแก้ไขขั้นสุดท้ายยืนยันกฎระเบียบนี้^{[ 8 ]}

ความพยายามในการระบุตัวตนใหม่

มีการพยายามระบุตัวตนซ้ำที่ประสบความสำเร็จจำนวนมากในสาขาต่างๆ แม้ว่าการเปิดเผยตัวตนต่อบุคคลทั่วไปอาจไม่ใช่เรื่องง่าย แต่เมื่อขั้นตอนต่างๆ ถูกเปิดเผยและเรียนรู้แล้ว ก็ไม่จำเป็นต้องมีความรู้ระดับสูงเพื่อเข้าถึงข้อมูลในฐานข้อมูลบางครั้ง ความเชี่ยวชาญทางเทคนิคก็ไม่จำเป็นด้วยซ้ำ หากประชากรมีชุดตัวระบุที่ไม่ซ้ำกัน^{[ 3 ]}

บันทึกสุขภาพ

ในช่วงกลางทศวรรษ 1990 หน่วยงานรัฐบาลในแมสซาชูเซตส์ชื่อ Group Insurance Commission (GIC) ซึ่งซื้อประกันสุขภาพให้กับพนักงานของรัฐ ได้ตัดสินใจที่จะเปิดเผยบันทึกการเข้าโรงพยาบาลให้กับนักวิจัยทุกคนที่ร้องขอข้อมูลโดยไม่คิดค่าใช้จ่าย GIC รับรองว่าความเป็นส่วนตัวของผู้ป่วยจะไม่เป็นปัญหา เนื่องจากได้ลบข้อมูลระบุตัวตน เช่น ชื่อ ที่อยู่ หมายเลขประกันสังคม ออกไปแล้ว อย่างไรก็ตาม ข้อมูลเช่น รหัสไปรษณีย์ วันเกิด และเพศยังคงอยู่ การรับรองของ GIC ได้รับการสนับสนุนจากผู้ว่าการรัฐแมสซาชูเซตส์ในขณะนั้น วิลเลียม เวลด์ ลาทานยา สวีนีย์นักศึกษาปริญญาโทในขณะนั้น ได้ตั้งใจที่จะค้นหาบันทึกของผู้ว่าการรัฐในข้อมูลของ GIC โดยการรวมข้อมูลของ GIC กับฐานข้อมูลผู้มีสิทธิเลือกตั้งของเมืองเคมบริดจ์ ซึ่งเธอซื้อมาในราคา 20 ดอลลาร์ บันทึกของผู้ว่าการรัฐเวลด์จึงถูกค้นพบได้อย่างง่ายดาย^{[ 9 ]}

ในปี พ.ศ. 2540 นักวิจัยประสบความสำเร็จในการเปิดเผยข้อมูลทางการแพทย์โดยใช้ฐานข้อมูลผู้ลงคะแนนเสียง^{[ 3 ]}

ในปี 2011 ศาสตราจารย์ Latanya Sweeney ได้ใช้บันทึกการเยี่ยมโรงพยาบาลและบันทึกการลงคะแนนเสียงที่ไม่ระบุชื่อในรัฐวอชิงตันอีกครั้ง และสามารถจับคู่บุคคลได้สำเร็จ 43% ของเวลา^{[ 10 ]}

มีอัลกอริธึมที่มีอยู่ซึ่งใช้ในการระบุตัวผู้ป่วยซ้ำด้วยข้อมูลยาตามใบสั่งแพทย์^{[ 3 ]}

พฤติกรรมและพฤติกรรมการบริโภค

นักวิจัยสองคนจากมหาวิทยาลัยเท็กซัส Arvind Narayananและศาสตราจารย์ Vitaly Shmatikov สามารถระบุตัวตนของผู้บริโภคแต่ละรายบนเว็บไซต์สตรีมมิ่งจากข้อมูลการจัดอันดับภาพยนตร์ Netflix ที่ไม่ระบุตัวตนได้บางส่วน^{[ 11 ]}^{[ 12 ]}^{[ 13 ]} ข้อมูลดังกล่าวถูกเผยแพร่โดย Netflix ในปี 2549 หลังจากการลบข้อมูลระบุตัวตน ซึ่งประกอบด้วยการแทนที่ชื่อบุคคลด้วยตัวเลขสุ่มและการย้ายรายละเอียดส่วนบุคคล นักวิจัยทั้งสองได้เปิดเผยข้อมูลที่ไม่ระบุตัวตนบางส่วนโดยการเปรียบเทียบกับการให้คะแนนภาพยนตร์ของผู้ใช้ IMDb (Internet Movie Database) ที่ไม่ระบุตัวตน พบว่าข้อมูลจากฐานข้อมูลเพียงเล็กน้อยก็เพียงพอที่จะระบุตัวตนผู้สมัครสมาชิกได้^{[ 3 ]}ในเอกสารงานวิจัยที่ได้นั้น มีการเปิดเผยที่น่าตกใจว่าการระบุตัวตนผู้ใช้ Netflix นั้นง่ายเพียงใด ตัวอย่างเช่น เพียงแค่รู้ข้อมูลเกี่ยวกับภาพยนตร์สองเรื่องที่ผู้ใช้ได้รีวิว รวมถึงการให้คะแนนที่แน่นอนและวันที่ให้คะแนน (บวกหรือลบสามวัน) ก็สามารถระบุตัวตนได้สำเร็จถึง 68% ^{[ 9 ]}

ในปี 2549 หลังจากที่AOLเผยแพร่คำค้นหาของผู้ใช้ ซึ่งเป็นข้อมูลที่ไม่ระบุตัวตนก่อนที่จะเผยแพร่สู่สาธารณะ นักข่าวของ The New York Timesประสบความสำเร็จในการระบุตัวตนของบุคคลอีกครั้งโดยการใช้กลุ่มคำค้นหาที่ผู้ใช้ที่ไม่ระบุตัวตนทำ^{[ 3 ]} AOL พยายามที่จะปกปิดข้อมูลที่ระบุตัวตน รวมถึงชื่อผู้ใช้และที่อยู่ IP แต่ได้แทนที่ข้อมูลเหล่านี้ด้วยหมายเลขประจำตัวที่ไม่ซ้ำกันเพื่อรักษาประโยชน์ของข้อมูลนี้สำหรับนักวิจัย หลังจากที่เผยแพร่แล้ว บล็อกเกอร์ต่างพากันตรวจสอบข้อมูลอย่างละเอียด ไม่ว่าจะพยายามระบุผู้ใช้เฉพาะรายที่มีเนื้อหานี้ หรือชี้ให้เห็นคำค้นหาที่น่าสนใจ น่าหดหู่ หรือน่าตกใจ ตัวอย่างเช่น "วิธีฆ่าภรรยาของคุณ" "ภาวะซึมเศร้าและการลาป่วย" "ภาพถ่ายอุบัติเหตุรถยนต์" นักข่าวสองคนMichael Barbaroและ Tom Zeller สามารถติดตามหญิงม่ายวัย 62 ปีชื่อ Thelma Arnold ได้จากการจดจำเบาะแสเกี่ยวกับตัวตนจากประวัติการค้นหาของผู้ใช้หมายเลข 417729 อาร์โนลด์ยอมรับว่าเธอเป็นผู้ทำการค้นหา ซึ่งยืนยันว่าสามารถระบุตัวตนใหม่ได้^{[ 9 ]}

ข้อมูลตำแหน่งที่ตั้ง

ข้อมูลตำแหน่งที่ตั้ง - ชุดตำแหน่งทางภูมิศาสตร์ตามเวลาที่อธิบายถึงสถานที่และการเคลื่อนไหวของบุคคล - เป็นข้อมูลส่วนบุคคลประเภทหนึ่งที่ยากต่อการปกปิดตัวตน ข้อมูลตำแหน่งที่ตั้งแสดงให้เห็นถึงการไปเยือนสถานที่ต่างๆ ในชีวิตประจำวันซ้ำๆ เช่น บ้าน ที่ทำงาน แหล่งช้อปปิ้ง สถานพยาบาล หรือรูปแบบการใช้เวลาว่างเฉพาะ^{[ 14 ]}การลบตัวตนของบุคคลออกจากข้อมูลตำแหน่งที่ตั้งเพียงอย่างเดียวจะไม่สามารถลบรูปแบบที่สามารถระบุตัวตนได้ เช่น จังหวะการเดินทาง สถานที่นอน หรือสถานที่ทำงาน การแมปพิกัดไปยังที่อยู่ทำให้ข้อมูลตำแหน่งที่ตั้งสามารถระบุตัวตนใหม่ได้ง่าย^{[ 15 ]}หรือเชื่อมโยงกับบริบทชีวิตส่วนตัวของบุคคล กระแสข้อมูลตำแหน่งที่ตั้งมีบทบาทสำคัญในการสร้างตัวระบุส่วนบุคคลขึ้นใหม่จากข้อมูลสมาร์ทโฟนที่เข้าถึงโดยแอป^{[ 16 ]}

คำตัดสินของศาล

ในปี 2019 ศาสตราจารย์Kerstin Noëlle Vokingerและ ดร. Urs Jakob Mühlematter นักวิจัยสองคนจากมหาวิทยาลัยซูริคได้วิเคราะห์คดีของศาลฎีกาแห่งสหพันธรัฐสวิตเซอร์แลนด์เพื่อประเมินว่าบริษัทยาและยาใดบ้างที่เกี่ยวข้องกับการดำเนินคดีทางกฎหมายต่อสำนักงานสาธารณสุขแห่งสหพันธรัฐ (FOPH) เกี่ยวกับการตัดสินใจกำหนดราคาของยา โดยทั่วไปแล้ว ฝ่ายเอกชนที่เกี่ยวข้อง (เช่น บริษัทยา) และข้อมูลที่จะเปิดเผยตัวตนของฝ่ายเอกชน (เช่น ชื่อยา) จะถูกปกปิดชื่อในคำพิพากษาของศาลสวิตเซอร์แลนด์ นักวิจัยสามารถระบุตัวตนของคดีที่ถูกปกปิดชื่อที่เกี่ยวข้องของศาลฎีกาแห่งสหพันธรัฐสวิตเซอร์แลนด์ ได้ถึง 84% โดยการเชื่อมโยงข้อมูลจากฐานข้อมูลที่เข้าถึงได้โดยสาธารณะ^{[ 17 ]}^{[ 18 ]}ความสำเร็จนี้ได้รับการรายงานโดยสื่อและก่อให้เกิดการถกเถียงว่าควรปกปิดชื่อในคดีของศาลหรือไม่และอย่างไร^{[ 19 ]}^{[ 20 ]}

ความกังวลและผลที่ตามมา

ในปี พ.ศ. 2540 Latanya Sweeney พบจากการศึกษาบันทึกสำมะโนประชากรว่าสามารถระบุตัวตนประชากรของสหรัฐอเมริกาได้ถึง 87 เปอร์เซ็นต์โดยใช้ รหัสไปรษณีย์ 5 หลักเพศ และวันเกิด^{[ 21 ]}^{[ 22 ]}

การระบุตัวตนซ้ำโดยไม่ได้รับอนุญาตบนพื้นฐานของการผสมผสานดังกล่าว ไม่จำเป็นต้องเข้าถึง "ข้อมูลเพิ่มเติม" ที่จัดเก็บแยกต่างหากซึ่งอยู่ภายใต้การควบคุมของผู้ควบคุมข้อมูล ดังเช่นที่จำเป็นในปัจจุบันสำหรับการสร้างนามแฝงที่สอดคล้องกับ GDPR

บุคคลที่ข้อมูลถูกระบุตัวตนใหม่ยังมีความเสี่ยงที่ข้อมูลของพวกเขาพร้อมกับตัวตนที่เชื่อมโยงอยู่ จะถูกขายให้กับองค์กรที่พวกเขาไม่ต้องการให้มีข้อมูลส่วนตัวเกี่ยวกับการเงิน สุขภาพ หรือความชอบของพวกเขา การเปิดเผยข้อมูลนี้อาจก่อให้เกิดความวิตกกังวล ความอับอาย หรือความลำบากใจ เมื่อความเป็นส่วนตัวของบุคคลถูกละเมิดอันเป็นผลมาจากการระบุตัวตนใหม่ การละเมิดในอนาคตก็จะง่ายขึ้นมาก: เมื่อมีการเชื่อมโยงระหว่างข้อมูลชิ้นหนึ่งกับตัวตนที่แท้จริงของบุคคล การเชื่อมโยงใดๆ ระหว่างข้อมูลกับตัวตนที่ไม่ระบุชื่อจะทำให้ความเป็นนิรนามของบุคคลนั้นถูกทำลาย^{[ 3 ]}

การระบุตัวตนซ้ำอาจทำให้บริษัทและสถาบันที่ให้คำมั่นว่าจะรักษาความเป็นส่วนตัวต้องเผชิญกับ ความรับผิด ทางละเมิด ที่เพิ่มขึ้น และอาจทำให้พวกเขาละเมิดนโยบายภายใน นโยบายความเป็นส่วนตัวสาธารณะ และกฎหมายของรัฐและรัฐบาลกลาง เช่น กฎหมายเกี่ยวกับการรักษาความลับทางการเงินหรือความเป็นส่วนตัวทางการแพทย์โดยการเปิดเผยข้อมูลให้กับบุคคลที่สามที่สามารถระบุตัวผู้ใช้ได้หลังจากการระบุตัวตนซ้ำ^{[ 3 ]}

การเยียวยา

เพื่อแก้ไขความเสี่ยงจากการระบุตัวตนซ้ำ มีข้อเสนอแนะหลายประการดังนี้:

มาตรฐานที่สูงขึ้นและคำจำกัดความที่เป็นเอกภาพของการลบข้อมูลระบุตัวตนในขณะที่ยังคงรักษาประโยชน์ของข้อมูลไว้: คำจำกัดความของการลบข้อมูลระบุตัวตนควรสร้างสมดุลระหว่างการคุ้มครองความเป็นส่วนตัวเพื่อลดความเสี่ยงในการระบุตัวตนซ้ำกับการที่บริษัทปฏิเสธที่จะลบข้อมูล^{[ 23 ]}
การคุ้มครองความเป็นส่วนตัวที่เข้มงวดมากขึ้นสำหรับข้อมูลที่ไม่ระบุชื่อ^{[ 3 ]}
การรักษาความปลอดภัยที่เข้มงวดมากขึ้นสำหรับฐานข้อมูลที่จัดเก็บข้อมูลที่ไม่ระบุตัวตน^{[ 3 ]}
การห้ามการระบุตัวตนซ้ำที่เป็นอันตรายอย่างเข้มงวด การออกกฎหมายต่อต้านการเลือกปฏิบัติและความเป็นส่วนตัวที่ครอบคลุมมากขึ้นซึ่งรับรองการคุ้มครองความเป็นส่วนตัว ตลอดจนส่งเสริมการมีส่วนร่วมในโครงการและความพยายามในการแบ่งปันข้อมูล ตลอดจนการจัดตั้งมาตรฐานการคุ้มครองข้อมูลที่เป็นเอกภาพในชุมชนวิชาการ เช่น ในชุมชนวิทยาศาสตร์ เพื่อลดการละเมิดความเป็นส่วนตัวให้น้อยที่สุด^{[ 24 ]}
การสร้างนโยบายการเผยแพร่ข้อมูล: การตรวจสอบให้แน่ใจว่าวาทกรรมเกี่ยวกับการปกปิดตัวตนมีความถูกต้อง การร่างสัญญาที่ห้ามการพยายามระบุตัวตนซ้ำและการเผยแพร่ข้อมูลที่ละเอียดอ่อน การจัดตั้งพื้นที่เก็บข้อมูล และการใช้กลยุทธ์ตามข้อมูลเพื่อให้มาตรฐานการป้องกันที่จำเป็นตรงกับระดับความเสี่ยง^{[ 25 ]}
การนำหลักการรักษาความเป็นส่วนตัวแบบดิฟเฟอเรนเชียลไปใช้กับชุดข้อมูลที่ร้องขอ
การสร้างข้อมูลสังเคราะห์ที่แสดงคุณสมบัติทางสถิติของข้อมูลดิบ โดยไม่สามารถระบุตัวบุคคลจริงได้

แม้ว่าจะมีการเรียกร้องให้มีการห้ามการระบุตัวตนซ้ำโดยสิ้นเชิง แต่การบังคับใช้จะทำได้ยาก อย่างไรก็ตาม มีวิธีสำหรับผู้ร่างกฎหมายในการต่อสู้และลงโทษความพยายามในการระบุตัวตนซ้ำ หากและเมื่อมีการเปิดเผย: จับคู่การห้ามกับบทลงโทษที่รุนแรงขึ้นและการบังคับใช้ที่เข้มงวดมากขึ้นโดยคณะกรรมการการค้าของรัฐบาลกลางและสำนักงานสอบสวนกลาง ; ให้สิทธิ์เหยื่อของการระบุตัวตนซ้ำในการฟ้องร้องผู้ที่ระบุตัวตนซ้ำพวกเขา; และกำหนดให้มีการตรวจสอบซอฟต์แวร์สำหรับผู้ที่ใช้และวิเคราะห์ข้อมูลที่ไม่ระบุตัวตน การห้ามการระบุตัวตนซ้ำในวงจำกัดอาจถูกนำมาใช้กับผู้รับฐานข้อมูลที่เชื่อถือได้ เช่น ผู้ขุดข้อมูลของรัฐบาลหรือนักวิจัย การห้ามนี้จะบังคับใช้ได้ง่ายกว่ามากและอาจยับยั้งการระบุตัวตนซ้ำได้^{[ 9 ]}

ตัวอย่างของการเปิดเผยตัวตน

“นักวิจัยที่MITและUniversité catholique de Louvainในเบลเยียม วิเคราะห์ข้อมูลผู้ใช้โทรศัพท์มือถือ 1.5 ล้านคนในประเทศเล็กๆ แห่งหนึ่งในยุโรปเป็นระยะเวลา 15 เดือน และพบว่าจุดอ้างอิงเพียงสี่จุด ซึ่งมีความละเอียดเชิงพื้นที่และเวลาค่อนข้างต่ำ ก็เพียงพอที่จะระบุตัวตนของผู้ใช้ได้ถึง 95 เปอร์เซ็นต์ กล่าวอีกนัยหนึ่งคือ ในการดึงข้อมูลตำแหน่งที่สมบูรณ์ของบุคคลหนึ่งจากชุดข้อมูล “ที่ไม่ระบุตัวตน” ของผู้คนมากกว่าหนึ่งล้านคน สิ่งที่คุณต้องทำก็คือ วางตำแหน่งบุคคลนั้นให้อยู่ภายในระยะสองสามร้อยหลาจากเครื่องส่งสัญญาณโทรศัพท์มือถือ ในช่วงเวลาหนึ่งชั่วโมง สี่ครั้งในหนึ่งปี โพสต์ Twitter สองสามโพสต์อาจให้ข้อมูลทั้งหมดที่คุณต้องการ หากมีข้อมูลเฉพาะเกี่ยวกับสถานที่อยู่ของบุคคลนั้น” ^{[ 26 ]}
"ในที่นี้ เรารายงานว่าสามารถกู้คืนนามสกุลจากจีโนมส่วนบุคคลได้โดยการสร้างโปรไฟล์ซ้ำแบบสั้นบนโครโมโซม Y (Y-STRs) และสอบถามฐานข้อมูลลำดับวงศ์ตระกูลทางพันธุกรรมเพื่อความบันเทิง เราแสดงให้เห็นว่าการรวมกันของนามสกุลกับข้อมูลเมตาประเภทอื่น ๆ เช่น อายุและรัฐ สามารถใช้ในการระบุตัวตนของเป้าหมายได้" ^{[ 27 ]}

ดูเพิ่มเติม

การปกปิดข้อมูลส่วนบุคคล – ป้องกันไม่ให้ข้อมูลส่วนบุคคลถูกเปิดเผย
การเปิดเผย ข้อมูลส่วนตัว – การเผยแพร่รายละเอียดส่วนตัว
K-anonymity – คุณสมบัติของข้อมูลที่ไม่ระบุตัวตนบางประเภท
ข้อมูลสุขภาพที่ได้รับการคุ้มครอง – ข้อมูลเกี่ยวกับสถานะการดูแลสุขภาพของแต่ละบุคคล
การควบคุมการเปิดเผยข้อมูลทางสถิติ – เทคนิคที่ใช้ในการวิจัยที่ขับเคลื่อนด้วยข้อมูล

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]