อ่าน 3 นาที
อัลกอริทึม Datafly
อัลกอริทึม Dataflyเป็นอัลกอริทึมสำหรับการรักษาความเป็นส่วนตัวของข้อมูลทางการแพทย์ อัลกอริทึมนี้ได้รับการพัฒนาโดยLatanya Arvette Sweeneyในปี 1997−98...
อัลกอริทึม Datafly
อัลกอริทึม Dataflyเป็นอัลกอริทึมสำหรับการรักษาความเป็นส่วนตัวของข้อมูลทางการแพทย์ อัลกอริทึมนี้ได้รับการพัฒนาโดยLatanya Arvette Sweeneyในปี 1997−98 [ 1 ] [ 2 ]การรักษาความเป็นส่วนตัวทำได้โดยการสรุปข้อมูลโดยอัตโนมัติ แทนที่ แทรก และลบข้อมูลตามความเหมาะสมโดยไม่สูญเสียรายละเอียดจำนวนมากที่พบในข้อมูล วิธีนี้สามารถใช้ได้ทันทีในการ รักษาความปลอดภัย ตามบทบาทภายในสถาบัน และใน โหมด แบทช์สำหรับการส่งออกข้อมูลจากสถาบัน องค์กรต่างๆ เผยแพร่และรับข้อมูลทางการแพทย์โดยลบตัวระบุ ที่ชัดเจนทั้งหมด เช่น ชื่อ ออกไป โดยเข้าใจผิดว่า การรักษา ความลับของผู้ป่วยยังคงอยู่เนื่องจากข้อมูลที่ได้ดูเหมือนไม่ระบุตัวตน อย่างไรก็ตาม ข้อมูลที่เหลืออยู่สามารถนำมาใช้เพื่อระบุตัวบุคคลได้อีกครั้งโดยการเชื่อมโยงหรือจับคู่ข้อมูลกับฐานข้อมูลอื่นๆ หรือโดยการดูคุณลักษณะเฉพาะที่พบในฟิลด์และระเบียนของฐานข้อมูลเอง
อัลกอริทึม Datafly ถูกวิพากษ์วิจารณ์ว่าพยายามทำให้ข้อมูลไม่ระบุตัวตนโดยการสรุปแบบทั่วไปมากเกินไป อัลกอริทึมจะเลือกแอตทริบิวต์ ที่มี ค่าที่แตกต่างกันมากที่สุดเป็นแอตทริบิวต์ที่จะสรุปก่อน[ 3 ]
อัลกอริทึมหลัก
โครงร่างของอัลกอริทึม Datafly แสดงไว้ด้านล่าง[ 4 ]
อินพุต : ตารางส่วนตัวPT;ตัวระบุเสมือน QI = ( A 1 , ..., A n ),ข้อจำกัดการปกปิดตัวตน k ระดับk ; ลำดับชั้นการวางนัยทั่วไปของโดเมน DGH A iโดยที่ i = 1,..., nพร้อมฟังก์ชัน ประกอบ f A iและค่าความสูญเสีย ซึ่งเป็นขีดจำกัดของเปอร์เซ็นต์ของทูเปิลที่สามารถถูกระงับได้ PT[id] คือชุดของตัวระบุหรือคีย์ที่ไม่ซ้ำกันสำหรับแต่ละทูเปิล
ผลลัพธ์ : MGT เป็นการขยายผลของ PT[QI] ที่บังคับใช้ความเป็นนิรนาม k
สมมติว่า | PT | ≤ kและการสูญเสีย * | PT | = k
อัลกอริทึม Datafly :
// สร้างรายการ ความถี่ ที่มีลำดับค่าที่ไม่ซ้ำกันในตัวระบุเสมือนใน PT
// พร้อมทั้งจำนวนครั้งที่แต่ละลำดับปรากฏขึ้น
- 1. ให้ freq เป็นเวกเตอร์ ที่ขยายและยุบได้ โดยที่ไม่มีองค์ประกอบใดๆ ในตอนเริ่มต้น แต่ละองค์ประกอบอยู่ในรูปแบบ (QI, frequency, SID) โดยที่ SID = { id i : ∃ t [ id ] ∈ [ id ] ⇒ t [ id ] = id i }; และ frequency = |SID| ดังนั้น freq จึงสามารถเข้าถึงได้ในรูปแบบตารางบน (QI, frequency, SID)
- 2. ให้ pos เป็น 0 และ total เป็น 0
- 3. ในขณะที่ผลรวม ≠ |PT| ให้ทำ
- 3.1 freq[pos] ( t [QI], occurs, SID ) โดยที่t [QI] ∈ [QI], ( t [ QI ],__, ___ ) freq; occurs = |PT| - |PT[QI] – { t [QI]}|; และ SID = { id i : ∃ t [ id ] PT[id] ⇒ t [ id ] = id i }
- 3.2 pos pos + 1, รวมทั้งหมด + เกิดขึ้น
- // สร้างวิธีแก้ปัญหาโดยการสรุปคุณลักษณะที่มีค่าแตกต่างกันมากที่สุด
- // และระงับทูเปิลไม่เกินจำนวนที่อนุญาต
- 4. ให้ด้านล่างk 0
- 5. สำหรับตำแหน่งที่1 ถึง |ความถี่| ทำ
- 5.1 ( __, จำนวน ) ความถี่[ตำแหน่ง]
- 5.2 ถ้า count < kแล้วให้ทำดังนี้
- 5.2.1 belowk belowk + count
- 6. ถ้า belowk > k แล้วให้ทำ ดังนี้: // หมายเหตุ loss * |PT| = k
- 6.1 freq generalize(freq)
- 6.2 ไปที่ขั้นตอนที่ 4
- 7. มิฉะนั้นให้ทำ
- // ยืนยัน: จำนวนทูเปิลที่จะระงับใน freq มีค่า ≤ loss * |PT|
- 7.1 freq suppress(freq, belowk )
- 7.2 การสร้าง MGT ใหม่ (ความถี่)
- 8. ส่งคืน MGT.
ลิงก์ภายนอก
- รายละเอียดของอัลกอริทึม Datafly
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ อัลกอริทึม Datafly
อัลกอริทึม Dataflyเป็นอัลกอริทึมสำหรับการรักษาความเป็นส่วนตัวของข้อมูลทางการแพทย์ อัลกอริทึมนี้ได้รับการพัฒนาโดยLatanya Arvette Sweeneyในปี 1997−98...
อัลกอริทึมหลัก
โครงร่างของอัลกอริทึม Datafly แสดงไว้ด้านล่าง [ 4 ]
ลิงก์ภายนอก
รายละเอียดของอัลกอริทึม Datafly ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Datafly_algorithm&oldid=1306512335 "