กลับไปหน้าบทความ

อ่าน 26 นาที

การเรียนรู้ของเครื่องจักรแบบต่อต้าน

การเรียนรู้ของเครื่องจักรแบบต่อต้าน คือการศึกษาการโจมตี อัลกอริทึม การเรียนรู้ของเครื่องจักร และการป้องกันการโจมตีดังกล่าว [ 1 ]

การเรียนรู้ของเครื่องจักรแบบต่อต้าน

การเรียนรู้ของเครื่องจักรแบบต่อต้านคือการศึกษาการโจมตี อัลกอริทึม การเรียนรู้ของเครื่องจักรและการป้องกันการโจมตีดังกล่าว[ 1 ]

เทคนิคการเรียนรู้ของเครื่องส่วนใหญ่ถูกออกแบบมาเพื่อใช้กับชุดปัญหาเฉพาะ โดยอยู่บนสมมติฐานว่าข้อมูลฝึกฝนและข้อมูลทดสอบถูกสร้างขึ้นจากการกระจายทางสถิติเดียวกัน ( IID ) อย่างไรก็ตาม สมมติฐานนี้มักถูกละเมิดในการใช้งานจริงที่มีความเสี่ยงสูง ซึ่งผู้ใช้อาจจงใจป้อนข้อมูลที่สร้างขึ้นมาเองซึ่งละเมิดสมมติฐานทางสถิติ

การโจมตีที่พบบ่อยที่สุดในการเรียนรู้ของเครื่องจักรแบบต่อต้าน ได้แก่การโจมตีแบบหลบเลี่ยง [ 2 ] การโจมตี แบบวางยาพิษข้อมูล[ 3 ]การโจมตีแบบไบแซนไทน์[ 4 ]และการสกัดโมเดล[ 5 ]

ประวัติศาสตร์

ในการประชุม MIT Spam Conference ในเดือนมกราคม พ.ศ. 2547 John Graham-Cummingได้แสดงให้เห็นว่าตัวกรองสแปมแบบเรียนรู้ด้วยเครื่องสามารถใช้เพื่อเอาชนะตัวกรองสแปมแบบเรียนรู้ด้วยเครื่องอีกตัวหนึ่งได้ โดยการเรียนรู้คำที่จะเพิ่มลงในอีเมลสแปมโดยอัตโนมัติเพื่อให้อีเมลนั้นถูกจัดประเภทว่าไม่ใช่สแปม[ 6 ]

ในปี 2547 Nilesh Dalvi และคนอื่นๆ สังเกตว่าตัวจำแนกเชิงเส้นที่ใช้ในตัวกรองสแปมสามารถถูกเอาชนะได้ด้วย " การโจมตี แบบหลีกเลี่ยง " ง่ายๆ เนื่องจากผู้ส่งสแปมแทรก "คำที่ดี" ลงในอีเมลสแปมของพวกเขา (ประมาณปี 2550 ผู้ส่งสแปมบางรายเพิ่มสัญญาณรบกวนแบบสุ่มลงในคำที่คลุมเครือภายใน "สแปมรูปภาพ" เพื่อเอาชนะ ตัวกรองที่ใช้ OCR ) ในปี 2549 Marco Barreno และคนอื่นๆ ได้ตีพิมพ์ "การเรียนรู้ของเครื่องสามารถปลอดภัยได้หรือไม่?" ซึ่งสรุปการจำแนกประเภทการโจมตีอย่างกว้างขวาง จนถึงปี 2556 นักวิจัยหลายคนยังคงหวังว่าตัวจำแนกที่ไม่ใช่เชิงเส้น (เช่นเครื่องสนับสนุนเวกเตอร์และโครงข่ายประสาทเทียม ) อาจมีความทนทานต่อศัตรู จนกระทั่ง Battista Biggio และคนอื่นๆ ได้แสดงให้เห็นการโจมตีแบบอิงตามการไล่ระดับครั้งแรกบนแบบจำลองการเรียนรู้ของเครื่องดังกล่าว (2555 [ 7 ] – 2556 [ 8 ] ) ในปี 2555 โครงข่ายประสาทเทียมเชิงลึกเริ่มมีบทบาทสำคัญในปัญหาการมองเห็นด้วยคอมพิวเตอร์ตั้งแต่ปี 2014 Christian Szegedy และคนอื่นๆ ได้แสดงให้เห็นว่าเครือข่ายประสาทเทียมเชิงลึกสามารถถูกหลอกโดยฝ่ายตรงข้ามได้ โดยใช้การโจมตีแบบอิงตามการไล่ระดับเพื่อสร้างการรบกวนที่เป็นปฏิปักษ์[ 9 ] [ 10 ]

งานวิจัยเพิ่มเติมจะแสดงให้เห็นว่าการโจมตีแบบต่อต้านนั้นสร้างได้ยากขึ้นในสภาพแวดล้อมที่ไม่สามารถควบคุมได้ เนื่องจากข้อจำกัดของสภาพแวดล้อมที่แตกต่างกันซึ่งหักล้างผลกระทบของสัญญาณรบกวน[ 11 ] [ 12 ]ตัวอย่างเช่น การหมุนเล็กน้อยหรือแสงสว่างเพียงเล็กน้อยบนภาพต่อต้านสามารถทำลายความเป็นศัตรูได้ นอกจากนี้ นักวิจัยเช่นNick FrosstจากGoogle Brainชี้ให้เห็นว่าการทำให้รถยนต์ขับเคลื่อนอัตโนมัติ[ 13 ]พลาดป้ายหยุดรถนั้นง่ายกว่ามากหากนำป้ายนั้นออกไปจริง ๆ มากกว่าการสร้างตัวอย่างต่อต้าน[ 14 ] Frosst ยังเชื่อว่าชุมชนการเรียนรู้ของเครื่องจักรแบบต่อต้านนั้นเข้าใจผิดว่าแบบจำลองที่ฝึกฝนบนการกระจายข้อมูลบางอย่างจะทำงานได้ดีบนการกระจายข้อมูลที่แตกต่างกันอย่างสิ้นเชิง เขาแนะนำว่าควรสำรวจแนวทางใหม่ในการเรียนรู้ของเครื่องจักร และปัจจุบันกำลังทำงานเกี่ยวกับเครือข่ายประสาทเทียมที่ไม่เหมือนใครซึ่งมีลักษณะคล้ายกับการรับรู้ของมนุษย์มากกว่าแนวทางที่ทันสมัย​​[ 14 ]

แม้ว่าการเรียนรู้ของเครื่องจักรแบบต่อต้านจะยังคงมีรากฐานมาจากแวดวงวิชาการอย่างมาก แต่บริษัทเทคโนโลยีขนาดใหญ่ เช่น Google, Microsoft และ IBM ได้เริ่มรวบรวมเอกสารและฐานรหัสโอเพนซอร์สเพื่อให้ผู้อื่นสามารถประเมินความแข็งแกร่งของแบบจำลองการเรียนรู้ของเครื่องจักรได้อย่างเป็นรูปธรรมและลดความเสี่ยงของการโจมตีแบบต่อต้าน[ 15 ] [ 16 ] [ 17 ]

ตัวอย่าง

ตัวอย่าง ได้แก่ การโจมตีในการกรองสแปมซึ่งข้อความสแปมจะถูกทำให้คลุมเครือโดยการสะกดคำ "ไม่ดี" ผิด หรือการแทรกคำ "ดี" [ 18 ] [ 19 ]การโจมตีในความปลอดภัยของคอมพิวเตอร์เช่น การทำให้ รหัส ของมัลแวร์ คลุมเครือ ภายในแพ็กเก็ตเครือข่ายหรือการแก้ไขลักษณะของการไหลของเครือข่ายเพื่อทำให้การตรวจจับการบุกรุกเข้าใจผิด[ 20 ] [ 21 ]การโจมตีในการจดจำไบโอเมตริก ซึ่งอาจมีการใช้ลักษณะไบโอเมตริกปลอมเพื่อปลอมตัวเป็นผู้ใช้ที่ถูกต้อง[ 22 ]หรือเพื่อบุกรุกแกลเลอรีเทมเพลตของผู้ใช้ที่ปรับให้เข้ากับลักษณะที่อัปเดตเมื่อเวลาผ่านไป

นักวิจัยแสดงให้เห็นว่าการเปลี่ยนเพียงพิกเซลเดียวก็สามารถหลอกอัลกอริธึมการเรียนรู้เชิงลึกได้[ 23 ]นักวิจัยคนอื่นๆได้พิมพ์เต่าของเล่นแบบ 3 มิติด้วยพื้นผิวที่ออกแบบมาเพื่อให้AI ตรวจจับวัตถุของ Google จัดประเภทเป็นปืนไรเฟิลโดยไม่คำนึงถึงมุมที่มองเต่า[ 24 ]การสร้างเต่าต้องใช้เทคโนโลยีการพิมพ์ 3 มิติเชิงพาณิชย์ราคาประหยัดเท่านั้น[ 25 ]

ภาพสุนัขที่ถูกปรับแต่งด้วยเครื่องจักรแสดงให้เห็นว่าดูเหมือนแมวทั้งต่อคอมพิวเตอร์และมนุษย์[ 26 ]การศึกษาในปี 2019 รายงานว่ามนุษย์สามารถเดาได้ว่าเครื่องจักรจะจำแนกภาพที่เป็นปฏิปักษ์อย่างไร[ 27 ]นักวิจัยค้นพบวิธีการรบกวนลักษณะของป้ายหยุดรถเพื่อให้รถยนต์อัตโนมัติจำแนกเป็นป้ายรวมหรือป้ายจำกัดความเร็ว[ 13 ] [ 28 ]

ตัวกรองข้อมูลพิษที่เรียกว่า Nightshade ได้รับการเผยแพร่ในปี 2023 โดยนักวิจัยจากมหาวิทยาลัยชิคาโกตัวกรองนี้สร้างขึ้นเพื่อให้ศิลปินทัศนศิลป์นำไปใช้กับงานศิลปะของพวกเขาเพื่อทำลายชุดข้อมูลของโมเดลข้อความเป็นภาพซึ่งโดยปกติจะดึงข้อมูลจากอินเทอร์เน็ตโดยไม่ได้รับความยินยอมจากผู้สร้างภาพ[ 29 ] [ 30 ]

McAfeeโจมตี ระบบ MobileyeเดิมของTeslaโดยหลอกให้รถวิ่งเกินความเร็วที่กำหนด 50 ไมล์ต่อชั่วโมง เพียงแค่ติดเทปสีดำขนาดสองนิ้วลงบนป้ายจำกัดความเร็ว[ 31 ] [ 32 ]

รูปแบบที่เป็นปฏิปักษ์บนแว่นตาหรือเสื้อผ้าที่ออกแบบมาเพื่อหลอกระบบจดจำใบหน้าหรือเครื่องอ่านป้ายทะเบียนรถ ทำให้เกิดอุตสาหกรรมเฉพาะกลุ่มของ "สตรีทแวร์แบบพรางตัว" [ 33 ]

การโจมตีแบบต่อต้านบนเครือข่ายประสาทเทียมอาจทำให้ผู้โจมตีสามารถแทรกอัลกอริทึมเข้าไปในระบบเป้าหมายได้[ 34 ]นักวิจัยยังสามารถสร้างอินพุตเสียงแบบต่อต้านเพื่อปลอมแปลงคำสั่งให้กับผู้ช่วยอัจฉริยะในรูปแบบเสียงที่ดูเหมือนไม่มีพิษภัย[ 35 ]วรรณกรรมคู่ขนานสำรวจการรับรู้ของมนุษย์ต่อสิ่งเร้าดังกล่าว[ 36 ] [ 37 ]

อัลกอริทึมการจัดกลุ่มถูกนำมาใช้ในแอปพลิเคชันด้านความปลอดภัย การวิเคราะห์มัลแวร์และไวรัสคอมพิวเตอร์มีเป้าหมายเพื่อระบุตระกูลมัลแวร์ และสร้างลายเซ็นการตรวจจับเฉพาะ[ 38 ] [ 39 ]

ในบริบทของการตรวจจับมัลแวร์ นักวิจัยได้เสนอวิธีการสร้างมัลแวร์แบบต่อต้านที่สร้างไบนารีโดยอัตโนมัติเพื่อหลีกเลี่ยงตัวตรวจจับที่ใช้การเรียนรู้ในขณะที่ยังคงรักษาฟังก์ชันการทำงานที่เป็นอันตรายไว้ การโจมตีแบบอิงการเพิ่มประสิทธิภาพ เช่น GAMMA ใช้ขั้นตอนวิธีทางพันธุกรรมเพื่อแทรกเนื้อหาที่ไม่เป็นอันตราย (เช่น การเติมหรือ ส่วน PE ใหม่ ) ลงในไฟล์ปฏิบัติการของ Windows โดยกำหนดให้การหลีกเลี่ยงเป็นปัญหาการเพิ่มประสิทธิภาพแบบมีข้อจำกัดที่สร้างสมดุลระหว่างความสำเร็จในการจำแนกประเภทผิดพลาดกับขนาดของเพย์โหลดที่แทรกเข้าไป และแสดงให้เห็นถึงความสามารถในการถ่ายโอนไปยังผลิตภัณฑ์ป้องกันไวรัสเชิงพาณิชย์[ 40 ]งานเสริมใช้เครือข่ายต่อต้านแบบสร้าง (GANs) เพื่อเรียนรู้การรบกวนพื้นที่คุณลักษณะที่ทำให้มัลแวร์ถูกจัดประเภทเป็นไม่เป็นอันตราย ตัวอย่างเช่น Mal-LSGAN แทนที่การสูญเสีย GAN มาตรฐานด้วยวัตถุประสงค์กำลังสองน้อยที่สุดและ ฟังก์ชันการเปิดใช้งานที่แก้ไขแล้วเพื่อปรับปรุงความเสถียรในการฝึกอบรมและสร้างตัวอย่างมัลแวร์แบบต่อต้านที่ลดอัตราการตรวจพบที่ถูกต้องในตัวตรวจจับหลายตัวได้อย่างมาก[ 41 ]

ความท้าทายในการประยุกต์ใช้การเรียนรู้ของเครื่องจักรกับด้านความปลอดภัย

นักวิจัยได้สังเกตว่าข้อจำกัดที่เทคนิคการเรียนรู้ของเครื่องทำงานในโดเมนความปลอดภัยนั้นแตกต่างจากข้อจำกัดของโดเมนมาตรฐานทั่วไป ข้อมูลความปลอดภัยอาจเปลี่ยนแปลงไปตามเวลา รวมถึงตัวอย่างที่ติดป้ายกำกับผิด หรือสะท้อนพฤติกรรมที่เป็นปรปักษ์ ซึ่งทำให้การประเมินและการทำซ้ำทำได้ยากขึ้น[ 42 ]

ปัญหาการเก็บรวบรวมข้อมูล

ชุดข้อมูลความปลอดภัยมีรูปแบบที่หลากหลาย รวมถึงไบนารี การติดตามเครือข่าย และไฟล์บันทึก การศึกษาต่างๆ รายงานว่ากระบวนการแปลงแหล่งข้อมูลเหล่านี้ให้เป็นคุณลักษณะอาจทำให้เกิดอคติหรือความไม่สอดคล้องกัน[ 42 ] นอกจากนี้ การรั่วไหล ตามเวลาอาจเกิดขึ้นได้เมื่อตัวอย่างมัลแวร์ที่เกี่ยวข้องไม่ได้ถูกแยกออกจากกันอย่างเหมาะสมระหว่างชุดข้อมูลฝึกฝนและ ชุด ข้อมูลทดสอบซึ่งอาจนำไปสู่ผลลัพธ์ที่มองโลกในแง่ดีเกินไป[ 42 ]

ความท้าทายในการติดฉลากและการตรวจสอบข้อเท็จจริง

ป้ายกำกับมัลแวร์มักไม่เสถียรเนื่องจากเอ็นจิ้นป้องกันไวรัสที่แตกต่างกันอาจจัดประเภทตัวอย่างเดียวกันในลักษณะที่ขัดแย้งกัน Ceschin และคณะตั้งข้อสังเกตว่าตระกูลอาจถูกเปลี่ยนชื่อหรือจัดระเบียบใหม่เมื่อเวลาผ่านไป ทำให้เกิดความคลาดเคลื่อนเพิ่มเติมในความจริงพื้นฐานและลดความน่าเชื่อถือของเกณฑ์มาตรฐาน[ 42 ]

การเบี่ยงเบนแนวคิด

เนื่องจากผู้สร้างมัลแวร์ปรับเปลี่ยนเทคนิคอย่างต่อเนื่อง คุณสมบัติทางสถิติของตัวอย่างที่เป็นอันตรายจึงเปลี่ยนแปลงไปด้วยการเปลี่ยนแปลงแนวคิด ในรูปแบบนี้ ได้รับการบันทึกไว้อย่างกว้างขวางและอาจลดประสิทธิภาพของโมเดลได้ เว้นแต่ระบบจะได้รับการอัปเดตเป็นประจำหรือรวมกลไกสำหรับ การเรียน รู้แบบเพิ่มขึ้น[ 42 ]

ความทนทานของฟีเจอร์

นักวิจัยแยกแยะความแตกต่างระหว่างคุณลักษณะที่สามารถจัดการได้ง่ายและคุณลักษณะที่ยากต่อการแก้ไข ตัวอย่างเช่น คุณลักษณะคงที่แบบง่าย เช่น ฟิลด์ส่วนหัว อาจถูกผู้โจมตีเปลี่ยนแปลงได้ ในขณะที่คุณลักษณะเชิงโครงสร้าง เช่นกราฟการไหลของการควบคุมโดยทั่วไปจะมีความเสถียรมากกว่า แต่ต้องใช้การคำนวณที่ซับซ้อนกว่าในการดึงข้อมูล[ 42 ]

ความไม่สมดุลของชนชั้น

ในสภาพแวดล้อมการใช้งานจริง สัดส่วนของตัวอย่างที่เป็นอันตรายอาจต่ำมาก โดยอยู่ในช่วง 0.01% ถึง 2% ของข้อมูลทั้งหมด การกระจายที่ไม่สมดุลนี้ทำให้โมเดลเกิดความลำเอียงไปทางคลาสส่วนใหญ่ ส่งผลให้มีความแม่นยำสูง แต่ไม่สามารถระบุตัวอย่างที่เป็นอันตรายได้[ 43 ]

แนวทางก่อนหน้านี้ในการแก้ปัญหานี้รวมถึงทั้งโซลูชันระดับข้อมูลและโมเดลเฉพาะลำดับ วิธีการต่างๆ เช่น เครือข่าย n-gramและLong Short-Term Memory (LSTM) สามารถจำลองข้อมูลตามลำดับได้ แต่ประสิทธิภาพของเครือข่ายเหล่านี้ลดลงอย่างมากเมื่อตัวอย่างมัลแวร์มีสัดส่วนที่สมจริงในชุดฝึกอบรม ซึ่งแสดงให้เห็นถึงข้อจำกัดในบริบทด้านความปลอดภัยที่สมจริง[ 43 ]

เพื่อแก้ไขปัญหานี้ แนวทางหนึ่งคือการปรับใช้โมเดลจากการประมวลผลภาษาธรรมชาติเช่นBERTวิธีนี้เกี่ยวข้องกับการจัดการลำดับกิจกรรมของแอปพลิเคชันในรูปแบบของ "ภาษา" และปรับแต่งโมเดล BERT ที่ได้รับการฝึกฝนล่วงหน้าสำหรับงานเฉพาะ การศึกษาที่ใช้เทคนิคนี้กับลำดับกิจกรรมของ Android รายงานคะแนน F1ที่ 0.919 บนชุดข้อมูลที่มีตัวอย่างมัลแวร์เพียง 0.5% ผลลัพธ์นี้เป็นการปรับปรุงที่สำคัญเหนือโมเดล LSTM และ n-gram ซึ่งแสดงให้เห็นถึงศักยภาพของโมเดลที่ได้รับการฝึกฝนล่วงหน้าในการจัดการกับความไม่สมดุลของคลาสในการตรวจจับมัลแวร์[ 43 ]

การออกแบบระบบและการเรียนรู้

การออกแบบคุณลักษณะและการฝึกอบรมอาจก่อให้เกิดปัญหาได้การสอดแนมข้อมูลเป็นข้อผิดพลาดทั่วไปที่โมเดลได้รับการฝึกฝนโดยใช้ข้อมูลที่ไม่มีอยู่ในสถานการณ์จริง[ 44 ]ความสัมพันธ์ที่ผิดพลาดเกิดขึ้นเมื่อโมเดลเรียนรู้ที่จะเชื่อมโยงสิ่งประดิษฐ์กับป้ายกำกับ แทนที่จะเป็นรูปแบบที่เกี่ยวข้องกับความปลอดภัยที่อยู่เบื้องหลัง[ 44 ] ตัวอย่างเช่น ตัวจำแนกมัลแวร์อาจเรียนรู้ที่จะระบุสิ่งประดิษฐ์ ของคอมไพเลอร์เฉพาะแทนที่จะเป็นพฤติกรรมที่เป็นอันตราย การเลือกพารามิเตอร์ที่มีอคติเป็นรูปแบบหนึ่งของการสอดแนมข้อมูล โดยที่ไฮเปอร์พารามิเตอร์ ของโมเดล ได้รับการปรับแต่งโดยใช้ชุดทดสอบ [ 44 ]

การประเมินผลการปฏิบัติงาน

การเลือกตัวชี้วัดการประเมินอาจส่งผลต่อความถูกต้องของผลลัพธ์ การมีเกณฑ์พื้นฐานที่ไม่เหมาะสมหมายถึงการไม่เปรียบเทียบโมเดลใหม่กับเกณฑ์พื้นฐานที่เรียบง่ายและเป็นที่ยอมรับ[ 44 ] การวัดประสิทธิภาพที่ไม่เหมาะสมหมายถึงการใช้ตัวชี้วัดที่ไม่สอดคล้องกับเป้าหมายเชิงปฏิบัติของระบบ[ 44 ]การรายงานเฉพาะ " ความแม่นยำ " มักถูกอธิบายว่าไม่เพียงพอสำหรับระบบตรวจจับการบุกรุก ซึ่งอัตราการเกิดผลบวกเท็จถือว่ามีความสำคัญอย่างยิ่ง[ 44 ]ความผิดพลาดของอัตราพื้นฐานคือความล้มเหลวในการตีความประสิทธิภาพอย่างถูกต้องในบริบทของความไม่สมดุลของคลาสขนาดใหญ่[ 44 ]

การติดตั้งและการปฏิบัติงาน

การนำไปใช้งานจริงก่อให้เกิดความท้าทายที่เกี่ยวข้องกับประสิทธิภาพและความปลอดภัยในสภาพแวดล้อมจริง การประเมินเฉพาะในห้องปฏิบัติการคือการประเมินระบบเฉพาะในสภาพแวดล้อมห้องปฏิบัติการที่ควบคุมและคงที่ ซึ่งไม่ได้คำนึงถึงความท้าทายในโลกแห่งความเป็นจริง เช่น การเปลี่ยนแปลงแนวคิดและภาระด้านประสิทธิภาพ[ 44 ] แบบจำลองภัยคุกคามที่ไม่เหมาะสมหมายถึงการ ไม่ พิจารณาระบบ ML เองว่าเป็นพื้นผิวการโจมตี[ 44 ]

รูปแบบการโจมตี

อนุกรมวิธาน

การโจมตีต่ออัลกอริธึมการเรียนรู้ของเครื่อง ( แบบมีผู้กำกับดูแล ) ได้รับการจำแนกประเภทตามแกนหลักสามประการ: [ 45 ]อิทธิพลต่อตัวจำแนก การละเมิดความปลอดภัย และความเฉพาะเจาะจง

  • อิทธิพลของตัวจำแนก: การโจมตีสามารถส่งผลต่อตัวจำแนกได้โดยการขัดขวางขั้นตอนการจำแนก ซึ่งอาจมีขั้นตอนการสำรวจเพื่อระบุช่องโหว่นำหน้า ความสามารถของผู้โจมตีอาจถูกจำกัดโดยข้อจำกัดในการจัดการข้อมูล[ 46 ]
  • การละเมิดความปลอดภัย: การโจมตีอาจส่งข้อมูลที่เป็นอันตรายเข้ามา ซึ่งจะถูกจัดประเภทเป็นข้อมูลที่ถูกต้อง ข้อมูลที่เป็นอันตรายที่ส่งเข้ามาในระหว่างการฝึกอบรมอาจทำให้ข้อมูลที่ถูกต้องถูกปฏิเสธหลังจากการฝึกอบรมเสร็จสิ้น
  • ความเฉพาะเจาะจง: การโจมตีแบบเจาะจงเป้าหมายพยายามที่จะบุกรุก/ก่อกวนในจุดที่เฉพาะเจาะจง ในทางตรงกันข้าม การโจมตีแบบไม่เลือกเป้าหมายจะสร้างความวุ่นวายไปทั่ว

การจำแนกประเภทนี้ได้รับการขยายไปสู่แบบจำลองภัยคุกคามที่ครอบคลุมมากขึ้น ซึ่งอนุญาตให้มีการตั้งสมมติฐานที่ชัดเจนเกี่ยวกับเป้าหมายของฝ่ายตรงข้าม ความรู้เกี่ยวกับระบบที่ถูกโจมตี ความสามารถในการจัดการข้อมูลขาเข้า/ส่วนประกอบของระบบ และกลยุทธ์การโจมตี[ 47 ] [ 48 ]การจำแนกประเภทนี้ได้รับการขยายเพิ่มเติมเพื่อรวมมิติสำหรับกลยุทธ์การป้องกันการโจมตีจากฝ่ายตรงข้าม[ 49 ]

กลยุทธ์

ด้านล่างนี้คือสถานการณ์การโจมตีที่พบได้บ่อยที่สุดบางส่วน

การทำลายข้อมูล

การปนเปื้อนข้อมูลประกอบด้วยการปนเปื้อนชุดข้อมูลการฝึกอบรมด้วยข้อมูลที่ออกแบบมาเพื่อเพิ่มข้อผิดพลาดในผลลัพธ์ เนื่องจากอัลกอริธึมการเรียนรู้ได้รับการกำหนดรูปแบบโดยชุดข้อมูลการฝึกอบรม การปนเปื้อนข้อมูลจึงสามารถตั้งโปรแกรมอัลกอริธึมใหม่ได้อย่างมีประสิทธิภาพด้วยเจตนาร้ายที่อาจเกิดขึ้นได้ ความกังวลเกิดขึ้นโดยเฉพาะอย่างยิ่งสำหรับข้อมูลการฝึกอบรมที่สร้างโดยผู้ใช้ เช่น สำหรับการแนะนำเนื้อหาหรือแบบจำลองภาษาธรรมชาติ ความแพร่หลายของบัญชีปลอมทำให้เกิดโอกาสมากมายสำหรับการปนเปื้อนข้อมูล มีรายงานว่า Facebook ลบบัญชีปลอมประมาณ 7 พันล้านบัญชีต่อปี[ 50 ] [ 51 ]มีการรายงานว่าการปนเปื้อนข้อมูลเป็นข้อกังวลหลักสำหรับการใช้งานในอุตสาหกรรม[ 52 ]

ในสื่อสังคมออนไลน์การรณรงค์เผยแพร่ข้อมูลเท็จพยายามที่จะบิดเบือนอัลกอริทึมการแนะนำและการกลั่นกรอง เพื่อผลักดันเนื้อหาบางอย่างให้เหนือกว่าเนื้อหาอื่นๆ

กรณีเฉพาะของการวางยาพิษข้อมูลคือการโจมตีแบบแบ็กดอร์[ 53 ]ซึ่งมีจุดมุ่งหมายเพื่อสอนพฤติกรรมเฉพาะสำหรับอินพุตด้วยตัวกระตุ้นที่กำหนด เช่น ข้อบกพร่องเล็กน้อยในรูปภาพ เสียง วิดีโอ หรือข้อความ

ภาพประกอบการปนเปื้อนข้อมูลการฝึกอบรม AI แสดงให้เห็นว่าโมเดลสามารถเรียนรู้ที่จะเชื่อมโยงคำศัพท์ที่กำหนดกับแนวคิดที่ไม่ถูกต้องเนื่องจากการปนเปื้อนข้อมูล[ 54 ]

ตัวอย่างเช่นระบบตรวจจับการบุกรุกมักได้รับการฝึกฝนโดยใช้ข้อมูลที่รวบรวมไว้ ผู้โจมตีอาจทำให้ข้อมูลนี้เสียหายโดยการแทรกตัวอย่างที่เป็นอันตรายในระหว่างการทำงาน ซึ่งจะทำให้การฝึกฝนใหม่หยุดชะงัก[ 47 ] [ 48 ] [ 45 ] [ 55 ] [ 56 ]

เทคนิคการวางยาพิษข้อมูลยังสามารถนำไปใช้กับโมเดลข้อความเป็นภาพเพื่อเปลี่ยนแปลงผลลัพธ์ ซึ่งศิลปินใช้เพื่อปกป้องผลงานที่มีลิขสิทธิ์หรือรูปแบบศิลปะของตนจากการลอกเลียนแบบ[ 29 ]

การปนเปื้อนของข้อมูลอาจเกิดขึ้นโดยไม่ได้ตั้งใจผ่านการล่มสลายของโมเดลซึ่งโมเดลได้รับการฝึกฝนด้วยข้อมูลสังเคราะห์[ 57 ]

การโจมตีของไบแซนไทน์

เมื่อการเรียนรู้ของเครื่องถูกขยายขนาด มักจะอาศัยเครื่องคอมพิวเตอร์หลายเครื่องตัวอย่างเช่น ใน การเรียนรู้แบบเฟเดอ เรต อุปกรณ์ปลายทางจะทำงานร่วมกับเซิร์ฟเวอร์กลาง โดยทั่วไปโดยการส่งค่าความชันหรือพารามิเตอร์ของโมเดล อย่างไรก็ตาม อุปกรณ์บางอย่างอาจเบี่ยงเบนจากพฤติกรรมที่คาดหวัง เช่น ทำลายโมเดลของเซิร์ฟเวอร์กลาง [ 58 ]หรือทำให้อัลกอริทึมมีอคติไปในพฤติกรรมบางอย่าง (เช่น ขยายการแนะนำเนื้อหาข้อมูลเท็จ) ในทางกลับกัน หากการฝึกอบรมดำเนินการบนเครื่องเดียว โมเดลจะมีความเสี่ยงสูงต่อความล้มเหลวของเครื่องหรือการโจมตีเครื่องนั้น เครื่องนั้นเป็นจุดเดียวที่อาจเกิดความล้มเหลวได้ [ 59 ] ใน ความเป็นจริง เจ้าของเครื่องอาจแทรก แบ็กดอร์ที่ตรวจจับไม่ได้ได้ด้วยตนเอง[ 60 ]

โซลูชันชั้นนำในปัจจุบันที่ทำให้อัลกอริธึมการเรียนรู้แบบกระจายมีความทนทานต่อผู้เข้าร่วมที่เป็นอันตราย (หรือที่เรียกว่าไบแซนไทน์ ) ในระดับส่วนน้อยนั้นขึ้นอยู่กับกฎการรวมเกรเดียนต์ ที่ แข็งแกร่ง[ 61 ] [ 62 ] [ 63 ] [ 64 ] [ 65 ] [ 66 ]กฎการรวมที่แข็งแกร่งไม่ได้ผลเสมอไป โดยเฉพาะอย่างยิ่งเมื่อข้อมูลของผู้เข้าร่วมมีการกระจายแบบไม่เป็นอิสระเหมือนกัน อย่างไรก็ตาม ในบริบทของผู้เข้าร่วมที่ซื่อสัตย์และแตกต่างกัน เช่น ผู้ใช้ที่มีพฤติกรรมการบริโภคที่แตกต่างกันสำหรับอัลกอริธึมการแนะนำหรือรูปแบบการเขียนที่แตกต่างกันสำหรับแบบจำลองภาษา มีทฤษฎีบทความเป็นไปไม่ได้ที่พิสูจน์ได้ว่าอัลกอริธึมการเรียนรู้ที่แข็งแกร่งใด ๆ สามารถรับประกันได้[ 4 ] [ 67 ]

การหลบหนี

การโจมตีแบบหลบเลี่ยง[ 8 ] [ 47 ] [ 48 ] [ 68 ]ประกอบด้วยการใช้ประโยชน์จากความไม่สมบูรณ์ของแบบจำลองที่ได้รับการฝึกฝน ตัวอย่างเช่น ผู้ส่งสแปมและแฮกเกอร์มักพยายามหลบเลี่ยงการตรวจจับโดยการปกปิดเนื้อหาของอีเมลสแปมและมัลแวร์ตัวอย่างจะถูกแก้ไขเพื่อหลีกเลี่ยงการตรวจจับ กล่าวคือ เพื่อให้ถูกจัดประเภทเป็นของจริง ซึ่งไม่เกี่ยวข้องกับการมีอิทธิพลต่อข้อมูลการฝึกอบรม ตัวอย่างที่ชัดเจนของการหลบเลี่ยงคือสแปมแบบรูปภาพซึ่งเนื้อหาสแปมจะถูกฝังอยู่ภายในรูปภาพที่แนบมาเพื่อหลีกเลี่ยงการวิเคราะห์ข้อความโดยตัวกรองป้องกันสแปม อีกตัวอย่างหนึ่งของการหลบเลี่ยงคือการโจมตีแบบปลอมแปลงต่อระบบการตรวจสอบไบโอเมตริก[ 22 ]

การโจมตีแบบหลบหลีกสามารถแบ่งออกได้เป็นสองประเภทหลักๆ คือการโจมตีแบบกล่องดำและ การ โจมตีแบบกล่องขาว[ 16 ]

การสกัดโมเดล

การสกัดโมเดลเกี่ยวข้องกับการที่ฝ่ายตรงข้ามตรวจสอบระบบการเรียนรู้ของเครื่องแบบกล่องดำเพื่อสกัดข้อมูลที่ใช้ในการฝึกอบรม[ 69 ] [ 70 ] ซึ่งอาจก่อให้เกิดปัญหาเมื่อข้อมูลการฝึกอบรมหรือตัวโมเดลเองมีความละเอียดอ่อนและเป็นความลับ ตัวอย่างเช่น การสกัดโมเดลอาจใช้เพื่อสกัดโมเดลการซื้อขายหุ้นที่เป็นกรรมสิทธิ์ ซึ่งฝ่ายตรงข้ามสามารถนำไปใช้เพื่อผลประโยชน์ทางการเงินของตนเองได้

ในกรณีที่รุนแรงที่สุด การสกัดแบบจำลองอาจนำไปสู่การขโมยแบบจำลอง ซึ่งหมายถึงการสกัดข้อมูลจากแบบจำลองในปริมาณที่มากพอที่จะทำให้สามารถสร้างแบบจำลองขึ้นมาใหม่ได้อย่างสมบูรณ์

ในทางกลับกัน การอนุมานสมาชิกภาพเป็นการโจมตีการสกัดโมเดลแบบกำหนดเป้าหมาย ซึ่งอนุมานเจ้าของจุดข้อมูล โดยมักจะใช้ประโยชน์จากการโอเวอร์ฟิตติ้งที่เกิดจากแนวทางการเรียนรู้ของเครื่องที่ไม่ดี[ 71 ]ที่น่าเป็นห่วงคือ บางครั้งสามารถทำได้แม้ไม่มีความรู้หรือการเข้าถึงพารามิเตอร์ของโมเดลเป้าหมาย ซึ่งก่อให้เกิดความกังวลด้านความปลอดภัยสำหรับโมเดลที่ฝึกฝนด้วยข้อมูลที่ละเอียดอ่อน รวมถึงแต่ไม่จำกัดเพียงบันทึกทางการแพทย์และ/หรือข้อมูลส่วนบุคคล ด้วยการเกิดขึ้นของการเรียนรู้แบบถ่ายโอนและการเข้าถึงโมเดลการเรียนรู้ของเครื่องที่ทันสมัยจำนวนมากในที่สาธารณะ บริษัทเทคโนโลยีจึงหันมาสร้างโมเดลโดยอิงจากโมเดลสาธารณะมากขึ้น ทำให้ผู้โจมตีสามารถเข้าถึงข้อมูลเกี่ยวกับโครงสร้างและประเภทของโมเดลที่ใช้ได้อย่างอิสระ[ 71 ]

หมวดหมู่

การโจมตีแบบต่อต้านและการฝึกฝนในแบบจำลองเชิงเส้น

มีงานวิจัยเพิ่มมากขึ้นเกี่ยวกับการโจมตีแบบต่อต้านในแบบจำลองเชิงเส้นอันที่จริง นับตั้งแต่ผลงานสำคัญของ Goodfellow และคณะ[ 72 ]การศึกษาแบบจำลองเหล่านี้ในแบบจำลองเชิงเส้นได้กลายเป็นเครื่องมือสำคัญในการทำความเข้าใจว่าการโจมตีแบบต่อต้านส่งผลกระทบต่อแบบจำลองการเรียนรู้ของเครื่องอย่างไร การวิเคราะห์แบบจำลองเหล่านี้ทำได้ง่ายขึ้นเนื่องจากการคำนวณการโจมตีแบบต่อต้านสามารถทำให้ง่ายขึ้นใน ปัญหา การถดถอยเชิงเส้นและการจำแนกประเภทยิ่งไปกว่านั้น การฝึกอบรมแบบต่อต้านเป็นแบบนูนในกรณีนี้[ 73 ]

แบบจำลองเชิงเส้นช่วยให้สามารถวิเคราะห์เชิงวิเคราะห์ได้ในขณะที่ยังคงจำลองปรากฏการณ์ที่สังเกตได้ในแบบจำลองที่ทันสมัย ​​ตัวอย่างสำคัญประการหนึ่งคือวิธีที่แบบจำลองนี้สามารถใช้เพื่ออธิบายการแลกเปลี่ยนระหว่างความทนทานและความแม่นยำ[ 74 ] งานที่หลากหลายได้ให้การวิเคราะห์การโจมตีแบบต่อต้านในแบบจำลองเชิงเส้น รวมถึงการวิเคราะห์เชิงอะซิมโทติกสำหรับการจำแนกประเภท[ 75 ]และสำหรับการถดถอยเชิงเส้น[ 76 ] [ 77 ]และการวิเคราะห์ตัวอย่างจำกัดโดยอิงจาก ความซับซ้อน ของRademacher [ 78 ]

ผลลัพธ์จากการศึกษาการโจมตีแบบต่อต้านในแบบจำลองเชิงเส้นคือมีความเกี่ยวข้องอย่างใกล้ชิดกับการทำให้เป็นระเบียบ [ 79 ] ภายใต้เงื่อนไขบางประการ ได้มีการแสดงให้เห็นว่า

  • การฝึกฝนแบบต่อต้านของแบบจำลองการถดถอยเชิงเส้นโดยมีการรบกวนอินพุตที่จำกัดด้วยนอร์มอนันต์ นั้น คล้ายคลึงกับ การถดถอยแบบ Lasso อย่างมาก และว่า
  • การฝึกฝนแบบต่อต้านของแบบจำลองการถดถอยเชิงเส้นโดยมีการรบกวนอินพุตที่จำกัดโดยนอร์ม 2 นั้นคล้ายคลึงกับการถดถอยแบบ Ridge อย่างมาก

การเรียนรู้เสริมแรงเชิงลึกแบบต่อต้าน

การเรียนรู้แบบเสริมแรงเชิงลึกแบบต่อต้านเป็นหัวข้อวิจัยที่กำลังได้รับความสนใจอย่างมากในการเรียนรู้แบบเสริมแรงโดยมุ่งเน้นไปที่จุดอ่อนของนโยบายที่เรียนรู้แล้ว ในหัวข้อวิจัยนี้ การศึกษาบางส่วนแสดงให้เห็นในเบื้องต้นว่านโยบายการเรียนรู้แบบเสริมแรงนั้นอ่อนไหวต่อการจัดการแบบต่อต้านที่มองไม่เห็น[ 72 ] [ 80 ]แม้ว่าจะมีการเสนอวิธีการบางอย่างเพื่อเอาชนะจุดอ่อนเหล่านี้ แต่ในการศึกษาล่าสุดพบว่าวิธีการแก้ปัญหาที่เสนอเหล่านี้ยังห่างไกลจากการแสดงถึงจุดอ่อนในปัจจุบันของนโยบายการเรียนรู้แบบเสริมแรงเชิงลึกได้อย่างแม่นยำ[ 81 ]

การประมวลผลภาษาธรรมชาติแบบต่อต้าน

การโจมตีแบบต่อต้านการรู้จำเสียงพูด ได้ รับการแนะนำสำหรับแอปพลิเคชันแปลงเสียงพูดเป็นข้อความ โดยเฉพาะอย่างยิ่งสำหรับ DeepSpeech ของ Mozilla [ 82 ]และโมเดล Speech Commands ของ Google [ 83 ]มีการเสนอเทคนิคการประมวลผลล่วงหน้าต่างๆ เพื่อป้องกันการโจมตีดังกล่าว[ 84 ]แต่วิธีการเหล่านี้อาจไม่ทนทานต่อผู้โจมตีที่รู้ถึงการป้องกันเหล่านั้น

ประเภทการโจมตีเฉพาะ

มีการโจมตีแบบต่อต้านที่หลากหลายประเภทที่สามารถใช้กับระบบการเรียนรู้ของเครื่องได้ การโจมตีเหล่านี้จำนวนมากใช้ได้ทั้งกับ ระบบ การเรียนรู้เชิงลึกและโมเดลการเรียนรู้ของเครื่องแบบดั้งเดิม เช่นSVM [ 7 ]และ การถดถอย เชิงเส้น[ 85 ]ตัวอย่างระดับสูงของประเภทการโจมตีเหล่านี้ ได้แก่:

  • ตัวอย่างที่เป็นปฏิปักษ์[ 86 ]
  • การโจมตีแบบ Trojan และ backdoor [ 87 ]
  • การผกผันแบบจำลอง[ 88 ]
  • การอนุมานสมาชิกภาพ[ 89 ]

ตัวอย่างการโต้แย้ง

ตัวอย่างที่เป็นอันตราย (Adversarial Example) หมายถึงข้อมูลป้อนเข้าที่ถูกสร้างขึ้นเป็นพิเศษ ซึ่งออกแบบมาให้ดู "ปกติ" สำหรับมนุษย์ แต่ทำให้แบบจำลองการเรียนรู้ของเครื่องจำแนกประเภทผิดพลาด บ่อยครั้งที่มีการใช้ "สัญญาณรบกวน" ที่ออกแบบมาเป็นพิเศษเพื่อกระตุ้นให้เกิดการจำแนกประเภทผิดพลาด ด้านล่างนี้คือเทคนิคบางส่วนในการสร้างตัวอย่างที่เป็นอันตรายในเอกสารทางวิชาการ (ซึ่งไม่ใช่รายการที่ครบถ้วนสมบูรณ์)

  • การโจมตีหลบหลีกตามการไล่ระดับ[ 8 ]
  • วิธีเครื่องหมายการไล่ระดับอย่างรวดเร็ว (FGSM) [ 90 ]
  • การลดระดับความชันที่ฉายภาพ (PGD) [ 91 ]
  • การโจมตีของคาร์ลินีและวากเนอร์ (C&W) [ 92 ]
  • การโจมตีแพทช์ที่เป็นปฏิปักษ์[ 93 ]

การโจมตีแบบกล่องดำ

การโจมตี แบบกล่องดำในการเรียนรู้ของเครื่องจักรแบบต่อต้านนั้นถือว่าฝ่ายตรงข้ามสามารถรับเอาต์พุตสำหรับอินพุตที่ให้มาเท่านั้น และไม่มีความรู้เกี่ยวกับโครงสร้างหรือพารามิเตอร์ของโมเดล[ 16 ] [ 94 ]ในกรณีนี้ ตัวอย่างที่เป็นปฏิปักษ์จะถูกสร้างขึ้นโดยใช้โมเดลที่สร้างขึ้นใหม่ทั้งหมด หรือไม่มีโมเดลเลย (ยกเว้นความสามารถในการสอบถามโมเดลต้นฉบับ) ไม่ว่าในกรณีใด วัตถุประสงค์ของการโจมตีเหล่านี้คือการสร้างตัวอย่างที่เป็นปฏิปักษ์ที่สามารถถ่ายโอนไปยังโมเดลกล่องดำที่เกี่ยวข้องได้[ 95 ]

การโจมตีแบบต่อต้านแบบกล่องดำอย่างง่าย

การโจมตีแบบต่อต้านแบบกล่องดำอย่างง่ายเป็นวิธีที่มีประสิทธิภาพในการสอบถามเพื่อโจมตีตัวจำแนกภาพแบบกล่องดำ[ 96 ]

เลือกฐานออร์โทนอร์มอลแบบสุ่มในผู้เขียนแนะนำให้ใช้การแปลงโคไซน์แบบไม่ต่อเนื่องของฐานมาตรฐาน (พิกเซล)

เพื่อให้ได้ภาพที่จำแนกได้อย่างถูกต้องลองใช้และเปรียบเทียบปริมาณข้อผิดพลาดในการจำแนกภาพกับเลือกภาพที่ทำให้เกิดข้อผิดพลาดมากที่สุด

ทำซ้ำขั้นตอนนี้ไปเรื่อยๆจนกว่าจะได้ระดับความคลาดเคลื่อนที่ต้องการในตัวจำแนกประเภท

การค้นพบนี้เกิดขึ้นเมื่อผู้เขียนออกแบบเส้นฐานที่เรียบง่ายเพื่อเปรียบเทียบกับอัลกอริธึมการโจมตีแบบต่อต้านแบบกล่องดำก่อนหน้านี้ซึ่งอิงตามกระบวนการเกาส์เซียนและรู้สึกประหลาดใจที่เส้นฐานทำงานได้ดียิ่งขึ้น[ 97 ]

การโจมตีแบบสี่เหลี่ยม

การโจมตีแบบ Square ถูกนำเสนอในปี 2020 ในฐานะเทคนิคการโจมตีแบบหลีกเลี่ยงกล่องดำโดยอาศัยการสอบถามคะแนนการจำแนกประเภทโดยไม่จำเป็นต้องใช้ข้อมูลการไล่ระดับ[ 98 ]ในฐานะการโจมตีแบบกล่องดำที่อิงตามคะแนน วิธีการแบบต่อต้านนี้สามารถสอบถามการกระจายความน่าจะเป็นในคลาสเอาต์พุตของโมเดลได้ แต่ไม่มีการเข้าถึงโมเดลเอง ตามที่ผู้เขียนบทความระบุ การโจมตีแบบ Square ที่เสนอต้องใช้การสอบถามน้อยกว่าเมื่อเปรียบเทียบกับการโจมตีแบบกล่องดำที่อิงตามคะแนนที่ทันสมัยที่สุดในขณะนั้น[ 98 ]

เพื่ออธิบายวัตถุประสงค์ของฟังก์ชัน การโจมตีจะกำหนดตัวจำแนกเป็นโดยที่แทนขนาดของอินพุต และเป็นจำนวนคลาสเอาต์พุตทั้งหมดส่งคืนคะแนน (หรือความน่าจะเป็นระหว่าง 0 ถึง 1) ที่อินพุตเป็นของคลาสซึ่งทำให้สามารถกำหนดคลาสเอาต์พุตของตัวจำแนกสำหรับอินพุตใด ๆเป็น ได้เป้าหมายของการโจมตีนี้มีดังต่อไปนี้: [ 98 ]

กล่าวอีกนัยหนึ่งคือ การค้นหาตัวอย่างที่เป็นปฏิปักษ์ที่ถูกรบกวนบางอย่างเพื่อให้ตัวจำแนกจำแนกผิดพลาดไปยังคลาสอื่นภายใต้ข้อจำกัดที่ว่าและมีความคล้ายคลึงกัน จากนั้นเอกสารจะกำหนดการสูญเสียเป็นและเสนอวิธีแก้ปัญหาในการค้นหาตัวอย่างที่เป็นปฏิปักษ์โดยการแก้ปัญหาการเพิ่มประสิทธิภาพภายใต้ข้อจำกัดดัง ต่อไปนี้ : [ 98 ]

ผลลัพธ์ในทางทฤษฎีคือตัวอย่างที่เป็นปฏิปักษ์ซึ่งมีความมั่นใจสูงในคลาสที่ไม่ถูกต้อง แต่ก็มีความคล้ายคลึงกับภาพต้นฉบับมาก ในการค้นหาตัวอย่างดังกล่าว Square Attack ใช้ เทคนิค การค้นหาแบบสุ่ม แบบวน ซ้ำเพื่อรบกวนภาพแบบสุ่มโดยหวังว่าจะปรับปรุงฟังก์ชันวัตถุประสงค์ ในแต่ละขั้นตอน อัลกอริทึมจะรบกวนเฉพาะส่วนสี่เหลี่ยมเล็กๆ ของพิกเซลเท่านั้น จึงเป็นที่มาของชื่อ Square Attack ซึ่งจะสิ้นสุดลงทันทีที่พบตัวอย่างที่เป็นปฏิปักษ์เพื่อปรับปรุงประสิทธิภาพการค้นหา สุดท้าย เนื่องจากอัลกอริทึมการโจมตีใช้คะแนนและไม่ใช่ข้อมูลการไล่ระดับ ผู้เขียนบทความระบุว่าวิธีการนี้ไม่ได้รับผลกระทบจากการปิดบังการไล่ระดับ ซึ่งเป็นเทคนิคทั่วไปที่เคยใช้เพื่อป้องกันการโจมตีแบบหลีกเลี่ยง[ 98 ]

การโจมตีแบบ HopSkipJump

การโจมตีแบบกล่องดำนี้ยังถูกเสนอให้เป็นการโจมตีที่มีประสิทธิภาพในการสอบถาม แต่เป็นการโจมตีที่อาศัยการเข้าถึงคลาสเอาต์พุตที่คาดการณ์ของอินพุตใดๆ เท่านั้น กล่าวอีกนัยหนึ่ง การโจมตี HopSkipJump ไม่จำเป็นต้องมีความสามารถในการคำนวณเกรเดียนต์หรือการเข้าถึงค่าคะแนนเหมือนกับการโจมตีแบบสี่เหลี่ยม และจะต้องการเพียงเอาต์พุตการคาดการณ์คลาสของโมเดล (สำหรับอินพุตใดๆ ที่กำหนด) การโจมตีที่เสนอนี้แบ่งออกเป็นสองการตั้งค่าที่แตกต่างกัน คือ แบบกำหนดเป้าหมายและแบบไม่กำหนดเป้าหมาย แต่ทั้งสองแบบสร้างขึ้นจากแนวคิดทั่วไปของการเพิ่มการรบกวนขั้นต่ำที่นำไปสู่เอาต์พุตของโมเดลที่แตกต่างกัน ในการตั้งค่าแบบกำหนดเป้าหมาย เป้าหมายคือการทำให้โมเดลจำแนกภาพที่ถูกรบกวนผิดพลาดไปยังป้ายกำกับเป้าหมายเฉพาะ (ที่ไม่ใช่ป้ายกำกับดั้งเดิม) ในการตั้งค่าแบบไม่กำหนดเป้าหมาย เป้าหมายคือการทำให้โมเดลจำแนกภาพที่ถูกรบกวนผิดพลาดไปยังป้ายกำกับใดๆ ที่ไม่ใช่ป้ายกำกับดั้งเดิม วัตถุประสงค์ของการโจมตีสำหรับทั้งสองแบบมีดังนี้ โดยที่คือภาพดั้งเดิมคือภาพที่เป็นปฏิปักษ์คือฟังก์ชันระยะห่างระหว่างภาพคือป้ายกำกับเป้าหมาย และคือฟังก์ชันป้ายกำกับคลาสการจำแนกประเภทของโมเดล: [ 99 ]

เพื่อแก้ไขปัญหานี้ การโจมตีเสนอฟังก์ชันขอบเขตต่อไปนี้สำหรับทั้งการตั้งค่าที่ไม่ได้กำหนดเป้าหมายและที่กำหนดเป้าหมาย: [ 99 ]

สามารถลดความซับซ้อนเพิ่มเติมเพื่อให้เห็นภาพขอบเขตระหว่างตัวอย่างที่เป็นปฏิปักษ์ที่อาจเกิดขึ้นได้ต่าง ๆ ได้ดียิ่งขึ้น: [ 99 ]

ด้วยฟังก์ชันขอบเขตนี้ การโจมตีจะดำเนินการตามอัลกอริทึมแบบวนซ้ำเพื่อค้นหาตัวอย่างที่เป็นอันตรายสำหรับรูปภาพที่กำหนดซึ่งตรงตามวัตถุประสงค์ของการโจมตี

  1. เริ่มต้นณ จุดใดจุดหนึ่ง
  2. ทำซ้ำด้านล่าง
    1. การค้นหาขอบเขต
    2. การอัปเดตการไล่ระดับสี
      • คำนวณเกรเดียนต์
      • หาขนาดขั้นตอน

การค้นหาขอบเขตใช้การค้นหาแบบไบนารี ที่ดัดแปลง เพื่อหาจุดที่ขอบเขต (ตามที่กำหนดโดย) ตัดกับเส้นระหว่างและขั้นตอนต่อไปเกี่ยวข้องกับการคำนวณเกรเดียนต์สำหรับและอัปเดตต้นฉบับโดยใช้เกรเดียนต์นี้และขนาดขั้นตอนที่เลือกไว้ล่วงหน้า ผู้เขียน HopSkipJump พิสูจน์ว่าอัลกอริทึมแบบวนซ้ำนี้จะลู่เข้า ทำให้ได้จุดที่อยู่ตามแนวขอบเขตซึ่งอยู่ใกล้กับภาพต้นฉบับมาก[ 99 ]

อย่างไรก็ตาม เนื่องจาก HopSkipJump เป็นการโจมตีแบบกล่องดำที่เสนอ และอัลกอริธึมแบบวนซ้ำข้างต้นต้องการการคำนวณเกรเดียนต์ในขั้นตอนการวนซ้ำครั้งที่สอง (ซึ่งการโจมตีแบบกล่องดำไม่สามารถเข้าถึงได้) ผู้เขียนจึงเสนอวิธีแก้ปัญหาการคำนวณเกรเดียนต์ที่ต้องการเพียงการคาดการณ์เอาต์พุตของโมเดลเท่านั้น[ 99 ]โดยการสร้างเวกเตอร์สุ่มจำนวนมากในทุกทิศทาง ซึ่งแสดงด้วยสามารถคำนวณค่าประมาณของเกรเดียนต์ได้โดยใช้ค่าเฉลี่ยของเวกเตอร์สุ่มเหล่านี้ถ่วงน้ำหนักด้วยเครื่องหมายของฟังก์ชันขอบเขตบนภาพโดยที่คือขนาดของการรบกวนเวกเตอร์สุ่ม: [ 99 ]

ผลลัพธ์ของสมการข้างต้นให้ค่าประมาณใกล้เคียงของเกรเดียนต์ที่จำเป็นในขั้นตอนที่ 2 ของอัลกอริธึมแบบวนซ้ำ ทำให้ HopSkipJump เสร็จสมบูรณ์ในฐานะการโจมตีแบบกล่องดำ[ 100 ] [ 101 ] [ 99 ]

การโจมตีกล่องขาว

การโจมตี แบบกล่องขาวถือว่าฝ่ายตรงข้ามสามารถเข้าถึงพารามิเตอร์ของโมเดลได้ นอกเหนือจากการได้รับป้ายกำกับสำหรับอินพุตที่ให้มา[ 95 ]

วิธีแสดงค่าความชันอย่างรวดเร็ว

หนึ่งในการโจมตีครั้งแรกที่เสนอเพื่อสร้างตัวอย่างที่เป็นปฏิปักษ์ได้รับการเสนอโดยนักวิจัยของ Google ได้แก่Ian J. Goodfellow , Jonathon Shlens และ Christian Szegedy [ 102 ]การโจมตีนี้เรียกว่าวิธีการกำหนดเครื่องหมายเกรเดียนต์อย่างรวดเร็ว (FGSM) ซึ่งประกอบด้วยการเพิ่มสัญญาณรบกวนที่ไม่สามารถรับรู้ได้ในปริมาณเชิงเส้นให้กับภาพและทำให้แบบจำลองจำแนกภาพผิดพลาด สัญญาณรบกวนนี้คำนวณโดยการคูณเครื่องหมายของเกรเดียนต์เทียบกับภาพที่เราต้องการรบกวนด้วยค่าคงที่เอปไซลอนขนาดเล็ก เมื่อเอปไซลอนเพิ่มขึ้น แบบจำลองก็มีแนวโน้มที่จะถูกหลอกมากขึ้น แต่การรบกวนก็จะระบุได้ง่ายขึ้นเช่นกัน สมการสำหรับการสร้างตัวอย่างที่เป็นปฏิปักษ์แสดงไว้ด้านล่าง โดยที่คือภาพต้นฉบับคือจำนวนที่เล็กมากคือฟังก์ชันเกรเดียนต์คือฟังก์ชันการสูญเสียคือน้ำหนักของแบบจำลอง และคือป้ายกำกับที่แท้จริง[ 103 ]

คุณสมบัติสำคัญประการหนึ่งของสมการนี้คือ การคำนวณเกรเดียนต์โดยสัมพันธ์กับภาพอินพุต เนื่องจากเป้าหมายคือการสร้างภาพที่เพิ่มค่าความสูญเสียสูงสุดสำหรับภาพต้นฉบับของป้ายกำกับจริงในการลดเกรเดียนต์ แบบดั้งเดิม (สำหรับการฝึกโมเดล) เกรเดียนต์จะถูกใช้เพื่ออัปเดตน้ำหนักของโมเดล เนื่องจากเป้าหมายคือการลดค่าความสูญเสียให้น้อยที่สุดสำหรับโมเดลบนชุดข้อมูลความจริงพื้นฐาน วิธีการ Fast Gradient Sign Method ได้รับการเสนอให้เป็นวิธีที่รวดเร็วในการสร้างตัวอย่างที่เป็นปฏิปักษ์เพื่อหลีกเลี่ยงโมเดล โดยอิงจากสมมติฐานที่ว่าโครงข่ายประสาทเทียมไม่สามารถต้านทานการรบกวนแม้ในปริมาณเชิงเส้นต่ออินพุตได้[ 104 ] [ 103 ] [ 102 ] FGSM ได้แสดงให้เห็นว่ามีประสิทธิภาพในการโจมตีที่เป็นปฏิปักษ์สำหรับการจำแนกภาพและการจดจำการเคลื่อนไหวของโครงกระดูก[ 105 ]

คาร์ลินี แอนด์ แวกเนอร์

ในความพยายามที่จะวิเคราะห์การโจมตีและการป้องกันที่เป็นปฏิปักษ์ที่มีอยู่ นักวิจัยที่มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์Nicholas CarliniและDavid Wagnerในปี 2016 ได้เสนอวิธีการที่รวดเร็วและแข็งแกร่งกว่าในการสร้างตัวอย่างที่เป็นปฏิปักษ์[ 106 ]

การโจมตีที่เสนอโดย Carlini และ Wagner เริ่มต้นด้วยการพยายามแก้สมการการเพิ่มประสิทธิภาพที่ไม่เป็นเชิงเส้นที่ยากลำบาก: [ 70 ]

วัตถุประสงค์ในที่นี้คือการลดสัญญาณรบกวน ( ) ที่เพิ่มเข้าไปในอินพุตเดิม ให้น้อย ที่สุด เพื่อให้อัลกอริธึมการเรียนรู้ของเครื่อง ( ) ทำนายอินพุตเดิมด้วยเดลต้า (หรือ) เป็นคลาสอื่นอย่างไรก็ตาม แทนที่จะใช้สมการข้างต้นโดยตรง Carlini และ Wagner เสนอให้ใช้ฟังก์ชันใหม่ดังนี้: [ 70 ]

สิ่งนี้จะย่อสมการแรกให้เป็นปัญหาด้านล่าง: [ 70 ]

และยิ่งไปกว่านั้นในสมการด้านล่าง: [ 70 ]

จากนั้น Carlini และ Wagner เสนอให้ใช้ฟังก์ชันด้านล่างแทนการใช้ฟังก์ชันที่กำหนดความน่าจะเป็นของคลาสสำหรับอินพุตที่กำหนดเมื่อแทนที่สมการนี้เข้าไป จะสามารถคิดได้ว่าเป็นการค้นหาคลาสเป้าหมายที่มีความมั่นใจมากกว่าคลาสที่มีโอกาสมากที่สุดถัดไปด้วยค่าคงที่บางค่า: [ 70 ]

เมื่อแก้สมการนี้โดยใช้การไล่ระดับความชัน สมการนี้สามารถสร้างตัวอย่างที่เป็นปฏิปักษ์ที่แข็งแกร่งกว่าเมื่อเปรียบเทียบกับวิธีการไล่ระดับความชันแบบเร็วซึ่งสามารถหลีกเลี่ยงการกลั่น ป้องกัน ซึ่งเป็นการป้องกันที่เคยถูกเสนอว่ามีประสิทธิภาพต่อตัวอย่างที่เป็นปฏิปักษ์[ 107 ] [ 108 ] [ 106 ] [ 70 ]

การป้องกัน

การแสดงแนวคิดของการแข่งขันอาวุธเชิงรุก[ 48 ] [ 39 ]

นักวิจัยได้เสนอแนวทางหลายขั้นตอนในการปกป้องการเรียนรู้ของเครื่อง[ 10 ]

  • การสร้างแบบจำลองภัยคุกคาม – กำหนดเป้าหมายและความสามารถของผู้โจมตีที่มีต่อระบบเป้าหมายอย่างเป็นทางการ
  • การจำลองการโจมตี – กำหนดรูปแบบปัญหาการเพิ่มประสิทธิภาพที่ผู้โจมตีพยายามแก้ไขตามกลยุทธ์การโจมตีที่เป็นไปได้
  • การประเมินผลกระทบจากการโจมตี
  • การออกแบบมาตรการตอบโต้
  • การตรวจจับเสียงรบกวน (สำหรับการโจมตีแบบหลบเลี่ยง) [ 109 ]
  • การฟอกข้อมูล – เปลี่ยนแปลงข้อมูลที่ได้รับจากฝ่ายตรงข้าม (สำหรับการโจมตีขโมยแบบจำลอง) [ 70 ]

กลไก

มีการเสนอแนวทางการป้องกันหลายประการเพื่อต่อต้านการหลีกเลี่ยง การวางยาพิษ และการโจมตีความเป็นส่วนตัว ซึ่งรวมถึง:

  • อัลกอริทึมการเรียนรู้ที่ปลอดภัย[ 19 ] [ 110 ] [ 111 ]
  • อัลกอริทึมที่ทนทานต่อไบแซนไทน์[ 61 ] [ 4 ]
  • ระบบจำแนกประเภทหลายระบบ[ 18 ] [ 112 ]
  • อัลกอริทึมที่เขียนโดย AI [ 34 ]
  • AI ที่สำรวจสภาพแวดล้อมการฝึกอบรม ตัวอย่างเช่น ในการจดจำภาพ จะทำการสำรวจสภาพแวดล้อม 3 มิติอย่างกระตือรือร้น แทนที่จะสแกนชุดภาพ 2 มิติที่กำหนดไว้แบบเฉื่อยชา[ 34 ]
  • การเรียนรู้ที่รักษาความเป็นส่วนตัว[ 48 ] [ 113 ]
  • อัลกอริทึมบันไดสำหรับการแข่งขันแบบKaggle [ 114 ]
  • แบบจำลองทฤษฎีเกม[ 115 ] [ 116 ] [ 117 ]
  • การตรวจสอบความถูกต้องของข้อมูลการฝึกอบรม
  • การฝึกอบรมแบบต่อต้าน[ 90 ] [ 21 ]
  • อัลกอริทึมการตรวจจับประตูหลัง[ 118 ]
  • เทคนิคการปกปิด/ซ่อนเร้นความชัน: เพื่อป้องกันไม่ให้ฝ่ายตรงข้ามใช้ประโยชน์จากความชันในการโจมตีแบบไวท์บ็อกซ์ การป้องกันประเภทนี้ถือว่าไม่น่าเชื่อถือ เนื่องจากโมเดลเหล่านี้ยังคงมีความเสี่ยงต่อการโจมตีแบบแบล็กบ็อกซ์ หรือสามารถหลีกเลี่ยงได้ด้วยวิธีอื่น[ 119 ]
  • มีการเสนอแบบจำลองหลายชุด ในเอกสาร ซึ่งแสดงให้เห็นว่าไม่มีประสิทธิภาพต่อการโจมตีแบบหลีกเลี่ยง [ 120 ]แต่มีประสิทธิภาพต่อการโจมตีแบบวางยาพิษข้อมูล[ 121 ]
  • การป้องกันเป้าหมายเคลื่อนที่[ 122 ]

ดูเพิ่มเติม

  • MITRE ATLAS: ภูมิทัศน์ภัยคุกคามจากฝ่ายตรงข้ามสำหรับระบบปัญญาประดิษฐ์
  • ร่างมาตรฐาน NIST 8269: การจำแนกประเภทและศัพท์เฉพาะของการเรียนรู้ของเครื่องจักรแบบต่อต้าน
  • Laskov, Pavel; Lippmann, Richard (2010). "การเรียนรู้ของเครื่องในสภาพแวดล้อมที่เป็นปฏิปักษ์" Machine Learning . 81 (2): 115– 119. doi : 10.1007/s10994-010-5207-6 . S2CID  12567278 .
  • การประชุมเชิงปฏิบัติการด้านปัญญาประดิษฐ์และความปลอดภัย (AISec)
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Adversarial_machine_learning&oldid=1355845038 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การเรียนรู้ของเครื่องจักรแบบต่อต้าน

การเรียนรู้ของเครื่องจักรแบบต่อต้าน คือการศึกษาการโจมตี อัลกอริทึม การเรียนรู้ของเครื่องจักร และการป้องกันการโจมตีดังกล่าว [ 1 ]

ประวัติศาสตร์

ในการประชุม MIT Spam Conference ในเดือนมกราคม พ.ศ. 2547 John Graham-Cumming ได้แสดงให้เห็นว่าตัวกรองสแปมแบบเรียนรู้ด้วยเครื่องสามารถใช้เพื่อเอาชนะตัวกรองสแปมแบบเรียนรู้ด้วยเครื่องอีกตัวหนึ่งได้...

ตัวอย่าง

ตัวอย่าง ได้แก่ การโจมตีใน การกรองสแปม ซึ่งข้อความสแปมจะถูกทำให้คลุมเครือโดยการสะกดคำ "ไม่ดี" ผิด หรือการแทรกคำ "ดี" [ 18 ] [ 19 ] การโจมตีใน ความปลอดภัยของคอมพิวเตอร์ เช่น การทำให้ รหัส ของมัลแวร์ คลุมเครือ ภายใน แพ็กเก็ตเครือข่าย หรือการแก้ไขลักษณะของ...

ความท้าทายในการประยุกต์ใช้การเรียนรู้ของเครื่องจักรกับด้านความปลอดภัย

นักวิจัยได้สังเกตว่าข้อจำกัดที่เทคนิคการเรียนรู้ของเครื่องทำงานในโดเมนความปลอดภัยนั้นแตกต่างจากข้อจำกัดของโดเมนมาตรฐานทั่วไป ข้อมูลความปลอดภัยอาจเปลี่ยนแปลงไปตามเวลา รวมถึงตัวอย่างที่ติดป้ายกำกับผิด หรือสะท้อนพฤติกรรมที่เป็นปรปักษ์...