การเรียนรู้ของเครื่องจักรแบบต่อต้าน

Q: ข้อมูลสำคัญเกี่ยวกับ การเรียนรู้ของเครื่องจักรแบบต่อต้าน

การเรียนรู้ของเครื่องจักรแบบต่อต้าน คือการศึกษาการโจมตี อัลกอริทึม การเรียนรู้ของเครื่องจักร และการป้องกันการโจมตีดังกล่าว [ 1 ]

การเรียนรู้ของเครื่องจักรแบบต่อต้านคือการศึกษาการโจมตี อัลกอริทึม การเรียนรู้ของเครื่องจักรและการป้องกันการโจมตีดังกล่าว^{[ 1 ]}

เทคนิคการเรียนรู้ของเครื่องส่วนใหญ่ถูกออกแบบมาเพื่อใช้กับชุดปัญหาเฉพาะ โดยอยู่บนสมมติฐานว่าข้อมูลฝึกฝนและข้อมูลทดสอบถูกสร้างขึ้นจากการกระจายทางสถิติเดียวกัน ( IID ) อย่างไรก็ตาม สมมติฐานนี้มักถูกละเมิดในการใช้งานจริงที่มีความเสี่ยงสูง ซึ่งผู้ใช้อาจจงใจป้อนข้อมูลที่สร้างขึ้นมาเองซึ่งละเมิดสมมติฐานทางสถิติ

การโจมตีที่พบบ่อยที่สุดในการเรียนรู้ของเครื่องจักรแบบต่อต้าน ได้แก่^การโจมตีแบบหลบเลี่ยง [ ²^] การโจมตี แบบวางยาพิษข้อมูล^[³^]การโจมตีแบบไบแซนไทน์^[⁴^]และการสกัดโมเดล^[⁵^]

ประวัติศาสตร์

ในการประชุม MIT Spam Conference ในเดือนมกราคม พ.ศ. 2547 John Graham-Cummingได้แสดงให้เห็นว่าตัวกรองสแปมแบบเรียนรู้ด้วยเครื่องสามารถใช้เพื่อเอาชนะตัวกรองสแปมแบบเรียนรู้ด้วยเครื่องอีกตัวหนึ่งได้ โดยการเรียนรู้คำที่จะเพิ่มลงในอีเมลสแปมโดยอัตโนมัติเพื่อให้อีเมลนั้นถูกจัดประเภทว่าไม่ใช่สแปม^{[ 6 ]}

ในปี 2547 Nilesh Dalvi และคนอื่นๆ สังเกตว่าตัวจำแนกเชิงเส้นที่ใช้ในตัวกรองสแปมสามารถถูกเอาชนะได้ด้วย " การโจมตี แบบหลีกเลี่ยง " ง่ายๆ เนื่องจากผู้ส่งสแปมแทรก "คำที่ดี" ลงในอีเมลสแปมของพวกเขา (ประมาณปี 2550 ผู้ส่งสแปมบางรายเพิ่มสัญญาณรบกวนแบบสุ่มลงในคำที่คลุมเครือภายใน "สแปมรูปภาพ" เพื่อเอาชนะ ตัวกรองที่ใช้ OCR ) ในปี 2549 Marco Barreno และคนอื่นๆ ได้ตีพิมพ์ "การเรียนรู้ของเครื่องสามารถปลอดภัยได้หรือไม่?" ซึ่งสรุปการจำแนกประเภทการโจมตีอย่างกว้างขวาง จนถึงปี 2556 นักวิจัยหลายคนยังคงหวังว่าตัวจำแนกที่ไม่ใช่เชิงเส้น (เช่นเครื่องสนับสนุนเวกเตอร์และโครงข่ายประสาทเทียม ) อาจมีความทนทานต่อศัตรู จนกระทั่ง Battista Biggio และคนอื่นๆ ได้แสดงให้เห็นการโจมตีแบบอิงตามการไล่ระดับครั้งแรกบนแบบจำลองการเรียนรู้ของเครื่องดังกล่าว (2555 ^{[ 7 ]} – 2556 ^{[ 8 ]} ) ในปี 2555 โครงข่ายประสาทเทียมเชิงลึกเริ่มมีบทบาทสำคัญในปัญหาการมองเห็นด้วยคอมพิวเตอร์ตั้งแต่ปี 2014 Christian Szegedy และคนอื่นๆ ได้แสดงให้เห็นว่าเครือข่ายประสาทเทียมเชิงลึกสามารถถูกหลอกโดยฝ่ายตรงข้ามได้ โดยใช้การโจมตีแบบอิงตามการไล่ระดับเพื่อสร้างการรบกวนที่เป็นปฏิปักษ์^{[ 9 ]}^{[ 10 ]}

งานวิจัยเพิ่มเติมจะแสดงให้เห็นว่าการโจมตีแบบต่อต้านนั้นสร้างได้ยากขึ้นในสภาพแวดล้อมที่ไม่สามารถควบคุมได้ เนื่องจากข้อจำกัดของสภาพแวดล้อมที่แตกต่างกันซึ่งหักล้างผลกระทบของสัญญาณรบกวน^{[ 11 ]}^{[ 12 ]}ตัวอย่างเช่น การหมุนเล็กน้อยหรือแสงสว่างเพียงเล็กน้อยบนภาพต่อต้านสามารถทำลายความเป็นศัตรูได้ นอกจากนี้ นักวิจัยเช่นNick FrosstจากGoogle Brainชี้ให้เห็นว่าการทำให้รถยนต์ขับเคลื่อนอัตโนมัติ^[¹³^]พลาดป้ายหยุดรถนั้นง่ายกว่ามากหากนำป้ายนั้นออกไปจริง ๆ มากกว่าการสร้างตัวอย่างต่อต้าน^[¹⁴^] Frosst ยังเชื่อว่าชุมชนการเรียนรู้ของเครื่องจักรแบบต่อต้านนั้นเข้าใจผิดว่าแบบจำลองที่ฝึกฝนบนการกระจายข้อมูลบางอย่างจะทำงานได้ดีบนการกระจายข้อมูลที่แตกต่างกันอย่างสิ้นเชิง เขาแนะนำว่าควรสำรวจแนวทางใหม่ในการเรียนรู้ของเครื่องจักร และปัจจุบันกำลังทำงานเกี่ยวกับเครือข่ายประสาทเทียมที่ไม่เหมือนใครซึ่งมีลักษณะคล้ายกับการรับรู้ของมนุษย์มากกว่าแนวทางที่ทันสมัย^[¹⁴^]

แม้ว่าการเรียนรู้ของเครื่องจักรแบบต่อต้านจะยังคงมีรากฐานมาจากแวดวงวิชาการอย่างมาก แต่บริษัทเทคโนโลยีขนาดใหญ่ เช่น Google, Microsoft และ IBM ได้เริ่มรวบรวมเอกสารและฐานรหัสโอเพนซอร์สเพื่อให้ผู้อื่นสามารถประเมินความแข็งแกร่งของแบบจำลองการเรียนรู้ของเครื่องจักรได้อย่างเป็นรูปธรรมและลดความเสี่ยงของการโจมตีแบบต่อต้าน^{[ 15 ]}^{[ 16 ]}^{[ 17 ]}

ตัวอย่าง

ตัวอย่าง ได้แก่ การโจมตีในการกรองสแปมซึ่งข้อความสแปมจะถูกทำให้คลุมเครือโดยการสะกดคำ "ไม่ดี" ผิด หรือการแทรกคำ "ดี" ^{[ 18 ]}^{[ 19 ]}การโจมตีในความปลอดภัยของคอมพิวเตอร์เช่น การทำให้ รหัส ของมัลแวร์ คลุมเครือ ภายในแพ็กเก็ตเครือข่ายหรือการแก้ไขลักษณะของการไหลของเครือข่ายเพื่อทำให้การตรวจจับการบุกรุกเข้าใจผิด^{[ 20 ]}^{[ 21 ]}การโจมตีในการจดจำไบโอเมตริก ซึ่งอาจมีการใช้ลักษณะไบโอเมตริกปลอมเพื่อปลอมตัวเป็นผู้ใช้ที่ถูกต้อง^{[ 22 ]}หรือเพื่อบุกรุกแกลเลอรีเทมเพลตของผู้ใช้ที่ปรับให้เข้ากับลักษณะที่อัปเดตเมื่อเวลาผ่านไป

นักวิจัยแสดงให้เห็นว่าการเปลี่ยนเพียงพิกเซลเดียวก็สามารถหลอกอัลกอริธึมการเรียนรู้เชิงลึกได้^{[ 23 ]}นักวิจัยคนอื่นๆได้พิมพ์เต่าของเล่นแบบ 3 มิติด้วยพื้นผิวที่ออกแบบมาเพื่อให้AI ตรวจจับวัตถุของ Google จัดประเภทเป็นปืนไรเฟิลโดยไม่คำนึงถึงมุมที่มองเต่า^{[ 24 ]}การสร้างเต่าต้องใช้เทคโนโลยีการพิมพ์ 3 มิติเชิงพาณิชย์ราคาประหยัดเท่านั้น^{[ 25 ]}

ภาพสุนัขที่ถูกปรับแต่งด้วยเครื่องจักรแสดงให้เห็นว่าดูเหมือนแมวทั้งต่อคอมพิวเตอร์และมนุษย์^{[ 26 ]}การศึกษาในปี 2019 รายงานว่ามนุษย์สามารถเดาได้ว่าเครื่องจักรจะจำแนกภาพที่เป็นปฏิปักษ์อย่างไร^{[ 27 ]}นักวิจัยค้นพบวิธีการรบกวนลักษณะของป้ายหยุดรถเพื่อให้รถยนต์อัตโนมัติจำแนกเป็นป้ายรวมหรือป้ายจำกัดความเร็ว^{[ 13 ]}^{[ 28 ]}

ตัวกรองข้อมูลพิษที่เรียกว่า Nightshade ได้รับการเผยแพร่ในปี 2023 โดยนักวิจัยจากมหาวิทยาลัยชิคาโกตัวกรองนี้สร้างขึ้นเพื่อให้ศิลปินทัศนศิลป์นำไปใช้กับงานศิลปะของพวกเขาเพื่อทำลายชุดข้อมูลของโมเดลข้อความเป็นภาพซึ่งโดยปกติจะดึงข้อมูลจากอินเทอร์เน็ตโดยไม่ได้รับความยินยอมจากผู้สร้างภาพ^{[ 29 ]}^{[ 30 ]}

McAfeeโจมตี ระบบ MobileyeเดิมของTeslaโดยหลอกให้รถวิ่งเกินความเร็วที่กำหนด 50 ไมล์ต่อชั่วโมง เพียงแค่ติดเทปสีดำขนาดสองนิ้วลงบนป้ายจำกัดความเร็ว^[³¹^]^[³²^]

รูปแบบที่เป็นปฏิปักษ์บนแว่นตาหรือเสื้อผ้าที่ออกแบบมาเพื่อหลอกระบบจดจำใบหน้าหรือเครื่องอ่านป้ายทะเบียนรถ ทำให้เกิดอุตสาหกรรมเฉพาะกลุ่มของ "สตรีทแวร์แบบพรางตัว" ^{[ 33 ]}

การโจมตีแบบต่อต้านบนเครือข่ายประสาทเทียมอาจทำให้ผู้โจมตีสามารถแทรกอัลกอริทึมเข้าไปในระบบเป้าหมายได้^{[ 34 ]}นักวิจัยยังสามารถสร้างอินพุตเสียงแบบต่อต้านเพื่อปลอมแปลงคำสั่งให้กับผู้ช่วยอัจฉริยะในรูปแบบเสียงที่ดูเหมือนไม่มีพิษภัย^{[ 35 ]}วรรณกรรมคู่ขนานสำรวจการรับรู้ของมนุษย์ต่อสิ่งเร้าดังกล่าว^{[ 36 ]}^{[ 37 ]}

อัลกอริทึมการจัดกลุ่มถูกนำมาใช้ในแอปพลิเคชันด้านความปลอดภัย การวิเคราะห์มัลแวร์และไวรัสคอมพิวเตอร์มีเป้าหมายเพื่อระบุตระกูลมัลแวร์ และสร้างลายเซ็นการตรวจจับเฉพาะ^{[ 38 ]}^{[ 39 ]}

ในบริบทของการตรวจจับมัลแวร์ นักวิจัยได้เสนอวิธีการสร้างมัลแวร์แบบต่อต้านที่สร้างไบนารีโดยอัตโนมัติเพื่อหลีกเลี่ยงตัวตรวจจับที่ใช้การเรียนรู้ในขณะที่ยังคงรักษาฟังก์ชันการทำงานที่เป็นอันตรายไว้ การโจมตีแบบอิงการเพิ่มประสิทธิภาพ เช่น GAMMA ใช้ขั้นตอนวิธีทางพันธุกรรมเพื่อแทรกเนื้อหาที่ไม่เป็นอันตราย (เช่น การเติมหรือ ส่วน PE ใหม่ ) ลงในไฟล์ปฏิบัติการของ Windows โดยกำหนดให้การหลีกเลี่ยงเป็นปัญหาการเพิ่มประสิทธิภาพแบบมีข้อจำกัดที่สร้างสมดุลระหว่างความสำเร็จในการจำแนกประเภทผิดพลาดกับขนาดของเพย์โหลดที่แทรกเข้าไป และแสดงให้เห็นถึงความสามารถในการถ่ายโอนไปยังผลิตภัณฑ์ป้องกันไวรัสเชิงพาณิชย์^{[ 40 ]}งานเสริมใช้เครือข่ายต่อต้านแบบสร้าง (GANs) เพื่อเรียนรู้การรบกวนพื้นที่คุณลักษณะที่ทำให้มัลแวร์ถูกจัดประเภทเป็นไม่เป็นอันตราย ตัวอย่างเช่น Mal-LSGAN แทนที่การสูญเสีย GAN มาตรฐานด้วยวัตถุประสงค์กำลังสองน้อยที่สุดและ ฟังก์ชันการเปิดใช้งานที่แก้ไขแล้วเพื่อปรับปรุงความเสถียรในการฝึกอบรมและสร้างตัวอย่างมัลแวร์แบบต่อต้านที่ลดอัตราการตรวจพบที่ถูกต้องในตัวตรวจจับหลายตัวได้อย่างมาก^{[ 41 ]}

ความท้าทายในการประยุกต์ใช้การเรียนรู้ของเครื่องจักรกับด้านความปลอดภัย

นักวิจัยได้สังเกตว่าข้อจำกัดที่เทคนิคการเรียนรู้ของเครื่องทำงานในโดเมนความปลอดภัยนั้นแตกต่างจากข้อจำกัดของโดเมนมาตรฐานทั่วไป ข้อมูลความปลอดภัยอาจเปลี่ยนแปลงไปตามเวลา รวมถึงตัวอย่างที่ติดป้ายกำกับผิด หรือสะท้อนพฤติกรรมที่เป็นปรปักษ์ ซึ่งทำให้การประเมินและการทำซ้ำทำได้ยากขึ้น^{[ 42 ]}

ปัญหาการเก็บรวบรวมข้อมูล

ชุดข้อมูลความปลอดภัยมีรูปแบบที่หลากหลาย รวมถึงไบนารี การติดตามเครือข่าย และไฟล์บันทึก การศึกษาต่างๆ รายงานว่ากระบวนการแปลงแหล่งข้อมูลเหล่านี้ให้เป็นคุณลักษณะอาจทำให้เกิดอคติหรือความไม่สอดคล้องกัน^{[ 42 ]} นอกจากนี้ การรั่วไหล ตามเวลาอาจเกิดขึ้นได้เมื่อตัวอย่างมัลแวร์ที่เกี่ยวข้องไม่ได้ถูกแยกออกจากกันอย่างเหมาะสมระหว่างชุดข้อมูลฝึกฝนและ ชุด ข้อมูลทดสอบซึ่งอาจนำไปสู่ผลลัพธ์ที่มองโลกในแง่ดีเกินไป^{[ 42 ]}

ความท้าทายในการติดฉลากและการตรวจสอบข้อเท็จจริง

ป้ายกำกับมัลแวร์มักไม่เสถียรเนื่องจากเอ็นจิ้นป้องกันไวรัสที่แตกต่างกันอาจจัดประเภทตัวอย่างเดียวกันในลักษณะที่ขัดแย้งกัน Ceschin และคณะตั้งข้อสังเกตว่าตระกูลอาจถูกเปลี่ยนชื่อหรือจัดระเบียบใหม่เมื่อเวลาผ่านไป ทำให้เกิดความคลาดเคลื่อนเพิ่มเติมในความจริงพื้นฐานและลดความน่าเชื่อถือของเกณฑ์มาตรฐาน^{[ 42 ]}

การเบี่ยงเบนแนวคิด

เนื่องจากผู้สร้างมัลแวร์ปรับเปลี่ยนเทคนิคอย่างต่อเนื่อง คุณสมบัติทางสถิติของตัวอย่างที่เป็นอันตรายจึงเปลี่ยนแปลงไปด้วยการเปลี่ยนแปลงแนวคิด ในรูปแบบนี้ ได้รับการบันทึกไว้อย่างกว้างขวางและอาจลดประสิทธิภาพของโมเดลได้ เว้นแต่ระบบจะได้รับการอัปเดตเป็นประจำหรือรวมกลไกสำหรับ การเรียน รู้แบบเพิ่มขึ้น^{[ 42 ]}

ความทนทานของฟีเจอร์

นักวิจัยแยกแยะความแตกต่างระหว่างคุณลักษณะที่สามารถจัดการได้ง่ายและคุณลักษณะที่ยากต่อการแก้ไข ตัวอย่างเช่น คุณลักษณะคงที่แบบง่าย เช่น ฟิลด์ส่วนหัว อาจถูกผู้โจมตีเปลี่ยนแปลงได้ ในขณะที่คุณลักษณะเชิงโครงสร้าง เช่นกราฟการไหลของการควบคุมโดยทั่วไปจะมีความเสถียรมากกว่า แต่ต้องใช้การคำนวณที่ซับซ้อนกว่าในการดึงข้อมูล^{[ 42 ]}

ความไม่สมดุลของชนชั้น

ในสภาพแวดล้อมการใช้งานจริง สัดส่วนของตัวอย่างที่เป็นอันตรายอาจต่ำมาก โดยอยู่ในช่วง 0.01% ถึง 2% ของข้อมูลทั้งหมด การกระจายที่ไม่สมดุลนี้ทำให้โมเดลเกิดความลำเอียงไปทางคลาสส่วนใหญ่ ส่งผลให้มีความแม่นยำสูง แต่ไม่สามารถระบุตัวอย่างที่เป็นอันตรายได้^{[ 43 ]}

แนวทางก่อนหน้านี้ในการแก้ปัญหานี้รวมถึงทั้งโซลูชันระดับข้อมูลและโมเดลเฉพาะลำดับ วิธีการต่างๆ เช่น เครือข่าย n-gramและLong Short-Term Memory (LSTM) สามารถจำลองข้อมูลตามลำดับได้ แต่ประสิทธิภาพของเครือข่ายเหล่านี้ลดลงอย่างมากเมื่อตัวอย่างมัลแวร์มีสัดส่วนที่สมจริงในชุดฝึกอบรม ซึ่งแสดงให้เห็นถึงข้อจำกัดในบริบทด้านความปลอดภัยที่สมจริง^{[ 43 ]}

เพื่อแก้ไขปัญหานี้ แนวทางหนึ่งคือการปรับใช้โมเดลจากการประมวลผลภาษาธรรมชาติเช่นBERTวิธีนี้เกี่ยวข้องกับการจัดการลำดับกิจกรรมของแอปพลิเคชันในรูปแบบของ "ภาษา" และปรับแต่งโมเดล BERT ที่ได้รับการฝึกฝนล่วงหน้าสำหรับงานเฉพาะ การศึกษาที่ใช้เทคนิคนี้กับลำดับกิจกรรมของ Android รายงานคะแนน F1ที่ 0.919 บนชุดข้อมูลที่มีตัวอย่างมัลแวร์เพียง 0.5% ผลลัพธ์นี้เป็นการปรับปรุงที่สำคัญเหนือโมเดล LSTM และ n-gram ซึ่งแสดงให้เห็นถึงศักยภาพของโมเดลที่ได้รับการฝึกฝนล่วงหน้าในการจัดการกับความไม่สมดุลของคลาสในการตรวจจับมัลแวร์^{[ 43 ]}

การออกแบบระบบและการเรียนรู้

การออกแบบคุณลักษณะและการฝึกอบรมอาจก่อให้เกิดปัญหาได้การสอดแนมข้อมูลเป็นข้อผิดพลาดทั่วไปที่โมเดลได้รับการฝึกฝนโดยใช้ข้อมูลที่ไม่มีอยู่ในสถานการณ์จริง^{[ 44 ]}ความสัมพันธ์ที่ผิดพลาดเกิดขึ้นเมื่อโมเดลเรียนรู้ที่จะเชื่อมโยงสิ่งประดิษฐ์กับป้ายกำกับ แทนที่จะเป็นรูปแบบที่เกี่ยวข้องกับความปลอดภัยที่อยู่เบื้องหลัง^{[ 44 ]}^{ตัวอย่างเช่น ตัวจำแนกมัลแวร์อาจเรียนรู้ที่จะระบุสิ่งประดิษฐ์ ของ}คอมไพเลอร์เฉพาะแทนที่จะเป็นพฤติกรรมที่เป็นอันตราย การเลือกพารามิเตอร์ที่มีอคติเป็นรูปแบบหนึ่งของการสอดแนมข้อมูล โดยที่ไฮเปอร์พารามิเตอร์ ของโมเดล ได้รับการปรับแต่งโดยใช้ชุดทดสอบ [ ^{44 ]}

การประเมินผลการปฏิบัติงาน

การเลือกตัวชี้วัดการประเมินอาจส่งผลต่อความถูกต้องของผลลัพธ์ การมีเกณฑ์พื้นฐานที่ไม่เหมาะสมหมายถึงการไม่เปรียบเทียบโมเดลใหม่กับเกณฑ์พื้นฐานที่เรียบง่ายและเป็นที่ยอมรับ^{[ 44 ]} การวัดประสิทธิภาพที่ไม่เหมาะสมหมายถึงการใช้ตัวชี้วัดที่ไม่สอดคล้องกับเป้าหมายเชิงปฏิบัติของระบบ^{[ 44 ]}การรายงานเฉพาะ " ความแม่นยำ " มักถูกอธิบายว่าไม่เพียงพอสำหรับระบบตรวจจับการบุกรุก ซึ่งอัตราการเกิดผลบวกเท็จถือว่ามีความสำคัญอย่างยิ่ง^{[ 44 ]}ความผิดพลาดของอัตราพื้นฐานคือความล้มเหลวในการตีความประสิทธิภาพอย่างถูกต้องในบริบทของความไม่สมดุลของคลาสขนาดใหญ่^{[ 44 ]}

การติดตั้งและการปฏิบัติงาน

การนำไปใช้งานจริงก่อให้เกิดความท้าทายที่เกี่ยวข้องกับประสิทธิภาพและความปลอดภัยในสภาพแวดล้อมจริง การประเมินเฉพาะในห้องปฏิบัติการคือการประเมินระบบเฉพาะในสภาพแวดล้อมห้องปฏิบัติการที่ควบคุมและคงที่ ซึ่งไม่ได้คำนึงถึงความท้าทายในโลกแห่งความเป็นจริง เช่น การเปลี่ยนแปลงแนวคิดและภาระด้านประสิทธิภาพ^{[ 44 ]} แบบจำลองภัยคุกคามที่ไม่เหมาะสมหมายถึงการ ไม่ พิจารณาระบบ ML เองว่าเป็นพื้นผิวการโจมตี^{[ 44 ]}

รูปแบบการโจมตี

อนุกรมวิธาน

การโจมตีต่ออัลกอริธึมการเรียนรู้ของเครื่อง ( แบบมีผู้กำกับดูแล ) ได้รับการจำแนกประเภทตามแกนหลักสามประการ: ^{[ 45 ]}อิทธิพลต่อตัวจำแนก การละเมิดความปลอดภัย และความเฉพาะเจาะจง

อิทธิพลของตัวจำแนก: การโจมตีสามารถส่งผลต่อตัวจำแนกได้โดยการขัดขวางขั้นตอนการจำแนก ซึ่งอาจมีขั้นตอนการสำรวจเพื่อระบุช่องโหว่นำหน้า ความสามารถของผู้โจมตีอาจถูกจำกัดโดยข้อจำกัดในการจัดการข้อมูล^{[ 46 ]}
การละเมิดความปลอดภัย: การโจมตีอาจส่งข้อมูลที่เป็นอันตรายเข้ามา ซึ่งจะถูกจัดประเภทเป็นข้อมูลที่ถูกต้อง ข้อมูลที่เป็นอันตรายที่ส่งเข้ามาในระหว่างการฝึกอบรมอาจทำให้ข้อมูลที่ถูกต้องถูกปฏิเสธหลังจากการฝึกอบรมเสร็จสิ้น
ความเฉพาะเจาะจง: การโจมตีแบบเจาะจงเป้าหมายพยายามที่จะบุกรุก/ก่อกวนในจุดที่เฉพาะเจาะจง ในทางตรงกันข้าม การโจมตีแบบไม่เลือกเป้าหมายจะสร้างความวุ่นวายไปทั่ว

การจำแนกประเภทนี้ได้รับการขยายไปสู่แบบจำลองภัยคุกคามที่ครอบคลุมมากขึ้น ซึ่งอนุญาตให้มีการตั้งสมมติฐานที่ชัดเจนเกี่ยวกับเป้าหมายของฝ่ายตรงข้าม ความรู้เกี่ยวกับระบบที่ถูกโจมตี ความสามารถในการจัดการข้อมูลขาเข้า/ส่วนประกอบของระบบ และกลยุทธ์การโจมตี^{[ 47 ]}^{[ 48 ]}การจำแนกประเภทนี้ได้รับการขยายเพิ่มเติมเพื่อรวมมิติสำหรับกลยุทธ์การป้องกันการโจมตีจากฝ่ายตรงข้าม^{[ 49 ]}

กลยุทธ์

ด้านล่างนี้คือสถานการณ์การโจมตีที่พบได้บ่อยที่สุดบางส่วน

การทำลายข้อมูล

การปนเปื้อนข้อมูลประกอบด้วยการปนเปื้อนชุดข้อมูลการฝึกอบรมด้วยข้อมูลที่ออกแบบมาเพื่อเพิ่มข้อผิดพลาดในผลลัพธ์ เนื่องจากอัลกอริธึมการเรียนรู้ได้รับการกำหนดรูปแบบโดยชุดข้อมูลการฝึกอบรม การปนเปื้อนข้อมูลจึงสามารถตั้งโปรแกรมอัลกอริธึมใหม่ได้อย่างมีประสิทธิภาพด้วยเจตนาร้ายที่อาจเกิดขึ้นได้ ความกังวลเกิดขึ้นโดยเฉพาะอย่างยิ่งสำหรับข้อมูลการฝึกอบรมที่สร้างโดยผู้ใช้ เช่น สำหรับการแนะนำเนื้อหาหรือแบบจำลองภาษาธรรมชาติ ความแพร่หลายของบัญชีปลอมทำให้เกิดโอกาสมากมายสำหรับการปนเปื้อนข้อมูล มีรายงานว่า Facebook ลบบัญชีปลอมประมาณ 7 พันล้านบัญชีต่อปี^{[ 50 ]}^{[ 51 ]}มีการรายงานว่าการปนเปื้อนข้อมูลเป็นข้อกังวลหลักสำหรับการใช้งานในอุตสาหกรรม^{[ 52 ]}

ในสื่อสังคมออนไลน์การรณรงค์เผยแพร่ข้อมูลเท็จพยายามที่จะบิดเบือนอัลกอริทึมการแนะนำและการกลั่นกรอง เพื่อผลักดันเนื้อหาบางอย่างให้เหนือกว่าเนื้อหาอื่นๆ

กรณีเฉพาะของการวางยาพิษข้อมูลคือการโจมตีแบบแบ็กดอร์^{[ 53 ]}ซึ่งมีจุดมุ่งหมายเพื่อสอนพฤติกรรมเฉพาะสำหรับอินพุตด้วยตัวกระตุ้นที่กำหนด เช่น ข้อบกพร่องเล็กน้อยในรูปภาพ เสียง วิดีโอ หรือข้อความ

ตัวอย่างเช่นระบบตรวจจับการบุกรุกมักได้รับการฝึกฝนโดยใช้ข้อมูลที่รวบรวมไว้ ผู้โจมตีอาจทำให้ข้อมูลนี้เสียหายโดยการแทรกตัวอย่างที่เป็นอันตรายในระหว่างการทำงาน ซึ่งจะทำให้การฝึกฝนใหม่หยุดชะงัก^{[ 47 ]}^{[ 48 ]}^{[ 45 ]}^{[ 55 ]}^{[ 56 ]}

เทคนิคการวางยาพิษข้อมูลยังสามารถนำไปใช้กับโมเดลข้อความเป็นภาพเพื่อเปลี่ยนแปลงผลลัพธ์ ซึ่งศิลปินใช้เพื่อปกป้องผลงานที่มีลิขสิทธิ์หรือรูปแบบศิลปะของตนจากการลอกเลียนแบบ^{[ 29 ]}

การปนเปื้อนของข้อมูลอาจเกิดขึ้นโดยไม่ได้ตั้งใจผ่านการล่มสลายของโมเดลซึ่งโมเดลได้รับการฝึกฝนด้วยข้อมูลสังเคราะห์^{[ 57 ]}

การโจมตีของไบแซนไทน์

เมื่อการเรียนรู้ของเครื่องถูกขยายขนาด มักจะอาศัยเครื่องคอมพิวเตอร์หลายเครื่องตัวอย่างเช่น ใน การเรียนรู้แบบเฟเดอ เรต อุปกรณ์ปลายทางจะทำงานร่วมกับเซิร์ฟเวอร์กลาง โดยทั่วไปโดยการส่งค่าความชันหรือพารามิเตอร์ของโมเดล อย่างไรก็ตาม อุปกรณ์บางอย่างอาจเบี่ยงเบนจากพฤติกรรมที่คาดหวัง เช่น ทำลายโมเดลของเซิร์ฟเวอร์กลาง ^{[ 58 ]}หรือทำให้อัลกอริทึมมีอคติไปในพฤติกรรมบางอย่าง (เช่น ขยายการแนะนำเนื้อหาข้อมูลเท็จ) ในทางกลับกัน หากการฝึกอบรมดำเนินการบนเครื่องเดียว โมเดลจะมีความเสี่ยงสูงต่อความล้มเหลวของเครื่องหรือการโจมตีเครื่องนั้น เครื่องนั้นเป็นจุดเดียวที่อาจเกิดความล้มเหลวได้ [ ^{59 ] ใน} ความเป็นจริง เจ้าของเครื่องอาจแทรก แบ็กดอร์ที่ตรวจจับไม่ได้ได้ด้วยตนเอง^{[ 60 ]}

โซลูชันชั้นนำในปัจจุบันที่ทำให้อัลกอริธึมการเรียนรู้แบบกระจายมีความทนทานต่อผู้เข้าร่วมที่เป็นอันตราย (หรือที่เรียกว่าไบแซนไทน์ ) ในระดับส่วนน้อยนั้นขึ้นอยู่กับกฎการรวมเกรเดียนต์ ที่ แข็งแกร่ง^{[ 61 ]}^{[ 62 ]}^{[ 63 ]}^{[ 64 ]}^{[ 65 ]}^{[ 66 ]}กฎการรวมที่แข็งแกร่งไม่ได้ผลเสมอไป โดยเฉพาะอย่างยิ่งเมื่อข้อมูลของผู้เข้าร่วมมีการกระจายแบบไม่เป็นอิสระเหมือนกัน อย่างไรก็ตาม ในบริบทของผู้เข้าร่วมที่ซื่อสัตย์และแตกต่างกัน เช่น ผู้ใช้ที่มีพฤติกรรมการบริโภคที่แตกต่างกันสำหรับอัลกอริธึมการแนะนำหรือรูปแบบการเขียนที่แตกต่างกันสำหรับแบบจำลองภาษา มีทฤษฎีบทความเป็นไปไม่ได้ที่พิสูจน์ได้ว่าอัลกอริธึมการเรียนรู้ที่แข็งแกร่งใด ๆ สามารถรับประกันได้^{[ 4 ]}^{[ 67 ]}

การหลบหนี

การโจมตีแบบหลบเลี่ยง^{[ 8 ]}^{[ 47 ]}^{[ 48 ]}^{[ 68 ]}ประกอบด้วยการใช้ประโยชน์จากความไม่สมบูรณ์ของแบบจำลองที่ได้รับการฝึกฝน ตัวอย่างเช่น ผู้ส่งสแปมและแฮกเกอร์มักพยายามหลบเลี่ยงการตรวจจับโดยการปกปิดเนื้อหาของอีเมลสแปมและมัลแวร์ตัวอย่างจะถูกแก้ไขเพื่อหลีกเลี่ยงการตรวจจับ กล่าวคือ เพื่อให้ถูกจัดประเภทเป็นของจริง ซึ่งไม่เกี่ยวข้องกับการมีอิทธิพลต่อข้อมูลการฝึกอบรม ตัวอย่างที่ชัดเจนของการหลบเลี่ยงคือสแปมแบบรูปภาพซึ่งเนื้อหาสแปมจะถูกฝังอยู่ภายในรูปภาพที่แนบมาเพื่อหลีกเลี่ยงการวิเคราะห์ข้อความโดยตัวกรองป้องกันสแปม อีกตัวอย่างหนึ่งของการหลบเลี่ยงคือการโจมตีแบบปลอมแปลงต่อระบบการตรวจสอบไบโอเมตริก^{[ 22 ]}

การโจมตีแบบหลบหลีกสามารถแบ่งออกได้เป็นสองประเภทหลักๆ คือการโจมตีแบบกล่องดำและ การ โจมตีแบบกล่องขาว^{[ 16 ]}

การสกัดโมเดล

การสกัดโมเดลเกี่ยวข้องกับการที่ฝ่ายตรงข้ามตรวจสอบระบบการเรียนรู้ของเครื่องแบบกล่องดำเพื่อสกัดข้อมูลที่ใช้ในการฝึกอบรม^{[ 69 ]}^{[ 70 ]} ซึ่งอาจก่อให้เกิดปัญหาเมื่อข้อมูลการฝึกอบรมหรือตัวโมเดลเองมีความละเอียดอ่อนและเป็นความลับ ตัวอย่างเช่น การสกัดโมเดลอาจใช้เพื่อสกัดโมเดลการซื้อขายหุ้นที่เป็นกรรมสิทธิ์ ซึ่งฝ่ายตรงข้ามสามารถนำไปใช้เพื่อผลประโยชน์ทางการเงินของตนเองได้

ในกรณีที่รุนแรงที่สุด การสกัดแบบจำลองอาจนำไปสู่การขโมยแบบจำลอง ซึ่งหมายถึงการสกัดข้อมูลจากแบบจำลองในปริมาณที่มากพอที่จะทำให้สามารถสร้างแบบจำลองขึ้นมาใหม่ได้อย่างสมบูรณ์

ในทางกลับกัน การอนุมานสมาชิกภาพเป็นการโจมตีการสกัดโมเดลแบบกำหนดเป้าหมาย ซึ่งอนุมานเจ้าของจุดข้อมูล โดยมักจะใช้ประโยชน์จากการโอเวอร์ฟิตติ้งที่เกิดจากแนวทางการเรียนรู้ของเครื่องที่ไม่ดี^{[ 71 ]}ที่น่าเป็นห่วงคือ บางครั้งสามารถทำได้แม้ไม่มีความรู้หรือการเข้าถึงพารามิเตอร์ของโมเดลเป้าหมาย ซึ่งก่อให้เกิดความกังวลด้านความปลอดภัยสำหรับโมเดลที่ฝึกฝนด้วยข้อมูลที่ละเอียดอ่อน รวมถึงแต่ไม่จำกัดเพียงบันทึกทางการแพทย์และ/หรือข้อมูลส่วนบุคคล ด้วยการเกิดขึ้นของการเรียนรู้แบบถ่ายโอนและการเข้าถึงโมเดลการเรียนรู้ของเครื่องที่ทันสมัยจำนวนมากในที่สาธารณะ บริษัทเทคโนโลยีจึงหันมาสร้างโมเดลโดยอิงจากโมเดลสาธารณะมากขึ้น ทำให้ผู้โจมตีสามารถเข้าถึงข้อมูลเกี่ยวกับโครงสร้างและประเภทของโมเดลที่ใช้ได้อย่างอิสระ^{[ 71 ]}

หมวดหมู่

การโจมตีแบบต่อต้านและการฝึกฝนในแบบจำลองเชิงเส้น

มีงานวิจัยเพิ่มมากขึ้นเกี่ยวกับการโจมตีแบบต่อต้านในแบบจำลองเชิงเส้นอันที่จริง นับตั้งแต่ผลงานสำคัญของ Goodfellow และคณะ^{[ 72 ]}การศึกษาแบบจำลองเหล่านี้ในแบบจำลองเชิงเส้นได้กลายเป็นเครื่องมือสำคัญในการทำความเข้าใจว่าการโจมตีแบบต่อต้านส่งผลกระทบต่อแบบจำลองการเรียนรู้ของเครื่องอย่างไร การวิเคราะห์แบบจำลองเหล่านี้ทำได้ง่ายขึ้นเนื่องจากการคำนวณการโจมตีแบบต่อต้านสามารถทำให้ง่ายขึ้นใน ปัญหา การถดถอยเชิงเส้นและการจำแนกประเภทยิ่งไปกว่านั้น การฝึกอบรมแบบต่อต้านเป็นแบบนูนในกรณีนี้^{[ 73 ]}

แบบจำลองเชิงเส้นช่วยให้สามารถวิเคราะห์เชิงวิเคราะห์ได้ในขณะที่ยังคงจำลองปรากฏการณ์ที่สังเกตได้ในแบบจำลองที่ทันสมัย ตัวอย่างสำคัญประการหนึ่งคือวิธีที่แบบจำลองนี้สามารถใช้เพื่ออธิบายการแลกเปลี่ยนระหว่างความทนทานและความแม่นยำ^{[ 74 ]} งานที่หลากหลายได้ให้การวิเคราะห์การโจมตีแบบต่อต้านในแบบจำลองเชิงเส้น รวมถึงการวิเคราะห์เชิงอะซิมโทติกสำหรับการจำแนกประเภท^{[ 75 ]}และสำหรับการถดถอยเชิงเส้น^{[ 76 ]}^{[ 77 ]}และการวิเคราะห์ตัวอย่างจำกัดโดยอิงจาก ความซับซ้อน ของRademacher ^{[ 78 ]}

ผลลัพธ์จากการศึกษาการโจมตีแบบต่อต้านในแบบจำลองเชิงเส้นคือมีความเกี่ยวข้องอย่างใกล้ชิดกับการทำให้เป็นระเบียบ [ ^{79 ] ภาย}ใต้เงื่อนไขบางประการ ได้มีการแสดงให้เห็นว่า

การฝึกฝนแบบต่อต้านของแบบจำลองการถดถอยเชิงเส้นโดยมีการรบกวนอินพุตที่จำกัดด้วยนอร์มอนันต์ นั้น คล้ายคลึงกับ การถดถอยแบบ Lasso อย่างมาก และว่า
การฝึกฝนแบบต่อต้านของแบบจำลองการถดถอยเชิงเส้นโดยมีการรบกวนอินพุตที่จำกัดโดยนอร์ม 2 นั้นคล้ายคลึงกับการถดถอยแบบ Ridge อย่างมาก

การเรียนรู้เสริมแรงเชิงลึกแบบต่อต้าน

การเรียนรู้แบบเสริมแรงเชิงลึกแบบต่อต้านเป็นหัวข้อวิจัยที่กำลังได้รับความสนใจอย่างมากในการเรียนรู้แบบเสริมแรงโดยมุ่งเน้นไปที่จุดอ่อนของนโยบายที่เรียนรู้แล้ว ในหัวข้อวิจัยนี้ การศึกษาบางส่วนแสดงให้เห็นในเบื้องต้นว่านโยบายการเรียนรู้แบบเสริมแรงนั้นอ่อนไหวต่อการจัดการแบบต่อต้านที่มองไม่เห็น^{[ 72 ]}^{[ 80 ]}แม้ว่าจะมีการเสนอวิธีการบางอย่างเพื่อเอาชนะจุดอ่อนเหล่านี้ แต่ในการศึกษาล่าสุดพบว่าวิธีการแก้ปัญหาที่เสนอเหล่านี้ยังห่างไกลจากการแสดงถึงจุดอ่อนในปัจจุบันของนโยบายการเรียนรู้แบบเสริมแรงเชิงลึกได้อย่างแม่นยำ^{[ 81 ]}

การประมวลผลภาษาธรรมชาติแบบต่อต้าน

การโจมตีแบบต่อต้านการรู้จำเสียงพูด ได้ รับการแนะนำสำหรับแอปพลิเคชันแปลงเสียงพูดเป็นข้อความ โดยเฉพาะอย่างยิ่งสำหรับ DeepSpeech ของ Mozilla ^{[ 82 ]}และโมเดล Speech Commands ของ Google ^{[ 83 ]}มีการเสนอเทคนิคการประมวลผลล่วงหน้าต่างๆ เพื่อป้องกันการโจมตีดังกล่าว^{[ 84 ]}แต่วิธีการเหล่านี้อาจไม่ทนทานต่อผู้โจมตีที่รู้ถึงการป้องกันเหล่านั้น

ประเภทการโจมตีเฉพาะ

มีการโจมตีแบบต่อต้านที่หลากหลายประเภทที่สามารถใช้กับระบบการเรียนรู้ของเครื่องได้ การโจมตีเหล่านี้จำนวนมากใช้ได้ทั้งกับ ระบบ การเรียนรู้เชิงลึกและโมเดลการเรียนรู้ของเครื่องแบบดั้งเดิม เช่นSVM ^{[ 7 ]}และ การถดถอย เชิงเส้น^{[ 85 ]}ตัวอย่างระดับสูงของประเภทการโจมตีเหล่านี้ ได้แก่:

ตัวอย่างที่เป็นปฏิปักษ์^{[ 86 ]}
การโจมตีแบบ Trojan และ backdoor ^{[ 87 ]}
การผกผันแบบจำลอง^{[ 88 ]}
การอนุมานสมาชิกภาพ^{[ 89 ]}

ตัวอย่างการโต้แย้ง

ตัวอย่างที่เป็นอันตราย (Adversarial Example) หมายถึงข้อมูลป้อนเข้าที่ถูกสร้างขึ้นเป็นพิเศษ ซึ่งออกแบบมาให้ดู "ปกติ" สำหรับมนุษย์ แต่ทำให้แบบจำลองการเรียนรู้ของเครื่องจำแนกประเภทผิดพลาด บ่อยครั้งที่มีการใช้ "สัญญาณรบกวน" ที่ออกแบบมาเป็นพิเศษเพื่อกระตุ้นให้เกิดการจำแนกประเภทผิดพลาด ด้านล่างนี้คือเทคนิคบางส่วนในการสร้างตัวอย่างที่เป็นอันตรายในเอกสารทางวิชาการ (ซึ่งไม่ใช่รายการที่ครบถ้วนสมบูรณ์)

การโจมตีหลบหลีกตามการไล่ระดับ^{[ 8 ]}
วิธีเครื่องหมายการไล่ระดับอย่างรวดเร็ว (FGSM) ^{[ 90 ]}
การลดระดับความชันที่ฉายภาพ (PGD) ^{[ 91 ]}
การโจมตีของคาร์ลินีและวากเนอร์ (C&W) ^{[ 92 ]}
การโจมตีแพทช์ที่เป็นปฏิปักษ์^{[ 93 ]}

การโจมตีแบบกล่องดำ

การโจมตี แบบกล่องดำในการเรียนรู้ของเครื่องจักรแบบต่อต้านนั้นถือว่าฝ่ายตรงข้ามสามารถรับเอาต์พุตสำหรับอินพุตที่ให้มาเท่านั้น และไม่มีความรู้เกี่ยวกับโครงสร้างหรือพารามิเตอร์ของโมเดล^{[ 16 ]}^{[ 94 ]}ในกรณีนี้ ตัวอย่างที่เป็นปฏิปักษ์จะถูกสร้างขึ้นโดยใช้โมเดลที่สร้างขึ้นใหม่ทั้งหมด หรือไม่มีโมเดลเลย (ยกเว้นความสามารถในการสอบถามโมเดลต้นฉบับ) ไม่ว่าในกรณีใด วัตถุประสงค์ของการโจมตีเหล่านี้คือการสร้างตัวอย่างที่เป็นปฏิปักษ์ที่สามารถถ่ายโอนไปยังโมเดลกล่องดำที่เกี่ยวข้องได้^{[ 95 ]}

การโจมตีแบบต่อต้านแบบกล่องดำอย่างง่าย

การโจมตีแบบต่อต้านแบบกล่องดำอย่างง่ายเป็นวิธีที่มีประสิทธิภาพในการสอบถามเพื่อโจมตีตัวจำแนกภาพแบบกล่องดำ^{[ 96 ]}

เลือกฐานออร์โทนอร์มอลแบบสุ่มในผู้เขียนแนะนำให้ใช้การแปลงโคไซน์แบบไม่ต่อเนื่องของฐานมาตรฐาน (พิกเซล) $v_{1},v_{2},\dots ,v_{d}$ $\mathbb {R} ^{d}$
เพื่อให้ได้ภาพที่จำแนกได้อย่างถูกต้องลองใช้และเปรียบเทียบปริมาณข้อผิดพลาดในการจำแนกภาพกับเลือกภาพที่ทำให้เกิดข้อผิดพลาดมากที่สุด $x$ $x+\เอปไซลอน v_{1},x-\เอปไซลอน v_{1}$ $x+\เอปไซลอน v_{1},x,x-\เอปไซลอน v_{1}$
ทำซ้ำขั้นตอนนี้ไปเรื่อยๆจนกว่าจะได้ระดับความคลาดเคลื่อนที่ต้องการในตัวจำแนกประเภท $v_{2},v_{3},\dots$

การค้นพบนี้เกิดขึ้นเมื่อผู้เขียนออกแบบเส้นฐานที่เรียบง่ายเพื่อเปรียบเทียบกับอัลกอริธึมการโจมตีแบบต่อต้านแบบกล่องดำก่อนหน้านี้ซึ่งอิงตามกระบวนการเกาส์เซียนและรู้สึกประหลาดใจที่เส้นฐานทำงานได้ดียิ่งขึ้น^{[ 97 ]}

การโจมตีแบบสี่เหลี่ยม

การโจมตีแบบ Square ถูกนำเสนอในปี 2020 ในฐานะเทคนิคการโจมตีแบบหลีกเลี่ยงกล่องดำโดยอาศัยการสอบถามคะแนนการจำแนกประเภทโดยไม่จำเป็นต้องใช้ข้อมูลการไล่ระดับ^{[ 98 ]}ในฐานะการโจมตีแบบกล่องดำที่อิงตามคะแนน วิธีการแบบต่อต้านนี้สามารถสอบถามการกระจายความน่าจะเป็นในคลาสเอาต์พุตของโมเดลได้ แต่ไม่มีการเข้าถึงโมเดลเอง ตามที่ผู้เขียนบทความระบุ การโจมตีแบบ Square ที่เสนอต้องใช้การสอบถามน้อยกว่าเมื่อเปรียบเทียบกับการโจมตีแบบกล่องดำที่อิงตามคะแนนที่ทันสมัยที่สุดในขณะนั้น^{[ 98 ]}

เพื่ออธิบายวัตถุประสงค์ของฟังก์ชัน การโจมตีจะกำหนดตัวจำแนกเป็นโดยที่แทนขนาดของอินพุต และเป็นจำนวนคลาสเอาต์พุตทั้งหมดส่งคืนคะแนน (หรือความน่าจะเป็นระหว่าง 0 ถึง 1) ที่อินพุตเป็นของคลาสซึ่งทำให้สามารถกำหนดคลาสเอาต์พุตของตัวจำแนกสำหรับอินพุตใด ๆเป็น ได้เป้าหมายของการโจมตีนี้มีดังต่อไปนี้: ^[⁹⁸^] ${\textstyle f:[0,1]^{d}\rightarrow \mathbb {R} ^{K}}$ ${\textstyle d}$ ${\textstyle K}$ ${\textstyle f_{k}(x)}$ ${\textstyle x}$ ${\textstyle k}$ ${\textstyle x}$ ${\textstyle {\text{argmax}}_{k=1,...,K}f_{k}(x)}$

${\text{argmax}}_{k=1,...,K}f_{k}({\hat {x}})\neq y,||{\hat {x}}-x||_{p}\leq \epsilon {\text{ และ }}{\hat {x}}\in [0,1]^{d}$

กล่าวอีกนัยหนึ่งคือ การค้นหาตัวอย่างที่เป็นปฏิปักษ์ที่ถูกรบกวนบางอย่างเพื่อให้ตัวจำแนกจำแนกผิดพลาดไปยังคลาสอื่นภายใต้ข้อจำกัดที่ว่าและมีความคล้ายคลึงกัน จากนั้นเอกสารจะกำหนดการสูญเสียเป็นและเสนอวิธีแก้ปัญหาในการค้นหาตัวอย่างที่เป็นปฏิปักษ์โดยการแก้ปัญหาการเพิ่มประสิทธิภาพภายใต้ข้อจำกัดดัง ต่อไปนี้ : ^[⁹⁸^] ${\textstyle {\hat {x}}}$ ${\textstyle {\hat {x}}}$ ${\textstyle x}$ ${\textstyle L}$ ${\textstyle L(f({\hat {x}}),y)=f_{y}({\hat {x}})-\max _{k\neq y}f_{k}({\hat {x}})}$ ${\textstyle {\hat {x}}}$

$\min _{{\hat {x}}\in [0,1]^{d}}L(f({\hat {x}}),y),{\text{ st }}||{\hat {x}}-x||_{p}\leq \epsilon$

ผลลัพธ์ในทางทฤษฎีคือตัวอย่างที่เป็นปฏิปักษ์ซึ่งมีความมั่นใจสูงในคลาสที่ไม่ถูกต้อง แต่ก็มีความคล้ายคลึงกับภาพต้นฉบับมาก ในการค้นหาตัวอย่างดังกล่าว Square Attack ใช้ เทคนิค การค้นหาแบบสุ่ม แบบวน ซ้ำเพื่อรบกวนภาพแบบสุ่มโดยหวังว่าจะปรับปรุงฟังก์ชันวัตถุประสงค์ ในแต่ละขั้นตอน อัลกอริทึมจะรบกวนเฉพาะส่วนสี่เหลี่ยมเล็กๆ ของพิกเซลเท่านั้น จึงเป็นที่มาของชื่อ Square Attack ซึ่งจะสิ้นสุดลงทันทีที่พบตัวอย่างที่เป็นปฏิปักษ์เพื่อปรับปรุงประสิทธิภาพการค้นหา สุดท้าย เนื่องจากอัลกอริทึมการโจมตีใช้คะแนนและไม่ใช่ข้อมูลการไล่ระดับ ผู้เขียนบทความระบุว่าวิธีการนี้ไม่ได้รับผลกระทบจากการปิดบังการไล่ระดับ ซึ่งเป็นเทคนิคทั่วไปที่เคยใช้เพื่อป้องกันการโจมตีแบบหลีกเลี่ยง^{[ 98 ]}

การโจมตีแบบ HopSkipJump

การโจมตีแบบกล่องดำนี้ยังถูกเสนอให้เป็นการโจมตีที่มีประสิทธิภาพในการสอบถาม แต่เป็นการโจมตีที่อาศัยการเข้าถึงคลาสเอาต์พุตที่คาดการณ์ของอินพุตใดๆ เท่านั้น กล่าวอีกนัยหนึ่ง การโจมตี HopSkipJump ไม่จำเป็นต้องมีความสามารถในการคำนวณเกรเดียนต์หรือการเข้าถึงค่าคะแนนเหมือนกับการโจมตีแบบสี่เหลี่ยม และจะต้องการเพียงเอาต์พุตการคาดการณ์คลาสของโมเดล (สำหรับอินพุตใดๆ ที่กำหนด) การโจมตีที่เสนอนี้แบ่งออกเป็นสองการตั้งค่าที่แตกต่างกัน คือ แบบกำหนดเป้าหมายและแบบไม่กำหนดเป้าหมาย แต่ทั้งสองแบบสร้างขึ้นจากแนวคิดทั่วไปของการเพิ่มการรบกวนขั้นต่ำที่นำไปสู่เอาต์พุตของโมเดลที่แตกต่างกัน ในการตั้งค่าแบบกำหนดเป้าหมาย เป้าหมายคือการทำให้โมเดลจำแนกภาพที่ถูกรบกวนผิดพลาดไปยังป้ายกำกับเป้าหมายเฉพาะ (ที่ไม่ใช่ป้ายกำกับดั้งเดิม) ในการตั้งค่าแบบไม่กำหนดเป้าหมาย เป้าหมายคือการทำให้โมเดลจำแนกภาพที่ถูกรบกวนผิดพลาดไปยังป้ายกำกับใดๆ ที่ไม่ใช่ป้ายกำกับดั้งเดิม วัตถุประสงค์ของการโจมตีสำหรับทั้งสองแบบมีดังนี้ โดยที่คือภาพดั้งเดิมคือภาพที่เป็นปฏิปักษ์คือฟังก์ชันระยะห่างระหว่างภาพคือป้ายกำกับเป้าหมาย และคือฟังก์ชันป้ายกำกับคลาสการจำแนกประเภทของโมเดล: ^[⁹⁹^] ${\textstyle x}$ ${\textstyle x^{\prime }}$ ${\textstyle d}$ ${\textstyle c^{*}}$ ${\textstyle C}$

${\textbf {เป้าหมาย:}}\min _{x^{\prime }}d(x^{\prime },x){\text{ subject to }}C(x^{\prime })=c^{*}$

${\textbf {ไม่กำหนดเป้าหมาย:}}\min _{x^{\prime }}d(x^{\prime },x){\text{ ภายใต้เงื่อนไข }}C(x^{\prime })\neq C(x)$

เพื่อแก้ไขปัญหานี้ การโจมตีเสนอฟังก์ชันขอบเขตต่อไปนี้สำหรับทั้งการตั้งค่าที่ไม่ได้กำหนดเป้าหมายและที่กำหนดเป้าหมาย: ^[⁹⁹^] ${\textstyle S}$

$S(x^{\prime }):={\begin{cases}\max _{c\neq C(x)}{F(x^{\prime })_{c}}-F(x^{\prime })_{C(x)},&{\text{(Untargeted)}}\\F(x^{\prime })_{c^{*}}-\max _{c\neq c^{*}}{F(x^{\prime })_{c}},&{\text{(Targeted)}}\end{cases}}$

สามารถลดความซับซ้อนเพิ่มเติมเพื่อให้เห็นภาพขอบเขตระหว่างตัวอย่างที่เป็นปฏิปักษ์ที่อาจเกิดขึ้นได้ต่าง ๆ ได้ดียิ่งขึ้น: ^{[ 99 ]}

$S(x^{\prime })>0\iff {\begin{cases}argmax_{c}F(x^{\prime })\neq C(x),&{\text{(Untargeted)}}\\argmax_{c}F(x^{\prime })=c^{*},&{\text{(Targeted)}}\end{cases}}$

ด้วยฟังก์ชันขอบเขตนี้ การโจมตีจะดำเนินการตามอัลกอริทึมแบบวนซ้ำเพื่อค้นหาตัวอย่างที่เป็นอันตรายสำหรับรูปภาพที่กำหนดซึ่งตรงตามวัตถุประสงค์ของการโจมตี ${\textstyle x^{\prime }}$ ${\textstyle x}$

เริ่มต้นณ จุดใดจุดหนึ่ง ${\textstyle x}$ ${\textstyle S(x)>0}$
ทำซ้ำด้านล่าง
1. การค้นหาขอบเขต
2. การอัปเดตการไล่ระดับสี
  - คำนวณเกรเดียนต์
  - หาขนาดขั้นตอน

การค้นหาขอบเขตใช้การค้นหาแบบไบนารี ที่ดัดแปลง เพื่อหาจุดที่ขอบเขต (ตามที่กำหนดโดย) ตัดกับเส้นระหว่างและขั้นตอนต่อไปเกี่ยวข้องกับการคำนวณเกรเดียนต์สำหรับและอัปเดตต้นฉบับโดยใช้เกรเดียนต์นี้และขนาดขั้นตอนที่เลือกไว้ล่วงหน้า ผู้เขียน HopSkipJump พิสูจน์ว่าอัลกอริทึมแบบวนซ้ำนี้จะลู่เข้า ทำให้ได้จุดที่อยู่ตามแนวขอบเขตซึ่งอยู่ใกล้กับภาพต้นฉบับมาก^[⁹⁹^] ${\textstyle S}$ ${\textstyle x}$ ${\textstyle x^{\prime }}$ ${\textstyle x}$ ${\textstyle x}$ ${\textstyle x}$

อย่างไรก็ตาม เนื่องจาก HopSkipJump เป็นการโจมตีแบบกล่องดำที่เสนอ และอัลกอริธึมแบบวนซ้ำข้างต้นต้องการการคำนวณเกรเดียนต์ในขั้นตอนการวนซ้ำครั้งที่สอง (ซึ่งการโจมตีแบบกล่องดำไม่สามารถเข้าถึงได้) ผู้เขียนจึงเสนอวิธีแก้ปัญหาการคำนวณเกรเดียนต์ที่ต้องการเพียงการคาดการณ์เอาต์พุตของโมเดลเท่านั้น^{[ 99 ]}โดยการสร้างเวกเตอร์สุ่มจำนวนมากในทุกทิศทาง ซึ่งแสดงด้วยสามารถคำนวณค่าประมาณของเกรเดียนต์ได้โดยใช้ค่าเฉลี่ยของเวกเตอร์สุ่มเหล่านี้ถ่วงน้ำหนักด้วยเครื่องหมายของฟังก์ชันขอบเขตบนภาพโดยที่คือขนาดของการรบกวนเวกเตอร์สุ่ม: ^[⁹⁹^] ${\textstyle u_{b}}$ ${\textstyle x^{\prime }+\delta _{u_{b}}}$ ${\textstyle \delta _{u_{b}}}$

$\nabla S(x^{\prime },\delta )\approx {\frac {1}{B}}\sum _{b=1}^{B}\phi (x^{\prime }+\delta _{u_{b}})u_{b}$

ผลลัพธ์ของสมการข้างต้นให้ค่าประมาณใกล้เคียงของเกรเดียนต์ที่จำเป็นในขั้นตอนที่ 2 ของอัลกอริธึมแบบวนซ้ำ ทำให้ HopSkipJump เสร็จสมบูรณ์ในฐานะการโจมตีแบบกล่องดำ^{[ 100 ]}^{[ 101 ]}^{[ 99 ]}

การโจมตีกล่องขาว

การโจมตี แบบกล่องขาวถือว่าฝ่ายตรงข้ามสามารถเข้าถึงพารามิเตอร์ของโมเดลได้ นอกเหนือจากการได้รับป้ายกำกับสำหรับอินพุตที่ให้มา^{[ 95 ]}

วิธีแสดงค่าความชันอย่างรวดเร็ว

หนึ่งในการโจมตีครั้งแรกที่เสนอเพื่อสร้างตัวอย่างที่เป็นปฏิปักษ์ได้รับการเสนอโดยนักวิจัยของ Google ได้แก่Ian J. Goodfellow , Jonathon Shlens และ Christian Szegedy ^{[ 102 ]}การโจมตีนี้เรียกว่าวิธีการกำหนดเครื่องหมายเกรเดียนต์อย่างรวดเร็ว (FGSM) ซึ่งประกอบด้วยการเพิ่มสัญญาณรบกวนที่ไม่สามารถรับรู้ได้ในปริมาณเชิงเส้นให้กับภาพและทำให้แบบจำลองจำแนกภาพผิดพลาด สัญญาณรบกวนนี้คำนวณโดยการคูณเครื่องหมายของเกรเดียนต์เทียบกับภาพที่เราต้องการรบกวนด้วยค่าคงที่เอปไซลอนขนาดเล็ก เมื่อเอปไซลอนเพิ่มขึ้น แบบจำลองก็มีแนวโน้มที่จะถูกหลอกมากขึ้น แต่การรบกวนก็จะระบุได้ง่ายขึ้นเช่นกัน สมการสำหรับการสร้างตัวอย่างที่เป็นปฏิปักษ์แสดงไว้ด้านล่าง โดยที่คือภาพต้นฉบับคือจำนวนที่เล็กมากคือฟังก์ชันเกรเดียนต์คือฟังก์ชันการสูญเสียคือน้ำหนักของแบบจำลอง และคือป้ายกำกับที่แท้จริง^[¹⁰³^] ${\textstyle x}$ ${\textstyle \epsilon }$ ${\textstyle \Delta _{x}}$ ${\textstyle J}$ ${\textstyle \theta }$ ${\textstyle y}$

$adv_{x}=x+\epsilon \cdot sign(\Delta _{x}J(\theta ,x,y))$

คุณสมบัติสำคัญประการหนึ่งของสมการนี้คือ การคำนวณเกรเดียนต์โดยสัมพันธ์กับภาพอินพุต เนื่องจากเป้าหมายคือการสร้างภาพที่เพิ่มค่าความสูญเสียสูงสุดสำหรับภาพต้นฉบับของป้ายกำกับจริงในการลดเกรเดียนต์ แบบดั้งเดิม (สำหรับการฝึกโมเดล) เกรเดียนต์จะถูกใช้เพื่ออัปเดตน้ำหนักของโมเดล เนื่องจากเป้าหมายคือการลดค่าความสูญเสียให้น้อยที่สุดสำหรับโมเดลบนชุดข้อมูลความจริงพื้นฐาน วิธีการ Fast Gradient Sign Method ได้รับการเสนอให้เป็นวิธีที่รวดเร็วในการสร้างตัวอย่างที่เป็นปฏิปักษ์เพื่อหลีกเลี่ยงโมเดล โดยอิงจากสมมติฐานที่ว่าโครงข่ายประสาทเทียมไม่สามารถต้านทานการรบกวนแม้ในปริมาณเชิงเส้นต่ออินพุตได้^[¹⁰⁴^]^[¹⁰³^]^[¹⁰²^] FGSM ได้แสดงให้เห็นว่ามีประสิทธิภาพในการโจมตีที่เป็นปฏิปักษ์สำหรับการจำแนกภาพและการจดจำการเคลื่อนไหวของโครงกระดูก^[¹⁰⁵^] ${\textstyle y}$

คาร์ลินี แอนด์ แวกเนอร์

ในความพยายามที่จะวิเคราะห์การโจมตีและการป้องกันที่เป็นปฏิปักษ์ที่มีอยู่ นักวิจัยที่มหาวิทยาลัยแคลิฟอร์เนีย เบิร์กลีย์Nicholas CarliniและDavid Wagnerในปี 2016 ได้เสนอวิธีการที่รวดเร็วและแข็งแกร่งกว่าในการสร้างตัวอย่างที่เป็นปฏิปักษ์^{[ 106 ]}

การโจมตีที่เสนอโดย Carlini และ Wagner เริ่มต้นด้วยการพยายามแก้สมการการเพิ่มประสิทธิภาพที่ไม่เป็นเชิงเส้นที่ยากลำบาก: ^{[ 70 ]}

$\min(||\delta ||_{p}){\text{ subject to }}C(x+\delta )=t,x+\delta \in [0,1]^{n}$

วัตถุประสงค์ในที่นี้คือการลดสัญญาณรบกวน ( ) ที่เพิ่มเข้าไปในอินพุตเดิม ให้น้อย ที่สุด เพื่อให้อัลกอริธึมการเรียนรู้ของเครื่อง ( ) ทำนายอินพุตเดิมด้วยเดลต้า (หรือ) เป็นคลาสอื่นอย่างไรก็ตาม แทนที่จะใช้สมการข้างต้นโดยตรง Carlini และ Wagner เสนอให้ใช้ฟังก์ชันใหม่ดังนี้: ^[⁷⁰^] ${\textstyle \delta }$ ${\textstyle x}$ ${\textstyle C}$ ${\textstyle x+\delta }$ ${\textstyle t}$ ${\textstyle f}$

$C(x+\delta )=t\iff f(x+\delta )\leq 0$

สิ่งนี้จะย่อสมการแรกให้เป็นปัญหาด้านล่าง: ^{[ 70 ]}

$\min(||\delta ||_{p}){\text{ subject to }}f(x+\delta )\leq 0,x+\delta \in [0,1]^{n}$

และยิ่งไปกว่านั้นในสมการด้านล่าง: ^{[ 70 ]}

$\min(||\delta ||_{p}+c\cdot f(x+\delta )),x+\delta \in [0,1]^{n}$

จากนั้น Carlini และ Wagner เสนอให้ใช้ฟังก์ชันด้านล่างแทนการใช้ฟังก์ชันที่กำหนดความน่าจะเป็นของคลาสสำหรับอินพุตที่กำหนดเมื่อแทนที่สมการนี้เข้าไป จะสามารถคิดได้ว่าเป็นการค้นหาคลาสเป้าหมายที่มีความมั่นใจมากกว่าคลาสที่มีโอกาสมากที่สุดถัดไปด้วยค่าคงที่บางค่า: ^[⁷⁰^] ${\textstyle f}$ ${\textstyle Z}$ ${\textstyle x}$

$f(x)=([\max _{i\neq t}Z(x)_{i}]-Z(x)_{t})^{+}$

เมื่อแก้สมการนี้โดยใช้การไล่ระดับความชัน สมการนี้สามารถสร้างตัวอย่างที่เป็นปฏิปักษ์ที่แข็งแกร่งกว่าเมื่อเปรียบเทียบกับวิธีการไล่ระดับความชันแบบเร็วซึ่งสามารถหลีกเลี่ยงการกลั่น ป้องกัน ซึ่งเป็นการป้องกันที่เคยถูกเสนอว่ามีประสิทธิภาพต่อตัวอย่างที่เป็นปฏิปักษ์^{[ 107 ]}^{[ 108 ]}^{[ 106 ]}^{[ 70 ]}

การป้องกัน

นักวิจัยได้เสนอแนวทางหลายขั้นตอนในการปกป้องการเรียนรู้ของเครื่อง^{[ 10 ]}

การสร้างแบบจำลองภัยคุกคาม – กำหนดเป้าหมายและความสามารถของผู้โจมตีที่มีต่อระบบเป้าหมายอย่างเป็นทางการ
การจำลองการโจมตี – กำหนดรูปแบบปัญหาการเพิ่มประสิทธิภาพที่ผู้โจมตีพยายามแก้ไขตามกลยุทธ์การโจมตีที่เป็นไปได้
การประเมินผลกระทบจากการโจมตี
การออกแบบมาตรการตอบโต้
การตรวจจับเสียงรบกวน (สำหรับการโจมตีแบบหลบเลี่ยง) ^{[ 109 ]}
การฟอกข้อมูล – เปลี่ยนแปลงข้อมูลที่ได้รับจากฝ่ายตรงข้าม (สำหรับการโจมตีขโมยแบบจำลอง) ^{[ 70 ]}

กลไก

มีการเสนอแนวทางการป้องกันหลายประการเพื่อต่อต้านการหลีกเลี่ยง การวางยาพิษ และการโจมตีความเป็นส่วนตัว ซึ่งรวมถึง:

อัลกอริทึมการเรียนรู้ที่ปลอดภัย^{[ 19 ]}^{[ 110 ]}^{[ 111 ]}
อัลกอริทึมที่ทนทานต่อไบแซนไทน์^{[ 61 ]}^{[ 4 ]}
ระบบจำแนกประเภทหลายระบบ^{[ 18 ]}^{[ 112 ]}
อัลกอริทึมที่เขียนโดย AI ^{[ 34 ]}
AI ที่สำรวจสภาพแวดล้อมการฝึกอบรม ตัวอย่างเช่น ในการจดจำภาพ จะทำการสำรวจสภาพแวดล้อม 3 มิติอย่างกระตือรือร้น แทนที่จะสแกนชุดภาพ 2 มิติที่กำหนดไว้แบบเฉื่อยชา^{[ 34 ]}
การเรียนรู้ที่รักษาความเป็นส่วนตัว^{[ 48 ]}^{[ 113 ]}
อัลกอริทึมบันไดสำหรับการแข่งขันแบบKaggle ^{[ 114 ]}
แบบจำลองทฤษฎีเกม^{[ 115 ]}^{[ 116 ]}^{[ 117 ]}
การตรวจสอบความถูกต้องของข้อมูลการฝึกอบรม
การฝึกอบรมแบบต่อต้าน^{[ 90 ]}^{[ 21 ]}
อัลกอริทึมการตรวจจับประตูหลัง^{[ 118 ]}
เทคนิคการปกปิด/ซ่อนเร้นความชัน: เพื่อป้องกันไม่ให้ฝ่ายตรงข้ามใช้ประโยชน์จากความชันในการโจมตีแบบไวท์บ็อกซ์ การป้องกันประเภทนี้ถือว่าไม่น่าเชื่อถือ เนื่องจากโมเดลเหล่านี้ยังคงมีความเสี่ยงต่อการโจมตีแบบแบล็กบ็อกซ์ หรือสามารถหลีกเลี่ยงได้ด้วยวิธีอื่น^{[ 119 ]}
มีการเสนอแบบจำลองหลายชุด ในเอกสาร ซึ่งแสดงให้เห็นว่าไม่มีประสิทธิภาพต่อการโจมตีแบบหลีกเลี่ยง ^{[ 120 ]}แต่มีประสิทธิภาพต่อการโจมตีแบบวางยาพิษข้อมูล^{[ 121 ]}
การป้องกันเป้าหมายเคลื่อนที่^{[ 122 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

MITRE ATLAS: ภูมิทัศน์ภัยคุกคามจากฝ่ายตรงข้ามสำหรับระบบปัญญาประดิษฐ์
ร่างมาตรฐาน NIST 8269: การจำแนกประเภทและศัพท์เฉพาะของการเรียนรู้ของเครื่องจักรแบบต่อต้าน
Laskov, Pavel; Lippmann, Richard (2010). "การเรียนรู้ของเครื่องในสภาพแวดล้อมที่เป็นปฏิปักษ์" Machine Learning . 81 (2): 115– 119. doi : 10.1007/s10994-010-5207-6 . S2CID 12567278 .
การประชุมเชิงปฏิบัติการด้านปัญญาประดิษฐ์และความปลอดภัย (AISec)

[ 1 ]

การ

[

[

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 11 ]

[ 12 ]

[

[ 15 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[

[

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

59 ] ใน

[ 60 ]

[ 62 ]

[ 63 ]

[ 64 ]

[ 65 ]

[ 66 ]

[ 67 ]

[ 68 ]

[ 69 ]

[ 72 ]

[ 73 ]

[ 74 ]

[ 75 ]

[ 76 ]

[ 77 ]

[ 78 ]

79 ] ภาย

[ 80 ]

[ 81 ]

[ 82 ]

[ 83 ]

[ 84 ]

[ 85 ]

[ 86 ]

[ 87 ]

[ 88 ]

[ 89 ]

[ 90 ]

[ 91 ]

[ 92 ]

[ 93 ]

[ 94 ]

[ 96 ]

[ 97 ]

[ 100 ]

[ 101 ]

[

[ 107 ]

[ 108 ]

[ 109 ]

[ 110 ]

[ 111 ]

[ 112 ]

[ 113 ]

[ 114 ]

[ 115 ]

[ 116 ]

[ 117 ]

[ 118 ]