พิษแบบเบย์เซียน

การโจมตีแบบเบย์เซียน (Bayesian poisoning) เป็นเทคนิคที่ ผู้ส่งอีเมลสแปมใช้เพื่อพยายามลดประสิทธิภาพของตัวกรองสแปมที่อาศัยการกรองสแปมแบบเบย์เซียนการกรองแบบเบย์เซียนอาศัยความน่าจะเป็นแบบเบย์เซียนในการพิจารณาว่าอีเมลขาเข้าเป็นสแปมหรือไม่ ผู้ส่งสแปมหวังว่าการเพิ่มคำแบบสุ่ม (หรือแม้แต่คำที่เลือกมาอย่างระมัดระวัง) ที่ไม่น่าจะปรากฏในข้อความสแปม จะทำให้ตัวกรองสแปมเชื่อว่าข้อความนั้นถูกต้องตามกฎหมาย ซึ่งเป็นความผิดพลาดทางสถิติประเภท ที่ 2

นอกจากนี้ ผู้ส่งสแปมยังหวังที่จะทำให้ตัวกรองสแปมมีอัตราการแจ้งเตือนผิดพลาดสูงขึ้น โดยการเปลี่ยนคำที่ดูเหมือนไม่มีพิษภัยให้กลายเป็นคำที่บ่งชี้ว่าเป็นสแปมในฐานข้อมูลแบบเบย์เซียน ( ข้อผิดพลาดทางสถิติประเภทที่ 1 ) เนื่องจากผู้ใช้ที่ฝึกตัวกรองสแปมของตนด้วยข้อความที่ถูกปนเปื้อนจะบ่งชี้ให้ตัวกรองทราบว่าคำที่ผู้ส่งสแปมเพิ่มเข้ามานั้นเป็นตัวบ่งชี้ที่ดีของสแปม

ผลลัพธ์เชิงประจักษ์

เกรแฮม-คัมมิง

ในการประชุม Spam Conference ที่จัดขึ้นที่ MIT ในปี 2547 John Graham-Cumming ได้นำเสนอการโจมตีที่เป็นไปได้สองแบบต่อกลไก Bayesian ของPOPFile ^{[ 1 ]}แบบหนึ่งไม่ประสบความสำเร็จและอีกแบบหนึ่งใช้งานได้ แต่ไม่สามารถนำไปใช้ได้จริง ในการทำเช่นนี้ พวกเขาระบุการโจมตีแบบวางยาพิษได้สองประเภท: แบบพาสซีฟ (โดยที่คำต่างๆ ถูกเพิ่มเข้าไปโดยไม่มีการตอบกลับใดๆ ต่อผู้ส่งสแปม) และแบบแอคทีฟ (โดยที่ผู้ส่งสแปมได้รับการตอบกลับหลังจากได้รับสแปมแล้ว)

วิธีการโจมตีแบบพาสซีฟโดยการเพิ่มคำสุ่มลงในข้อความสแปมขนาดเล็กนั้นไม่ได้ผล: มีเพียง 0.04% ของข้อความสแปมที่ถูกแก้ไขเท่านั้นที่ถูกส่งไปถึงผู้รับ ส่วนการโจมตีแบบแอคทีฟนั้นเกี่ยวข้องกับการเพิ่มคำสุ่มลงในข้อความสแปมขนาดเล็ก และใช้เว็บบั๊กเพื่อตรวจสอบว่าได้รับสแปมหรือไม่ หากได้รับแล้ว ก็จะทำการฝึกฝนระบบเบย์เซียนอีกระบบหนึ่งโดยใช้คำที่เป็นพิษชุดเดียวกัน หลังจากส่งสแปม 10,000 ข้อความไปยังผู้ใช้รายหนึ่ง เขาก็ได้กำหนดชุดคำเล็กๆ ชุดหนึ่งที่สามารถใช้ส่งสแปมให้สำเร็จได้

วิธีแก้ปัญหาอย่างง่ายคือการปิดใช้งานรูปภาพจากระยะไกล ( web bugs ) ในอีเมล ซึ่งสามารถแก้ไขปัญหานี้ได้

วิทเทลและหวู

ในการประชุมเรื่องอีเมลและการป้องกันสแปมในปี 2547 Wittel และ Wu ได้นำเสนอเอกสาร^{[ 2 ]}^{[ 3 ]}ซึ่งแสดงให้เห็นว่าการเพิ่มคำสุ่มลงในสแปมแบบพาสซีฟนั้นไม่มีประสิทธิภาพต่อCRM114แต่มีประสิทธิภาพต่อSpamBayesโดยเพิ่มคำ 100 คำต่อสแปม

นอกจากนี้ พวกเขายังแสดงให้เห็นว่าการโจมตีแบบแฝงที่ชาญฉลาดกว่า โดยการเพิ่มคำศัพท์ภาษาอังกฤษทั่วไปเข้าไปนั้น ยังคงไม่ได้ผลกับ CRM114 แต่กลับได้ผลดียิ่งขึ้นกับ SpamBayes พวกเขาจำเป็นต้องเพิ่มคำเพียง 50 คำลงในสแปมเพื่อให้สามารถผ่านการตรวจสอบของ SpamBayes ได้

อย่างไรก็ตาม การทดสอบของ Wittel และ Wu ได้รับการวิพากษ์วิจารณ์เนื่องจากข้อมูลส่วนหัวที่มีอยู่ในอีเมลที่พวกเขากำลังใช้มีน้อยมาก ตัวกรองสแปมแบบ Bayesian ส่วนใหญ่จะใช้ข้อมูลส่วนหัวและข้อมูลเมตาข้อความอื่นๆ อย่างกว้างขวางในการพิจารณาความน่าจะเป็นที่ข้อความนั้นเป็นสแปม การอภิปรายเกี่ยวกับผลลัพธ์ของ SpamBayes และหลักฐานโต้แย้งบางส่วนสามารถพบได้ในคลังจดหมายของ SpamBayes ^{[ 4 ]}

การโจมตีทั้งหมดนี้เป็นการโจมตีประเภทที่ 2: การโจมตีที่พยายามส่งสแปม ส่วนการโจมตีประเภทที่ 1 พยายามทำให้เกิดผลลัพธ์ที่ผิดพลาดโดยการเปลี่ยนคำที่เดิมทีไม่เป็นอันตรายให้กลายเป็นคำสแปมในฐานข้อมูลแบบเบย์เซียน

สเติร์น เมสัน และเชพเพิร์ด

นอกจากนี้ในปี 2547 Stern, Mason และ Shepherd ได้เขียนรายงานทางเทคนิคที่มหาวิทยาลัย Dalhousie [ ⁵^{] ซึ่งพวกเขา}^ได้อธิบายรายละเอียดเกี่ยวกับการโจมตีแบบพาสซีฟประเภท II พวกเขาได้เพิ่มคำศัพท์ภาษาอังกฤษทั่วไปลงในข้อความสแปมที่ใช้สำหรับการฝึกอบรมและทดสอบตัวกรองสแปม

ในการทดสอบสองครั้ง พวกเขาแสดงให้เห็นว่าคำทั่วไปเหล่านี้ลดความแม่นยำของตัวกรองสแปม (เปอร์เซ็นต์ของข้อความที่ถูกจัดประเภทเป็นสแปมซึ่งเป็นสแปมจริง ๆ) จาก 84% เหลือ 67% และจาก 94% เหลือ 84% การตรวจสอบข้อมูลของพวกเขาแสดงให้เห็นว่าตัวกรองที่ปนเปื้อนนั้นมีอคติในการเชื่อว่าข้อความมีแนวโน้มที่จะเป็นสแปมมากกว่า "แฮม" (อีเมลที่ดี) ซึ่งทำให้มีอัตราการตรวจจับผิดพลาดเพิ่มขึ้น

พวกเขาเสนอมาตรการรับมือสองอย่าง: การละเลยคำทั่วไปเมื่อทำการจำแนกประเภท และการปรับค่าความน่าจะเป็นตามความน่าเชื่อถือของคำ คำจะมีโอกาสน่าเชื่อถือหากผู้โจมตีไม่น่าจะเดาได้ว่าคำนั้นเป็นส่วนหนึ่งของคำศัพท์ที่บุคคลนั้นใช้ ดังนั้น คำทั่วไปจึงไม่น่าเชื่อถือ และความน่าจะเป็นของคำเหล่านั้นจะถูกปรับให้เป็น 0.5 (ทำให้เป็นกลาง)

โลว์ดและมีค

ในการประชุมเรื่องอีเมลและการป้องกันสแปมประจำปี 2548 Lowd และ Meek ได้นำเสนอเอกสาร^{[ 6 ]}ซึ่งแสดงให้เห็นว่าการโจมตีแบบพาสซีฟโดยการเพิ่มคำสุ่มหรือคำทั่วไปลงในสแปมนั้นไม่มีประสิทธิภาพต่อตัวกรอง Bayesian แบบง่ายๆ (อันที่จริง พวกเขาแสดงให้เห็นดังที่ John Graham-Cumming ได้แสดงให้เห็นในปี 2547 ว่าการเพิ่มคำสุ่มช่วยปรับปรุงความแม่นยำในการกรองสแปม)

พวกเขาสาธิตให้เห็นว่า การเพิ่มคำที่มักปรากฏในเนื้อหาอีเมลที่ไม่ใช่สแปม (ham) มากกว่าสแปม (spam) นั้น มีประสิทธิภาพในการต่อต้านตัวกรองแบบเบย์เซียนที่เรียบง่าย และทำให้สแปมสามารถเล็ดลอดผ่านไปได้ นอกจากนี้ พวกเขายังอธิบายรายละเอียดเกี่ยวกับการโจมตีแบบแอคทีฟสองแบบ (การโจมตีที่ต้องมีการส่งข้อมูลกลับไปยังผู้ส่งสแปม) ซึ่งมีประสิทธิภาพมากในการต่อต้านตัวกรองสแปม แน่นอนว่า การป้องกันไม่ให้มีการส่งข้อมูลกลับไปยังผู้ส่งสแปม (เช่น รายงานการส่งไม่สำเร็จ ข้อผิดพลาดระดับ SMTP หรือบั๊กบนเว็บ) จะทำให้การโจมตีแบบแอคทีฟไร้ผลโดยสิ้นเชิง

นอกจากนี้ พวกเขายังแสดงให้เห็นว่าการฝึกฝนตัวกรองใหม่นั้นมีประสิทธิภาพในการป้องกันการโจมตีทุกประเภท แม้ว่าข้อมูลที่ใช้ในการฝึกฝนใหม่จะถูกปนเปื้อนก็ตาม

งานวิจัยที่ตีพิมพ์เผยแพร่แสดงให้เห็นว่า การเพิ่มคำสุ่มลงในข้อความสแปมนั้นไม่มีประสิทธิภาพในฐานะรูปแบบการโจมตี แต่การโจมตีแบบเชิงรุกนั้นมีประสิทธิภาพมาก และการเพิ่มคำที่เลือกอย่างระมัดระวังอาจได้ผลในบางกรณี เพื่อป้องกันการโจมตีเหล่านี้ จำเป็นอย่างยิ่งที่จะต้องไม่ให้ผู้ส่งสแปมได้รับข้อมูลป้อนกลับ และต้องฝึกฝนตัวกรองทางสถิติใหม่เป็นประจำ

งานวิจัยยังแสดงให้เห็นว่าการตรวจสอบการโจมตีตัวกรองทางสถิติอย่างต่อเนื่องนั้นคุ้มค่า มีการสาธิตการโจมตีที่ได้ผลแล้ว และจำเป็นต้องมีมาตรการรับมือเพื่อให้มั่นใจว่าตัวกรองทางสถิติยังคงมีความแม่นยำ

ดูเพิ่มเติม

ลิงก์ภายนอก

การวางยาพิษแบบเบย์เซียนมีอยู่จริงหรือไม่? (ต้องลงทะเบียนก่อน)

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

5

[ 6 ]