ตัวจำแนกแบบ Naive Bayes

ในทางสถิติตัวจำแนกแบบเบย์แบบง่าย (บางครั้งเรียกว่าแบบง่ายหรือแบบโง่ ) เป็นกลุ่มของ " ตัวจำแนกแบบความน่าจะเป็น " ซึ่งถือว่าคุณลักษณะต่างๆเป็นอิสระต่อกันโดยมีเงื่อนไขโดยพิจารณาจากคลาสเป้าหมาย^[¹^]กล่าวอีกนัยหนึ่ง โมเดลเบย์แบบง่ายถือว่าข้อมูลเกี่ยวกับคลาสที่ได้จากแต่ละตัวแปรนั้นไม่เกี่ยวข้องกับข้อมูลจากตัวแปรอื่นๆ โดยไม่มีข้อมูลใดๆ ที่ใช้ร่วมกันระหว่างตัวทำนาย ลักษณะที่ไม่สมจริงอย่างมากของสมมติฐานนี้ เรียกว่าสมมติฐานความเป็นอิสระแบบง่าย ซึ่งเป็นที่มาของชื่อตัวจำแนกนี้ ตัวจำแนกเหล่านี้เป็น โมเดลเครือข่ายเบย์ที่ง่ายที่สุดบางส่วน^[²^]

โดย ทั่วไปแล้ว ตัวจำแนกแบบ Naive Bayes ทำงานได้แย่กว่าโมเดลขั้นสูงกว่า เช่นการถดถอยโลจิสติกโดยเฉพาะอย่างยิ่งใน การ วัดปริมาณความไม่แน่นอน (โมเดล Naive Bayes มักจะสร้างความน่าจะเป็นที่มั่นใจเกินไปอย่างมาก) อย่างไรก็ตาม โมเดลเหล่านี้ปรับขนาดได้สูง โดยต้องการเพียงพารามิเตอร์เดียวสำหรับแต่ละคุณลักษณะหรือตัวทำนายในปัญหาการเรียนรู้ การฝึกอบรม ความน่าจะเป็นสูงสุดสามารถทำได้โดยการประเมินนิพจน์แบบปิด (เพียงแค่การนับการสังเกตในแต่ละกลุ่ม) ^{[ 3 ]}^{: 718}แทนที่จะ ใช้อั ลกอริธึมการประมาณค่าแบบวนซ้ำที่ มีราคาแพง ซึ่งจำเป็นสำหรับโมเดลอื่นๆ ส่วนใหญ่

แม้ว่าจะมีการใช้ทฤษฎีบทของเบย์สในกฎการตัดสินใจของตัวจำแนก แต่เบย์สแบบง่ายก็ไม่ใช่ (จำเป็นต้อง) วิธีการแบบเบย์ เซียนและแบบจำลองเบย์สแบบง่ายสามารถปรับให้เข้ากับข้อมูลโดยใช้วิธีการแบบเบย์เซียนหรือแบบความถี่ ก็ได้ ^{[ 1 ]}^{[ 3 ]}

การแนะนำ

Naive Bayes เป็นเทคนิคที่เรียบง่ายสำหรับการสร้างตัวจำแนกประเภท: แบบจำลองที่กำหนดป้ายกำกับคลาสให้กับตัวอย่างปัญหา ซึ่งแสดงเป็นเวกเตอร์ของ ค่า คุณลักษณะโดยที่ป้ายกำกับคลาสถูกสุ่มมาจากเซตจำกัด บางเซต ไม่มีอัลกอริทึม เดียว สำหรับการฝึกตัวจำแนกประเภทนี้ แต่เป็นตระกูลของอัลกอริทึมที่อิงตามหลักการทั่วไป: ตัวจำแนกประเภท Naive Bayes ทั้งหมดถือว่าค่าของคุณลักษณะเฉพาะนั้นเป็นอิสระจากค่าของคุณลักษณะอื่น ๆ เมื่อกำหนดตัวแปรคลาสแล้ว ตัวอย่างเช่น ผลไม้ชนิดหนึ่งอาจถูกพิจารณาว่าเป็นแอปเปิลหากมีสีแดง กลม และมีเส้นผ่านศูนย์กลางประมาณ 10 เซนติเมตร ตัวจำแนกประเภท Naive Bayes จะพิจารณาว่าคุณลักษณะแต่ละอย่างมีส่วนร่วมอย่างอิสระต่อความน่าจะเป็นที่ผลไม้นี้เป็นแอปเปิล โดยไม่คำนึงถึงความสัมพันธ์ ใด ๆ ที่อาจเกิดขึ้น ระหว่างคุณลักษณะสี ความกลม และเส้นผ่านศูนย์กลาง

ในการใช้งานจริงหลายๆ กรณี การประมาณค่าพารามิเตอร์สำหรับแบบจำลองเบย์แบบง่ายจะใช้ระเบียบวิธีความน่าจะเป็นสูงสุดกล่าวคือ เราสามารถทำงานกับแบบจำลองเบย์แบบง่ายได้โดยไม่ต้องยอมรับความน่าจะเป็นแบบเบย์หรือใช้วิธีการแบบเบย์ใดๆ

แม้ว่าการออกแบบจะดูเรียบง่ายและสมมติฐานที่ดูเหมือนจะง่ายเกินไป แต่ตัวจำแนกแบบเบย์สแบบง่ายก็ทำงานได้ดีในสถานการณ์จริงที่ซับซ้อนหลายอย่าง ในปี 2547 การวิเคราะห์ปัญหาการจำแนกแบบเบย์เซียนแสดงให้เห็นว่ามีเหตุผลทางทฤษฎีที่สมเหตุสมผลสำหรับประสิทธิภาพ ที่ดูเหมือนไม่น่าเชื่อ ของตัวจำแนกแบบเบย์สแบบง่าย^{[ 4 ]}อย่างไรก็ตาม การเปรียบเทียบอย่างครอบคลุมกับอัลกอริธึมการจำแนกประเภทอื่นๆ ในปี 2549 แสดงให้เห็นว่าการจำแนกแบบเบย์สมีประสิทธิภาพด้อยกว่าวิธีการอื่นๆ เช่นต้นไม้บูสต์หรือป่าสุ่ม^{[ 5 ]}

ข้อดีของ Naive Bayes คือต้องการข้อมูลฝึกฝนเพียงเล็กน้อยเพื่อประมาณค่าพารามิเตอร์ที่จำเป็นสำหรับการจำแนกประเภท^{[ 6 ]}

แบบจำลองความน่าจะเป็น

โดยสรุปแล้ว Naive Bayes เป็น แบบ จำลองความน่าจะเป็นแบบมีเงื่อนไข : มันกำหนดความน่าจะเป็น สำหรับ ผลลัพธ์หรือคลาส ที่เป็นไปได้ $K$ รายการแต่ละรายการโดยพิจารณาจากอินสแตนซ์ปัญหาที่จะจำแนกประเภท ซึ่งแสดงด้วยเวกเตอร์ที่เข้ารหัส คุณลักษณะ $n$ รายการ (ตัวแปรอิสระ) ^[⁷^] $p(C_{k}\mid x_{1},\ldots ,x_{n})$ $C_{k}$ $\mathbf {x} =(x_{1},\ldots ,x_{n})$

ปัญหาของการกำหนดสูตรข้างต้นคือ หากจำนวนคุณลักษณะ $n$ มีมาก หรือหากคุณลักษณะหนึ่งสามารถมีค่าได้หลายค่า การสร้างแบบจำลองดังกล่าวโดยใช้ตารางความน่าจะเป็น นั้น เป็นไปไม่ได้ ดังนั้นจึงต้องปรับปรุงแบบจำลองใหม่เพื่อให้สามารถจัดการได้ง่ายขึ้น โดยใช้ทฤษฎีบทของเบย์สความน่าจะเป็นแบบมีเงื่อนไขสามารถแยกย่อยได้ดังนี้: $p(C_{k}\mid \mathbf {x} )={\frac {p(C_{k})\ p(\mathbf {x} \mid C_{k})}{p(\mathbf {x} )}}\,$

กล่าวโดยง่าย โดยใช้ ศัพท์ทาง ความน่าจะเป็นแบบเบย์เซียนสมการข้างต้นสามารถเขียนได้ดังนี้ ${\text{posterior}}={\frac {{\text{prior}}\times {\text{likelihood}}}{\text{evidence}}}\,$

ในทางปฏิบัติ เราสนใจเฉพาะตัวเศษของเศษส่วนนั้นเท่านั้น เพราะตัวส่วนไม่ขึ้นอยู่กับและค่าของคุณลักษณะต่างๆ นั้นกำหนดไว้แล้ว ดังนั้นตัวส่วนจึงมีค่าคงที่ ตัวเศษเทียบเท่ากับแบบจำลอง ความน่าจะเป็นร่วม ซึ่งสามารถเขียนใหม่ได้ดังนี้ โดยใช้กฎลูกโซ่สำหรับการประยุกต์ใช้นิยามของความน่าจะเป็นแบบมีเงื่อนไข ซ้ำๆ : $C$ $x_{i}$ $p(C_{k},x_{1},\ldots ,x_{n})\,$ ${\begin{aligned}p(C_{k},x_{1},\ldots ,x_{n})&=p(x_{1},\ldots ,x_{n},C_{k})\\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2},\ldots ,x_{n},C_{k})\\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2}\mid x_{3},\ldots ,x_{n},C_{k})\ p(x_{3},\ldots ,x_{n},C_{k})\\&=\cdots \\&=p(x_{1}\mid x_{2},\ldots ,x_{n},C_{k})\ p(x_{2}\mid x_{3},\ldots ,x_{n},C_{k})\cdots p(x_{n-1}\mid x_{n},C_{k})\ p(x_{n}\mid C_{k})\ p(C_{k})\\\end{aligned}}$

ทีนี้สมมติฐาน ความเป็นอิสระแบบมีเงื่อนไข "แบบง่ายๆ" ก็เข้ามามีบทบาท: สมมติว่าคุณลักษณะทั้งหมดใน นั้นเป็นอิสระต่อกันโดยมีเงื่อนไขขึ้นอยู่กับหมวดหมู่ภายใต้สมมติฐานนี้ $\mathbf {x}$ $C_{k}$ $p(x_{i}\mid x_{i+1},\ldots ,x_{n},C_{k})=p(x_{i}\mid C_{k})\,.$

ดังนั้น แบบจำลองร่วมสามารถแสดงได้ดังนี้ โดย ที่แสดงถึงสัดส่วนเนื่องจากตัวส่วนถูกละเว้น ${\begin{aligned}p(C_{k}\mid x_{1},\ldots ,x_{n})\varpropto \ &p(C_{k},x_{1},\ldots ,x_{n})\\&=p(C_{k})\ p(x_{1}\mid C_{k})\ p(x_{2}\mid C_{k})\ p(x_{3}\mid C_{k})\ \cdots \\&=p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})\,,\end{aligned}}$ $\varpropto$ $p(\mathbf {x} )$

นี่หมายความว่าภายใต้สมมติฐานความเป็นอิสระข้างต้น การแจกแจงแบบมีเงื่อนไขเหนือตัวแปรคลาสจะเป็นดังนี้: โดยที่หลักฐานเป็นปัจจัยการปรับขนาดที่ขึ้นอยู่กับเท่านั้นนั่นคือค่าคงที่หากทราบค่าของตัวแปรคุณลักษณะ $C$ $p(C_{k}\mid x_{1},\ldots ,x_{n})={\frac {1}{Z}}\ p(C_{k})\prod _{i=1}^{n}p(x_{i}\mid C_{k})$ $Z=p(\mathbf {x} )=\sum _{k}p(C_{k})\ p(\mathbf {x} \mid C_{k})$ $x_{1},\ldots ,x_{n}$

บ่อยครั้ง จำเป็นเพียงแค่การแยกแยะระหว่างคลาส ในกรณีนั้น ตัวประกอบการปรับขนาดจะไม่เกี่ยวข้อง และเพียงพอที่จะคำนวณค่าลอการิทึมของความน่าจะเป็นจนถึงตัวประกอบ: ตัวประกอบการปรับขนาดไม่เกี่ยวข้อง เนื่องจากความแตกต่างจะหักลบมันออกไป: การใช้ค่าลอการิทึมของความน่าจะเป็นมีประโยชน์สองประการ ประการแรกคือ ช่วยให้สามารถตีความได้ในทฤษฎีสารสนเทศ โดยที่ค่าลอการิทึมของความน่าจะเป็นเป็นหน่วยของสารสนเทศในnatsประการที่สองคือ ช่วยหลีกเลี่ยงปัญหาการคำนวณค่าต่ำกว่าขีดจำกัด (arithmetic underflow ) $\ln p(C_{k}\mid x_{1},\ldots ,x_{n})=\ln p(C_{k})+\sum _{i=1}^{n}\ln p(x_{i}\mid C_{k})\underbrace {-\ln Z} _{\text{irrelevant}}$ $\ln {\frac {p(C_{k}\mid x_{1},\ldots ,x_{n})}{p(C_{l}\mid x_{1},\ldots ,x_{n})}}=\left(\ln p(C_{k})+\sum _{i=1}^{n}\ln p(x_{i}\mid C_{k})\right)-\left(\ln p(C_{l})+\sum _{i=1}^{n}\ln p(x_{i}\mid C_{l})\right)$

การสร้างตัวจำแนกจากแบบจำลองความน่าจะเป็น

การอภิปรายที่ผ่านมาได้นำไปสู่แบบจำลองคุณลักษณะอิสระ นั่นคือแบบจำลองความน่าจะเป็นแบบเบย์สแบบง่าย (naive Bayes probability model ) ตัวจำแนกแบบเบย์สแบบง่ายจะรวมแบบจำลองนี้เข้ากับกฎการตัดสินใจกฎทั่วไปข้อหนึ่งคือการเลือกสมมติฐานที่มีความน่าจะเป็นมากที่สุดเพื่อลดความน่าจะเป็นของการจำแนกผิดพลาดให้น้อยที่สุด ซึ่งเรียกว่า กฎการตัดสินใจแบบความน่าจะ เป็นสูงสุดภายหลัง (maximum a posterioriหรือMAP ) ตัวจำแนกที่เกี่ยวข้อง ซึ่งก็คือตัวจำแนกแบบเบย์ส (Bayes classifier ) คือฟังก์ชันที่กำหนดป้ายกำกับคลาส ให้กับค่า $k$ บางค่า ดังนี้: ${\hat {y}}=C_{k}$ ${\hat {y}}={\underset {k\in \{1,\ldots ,K\}}{\operatorname {argmax} }}\ p(C_{k})\displaystyle \prod _{i=1}^{n}p(x_{i}\mid C_{k}).$

การประมาณค่าพารามิเตอร์และแบบจำลองเหตุการณ์

อาจคำนวณค่าความน่าจะเป็นก่อนหน้าของคลาสได้โดยการสมมติว่าคลาสมีความน่าจะเป็นเท่ากัน กล่าวคือหรือโดยการคำนวณค่าประมาณความน่าจะเป็นของคลาสจากชุดข้อมูลฝึกฝน: ในการประมาณค่าพารามิเตอร์สำหรับการกระจายของคุณลักษณะ จะต้องสมมติการกระจายหรือสร้าง แบบจำลอง ที่ไม่ใช่พารามิเตอร์สำหรับคุณลักษณะจากชุดข้อมูลฝึกฝน^[⁸^] $p(C_{k})={\frac {1}{K}}$ ${\text{prior for a given class}}={\frac {\text{no. of samples in that class}}{\text{total no. of samples}}}\,$

ข้อสมมติเกี่ยวกับการกระจายของคุณลักษณะเรียกว่า "แบบจำลองเหตุการณ์" ของตัวจำแนกแบบเบย์แบบง่าย สำหรับคุณลักษณะแบบไม่ต่อเนื่อง เช่น คุณลักษณะที่พบในการจำแนกเอกสาร (รวมถึงการกรองสแปม) การกระจายแบบ มัลติโนเมียลและเบอร์นูลลีเป็นที่นิยม ข้อสมมติเหล่านี้ทำให้เกิดแบบจำลองที่แตกต่างกันสองแบบ ซึ่งมักจะสับสนกัน^{[ 9 ]}^{[ 10 ]}

เบย์สแบบเกาส์เซียน

เมื่อจัดการกับข้อมูลต่อเนื่อง โดยทั่วไปจะถือว่าค่าต่อเนื่องที่เกี่ยวข้องกับแต่ละคลาสมีการกระจายตาม การแจกแจง แบบปกติ (หรือแบบเกาส์เซียน) ตัวอย่างเช่น สมมติว่าข้อมูลฝึกฝนมีคุณลักษณะต่อเนื่องข้อมูลจะถูกแบ่งตามคลาสก่อน จากนั้นจึงคำนวณค่าเฉลี่ยและความแปรปรวนของในแต่ละคลาส ให้เป็นค่าเฉลี่ยของค่า ในที่เกี่ยวข้องกับคลาสและให้เป็นความแปรปรวนที่แก้ไขด้วยเบสเซลของค่า ในที่เกี่ยวข้องกับคลาสสมมติว่าเราได้รวบรวมค่าสังเกตบางค่าแล้วความหนาแน่น ของความน่าจะเป็น ของเมื่อกำหนดคลาสเช่นสามารถคำนวณได้โดยการแทนค่า ลงในสมการสำหรับการแจกแจงแบบปกติที่กำหนดพารามิเตอร์โดยและในทางคณิตศาสตร์ $x$ $x$ $\mu _{k}$ $x$ $C_{k}$ $\sigma _{k}^{2}$ $x$ $C_{k}$ $v$ $v$ $C_{k}$ $p(x=v\mid C_{k})$ $v$ $\mu _{k}$ $\sigma _{k}^{2}$ $p(x=v\mid C_{k})={\frac {1}{\sqrt {2\pi \sigma _{k}^{2}}}}\,e^{-{\frac {(v-\mu _{k})^{2}}{2\sigma _{k}^{2}}}}$

เทคนิคทั่วไปอีกอย่างหนึ่งสำหรับการจัดการค่าต่อเนื่องคือการใช้การแบ่งกลุ่มเพื่อ แยกค่าคุณลักษณะ ออกเป็น ค่าไม่ต่อเนื่อง และรับชุดคุณลักษณะใหม่ที่มีการแจกแจงแบบเบอร์นูลลี เอกสารบางฉบับแนะนำว่าจำเป็นต้องใช้วิธีนี้เพื่อใช้เบย์แบบง่าย แต่ไม่เป็นความจริง เนื่องจากการแยกค่าไม่ต่อเนื่องอาจทำให้ข้อมูลการจำแนกหายไป^{[ 1 ]}

บางครั้งการกระจายของความหนาแน่นขอบตามเงื่อนไขของคลาสอาจห่างไกลจากแบบปกติ ในกรณีเหล่านี้สามารถใช้การประมาณความหนาแน่นเคอร์เนล เพื่อประมาณความหนาแน่นขอบของแต่ละคลาสได้อย่างสมจริงมากขึ้น วิธีนี้ซึ่งนำเสนอโดย John และ Langley ^{[ 8 ]}สามารถเพิ่มความแม่นยำของตัวจำแนกได้อย่างมาก^{[ 11 ]}^{[ 12 ]}

เบย์สแบบง่ายหลายตัวเลือก

ด้วยแบบจำลองเหตุการณ์แบบพหุนาม ตัวอย่าง (เวกเตอร์คุณลักษณะ) แสดงถึงความถี่ที่เหตุการณ์บางอย่างถูกสร้างขึ้นโดยพหุนาม โดยที่คือความน่าจะเป็นที่เหตุการณ์ $i$ เกิดขึ้น (หรือ พหุนาม $K$ ดังกล่าวในกรณีหลายคลาส) เวกเตอร์คุณลักษณะจึงเป็นฮิสโตแกรมโดยที่นับจำนวนครั้งที่สังเกตเห็นเหตุการณ์ $i$ ในอินสแตนซ์เฉพาะ นี่คือแบบจำลองเหตุการณ์ที่ใช้โดยทั่วไปสำหรับการจำแนกเอกสาร โดยเหตุการณ์แสดงถึงการเกิดขึ้นของคำในเอกสารเดียว (ดู สมมติฐาน ถุงคำ ) ^[¹³^]ความน่าจะเป็นของการสังเกตฮิสโตแกรม $x$ กำหนดโดย: โดยที่ $(p_{1},\dots ,p_{n})$ $p_{i}$ $\mathbf {x} =(x_{1},\dots ,x_{n})$ $x_{i}$ $p(\mathbf {x} \mid C_{k})={\frac {(\sum _{i=1}^{n}x_{i})!}{\prod _{i=1}^{n}x_{i}!}}\prod _{i=1}^{n}{p_{ki}}^{x_{i}}$ $p_{ki}:=p(i\mid C_{k})$

ตัวจำแนกเบย์สแบบง่ายหลายตัวแปรจะกลายเป็นตัวจำแนกเชิงเส้นเมื่อแสดงในพื้นที่ลอการิทึม: ^{[ 14 ]} โดยที่และการประมาณค่าพารามิเตอร์ในพื้นที่ลอการิทึมมีข้อดีเนื่องจากการคูณค่าเล็กๆ จำนวนมากอาจนำไปสู่ข้อผิดพลาดในการปัดเศษอย่างมีนัยสำคัญ การใช้การแปลงลอการิทึมจะช่วยลดผลกระทบของข้อผิดพลาดในการปัดเศษนี้ ${\begin{aligned}\log p(C_{k}\mid \mathbf {x} )&\varpropto \log \left(p(C_{k})\prod _{i=1}^{n}{p_{ki}}^{x_{i}}\right)\\&=\log p(C_{k})+\sum _{i=1}^{n}x_{i}\cdot \log p_{ki}\\&=b+\mathbf {w} _{k}^{\top }\mathbf {x} \end{aligned}}$ $b=\log p(C_{k})$ $w_{ki}=\log p_{ki}$

หากคลาสและค่าคุณลักษณะที่กำหนดไม่เคยปรากฏร่วมกันในข้อมูลฝึกฝน ค่าประมาณความน่าจะเป็นตามความถี่จะเป็นศูนย์ เนื่องจากค่าประมาณความน่าจะเป็นเป็นสัดส่วนโดยตรงกับจำนวนครั้งที่ค่าคุณลักษณะนั้นปรากฏ ซึ่งเป็นปัญหาเพราะจะทำให้ข้อมูลทั้งหมดในความน่าจะเป็นอื่นๆ หายไปเมื่อนำมาคูณกัน ดังนั้นจึงมักเป็นที่ต้องการที่จะรวมการแก้ไขสำหรับตัวอย่างขนาดเล็กที่เรียกว่าpseudocount ไว้ ในค่าประมาณความน่าจะเป็นทั้งหมด เพื่อไม่ให้ความน่าจะเป็นใดๆ เป็นศูนย์อย่างแน่นอน วิธีการปรับค่าความสม่ำเสมอของ Naive Bayes แบบนี้เรียกว่าLaplace smoothingเมื่อ pseudocount เท่ากับหนึ่ง และLidstone smoothingในกรณีทั่วไป

Rennie และคณะหารือเกี่ยวกับปัญหาของสมมติฐานพหุนามในบริบทของการจำแนกเอกสารและวิธีที่เป็นไปได้ในการบรรเทาปัญหาเหล่านั้น รวมถึงการใช้ ค่าน้ำหนัก tf–idfแทนความถี่ของคำดิบและการทำให้ความยาวเอกสารเป็นมาตรฐาน เพื่อสร้างตัวจำแนกแบบเบย์แบบง่ายที่สามารถแข่งขันกับเครื่องเวกเตอร์สนับสนุนได้^{[ 14 ]}

เบอร์นูลลี เนฟ เบย์ส

ในแบบจำลองเหตุการณ์เบอร์นูลลี แบบหลายตัวแปร คุณลักษณะต่างๆ เป็น ตัวแปรบูลีนอิสระ ( ตัวแปรไบนารี ) ที่อธิบายอินพุต เช่นเดียวกับแบบจำลองพหุนาม แบบจำลองนี้เป็นที่นิยมสำหรับงานจำแนกเอกสาร^{[ 9 ]}โดยใช้คุณลักษณะการเกิดขึ้นของคำแบบไบนารีแทนความถี่ของคำ หากเป็นบูลีนที่แสดงถึงการเกิดขึ้นหรือไม่เกิดขึ้นของ คำที่ $i$ จากคำศัพท์ ความน่าจะเป็นของเอกสารที่กำหนดคลาสจะกำหนดโดย: ^[⁹^] โดยที่คือความน่าจะเป็นของคลาสที่สร้างคำ แบบจำลองเหตุการณ์นี้เป็นที่นิยมเป็นพิเศษสำหรับการจำแนกข้อความสั้นๆ มีข้อดีคือสามารถจำลองการไม่มีอยู่ของคำได้อย่างชัดเจน โปรดทราบว่าตัวจำแนกแบบเบย์แบบง่ายที่มีแบบจำลองเหตุการณ์เบอร์นูลลีไม่เหมือนกับตัวจำแนกแบบเบย์แบบพหุนามที่มีการนับความถี่ที่ถูกตัดเหลือหนึ่ง $x_{i}$ $C_{k}$ $p(\mathbf {x} \mid C_{k})=\prod _{i=1}^{n}p_{ki}^{x_{i}}(1-p_{ki})^{(1-x_{i})}$ $p_{ki}$ $C_{k}$ $x_{i}$

การประมาณค่าพารามิเตอร์แบบกึ่งควบคุม

เมื่อมีวิธีฝึกตัวจำแนกแบบ Naive Bayes จากข้อมูลที่มีป้ายกำกับแล้ว ก็สามารถสร้าง อัลกอริธึมการฝึกแบบ กึ่งกำกับดูแลที่สามารถเรียนรู้จากข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับได้โดยการเรียกใช้ อัลกอริธึม การเรียนรู้แบบกำกับดูแลในลูป: ^{[ 15 ]}

เมื่อมีชุดตัวอย่างที่มีป้ายกำกับ $L$ และตัวอย่างที่ไม่มีป้ายกำกับ $U$ ให้เริ่มต้นด้วยการฝึกตัวจำแนกแบบ Naive Bayes บน $L$ $D=L\uplus U$
จนกว่าจะถึงจุดบรรจบ ให้ทำดังนี้:
1. ทำนายความน่าจะเป็นของคลาส สำหรับตัวอย่าง $x$ ทั้งหมดใน. $P(C\mid x)$ $D$
2. ฝึกฝนโมเดลใหม่โดยใช้ค่าความน่าจะเป็น (ไม่ใช่ป้ายกำกับ) ที่คาดการณ์ไว้ในขั้นตอนก่อนหน้า

การลู่เข้าจะถูกกำหนดโดยพิจารณาจากการปรับปรุงค่าความน่าจะเป็นของแบบจำลองโดยที่แทนพารามิเตอร์ของแบบจำลองเบย์แบบง่าย $P(D\mid \theta )$ $\theta$

อัลกอริทึมการฝึกอบรมนี้เป็นตัวอย่างของ อัลกอริทึมการคาดการณ์-การเพิ่มประสิทธิภาพทั่วไป(EM): ขั้นตอนการทำนายภายในลูปคือ ขั้นตอน Eของ EM ในขณะที่การฝึกอบรมใหม่ของ Naive Bayes คือ ขั้นตอน Mอัลกอริทึมนี้ได้รับการพิสูจน์อย่างเป็นทางการโดยสมมติฐานที่ว่าข้อมูลถูกสร้างขึ้นโดยแบบจำลองผสมและส่วนประกอบของแบบจำลองผสมนี้คือคลาสของปัญหาการจำแนกประเภท^{[ 15 ]}

การอภิปราย

แม้ว่าสมมติฐานความเป็นอิสระที่กว้างขวางมักจะไม่ถูกต้อง แต่ตัวจำแนกแบบ Naive Bayes ก็มีคุณสมบัติหลายประการที่ทำให้มีประโยชน์อย่างน่าประหลาดใจในทางปฏิบัติ โดยเฉพาะอย่างยิ่ง การแยกการแจกแจงคุณลักษณะแบบมีเงื่อนไขของคลาส หมายความว่าการแจกแจงแต่ละรายการสามารถประมาณได้อย่างอิสระเป็นการแจกแจงแบบหนึ่งมิติ ซึ่งช่วยบรรเทาปัญหาที่เกิดจาก คำสาปของมิติ เช่น ความต้องการชุดข้อมูลที่ขยายแบบเลขชี้กำลังตามจำนวนคุณลักษณะ แม้ว่า Naive Bayes มักจะล้มเหลวในการสร้างการประมาณที่ดีสำหรับความน่าจะเป็นของคลาสที่ถูกต้อง^[¹⁶^]แต่นี่อาจไม่ใช่ข้อกำหนดสำหรับแอปพลิเคชันจำนวนมาก ตัวอย่างเช่น ตัวจำแนกแบบ Naive Bayes จะทำการจำแนกกฎการตัดสินใจ MAP ที่ถูกต้องตราบใด ที่คลาสที่ถูกต้องถูกทำนายว่ามีความน่าจะเป็นมากกว่าคลาสอื่น ๆ นี่เป็นจริงไม่ว่าการประมาณความน่าจะเป็นจะไม่ถูกต้องเล็กน้อยหรือแม้กระทั่งไม่ถูกต้องอย่างมาก ในลักษณะนี้ ตัวจำแนกโดยรวมสามารถแข็งแกร่งพอที่จะเพิกเฉยต่อข้อบกพร่องร้ายแรงในแบบจำลองความน่าจะเป็นแบบ Naive ที่อยู่เบื้องหลังได้^[¹⁷^]เหตุผลอื่นๆ สำหรับความสำเร็จที่สังเกตได้ของตัวจำแนกแบบเบย์สแบบง่ายนั้นได้มีการกล่าวถึงในเอกสารอ้างอิงด้านล่าง

ความสัมพันธ์กับการถดถอยโลจิสติกส์

ในกรณีของอินพุตแบบไม่ต่อเนื่อง (ตัวบ่งชี้หรือคุณลักษณะความถี่สำหรับเหตุการณ์แบบไม่ต่อเนื่อง) ตัวจำแนกแบบเบย์แบบง่ายจะสร้าง คู่ แบบสร้าง-จำแนกกับ ตัวจำแนก การถดถอยโลจิสติกแบบหลายตัวเลือก: ตัวจำแนกแบบเบย์แบบง่ายแต่ละตัวสามารถพิจารณาได้ว่าเป็นวิธีในการปรับแบบจำลองความน่าจะเป็นที่ปรับความน่าจะเป็นร่วมให้เหมาะสมที่สุดในขณะที่การถดถอยโลจิสติกจะปรับแบบจำลองความน่าจะเป็นเดียวกันเพื่อปรับเงื่อนไขให้เหมาะสมที่สุด^[¹⁸^] $p(C,\mathbf {x} )$ $p(C\mid \mathbf {x} )$

กล่าวอย่างเป็นทางการ เรามีดังต่อไปนี้:

ทฤษฎีบท—ตัวจำแนกแบบ Naive Bayes บนคุณลักษณะแบบไบนารีนั้นอยู่ภายใต้การจำแนกแบบ Logistic Regression

การพิสูจน์

พิจารณาปัญหาการจำแนกประเภทหลายคลาสทั่วไป โดยมีคลาสที่เป็นไปได้n คลาส จากนั้นตัวจำแนกประเภทเบย์ส (ที่ไม่ใช่แบบง่าย) จะให้ผลลัพธ์ตามทฤษฎีบทของเบย์สว่า: $Y\in \{1,...,n\}$ $p(Y\mid X=x)={\text{softmax}}(\{\ln p(Y=k)+\ln p(X=x\mid Y=k)\}_{k})$

ตัวจำแนกแบบ Naive Bayes ให้ ผลลัพธ์ดังนี้ ${\text{softmax}}\left(\left\{\ln p(Y=k)+{\frac {1}{2}}\sum _{i}(a_{i,k}^{+}-a_{i,k}^{-})x_{i}+(a_{i,k}^{+}+a_{i,k}^{-})\right\}_{k}\right)$ $a_{i,s}^{+}=\ln p(X_{i}=+1\mid Y=s);\quad a_{i,s}^{-}=\ln p(X_{i}=-1\mid Y=s)$

นี่คือตัวจำแนกประเภทการถดถอยโลจิสติกส์อย่างแท้จริง

ความเชื่อมโยงระหว่างทั้งสองสามารถมองเห็นได้จากการสังเกตว่า ฟังก์ชันการตัดสินใจของ Naive Bayes (ในกรณีไบนารี) สามารถเขียนใหม่ได้เป็น "ทำนายคลาสถ้าโอกาสของมากกว่าโอกาสของ" การแสดงสิ่งนี้ในรูปแบบลอการิทึมจะได้ดังนี้: $C_{1}$ $p(C_{1}\mid \mathbf {x} )$ $p(C_{2}\mid \mathbf {x} )$ $\log {\frac {p(C_{1}\mid \mathbf {x} )}{p(C_{2}\mid \mathbf {x} )}}=\log p(C_{1}\mid \mathbf {x} )-\log p(C_{2}\mid \mathbf {x} )>0$

ด้านซ้ายของสมการนี้คือค่าลอการิทึมของอัตราต่อรอง หรือlogitซึ่งเป็นปริมาณที่ทำนายโดยแบบจำลองเชิงเส้นที่เป็นพื้นฐานของการถดถอยโลจิสติก เนื่องจากแบบจำลองเบย์แบบง่ายก็เป็นแบบจำลองเชิงเส้นสำหรับแบบจำลองเหตุการณ์ "ไม่ต่อเนื่อง" สองแบบ จึงสามารถกำหนดพารามิเตอร์ใหม่เป็นฟังก์ชันเชิงเส้นได้การหาค่าความน่าจะเป็นจึงเป็นเรื่องของการใช้ฟังก์ชันโลจิสติกกับหรือในกรณีหลายคลาส ใช้ ฟังก์ชัน softmax $b+\mathbf {w} ^{\top }x>0$ $b+\mathbf {w} ^{\top }x$

ตัวจำแนกแบบแยกแยะมีข้อผิดพลาดเชิงอะซิมโทติกต่ำกว่าตัวจำแนกแบบสร้าง อย่างไรก็ตาม งานวิจัยของNgและJordanแสดงให้เห็นว่าในบางกรณีในทางปฏิบัติ Bayes แบบง่ายอาจมีประสิทธิภาพเหนือกว่าการถดถอยโลจิสติก เนื่องจากสามารถเข้าถึงข้อผิดพลาดเชิงอะซิมโทติกได้เร็วกว่า^{[ 18 ]}

ตัวอย่าง

การจำแนกประเภทบุคคล

ปัญหา: จำแนกว่าบุคคลที่กำหนดเป็นชายหรือหญิงโดยพิจารณาจากลักษณะที่วัดได้ ลักษณะเหล่านั้นได้แก่ ส่วนสูง น้ำหนัก และขนาดเท้า แม้ว่าในตัวจำแนก NB เราจะถือว่าลักษณะเหล่านี้เป็นอิสระต่อกัน แต่ในความเป็นจริงแล้วไม่ใช่เช่นนั้น

การฝึกอบรม

ตัวอย่างชุดข้อมูลฝึกฝนอยู่ด้านล่าง

บุคคล	ความสูง (ฟุต)	น้ำหนัก (ปอนด์)	ขนาดเท้า (นิ้ว)
ชาย	6	180	12
ชาย	5.92 (5'11")	190	11
ชาย	5.58 (5'7")	170	12
ชาย	5.92 (5'11")	165	10
หญิง	5	100	6
หญิง	5.5 (5'6")	150	8
หญิง	5.42 (5'5")	130	7
หญิง	5.75 (5'9")	150	9

ตัวจำแนกประเภทที่สร้างขึ้นจากชุดข้อมูลฝึกฝนโดยใช้สมมติฐานการแจกแจงแบบเกาส์เซียนจะเป็นดังนี้ (โดยกำหนดให้ค่าความแปรปรวนเป็นค่าความแปรปรวนของตัวอย่างที่ไม่เอนเอียง ):

บุคคล	ค่าเฉลี่ย (ความสูง)	ความแปรปรวน (ความสูง)	ค่าเฉลี่ย (น้ำหนัก)	ความแปรปรวน (น้ำหนัก)	ค่าเฉลี่ย (ขนาดเท้า)	ความแปรปรวน (ขนาดเท้า)
ชาย	5.855	3.5033 × 10 ⁻²	176.25	122.92	11.25	9.1667 × 10 ⁻¹
หญิง	5.4175	9.7225 × 10 ⁻²	132.5	558.33	7.5	1.6667

ตัวอย่างต่อไปนี้สมมติว่าแต่ละคลาสมีความน่าจะเป็นเท่ากัน ดังนั้น P(ชาย) = P(หญิง) = 0.5 การแจกแจงความน่าจะเป็น ล่วงหน้านี้ อาจอิงตามความรู้ก่อนหน้าเกี่ยวกับความถี่ในประชากรขนาดใหญ่หรือในชุดข้อมูลฝึกฝน

การทดสอบ

ตัวอย่างด้านล่างนี้ใช้สำหรับจำแนกเพศชายหรือเพศหญิง

บุคคล	ความสูง (ฟุต)	น้ำหนัก (ปอนด์)	ขนาดเท้า (นิ้ว)
ตัวอย่าง	6	130	8

ในการจำแนกกลุ่มตัวอย่าง ต้องพิจารณาว่าค่าความน่าจะเป็นภายหลัง (posterior) ของเพศชายหรือเพศหญิงมีค่ามากกว่า สำหรับการจำแนกเป็นเพศชาย ค่าความน่าจะเป็นภายหลังจะกำหนดโดย ${\text{posterior (male)}}={\frac {P({\text{male}})\,p({\text{height}}\mid {\text{male}})\,p({\text{weight}}\mid {\text{male}})\,p({\text{foot size}}\mid {\text{male}})}{\text{evidence}}}$

สำหรับการจำแนกประเภทเป็นเพศหญิง ค่าด้านหลังจะกำหนดโดย ${\text{posterior (female)}}={\frac {P({\text{female}})\,p({\text{height}}\mid {\text{female}})\,p({\text{weight}}\mid {\text{female}})\,p({\text{foot size}}\mid {\text{female}})}{\text{evidence}}}$

ค่าหลักฐาน (หรือเรียกอีกอย่างว่าค่าคงที่มาตรฐาน ) สามารถคำนวณได้ดังนี้: ${\begin{aligned}{\text{evidence}}=P({\text{male}})\,p({\text{height}}\mid {\text{male}})\,p({\text{weight}}\mid {\text{male}})\,p({\text{foot size}}\mid {\text{male}})\\+P({\text{female}})\,p({\text{height}}\mid {\text{female}})\,p({\text{weight}}\mid {\text{female}})\,p({\text{foot size}}\mid {\text{female}})\end{aligned}}$

อย่างไรก็ตาม เมื่อพิจารณาจากตัวอย่าง หลักฐานจะเป็นค่าคงที่และปรับขนาดค่าหลังทั้งสองอย่างเท่ากัน ดังนั้นจึงไม่ส่งผลต่อการจำแนกประเภทและสามารถละเลยได้ ตอนนี้สามารถกำหนดการ กระจายความน่าจะเป็นสำหรับเพศของตัวอย่างได้แล้ว โดยที่และคือพารามิเตอร์ของการกระจายแบบปกติซึ่งได้กำหนดไว้ก่อนหน้านี้จากชุดข้อมูลฝึกฝน โปรดทราบว่าค่าที่มากกว่า 1 นั้นใช้ได้ในที่นี้ – มันเป็นความหนาแน่นของความน่าจะเป็นมากกว่าความน่าจะเป็น เนื่องจากความสูงเป็นตัวแปรต่อเนื่อง $P({\text{male}})=0.5$ $p({\text{height}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(6-\mu )^{2}}{2\sigma ^{2}}}\right)\approx 1.5789,$ $\mu =5.855$ $\sigma ^{2}=3.5033\cdot 10^{-2}$

$p({\text{weight}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(130-\mu )^{2}}{2\sigma ^{2}}}\right)=5.9881\cdot 10^{-6}$ $p({\text{foot size}}\mid {\text{male}})={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}\exp \left({\frac {-(8-\mu )^{2}}{2\sigma ^{2}}}\right)=1.3112\cdot 10^{-3}$ ${\text{posterior numerator (male)}}={\text{their product}}=6.1984\cdot 10^{-9}$

$P({\text{female}})=0.5$ $p({\text{height}}\mid {\text{female}})=2.23\cdot 10^{-1}$ $p({\text{weight}}\mid {\text{female}})=1.6789\cdot 10^{-2}$ $p({\text{foot size}}\mid {\text{female}})=2.8669\cdot 10^{-1}$ ${\text{posterior numerator (female)}}={\text{their product}}=5.3778\cdot 10^{-4}$

เนื่องจากตัวเศษของค่าประมาณภายหลังมีค่ามากกว่าในกรณีของเพศหญิง ดังนั้นจึงคาดการณ์ได้ว่ากลุ่มตัวอย่างเป็นเพศหญิง

การจำแนกประเภทเอกสาร

ต่อไปนี้เป็นตัวอย่างการใช้การจำแนกแบบเบย์เซียนแบบง่าย (naive Bayesian classification) กับ ปัญหา การจำแนกเอกสารพิจารณาปัญหาการจำแนกเอกสารตามเนื้อหา เช่นอีเมลสแปม และ อีเมลที่ไม่ใช่สแปมจินตนาการว่าเอกสารถูกดึงมาจากเอกสารหลายคลาส ซึ่งสามารถจำลองได้เป็นเซตของคำ โดยที่ความน่าจะเป็น (อิสระ) ที่คำที่ i ของเอกสารที่กำหนดปรากฏในเอกสารจากคลาสCสามารถเขียนได้ดังนี้ $p(w_{i}\mid C)\,$

(สำหรับการวิเคราะห์นี้ เราจะลดความซับซ้อนลงโดยสมมติว่าคำต่างๆ กระจายตัวแบบสุ่มในเอกสาร กล่าวคือ คำต่างๆ ไม่ขึ้นอยู่กับความยาวของเอกสาร ตำแหน่งภายในเอกสารที่สัมพันธ์กับคำอื่นๆ หรือบริบทอื่นๆ ของเอกสาร)

ดังนั้น ความน่าจะเป็นที่เอกสารD ที่กำหนด จะมีคำทั้งหมดตามที่กำหนด โดยกำหนดให้คลาสCคือ $w_{i}$ $p(D\mid C)=\prod _{i}p(w_{i}\mid C)\,$

คำถามที่ต้องหาคำตอบคือ "ความน่าจะเป็นที่เอกสารD ที่กำหนด ให้เป็นของกลุ่มC ที่กำหนดคือเท่าไร ?" หรืออีกนัยหนึ่งคือ σ คืออะไร? $p(C\mid D)\,$

ตามคำจำกัดความ และ $p(D\mid C)={p(D\cap C) \over p(C)}$ $p(C\mid D)={p(D\cap C) \over p(D)}$

ทฤษฎีบทของเบย์สจะแปลงสิ่งเหล่านี้ให้กลายเป็นข้อความแสดงความน่าจะเป็นในรูปของ ความน่าจะ เป็น แบบมีเงื่อนไข $p(C\mid D)={\frac {p(C)\,p(D\mid C)}{p(D)}}$

สมมติไว้ก่อนว่ามีเพียงสองคลาสที่ไม่ทับซ้อนกัน คือSและ ¬ S (เช่น สแปมและไม่ใช่สแปม) โดยที่ทุกองค์ประกอบ (อีเมล) จะต้องอยู่ในคลาสใดคลาสหนึ่งเท่านั้น และ $p(D\mid S)=\prod _{i}p(w_{i}\mid S)\,$ $p(D\mid \neg S)=\prod _{i}p(w_{i}\mid \neg S)\,$

จากการใช้ผลลัพธ์แบบเบย์เซียนข้างต้น เราสามารถเขียนได้ดังนี้: $p(S\mid D)={p(S) \over p(D)}\,\prod _{i}p(w_{i}\mid S)$ $p(\neg S\mid D)={p(\neg S) \over p(D)}\,\prod _{i}p(w_{i}\mid \neg S)$

เมื่อหารค่าหนึ่งด้วยอีกค่าหนึ่งจะได้: ${p(S\mid D) \over p(\neg S\mid D)}={p(S)\,\prod _{i}p(w_{i}\mid S) \over p(\neg S)\,\prod _{i}p(w_{i}\mid \neg S)}$

ซึ่งสามารถปรับปรุงโครงสร้างใหม่ได้ดังนี้: ${p(S\mid D) \over p(\neg S\mid D)}={p(S) \over p(\neg S)}\,\prod _{i}{p(w_{i}\mid S) \over p(w_{i}\mid \neg S)}$

ดังนั้น อัตราส่วนความน่าจะเป็น p( S | D ) / p(¬ S | D ) สามารถแสดงได้ในรูปของอัตราส่วนความน่าจะเป็น แบบอนุกรม ความน่าจะเป็นที่แท้จริง p( S | D ) สามารถคำนวณได้ง่ายจาก log (p( S | D ) / p(¬ S | D )) โดยอาศัยการสังเกตว่า p( S | D ) + p(¬ S | D ) = 1

เมื่อนำอัตราส่วนทั้งหมดเหล่านี้ มาหา ค่าลอการิทึม จะได้ว่า: $\ln {p(S\mid D) \over p(\neg S\mid D)}=\ln {p(S) \over p(\neg S)}+\sum _{i}\ln {p(w_{i}\mid S) \over p(w_{i}\mid \neg S)}$

(เทคนิค " อัตราส่วนความน่าจะเป็นล็อก " นี้เป็นเทคนิคที่ใช้กันทั่วไปในทางสถิติ ในกรณีที่มีทางเลือกสองทางที่ไม่สามารถเกิดขึ้นพร้อมกันได้ (เช่นในตัวอย่างนี้) การแปลงอัตราส่วนความน่าจะเป็นล็อกเป็นความน่าจะเป็นจะอยู่ในรูปของเส้นโค้งซิกมอยด์ : ดู รายละเอียดเพิ่มเติมได้ ที่ logit )

สุดท้ายนี้ เอกสารสามารถจำแนกได้ดังนี้ ถ้า(เช่น) ถือว่าเป็นสแปม แต่ถ้าไม่ใช่สแปม ก็จะไม่ใช่สแปม $p(S\mid D)>p(\neg S\mid D)$ $\ln {p(S\mid D) \over p(\neg S\mid D)}>0$

การกรองสแปม

ตัวจำแนกแบบ Naive Bayes เป็น เทคนิค ทางสถิติ ที่นิยมใช้ ในการกรองอีเมลโดยทั่วไปจะใช้คุณลักษณะแบบBag-of-words เพื่อระบุ อีเมลสแปมซึ่งเป็นวิธีการที่ใช้กันทั่วไปในการจำแนกประเภทข้อความตัวจำแนกแบบ Naive Bayes ทำงานโดยการเชื่อมโยงการใช้โทเค็น (โดยทั่วไปคือคำ หรือบางครั้งอาจเป็นสิ่งอื่น ๆ) กับอีเมลสแปมและอีเมลที่ไม่ใช่สแปม จากนั้นใช้ทฤษฎีบทของ Bayesเพื่อคำนวณความน่าจะเป็นที่อีเมลนั้นเป็นสแปมหรือไม่เป็นสแปม

การกรองสแปมแบบ Naive Bayesเป็นเทคนิคพื้นฐานในการจัดการกับสแปมที่สามารถปรับแต่งให้เข้ากับความต้องการอีเมลของผู้ใช้แต่ละราย และให้ ผลลัพธ์การตรวจจับสแปม ผิดพลาด ต่ำ ซึ่งโดยทั่วไปแล้วผู้ใช้ยอมรับได้ อัลกอริทึมแบบ Bayesian ถูกนำมาใช้ในการกรองอีเมลตั้งแต่ปี 1996 แม้ว่าตัวกรองแบบ Naive Bayesian จะไม่ได้รับความนิยมจนกระทั่งภายหลัง แต่ก็มีโปรแกรมหลายโปรแกรมถูกปล่อยออกมาในปี 1998 เพื่อแก้ไขปัญหาอีเมลที่ไม่พึงประสงค์ที่เพิ่มขึ้น^{[ 19 ]} สิ่งพิมพ์ทางวิชาการฉบับแรกที่ใช้ตัวจำแนกแบบ Naive Bayes สำหรับการกรองสแปมคือโดย Sahami et al. ในปี 1998 ^{[ 20 ]}

รูปแบบต่างๆ ของเทคนิคพื้นฐานได้รับการนำไปใช้ในงานวิจัยและผลิตภัณฑ์ซอฟต์แวร์ เชิงพาณิชย์จำนวนมาก ^{[ 21 ]}ไคลเอนต์อีเมลสมัยใหม่จำนวนมากใช้การกรองสแปมแบบเบย์เซียน ผู้ใช้ยังสามารถติดตั้งโปรแกรมกรองอีเมล แยกต่างหากได้อีก ด้วย ตัวกรองอีเมล ฝั่งเซิร์ฟเวอร์เช่นDSPAM , Rspamd , ^{[ 22 ]} SpamAssassin , ^{[ 23 ]} SpamBayes , ^{[ 24 ]} BogofilterและASSPใช้เทคนิคการกรองสแปมแบบเบย์เซียน และบางครั้งฟังก์ชันการทำงานก็ถูกฝังอยู่ใน ซอฟต์แวร์ เซิร์ฟเวอร์อีเมลเองCRM114ซึ่งมักถูกอ้างถึงว่าเป็นตัวกรองแบบเบย์เซียน ไม่ได้มีจุดประสงค์เพื่อใช้ตัวกรองแบบเบย์เซียนในการใช้งานจริง แต่รวมคุณสมบัติ "unigram" ไว้เพื่อเป็นข้อมูลอ้างอิง^{[ 25 ]}

การจัดการกับคำศัพท์หายาก

ในกรณีที่คำศัพท์นั้นไม่เคยถูกพบเห็นมาก่อนในระหว่างขั้นตอนการเรียนรู้ ทั้งตัวเศษและตัวส่วนจะมีค่าเท่ากับศูนย์ ทั้งในสูตรทั่วไปและในสูตรความซ้ำซ้อน ซอฟต์แวร์อาจตัดสินใจที่จะละทิ้งคำศัพท์ที่ไม่มีข้อมูลดังกล่าว

โดยทั่วไปแล้ว คำศัพท์ที่พบเจอเพียงไม่กี่ครั้งในระหว่างขั้นตอนการเรียนรู้ก่อให้เกิดปัญหา เพราะการเชื่อถือข้อมูลจากคำเหล่านั้นโดยไม่ไตร่ตรองถือเป็นความผิดพลาด วิธีแก้ปัญหาที่ง่ายที่สุดคือ การหลีกเลี่ยงการนำคำศัพท์ที่ไม่น่าเชื่อถือเหล่านั้นมาพิจารณาด้วยเช่นกัน

เมื่อนำทฤษฎีบทของเบย์สมาประยุกต์ใช้อีกครั้ง และสมมติว่าการจำแนกอีเมลที่มีคำว่า "replica" เป็นสแปมหรืออีเมลปกติ เป็นตัวแปรสุ่มที่มีการแจกแจงแบบเบต้าโปรแกรมบางโปรแกรมจึงตัดสินใจใช้ความน่าจะเป็นที่แก้ไขแล้ว:

\Pr '(S|W)={\frac {s\cdot \Pr(S)+n\cdot \Pr(S|W)}{s+n}}

ที่ไหน:

$\Pr '(S|W)$ คือค่าความน่าจะเป็นที่ปรับแก้แล้วสำหรับข้อความที่จะเป็นสแปม โดยทราบว่าข้อความนั้นมีคำที่กำหนดอยู่
$s$ คือจุดแข็งที่เรามอบให้แก่ข้อมูลพื้นฐานเกี่ยวกับสแปมที่เข้ามา
$\Pr(S)$ คือความน่าจะเป็นที่ข้อความขาเข้าใดๆ จะเป็นสแปม
$n$ คือจำนวนครั้งที่คำนี้ปรากฏขึ้นในระหว่างขั้นตอนการเรียนรู้ ;
$\Pr(S|W)$ คือความเป็นช่องว่างของคำนี้

(การสาธิต: ^{[ 26 ]} )

ค่าความน่าจะเป็นที่แก้ไขแล้วจะถูกนำมาใช้แทนค่า spamicity ในสูตรการรวม

สูตรนี้สามารถขยายไปใช้กับกรณีที่nเท่ากับศูนย์ (และในกรณีที่ไม่ได้กำหนด spamicity) และในกรณีนี้จะได้ค่าเป็น. $Pr(S)$

หลักการวิเคราะห์เชิงอนุมานอื่นๆ

คำที่มีความหมาย "เป็นกลาง" เช่น "the", "a", "some" หรือ "is" (ในภาษาอังกฤษ) หรือคำที่มีความหมายเทียบเท่าในภาษาอื่นๆ สามารถละเว้นได้ คำเหล่านี้เรียกอีกอย่างว่าคำหยุด (Stop words ) โดยทั่วไปแล้ว ตัวกรองแบบเบย์เซียนบางตัวจะละเว้นคำทั้งหมดที่มีค่าความเป็นสแปมใกล้เคียงกับ 0.5 เนื่องจากคำเหล่านั้นมีส่วนช่วยในการตัดสินใจน้อย คำที่นำมาพิจารณาคือคำที่มีค่าความเป็นสแปมใกล้เคียงกับ 0.0 (ซึ่งเป็นสัญญาณบ่งชี้ข้อความที่ถูกต้อง) หรือใกล้เคียงกับ 1.0 (ซึ่งเป็นสัญญาณบ่งชี้สแปม) ตัวอย่างเช่น วิธีการหนึ่งคือการเก็บเฉพาะคำสิบคำในข้อความที่ตรวจสอบ ซึ่งมีค่าสัมบูรณ์ มากที่สุดคือ |0.5 − pI |

ผลิตภัณฑ์ซอฟต์แวร์บางตัวคำนึงถึงข้อเท็จจริงที่ว่าคำที่กำหนดปรากฏหลายครั้งในข้อความที่ตรวจสอบ^{[ 27 ]}ในขณะที่บางตัวไม่คำนึงถึง

ผลิตภัณฑ์ซอฟต์แวร์บางตัวใช้รูปแบบ (ลำดับของคำ) แทนคำภาษาธรรมชาติที่แยกเดี่ยว^{[ 28 ]}ตัวอย่างเช่น ด้วย "หน้าต่างบริบท" สี่คำ พวกเขาจะคำนวณค่า spamicity ของ "Viagra ดีสำหรับ" แทนที่จะคำนวณค่า spamicity ของ "Viagra", "is", "good" และ "for" วิธีนี้ให้ความไวต่อบริบทมากขึ้นและกำจัดสัญญาณรบกวนแบบ Bayesian ได้ดีกว่า โดยแลกกับฐานข้อมูลที่ใหญ่ขึ้น

ข้อเสีย

ขึ้นอยู่กับการใช้งาน การกรองสแปมแบบเบย์เซียนอาจมีความเสี่ยงต่อการโจมตีแบบเบย์เซียน (Bayesian poisoning ) ซึ่งเป็นเทคนิคที่ผู้ส่งสแปมใช้เพื่อลดประสิทธิภาพของตัวกรองสแปมที่อาศัยการกรองแบบเบย์เซียน ผู้ส่งสแปมที่ใช้เทคนิคนี้จะส่งอีเมลที่มีข้อความที่ถูกต้องจำนวนมาก (รวบรวมจากแหล่งข่าวหรือวรรณกรรมที่น่าเชื่อถือ) กลยุทธ์ ของผู้ส่งสแปมรวมถึงการแทรกคำที่ไม่เป็นอันตรายแบบสุ่มซึ่งโดยปกติไม่ได้เกี่ยวข้องกับสแปม ทำให้คะแนนสแปมของอีเมลลดลง ทำให้มีโอกาสหลุดรอดตัวกรองสแปมแบบเบย์เซียนได้มากขึ้น อย่างไรก็ตาม ในแผนการของ (ตัวอย่างเช่น) Paul Grahamจะใช้เฉพาะความน่าจะเป็นที่สำคัญที่สุดเท่านั้น ดังนั้นการเพิ่มคำที่ไม่เกี่ยวข้องกับสแปมลงในข้อความจึงไม่ส่งผลกระทบต่อความน่าจะเป็นในการตรวจจับอย่างมีนัยสำคัญ

คำที่ปกติปรากฏเป็นจำนวนมากในสแปมอาจถูกแปลงโดยผู้ส่งสแปม ตัวอย่างเช่น «Viagra» จะถูกแทนที่ด้วย «Viaagra» หรือ «V!agra» ในข้อความสแปม ผู้รับข้อความยังคงสามารถอ่านคำที่เปลี่ยนแปลงได้ แต่แต่ละคำเหล่านี้จะพบได้ยากขึ้นในตัวกรองแบบเบย์เซียน ซึ่งขัดขวางกระบวนการเรียนรู้ โดยทั่วไปแล้ว เทคนิคการส่งสแปมนี้ไม่ได้ผลดีนัก เพราะคำที่ได้มาจะถูกตัวกรองจดจำได้เช่นเดียวกับคำปกติ^{[ 29 ]}

เทคนิคอีกอย่างที่ใช้เพื่อพยายามเอาชนะตัวกรองสแปมแบบเบย์เซียนคือการแทนที่ข้อความด้วยรูปภาพ ไม่ว่าจะรวมไว้โดยตรงหรือเป็นลิงก์ ข้อความทั้งหมดของข้อความหรือบางส่วนจะถูกแทนที่ด้วยรูปภาพที่ "วาด" ข้อความเดียวกัน ตัวกรองสแปมมักจะไม่สามารถวิเคราะห์รูปภาพนี้ได้ ซึ่งอาจมีคำที่ละเอียดอ่อน เช่น «Viagra» อย่างไรก็ตาม เนื่องจากโปรแกรมอีเมลหลายโปรแกรมปิดการแสดงรูปภาพที่เป็นลิงก์ด้วยเหตุผลด้านความปลอดภัย ผู้ส่งสแปมที่ส่งลิงก์ไปยังรูปภาพที่อยู่ไกลอาจเข้าถึงเป้าหมายได้น้อยลง นอกจากนี้ ขนาดของรูปภาพในหน่วยไบต์มีขนาดใหญ่กว่าขนาดของข้อความที่เทียบเท่ากัน ดังนั้นผู้ส่งสแปมจึงต้องการแบนด์วิดท์มากขึ้นในการส่งข้อความโดยตรงที่มีรูปภาพ ตัวกรองบางตัวมีแนวโน้มที่จะตัดสินว่าข้อความนั้นเป็นสแปมหากมีเนื้อหากราฟิกเป็นส่วนใหญ่ วิธีแก้ปัญหาที่Google ใช้ ใน ระบบอีเมล GmailคือการทำOCR (Optical Character Recognition)กับรูปภาพขนาดกลางถึงขนาดใหญ่ทุกรูป โดยวิเคราะห์ข้อความภายใน^{[ 30 ]}^{[ 31 ]}

ดูเพิ่มเติม

AODE
เทคนิคต่อต้านสแปม
ตัวจำแนกเบย์ส
เครือข่ายเบย์เซียน
พิษแบบเบย์เซียน
การกรองอีเมล
ตัวจำแนกเชิงเส้น
การถดถอยโลจิสติก
การเลือกปฏิบัติแบบมาร์โคเวียน
ไคลเอนต์อีเมล Mozilla Thunderbirdที่มีการใช้งานตัวกรอง Bayes แบบดั้งเดิม^{[ 32 ]}^{[ 33 ]}
เพอร์เซปตรอน
เบย์สแบบสุ่ม
ฮิวริสติกแบบเลือกสิ่งที่ดีที่สุด

อ่านเพิ่มเติม

Domingos, Pedro; Pazzani, Michael (1997). "เกี่ยวกับความเหมาะสมที่สุดของตัวจำแนกแบบเบย์เซียนอย่างง่ายภายใต้การสูญเสียศูนย์หนึ่ง"การ เรียนรู้ ของเครื่อง 29 (2/3): 103– 137. doi : 10.1023/A:1007413511361 .
Webb, GI; Boughton, J.; Wang, Z. (2005). "ไม่ใช่เบย์สที่ไร้เดียงสา: การรวมตัวประมาณค่าการพึ่งพาหนึ่งเดียว"การ เรียนรู้ ของเครื่อง58 (1): 5– 24. doi : 10.1007/s10994-005-4258-6 .
Mozina, M.; Demsar, J.; Kattan, M.; Zupan, B. (2004). โนโมแกรมสำหรับการแสดงภาพตัวจำแนกแบบเบย์เซียนอย่างง่าย (PDF) . Proc. PKDD-2004. หน้า 337–348 . เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2023-11-29 . สืบค้นเมื่อ2014-04-01 .
Maron, ME (1961). "การจัดทำดัชนีอัตโนมัติ: การสอบสวนเชิงทดลอง". วารสารของ ACM . 8 (3): 404– 417. doi : 10.1145/321075.321084 . hdl : 2027/uva.x030748531 . S2CID 6692916 .
Minsky, M. (1961). ขั้นตอนสู่ปัญญาประดิษฐ์ . Proc. IRE. Vol. 49. pp. 8– 30.

ลิงก์ภายนอก

บทในหนังสือ: การจำแนกประเภทข้อความด้วยวิธี Naive Bayes, บทนำสู่การค้นหาข้อมูล
เบย์สแบบง่ายสำหรับการจำแนกประเภทข้อความที่มีคลาสไม่สมดุล

[

[

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[

[

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[

[ 14 ]

[ 15 ]

[

[

[

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]