กลับไปหน้าบทความ

อ่าน 21 นาที

ตัวจำแนกแบบ Naive Bayes

ในทาง สถิติ ตัวจำแนกแบบเบย์ แบบง่าย (บางครั้งเรียกว่า แบบง่าย หรือ แบบโง่ ) เป็นกลุ่มของ " ตัวจำแนกแบบความน่าจะเป็น " ซึ่งถือว่า คุณลักษณะต่างๆ เป็น อิสระต่อกันโดยมีเงื่อนไข...

ตัวจำแนกแบบ Naive Bayes

ตัวอย่างของตัวจำแนกแบบ Naive Bayes ที่แสดงในรูปแบบเครือข่าย Bayesian

ในทางสถิติตัวจำแนกแบบเบย์แบบง่าย (บางครั้งเรียกว่าแบบง่ายหรือแบบโง่ ) เป็นกลุ่มของ " ตัวจำแนกแบบความน่าจะเป็น " ซึ่งถือว่าคุณลักษณะต่างๆเป็นอิสระต่อกันโดยมีเงื่อนไขโดยพิจารณาจากคลาสเป้าหมาย[ 1 ]กล่าวอีกนัยหนึ่ง โมเดลเบย์แบบง่ายถือว่าข้อมูลเกี่ยวกับคลาสที่ได้จากแต่ละตัวแปรนั้นไม่เกี่ยวข้องกับข้อมูลจากตัวแปรอื่นๆ โดยไม่มีข้อมูลใดๆ ที่ใช้ร่วมกันระหว่างตัวทำนาย ลักษณะที่ไม่สมจริงอย่างมากของสมมติฐานนี้ เรียกว่าสมมติฐานความเป็นอิสระแบบง่าย ซึ่งเป็นที่มาของชื่อตัวจำแนกนี้ ตัวจำแนกเหล่านี้เป็น โมเดลเครือข่ายเบย์ที่ง่ายที่สุดบางส่วน[ 2 ]

โดย ทั่วไปแล้ว ตัวจำแนกแบบ Naive Bayes ทำงานได้แย่กว่าโมเดลขั้นสูงกว่า เช่นการถดถอยโลจิสติกโดยเฉพาะอย่างยิ่งใน การ วัดปริมาณความไม่แน่นอน (โมเดล Naive Bayes มักจะสร้างความน่าจะเป็นที่มั่นใจเกินไปอย่างมาก) อย่างไรก็ตาม โมเดลเหล่านี้ปรับขนาดได้สูง โดยต้องการเพียงพารามิเตอร์เดียวสำหรับแต่ละคุณลักษณะหรือตัวทำนายในปัญหาการเรียนรู้ การฝึกอบรม ความน่าจะเป็นสูงสุดสามารถทำได้โดยการประเมินนิพจน์แบบปิด (เพียงแค่การนับการสังเกตในแต่ละกลุ่ม) [ 3 ] : 718 แทนที่จะ ใช้อั ลกอริธึมการประมาณค่าแบบวนซ้ำที่ มีราคาแพง ซึ่งจำเป็นสำหรับโมเดลอื่นๆ ส่วนใหญ่

แม้ว่าจะมีการใช้ทฤษฎีบทของเบย์สในกฎการตัดสินใจของตัวจำแนก แต่เบย์สแบบง่ายก็ไม่ใช่ (จำเป็นต้อง) วิธีการแบบเบย์ เซียนและแบบจำลองเบย์สแบบง่ายสามารถปรับให้เข้ากับข้อมูลโดยใช้วิธีการแบบเบย์เซียนหรือแบบความถี่ ก็ได้ [ 1 ] [ 3 ]

การแนะนำ

Naive Bayes เป็นเทคนิคที่เรียบง่ายสำหรับการสร้างตัวจำแนกประเภท: แบบจำลองที่กำหนดป้ายกำกับคลาสให้กับตัวอย่างปัญหา ซึ่งแสดงเป็นเวกเตอร์ของ ค่า คุณลักษณะโดยที่ป้ายกำกับคลาสถูกสุ่มมาจากเซตจำกัด บางเซต ไม่มีอัลกอริทึม เดียว สำหรับการฝึกตัวจำแนกประเภทนี้ แต่เป็นตระกูลของอัลกอริทึมที่อิงตามหลักการทั่วไป: ตัวจำแนกประเภท Naive Bayes ทั้งหมดถือว่าค่าของคุณลักษณะเฉพาะนั้นเป็นอิสระจากค่าของคุณลักษณะอื่น ๆ เมื่อกำหนดตัวแปรคลาสแล้ว ตัวอย่างเช่น ผลไม้ชนิดหนึ่งอาจถูกพิจารณาว่าเป็นแอปเปิลหากมีสีแดง กลม และมีเส้นผ่านศูนย์กลางประมาณ 10 เซนติเมตร ตัวจำแนกประเภท Naive Bayes จะพิจารณาว่าคุณลักษณะแต่ละอย่างมีส่วนร่วมอย่างอิสระต่อความน่าจะเป็นที่ผลไม้นี้เป็นแอปเปิล โดยไม่คำนึงถึงความสัมพันธ์ ใด ๆ ที่อาจเกิดขึ้น ระหว่างคุณลักษณะสี ความกลม และเส้นผ่านศูนย์กลาง

ในการใช้งานจริงหลายๆ กรณี การประมาณค่าพารามิเตอร์สำหรับแบบจำลองเบย์แบบง่ายจะใช้ระเบียบวิธีความน่าจะเป็นสูงสุดกล่าวคือ เราสามารถทำงานกับแบบจำลองเบย์แบบง่ายได้โดยไม่ต้องยอมรับความน่าจะเป็นแบบเบย์หรือใช้วิธีการแบบเบย์ใดๆ

แม้ว่าการออกแบบจะดูเรียบง่ายและสมมติฐานที่ดูเหมือนจะง่ายเกินไป แต่ตัวจำแนกแบบเบย์สแบบง่ายก็ทำงานได้ดีในสถานการณ์จริงที่ซับซ้อนหลายอย่าง ในปี 2547 การวิเคราะห์ปัญหาการจำแนกแบบเบย์เซียนแสดงให้เห็นว่ามีเหตุผลทางทฤษฎีที่สมเหตุสมผลสำหรับประสิทธิภาพ ที่ดูเหมือนไม่น่าเชื่อ ของตัวจำแนกแบบเบย์สแบบง่าย[ 4 ​​]อย่างไรก็ตาม การเปรียบเทียบอย่างครอบคลุมกับอัลกอริธึมการจำแนกประเภทอื่นๆ ในปี 2549 แสดงให้เห็นว่าการจำแนกแบบเบย์สมีประสิทธิภาพด้อยกว่าวิธีการอื่นๆ เช่นต้นไม้บูสต์หรือป่าสุ่ม[ 5 ]

ข้อดีของ Naive Bayes คือต้องการข้อมูลฝึกฝนเพียงเล็กน้อยเพื่อประมาณค่าพารามิเตอร์ที่จำเป็นสำหรับการจำแนกประเภท[ 6 ]

แบบจำลองความน่าจะเป็น

โดยสรุปแล้ว Naive Bayes เป็น แบบ จำลองความน่าจะเป็นแบบมีเงื่อนไข : มันกำหนดความน่าจะเป็น สำหรับ ผลลัพธ์หรือคลาส ที่เป็นไปได้ Kรายการแต่ละรายการโดยพิจารณาจากอินสแตนซ์ปัญหาที่จะจำแนกประเภท ซึ่งแสดงด้วยเวกเตอร์ที่เข้ารหัส คุณลักษณะ nรายการ (ตัวแปรอิสระ) [ 7 ]

ปัญหาของการกำหนดสูตรข้างต้นคือ หากจำนวนคุณลักษณะnมีมาก หรือหากคุณลักษณะหนึ่งสามารถมีค่าได้หลายค่า การสร้างแบบจำลองดังกล่าวโดยใช้ตารางความน่าจะเป็น นั้น เป็นไปไม่ได้ ดังนั้นจึงต้องปรับปรุงแบบจำลองใหม่เพื่อให้สามารถจัดการได้ง่ายขึ้น โดยใช้ทฤษฎีบทของเบย์สความน่าจะเป็นแบบมีเงื่อนไขสามารถแยกย่อยได้ดังนี้:

กล่าวโดยง่าย โดยใช้ ศัพท์ทาง ความน่าจะเป็นแบบเบย์เซียนสมการข้างต้นสามารถเขียนได้ดังนี้

ในทางปฏิบัติ เราสนใจเฉพาะตัวเศษของเศษส่วนนั้นเท่านั้น เพราะตัวส่วนไม่ขึ้นอยู่กับและค่าของคุณลักษณะต่างๆ นั้นกำหนดไว้แล้ว ดังนั้นตัวส่วนจึงมีค่าคงที่ ตัวเศษเทียบเท่ากับแบบจำลอง ความน่าจะเป็นร่วม ซึ่งสามารถเขียนใหม่ได้ดังนี้ โดยใช้กฎลูกโซ่สำหรับการประยุกต์ใช้นิยามของความน่าจะเป็นแบบมีเงื่อนไข ซ้ำๆ :

ทีนี้สมมติฐาน ความเป็นอิสระแบบมีเงื่อนไข "แบบง่ายๆ" ก็เข้ามามีบทบาท: สมมติว่าคุณลักษณะทั้งหมดใน นั้นเป็นอิสระต่อกันโดยมีเงื่อนไขขึ้นอยู่กับหมวดหมู่ภายใต้สมมติฐานนี้

ดังนั้น แบบจำลองร่วมสามารถแสดงได้ดังนี้ โดย ที่แสดงถึงสัดส่วนเนื่องจากตัวส่วนถูกละเว้น

นี่หมายความว่าภายใต้สมมติฐานความเป็นอิสระข้างต้น การแจกแจงแบบมีเงื่อนไขเหนือตัวแปรคลาสจะเป็นดังนี้: โดยที่หลักฐานเป็นปัจจัยการปรับขนาดที่ขึ้นอยู่กับเท่านั้นนั่นคือค่าคงที่หากทราบค่าของตัวแปรคุณลักษณะ

บ่อยครั้ง จำเป็นเพียงแค่การแยกแยะระหว่างคลาส ในกรณีนั้น ตัวประกอบการปรับขนาดจะไม่เกี่ยวข้อง และเพียงพอที่จะคำนวณค่าลอการิทึมของความน่าจะเป็นจนถึงตัวประกอบ: ตัวประกอบการปรับขนาดไม่เกี่ยวข้อง เนื่องจากความแตกต่างจะหักลบมันออกไป: การใช้ค่าลอการิทึมของความน่าจะเป็นมีประโยชน์สองประการ ประการแรกคือ ช่วยให้สามารถตีความได้ในทฤษฎีสารสนเทศ โดยที่ค่าลอการิทึมของความน่าจะเป็นเป็นหน่วยของสารสนเทศในnatsประการที่สองคือ ช่วยหลีกเลี่ยงปัญหาการคำนวณค่าต่ำกว่าขีดจำกัด (arithmetic underflow )

การสร้างตัวจำแนกจากแบบจำลองความน่าจะเป็น

การอภิปรายที่ผ่านมาได้นำไปสู่แบบจำลองคุณลักษณะอิสระ นั่นคือแบบจำลองความน่าจะเป็นแบบเบย์สแบบง่าย (naive Bayes probability model ) ตัวจำแนกแบบเบย์สแบบง่ายจะรวมแบบจำลองนี้เข้ากับกฎการตัดสินใจกฎทั่วไปข้อหนึ่งคือการเลือกสมมติฐานที่มีความน่าจะเป็นมากที่สุดเพื่อลดความน่าจะเป็นของการจำแนกผิดพลาดให้น้อยที่สุด ซึ่งเรียกว่า กฎการตัดสินใจแบบความน่าจะ เป็นสูงสุดภายหลัง (maximum a posterioriหรือMAP ) ตัวจำแนกที่เกี่ยวข้อง ซึ่งก็คือตัวจำแนกแบบเบย์ส (Bayes classifier ) ​​คือฟังก์ชันที่กำหนดป้ายกำกับคลาส ให้กับค่า kบางค่า ดังนี้:

ฟังก์ชันความน่าจะเป็น เมทริกซ์ความสับสนและเส้นโค้ง ROCสำหรับตัวจำแนกแบบ Naive Bayes และเมื่อพิจารณาว่าความน่าจะเป็นล่วงหน้าเท่ากันสำหรับทุกคลาสเส้นแบ่งการตัดสินใจ (เส้นสีเขียว) จะอยู่ที่จุดที่ความหนาแน่นของความน่าจะเป็นทั้งสองตัดกัน เนื่องจาก...

การประมาณค่าพารามิเตอร์และแบบจำลองเหตุการณ์

อาจคำนวณค่าความน่าจะเป็นก่อนหน้าของคลาสได้โดยการสมมติว่าคลาสมีความน่าจะเป็นเท่ากัน กล่าวคือหรือโดยการคำนวณค่าประมาณความน่าจะเป็นของคลาสจากชุดข้อมูลฝึกฝน: ในการประมาณค่าพารามิเตอร์สำหรับการกระจายของคุณลักษณะ จะต้องสมมติการกระจายหรือสร้าง แบบจำลอง ที่ไม่ใช่พารามิเตอร์สำหรับคุณลักษณะจากชุดข้อมูลฝึกฝน[ 8 ]

ข้อสมมติเกี่ยวกับการกระจายของคุณลักษณะเรียกว่า "แบบจำลองเหตุการณ์" ของตัวจำแนกแบบเบย์แบบง่าย สำหรับคุณลักษณะแบบไม่ต่อเนื่อง เช่น คุณลักษณะที่พบในการจำแนกเอกสาร (รวมถึงการกรองสแปม) การกระจายแบบ มัลติโนเมียลและเบอร์นูลลีเป็นที่นิยม ข้อสมมติเหล่านี้ทำให้เกิดแบบจำลองที่แตกต่างกันสองแบบ ซึ่งมักจะสับสนกัน[ 9 ] [ 10 ]

เบย์สแบบเกาส์เซียน

เมื่อจัดการกับข้อมูลต่อเนื่อง โดยทั่วไปจะถือว่าค่าต่อเนื่องที่เกี่ยวข้องกับแต่ละคลาสมีการกระจายตาม การแจกแจง แบบปกติ (หรือแบบเกาส์เซียน) ตัวอย่างเช่น สมมติว่าข้อมูลฝึกฝนมีคุณลักษณะต่อเนื่องข้อมูลจะถูกแบ่งตามคลาสก่อน จากนั้นจึงคำนวณค่าเฉลี่ยและความแปรปรวนของในแต่ละคลาส ให้เป็นค่าเฉลี่ยของค่า ในที่เกี่ยวข้องกับคลาสและให้เป็นความแปรปรวนที่แก้ไขด้วยเบสเซลของค่า ในที่เกี่ยวข้องกับคลาสสมมติว่าเราได้รวบรวมค่าสังเกตบางค่าแล้วความหนาแน่น ของความน่าจะเป็น ของเมื่อกำหนดคลาสเช่นสามารถคำนวณได้โดยการแทนค่า ลงในสมการสำหรับการแจกแจงแบบปกติที่กำหนดพารามิเตอร์โดยและในทางคณิตศาสตร์

เทคนิคทั่วไปอีกอย่างหนึ่งสำหรับการจัดการค่าต่อเนื่องคือการใช้การแบ่งกลุ่มเพื่อ แยกค่าคุณลักษณะ ออกเป็น ค่าไม่ต่อเนื่อง และรับชุดคุณลักษณะใหม่ที่มีการแจกแจงแบบเบอร์นูลลี เอกสารบางฉบับแนะนำว่าจำเป็นต้องใช้วิธีนี้เพื่อใช้เบย์แบบง่าย แต่ไม่เป็นความจริง เนื่องจากการแยกค่าไม่ต่อเนื่องอาจทำให้ข้อมูลการจำแนกหายไป[ 1 ]

บางครั้งการกระจายของความหนาแน่นขอบตามเงื่อนไขของคลาสอาจห่างไกลจากแบบปกติ ในกรณีเหล่านี้สามารถใช้การประมาณความหนาแน่นเคอร์เนล เพื่อประมาณความหนาแน่นขอบของแต่ละคลาสได้อย่างสมจริงมากขึ้น วิธีนี้ซึ่งนำเสนอโดย John และ Langley [ 8 ]สามารถเพิ่มความแม่นยำของตัวจำแนกได้อย่างมาก[ 11 ] [ 12 ]

เบย์สแบบง่ายหลายตัวเลือก

ด้วยแบบจำลองเหตุการณ์แบบพหุนาม ตัวอย่าง (เวกเตอร์คุณลักษณะ) แสดงถึงความถี่ที่เหตุการณ์บางอย่างถูกสร้างขึ้นโดยพหุนาม โดยที่คือความน่าจะเป็นที่เหตุการณ์iเกิดขึ้น (หรือ พหุนาม Kดังกล่าวในกรณีหลายคลาส) เวกเตอร์คุณลักษณะจึงเป็นฮิสโตแกรมโดยที่นับจำนวนครั้งที่สังเกตเห็นเหตุการณ์iในอินสแตนซ์เฉพาะ นี่คือแบบจำลองเหตุการณ์ที่ใช้โดยทั่วไปสำหรับการจำแนกเอกสาร โดยเหตุการณ์แสดงถึงการเกิดขึ้นของคำในเอกสารเดียว (ดู สมมติฐาน ถุงคำ ) [ 13 ]ความน่าจะเป็นของการสังเกตฮิสโตแกรมxกำหนดโดย: โดยที่

ตัวจำแนกเบย์สแบบง่ายหลายตัวแปรจะกลายเป็นตัวจำแนกเชิงเส้นเมื่อแสดงในพื้นที่ลอการิทึม: [ 14 ] โดยที่และการประมาณค่าพารามิเตอร์ในพื้นที่ลอการิทึมมีข้อดีเนื่องจากการคูณค่าเล็กๆ จำนวนมากอาจนำไปสู่ข้อผิดพลาดในการปัดเศษอย่างมีนัยสำคัญ การใช้การแปลงลอการิทึมจะช่วยลดผลกระทบของข้อผิดพลาดในการปัดเศษนี้

หากคลาสและค่าคุณลักษณะที่กำหนดไม่เคยปรากฏร่วมกันในข้อมูลฝึกฝน ค่าประมาณความน่าจะเป็นตามความถี่จะเป็นศูนย์ เนื่องจากค่าประมาณความน่าจะเป็นเป็นสัดส่วนโดยตรงกับจำนวนครั้งที่ค่าคุณลักษณะนั้นปรากฏ ซึ่งเป็นปัญหาเพราะจะทำให้ข้อมูลทั้งหมดในความน่าจะเป็นอื่นๆ หายไปเมื่อนำมาคูณกัน ดังนั้นจึงมักเป็นที่ต้องการที่จะรวมการแก้ไขสำหรับตัวอย่างขนาดเล็กที่เรียกว่าpseudocount ไว้ ในค่าประมาณความน่าจะเป็นทั้งหมด เพื่อไม่ให้ความน่าจะเป็นใดๆ เป็นศูนย์อย่างแน่นอน วิธีการปรับค่าความสม่ำเสมอของ Naive Bayes แบบนี้เรียกว่าLaplace smoothingเมื่อ pseudocount เท่ากับหนึ่ง และLidstone smoothingในกรณีทั่วไป

Rennie และคณะหารือเกี่ยวกับปัญหาของสมมติฐานพหุนามในบริบทของการจำแนกเอกสารและวิธีที่เป็นไปได้ในการบรรเทาปัญหาเหล่านั้น รวมถึงการใช้ ค่าน้ำหนัก tf–idfแทนความถี่ของคำดิบและการทำให้ความยาวเอกสารเป็นมาตรฐาน เพื่อสร้างตัวจำแนกแบบเบย์แบบง่ายที่สามารถแข่งขันกับเครื่องเวกเตอร์สนับสนุนได้[ 14 ]

เบอร์นูลลี เนฟ เบย์ส

ในแบบจำลองเหตุการณ์เบอร์นูลลี แบบหลายตัวแปร คุณลักษณะต่างๆ เป็น ตัวแปรบูลีนอิสระ ( ตัวแปรไบนารี ) ที่อธิบายอินพุต เช่นเดียวกับแบบจำลองพหุนาม แบบจำลองนี้เป็นที่นิยมสำหรับงานจำแนกเอกสาร[ 9 ]โดยใช้คุณลักษณะการเกิดขึ้นของคำแบบไบนารีแทนความถี่ของคำ หากเป็นบูลีนที่แสดงถึงการเกิดขึ้นหรือไม่เกิดขึ้นของ คำที่ iจากคำศัพท์ ความน่าจะเป็นของเอกสารที่กำหนดคลาสจะกำหนดโดย: [ 9 ] โดยที่คือความน่าจะเป็นของคลาสที่สร้างคำ แบบจำลองเหตุการณ์นี้เป็นที่นิยมเป็นพิเศษสำหรับการจำแนกข้อความสั้นๆ มีข้อดีคือสามารถจำลองการไม่มีอยู่ของคำได้อย่างชัดเจน โปรดทราบว่าตัวจำแนกแบบเบย์แบบง่ายที่มีแบบจำลองเหตุการณ์เบอร์นูลลีไม่เหมือนกับตัวจำแนกแบบเบย์แบบพหุนามที่มีการนับความถี่ที่ถูกตัดเหลือหนึ่ง

การประมาณค่าพารามิเตอร์แบบกึ่งควบคุม

เมื่อมีวิธีฝึกตัวจำแนกแบบ Naive Bayes จากข้อมูลที่มีป้ายกำกับแล้ว ก็สามารถสร้าง อัลกอริธึมการฝึกแบบ กึ่งกำกับดูแลที่สามารถเรียนรู้จากข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับได้โดยการเรียกใช้ อัลกอริธึม การเรียนรู้แบบกำกับดูแลในลูป: [ 15 ]

  1. เมื่อมีชุดตัวอย่างที่มีป้ายกำกับLและตัวอย่างที่ไม่มีป้ายกำกับUให้เริ่มต้นด้วยการฝึกตัวจำแนกแบบ Naive Bayes บนL
  2. จนกว่าจะถึงจุดบรรจบ ให้ทำดังนี้:
    1. ทำนายความน่าจะเป็นของคลาส สำหรับตัวอย่าง xทั้งหมดใน.
    2. ฝึกฝนโมเดลใหม่โดยใช้ค่าความน่าจะเป็น (ไม่ใช่ป้ายกำกับ) ที่คาดการณ์ไว้ในขั้นตอนก่อนหน้า

การลู่เข้าจะถูกกำหนดโดยพิจารณาจากการปรับปรุงค่าความน่าจะเป็นของแบบจำลองโดยที่แทนพารามิเตอร์ของแบบจำลองเบย์แบบง่าย

อัลกอริทึมการฝึกอบรมนี้เป็นตัวอย่างของ อัลกอริทึมการคาดการณ์-การเพิ่มประสิทธิภาพทั่วไป(EM): ขั้นตอนการทำนายภายในลูปคือ ขั้นตอน Eของ EM ในขณะที่การฝึกอบรมใหม่ของ Naive Bayes คือ ขั้นตอน Mอัลกอริทึมนี้ได้รับการพิสูจน์อย่างเป็นทางการโดยสมมติฐานที่ว่าข้อมูลถูกสร้างขึ้นโดยแบบจำลองผสมและส่วนประกอบของแบบจำลองผสมนี้คือคลาสของปัญหาการจำแนกประเภท[ 15 ]

การอภิปราย

แม้ว่าสมมติฐานความเป็นอิสระที่กว้างขวางมักจะไม่ถูกต้อง แต่ตัวจำแนกแบบ Naive Bayes ก็มีคุณสมบัติหลายประการที่ทำให้มีประโยชน์อย่างน่าประหลาดใจในทางปฏิบัติ โดยเฉพาะอย่างยิ่ง การแยกการแจกแจงคุณลักษณะแบบมีเงื่อนไขของคลาส หมายความว่าการแจกแจงแต่ละรายการสามารถประมาณได้อย่างอิสระเป็นการแจกแจงแบบหนึ่งมิติ ซึ่งช่วยบรรเทาปัญหาที่เกิดจาก คำสาปของมิติ เช่น ความต้องการชุดข้อมูลที่ขยายแบบเลขชี้กำลังตามจำนวนคุณลักษณะ แม้ว่า Naive Bayes มักจะล้มเหลวในการสร้างการประมาณที่ดีสำหรับความน่าจะเป็นของคลาสที่ถูกต้อง[ 16 ]แต่นี่อาจไม่ใช่ข้อกำหนดสำหรับแอปพลิเคชันจำนวนมาก ตัวอย่างเช่น ตัวจำแนกแบบ Naive Bayes จะทำการจำแนกกฎการตัดสินใจ MAP ที่ถูกต้องตราบใดที่คลาสที่ถูกต้องถูกทำนายว่ามีความน่าจะเป็นมากกว่าคลาสอื่น ๆ นี่เป็นจริงไม่ว่าการประมาณความน่าจะเป็นจะไม่ถูกต้องเล็กน้อยหรือแม้กระทั่งไม่ถูกต้องอย่างมาก ในลักษณะนี้ ตัวจำแนกโดยรวมสามารถแข็งแกร่งพอที่จะเพิกเฉยต่อข้อบกพร่องร้ายแรงในแบบจำลองความน่าจะเป็นแบบ Naive ที่อยู่เบื้องหลังได้[ 17 ]เหตุผลอื่นๆ สำหรับความสำเร็จที่สังเกตได้ของตัวจำแนกแบบเบย์สแบบง่ายนั้นได้มีการกล่าวถึงในเอกสารอ้างอิงด้านล่าง

ความสัมพันธ์กับการถดถอยโลจิสติกส์

ในกรณีของอินพุตแบบไม่ต่อเนื่อง (ตัวบ่งชี้หรือคุณลักษณะความถี่สำหรับเหตุการณ์แบบไม่ต่อเนื่อง) ตัวจำแนกแบบเบย์แบบง่ายจะสร้าง คู่ แบบสร้าง-จำแนกกับ ตัวจำแนก การถดถอยโลจิสติกแบบหลายตัวเลือก: ตัวจำแนกแบบเบย์แบบง่ายแต่ละตัวสามารถพิจารณาได้ว่าเป็นวิธีในการปรับแบบจำลองความน่าจะเป็นที่ปรับความน่าจะเป็นร่วมให้เหมาะสมที่สุดในขณะที่การถดถอยโลจิสติกจะปรับแบบจำลองความน่าจะเป็นเดียวกันเพื่อปรับเงื่อนไขให้เหมาะสมที่สุด[ 18 ]

กล่าวอย่างเป็นทางการ เรามีดังต่อไปนี้:

ทฤษฎีบทตัวจำแนกแบบ Naive Bayes บนคุณลักษณะแบบไบนารีนั้นอยู่ภายใต้การจำแนกแบบ Logistic Regression

การพิสูจน์

พิจารณาปัญหาการจำแนกประเภทหลายคลาสทั่วไป โดยมีคลาสที่เป็นไปได้n คลาส จากนั้นตัวจำแนกประเภทเบย์ส (ที่ไม่ใช่แบบง่าย) จะให้ผลลัพธ์ตามทฤษฎีบทของเบย์สว่า:

ตัวจำแนกแบบ Naive Bayes ให้ ผลลัพธ์ดังนี้

นี่คือตัวจำแนกประเภทการถดถอยโลจิสติกส์อย่างแท้จริง

ความเชื่อมโยงระหว่างทั้งสองสามารถมองเห็นได้จากการสังเกตว่า ฟังก์ชันการตัดสินใจของ Naive Bayes (ในกรณีไบนารี) สามารถเขียนใหม่ได้เป็น "ทำนายคลาสถ้าโอกาสของมากกว่าโอกาสของ" การแสดงสิ่งนี้ในรูปแบบลอการิทึมจะได้ดังนี้:

ด้านซ้ายของสมการนี้คือค่าลอการิทึมของอัตราต่อรอง หรือlogitซึ่งเป็นปริมาณที่ทำนายโดยแบบจำลองเชิงเส้นที่เป็นพื้นฐานของการถดถอยโลจิสติก เนื่องจากแบบจำลองเบย์แบบง่ายก็เป็นแบบจำลองเชิงเส้นสำหรับแบบจำลองเหตุการณ์ "ไม่ต่อเนื่อง" สองแบบ จึงสามารถกำหนดพารามิเตอร์ใหม่เป็นฟังก์ชันเชิงเส้นได้การหาค่าความน่าจะเป็นจึงเป็นเรื่องของการใช้ฟังก์ชันโลจิสติกกับหรือในกรณีหลายคลาส ใช้ ฟังก์ชัน softmax

ตัวจำแนกแบบแยกแยะมีข้อผิดพลาดเชิงอะซิมโทติกต่ำกว่าตัวจำแนกแบบสร้าง อย่างไรก็ตาม งานวิจัยของNgและJordanแสดงให้เห็นว่าในบางกรณีในทางปฏิบัติ Bayes แบบง่ายอาจมีประสิทธิภาพเหนือกว่าการถดถอยโลจิสติก เนื่องจากสามารถเข้าถึงข้อผิดพลาดเชิงอะซิมโทติกได้เร็วกว่า[ 18 ]

ตัวอย่าง

การจำแนกประเภทบุคคล

ปัญหา: จำแนกว่าบุคคลที่กำหนดเป็นชายหรือหญิงโดยพิจารณาจากลักษณะที่วัดได้ ลักษณะเหล่านั้นได้แก่ ส่วนสูง น้ำหนัก และขนาดเท้า แม้ว่าในตัวจำแนก NB เราจะถือว่าลักษณะเหล่านี้เป็นอิสระต่อกัน แต่ในความเป็นจริงแล้วไม่ใช่เช่นนั้น

การฝึกอบรม

ตัวอย่างชุดข้อมูลฝึกฝนอยู่ด้านล่าง

บุคคลความสูง (ฟุต)น้ำหนัก (ปอนด์)ขนาดเท้า (นิ้ว)
ชาย618012
ชาย5.92 (5'11")19011
ชาย5.58 (5'7")17012
ชาย5.92 (5'11")16510
หญิง51006
หญิง5.5 (5'6")1508
หญิง5.42 (5'5")1307
หญิง5.75 (5'9")1509

ตัวจำแนกประเภทที่สร้างขึ้นจากชุดข้อมูลฝึกฝนโดยใช้สมมติฐานการแจกแจงแบบเกาส์เซียนจะเป็นดังนี้ (โดยกำหนดให้ค่าความแปรปรวนเป็นค่าความแปรปรวนของตัวอย่างที่ไม่เอนเอียง ):

บุคคลค่าเฉลี่ย (ความสูง)ความแปรปรวน (ความสูง)ค่าเฉลี่ย (น้ำหนัก)ความแปรปรวน (น้ำหนัก)ค่าเฉลี่ย (ขนาดเท้า)ความแปรปรวน (ขนาดเท้า)
ชาย5.8553.5033 × 10 −2176.25122.9211.259.1667 × 10 −1
หญิง5.41759.7225 × 10 −2132.5558.337.51.6667

ตัวอย่างต่อไปนี้สมมติว่าแต่ละคลาสมีความน่าจะเป็นเท่ากัน ดังนั้น P(ชาย) = P(หญิง) = 0.5 การแจกแจงความน่าจะเป็น ล่วงหน้านี้ อาจอิงตามความรู้ก่อนหน้าเกี่ยวกับความถี่ในประชากรขนาดใหญ่หรือในชุดข้อมูลฝึกฝน

การทดสอบ

ตัวอย่างด้านล่างนี้ใช้สำหรับจำแนกเพศชายหรือเพศหญิง

บุคคลความสูง (ฟุต)น้ำหนัก (ปอนด์)ขนาดเท้า (นิ้ว)
ตัวอย่าง61308

ในการจำแนกกลุ่มตัวอย่าง ต้องพิจารณาว่าค่าความน่าจะเป็นภายหลัง (posterior) ของเพศชายหรือเพศหญิงมีค่ามากกว่า สำหรับการจำแนกเป็นเพศชาย ค่าความน่าจะเป็นภายหลังจะกำหนดโดย

สำหรับการจำแนกประเภทเป็นเพศหญิง ค่าด้านหลังจะกำหนดโดย

ค่าหลักฐาน (หรือเรียกอีกอย่างว่าค่าคงที่มาตรฐาน ) สามารถคำนวณได้ดังนี้:

อย่างไรก็ตาม เมื่อพิจารณาจากตัวอย่าง หลักฐานจะเป็นค่าคงที่และปรับขนาดค่าหลังทั้งสองอย่างเท่ากัน ดังนั้นจึงไม่ส่งผลต่อการจำแนกประเภทและสามารถละเลยได้ ตอนนี้สามารถกำหนดการ กระจายความน่าจะเป็นสำหรับเพศของตัวอย่างได้แล้ว โดยที่และคือพารามิเตอร์ของการกระจายแบบปกติซึ่งได้กำหนดไว้ก่อนหน้านี้จากชุดข้อมูลฝึกฝน โปรดทราบว่าค่าที่มากกว่า 1 นั้นใช้ได้ในที่นี้ – มันเป็นความหนาแน่นของความน่าจะเป็นมากกว่าความน่าจะเป็น เนื่องจากความสูงเป็นตัวแปรต่อเนื่อง

เนื่องจากตัวเศษของค่าประมาณภายหลังมีค่ามากกว่าในกรณีของเพศหญิง ดังนั้นจึงคาดการณ์ได้ว่ากลุ่มตัวอย่างเป็นเพศหญิง

การจำแนกประเภทเอกสาร

ต่อไปนี้เป็นตัวอย่างการใช้การจำแนกแบบเบย์เซียนแบบง่าย (naive Bayesian classification) กับ ปัญหา การจำแนกเอกสารพิจารณาปัญหาการจำแนกเอกสารตามเนื้อหา เช่นอีเมลสแปม และ อีเมลที่ไม่ใช่สแปมจินตนาการว่าเอกสารถูกดึงมาจากเอกสารหลายคลาส ซึ่งสามารถจำลองได้เป็นเซตของคำ โดยที่ความน่าจะเป็น (อิสระ) ที่คำที่ i ของเอกสารที่กำหนดปรากฏในเอกสารจากคลาสCสามารถเขียนได้ดังนี้

(สำหรับการวิเคราะห์นี้ เราจะลดความซับซ้อนลงโดยสมมติว่าคำต่างๆ กระจายตัวแบบสุ่มในเอกสาร กล่าวคือ คำต่างๆ ไม่ขึ้นอยู่กับความยาวของเอกสาร ตำแหน่งภายในเอกสารที่สัมพันธ์กับคำอื่นๆ หรือบริบทอื่นๆ ของเอกสาร)

ดังนั้น ความน่าจะเป็นที่เอกสารD ที่กำหนด จะมีคำทั้งหมดตามที่กำหนด โดยกำหนดให้คลาสCคือ

คำถามที่ต้องหาคำตอบคือ "ความน่าจะเป็นที่เอกสารD ที่กำหนด ให้เป็นของกลุ่มC ที่กำหนดคือเท่าไร ?" หรืออีกนัยหนึ่งคือ σ คืออะไร?

ตามคำจำกัดความ และ

ทฤษฎีบทของเบย์สจะแปลงสิ่งเหล่านี้ให้กลายเป็นข้อความแสดงความน่าจะเป็นในรูปของ ความน่าจะ เป็น แบบมีเงื่อนไข

สมมติไว้ก่อนว่ามีเพียงสองคลาสที่ไม่ทับซ้อนกัน คือSและ ¬ S (เช่น สแปมและไม่ใช่สแปม) โดยที่ทุกองค์ประกอบ (อีเมล) จะต้องอยู่ในคลาสใดคลาสหนึ่งเท่านั้น และ

จากการใช้ผลลัพธ์แบบเบย์เซียนข้างต้น เราสามารถเขียนได้ดังนี้:

เมื่อหารค่าหนึ่งด้วยอีกค่าหนึ่งจะได้:

ซึ่งสามารถปรับปรุงโครงสร้างใหม่ได้ดังนี้:

ดังนั้น อัตราส่วนความน่าจะเป็น p( S | D ) / p(¬ S | D ) สามารถแสดงได้ในรูปของอัตราส่วนความน่าจะเป็น แบบอนุกรม ความน่าจะเป็นที่แท้จริง p( S | D ) สามารถคำนวณได้ง่ายจาก log (p( S | D ) / p(¬ S | D )) โดยอาศัยการสังเกตว่า p( S | D ) + p(¬ S | D ) = 1

เมื่อนำอัตราส่วนทั้งหมดเหล่านี้ มาหา ค่าลอการิทึม จะได้ว่า:

(เทคนิค " อัตราส่วนความน่าจะเป็นล็อก " นี้เป็นเทคนิคที่ใช้กันทั่วไปในทางสถิติ ในกรณีที่มีทางเลือกสองทางที่ไม่สามารถเกิดขึ้นพร้อมกันได้ (เช่นในตัวอย่างนี้) การแปลงอัตราส่วนความน่าจะเป็นล็อกเป็นความน่าจะเป็นจะอยู่ในรูปของเส้นโค้งซิกมอยด์ : ดู รายละเอียดเพิ่มเติมได้ ที่ logit )

สุดท้ายนี้ เอกสารสามารถจำแนกได้ดังนี้ ถ้า(เช่น) ถือว่าเป็นสแปม แต่ถ้าไม่ใช่สแปม ก็จะไม่ใช่สแปม

การกรองสแปม

ตัวจำแนกแบบ Naive Bayes เป็น เทคนิค ทางสถิติ ที่นิยมใช้ ในการกรองอีเมลโดยทั่วไปจะใช้คุณลักษณะแบบBag-of-words เพื่อระบุ อีเมลสแปมซึ่งเป็นวิธีการที่ใช้กันทั่วไปในการจำแนกประเภทข้อความตัวจำแนกแบบ Naive Bayes ทำงานโดยการเชื่อมโยงการใช้โทเค็น (โดยทั่วไปคือคำ หรือบางครั้งอาจเป็นสิ่งอื่น ๆ) กับอีเมลสแปมและอีเมลที่ไม่ใช่สแปม จากนั้นใช้ทฤษฎีบทของ Bayesเพื่อคำนวณความน่าจะเป็นที่อีเมลนั้นเป็นสแปมหรือไม่เป็นสแปม

การกรองสแปมแบบ Naive Bayesเป็นเทคนิคพื้นฐานในการจัดการกับสแปมที่สามารถปรับแต่งให้เข้ากับความต้องการอีเมลของผู้ใช้แต่ละราย และให้ ผลลัพธ์การตรวจจับสแปม ผิดพลาด ต่ำ ซึ่งโดยทั่วไปแล้วผู้ใช้ยอมรับได้ อัลกอริทึมแบบ Bayesian ถูกนำมาใช้ในการกรองอีเมลตั้งแต่ปี 1996 แม้ว่าตัวกรองแบบ Naive Bayesian จะไม่ได้รับความนิยมจนกระทั่งภายหลัง แต่ก็มีโปรแกรมหลายโปรแกรมถูกปล่อยออกมาในปี 1998 เพื่อแก้ไขปัญหาอีเมลที่ไม่พึงประสงค์ที่เพิ่มขึ้น[ 19 ] สิ่งพิมพ์ทางวิชาการฉบับแรกที่ใช้ตัวจำแนกแบบ Naive Bayes สำหรับการกรองสแปมคือโดย Sahami et al. ในปี 1998 [ 20 ]

รูปแบบต่างๆ ของเทคนิคพื้นฐานได้รับการนำไปใช้ในงานวิจัยและผลิตภัณฑ์ซอฟต์แวร์ เชิงพาณิชย์จำนวนมาก [ 21 ]ไคลเอนต์อีเมลสมัยใหม่จำนวนมากใช้การกรองสแปมแบบเบย์เซียน ผู้ใช้ยังสามารถติดตั้งโปรแกรมกรองอีเมล แยกต่างหากได้อีก ด้วย ตัวกรองอีเมล ฝั่งเซิร์ฟเวอร์เช่นDSPAM , Rspamd , [ 22 ] SpamAssassin , [ 23 ] SpamBayes , [ 24 ] BogofilterและASSPใช้เทคนิคการกรองสแปมแบบเบย์เซียน และบางครั้งฟังก์ชันการทำงานก็ถูกฝังอยู่ใน ซอฟต์แวร์ เซิร์ฟเวอร์อีเมลเองCRM114ซึ่งมักถูกอ้างถึงว่าเป็นตัวกรองแบบเบย์เซียน ไม่ได้มีจุดประสงค์เพื่อใช้ตัวกรองแบบเบย์เซียนในการใช้งานจริง แต่รวมคุณสมบัติ "unigram" ไว้เพื่อเป็นข้อมูลอ้างอิง[ 25 ]

การจัดการกับคำศัพท์หายาก

ในกรณีที่คำศัพท์นั้นไม่เคยถูกพบเห็นมาก่อนในระหว่างขั้นตอนการเรียนรู้ ทั้งตัวเศษและตัวส่วนจะมีค่าเท่ากับศูนย์ ทั้งในสูตรทั่วไปและในสูตรความซ้ำซ้อน ซอฟต์แวร์อาจตัดสินใจที่จะละทิ้งคำศัพท์ที่ไม่มีข้อมูลดังกล่าว

โดยทั่วไปแล้ว คำศัพท์ที่พบเจอเพียงไม่กี่ครั้งในระหว่างขั้นตอนการเรียนรู้ก่อให้เกิดปัญหา เพราะการเชื่อถือข้อมูลจากคำเหล่านั้นโดยไม่ไตร่ตรองถือเป็นความผิดพลาด วิธีแก้ปัญหาที่ง่ายที่สุดคือ การหลีกเลี่ยงการนำคำศัพท์ที่ไม่น่าเชื่อถือเหล่านั้นมาพิจารณาด้วยเช่นกัน

เมื่อนำทฤษฎีบทของเบย์สมาประยุกต์ใช้อีกครั้ง และสมมติว่าการจำแนกอีเมลที่มีคำว่า "replica" เป็นสแปมหรืออีเมลปกติ เป็นตัวแปรสุ่มที่มีการแจกแจงแบบเบต้าโปรแกรมบางโปรแกรมจึงตัดสินใจใช้ความน่าจะเป็นที่แก้ไขแล้ว:

ที่ไหน:

  • คือค่าความน่าจะเป็นที่ปรับแก้แล้วสำหรับข้อความที่จะเป็นสแปม โดยทราบว่าข้อความนั้นมีคำที่กำหนดอยู่
  • คือจุดแข็งที่เรามอบให้แก่ข้อมูลพื้นฐานเกี่ยวกับสแปมที่เข้ามา
  • คือความน่าจะเป็นที่ข้อความขาเข้าใดๆ จะเป็นสแปม
  • คือจำนวนครั้งที่คำนี้ปรากฏขึ้นในระหว่างขั้นตอนการเรียนรู้ ;
  • คือความเป็นช่องว่างของคำนี้

(การสาธิต: [ 26 ] )

ค่าความน่าจะเป็นที่แก้ไขแล้วจะถูกนำมาใช้แทนค่า spamicity ในสูตรการรวม

สูตรนี้สามารถขยายไปใช้กับกรณีที่nเท่ากับศูนย์ (และในกรณีที่ไม่ได้กำหนด spamicity) และในกรณีนี้จะได้ค่าเป็น.

หลักการวิเคราะห์เชิงอนุมานอื่นๆ

คำที่มีความหมาย "เป็นกลาง" เช่น "the", "a", "some" หรือ "is" (ในภาษาอังกฤษ) หรือคำที่มีความหมายเทียบเท่าในภาษาอื่นๆ สามารถละเว้นได้ คำเหล่านี้เรียกอีกอย่างว่าคำหยุด (Stop words ) โดยทั่วไปแล้ว ตัวกรองแบบเบย์เซียนบางตัวจะละเว้นคำทั้งหมดที่มีค่าความเป็นสแปมใกล้เคียงกับ 0.5 เนื่องจากคำเหล่านั้นมีส่วนช่วยในการตัดสินใจน้อย คำที่นำมาพิจารณาคือคำที่มีค่าความเป็นสแปมใกล้เคียงกับ 0.0 (ซึ่งเป็นสัญญาณบ่งชี้ข้อความที่ถูกต้อง) หรือใกล้เคียงกับ 1.0 (ซึ่งเป็นสัญญาณบ่งชี้สแปม) ตัวอย่างเช่น วิธีการหนึ่งคือการเก็บเฉพาะคำสิบคำในข้อความที่ตรวจสอบ ซึ่งมีค่าสัมบูรณ์ มากที่สุดคือ  |0.5 −  pI |

ผลิตภัณฑ์ซอฟต์แวร์บางตัวคำนึงถึงข้อเท็จจริงที่ว่าคำที่กำหนดปรากฏหลายครั้งในข้อความที่ตรวจสอบ[ 27 ]ในขณะที่บางตัวไม่คำนึงถึง

ผลิตภัณฑ์ซอฟต์แวร์บางตัวใช้รูปแบบ (ลำดับของคำ) แทนคำภาษาธรรมชาติที่แยกเดี่ยว[ 28 ]ตัวอย่างเช่น ด้วย "หน้าต่างบริบท" สี่คำ พวกเขาจะคำนวณค่า spamicity ของ "Viagra ดีสำหรับ" แทนที่จะคำนวณค่า spamicity ของ "Viagra", "is", "good" และ "for" วิธีนี้ให้ความไวต่อบริบทมากขึ้นและกำจัดสัญญาณรบกวนแบบ Bayesian ได้ดีกว่า โดยแลกกับฐานข้อมูลที่ใหญ่ขึ้น

ข้อเสีย

ขึ้นอยู่กับการใช้งาน การกรองสแปมแบบเบย์เซียนอาจมีความเสี่ยงต่อการโจมตีแบบเบย์เซียน (Bayesian poisoning ) ซึ่งเป็นเทคนิคที่ผู้ส่งสแปมใช้เพื่อลดประสิทธิภาพของตัวกรองสแปมที่อาศัยการกรองแบบเบย์เซียน ผู้ส่งสแปมที่ใช้เทคนิคนี้จะส่งอีเมลที่มีข้อความที่ถูกต้องจำนวนมาก (รวบรวมจากแหล่งข่าวหรือวรรณกรรมที่น่าเชื่อถือ) กลยุทธ์ ของผู้ส่งสแปมรวมถึงการแทรกคำที่ไม่เป็นอันตรายแบบสุ่มซึ่งโดยปกติไม่ได้เกี่ยวข้องกับสแปม ทำให้คะแนนสแปมของอีเมลลดลง ทำให้มีโอกาสหลุดรอดตัวกรองสแปมแบบเบย์เซียนได้มากขึ้น อย่างไรก็ตาม ในแผนการของ (ตัวอย่างเช่น) Paul Grahamจะใช้เฉพาะความน่าจะเป็นที่สำคัญที่สุดเท่านั้น ดังนั้นการเพิ่มคำที่ไม่เกี่ยวข้องกับสแปมลงในข้อความจึงไม่ส่งผลกระทบต่อความน่าจะเป็นในการตรวจจับอย่างมีนัยสำคัญ

คำที่ปกติปรากฏเป็นจำนวนมากในสแปมอาจถูกแปลงโดยผู้ส่งสแปม ตัวอย่างเช่น «Viagra» จะถูกแทนที่ด้วย «Viaagra» หรือ «V!agra» ในข้อความสแปม ผู้รับข้อความยังคงสามารถอ่านคำที่เปลี่ยนแปลงได้ แต่แต่ละคำเหล่านี้จะพบได้ยากขึ้นในตัวกรองแบบเบย์เซียน ซึ่งขัดขวางกระบวนการเรียนรู้ โดยทั่วไปแล้ว เทคนิคการส่งสแปมนี้ไม่ได้ผลดีนัก เพราะคำที่ได้มาจะถูกตัวกรองจดจำได้เช่นเดียวกับคำปกติ[ 29 ]

เทคนิคอีกอย่างที่ใช้เพื่อพยายามเอาชนะตัวกรองสแปมแบบเบย์เซียนคือการแทนที่ข้อความด้วยรูปภาพ ไม่ว่าจะรวมไว้โดยตรงหรือเป็นลิงก์ ข้อความทั้งหมดของข้อความหรือบางส่วนจะถูกแทนที่ด้วยรูปภาพที่ "วาด" ข้อความเดียวกัน ตัวกรองสแปมมักจะไม่สามารถวิเคราะห์รูปภาพนี้ได้ ซึ่งอาจมีคำที่ละเอียดอ่อน เช่น «Viagra» อย่างไรก็ตาม เนื่องจากโปรแกรมอีเมลหลายโปรแกรมปิดการแสดงรูปภาพที่เป็นลิงก์ด้วยเหตุผลด้านความปลอดภัย ผู้ส่งสแปมที่ส่งลิงก์ไปยังรูปภาพที่อยู่ไกลอาจเข้าถึงเป้าหมายได้น้อยลง นอกจากนี้ ขนาดของรูปภาพในหน่วยไบต์มีขนาดใหญ่กว่าขนาดของข้อความที่เทียบเท่ากัน ดังนั้นผู้ส่งสแปมจึงต้องการแบนด์วิดท์มากขึ้นในการส่งข้อความโดยตรงที่มีรูปภาพ ตัวกรองบางตัวมีแนวโน้มที่จะตัดสินว่าข้อความนั้นเป็นสแปมหากมีเนื้อหากราฟิกเป็นส่วนใหญ่ วิธีแก้ปัญหาที่Google ใช้ ใน ระบบอีเมล GmailคือการทำOCR (Optical Character Recognition)กับรูปภาพขนาดกลางถึงขนาดใหญ่ทุกรูป โดยวิเคราะห์ข้อความภายใน[ 30 ] [ 31 ]

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • Domingos, Pedro; Pazzani, Michael (1997). "เกี่ยวกับความเหมาะสมที่สุดของตัวจำแนกแบบเบย์เซียนอย่างง่ายภายใต้การสูญเสียศูนย์หนึ่ง"การ เรียนรู้ ของเครื่อง 29 (2/3): 103– 137. doi : 10.1023/A:1007413511361 .
  • Webb, GI; Boughton, J.; Wang, Z. (2005). "ไม่ใช่เบย์สที่ไร้เดียงสา: การรวมตัวประมาณค่าการพึ่งพาหนึ่งเดียว"การ เรียนรู้ ของเครื่อง58 (1): 5– 24. doi : 10.1007/s10994-005-4258-6 .
  • Mozina, M.; Demsar, J.; Kattan, M.; Zupan, B. (2004). โนโมแกรมสำหรับการแสดงภาพตัวจำแนกแบบเบย์เซียนอย่างง่าย (PDF) . Proc. PKDD-2004. หน้า  337–348 . เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2023-11-29 . สืบค้นเมื่อ2014-04-01 .
  • Maron, ME (1961). "การจัดทำดัชนีอัตโนมัติ: การสอบสวนเชิงทดลอง". วารสารของ ACM . 8 (3): 404– 417. doi : 10.1145/321075.321084 . hdl : 2027/uva.x030748531 . S2CID  6692916 .
  • Minsky, M. (1961). ขั้นตอนสู่ปัญญาประดิษฐ์ . Proc. IRE. Vol. 49. pp.  8– 30.
  • บทในหนังสือ: การจำแนกประเภทข้อความด้วยวิธี Naive Bayes, บทนำสู่การค้นหาข้อมูล
  • เบย์สแบบง่ายสำหรับการจำแนกประเภทข้อความที่มีคลาสไม่สมดุล
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Naive_Bayes_classifier&oldid=1361005901#Spam_filtering "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ตัวจำแนกแบบ Naive Bayes

ในทาง สถิติ ตัวจำแนกแบบเบย์ แบบง่าย (บางครั้งเรียกว่า แบบง่าย หรือ แบบโง่ ) เป็นกลุ่มของ " ตัวจำแนกแบบความน่าจะเป็น " ซึ่งถือว่า คุณลักษณะต่างๆ เป็น อิสระต่อกันโดยมีเงื่อนไข...

การแนะนำ

Naive Bayes เป็นเทคนิคที่เรียบง่ายสำหรับการสร้างตัวจำแนกประเภท: แบบจำลองที่กำหนดป้ายกำกับคลาสให้กับตัวอย่างปัญหา ซึ่งแสดงเป็นเวกเตอร์ของ ค่า คุณลักษณะ โดยที่ป้ายกำกับคลาสถูกสุ่มมาจาก เซตจำกัด บางเซต ไม่มี อัลกอริทึม เดียว สำหรับการฝึกตัวจำแนกประเภทนี้...

แบบจำลองความน่าจะเป็น

โดยสรุปแล้ว Naive Bayes เป็น แบบ จำลองความน่าจะเป็นแบบมีเงื่อนไข : มันกำหนดความน่าจะเป็น สำหรับ ผลลัพธ์หรือ คลาส ที่เป็นไปได้ K รายการแต่ละรายการโดยพิจารณาจากอินสแตนซ์ปัญหาที่จะจำแนกประเภท ซึ่งแสดงด้วยเวกเตอร์ที่เข้ารหัส คุณลักษณะ n รายการ (ตัวแปรอิสระ) [ 7 ]...

การสร้างตัวจำแนกจากแบบจำลองความน่าจะเป็น

การอภิปรายที่ผ่านมาได้นำไปสู่แบบจำลองคุณลักษณะอิสระ นั่นคือ แบบจำลองความน่าจะเป็นแบบเบย์สแบบง่าย (naive Bayes probability model ) ตัวจำแนกแบบ เบย์สแบบง่ายจะรวมแบบจำลองนี้เข้ากับ กฎการตัดสินใจ...