อ่าน 21 นาที
ตัวจำแนกแบบ Naive Bayes
ในทาง สถิติ ตัวจำแนกแบบเบย์ แบบง่าย (บางครั้งเรียกว่า แบบง่าย หรือ แบบโง่ ) เป็นกลุ่มของ " ตัวจำแนกแบบความน่าจะเป็น " ซึ่งถือว่า คุณลักษณะต่างๆ เป็น อิสระต่อกันโดยมีเงื่อนไข...
ตัวจำแนกแบบ Naive Bayes

ในทางสถิติตัวจำแนกแบบเบย์แบบง่าย (บางครั้งเรียกว่าแบบง่ายหรือแบบโง่ ) เป็นกลุ่มของ " ตัวจำแนกแบบความน่าจะเป็น " ซึ่งถือว่าคุณลักษณะต่างๆเป็นอิสระต่อกันโดยมีเงื่อนไขโดยพิจารณาจากคลาสเป้าหมาย[ 1 ]กล่าวอีกนัยหนึ่ง โมเดลเบย์แบบง่ายถือว่าข้อมูลเกี่ยวกับคลาสที่ได้จากแต่ละตัวแปรนั้นไม่เกี่ยวข้องกับข้อมูลจากตัวแปรอื่นๆ โดยไม่มีข้อมูลใดๆ ที่ใช้ร่วมกันระหว่างตัวทำนาย ลักษณะที่ไม่สมจริงอย่างมากของสมมติฐานนี้ เรียกว่าสมมติฐานความเป็นอิสระแบบง่าย ซึ่งเป็นที่มาของชื่อตัวจำแนกนี้ ตัวจำแนกเหล่านี้เป็น โมเดลเครือข่ายเบย์ที่ง่ายที่สุดบางส่วน[ 2 ]
โดย ทั่วไปแล้ว ตัวจำแนกแบบ Naive Bayes ทำงานได้แย่กว่าโมเดลขั้นสูงกว่า เช่นการถดถอยโลจิสติกโดยเฉพาะอย่างยิ่งใน การ วัดปริมาณความไม่แน่นอน (โมเดล Naive Bayes มักจะสร้างความน่าจะเป็นที่มั่นใจเกินไปอย่างมาก) อย่างไรก็ตาม โมเดลเหล่านี้ปรับขนาดได้สูง โดยต้องการเพียงพารามิเตอร์เดียวสำหรับแต่ละคุณลักษณะหรือตัวทำนายในปัญหาการเรียนรู้ การฝึกอบรม ความน่าจะเป็นสูงสุดสามารถทำได้โดยการประเมินนิพจน์แบบปิด (เพียงแค่การนับการสังเกตในแต่ละกลุ่ม) [ 3 ] : 718 แทนที่จะ ใช้อั ลกอริธึมการประมาณค่าแบบวนซ้ำที่ มีราคาแพง ซึ่งจำเป็นสำหรับโมเดลอื่นๆ ส่วนใหญ่
แม้ว่าจะมีการใช้ทฤษฎีบทของเบย์สในกฎการตัดสินใจของตัวจำแนก แต่เบย์สแบบง่ายก็ไม่ใช่ (จำเป็นต้อง) วิธีการแบบเบย์ เซียนและแบบจำลองเบย์สแบบง่ายสามารถปรับให้เข้ากับข้อมูลโดยใช้วิธีการแบบเบย์เซียนหรือแบบความถี่ ก็ได้ [ 1 ] [ 3 ]
การแนะนำ
Naive Bayes เป็นเทคนิคที่เรียบง่ายสำหรับการสร้างตัวจำแนกประเภท: แบบจำลองที่กำหนดป้ายกำกับคลาสให้กับตัวอย่างปัญหา ซึ่งแสดงเป็นเวกเตอร์ของ ค่า คุณลักษณะโดยที่ป้ายกำกับคลาสถูกสุ่มมาจากเซตจำกัด บางเซต ไม่มีอัลกอริทึม เดียว สำหรับการฝึกตัวจำแนกประเภทนี้ แต่เป็นตระกูลของอัลกอริทึมที่อิงตามหลักการทั่วไป: ตัวจำแนกประเภท Naive Bayes ทั้งหมดถือว่าค่าของคุณลักษณะเฉพาะนั้นเป็นอิสระจากค่าของคุณลักษณะอื่น ๆ เมื่อกำหนดตัวแปรคลาสแล้ว ตัวอย่างเช่น ผลไม้ชนิดหนึ่งอาจถูกพิจารณาว่าเป็นแอปเปิลหากมีสีแดง กลม และมีเส้นผ่านศูนย์กลางประมาณ 10 เซนติเมตร ตัวจำแนกประเภท Naive Bayes จะพิจารณาว่าคุณลักษณะแต่ละอย่างมีส่วนร่วมอย่างอิสระต่อความน่าจะเป็นที่ผลไม้นี้เป็นแอปเปิล โดยไม่คำนึงถึงความสัมพันธ์ ใด ๆ ที่อาจเกิดขึ้น ระหว่างคุณลักษณะสี ความกลม และเส้นผ่านศูนย์กลาง
ในการใช้งานจริงหลายๆ กรณี การประมาณค่าพารามิเตอร์สำหรับแบบจำลองเบย์แบบง่ายจะใช้ระเบียบวิธีความน่าจะเป็นสูงสุดกล่าวคือ เราสามารถทำงานกับแบบจำลองเบย์แบบง่ายได้โดยไม่ต้องยอมรับความน่าจะเป็นแบบเบย์หรือใช้วิธีการแบบเบย์ใดๆ
แม้ว่าการออกแบบจะดูเรียบง่ายและสมมติฐานที่ดูเหมือนจะง่ายเกินไป แต่ตัวจำแนกแบบเบย์สแบบง่ายก็ทำงานได้ดีในสถานการณ์จริงที่ซับซ้อนหลายอย่าง ในปี 2547 การวิเคราะห์ปัญหาการจำแนกแบบเบย์เซียนแสดงให้เห็นว่ามีเหตุผลทางทฤษฎีที่สมเหตุสมผลสำหรับประสิทธิภาพ ที่ดูเหมือนไม่น่าเชื่อ ของตัวจำแนกแบบเบย์สแบบง่าย[ 4 ]อย่างไรก็ตาม การเปรียบเทียบอย่างครอบคลุมกับอัลกอริธึมการจำแนกประเภทอื่นๆ ในปี 2549 แสดงให้เห็นว่าการจำแนกแบบเบย์สมีประสิทธิภาพด้อยกว่าวิธีการอื่นๆ เช่นต้นไม้บูสต์หรือป่าสุ่ม[ 5 ]
ข้อดีของ Naive Bayes คือต้องการข้อมูลฝึกฝนเพียงเล็กน้อยเพื่อประมาณค่าพารามิเตอร์ที่จำเป็นสำหรับการจำแนกประเภท[ 6 ]
แบบจำลองความน่าจะเป็น
โดยสรุปแล้ว Naive Bayes เป็น แบบ จำลองความน่าจะเป็นแบบมีเงื่อนไข : มันกำหนดความน่าจะเป็น สำหรับ ผลลัพธ์หรือคลาส ที่เป็นไปได้ Kรายการแต่ละรายการโดยพิจารณาจากอินสแตนซ์ปัญหาที่จะจำแนกประเภท ซึ่งแสดงด้วยเวกเตอร์ที่เข้ารหัส คุณลักษณะ nรายการ (ตัวแปรอิสระ) [ 7 ]
ปัญหาของการกำหนดสูตรข้างต้นคือ หากจำนวนคุณลักษณะnมีมาก หรือหากคุณลักษณะหนึ่งสามารถมีค่าได้หลายค่า การสร้างแบบจำลองดังกล่าวโดยใช้ตารางความน่าจะเป็น นั้น เป็นไปไม่ได้ ดังนั้นจึงต้องปรับปรุงแบบจำลองใหม่เพื่อให้สามารถจัดการได้ง่ายขึ้น โดยใช้ทฤษฎีบทของเบย์สความน่าจะเป็นแบบมีเงื่อนไขสามารถแยกย่อยได้ดังนี้:
กล่าวโดยง่าย โดยใช้ ศัพท์ทาง ความน่าจะเป็นแบบเบย์เซียนสมการข้างต้นสามารถเขียนได้ดังนี้
ในทางปฏิบัติ เราสนใจเฉพาะตัวเศษของเศษส่วนนั้นเท่านั้น เพราะตัวส่วนไม่ขึ้นอยู่กับและค่าของคุณลักษณะต่างๆ นั้นกำหนดไว้แล้ว ดังนั้นตัวส่วนจึงมีค่าคงที่ ตัวเศษเทียบเท่ากับแบบจำลอง ความน่าจะเป็นร่วม ซึ่งสามารถเขียนใหม่ได้ดังนี้ โดยใช้กฎลูกโซ่สำหรับการประยุกต์ใช้นิยามของความน่าจะเป็นแบบมีเงื่อนไข ซ้ำๆ :
ทีนี้สมมติฐาน ความเป็นอิสระแบบมีเงื่อนไข "แบบง่ายๆ" ก็เข้ามามีบทบาท: สมมติว่าคุณลักษณะทั้งหมดใน นั้นเป็นอิสระต่อกันโดยมีเงื่อนไขขึ้นอยู่กับหมวดหมู่ภายใต้สมมติฐานนี้
ดังนั้น แบบจำลองร่วมสามารถแสดงได้ดังนี้ โดย ที่แสดงถึงสัดส่วนเนื่องจากตัวส่วนถูกละเว้น
นี่หมายความว่าภายใต้สมมติฐานความเป็นอิสระข้างต้น การแจกแจงแบบมีเงื่อนไขเหนือตัวแปรคลาสจะเป็นดังนี้: โดยที่หลักฐานเป็นปัจจัยการปรับขนาดที่ขึ้นอยู่กับเท่านั้นนั่นคือค่าคงที่หากทราบค่าของตัวแปรคุณลักษณะ
บ่อยครั้ง จำเป็นเพียงแค่การแยกแยะระหว่างคลาส ในกรณีนั้น ตัวประกอบการปรับขนาดจะไม่เกี่ยวข้อง และเพียงพอที่จะคำนวณค่าลอการิทึมของความน่าจะเป็นจนถึงตัวประกอบ: ตัวประกอบการปรับขนาดไม่เกี่ยวข้อง เนื่องจากความแตกต่างจะหักลบมันออกไป: การใช้ค่าลอการิทึมของความน่าจะเป็นมีประโยชน์สองประการ ประการแรกคือ ช่วยให้สามารถตีความได้ในทฤษฎีสารสนเทศ โดยที่ค่าลอการิทึมของความน่าจะเป็นเป็นหน่วยของสารสนเทศในnatsประการที่สองคือ ช่วยหลีกเลี่ยงปัญหาการคำนวณค่าต่ำกว่าขีดจำกัด (arithmetic underflow )
การสร้างตัวจำแนกจากแบบจำลองความน่าจะเป็น
การอภิปรายที่ผ่านมาได้นำไปสู่แบบจำลองคุณลักษณะอิสระ นั่นคือแบบจำลองความน่าจะเป็นแบบเบย์สแบบง่าย (naive Bayes probability model ) ตัวจำแนกแบบเบย์สแบบง่ายจะรวมแบบจำลองนี้เข้ากับกฎการตัดสินใจกฎทั่วไปข้อหนึ่งคือการเลือกสมมติฐานที่มีความน่าจะเป็นมากที่สุดเพื่อลดความน่าจะเป็นของการจำแนกผิดพลาดให้น้อยที่สุด ซึ่งเรียกว่า กฎการตัดสินใจแบบความน่าจะ เป็นสูงสุดภายหลัง (maximum a posterioriหรือMAP ) ตัวจำแนกที่เกี่ยวข้อง ซึ่งก็คือตัวจำแนกแบบเบย์ส (Bayes classifier ) คือฟังก์ชันที่กำหนดป้ายกำกับคลาส ให้กับค่า kบางค่า ดังนี้:

การประมาณค่าพารามิเตอร์และแบบจำลองเหตุการณ์
อาจคำนวณค่าความน่าจะเป็นก่อนหน้าของคลาสได้โดยการสมมติว่าคลาสมีความน่าจะเป็นเท่ากัน กล่าวคือหรือโดยการคำนวณค่าประมาณความน่าจะเป็นของคลาสจากชุดข้อมูลฝึกฝน: ในการประมาณค่าพารามิเตอร์สำหรับการกระจายของคุณลักษณะ จะต้องสมมติการกระจายหรือสร้าง แบบจำลอง ที่ไม่ใช่พารามิเตอร์สำหรับคุณลักษณะจากชุดข้อมูลฝึกฝน[ 8 ]
ข้อสมมติเกี่ยวกับการกระจายของคุณลักษณะเรียกว่า "แบบจำลองเหตุการณ์" ของตัวจำแนกแบบเบย์แบบง่าย สำหรับคุณลักษณะแบบไม่ต่อเนื่อง เช่น คุณลักษณะที่พบในการจำแนกเอกสาร (รวมถึงการกรองสแปม) การกระจายแบบ มัลติโนเมียลและเบอร์นูลลีเป็นที่นิยม ข้อสมมติเหล่านี้ทำให้เกิดแบบจำลองที่แตกต่างกันสองแบบ ซึ่งมักจะสับสนกัน[ 9 ] [ 10 ]
เบย์สแบบเกาส์เซียน
เมื่อจัดการกับข้อมูลต่อเนื่อง โดยทั่วไปจะถือว่าค่าต่อเนื่องที่เกี่ยวข้องกับแต่ละคลาสมีการกระจายตาม การแจกแจง แบบปกติ (หรือแบบเกาส์เซียน) ตัวอย่างเช่น สมมติว่าข้อมูลฝึกฝนมีคุณลักษณะต่อเนื่องข้อมูลจะถูกแบ่งตามคลาสก่อน จากนั้นจึงคำนวณค่าเฉลี่ยและความแปรปรวนของในแต่ละคลาส ให้เป็นค่าเฉลี่ยของค่า ในที่เกี่ยวข้องกับคลาสและให้เป็นความแปรปรวนที่แก้ไขด้วยเบสเซลของค่า ในที่เกี่ยวข้องกับคลาสสมมติว่าเราได้รวบรวมค่าสังเกตบางค่าแล้วความหนาแน่น ของความน่าจะเป็น ของเมื่อกำหนดคลาสเช่นสามารถคำนวณได้โดยการแทนค่า ลงในสมการสำหรับการแจกแจงแบบปกติที่กำหนดพารามิเตอร์โดยและในทางคณิตศาสตร์
เทคนิคทั่วไปอีกอย่างหนึ่งสำหรับการจัดการค่าต่อเนื่องคือการใช้การแบ่งกลุ่มเพื่อ แยกค่าคุณลักษณะ ออกเป็น ค่าไม่ต่อเนื่อง และรับชุดคุณลักษณะใหม่ที่มีการแจกแจงแบบเบอร์นูลลี เอกสารบางฉบับแนะนำว่าจำเป็นต้องใช้วิธีนี้เพื่อใช้เบย์แบบง่าย แต่ไม่เป็นความจริง เนื่องจากการแยกค่าไม่ต่อเนื่องอาจทำให้ข้อมูลการจำแนกหายไป[ 1 ]
บางครั้งการกระจายของความหนาแน่นขอบตามเงื่อนไขของคลาสอาจห่างไกลจากแบบปกติ ในกรณีเหล่านี้สามารถใช้การประมาณความหนาแน่นเคอร์เนล เพื่อประมาณความหนาแน่นขอบของแต่ละคลาสได้อย่างสมจริงมากขึ้น วิธีนี้ซึ่งนำเสนอโดย John และ Langley [ 8 ]สามารถเพิ่มความแม่นยำของตัวจำแนกได้อย่างมาก[ 11 ] [ 12 ]
เบย์สแบบง่ายหลายตัวเลือก
ด้วยแบบจำลองเหตุการณ์แบบพหุนาม ตัวอย่าง (เวกเตอร์คุณลักษณะ) แสดงถึงความถี่ที่เหตุการณ์บางอย่างถูกสร้างขึ้นโดยพหุนาม โดยที่คือความน่าจะเป็นที่เหตุการณ์iเกิดขึ้น (หรือ พหุนาม Kดังกล่าวในกรณีหลายคลาส) เวกเตอร์คุณลักษณะจึงเป็นฮิสโตแกรมโดยที่นับจำนวนครั้งที่สังเกตเห็นเหตุการณ์iในอินสแตนซ์เฉพาะ นี่คือแบบจำลองเหตุการณ์ที่ใช้โดยทั่วไปสำหรับการจำแนกเอกสาร โดยเหตุการณ์แสดงถึงการเกิดขึ้นของคำในเอกสารเดียว (ดู สมมติฐาน ถุงคำ ) [ 13 ]ความน่าจะเป็นของการสังเกตฮิสโตแกรมxกำหนดโดย: โดยที่
ตัวจำแนกเบย์สแบบง่ายหลายตัวแปรจะกลายเป็นตัวจำแนกเชิงเส้นเมื่อแสดงในพื้นที่ลอการิทึม: [ 14 ] โดยที่และการประมาณค่าพารามิเตอร์ในพื้นที่ลอการิทึมมีข้อดีเนื่องจากการคูณค่าเล็กๆ จำนวนมากอาจนำไปสู่ข้อผิดพลาดในการปัดเศษอย่างมีนัยสำคัญ การใช้การแปลงลอการิทึมจะช่วยลดผลกระทบของข้อผิดพลาดในการปัดเศษนี้
หากคลาสและค่าคุณลักษณะที่กำหนดไม่เคยปรากฏร่วมกันในข้อมูลฝึกฝน ค่าประมาณความน่าจะเป็นตามความถี่จะเป็นศูนย์ เนื่องจากค่าประมาณความน่าจะเป็นเป็นสัดส่วนโดยตรงกับจำนวนครั้งที่ค่าคุณลักษณะนั้นปรากฏ ซึ่งเป็นปัญหาเพราะจะทำให้ข้อมูลทั้งหมดในความน่าจะเป็นอื่นๆ หายไปเมื่อนำมาคูณกัน ดังนั้นจึงมักเป็นที่ต้องการที่จะรวมการแก้ไขสำหรับตัวอย่างขนาดเล็กที่เรียกว่าpseudocount ไว้ ในค่าประมาณความน่าจะเป็นทั้งหมด เพื่อไม่ให้ความน่าจะเป็นใดๆ เป็นศูนย์อย่างแน่นอน วิธีการปรับค่าความสม่ำเสมอของ Naive Bayes แบบนี้เรียกว่าLaplace smoothingเมื่อ pseudocount เท่ากับหนึ่ง และLidstone smoothingในกรณีทั่วไป
Rennie และคณะหารือเกี่ยวกับปัญหาของสมมติฐานพหุนามในบริบทของการจำแนกเอกสารและวิธีที่เป็นไปได้ในการบรรเทาปัญหาเหล่านั้น รวมถึงการใช้ ค่าน้ำหนัก tf–idfแทนความถี่ของคำดิบและการทำให้ความยาวเอกสารเป็นมาตรฐาน เพื่อสร้างตัวจำแนกแบบเบย์แบบง่ายที่สามารถแข่งขันกับเครื่องเวกเตอร์สนับสนุนได้[ 14 ]
เบอร์นูลลี เนฟ เบย์ส
ในแบบจำลองเหตุการณ์เบอร์นูลลี แบบหลายตัวแปร คุณลักษณะต่างๆ เป็น ตัวแปรบูลีนอิสระ ( ตัวแปรไบนารี ) ที่อธิบายอินพุต เช่นเดียวกับแบบจำลองพหุนาม แบบจำลองนี้เป็นที่นิยมสำหรับงานจำแนกเอกสาร[ 9 ]โดยใช้คุณลักษณะการเกิดขึ้นของคำแบบไบนารีแทนความถี่ของคำ หากเป็นบูลีนที่แสดงถึงการเกิดขึ้นหรือไม่เกิดขึ้นของ คำที่ iจากคำศัพท์ ความน่าจะเป็นของเอกสารที่กำหนดคลาสจะกำหนดโดย: [ 9 ] โดยที่คือความน่าจะเป็นของคลาสที่สร้างคำ แบบจำลองเหตุการณ์นี้เป็นที่นิยมเป็นพิเศษสำหรับการจำแนกข้อความสั้นๆ มีข้อดีคือสามารถจำลองการไม่มีอยู่ของคำได้อย่างชัดเจน โปรดทราบว่าตัวจำแนกแบบเบย์แบบง่ายที่มีแบบจำลองเหตุการณ์เบอร์นูลลีไม่เหมือนกับตัวจำแนกแบบเบย์แบบพหุนามที่มีการนับความถี่ที่ถูกตัดเหลือหนึ่ง
การประมาณค่าพารามิเตอร์แบบกึ่งควบคุม
เมื่อมีวิธีฝึกตัวจำแนกแบบ Naive Bayes จากข้อมูลที่มีป้ายกำกับแล้ว ก็สามารถสร้าง อัลกอริธึมการฝึกแบบ กึ่งกำกับดูแลที่สามารถเรียนรู้จากข้อมูลที่มีป้ายกำกับและไม่มีป้ายกำกับได้โดยการเรียกใช้ อัลกอริธึม การเรียนรู้แบบกำกับดูแลในลูป: [ 15 ]
- เมื่อมีชุดตัวอย่างที่มีป้ายกำกับLและตัวอย่างที่ไม่มีป้ายกำกับUให้เริ่มต้นด้วยการฝึกตัวจำแนกแบบ Naive Bayes บนL
- จนกว่าจะถึงจุดบรรจบ ให้ทำดังนี้:
- ทำนายความน่าจะเป็นของคลาส สำหรับตัวอย่าง xทั้งหมดใน.
- ฝึกฝนโมเดลใหม่โดยใช้ค่าความน่าจะเป็น (ไม่ใช่ป้ายกำกับ) ที่คาดการณ์ไว้ในขั้นตอนก่อนหน้า
การลู่เข้าจะถูกกำหนดโดยพิจารณาจากการปรับปรุงค่าความน่าจะเป็นของแบบจำลองโดยที่แทนพารามิเตอร์ของแบบจำลองเบย์แบบง่าย
อัลกอริทึมการฝึกอบรมนี้เป็นตัวอย่างของ อัลกอริทึมการคาดการณ์-การเพิ่มประสิทธิภาพทั่วไป(EM): ขั้นตอนการทำนายภายในลูปคือ ขั้นตอน Eของ EM ในขณะที่การฝึกอบรมใหม่ของ Naive Bayes คือ ขั้นตอน Mอัลกอริทึมนี้ได้รับการพิสูจน์อย่างเป็นทางการโดยสมมติฐานที่ว่าข้อมูลถูกสร้างขึ้นโดยแบบจำลองผสมและส่วนประกอบของแบบจำลองผสมนี้คือคลาสของปัญหาการจำแนกประเภท[ 15 ]
การอภิปราย
แม้ว่าสมมติฐานความเป็นอิสระที่กว้างขวางมักจะไม่ถูกต้อง แต่ตัวจำแนกแบบ Naive Bayes ก็มีคุณสมบัติหลายประการที่ทำให้มีประโยชน์อย่างน่าประหลาดใจในทางปฏิบัติ โดยเฉพาะอย่างยิ่ง การแยกการแจกแจงคุณลักษณะแบบมีเงื่อนไขของคลาส หมายความว่าการแจกแจงแต่ละรายการสามารถประมาณได้อย่างอิสระเป็นการแจกแจงแบบหนึ่งมิติ ซึ่งช่วยบรรเทาปัญหาที่เกิดจาก คำสาปของมิติ เช่น ความต้องการชุดข้อมูลที่ขยายแบบเลขชี้กำลังตามจำนวนคุณลักษณะ แม้ว่า Naive Bayes มักจะล้มเหลวในการสร้างการประมาณที่ดีสำหรับความน่าจะเป็นของคลาสที่ถูกต้อง[ 16 ]แต่นี่อาจไม่ใช่ข้อกำหนดสำหรับแอปพลิเคชันจำนวนมาก ตัวอย่างเช่น ตัวจำแนกแบบ Naive Bayes จะทำการจำแนกกฎการตัดสินใจ MAP ที่ถูกต้องตราบใดที่คลาสที่ถูกต้องถูกทำนายว่ามีความน่าจะเป็นมากกว่าคลาสอื่น ๆ นี่เป็นจริงไม่ว่าการประมาณความน่าจะเป็นจะไม่ถูกต้องเล็กน้อยหรือแม้กระทั่งไม่ถูกต้องอย่างมาก ในลักษณะนี้ ตัวจำแนกโดยรวมสามารถแข็งแกร่งพอที่จะเพิกเฉยต่อข้อบกพร่องร้ายแรงในแบบจำลองความน่าจะเป็นแบบ Naive ที่อยู่เบื้องหลังได้[ 17 ]เหตุผลอื่นๆ สำหรับความสำเร็จที่สังเกตได้ของตัวจำแนกแบบเบย์สแบบง่ายนั้นได้มีการกล่าวถึงในเอกสารอ้างอิงด้านล่าง
ความสัมพันธ์กับการถดถอยโลจิสติกส์
ในกรณีของอินพุตแบบไม่ต่อเนื่อง (ตัวบ่งชี้หรือคุณลักษณะความถี่สำหรับเหตุการณ์แบบไม่ต่อเนื่อง) ตัวจำแนกแบบเบย์แบบง่ายจะสร้าง คู่ แบบสร้าง-จำแนกกับ ตัวจำแนก การถดถอยโลจิสติกแบบหลายตัวเลือก: ตัวจำแนกแบบเบย์แบบง่ายแต่ละตัวสามารถพิจารณาได้ว่าเป็นวิธีในการปรับแบบจำลองความน่าจะเป็นที่ปรับความน่าจะเป็นร่วมให้เหมาะสมที่สุดในขณะที่การถดถอยโลจิสติกจะปรับแบบจำลองความน่าจะเป็นเดียวกันเพื่อปรับเงื่อนไขให้เหมาะสมที่สุด[ 18 ]
กล่าวอย่างเป็นทางการ เรามีดังต่อไปนี้:
ทฤษฎีบท—ตัวจำแนกแบบ Naive Bayes บนคุณลักษณะแบบไบนารีนั้นอยู่ภายใต้การจำแนกแบบ Logistic Regression
พิจารณาปัญหาการจำแนกประเภทหลายคลาสทั่วไป โดยมีคลาสที่เป็นไปได้n คลาส จากนั้นตัวจำแนกประเภทเบย์ส (ที่ไม่ใช่แบบง่าย) จะให้ผลลัพธ์ตามทฤษฎีบทของเบย์สว่า:
ตัวจำแนกแบบ Naive Bayes ให้ ผลลัพธ์ดังนี้
นี่คือตัวจำแนกประเภทการถดถอยโลจิสติกส์อย่างแท้จริง
ความเชื่อมโยงระหว่างทั้งสองสามารถมองเห็นได้จากการสังเกตว่า ฟังก์ชันการตัดสินใจของ Naive Bayes (ในกรณีไบนารี) สามารถเขียนใหม่ได้เป็น "ทำนายคลาสถ้าโอกาสของมากกว่าโอกาสของ" การแสดงสิ่งนี้ในรูปแบบลอการิทึมจะได้ดังนี้:
ด้านซ้ายของสมการนี้คือค่าลอการิทึมของอัตราต่อรอง หรือlogitซึ่งเป็นปริมาณที่ทำนายโดยแบบจำลองเชิงเส้นที่เป็นพื้นฐานของการถดถอยโลจิสติก เนื่องจากแบบจำลองเบย์แบบง่ายก็เป็นแบบจำลองเชิงเส้นสำหรับแบบจำลองเหตุการณ์ "ไม่ต่อเนื่อง" สองแบบ จึงสามารถกำหนดพารามิเตอร์ใหม่เป็นฟังก์ชันเชิงเส้นได้การหาค่าความน่าจะเป็นจึงเป็นเรื่องของการใช้ฟังก์ชันโลจิสติกกับหรือในกรณีหลายคลาส ใช้ ฟังก์ชัน softmax
ตัวจำแนกแบบแยกแยะมีข้อผิดพลาดเชิงอะซิมโทติกต่ำกว่าตัวจำแนกแบบสร้าง อย่างไรก็ตาม งานวิจัยของNgและJordanแสดงให้เห็นว่าในบางกรณีในทางปฏิบัติ Bayes แบบง่ายอาจมีประสิทธิภาพเหนือกว่าการถดถอยโลจิสติก เนื่องจากสามารถเข้าถึงข้อผิดพลาดเชิงอะซิมโทติกได้เร็วกว่า[ 18 ]
ตัวอย่าง
การจำแนกประเภทบุคคล
ปัญหา: จำแนกว่าบุคคลที่กำหนดเป็นชายหรือหญิงโดยพิจารณาจากลักษณะที่วัดได้ ลักษณะเหล่านั้นได้แก่ ส่วนสูง น้ำหนัก และขนาดเท้า แม้ว่าในตัวจำแนก NB เราจะถือว่าลักษณะเหล่านี้เป็นอิสระต่อกัน แต่ในความเป็นจริงแล้วไม่ใช่เช่นนั้น
การฝึกอบรม
ตัวอย่างชุดข้อมูลฝึกฝนอยู่ด้านล่าง
| บุคคล | ความสูง (ฟุต) | น้ำหนัก (ปอนด์) | ขนาดเท้า (นิ้ว) |
|---|---|---|---|
| ชาย | 6 | 180 | 12 |
| ชาย | 5.92 (5'11") | 190 | 11 |
| ชาย | 5.58 (5'7") | 170 | 12 |
| ชาย | 5.92 (5'11") | 165 | 10 |
| หญิง | 5 | 100 | 6 |
| หญิง | 5.5 (5'6") | 150 | 8 |
| หญิง | 5.42 (5'5") | 130 | 7 |
| หญิง | 5.75 (5'9") | 150 | 9 |
ตัวจำแนกประเภทที่สร้างขึ้นจากชุดข้อมูลฝึกฝนโดยใช้สมมติฐานการแจกแจงแบบเกาส์เซียนจะเป็นดังนี้ (โดยกำหนดให้ค่าความแปรปรวนเป็นค่าความแปรปรวนของตัวอย่างที่ไม่เอนเอียง ):
| บุคคล | ค่าเฉลี่ย (ความสูง) | ความแปรปรวน (ความสูง) | ค่าเฉลี่ย (น้ำหนัก) | ความแปรปรวน (น้ำหนัก) | ค่าเฉลี่ย (ขนาดเท้า) | ความแปรปรวน (ขนาดเท้า) |
|---|---|---|---|---|---|---|
| ชาย | 5.855 | 3.5033 × 10 −2 | 176.25 | 122.92 | 11.25 | 9.1667 × 10 −1 |
| หญิง | 5.4175 | 9.7225 × 10 −2 | 132.5 | 558.33 | 7.5 | 1.6667 |
ตัวอย่างต่อไปนี้สมมติว่าแต่ละคลาสมีความน่าจะเป็นเท่ากัน ดังนั้น P(ชาย) = P(หญิง) = 0.5 การแจกแจงความน่าจะเป็น ล่วงหน้านี้ อาจอิงตามความรู้ก่อนหน้าเกี่ยวกับความถี่ในประชากรขนาดใหญ่หรือในชุดข้อมูลฝึกฝน
การทดสอบ
ตัวอย่างด้านล่างนี้ใช้สำหรับจำแนกเพศชายหรือเพศหญิง
| บุคคล | ความสูง (ฟุต) | น้ำหนัก (ปอนด์) | ขนาดเท้า (นิ้ว) |
|---|---|---|---|
| ตัวอย่าง | 6 | 130 | 8 |
ในการจำแนกกลุ่มตัวอย่าง ต้องพิจารณาว่าค่าความน่าจะเป็นภายหลัง (posterior) ของเพศชายหรือเพศหญิงมีค่ามากกว่า สำหรับการจำแนกเป็นเพศชาย ค่าความน่าจะเป็นภายหลังจะกำหนดโดย
สำหรับการจำแนกประเภทเป็นเพศหญิง ค่าด้านหลังจะกำหนดโดย
ค่าหลักฐาน (หรือเรียกอีกอย่างว่าค่าคงที่มาตรฐาน ) สามารถคำนวณได้ดังนี้:
อย่างไรก็ตาม เมื่อพิจารณาจากตัวอย่าง หลักฐานจะเป็นค่าคงที่และปรับขนาดค่าหลังทั้งสองอย่างเท่ากัน ดังนั้นจึงไม่ส่งผลต่อการจำแนกประเภทและสามารถละเลยได้ ตอนนี้สามารถกำหนดการ กระจายความน่าจะเป็นสำหรับเพศของตัวอย่างได้แล้ว โดยที่และคือพารามิเตอร์ของการกระจายแบบปกติซึ่งได้กำหนดไว้ก่อนหน้านี้จากชุดข้อมูลฝึกฝน โปรดทราบว่าค่าที่มากกว่า 1 นั้นใช้ได้ในที่นี้ – มันเป็นความหนาแน่นของความน่าจะเป็นมากกว่าความน่าจะเป็น เนื่องจากความสูงเป็นตัวแปรต่อเนื่อง
เนื่องจากตัวเศษของค่าประมาณภายหลังมีค่ามากกว่าในกรณีของเพศหญิง ดังนั้นจึงคาดการณ์ได้ว่ากลุ่มตัวอย่างเป็นเพศหญิง
การจำแนกประเภทเอกสาร
ต่อไปนี้เป็นตัวอย่างการใช้การจำแนกแบบเบย์เซียนแบบง่าย (naive Bayesian classification) กับ ปัญหา การจำแนกเอกสารพิจารณาปัญหาการจำแนกเอกสารตามเนื้อหา เช่นอีเมลสแปม และ อีเมลที่ไม่ใช่สแปมจินตนาการว่าเอกสารถูกดึงมาจากเอกสารหลายคลาส ซึ่งสามารถจำลองได้เป็นเซตของคำ โดยที่ความน่าจะเป็น (อิสระ) ที่คำที่ i ของเอกสารที่กำหนดปรากฏในเอกสารจากคลาสCสามารถเขียนได้ดังนี้
(สำหรับการวิเคราะห์นี้ เราจะลดความซับซ้อนลงโดยสมมติว่าคำต่างๆ กระจายตัวแบบสุ่มในเอกสาร กล่าวคือ คำต่างๆ ไม่ขึ้นอยู่กับความยาวของเอกสาร ตำแหน่งภายในเอกสารที่สัมพันธ์กับคำอื่นๆ หรือบริบทอื่นๆ ของเอกสาร)
ดังนั้น ความน่าจะเป็นที่เอกสารD ที่กำหนด จะมีคำทั้งหมดตามที่กำหนด โดยกำหนดให้คลาสCคือ
คำถามที่ต้องหาคำตอบคือ "ความน่าจะเป็นที่เอกสารD ที่กำหนด ให้เป็นของกลุ่มC ที่กำหนดคือเท่าไร ?" หรืออีกนัยหนึ่งคือ σ คืออะไร?
ตามคำจำกัดความ และ
ทฤษฎีบทของเบย์สจะแปลงสิ่งเหล่านี้ให้กลายเป็นข้อความแสดงความน่าจะเป็นในรูปของ ความน่าจะ เป็น แบบมีเงื่อนไข
สมมติไว้ก่อนว่ามีเพียงสองคลาสที่ไม่ทับซ้อนกัน คือSและ ¬ S (เช่น สแปมและไม่ใช่สแปม) โดยที่ทุกองค์ประกอบ (อีเมล) จะต้องอยู่ในคลาสใดคลาสหนึ่งเท่านั้น และ
จากการใช้ผลลัพธ์แบบเบย์เซียนข้างต้น เราสามารถเขียนได้ดังนี้:
เมื่อหารค่าหนึ่งด้วยอีกค่าหนึ่งจะได้:
ซึ่งสามารถปรับปรุงโครงสร้างใหม่ได้ดังนี้:
ดังนั้น อัตราส่วนความน่าจะเป็น p( S | D ) / p(¬ S | D ) สามารถแสดงได้ในรูปของอัตราส่วนความน่าจะเป็น แบบอนุกรม ความน่าจะเป็นที่แท้จริง p( S | D ) สามารถคำนวณได้ง่ายจาก log (p( S | D ) / p(¬ S | D )) โดยอาศัยการสังเกตว่า p( S | D ) + p(¬ S | D ) = 1
เมื่อนำอัตราส่วนทั้งหมดเหล่านี้ มาหา ค่าลอการิทึม จะได้ว่า:
(เทคนิค " อัตราส่วนความน่าจะเป็นล็อก " นี้เป็นเทคนิคที่ใช้กันทั่วไปในทางสถิติ ในกรณีที่มีทางเลือกสองทางที่ไม่สามารถเกิดขึ้นพร้อมกันได้ (เช่นในตัวอย่างนี้) การแปลงอัตราส่วนความน่าจะเป็นล็อกเป็นความน่าจะเป็นจะอยู่ในรูปของเส้นโค้งซิกมอยด์ : ดู รายละเอียดเพิ่มเติมได้ ที่ logit )
สุดท้ายนี้ เอกสารสามารถจำแนกได้ดังนี้ ถ้า(เช่น) ถือว่าเป็นสแปม แต่ถ้าไม่ใช่สแปม ก็จะไม่ใช่สแปม
การกรองสแปม
ตัวจำแนกแบบ Naive Bayes เป็น เทคนิค ทางสถิติ ที่นิยมใช้ ในการกรองอีเมลโดยทั่วไปจะใช้คุณลักษณะแบบBag-of-words เพื่อระบุ อีเมลสแปมซึ่งเป็นวิธีการที่ใช้กันทั่วไปในการจำแนกประเภทข้อความตัวจำแนกแบบ Naive Bayes ทำงานโดยการเชื่อมโยงการใช้โทเค็น (โดยทั่วไปคือคำ หรือบางครั้งอาจเป็นสิ่งอื่น ๆ) กับอีเมลสแปมและอีเมลที่ไม่ใช่สแปม จากนั้นใช้ทฤษฎีบทของ Bayesเพื่อคำนวณความน่าจะเป็นที่อีเมลนั้นเป็นสแปมหรือไม่เป็นสแปม
การกรองสแปมแบบ Naive Bayesเป็นเทคนิคพื้นฐานในการจัดการกับสแปมที่สามารถปรับแต่งให้เข้ากับความต้องการอีเมลของผู้ใช้แต่ละราย และให้ ผลลัพธ์การตรวจจับสแปม ผิดพลาด ต่ำ ซึ่งโดยทั่วไปแล้วผู้ใช้ยอมรับได้ อัลกอริทึมแบบ Bayesian ถูกนำมาใช้ในการกรองอีเมลตั้งแต่ปี 1996 แม้ว่าตัวกรองแบบ Naive Bayesian จะไม่ได้รับความนิยมจนกระทั่งภายหลัง แต่ก็มีโปรแกรมหลายโปรแกรมถูกปล่อยออกมาในปี 1998 เพื่อแก้ไขปัญหาอีเมลที่ไม่พึงประสงค์ที่เพิ่มขึ้น[ 19 ] สิ่งพิมพ์ทางวิชาการฉบับแรกที่ใช้ตัวจำแนกแบบ Naive Bayes สำหรับการกรองสแปมคือโดย Sahami et al. ในปี 1998 [ 20 ]
รูปแบบต่างๆ ของเทคนิคพื้นฐานได้รับการนำไปใช้ในงานวิจัยและผลิตภัณฑ์ซอฟต์แวร์ เชิงพาณิชย์จำนวนมาก [ 21 ]ไคลเอนต์อีเมลสมัยใหม่จำนวนมากใช้การกรองสแปมแบบเบย์เซียน ผู้ใช้ยังสามารถติดตั้งโปรแกรมกรองอีเมล แยกต่างหากได้อีก ด้วย ตัวกรองอีเมล ฝั่งเซิร์ฟเวอร์เช่นDSPAM , Rspamd , [ 22 ] SpamAssassin , [ 23 ] SpamBayes , [ 24 ] BogofilterและASSPใช้เทคนิคการกรองสแปมแบบเบย์เซียน และบางครั้งฟังก์ชันการทำงานก็ถูกฝังอยู่ใน ซอฟต์แวร์ เซิร์ฟเวอร์อีเมลเองCRM114ซึ่งมักถูกอ้างถึงว่าเป็นตัวกรองแบบเบย์เซียน ไม่ได้มีจุดประสงค์เพื่อใช้ตัวกรองแบบเบย์เซียนในการใช้งานจริง แต่รวมคุณสมบัติ "unigram" ไว้เพื่อเป็นข้อมูลอ้างอิง[ 25 ]
การจัดการกับคำศัพท์หายาก
ในกรณีที่คำศัพท์นั้นไม่เคยถูกพบเห็นมาก่อนในระหว่างขั้นตอนการเรียนรู้ ทั้งตัวเศษและตัวส่วนจะมีค่าเท่ากับศูนย์ ทั้งในสูตรทั่วไปและในสูตรความซ้ำซ้อน ซอฟต์แวร์อาจตัดสินใจที่จะละทิ้งคำศัพท์ที่ไม่มีข้อมูลดังกล่าว
โดยทั่วไปแล้ว คำศัพท์ที่พบเจอเพียงไม่กี่ครั้งในระหว่างขั้นตอนการเรียนรู้ก่อให้เกิดปัญหา เพราะการเชื่อถือข้อมูลจากคำเหล่านั้นโดยไม่ไตร่ตรองถือเป็นความผิดพลาด วิธีแก้ปัญหาที่ง่ายที่สุดคือ การหลีกเลี่ยงการนำคำศัพท์ที่ไม่น่าเชื่อถือเหล่านั้นมาพิจารณาด้วยเช่นกัน
เมื่อนำทฤษฎีบทของเบย์สมาประยุกต์ใช้อีกครั้ง และสมมติว่าการจำแนกอีเมลที่มีคำว่า "replica" เป็นสแปมหรืออีเมลปกติ เป็นตัวแปรสุ่มที่มีการแจกแจงแบบเบต้าโปรแกรมบางโปรแกรมจึงตัดสินใจใช้ความน่าจะเป็นที่แก้ไขแล้ว:
ที่ไหน:
- คือค่าความน่าจะเป็นที่ปรับแก้แล้วสำหรับข้อความที่จะเป็นสแปม โดยทราบว่าข้อความนั้นมีคำที่กำหนดอยู่
- คือจุดแข็งที่เรามอบให้แก่ข้อมูลพื้นฐานเกี่ยวกับสแปมที่เข้ามา
- คือความน่าจะเป็นที่ข้อความขาเข้าใดๆ จะเป็นสแปม
- คือจำนวนครั้งที่คำนี้ปรากฏขึ้นในระหว่างขั้นตอนการเรียนรู้ ;
- คือความเป็นช่องว่างของคำนี้
(การสาธิต: [ 26 ] )
ค่าความน่าจะเป็นที่แก้ไขแล้วจะถูกนำมาใช้แทนค่า spamicity ในสูตรการรวม
สูตรนี้สามารถขยายไปใช้กับกรณีที่nเท่ากับศูนย์ (และในกรณีที่ไม่ได้กำหนด spamicity) และในกรณีนี้จะได้ค่าเป็น.
หลักการวิเคราะห์เชิงอนุมานอื่นๆ
คำที่มีความหมาย "เป็นกลาง" เช่น "the", "a", "some" หรือ "is" (ในภาษาอังกฤษ) หรือคำที่มีความหมายเทียบเท่าในภาษาอื่นๆ สามารถละเว้นได้ คำเหล่านี้เรียกอีกอย่างว่าคำหยุด (Stop words ) โดยทั่วไปแล้ว ตัวกรองแบบเบย์เซียนบางตัวจะละเว้นคำทั้งหมดที่มีค่าความเป็นสแปมใกล้เคียงกับ 0.5 เนื่องจากคำเหล่านั้นมีส่วนช่วยในการตัดสินใจน้อย คำที่นำมาพิจารณาคือคำที่มีค่าความเป็นสแปมใกล้เคียงกับ 0.0 (ซึ่งเป็นสัญญาณบ่งชี้ข้อความที่ถูกต้อง) หรือใกล้เคียงกับ 1.0 (ซึ่งเป็นสัญญาณบ่งชี้สแปม) ตัวอย่างเช่น วิธีการหนึ่งคือการเก็บเฉพาะคำสิบคำในข้อความที่ตรวจสอบ ซึ่งมีค่าสัมบูรณ์ มากที่สุดคือ |0.5 − pI |
ผลิตภัณฑ์ซอฟต์แวร์บางตัวคำนึงถึงข้อเท็จจริงที่ว่าคำที่กำหนดปรากฏหลายครั้งในข้อความที่ตรวจสอบ[ 27 ]ในขณะที่บางตัวไม่คำนึงถึง
ผลิตภัณฑ์ซอฟต์แวร์บางตัวใช้รูปแบบ (ลำดับของคำ) แทนคำภาษาธรรมชาติที่แยกเดี่ยว[ 28 ]ตัวอย่างเช่น ด้วย "หน้าต่างบริบท" สี่คำ พวกเขาจะคำนวณค่า spamicity ของ "Viagra ดีสำหรับ" แทนที่จะคำนวณค่า spamicity ของ "Viagra", "is", "good" และ "for" วิธีนี้ให้ความไวต่อบริบทมากขึ้นและกำจัดสัญญาณรบกวนแบบ Bayesian ได้ดีกว่า โดยแลกกับฐานข้อมูลที่ใหญ่ขึ้น
ข้อเสีย
ขึ้นอยู่กับการใช้งาน การกรองสแปมแบบเบย์เซียนอาจมีความเสี่ยงต่อการโจมตีแบบเบย์เซียน (Bayesian poisoning ) ซึ่งเป็นเทคนิคที่ผู้ส่งสแปมใช้เพื่อลดประสิทธิภาพของตัวกรองสแปมที่อาศัยการกรองแบบเบย์เซียน ผู้ส่งสแปมที่ใช้เทคนิคนี้จะส่งอีเมลที่มีข้อความที่ถูกต้องจำนวนมาก (รวบรวมจากแหล่งข่าวหรือวรรณกรรมที่น่าเชื่อถือ) กลยุทธ์ ของผู้ส่งสแปมรวมถึงการแทรกคำที่ไม่เป็นอันตรายแบบสุ่มซึ่งโดยปกติไม่ได้เกี่ยวข้องกับสแปม ทำให้คะแนนสแปมของอีเมลลดลง ทำให้มีโอกาสหลุดรอดตัวกรองสแปมแบบเบย์เซียนได้มากขึ้น อย่างไรก็ตาม ในแผนการของ (ตัวอย่างเช่น) Paul Grahamจะใช้เฉพาะความน่าจะเป็นที่สำคัญที่สุดเท่านั้น ดังนั้นการเพิ่มคำที่ไม่เกี่ยวข้องกับสแปมลงในข้อความจึงไม่ส่งผลกระทบต่อความน่าจะเป็นในการตรวจจับอย่างมีนัยสำคัญ
คำที่ปกติปรากฏเป็นจำนวนมากในสแปมอาจถูกแปลงโดยผู้ส่งสแปม ตัวอย่างเช่น «Viagra» จะถูกแทนที่ด้วย «Viaagra» หรือ «V!agra» ในข้อความสแปม ผู้รับข้อความยังคงสามารถอ่านคำที่เปลี่ยนแปลงได้ แต่แต่ละคำเหล่านี้จะพบได้ยากขึ้นในตัวกรองแบบเบย์เซียน ซึ่งขัดขวางกระบวนการเรียนรู้ โดยทั่วไปแล้ว เทคนิคการส่งสแปมนี้ไม่ได้ผลดีนัก เพราะคำที่ได้มาจะถูกตัวกรองจดจำได้เช่นเดียวกับคำปกติ[ 29 ]
เทคนิคอีกอย่างที่ใช้เพื่อพยายามเอาชนะตัวกรองสแปมแบบเบย์เซียนคือการแทนที่ข้อความด้วยรูปภาพ ไม่ว่าจะรวมไว้โดยตรงหรือเป็นลิงก์ ข้อความทั้งหมดของข้อความหรือบางส่วนจะถูกแทนที่ด้วยรูปภาพที่ "วาด" ข้อความเดียวกัน ตัวกรองสแปมมักจะไม่สามารถวิเคราะห์รูปภาพนี้ได้ ซึ่งอาจมีคำที่ละเอียดอ่อน เช่น «Viagra» อย่างไรก็ตาม เนื่องจากโปรแกรมอีเมลหลายโปรแกรมปิดการแสดงรูปภาพที่เป็นลิงก์ด้วยเหตุผลด้านความปลอดภัย ผู้ส่งสแปมที่ส่งลิงก์ไปยังรูปภาพที่อยู่ไกลอาจเข้าถึงเป้าหมายได้น้อยลง นอกจากนี้ ขนาดของรูปภาพในหน่วยไบต์มีขนาดใหญ่กว่าขนาดของข้อความที่เทียบเท่ากัน ดังนั้นผู้ส่งสแปมจึงต้องการแบนด์วิดท์มากขึ้นในการส่งข้อความโดยตรงที่มีรูปภาพ ตัวกรองบางตัวมีแนวโน้มที่จะตัดสินว่าข้อความนั้นเป็นสแปมหากมีเนื้อหากราฟิกเป็นส่วนใหญ่ วิธีแก้ปัญหาที่Google ใช้ ใน ระบบอีเมล GmailคือการทำOCR (Optical Character Recognition)กับรูปภาพขนาดกลางถึงขนาดใหญ่ทุกรูป โดยวิเคราะห์ข้อความภายใน[ 30 ] [ 31 ]
ดูเพิ่มเติม
- AODE
- เทคนิคต่อต้านสแปม
- ตัวจำแนกเบย์ส
- เครือข่ายเบย์เซียน
- พิษแบบเบย์เซียน
- การกรองอีเมล
- ตัวจำแนกเชิงเส้น
- การถดถอยโลจิสติก
- การเลือกปฏิบัติแบบมาร์โคเวียน
- ไคลเอนต์อีเมล Mozilla Thunderbirdที่มีการใช้งานตัวกรอง Bayes แบบดั้งเดิม[ 32 ] [ 33 ]
- เพอร์เซปตรอน
- เบย์สแบบสุ่ม
- ฮิวริสติกแบบเลือกสิ่งที่ดีที่สุด
อ่านเพิ่มเติม
- Domingos, Pedro; Pazzani, Michael (1997). "เกี่ยวกับความเหมาะสมที่สุดของตัวจำแนกแบบเบย์เซียนอย่างง่ายภายใต้การสูญเสียศูนย์หนึ่ง"การ เรียนรู้ ของเครื่อง 29 (2/3): 103– 137. doi : 10.1023/A:1007413511361 .
- Webb, GI; Boughton, J.; Wang, Z. (2005). "ไม่ใช่เบย์สที่ไร้เดียงสา: การรวมตัวประมาณค่าการพึ่งพาหนึ่งเดียว"การ เรียนรู้ ของเครื่อง58 (1): 5– 24. doi : 10.1007/s10994-005-4258-6 .
- Mozina, M.; Demsar, J.; Kattan, M.; Zupan, B. (2004). โนโมแกรมสำหรับการแสดงภาพตัวจำแนกแบบเบย์เซียนอย่างง่าย (PDF) . Proc. PKDD-2004. หน้า 337–348 . เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2023-11-29 . สืบค้นเมื่อ2014-04-01 .
- Maron, ME (1961). "การจัดทำดัชนีอัตโนมัติ: การสอบสวนเชิงทดลอง". วารสารของ ACM . 8 (3): 404– 417. doi : 10.1145/321075.321084 . hdl : 2027/uva.x030748531 . S2CID 6692916 .
- Minsky, M. (1961). ขั้นตอนสู่ปัญญาประดิษฐ์ . Proc. IRE. Vol. 49. pp. 8– 30.
ลิงก์ภายนอก
- บทในหนังสือ: การจำแนกประเภทข้อความด้วยวิธี Naive Bayes, บทนำสู่การค้นหาข้อมูล
- เบย์สแบบง่ายสำหรับการจำแนกประเภทข้อความที่มีคลาสไม่สมดุล
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ตัวจำแนกแบบ Naive Bayes
ในทาง สถิติ ตัวจำแนกแบบเบย์ แบบง่าย (บางครั้งเรียกว่า แบบง่าย หรือ แบบโง่ ) เป็นกลุ่มของ " ตัวจำแนกแบบความน่าจะเป็น " ซึ่งถือว่า คุณลักษณะต่างๆ เป็น อิสระต่อกันโดยมีเงื่อนไข...
การแนะนำ
Naive Bayes เป็นเทคนิคที่เรียบง่ายสำหรับการสร้างตัวจำแนกประเภท: แบบจำลองที่กำหนดป้ายกำกับคลาสให้กับตัวอย่างปัญหา ซึ่งแสดงเป็นเวกเตอร์ของ ค่า คุณลักษณะ โดยที่ป้ายกำกับคลาสถูกสุ่มมาจาก เซตจำกัด บางเซต ไม่มี อัลกอริทึม เดียว สำหรับการฝึกตัวจำแนกประเภทนี้...
แบบจำลองความน่าจะเป็น
โดยสรุปแล้ว Naive Bayes เป็น แบบ จำลองความน่าจะเป็นแบบมีเงื่อนไข : มันกำหนดความน่าจะเป็น สำหรับ ผลลัพธ์หรือ คลาส ที่เป็นไปได้ K รายการแต่ละรายการโดยพิจารณาจากอินสแตนซ์ปัญหาที่จะจำแนกประเภท ซึ่งแสดงด้วยเวกเตอร์ที่เข้ารหัส คุณลักษณะ n รายการ (ตัวแปรอิสระ) [ 7 ]...
การสร้างตัวจำแนกจากแบบจำลองความน่าจะเป็น
การอภิปรายที่ผ่านมาได้นำไปสู่แบบจำลองคุณลักษณะอิสระ นั่นคือ แบบจำลองความน่าจะเป็นแบบเบย์สแบบง่าย (naive Bayes probability model ) ตัวจำแนกแบบ เบย์สแบบง่ายจะรวมแบบจำลองนี้เข้ากับ กฎการตัดสินใจ...