อ่าน 16 นาที
ฟังก์ชันความสูญเสียสำหรับการจำแนกประเภท
ในการเรียนรู้ของเครื่องและการเพิ่มประสิทธิภาพทางคณิตศาสตร์ฟังก์ชันความสูญเสียสำหรับการจำแนกประเภทคือฟังก์ชันความสูญเสีย ที่สามารถคำนวณได้...
ฟังก์ชันความสูญเสียสำหรับการจำแนกประเภท
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| การเรียนรู้ของเครื่องจักรและการขุดข้อมูล |
|---|

ในการเรียนรู้ของเครื่องและการเพิ่มประสิทธิภาพทางคณิตศาสตร์ฟังก์ชันความสูญเสียสำหรับการจำแนกประเภทคือฟังก์ชันความสูญเสีย ที่สามารถคำนวณได้ ซึ่งแสดงถึงราคาที่จ่ายไปสำหรับความไม่แม่นยำของการทำนายในปัญหาการจำแนกประเภท (ปัญหาของการระบุว่าการสังเกตเฉพาะเจาะจงนั้นเป็นของหมวดหมู่ใด) [ 1 ] กำหนดให้เป็นพื้นที่ของอินพุตที่เป็นไปได้ทั้งหมด (โดยปกติคือ) และเป็นเซตของป้ายกำกับ (เอาต์พุตที่เป็นไปได้) เป้าหมายทั่วไปของอัลกอริธึมการจำแนกประเภทคือการค้นหาฟังก์ชันที่ทำนายป้ายกำกับได้ดีที่สุดสำหรับอินพุตที่กำหนด[ 2 ] อย่างไรก็ตาม เนื่องจากข้อมูลที่ไม่สมบูรณ์ สัญญาณรบกวนในการวัด หรือส่วนประกอบความน่าจะเป็นในกระบวนการพื้นฐาน จึงเป็นไปได้ที่ค่าเดียวกันจะสร้างค่าที่แตกต่างกัน[ 3 ] ด้วย เหตุนี้ เป้าหมายของปัญหาการเรียนรู้จึงเป็นการลดความสูญเสียที่คาดหวัง (หรือที่เรียกว่าความเสี่ยง) ซึ่งกำหนดเป็น
โดยที่เป็นฟังก์ชันความสูญเสียที่กำหนด และ เป็นฟังก์ชันความหนาแน่นความน่าจะเป็นของกระบวนการที่สร้างข้อมูล ซึ่งสามารถเขียนได้ในรูปแบบที่เทียบเท่ากันดังนี้
ในการจำแนกประเภทฟังก์ชันความสูญเสีย ที่ใช้กันทั่วไปหลายฟังก์ชัน เขียนขึ้นโดยใช้ผลคูณของป้ายกำกับจริงและป้ายกำกับที่ทำนายไว้ เท่านั้น ดังนั้นจึงสามารถกำหนดให้เป็นฟังก์ชันของตัวแปรเพียงตัวเดียวได้โดยที่ด้วยฟังก์ชันที่เลือกอย่างเหมาะสม ฟังก์ชันเหล่านี้เรียกว่าฟังก์ชันความสูญเสียแบบอิงตามขอบเขตการเลือกฟังก์ชันความสูญเสียแบบอิงตามขอบเขตนั้นเทียบเท่ากับการเลือก การเลือกฟังก์ชันความสูญเสียภายในกรอบนี้ส่งผลต่อค่าที่เหมาะสมที่สุดซึ่งลดความเสี่ยงที่คาดหวังให้น้อยที่สุด ดูการลดความเสี่ยงเชิงประจักษ์
ในกรณีของการจำแนกแบบไบนารี สามารถลดความซับซ้อนของการคำนวณความเสี่ยงที่คาดหวังได้จากปริพันธ์ที่ระบุไว้ข้างต้น โดยเฉพาะอย่างยิ่ง
ความเท่าเทียมกันข้อที่สองเป็นผลมาจากคุณสมบัติที่อธิบายไว้ข้างต้น ความเท่าเทียมกันข้อที่สามเป็นผลมาจากข้อเท็จจริงที่ว่า 1 และ −1 เป็นค่าที่เป็นไปได้เพียงค่าเดียวสำหรับและความเท่าเทียมกันข้อที่สี่เป็นผลมาจาก พจน์ที่อยู่ในวงเล็บเรียกว่าความเสี่ยงแบบมีเงื่อนไข
เราสามารถหาค่าต่ำสุดของได้โดยการหาอนุพันธ์เชิงฟังก์ชันของสมการสุดท้ายเทียบกับและกำหนดให้อนุพันธ์เท่ากับ 0 ซึ่งจะส่งผลให้ได้สมการต่อไปนี้
ซึ่งเทียบเท่ากับการกำหนดให้ค่าอนุพันธ์ของความเสี่ยงแบบมีเงื่อนไขเท่ากับศูนย์
เนื่องจากลักษณะการจำแนกประเภทเป็นแบบไบนารี การเลือกตามธรรมชาติสำหรับฟังก์ชันความสูญเสีย (โดยสมมติว่าต้นทุนเท่ากันสำหรับผลบวกเท็จและผลลบเท็จ ) จะเป็นฟังก์ชันความสูญเสีย 0-1 ( ฟังก์ชันตัวบ่งชี้ 0-1 ) ซึ่งจะมีค่าเป็น 0 หากการจำแนกประเภทที่คาดการณ์ไว้เท่ากับการจำแนกประเภทที่แท้จริง หรือมีค่าเป็น 1 หากการจำแนกประเภทที่คาดการณ์ไว้ไม่ตรงกับการจำแนกประเภทที่แท้จริง การเลือกนี้จำลองโดย
โดยที่แสดงถึงฟังก์ชันขั้นบันไดของ Heavisideอย่างไรก็ตาม ฟังก์ชันการสูญเสียนี้ไม่นูนและไม่เรียบ และการแก้ปัญหาเพื่อหาคำตอบที่เหมาะสมที่สุดเป็นปัญหาการเพิ่มประสิทธิภาพเชิงรวมแบบNP-hard [ 4 ] ด้วยเหตุนี้ จึงเป็นการดีกว่าที่จะแทนที่ด้วยฟังก์ชันการสูญเสียทดแทนซึ่งสามารถจัดการได้สำหรับอัลกอริธึมการเรียนรู้ที่ใช้กันทั่วไป เนื่องจากมีคุณสมบัติที่สะดวก เช่น นูนและเรียบ นอกจากความสามารถในการคำนวณแล้ว ยังสามารถแสดงให้เห็นได้ว่าคำตอบของปัญหาการเรียนรู้โดยใช้ฟังก์ชันการสูญเสียทดแทนเหล่านี้ช่วยให้สามารถกู้คืนคำตอบที่แท้จริงของปัญหาการจำแนกประเภทดั้งเดิมได้[ 5 ] ฟังก์ชันทดแทนเหล่านี้บางส่วนจะอธิบายไว้ด้านล่าง
ในทางปฏิบัติ การกระจายความน่าจะเป็นนั้นไม่เป็นที่รู้จัก ดังนั้น การใช้ชุดข้อมูลฝึกฝนที่มีจุดตัวอย่าง ที่กระจายตัวอย่างอิสระและเหมือนกัน จึงเป็นสิ่งจำเป็น
เมื่อดึงข้อมูล ตัวอย่างจากปริภูมิข้อมูลแล้ว เราพยายามลดความเสี่ยงเชิงประจักษ์ให้น้อยที่สุด
เป็นตัวแทนสำหรับความเสี่ยงที่คาดหวัง[ 3 ] (ดูทฤษฎีการเรียนรู้ทางสถิติสำหรับคำอธิบายโดยละเอียดเพิ่มเติม)
ความสอดคล้องของเบย์ส
โดยใช้ทฤษฎีบทของเบย์สสามารถแสดงได้ว่าค่าที่เหมาะสมที่สุด กล่าวคือ ค่าที่ลดความเสี่ยงที่คาดหวังที่เกี่ยวข้องกับการสูญเสียแบบศูนย์-หนึ่งให้เหลือน้อยที่สุด จะใช้กฎการตัดสินใจที่เหมาะสมที่สุดของเบย์สสำหรับปัญหาการจำแนกแบบไบนารี และอยู่ในรูปแบบของ
- .
กล่าวได้ว่าฟังก์ชันความสูญเสียได้รับการปรับเทียบสำหรับการจำแนกประเภทหรือสอดคล้องกับหลักการของเบย์สหากค่าที่เหมาะสมที่สุดของฟังก์ชันนั้นเป็นไปตามเงื่อนไขและดังนั้นจึงเป็นค่าที่เหมาะสมที่สุดภายใต้กฎการตัดสินใจของเบย์ส ฟังก์ชันความสูญเสียที่สอดคล้องกับหลักการของเบย์สช่วยให้เราสามารถค้นหาฟังก์ชันการตัดสินใจที่เหมาะสมที่สุดของเบย์สได้โดยการลดความเสี่ยงที่คาดหวังให้น้อยที่สุดโดยตรง และโดยไม่ต้องสร้างแบบจำลองฟังก์ชันความหนาแน่นของความน่าจะเป็นอย่างชัดเจน
สำหรับการสูญเสียระยะขอบนูนสามารถแสดงได้ว่ามีความสอดคล้องแบบเบย์สก็ต่อเมื่อสามารถหาอนุพันธ์ได้ที่ 0 และ[ 6 ] [ 1 ] อย่างไรก็ตามผลลัพธ์นี้ไม่ได้ตัดความเป็นไปได้ของการมีอยู่ของฟังก์ชันการสูญเสียที่ไม่นูนซึ่งมีความสอดคล้องแบบเบย์ส ผลลัพธ์ทั่วไปมากขึ้นระบุว่าฟังก์ชันการสูญเสียที่มีความสอดคล้องแบบเบย์สสามารถสร้างขึ้นได้โดยใช้สูตรต่อไปนี้[ 7 ]
- ,
โดยที่เป็นฟังก์ชันผกผันได้ใดๆ ที่และเป็นฟังก์ชันเว้าอย่างเคร่งครัดที่หาอนุพันธ์ได้ใดๆ ที่ตารางที่ 1 แสดงฟังก์ชันการสูญเสียที่สอดคล้องกับ Bayes ที่สร้างขึ้นสำหรับตัวเลือกตัวอย่างบางส่วนของและโปรดทราบว่าการสูญเสีย Savage และ Tangent ไม่ใช่ฟังก์ชันนูน ฟังก์ชันการสูญเสียที่ไม่นูนดังกล่าวได้รับการพิสูจน์แล้วว่ามีประโยชน์ในการจัดการกับค่าผิดปกติในการจำแนกประเภท[ 7 ] [ 8 ]สำหรับฟังก์ชันการสูญเสียทั้งหมดที่สร้างจาก (2) ความน่าจะเป็นภายหลังสามารถหาได้โดยใช้ฟังก์ชันเชื่อมโยง ผกผันได้เป็น ฟังก์ชันการสูญเสียดัง กล่าว ที่ความน่าจะเป็นภายหลังสามารถกู้คืนได้โดยใช้การเชื่อมโยงผกผันได้เรียกว่าฟังก์ชันการสูญเสียที่เหมาะสม
| ชื่อที่หายไป | ||||
|---|---|---|---|---|
| เลขชี้กำลัง | ||||
| โลจิสติกส์ | ||||
| สี่เหลี่ยม | ||||
| ป่าเถื่อน | ||||
| แทนเจนต์ |
ตัวลดค่าต่ำสุดเพียงตัวเดียวของความเสี่ยงที่คาดหวังที่เกี่ยวข้องกับฟังก์ชันการสูญเสียที่สร้างขึ้นข้างต้นสามารถหาได้โดยตรงจากสมการ (1) และแสดงให้เห็นว่าเท่ากับ ที่สอดคล้องกัน สิ่งนี้เป็นจริง แม้สำหรับฟังก์ชันการสูญเสียที่ไม่นูน ซึ่งหมายความว่า สามารถใช้ อัลกอริธึมที่ใช้การลดระดับความชัน เช่นการเพิ่มประสิทธิภาพความชัน เพื่อสร้างตัวลดค่าต่ำสุดได้
ฟังก์ชันการสูญเสียที่เหมาะสม อัตรากำไรจากการสูญเสีย และการปรับค่าให้เป็นระเบียบ

สำหรับฟังก์ชันการสูญเสียที่เหมาะสมขอบเขตการสูญเสียสามารถกำหนดได้เป็นและแสดงให้เห็นว่ามีความสัมพันธ์โดยตรงกับคุณสมบัติการควบคุมของตัวจำแนก[ 9 ]โดยเฉพาะอย่างยิ่ง ฟังก์ชันการสูญเสียที่มีขอบเขตที่ใหญ่ขึ้นจะเพิ่มการควบคุมและสร้างการประมาณค่าความน่าจะเป็นภายหลังที่ดีขึ้น ตัวอย่างเช่น ขอบเขตการสูญเสียสามารถเพิ่มขึ้นสำหรับการสูญเสียแบบโลจิสติกได้โดยการแนะนำพารามิเตอร์ และเขียนการสูญเสียแบบโลจิสติกเป็น โดย ที่ค่าที่เล็กลงจะเพิ่มขอบเขตของการสูญเสีย แสดงให้เห็นว่าสิ่งนี้เทียบเท่าโดยตรงกับการลดอัตราการเรียนรู้ในการเพิ่มประสิทธิภาพแบบไล่ระดับซึ่งการลดค่าลงจะช่วยปรับปรุงการควบคุมของตัวจำแนกที่ได้รับการเพิ่มประสิทธิภาพ ทฤษฎีทำให้ชัดเจนว่าเมื่อใช้อัตราการเรียนรู้ของ สูตรที่ถูกต้องสำหรับการดึงความน่าจะเป็นภายหลังคือ
โดยสรุป การเลือกฟังก์ชันความสูญเสียที่มีขอบเขตมากขึ้น (ค่า) จะช่วยเพิ่มการควบคุมและปรับปรุงการประมาณค่าความน่าจะเป็นภายหลัง ซึ่งจะช่วยปรับปรุงเส้นโค้ง ROC ของตัวจำแนกขั้นสุดท้ายให้ดีขึ้น
การสูญเสียกำลังสอง
แม้ว่าโดยทั่วไปจะใช้ในด้านการถดถอย แต่ฟังก์ชันการสูญเสียกำลังสองสามารถเขียนใหม่เป็นฟังก์ชันและนำไปใช้ในการจำแนกประเภทได้ สามารถสร้างได้โดยใช้ (2) และตารางที่ 1 ดังต่อไปนี้
ฟังก์ชันการสูญเสียกำลังสองเป็นทั้งนูนและเรียบ อย่างไรก็ตาม ฟังก์ชันการสูญเสียกำลังสองมีแนวโน้มที่จะลงโทษค่าผิดปกติมากเกินไป ส่งผลให้อัตราการบรรจบกันช้าลง (เมื่อพิจารณาถึงความซับซ้อนของตัวอย่าง) เมื่อเทียบกับฟังก์ชันการสูญเสียแบบโลจิสติกหรือฟังก์ชันการสูญเสียแบบบานพับ[ 1 ] นอกจากนี้ ฟังก์ชันที่ให้ค่าสูงของสำหรับบางค่าจะทำงานได้ไม่ดีกับฟังก์ชันการสูญเสียกำลังสอง เนื่องจากค่าสูงของจะถูกลงโทษอย่างรุนแรง ไม่ว่าเครื่องหมายของและจะตรงกัน หรือไม่ก็ตาม
ข้อดีของฟังก์ชันการสูญเสียกำลังสองคือโครงสร้างของมันเอื้อต่อการตรวจสอบความถูกต้องของพารามิเตอร์การปรับค่าได้ง่าย โดยเฉพาะอย่างยิ่งสำหรับการปรับค่าแบบ Tikhonovเราสามารถหาค่าพารามิเตอร์การปรับค่าได้โดยใช้การตรวจสอบความถูกต้องแบบตัดออก ทีละรายการ ในเวลาเดียวกับที่ใช้ในการแก้ปัญหาเพียงปัญหาเดียว[ 10 ]
ตัวลดค่าต่ำสุดของฟังก์ชันการสูญเสียกำลังสองสามารถหาได้โดยตรงจากสมการ (1) ดังนี้
การสูญเสียด้านโลจิสติกส์
ฟังก์ชันการสูญเสียโลจิสติกสามารถสร้างได้โดยใช้ (2) และตารางที่ 1 ดังต่อไปนี้
ฟังก์ชันความสูญเสียแบบโลจิสติกเป็นฟังก์ชันนูนและเติบโตแบบเชิงเส้นสำหรับค่าลบ ซึ่งทำให้มีความไวต่อค่าผิดปกติลดลง ฟังก์ชันความสูญเสียแบบโลจิสติกถูกนำไปใช้ใน อั ลก อริทึม LogitBoost
ตัวลดค่าต่ำสุดของฟังก์ชันการสูญเสียโลจิสติกสามารถหาได้โดยตรงจากสมการ (1) ดังนี้
ฟังก์ชันนี้ไม่ถูกกำหนดเมื่อหรือ (มีแนวโน้มเข้าสู่ ∞ และ −∞ ตามลำดับ) แต่ทำนายเส้นโค้งเรียบซึ่งเติบโตเมื่อเพิ่มขึ้น และเท่ากับ 0 เมื่อ[ 3 ]
ตรวจสอบได้ง่ายๆ ว่าค่าความสูญเสียแบบโลจิสติกและ ค่าความสูญเสียแบบไบนารี ครอส เอนโทรปี (ค่าความสูญเสียแบบลอการิทึม) นั้นเหมือนกัน (โดยมีค่าคงที่ตัวคูณเป็นตัวคูณ) ค่าความสูญเสียแบบครอสเอนโทรปีมีความเกี่ยวข้องอย่างใกล้ชิดกับความแตกต่างของคัลแบ็ก-ไลเบลอร์ระหว่างการแจกแจงเชิงประจักษ์และการแจกแจงที่ทำนายได้ ค่าความสูญเสียแบบครอสเอนโทรปีพบได้ทั่วไปในโครงข่ายประสาทเทียมเชิงลึกสมัยใหม่
การสูญเสียแบบเลขชี้กำลัง
ฟังก์ชันการสูญเสียแบบเอกซ์โพเนนเชียลสามารถสร้างได้โดยใช้ (2) และตารางที่ 1 ดังต่อไปนี้
ฟังก์ชันความสูญเสียแบบเอกซ์ponential มีลักษณะเป็นฟังก์ชันนูนและเพิ่มขึ้นแบบเอกซ์ponential สำหรับค่าลบ ซึ่งทำให้มีความไวต่อค่าผิดปกติมากขึ้น ฟังก์ชันความสูญเสียแบบ 0–1 ที่ถ่วงน้ำหนักแบบเอกซ์ponential ถูกนำมาใช้ในอัลกอริทึม AdaBoostโดยปริยาย ส่งผลให้เกิดฟังก์ชันความสูญเสียแบบเอกซ์ponential ขึ้น
ตัวลดค่าต่ำสุดของฟังก์ชันการสูญเสียแบบเอกซ์โปเนนเชียลสามารถหาได้โดยตรงจากสมการ (1) ดังนี้
ความพ่ายแพ้ที่โหดร้าย
การสูญเสีย Savage [ 7 ] สามารถสร้างได้โดยใช้ (2) และตาราง-I ดังต่อไปนี้
ฟังก์ชันความสูญเสียแบบ Savage มีลักษณะกึ่งนูนและมีขอบเขตจำกัดสำหรับค่าลบขนาดใหญ่ ทำให้มีความไวต่อค่าผิดปกติลดลง ฟังก์ชันความสูญเสียแบบ Savage ถูกนำไปใช้ในGradient Boostingและอัลกอริธึม SavageBoost
ตัวลดค่าต่ำสุดของฟังก์ชันการสูญเสีย Savage สามารถหาได้โดยตรงจากสมการ (1) ดังนี้
การสูญเสียแทนเจนต์
การสูญเสียแทนเจนต์[ 11 ]สามารถสร้างได้โดยใช้ (2) และตาราง-I ดังต่อไปนี้
ฟังก์ชัน Tangent loss เป็นแบบกึ่งนูนและมีขอบเขตสำหรับค่าลบขนาดใหญ่ ซึ่งทำให้มีความไวต่อค่าผิดปกติน้อยลง ที่น่าสนใจคือ Tangent loss ยังกำหนดค่าปรับที่มีขอบเขตให้กับจุดข้อมูลที่ถูกจัดประเภท "ถูกต้องเกินไป" ซึ่งสามารถช่วยป้องกันการฝึกฝนมากเกินไปในชุดข้อมูลได้ Tangent loss ถูกนำมาใช้ในgradient boosting , อัลกอริทึม TangentBoost และ Alternating Decision Forests [ 12 ]
ตัวลดค่าต่ำสุดของฟังก์ชันการสูญเสียแทนเจนต์สามารถหาได้โดยตรงจากสมการ (1) ดังนี้
การสูญเสียบานพับ
ฟังก์ชันการสูญเสียบานพับถูกกำหนดด้วยโดยที่คือฟังก์ชัน ส่วนบวก
การสูญเสียบานพับให้ขอบเขตบนที่ค่อนข้างแน่นและนูนสำหรับฟังก์ชันตัวบ่งชี้ 0–1 โดยเฉพาะอย่างยิ่ง การสูญเสียบานพับจะเท่ากับฟังก์ชันตัวบ่งชี้ 0–1 เมื่อและนอกจากนี้ การลดความเสี่ยงเชิงประจักษ์ของการสูญเสียนี้เทียบเท่ากับสูตรคลาสสิกสำหรับเครื่องเวกเตอร์สนับสนุน (SVM) จุดที่จำแนกได้อย่างถูกต้องซึ่งอยู่นอกขอบเขตของเวกเตอร์สนับสนุนจะไม่ถูกลงโทษ ในขณะที่จุดที่อยู่ภายในขอบเขตหรืออยู่ด้านที่ไม่ถูกต้องของระนาบไฮเปอร์จะถูกลงโทษในลักษณะเชิงเส้นเมื่อเทียบกับระยะห่างจากขอบเขตที่ถูกต้อง[ 4 ]
แม้ว่าฟังก์ชันการสูญเสียบานพับจะเป็นทั้งนูนและต่อเนื่อง แต่ก็ไม่เรียบ (ไม่สามารถหาอนุพันธ์ได้) ที่ดังนั้น ฟังก์ชันการสูญเสียบานพับจึงไม่สามารถใช้กับ วิธี การลดระดับความชันหรือ วิธี การลดระดับความชันแบบสุ่มซึ่งอาศัยความสามารถในการหาอนุพันธ์ได้ทั่วทั้งโดเมน อย่างไรก็ตาม การสูญเสียบานพับมีซับเกรเดียนต์ ที่ ซึ่งช่วยให้สามารถใช้วิธีการลดระดับความชันย่อยได้ [ 4 ] SVM ที่ใช้ฟังก์ชันการสูญเสียบานพับยังสามารถแก้ไขได้โดยใช้การ เขียนโปรแกรมกำลังสอง
ตัวลดค่าต่ำสุดของฟังก์ชันการสูญเสียบานพับคือ
เมื่อซึ่งตรงกับฟังก์ชันตัวบ่งชี้ 0–1 ข้อสรุปนี้ทำให้การสูญเสียบานพับค่อนข้างน่าสนใจ เนื่องจากสามารถวางขอบเขตของความแตกต่างระหว่างความเสี่ยงที่คาดหวังและเครื่องหมายของฟังก์ชันการสูญเสียบานพับได้[ 1 ]การสูญเสียบานพับไม่สามารถหาได้จาก (2) เนื่องจาก ไม่สามารถผกผันได้
การสูญเสียบานพับเรียบทั่วไป
ฟังก์ชันการสูญเสียบานพับเรียบทั่วไปที่มีพารามิเตอร์ถูกกำหนดดังนี้
ที่ไหน
ค่านี้จะลดลงอย่างต่อเนื่องและจะเข้าใกล้ 0 เมื่อ.
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ฟังก์ชันความสูญเสียสำหรับการจำแนกประเภท
ในการเรียนรู้ของเครื่องและการเพิ่มประสิทธิภาพทางคณิตศาสตร์ฟังก์ชันความสูญเสียสำหรับการจำแนกประเภทคือฟังก์ชันความสูญเสีย ที่สามารถคำนวณได้...
ความสอดคล้องของเบย์ส
โดยใช้ ทฤษฎีบทของเบย์ส สามารถแสดงได้ว่าค่าที่เหมาะสมที่สุด กล่าวคือ ค่าที่ลดความเสี่ยงที่คาดหวังที่เกี่ยวข้องกับการสูญเสียแบบศูนย์-หนึ่งให้เหลือน้อยที่สุด จะใช้กฎการตัดสินใจที่เหมาะสมที่สุดของเบย์สสำหรับปัญหาการจำแนกแบบไบนารี และอยู่ในรูปแบบของ เอฟ 0 / 1 *...
ฟังก์ชันการสูญเสียที่เหมาะสม อัตรากำไรจากการสูญเสีย และการปรับค่าให้เป็นระเบียบ
สำหรับฟังก์ชันการสูญเสียที่เหมาะสม ขอบเขตการสูญเสีย สามารถกำหนดได้เป็นและแสดงให้เห็นว่ามีความสัมพันธ์โดยตรงกับคุณสมบัติการควบคุมของตัวจำแนก [ 9 ] โดยเฉพาะอย่างยิ่ง...
การสูญเสียกำลังสอง
แม้ว่าโดยทั่วไปจะใช้ในด้านการถดถอย แต่ฟังก์ชันการสูญเสียกำลังสองสามารถเขียนใหม่เป็นฟังก์ชันและนำไปใช้ในการจำแนกประเภทได้ สามารถสร้างได้โดยใช้ (2) และตารางที่ 1 ดังต่อไปนี้ ϕ ( y f ( x → ) ) {\displaystyle \phi (yf({\vec {x}}))}