ฟังก์ชันความสูญเสียสำหรับการจำแนกประเภท

Q: การสูญเสียกำลังสอง

แม้ว่าโดยทั่วไปจะใช้ในด้านการถดถอย แต่ฟังก์ชันการสูญเสียกำลังสองสามารถเขียนใหม่เป็นฟังก์ชันและนำไปใช้ในการจำแนกประเภทได้ สามารถสร้างได้โดยใช้ (2) และตารางที่ 1 ดังต่อไปนี้ ϕ ( y f ( x → ) ) {\displaystyle \phi (yf({\vec {x}}))}

ฟังก์ชันความสูญเสียที่สอดคล้องกับเบย์ส: ความสูญเสียศูนย์หนึ่ง (สีเทา), ความสูญเสียแบบซาเวจ (สีเขียว), ความสูญเสียแบบโลจิสติก (สีส้ม), ความสูญเสียแบบเอกซ์โพเนนเชียล (สีม่วง), ความสูญเสียแบบแทนเจนต์ (สีน้ำตาล), ความสูญเสียแบบสแควร์ (สีน้ำเงิน)

ในการเรียนรู้ของเครื่องและการเพิ่มประสิทธิภาพทางคณิตศาสตร์ฟังก์ชันความสูญเสียสำหรับการจำแนกประเภทคือฟังก์ชันความสูญเสีย ที่สามารถคำนวณได้ ซึ่งแสดงถึงราคาที่จ่ายไปสำหรับความไม่แม่นยำของการทำนายในปัญหาการจำแนกประเภท (ปัญหาของการระบุว่าการสังเกตเฉพาะเจาะจงนั้นเป็นของหมวดหมู่ใด) ^{[ 1 ]} กำหนดให้เป็นพื้นที่ของอินพุตที่เป็นไปได้ทั้งหมด (โดยปกติคือ) และเป็นเซตของป้ายกำกับ (เอาต์พุตที่เป็นไปได้) เป้าหมายทั่วไปของอัลกอริธึมการจำแนกประเภทคือการค้นหาฟังก์ชันที่ทำนายป้ายกำกับได้ดีที่สุดสำหรับอินพุตที่กำหนด^[²^] อย่างไรก็ตาม เนื่องจากข้อมูลที่ไม่สมบูรณ์ สัญญาณรบกวนในการวัด หรือส่วนประกอบความน่าจะเป็นในกระบวนการพื้นฐาน จึงเป็นไปได้ที่ค่าเดียวกันจะสร้างค่าที่แตกต่างกัน[ ³^]^ด้วย เหตุนี้ เป้าหมายของปัญหาการเรียนรู้จึงเป็นการลดความสูญเสียที่คาดหวัง (หรือที่เรียกว่าความเสี่ยง) ซึ่งกำหนดเป็น ${\mathcal {X}}$ ${\mathcal {X}}\subset \mathbb {R} ^{d}$ ${\คณิตศาสตร์ {Y}}=\{-1,1\}$ $f:{\mathcal {X}}\to {\mathcal {Y}}$ $y$ ${\vec {x}}$ ${\vec {x}}$ $y$

I[f]=\displaystyle \int _{{\mathcal {X}}\times {\mathcal {Y}}}V(f({\vec {x}}),y)\,p({\vec {x}},y)\,d{\vec {x}}\,dy

โดยที่เป็นฟังก์ชันความสูญเสียที่กำหนด และ เป็นฟังก์ชันความหนาแน่นความน่าจะเป็นของกระบวนการที่สร้างข้อมูล ซึ่งสามารถเขียนได้ในรูปแบบที่เทียบเท่ากันดังนี้ $V(f({\vec {x}}),y)$ $p({\vec {x}},y)$

p({\vec {x}},y)=p(y\mid {\vec {x}})p({\vec {x}}).

ในการจำแนกประเภทฟังก์ชันความสูญเสีย ที่ใช้กันทั่วไปหลายฟังก์ชัน เขียนขึ้นโดยใช้ผลคูณของป้ายกำกับจริงและป้ายกำกับที่ทำนายไว้ เท่านั้น ดังนั้นจึงสามารถกำหนดให้เป็นฟังก์ชันของตัวแปรเพียงตัวเดียวได้โดยที่ด้วยฟังก์ชันที่เลือกอย่างเหมาะสม ฟังก์ชันเหล่านี้เรียกว่าฟังก์ชันความสูญเสียแบบอิงตามขอบเขตการเลือกฟังก์ชันความสูญเสียแบบอิงตามขอบเขตนั้นเทียบเท่ากับการเลือก การเลือกฟังก์ชันความสูญเสียภายในกรอบนี้ส่งผลต่อค่าที่เหมาะสมที่สุดซึ่งลดความเสี่ยงที่คาดหวังให้น้อยที่สุด ดูการลดความเสี่ยงเชิงประจักษ์ $y$ $f({\vec {x}})$ $\upsilon =yf({\vec {x}})$ $V(f({\vec {x}}),y)=\phi (yf({\vec {x}}))=\phi (\upsilon )$ $\phi :\mathbb {R} \to \mathbb {R}$ $\phi$ $f_{\phi }^{*}$

ในกรณีของการจำแนกแบบไบนารี สามารถลดความซับซ้อนของการคำนวณความเสี่ยงที่คาดหวังได้จากปริพันธ์ที่ระบุไว้ข้างต้น โดยเฉพาะอย่างยิ่ง

{\begin{aligned}I[f]&=\int _{{\mathcal {X}}\times {\mathcal {Y}}}V(f({\vec {x}}),y)\,p({\vec {x}},y)\,d{\vec {x}}\,dy\\[6pt]&=\int _{\mathcal {X}}\int _{\mathcal {Y}}\phi (yf({\vec {x}}))\,p(y\mid {\vec {x}})\,p({\vec {x}})\,dy\,d{\vec {x}}\\[6pt]&=\int _{\mathcal {X}}[\phi (f({\vec {x}})))\,p(1\mid {\vec {x}})+\phi (-f({\vec {x}}))\,p(-1\mid {\vec {x}})]\,p({\vec {x}})\,d{\vec {x}}\\[6pt]&=\int _{\mathcal {X}}[\phi (f({\vec {x}}))\,p(1\mid {\vec {x}})+\phi (-f({\vec {x}}))\,(1-p(1\mid {\vec {x}}))]\,p({\vec {x}})\,d{\vec {x}}\end{aligned}}

ความเท่าเทียมกันข้อที่สองเป็นผลมาจากคุณสมบัติที่อธิบายไว้ข้างต้น ความเท่าเทียมกันข้อที่สามเป็นผลมาจากข้อเท็จจริงที่ว่า 1 และ −1 เป็นค่าที่เป็นไปได้เพียงค่าเดียวสำหรับและความเท่าเทียมกันข้อที่สี่เป็นผลมาจาก พจน์ที่อยู่ในวงเล็บเรียกว่าความเสี่ยงแบบมีเงื่อนไข $y$ $p(-1\mid x)=1-p(1\mid x)$ $[\phi (f({\vec {x}}))p(1\mid {\vec {x}})+\phi (-f({\vec {x}}))(1-p(1\mid {\vec {x}}))]$

เราสามารถหาค่าต่ำสุดของได้โดยการหาอนุพันธ์เชิงฟังก์ชันของสมการสุดท้ายเทียบกับและกำหนดให้อนุพันธ์เท่ากับ 0 ซึ่งจะส่งผลให้ได้สมการต่อไปนี้ $I[f]$ $f$

{\frac {\partial \phi (f)}{\partial f}}\eta +{\frac {\partial \phi (-f)}{\partial f}}(1-\eta )=0,\;\;\;\;\;(1)

ซึ่งเทียบเท่ากับการกำหนดให้ค่าอนุพันธ์ของความเสี่ยงแบบมีเงื่อนไขเท่ากับศูนย์ $\eta =p(y=1|{\vec {x}})$

เนื่องจากลักษณะการจำแนกประเภทเป็นแบบไบนารี การเลือกตามธรรมชาติสำหรับฟังก์ชันความสูญเสีย (โดยสมมติว่าต้นทุนเท่ากันสำหรับผลบวกเท็จและผลลบเท็จ ) จะเป็นฟังก์ชันความสูญเสีย 0-1 ( ฟังก์ชันตัวบ่งชี้ 0-1 ) ซึ่งจะมีค่าเป็น 0 หากการจำแนกประเภทที่คาดการณ์ไว้เท่ากับการจำแนกประเภทที่แท้จริง หรือมีค่าเป็น 1 หากการจำแนกประเภทที่คาดการณ์ไว้ไม่ตรงกับการจำแนกประเภทที่แท้จริง การเลือกนี้จำลองโดย

V(f({\vec {x}}),y)=H(-yf({\vec {x}}))

โดยที่แสดงถึงฟังก์ชันขั้นบันไดของ Heavisideอย่างไรก็ตาม ฟังก์ชันการสูญเสียนี้ไม่นูนและไม่เรียบ และการแก้ปัญหาเพื่อหาคำตอบที่เหมาะสมที่สุดเป็นปัญหาการเพิ่มประสิทธิภาพเชิงรวมแบบNP-hard ^[⁴^] ด้วยเหตุนี้ จึงเป็นการดีกว่าที่จะแทนที่ด้วยฟังก์ชันการสูญเสียทดแทนซึ่งสามารถจัดการได้สำหรับอัลกอริธึมการเรียนรู้ที่ใช้กันทั่วไป เนื่องจากมีคุณสมบัติที่สะดวก เช่น นูนและเรียบ นอกจากความสามารถในการคำนวณแล้ว ยังสามารถแสดงให้เห็นได้ว่าคำตอบของปัญหาการเรียนรู้โดยใช้ฟังก์ชันการสูญเสียทดแทนเหล่านี้ช่วยให้สามารถกู้คืนคำตอบที่แท้จริงของปัญหาการจำแนกประเภทดั้งเดิมได้^[⁵^] ฟังก์ชันทดแทนเหล่านี้บางส่วนจะอธิบายไว้ด้านล่าง $H$

ในทางปฏิบัติ การกระจายความน่าจะเป็นนั้นไม่เป็นที่รู้จัก ดังนั้น การใช้ชุดข้อมูลฝึกฝนที่มีจุดตัวอย่าง ที่กระจายตัวอย่างอิสระและเหมือนกัน จึงเป็นสิ่งจำเป็น $p({\vec {x}},y)$ $n$

S=\{({\vec {x}}_{1},y_{1}),\dots ,({\vec {x}}_{n},y_{n})\}

เมื่อดึงข้อมูล ตัวอย่างจากปริภูมิข้อมูลแล้ว เราพยายามลดความเสี่ยงเชิงประจักษ์ให้น้อยที่สุด

I_{S}[f]={\frac {1}{n}}\sum _{i=1}^{n}V(f({\vec {x}}_{i}),y_{i})

เป็นตัวแทนสำหรับความเสี่ยงที่คาดหวัง^{[ 3 ]} (ดูทฤษฎีการเรียนรู้ทางสถิติสำหรับคำอธิบายโดยละเอียดเพิ่มเติม)

ความสอดคล้องของเบย์ส

โดยใช้ทฤษฎีบทของเบย์สสามารถแสดงได้ว่าค่าที่เหมาะสมที่สุด กล่าวคือ ค่าที่ลดความเสี่ยงที่คาดหวังที่เกี่ยวข้องกับการสูญเสียแบบศูนย์-หนึ่งให้เหลือน้อยที่สุด จะใช้กฎการตัดสินใจที่เหมาะสมที่สุดของเบย์สสำหรับปัญหาการจำแนกแบบไบนารี และอยู่ในรูปแบบของ $f_{0/1}^{*}$

f_{0/1}^{*}({\vec {x}})\;=\;{\begin{cases}\;\;\;1&{\text{ถ้า }}p(1\mid {\vec {x}})>p(-1\mid {\vec {x}})\\\;\;\;0&{\text{ถ้า }}p(1\mid {\vec {x}})=p(-1\mid {\vec {x}})\\-1&{\text{ถ้า }}p(1\mid {\vec {x}})<p(-1\mid {\vec {x}})\end{cases}}

.

กล่าวได้ว่าฟังก์ชันความสูญเสียได้รับการปรับเทียบสำหรับการจำแนกประเภทหรือสอดคล้องกับหลักการของเบย์สหากค่าที่เหมาะสมที่สุดของฟังก์ชันนั้นเป็นไปตามเงื่อนไขและดังนั้นจึงเป็นค่าที่เหมาะสมที่สุดภายใต้กฎการตัดสินใจของเบย์ส ฟังก์ชันความสูญเสียที่สอดคล้องกับหลักการของเบย์สช่วยให้เราสามารถค้นหาฟังก์ชันการตัดสินใจที่เหมาะสมที่สุดของเบย์สได้โดยการลดความเสี่ยงที่คาดหวังให้น้อยที่สุดโดยตรง และโดยไม่ต้องสร้างแบบจำลองฟังก์ชันความหนาแน่นของความน่าจะเป็นอย่างชัดเจน $f_{\phi }^{*}$ $f_{0/1}^{*}({\vec {x}})=\operatorname {sgn} (f_{\phi }^{*}({\vec {x}}))$ $f_{\phi }^{*}$

สำหรับการสูญเสียระยะขอบนูนสามารถแสดงได้ว่ามีความสอดคล้องแบบเบย์สก็ต่อเมื่อสามารถหาอนุพันธ์ได้ที่ 0 และ[ ⁶^]^[¹^]^{อย่างไรก็ตาม}ผลลัพธ์นี้ไม่ได้ตัดความเป็นไปได้ของการมีอยู่ของฟังก์ชันการสูญเสียที่ไม่นูนซึ่งมีความสอดคล้องแบบเบย์ส ผลลัพธ์ทั่วไปมากขึ้นระบุว่าฟังก์ชันการสูญเสียที่มีความสอดคล้องแบบเบย์สสามารถสร้างขึ้นได้โดยใช้สูตรต่อไปนี้^[⁷^] $\phi (\upsilon )$ $\phi (\upsilon )$ $\phi '(0)<0$

\phi (v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]\;\;\;\;\;(2)

,

โดยที่เป็นฟังก์ชันผกผันได้ใดๆ ที่และเป็นฟังก์ชันเว้าอย่างเคร่งครัดที่หาอนุพันธ์ได้ใดๆ ที่ตารางที่ 1 แสดงฟังก์ชันการสูญเสียที่สอดคล้องกับ Bayes ที่สร้างขึ้นสำหรับตัวเลือกตัวอย่างบางส่วนของและโปรดทราบว่าการสูญเสีย Savage และ Tangent ไม่ใช่ฟังก์ชันนูน ฟังก์ชันการสูญเสียที่ไม่นูนดังกล่าวได้รับการพิสูจน์แล้วว่ามีประโยชน์ในการจัดการกับค่าผิดปกติในการจำแนกประเภท^[⁷^]^[⁸^]สำหรับฟังก์ชันการสูญเสียทั้งหมดที่สร้างจาก (2) ความน่าจะเป็นภายหลังสามารถหาได้โดยใช้ฟังก์ชันเชื่อมโยง ผกผันได้เป็น ฟังก์ชันการสูญเสียดัง กล่าว ที่ความน่าจะเป็นภายหลังสามารถกู้คืนได้โดยใช้การเชื่อมโยงผกผันได้เรียกว่าฟังก์ชันการสูญเสียที่เหมาะสม $f(\eta ),(0\leq \eta \leq 1)$ $f^{-1}(-v)=1-f^{-1}(v)$ $C(\eta )$ $C(\eta )=C(1-\eta )$ $C(\eta )$ $f^{-1}(v)$ $p(y=1|{\vec {x}})$ $p(y=1|{\vec {x}})=\eta =f^{-1}(v)$

ตารางที่ 1
ชื่อที่หายไป	$\phi (v)$	$C(\eta )$	$f^{-1}(v)$	$f(\eta )$
เลขชี้กำลัง	$e^{-v}$	$2{\sqrt {\eta (1-\eta )}}$	${\frac {e^{2v}}{1+e^{2v}}}$	${\frac {1}{2}}\log({\frac {\eta }{1-\eta }})$
โลจิสติกส์	${\frac {1}{\log(2)}}\log(1+e^{-v})$	${\frac {1}{\log(2)}}[-\eta \log(\eta )-(1-\eta )\log(1-\eta )]$	${\frac {e^{v}}{1+e^{v}}}$	$\log({\frac {\eta }{1-\eta }})$
สี่เหลี่ยม	$(1-v)^{2}$	$4\eta (1-\eta )$	${\frac {1}{2}}(v+1)$	$2\eta -1$
ป่าเถื่อน	${\frac {1}{(1+e^{v})^{2}}}$	$\eta (1-\eta )$	${\frac {e^{v}}{1+e^{v}}}$	$\log({\frac {\eta }{1-\eta }})$
แทนเจนต์	$(2\arctan(v)-1)^{2}$	$4\eta (1-\eta )$	$\arctan(v)+{\frac {1}{2}}$	$\tan(\eta -{\frac {1}{2}})$

ตัวลดค่าต่ำสุดเพียงตัวเดียวของความเสี่ยงที่คาดหวังที่เกี่ยวข้องกับฟังก์ชันการสูญเสียที่สร้างขึ้นข้างต้นสามารถหาได้โดยตรงจากสมการ (1) และแสดงให้เห็นว่าเท่ากับ ที่สอดคล้องกัน สิ่งนี้เป็นจริง แม้สำหรับฟังก์ชันการสูญเสียที่ไม่นูน ซึ่งหมายความว่า สามารถใช้ อัลกอริธึมที่ใช้การลดระดับความชัน เช่นการเพิ่มประสิทธิภาพความชัน เพื่อสร้างตัวลดค่าต่ำสุดได้ $f_{\phi }^{*}$ $f(\eta )$

ฟังก์ชันการสูญเสียที่เหมาะสม อัตรากำไรจากการสูญเสีย และการปรับค่าให้เป็นระเบียบ

(สีแดง) ค่าความสูญเสียโลจิสติกมาตรฐาน ( ) และ (สีน้ำเงิน) ค่าความสูญเสียโลจิสติกที่เพิ่มขึ้น ( ) $\gamma =1,\mu =2$ $\gamma =0.2$

สำหรับฟังก์ชันการสูญเสียที่เหมาะสมขอบเขตการสูญเสียสามารถกำหนดได้เป็นและแสดงให้เห็นว่ามีความสัมพันธ์โดยตรงกับคุณสมบัติการควบคุมของตัวจำแนก^[⁹^]โดยเฉพาะอย่างยิ่ง ฟังก์ชันการสูญเสียที่มีขอบเขตที่ใหญ่ขึ้นจะเพิ่มการควบคุมและสร้างการประมาณค่าความน่าจะเป็นภายหลังที่ดีขึ้น ตัวอย่างเช่น ขอบเขตการสูญเสียสามารถเพิ่มขึ้นสำหรับการสูญเสียแบบโลจิสติกได้โดยการแนะนำพารามิเตอร์ และเขียนการสูญเสียแบบโลจิสติกเป็น โดย ที่ค่าที่เล็กลงจะเพิ่มขอบเขตของการสูญเสีย แสดงให้เห็นว่าสิ่งนี้เทียบเท่าโดยตรงกับการลดอัตราการเรียนรู้ในการเพิ่มประสิทธิภาพแบบไล่ระดับซึ่งการลดค่าลงจะช่วยปรับปรุงการควบคุมของตัวจำแนกที่ได้รับการเพิ่มประสิทธิภาพ ทฤษฎีทำให้ชัดเจนว่าเมื่อใช้อัตราการเรียนรู้ของ สูตรที่ถูกต้องสำหรับการดึงความน่าจะเป็นภายหลังคือ $\mu _{\phi }=-{\frac {\phi '(0)}{\phi ''(0)}}$ $\gamma$ ${\frac {1}{\gamma }}\log(1+e^{-\gamma v})$ $0<\gamma <1$ $F_{m}(x)=F_{m-1}(x)+\gamma h_{m}(x),$ $\gamma$ $\gamma$ $\eta =f^{-1}(\gamma F(x))$

โดยสรุป การเลือกฟังก์ชันความสูญเสียที่มีขอบเขตมากขึ้น (ค่า) จะช่วยเพิ่มการควบคุมและปรับปรุงการประมาณค่าความน่าจะเป็นภายหลัง ซึ่งจะช่วยปรับปรุงเส้นโค้ง ROC ของตัวจำแนกขั้นสุดท้ายให้ดีขึ้น $\gamma$

การสูญเสียกำลังสอง

แม้ว่าโดยทั่วไปจะใช้ในด้านการถดถอย แต่ฟังก์ชันการสูญเสียกำลังสองสามารถเขียนใหม่เป็นฟังก์ชันและนำไปใช้ในการจำแนกประเภทได้ สามารถสร้างได้โดยใช้ (2) และตารางที่ 1 ดังต่อไปนี้ $\phi (yf({\vec {x}}))$

\phi (v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]=4({\frac {1}{2}}(v+1))(1-{\frac {1}{2}}(v+1))+(1-{\frac {1}{2}}(v+1))(4-8({\frac {1}{2}}(v+1)))=(1-v)^{2}.

ฟังก์ชันการสูญเสียกำลังสองเป็นทั้งนูนและเรียบ อย่างไรก็ตาม ฟังก์ชันการสูญเสียกำลังสองมีแนวโน้มที่จะลงโทษค่าผิดปกติมากเกินไป ส่งผลให้อัตราการบรรจบกันช้าลง (เมื่อพิจารณาถึงความซับซ้อนของตัวอย่าง) เมื่อเทียบกับฟังก์ชันการสูญเสียแบบโลจิสติกหรือฟังก์ชันการสูญเสียแบบบานพับ^{[ 1 ]} นอกจากนี้ ฟังก์ชันที่ให้ค่าสูงของสำหรับบางค่าจะทำงานได้ไม่ดีกับฟังก์ชันการสูญเสียกำลังสอง เนื่องจากค่าสูงของจะถูกลงโทษอย่างรุนแรง ไม่ว่าเครื่องหมายของและจะตรงกัน หรือไม่ก็ตาม $f({\vec {x}})$ $x\in X$ $yf({\vec {x}})$ $y$ $f({\vec {x}})$

ข้อดีของฟังก์ชันการสูญเสียกำลังสองคือโครงสร้างของมันเอื้อต่อการตรวจสอบความถูกต้องของพารามิเตอร์การปรับค่าได้ง่าย โดยเฉพาะอย่างยิ่งสำหรับการปรับค่าแบบ Tikhonovเราสามารถหาค่าพารามิเตอร์การปรับค่าได้โดยใช้การตรวจสอบความถูกต้องแบบตัดออก ทีละรายการ ในเวลาเดียวกับที่ใช้ในการแก้ปัญหาเพียงปัญหาเดียว^{[ 10 ]}

ตัวลดค่าต่ำสุดของฟังก์ชันการสูญเสียกำลังสองสามารถหาได้โดยตรงจากสมการ (1) ดังนี้ $I[f]$

f_{\text{Square}}^{*}=2\eta -1=2p(1\mid x)-1.

การสูญเสียด้านโลจิสติกส์

ฟังก์ชันการสูญเสียโลจิสติกสามารถสร้างได้โดยใช้ (2) และตารางที่ 1 ดังต่อไปนี้

{\begin{aligned}\phi (v)&=C[f^{-1}(v)]+\left(1-f^{-1}(v)\right)\,C'\left[f^{-1}(v)\right]\\&={\frac {1}{\log(2)}}\left[{\frac {-e^{v}}{1+e^{v}}}\log {\frac {e^{v}}{1+e^{v}}}-\left(1-{\frac {e^{v}}{1+e^{v}}}\right)\log \left(1-{\frac {e^{v}}{1+e^{v}}}\right)\right]+\left(1-{\frac {e^{v}}{1+e^{v}}}\right)\left[{\frac {-1}{\log(2)}}\log \left({\frac {\frac {e^{v}}{1+e^{v}}}{1-{\frac {e^{v}}{1+e^{v}}}}}\right)\right]\\&={\frac {1}{\log(2)}}\log(1+e^{-v}).\end{aligned}}

ฟังก์ชันความสูญเสียแบบโลจิสติกเป็นฟังก์ชันนูนและเติบโตแบบเชิงเส้นสำหรับค่าลบ ซึ่งทำให้มีความไวต่อค่าผิดปกติลดลง ฟังก์ชันความสูญเสียแบบโลจิสติกถูกนำไปใช้ใน อั ลก อริทึม LogitBoost

ตัวลดค่าต่ำสุดของฟังก์ชันการสูญเสียโลจิสติกสามารถหาได้โดยตรงจากสมการ (1) ดังนี้ $I[f]$

f_{\text{Logistic}}^{*}=\log \left({\frac {\eta }{1-\eta }}\right)=\log \left({\frac {p(1\mid x)}{1-p(1\mid x)}}\right).

ฟังก์ชันนี้ไม่ถูกกำหนดเมื่อหรือ (มีแนวโน้มเข้าสู่ ∞ และ −∞ ตามลำดับ) แต่ทำนายเส้นโค้งเรียบซึ่งเติบโตเมื่อเพิ่มขึ้น และเท่ากับ 0 เมื่อ^[³^] $p(1\mid x)=1$ $p(1\mid x)=0$ $p(1\mid x)$ $p(1\mid x)=0.5$

ตรวจสอบได้ง่ายๆ ว่าค่าความสูญเสียแบบโลจิสติกและ ค่าความสูญเสียแบบไบนารี ครอส เอนโทรปี (ค่าความสูญเสียแบบลอการิทึม) นั้นเหมือนกัน (โดยมีค่าคงที่ตัวคูณเป็นตัวคูณ) ค่าความสูญเสียแบบครอสเอนโทรปีมีความเกี่ยวข้องอย่างใกล้ชิดกับความแตกต่างของคัลแบ็ก-ไลเบลอร์ระหว่างการแจกแจงเชิงประจักษ์และการแจกแจงที่ทำนายได้ ค่าความสูญเสียแบบครอสเอนโทรปีพบได้ทั่วไปในโครงข่ายประสาทเทียมเชิงลึกสมัยใหม่ ${\frac {1}{\log(2)}}$

การสูญเสียแบบเลขชี้กำลัง

ฟังก์ชันการสูญเสียแบบเอกซ์โพเนนเชียลสามารถสร้างได้โดยใช้ (2) และตารางที่ 1 ดังต่อไปนี้

\phi (v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]=2{\sqrt {\left({\frac {e^{2v}}{1+e^{2v}}}\right)\left(1-{\frac {e^{2v}}{1+e^{2v}}}\right)}}+\left(1-{\frac {e^{2v}}{1+e^{2v}}}\right)\left({\frac {1-{\frac {2e^{2v}}{1+e^{2v}}}}{\sqrt {{\frac {e^{2v}}{1+e^{2v}}}(1-{\frac {e^{2v}}{1+e^{2v}}})}}}\right)=e^{-v}

ฟังก์ชันความสูญเสียแบบเอกซ์ponential มีลักษณะเป็นฟังก์ชันนูนและเพิ่มขึ้นแบบเอกซ์ponential สำหรับค่าลบ ซึ่งทำให้มีความไวต่อค่าผิดปกติมากขึ้น ฟังก์ชันความสูญเสียแบบ 0–1 ที่ถ่วงน้ำหนักแบบเอกซ์ponential ถูกนำมาใช้ในอัลกอริทึม AdaBoostโดยปริยาย ส่งผลให้เกิดฟังก์ชันความสูญเสียแบบเอกซ์ponential ขึ้น

ตัวลดค่าต่ำสุดของฟังก์ชันการสูญเสียแบบเอกซ์โปเนนเชียลสามารถหาได้โดยตรงจากสมการ (1) ดังนี้ $I[f]$

f_{\text{Exp}}^{*}={\frac {1}{2}}\log \left({\frac {\eta }{1-\eta }}\right)={\frac {1}{2}}\log \left({\frac {p(1\mid x)}{1-p(1\mid x)}}\right).

ความพ่ายแพ้ที่โหดร้าย

การสูญเสีย Savage ^{[ 7 ]} สามารถสร้างได้โดยใช้ (2) และตาราง-I ดังต่อไปนี้

\phi (v)=C[f^{-1}(v)]+(1-f^{-1}(v))C'[f^{-1}(v)]=\left({\frac {e^{v}}{1+e^{v}}}\right)\left(1-{\frac {e^{v}}{1+e^{v}}}\right)+\left(1-{\frac {e^{v}}{1+e^{v}}}\right)\left(1-{\frac {2e^{v}}{1+e^{v}}}\right)={\frac {1}{(1+e^{v})^{2}}}.

ฟังก์ชันความสูญเสียแบบ Savage มีลักษณะกึ่งนูนและมีขอบเขตจำกัดสำหรับค่าลบขนาดใหญ่ ทำให้มีความไวต่อค่าผิดปกติลดลง ฟังก์ชันความสูญเสียแบบ Savage ถูกนำไปใช้ในGradient Boostingและอัลกอริธึม SavageBoost

ตัวลดค่าต่ำสุดของฟังก์ชันการสูญเสีย Savage สามารถหาได้โดยตรงจากสมการ (1) ดังนี้ $I[f]$

f_{\text{Savage}}^{*}=\log \left({\frac {\eta }{1-\eta }}\right)=\log \left({\frac {p(1\mid x)}{1-p(1\mid x)}}\right).

การสูญเสียแทนเจนต์

การสูญเสียแทนเจนต์^{[ 11 ]}สามารถสร้างได้โดยใช้ (2) และตาราง-I ดังต่อไปนี้

{\begin{aligned}\phi (v)&=C[f^{-1}(v)]+\left(1-f^{-1}(v)\right)C'[f^{-1}(v)]\\&=4\left(\arctan(v)+{\frac {1}{2}}\right)\left(1-\left(\arctan(v)+{\frac {1}{2}}\right)\right)+\left(1-\left(\arctan(v)+{\frac {1}{2}}\right)\right)\left(4-8\left(\arctan(v)+{\frac {1}{2}}\right)\right)\\&=\left(2\arctan(v)-1\right)^{2}.\end{aligned}}

ฟังก์ชัน Tangent loss เป็นแบบกึ่งนูนและมีขอบเขตสำหรับค่าลบขนาดใหญ่ ซึ่งทำให้มีความไวต่อค่าผิดปกติน้อยลง ที่น่าสนใจคือ Tangent loss ยังกำหนดค่าปรับที่มีขอบเขตให้กับจุดข้อมูลที่ถูกจัดประเภท "ถูกต้องเกินไป" ซึ่งสามารถช่วยป้องกันการฝึกฝนมากเกินไปในชุดข้อมูลได้ Tangent loss ถูกนำมาใช้ในgradient boosting , อัลกอริทึม TangentBoost และ Alternating Decision Forests ^{[ 12 ]}

ตัวลดค่าต่ำสุดของฟังก์ชันการสูญเสียแทนเจนต์สามารถหาได้โดยตรงจากสมการ (1) ดังนี้ $I[f]$

f_{\text{Tangent}}^{*}=\tan \left(\eta -{\frac {1}{2}}\right)=\tan \left(p\left(1\mid x\right)-{\frac {1}{2}}\right).

การสูญเสียบานพับ

ฟังก์ชันการสูญเสียบานพับถูกกำหนดด้วยโดยที่คือฟังก์ชัน ส่วนบวก $\phi (\upsilon )=\max(0,1-\upsilon )=[1-\upsilon ]_{+}$ $[a]_{+}=\max(0,a)$

V(f({\vec {x}}),y)=\max(0,1-yf({\vec {x}}))=[1-yf({\vec {x}})]_{+}.

การสูญเสียบานพับให้ขอบเขตบนที่ค่อนข้างแน่นและนูนสำหรับฟังก์ชันตัวบ่งชี้ 0–1 โดยเฉพาะอย่างยิ่ง การสูญเสียบานพับจะเท่ากับฟังก์ชันตัวบ่งชี้ 0–1 เมื่อและนอกจากนี้ การลดความเสี่ยงเชิงประจักษ์ของการสูญเสียนี้เทียบเท่ากับสูตรคลาสสิกสำหรับเครื่องเวกเตอร์สนับสนุน (SVM) จุดที่จำแนกได้อย่างถูกต้องซึ่งอยู่นอกขอบเขตของเวกเตอร์สนับสนุนจะไม่ถูกลงโทษ ในขณะที่จุดที่อยู่ภายในขอบเขตหรืออยู่ด้านที่ไม่ถูกต้องของระนาบไฮเปอร์จะถูกลงโทษในลักษณะเชิงเส้นเมื่อเทียบกับระยะห่างจากขอบเขตที่ถูกต้อง^[⁴^] $\operatorname {sgn} (f({\vec {x}}))=y$ $|yf({\vec {x}})|\geq 1$

แม้ว่าฟังก์ชันการสูญเสียบานพับจะเป็นทั้งนูนและต่อเนื่อง แต่ก็ไม่เรียบ (ไม่สามารถหาอนุพันธ์ได้) ที่ดังนั้น ฟังก์ชันการสูญเสียบานพับจึงไม่สามารถใช้กับ วิธี การลดระดับความชันหรือ วิธี การลดระดับความชันแบบสุ่มซึ่งอาศัยความสามารถในการหาอนุพันธ์ได้ทั่วทั้งโดเมน อย่างไรก็ตาม การสูญเสียบานพับมีซับเกรเดียนต์ ที่ ซึ่งช่วยให้สามารถใช้วิธีการลดระดับความชันย่อยได้ [ ⁴^]^SVM ที่ใช้ฟังก์ชันการสูญเสียบานพับยังสามารถแก้ไขได้โดยใช้การ เขียนโปรแกรมกำลังสอง $yf({\vec {x}})=1$ $yf({\vec {x}})=1$

ตัวลดค่าต่ำสุดของฟังก์ชันการสูญเสียบานพับคือ $I[f]$

f_{\text{Hinge}}^{*}({\vec {x}})\;=\;{\begin{cases}1&{\text{if }}p(1\mid {\vec {x}})>p(-1\mid {\vec {x}})\\-1&{\text{if }}p(1\mid {\vec {x}})<p(-1\mid {\vec {x}})\end{cases}}

เมื่อซึ่งตรงกับฟังก์ชันตัวบ่งชี้ 0–1 ข้อสรุปนี้ทำให้การสูญเสียบานพับค่อนข้างน่าสนใจ เนื่องจากสามารถวางขอบเขตของความแตกต่างระหว่างความเสี่ยงที่คาดหวังและเครื่องหมายของฟังก์ชันการสูญเสียบานพับได้^[¹^]การสูญเสียบานพับไม่สามารถหาได้จาก (2) เนื่องจาก ไม่สามารถผกผันได้ $p(1\mid x)\neq 0.5$ $f_{\text{Hinge}}^{*}$

การสูญเสียบานพับเรียบทั่วไป

ฟังก์ชันการสูญเสียบานพับเรียบทั่วไปที่มีพารามิเตอร์ถูกกำหนดดังนี้ $\alpha$

f_{\alpha }^{*}(z)\;=\;{\begin{cases}{\frac {\alpha }{\alpha +1}}-z&{\text{if }}z\leq 0\\{\frac {1}{\alpha +1}}z^{\alpha +1}-z+{\frac {\alpha }{\alpha +1}}&{\text{if }}0<z<1\\0&{\text{if }}z\geq 1\end{cases}},

ที่ไหน

z=yf({\vec {x}}).

ค่านี้จะลดลงอย่างต่อเนื่องและจะเข้าใกล้ 0 เมื่อ. $z=1$

ดูเพิ่มเติม

[ 1 ]

[

3

[

[

6

[

[

[ 10 ]

[ 11 ]

[ 12 ]