ทฤษฎีตัวแทน

Q: คำแถลงอย่างเป็นทางการ

ทฤษฎีบทตัวแทนต่อไปนี้และการพิสูจน์เป็นผลงานของ Schölkopf , Herbrich และ Smola: [ 1 ]

ในสาขาวิทยาการคอมพิวเตอร์ในทฤษฎีการเรียนรู้เชิงสถิติ ทฤษฎีบท ตัวแทน(Representer Theorem)คือผลลัพธ์ที่เกี่ยวข้องหลายประการที่ระบุว่า ตัวลดค่าต่ำสุดของฟังก์ชันความเสี่ยงเชิงประจักษ์ แบบมีระเบียบ (Regularized Empirical Risk Function ) ที่กำหนดไว้บนปริภูมิฮิลเบิร์ตเคอร์เนลแบบสร้างซ้ำ (Reproducing Kernel Hilbert Space)สามารถแสดงได้ในรูปของการรวมเชิงเส้นจำกัดของผลคูณเคอร์เนลที่ประเมินค่าบนจุดอินพุตในชุดข้อมูลฝึกฝน $f^{*}$

คำแถลงอย่างเป็นทางการ

ทฤษฎีบทตัวแทนต่อไปนี้และการพิสูจน์เป็นผลงานของSchölkopf , Herbrich และ Smola: ^{[ 1 ]}

ทฤษฎีบท:พิจารณาเคอร์เนลค่าจริงบวกแน่นอนบนเซตที่ไม่ว่างเปล่าพร้อมด้วยปริภูมิฮิลเบิร์ตเคอร์เนลสร้างซ้ำที่สอดคล้องกันให้มี ที่กำหนดไว้ $k:{\mathcal {X}}\times {\mathcal {X}}\to \mathbb {R}$ ${\mathcal {X}}$ $H_{k}$

ตัวอย่างการฝึกอบรม $(x_{1},y_{1}),\dotsc ,(x_{n},y_{n})\in {\mathcal {X}}\times \mathbb {R}$
ฟังก์ชันค่าจริงที่เพิ่มขึ้นอย่างเคร่งครัดและ $g\colon [0,\infty )\to \mathbb {R}$
ฟังก์ชันข้อผิดพลาดตามอำเภอใจ $E\colon ({\mathcal {X}}\times \mathbb {R} ^{2})^{n}\to \mathbb {R} \cup \lbrace \infty \rbrace$

ซึ่งรวมกันแล้วกำหนดฟังก์ชันความเสี่ยงเชิงประจักษ์แบบปรับปรุงดังต่อไปนี้: $H_{k}$

f\mapsto E\left((x_{1},y_{1},f(x_{1})),\ldots ,(x_{n},y_{n},f(x_{n}))\right)+g\left(\lVert f\rVert \right).

จากนั้น ตัวลดความเสี่ยงเชิงประจักษ์ใดๆ

f^{*}={\underset {f\in H_{k}}{\operatorname {argmin} }}\left\lbrace E\left((x_{1},y_{1},f(x_{1})),\ldots ,(x_{n},y_{n},f(x_{n}))\right)+g\left(\lVert f\rVert \right)\right\rbrace ,\quad (*)

ยอมรับการแสดงผลในรูปแบบ:

f^{*}(\cdot )=\sum _{i=1}^{n}\alpha _{i}k(\cdot ,x_{i}),

ที่สำหรับทุกคน $\alpha _{i}\in \mathbb {R}$ $1\leq i\leq n$

พิสูจน์: กำหนดการแมปปิ้ง

{\begin{aligned}\varphi \colon {\mathcal {X}}&\to H_{k}\\\varphi (x)&=k(\cdot ,x)\end{aligned}}

(ดังนั้นตัวมันเองจึงเป็นแผนที่) เนื่องจากเป็นเคอร์เนลที่สร้างซ้ำได้ ดังนั้น $\varphi (x)=k(\cdot ,x)$ ${\mathcal {X}}\to \mathbb {R}$ $k$

\varphi (x)(x')=k(x',x)=\langle \varphi (x'),\varphi (x)\rangle ,

ผลคูณภายใน ของ อยู่ที่ไหน $\langle \cdot ,\cdot \rangle$ $H_{k}$

เมื่อกำหนดค่าใดๆ มาแล้วเราสามารถใช้การฉายภาพเชิงตั้งฉากเพื่อแยกค่าใดๆ ออกเป็นผลรวมของฟังก์ชันสองฟังก์ชัน โดยฟังก์ชันหนึ่งอยู่ในและอีกฟังก์ชันหนึ่งอยู่ในส่วนเติมเต็มเชิงตั้งฉาก : $x_{1},\ldots ,x_{n}$ $f\in H_{k}$ $\operatorname {span} \left\lbrace \varphi (x_{1}),\ldots ,\varphi (x_{n})\right\rbrace$

f=\sum _{i=1}^{n}\alpha _{i}\varphi (x_{i})+v,

ที่สำหรับทุกคน $\langle v,\varphi (x_{i})\rangle =0$ $i$

การแยกส่วนประกอบเชิงตั้งฉากข้างต้นและคุณสมบัติการสร้างซ้ำร่วมกันแสดงให้เห็นว่า การนำไปใช้กับจุดฝึกอบรมใดๆ ก็ตามจะสร้างผลลัพธ์ $f$ $x_{j}$

f(x_{j})=\left\langle \sum _{i=1}^{n}\alpha _{i}\varphi (x_{i})+v,\varphi (x_{j})\right\rangle =\sum _{i=1}^{n}\alpha _{i}\langle \varphi (x_{i}),\varphi (x_{j})\ระยะ ,

ซึ่งเราสังเกตว่าไม่ขึ้นอยู่กับดังนั้น ค่าของฟังก์ชันข้อผิดพลาดใน (*) จึงไม่ขึ้นอยู่กับ เช่นกันสำหรับพจน์ที่สอง (พจน์การปรับค่า) เนื่องจากตั้งฉากกับและเป็นฟังก์ชันโมโนโทนิกอย่างเคร่งครัด เราจึงมี $v$ $E$ $v$ $v$ $\sum _{i=1}^{n}\alpha _{i}\varphi (x_{i})$ $g$

{\begin{aligned}g\left(\lVert f\rVert \right)&=g\left(\lVert \sum _{i=1}^{n}\alpha _{i}\varphi (x_{i})+v\rVert \right)\\&=g\left({\sqrt {\lVert \sum _{i=1}^{n}\alpha _{i}\varphi (x_{i})\rVert ^{2}+\lVert v\rVert ^{2}}}\right)\\&\geq g\left(\lVert \sum _{i=1}^{n}\alpha _{i}\varphi (x_{i})\rVert \right).\end{aligned}}

ดังนั้น การตั้งค่าจึงไม่มีผลต่อพจน์แรกของ (*) ในขณะที่มันลดพจน์ที่สองลงอย่างชัดเจน ด้วยเหตุนี้ ตัวลดค่าต่ำสุดใดๆใน (*) จะต้องมีนั่นคือ จะต้องอยู่ในรูปแบบ $v=0$ $f^{*}$ $v=0$

f^{*}(\cdot )=\sum _{i=1}^{n}\alpha _{i}\varphi (x_{i})=\sum _{i=1}^{n}\alpha _{i}k(\cdot ,x_{i}),

ซึ่งเป็นผลลัพธ์ที่ต้องการ

การสรุปโดยทั่วไป

ทฤษฎีบทที่กล่าวไว้ข้างต้นเป็นตัวอย่างเฉพาะของกลุ่มผลลัพธ์ที่เรียกรวมกันว่า "ทฤษฎีบทตัวแทน" ซึ่งในที่นี้เราจะอธิบายตัวอย่างดังกล่าวหลายข้อ

การกล่าวถึงทฤษฎีตัวแทนครั้งแรกนั้นเป็นผลงานของ Kimeldorf และ Wahba สำหรับกรณีพิเศษที่

{\begin{aligned}E\left((x_{1},y_{1},f(x_{1})),\ldots ,(x_{n},y_{n},f(x_{n}))\right)&={\frac {1}{n}}\sum _{i=1}^{n}(f(x_{i})-y_{i})^{2},\\g(\lVert f\rVert )&=\lambda \lVert f\rVert ^{2}\end{aligned}}

Schölkopf, Herbrich และ Smola ได้ขยายผลลัพธ์นี้โดยการผ่อนคลายข้อสมมติเกี่ยวกับต้นทุนการสูญเสียกำลังสอง และอนุญาตให้ตัวควบคุมเป็นฟังก์ชันใดๆ ก็ได้ที่เพิ่มขึ้นอย่างเคร่งครัดตามบรรทัดฐานของปริภูมิฮิลเบิร์ต $\lambda >0$ $g(\cdot )$

สามารถขยายผลให้ครอบคลุมมากขึ้นได้โดยการเพิ่มฟังก์ชันความเสี่ยงเชิงประจักษ์ที่ปรับให้เป็นระเบียบด้วยการเพิ่มเงื่อนไขชดเชยที่ไม่ถูกลงโทษ ตัวอย่างเช่น Schölkopf, Herbrich และ Smola ก็พิจารณาการลดค่าให้น้อยที่สุดเช่นกัน

{\tilde {f}}^{*}=\operatorname {argmin} \left\lbrace E\left((x_{1},y_{1},{\tilde {f}}(x_{1})),\ldots ,(x_{n},y_{n},{\tilde {f}}(x_{n}))\right)+g\left(\lVert f\rVert \right)\mid {\tilde {f}}=f+h\in H_{k}\oplus \operatorname {span} \lbrace \psi _{p}\mid 1\leq p\leq M\rbrace \right\rbrace ,\quad (\dagger )

กล่าวคือ เราพิจารณาฟังก์ชันในรูปแบบโดยที่และเป็นฟังก์ชันที่ไม่ถูกปรับโทษซึ่งอยู่ในช่วงของเซตจำกัดของฟังก์ชันค่าจริงภายใต้สมมติฐานว่าเมทริกซ์มีอันดับพวกเขาแสดงให้เห็นว่าตัวลดค่าต่ำสุดใน ยอมรับการแสดงแทนในรูปแบบ ${\tilde {f}}=f+h$ $f\in H_{k}$ $h$ $\lbrace \psi _{p}\colon {\mathcal {X}}\to \mathbb {R} \mid 1\leq p\leq M\rbrace$ $n\times M$ $\left(\psi _{p}(x_{i})\right)_{ip}$ $M$ ${\tilde {f}}^{*}$ $(\dagger )$

{\tilde {f}}^{*}(\cdot )=\sum _{i=1}^{n}\alpha _{i}k(\cdot ,x_{i})+\sum _{p=1}^{M}\beta _{p}\psi _{p}(\cdot )

โดยที่และทั้งหมดถูกกำหนดอย่างเป็นเอกลักษณ์ $\alpha _{i},\beta _{p}\in \mathbb {R}$ $\beta _{p}$

เงื่อนไขที่ทฤษฎีบทตัวแทนมีอยู่จริงนั้นได้รับการตรวจสอบโดย Argyriou, Micchelli และ Pontil ซึ่งได้พิสูจน์สิ่งต่อไปนี้:

ทฤษฎีบท:ให้เป็นเซตที่ไม่ว่างเป็นเคอร์เนลค่าจริงบวกแน่นอนบนโดยมีปริภูมิฮิลเบิร์ตเคอร์เนลสร้างซ้ำที่สอดคล้องกันและให้เป็นฟังก์ชันปรับเสถียรภาพที่หาอนุพันธ์ได้ แล้วเมื่อกำหนดตัวอย่างการฝึกฝนและฟังก์ชันความคลาดเคลื่อนใดๆ ตัวทำให้ค่าต่ำสุดคือ ${\mathcal {X}}$ $k$ ${\mathcal {X}}\times {\mathcal {X}}$ $H_{k}$ $R\colon H_{k}\to \mathbb {R}$ $(x_{1},y_{1}),\ldots ,(x_{n},y_{n})\in {\mathcal {X}}\times \mathbb {R}$ $E\colon ({\mathcal {X}}\times \mathbb {R} ^{2})^{m}\to \mathbb {R} \cup \lbrace \infty \rbrace$

f^{*}={\underset {f\in H_{k}}{\operatorname {argmin} }}\left\lbrace E\left((x_{1},y_{1},f(x_{1})),\ldots ,(x_{n},y_{n},f(x_{n}))\right)+R(f)\right\rbrace \quad (\ddagger )

ความเสี่ยงเชิงประจักษ์ที่ปรับให้เป็นมาตรฐานนั้น ยอมรับการแสดงในรูปแบบ

f^{*}(\cdot )=\sum _{i=1}^{n}\alpha _{i}k(\cdot ,x_{i}),

โดยที่สำหรับทุก ๆก็ต่อเมื่อมีฟังก์ชันที่ไม่ลดลงซึ่ง $\alpha _{i}\in \mathbb {R}$ $1\leq i\leq n$ $h\colon [0,\infty )\to \mathbb {R}$

R(f)=h(\lVert f\rVert ).

โดยสรุป ผลลัพธ์นี้ให้เงื่อนไขที่จำเป็นและเพียงพอสำหรับตัวควบคุมที่สามารถหาอนุพันธ์ได้ซึ่งภายใต้เงื่อนไขดังกล่าว การลดความเสี่ยงเชิงประจักษ์แบบมีตัวควบคุมที่สอดคล้องกันจะมีทฤษฎีตัวแทน โดยเฉพาะอย่างยิ่ง ผลลัพธ์นี้แสดงให้เห็นว่าการลดความเสี่ยงแบบมีตัวควบคุมในวงกว้าง (กว้างกว่าที่ Kimeldorf และ Wahba พิจารณาไว้ในตอนแรกมาก) มีทฤษฎีตัวแทน $R(\cdot )$ $(\ddagger )$

แอปพลิเคชัน

ทฤษฎีตัวแทนมีประโยชน์ในเชิงปฏิบัติเพราะช่วยลดความซับซ้อนของปัญหาการลดความเสี่ยงเชิง ประจักษ์แบบมีระเบียบได้อย่าง มาก ในแอปพลิเคชันที่น่าสนใจส่วนใหญ่ โดเมนการค้นหาสำหรับการลดความเสี่ยงจะเป็นปริภูมิย่อยที่มีมิติอนันต์ของและดังนั้นการค้นหา (ตามที่เขียนไว้) จึงไม่สามารถนำไปใช้กับคอมพิวเตอร์ที่มีหน่วยความจำจำกัดและความแม่นยำจำกัดได้ ในทางตรงกันข้าม ตัวแทนของที่ได้จากทฤษฎีตัวแทนจะลดปัญหาการลดความเสี่ยงดั้งเดิม (ที่มีมิติอนันต์) ให้เหลือเพียงการค้นหาเวกเตอร์สัมประสิทธิ์มิติ ที่เหมาะสมที่สุด ซึ่งสามารถหาได้โดยการใช้อัลกอริธึมการลดความเสี่ยงฟังก์ชันมาตรฐานใดๆ ดังนั้น ทฤษฎีตัวแทนจึงเป็นพื้นฐานทางทฤษฎีสำหรับการลดปัญหาการเรียนรู้ของเครื่องทั่วไปให้เหลืออัลกอริธึมที่สามารถนำไปใช้กับคอมพิวเตอร์ได้จริงในทางปฏิบัติ $(\ddagger )$ $H_{k}$ $L^{2}({\mathcal {X}})$ $f^{*}(\cdot )$ $n$ $\alpha =(\alpha _{1},\ldots ,\alpha _{n})\in \mathbb {R} ^{n}$ $\alpha$

ต่อไปนี้เป็นตัวอย่างวิธีการหาค่าต่ำสุดซึ่งรับประกันการมีอยู่โดยทฤษฎีบทตัวแทน วิธีนี้ใช้ได้กับเคอร์เนลบวกแน่นอนใดๆและช่วยให้เราแปลงปัญหาการหาค่าเหมาะสมที่สุดที่ซับซ้อน (อาจมีมิติอนันต์) ให้เป็นระบบเชิงเส้นอย่างง่ายที่สามารถแก้ไขได้ด้วยวิธีเชิงตัวเลข $K$

สมมติว่าเราใช้ฟังก์ชันความคลาดเคลื่อนกำลังสองน้อยที่สุด

E[(x_{1},y_{1},f(x_{1})),\dots ,(x_{n},y_{n},f(x_{n}))]:=\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}

และฟังก์ชันปรับค่า สำหรับบางค่าโดยทฤษฎีตัวแทน ตัวลดค่าต่ำสุด $g(x)=\lambda x^{2}$ $\lambda >0$

f^{*}={\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}{\Big \{}E[(x_{1},y_{1},f(x_{1})),\dots ,(x_{n},y_{n},f(x_{n}))]+g(\|f\|_{\mathcal {H}}){\Big \}}={\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left\{\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}+\lambda \|f\|_{\mathcal {H}}^{2}\right\}

มีรูปแบบ

f^{*}(x)=\sum _{i=1}^{n}\alpha _{i}^{*}k(x,x_{i})

สำหรับบางคนโดยสังเกตว่า $\alpha ^{*}=(\alpha _{1}^{*},\dots ,\alpha _{n}^{*})\in \mathbb {R} ^{n}$

\|f\|_{\mathcal {H}}^{2}={\Big \langle }\sum _{i=1}^{n}\alpha _{i}^{*}k(\cdot ,x_{i}),\sum _{j=1}^{n}\alpha _{j}^{*}k(\cdot ,x_{j}){\Big \rangle }_{\mathcal {H}}=\sum _{i=1}^{n}\sum _{j=1}^{n}\alpha _{i}^{*}\alpha _{j}^{*}{\big \langle }k(\cdot ,x_{i}),k(\cdot ,x_{j}){\big \rangle }_{\mathcal {H}}=\sum _{i=1}^{n}\sum _{j=1}^{n}\alpha _{i}^{*}\alpha _{j}^{*}k(x_{i},x_{j}),

เราเห็นว่ามันมีรูปแบบ $\alpha ^{*}$

\alpha ^{*}={\underset {\alpha \in \mathbb {R} ^{n}}{\operatorname {argmin} }}\left\{\sum _{i=1}^{n}\left(y_{i}-\sum _{j=1}^{n}\alpha _{j}k(x_{i},x_{j})\right)^{2}+\lambda \|f\|_{\mathcal {H}}^{2}\right\}={\underset {\alpha \in \mathbb {R} ^{n}}{\operatorname {argmin} }}\left\{\|y-A\alpha \|^{2}+\lambda \alpha ^{\intercal }A\alpha \right\}.

โดยที่และ. สามารถแยกส่วนนี้ออกมาและทำให้ง่ายขึ้นได้เป็น $A_{ij}=k(x_{i},x_{j})$ $y=(y_{1},\dots ,y_{n})$

\alpha ^{*}={\underset {\alpha \in \mathbb {R} ^{n}}{\operatorname {argmin} }}\left\{\alpha ^{\intercal }(A^{\intercal }A+\lambda A)\alpha -2\alpha ^{\intercal }A^{\intercal }y\right\}.

เนื่องจากเป็นเมทริกซ์บวกกำหนด ดังนั้นจึงมีค่าต่ำสุดทั่วโลกเพียงค่าเดียวสำหรับนิพจน์นี้ ให้และสังเกตว่าเป็นเมทริกซ์นูน จากนั้นค่าต่ำสุดทั่วโลก สามารถหาได้โดยการตั้งค่าเมื่อนึกได้ว่าเมทริกซ์บวกกำหนดทั้งหมดสามารถผกผันได้ เราจะเห็นว่า $A^{\intercal }A+\lambda A$ $F(\alpha )=\alpha ^{\intercal }(A^{\intercal }A+\lambda A)\alpha -2\alpha ^{\intercal }A^{\intercal }y$ $F$ $\alpha ^{*}$ $\nabla _{\alpha }F=0$

\nabla _{\alpha }F=2(A^{\intercal }A+\lambda A)\alpha ^{*}-2A^{\intercal }y=0\Longrightarrow \alpha ^{*}=(A^{\intercal }A+\lambda A)^{-1}A^{\intercal }y,

ดังนั้นจึงสามารถหาค่าต่ำสุดได้โดยใช้การแก้ปัญหาเชิงเส้น

ดูเพิ่มเติม

[ 1 ]

ทฤษฎีตัวแทน

คำแถลงอย่างเป็นทางการ

การสรุปโดยทั่วไป

แอปพลิเคชัน

ดูเพิ่มเติม

ข้อมูลสำคัญจากบทความ