ในสาขาวิทยาการคอมพิวเตอร์ในทฤษฎีการเรียนรู้เชิงสถิติ ทฤษฎีบท ตัวแทน(Representer Theorem)คือผลลัพธ์ที่เกี่ยวข้องหลายประการที่ระบุว่า ตัวลดค่าต่ำสุดของฟังก์ชันความเสี่ยงเชิงประจักษ์ แบบมีระเบียบ (Regularized Empirical Risk Function ) ที่กำหนดไว้บนปริภูมิฮิลเบิร์ตเคอร์เนลแบบสร้างซ้ำ (Reproducing Kernel Hilbert Space)สามารถแสดงได้ในรูปของการรวมเชิงเส้นจำกัดของผลคูณเคอร์เนลที่ประเมินค่าบนจุดอินพุตในชุดข้อมูลฝึกฝน 
ทฤษฎีบทตัวแทนต่อไปนี้และการพิสูจน์เป็นผลงานของSchölkopf , Herbrich และ Smola: [ 1 ]
ทฤษฎีบท:พิจารณาเคอร์เนลค่าจริงบวกแน่นอนบนเซตที่ไม่ว่างเปล่าพร้อมด้วยปริภูมิฮิลเบิร์ตเคอร์เนลสร้างซ้ำที่สอดคล้องกันให้มี ที่กำหนดไว้ 


- ตัวอย่างการฝึกอบรม

- ฟังก์ชันค่าจริงที่เพิ่มขึ้นอย่างเคร่งครัดและ

- ฟังก์ชันข้อผิดพลาดตามอำเภอใจ

ซึ่งรวมกันแล้วกำหนดฟังก์ชันความเสี่ยงเชิงประจักษ์แบบปรับปรุงดังต่อไปนี้: 

จากนั้น ตัวลดความเสี่ยงเชิงประจักษ์ใดๆ

ยอมรับการแสดงผลในรูปแบบ:

ที่สำหรับทุกคน 

พิสูจน์: กำหนดการแมปปิ้ง

(ดังนั้นตัวมันเองจึงเป็นแผนที่) เนื่องจากเป็นเคอร์เนลที่สร้างซ้ำได้ ดังนั้น 



ผลคูณภายใน ของ อยู่ที่ไหน

เมื่อกำหนดค่าใดๆ มาแล้วเราสามารถใช้การฉายภาพเชิงตั้งฉากเพื่อแยกค่าใดๆ ออกเป็นผลรวมของฟังก์ชันสองฟังก์ชัน โดยฟังก์ชันหนึ่งอยู่ในและอีกฟังก์ชันหนึ่งอยู่ในส่วนเติมเต็มเชิงตั้งฉาก : 



ที่สำหรับทุกคน 

การแยกส่วนประกอบเชิงตั้งฉากข้างต้นและคุณสมบัติการสร้างซ้ำร่วมกันแสดงให้เห็นว่า การนำไปใช้กับจุดฝึกอบรมใดๆ ก็ตามจะสร้างผลลัพธ์ 


ซึ่งเราสังเกตว่าไม่ขึ้นอยู่กับดังนั้น ค่าของฟังก์ชันข้อผิดพลาดใน (*) จึงไม่ขึ้นอยู่กับ เช่นกันสำหรับพจน์ที่สอง (พจน์การปรับค่า) เนื่องจากตั้งฉากกับและเป็นฟังก์ชันโมโนโทนิกอย่างเคร่งครัด เราจึงมี 






ดังนั้น การตั้งค่าจึงไม่มีผลต่อพจน์แรกของ (*) ในขณะที่มันลดพจน์ที่สองลงอย่างชัดเจน ด้วยเหตุนี้ ตัวลดค่าต่ำสุดใดๆใน (*) จะต้องมีนั่นคือ จะต้องอยู่ในรูปแบบ 



ซึ่งเป็นผลลัพธ์ที่ต้องการ
การสรุปโดยทั่วไป
ทฤษฎีบทที่กล่าวไว้ข้างต้นเป็นตัวอย่างเฉพาะของกลุ่มผลลัพธ์ที่เรียกรวมกันว่า "ทฤษฎีบทตัวแทน" ซึ่งในที่นี้เราจะอธิบายตัวอย่างดังกล่าวหลายข้อ
การกล่าวถึงทฤษฎีตัวแทนครั้งแรกนั้นเป็นผลงานของ Kimeldorf และ Wahba สำหรับกรณีพิเศษที่

Schölkopf, Herbrich และ Smola ได้ขยายผลลัพธ์นี้โดยการผ่อนคลายข้อสมมติเกี่ยวกับต้นทุนการสูญเสียกำลังสอง และอนุญาตให้ตัวควบคุมเป็นฟังก์ชันใดๆ ก็ได้ที่เพิ่มขึ้นอย่างเคร่งครัดตามบรรทัดฐานของปริภูมิฮิลเบิร์ต 

สามารถขยายผลให้ครอบคลุมมากขึ้นได้โดยการเพิ่มฟังก์ชันความเสี่ยงเชิงประจักษ์ที่ปรับให้เป็นระเบียบด้วยการเพิ่มเงื่อนไขชดเชยที่ไม่ถูกลงโทษ ตัวอย่างเช่น Schölkopf, Herbrich และ Smola ก็พิจารณาการลดค่าให้น้อยที่สุดเช่นกัน

กล่าวคือ เราพิจารณาฟังก์ชันในรูปแบบโดยที่และเป็นฟังก์ชันที่ไม่ถูกปรับโทษซึ่งอยู่ในช่วงของเซตจำกัดของฟังก์ชันค่าจริงภายใต้สมมติฐานว่าเมทริกซ์มีอันดับพวกเขาแสดงให้เห็นว่าตัวลดค่าต่ำสุดใน ยอมรับการแสดงแทนในรูปแบบ 









โดยที่และทั้งหมดถูกกำหนดอย่างเป็นเอกลักษณ์ 

เงื่อนไขที่ทฤษฎีบทตัวแทนมีอยู่จริงนั้นได้รับการตรวจสอบโดย Argyriou, Micchelli และ Pontil ซึ่งได้พิสูจน์สิ่งต่อไปนี้:
ทฤษฎีบท:ให้เป็นเซตที่ไม่ว่างเป็นเคอร์เนลค่าจริงบวกแน่นอนบนโดยมีปริภูมิฮิลเบิร์ตเคอร์เนลสร้างซ้ำที่สอดคล้องกันและให้เป็นฟังก์ชันปรับเสถียรภาพที่หาอนุพันธ์ได้ แล้วเมื่อกำหนดตัวอย่างการฝึกฝนและฟังก์ชันความคลาดเคลื่อนใดๆ ตัวทำให้ค่าต่ำสุดคือ 







ความเสี่ยงเชิงประจักษ์ที่ปรับให้เป็นมาตรฐานนั้น ยอมรับการแสดงในรูปแบบ

โดยที่สำหรับทุก ๆก็ต่อเมื่อมีฟังก์ชันที่ไม่ลดลงซึ่ง 



โดยสรุป ผลลัพธ์นี้ให้เงื่อนไขที่จำเป็นและเพียงพอสำหรับตัวควบคุมที่สามารถหาอนุพันธ์ได้ซึ่งภายใต้เงื่อนไขดังกล่าว การลดความเสี่ยงเชิงประจักษ์แบบมีตัวควบคุมที่สอดคล้องกันจะมีทฤษฎีตัวแทน โดยเฉพาะอย่างยิ่ง ผลลัพธ์นี้แสดงให้เห็นว่าการลดความเสี่ยงแบบมีตัวควบคุมในวงกว้าง (กว้างกว่าที่ Kimeldorf และ Wahba พิจารณาไว้ในตอนแรกมาก) มีทฤษฎีตัวแทน 

แอปพลิเคชัน
ทฤษฎีตัวแทนมีประโยชน์ในเชิงปฏิบัติเพราะช่วยลดความซับซ้อนของปัญหาการลดความเสี่ยงเชิง ประจักษ์แบบมีระเบียบได้อย่าง มาก ในแอปพลิเคชันที่น่าสนใจส่วนใหญ่ โดเมนการค้นหาสำหรับการลดความเสี่ยงจะเป็นปริภูมิย่อยที่มีมิติอนันต์ของและดังนั้นการค้นหา (ตามที่เขียนไว้) จึงไม่สามารถนำไปใช้กับคอมพิวเตอร์ที่มีหน่วยความจำจำกัดและความแม่นยำจำกัดได้ ในทางตรงกันข้าม ตัวแทนของที่ได้จากทฤษฎีตัวแทนจะลดปัญหาการลดความเสี่ยงดั้งเดิม (ที่มีมิติอนันต์) ให้เหลือเพียงการค้นหาเวกเตอร์สัมประสิทธิ์มิติ ที่เหมาะสมที่สุด ซึ่งสามารถหาได้โดยการใช้อัลกอริธึมการลดความเสี่ยงฟังก์ชันมาตรฐานใดๆ ดังนั้น ทฤษฎีตัวแทนจึงเป็นพื้นฐานทางทฤษฎีสำหรับการลดปัญหาการเรียนรู้ของเครื่องทั่วไปให้เหลืออัลกอริธึมที่สามารถนำไปใช้กับคอมพิวเตอร์ได้จริงในทางปฏิบัติ 






ต่อไปนี้เป็นตัวอย่างวิธีการหาค่าต่ำสุดซึ่งรับประกันการมีอยู่โดยทฤษฎีบทตัวแทน วิธีนี้ใช้ได้กับเคอร์เนลบวกแน่นอนใดๆและช่วยให้เราแปลงปัญหาการหาค่าเหมาะสมที่สุดที่ซับซ้อน (อาจมีมิติอนันต์) ให้เป็นระบบเชิงเส้นอย่างง่ายที่สามารถแก้ไขได้ด้วยวิธีเชิงตัวเลข 
สมมติว่าเราใช้ฟังก์ชันความคลาดเคลื่อนกำลังสองน้อยที่สุด
![{\displaystyle E[(x_{1},y_{1},f(x_{1})),\dots ,(x_{n},y_{n},f(x_{n}))]:=\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d354601f2920a8bb29f0439e039dd59400a16c87)
และฟังก์ชันปรับค่า สำหรับบางค่าโดยทฤษฎีตัวแทน ตัวลดค่าต่ำสุด 

![{\displaystyle f^{*}={\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}{\Big \{}E[(x_{1},y_{1},f(x_{1})),\dots ,(x_{n},y_{n},f(x_{n}))]+g(\|f\|_{\mathcal {H}}){\Big \}}={\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left\{\sum _{i=1}^{n}(y_{i}-f(x_{i}))^{2}+\lambda \|f\|_{\mathcal {H}}^{2}\right\}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/0dec0b274ce39a169bcf01c4e1da6fcb12513568)
มีรูปแบบ

สำหรับบางคนโดยสังเกตว่า 

เราเห็นว่ามันมีรูปแบบ 

โดยที่และ. สามารถแยกส่วนนี้ออกมาและทำให้ง่ายขึ้นได้เป็น 


เนื่องจากเป็นเมทริกซ์บวกกำหนด ดังนั้นจึงมีค่าต่ำสุดทั่วโลกเพียงค่าเดียวสำหรับนิพจน์นี้ ให้และสังเกตว่าเป็นเมทริกซ์นูน จากนั้นค่าต่ำสุดทั่วโลก สามารถหาได้โดยการตั้งค่าเมื่อนึกได้ว่าเมทริกซ์บวกกำหนดทั้งหมดสามารถผกผันได้ เราจะเห็นว่า 





ดังนั้นจึงสามารถหาค่าต่ำสุดได้โดยใช้การแก้ปัญหาเชิงเส้น
ดูเพิ่มเติม