การถดถอยของสันเขา

Q: ภาพรวม

ใน การแก้ปัญหาด้วย วิธีกำลังสองน้อยที่สุดแบบธรรมดา ของ

การถดถอยแบบ Ridge (หรือที่รู้จักกันในชื่อการปรับค่าแบบ Tikhonovซึ่งตั้งชื่อตามAndrey Tikhonov ) เป็นวิธีการประมาณค่าสัมประสิทธิ์ของแบบจำลองการถดถอย หลายตัวแปร ในสถานการณ์ที่ตัวแปรมีความสัมพันธ์กันสูง^{[ 1 ]}วิธีนี้ถูกนำไปใช้ในหลายสาขา รวมถึงเศรษฐศาสตร์เคมี และวิศวกรรม^{[ 2 ]}เป็นวิธีการปรับค่าสำหรับปัญหาที่ไม่เหมาะสม [ ^{a ] วิธี}นี้มีประโยชน์อย่างยิ่งในการลดปัญหา ความสัมพันธ์ เชิงเส้นหลายตัวแปรในการถดถอยเชิงเส้นซึ่งมักเกิดขึ้นในแบบจำลองที่มีพารามิเตอร์จำนวนมาก^{[ 3 ]}โดยทั่วไป วิธีนี้ให้ประสิทธิภาพ ที่ดีขึ้น ในปัญหาการประมาณค่าพารามิเตอร์โดยแลกกับอคติที่ยอมรับได้(ดูการแลกเปลี่ยนระหว่างอคติและความแปรปรวน ) ^{[ 4 ]}

ทฤษฎีนี้ได้รับการนำเสนอครั้งแรกโดย Hoerl และ Kennard ในปี 1970 ใน เอกสาร Technometrics ของพวกเขา เรื่อง "Ridge regressions: biased estimation of nonorthogonal problems" และ "Ridge regressions: applications in nonorthogonal problems" ^{[ 5 ]}^{[ 6 ]}^{[ 1 ]}

การถดถอยแบบ Ridge ได้รับการพัฒนาขึ้นเพื่อเป็นวิธีแก้ปัญหาความไม่แม่นยำของตัวประมาณค่ากำลังสองน้อยที่สุดเมื่อแบบจำลองการถดถอยเชิงเส้นมีตัวแปรอิสระที่มีความสัมพันธ์กันสูง (multicollinear) โดยการสร้างตัวประมาณค่าการถดถอยแบบ Ridge (RR) ซึ่งให้การประมาณค่าพารามิเตอร์แบบ Ridge ที่แม่นยำกว่า เนื่องจากค่าความแปรปรวนและค่าประมาณกำลังสองเฉลี่ยของมันมักจะน้อยกว่าตัวประมาณค่ากำลังสองน้อยที่สุดที่ได้มาก่อนหน้านี้^{[ 7 ]}^{[ 2 ]}

ภาพรวม

ใน การแก้ปัญหาด้วย วิธีกำลังสองน้อยที่สุดแบบธรรมดาของ

\mathbf {Y} =\mathbf {X} {\boldสัญลักษณ์ {\beta }}+{\boldสัญลักษณ์ {\varepsilon }},\,

ปัญหาของเมทริกซ์โมเมนต์ที่เกือบจะเป็น เอกฐานจะบรรเทาลงได้ด้วยการเพิ่มองค์ประกอบบวกให้กับแนวทแยงมุมซึ่งจะทำให้ค่าสภาพ ลดลง เมื่อเปรียบเทียบกับตัวประมาณค่ากำลังสองน้อยที่สุดแบบธรรมดา ตัวประมาณค่าแบบริดจ์ที่เรียบง่ายจะมีพจน์พิเศษในตัวส่วน: โดยที่คือ เวกเตอร์ ตัวแปรตามหรือเวกเตอร์การตอบสนองคือ เมทริก ซ์การออกแบบคือเมทริกซ์เอกลักษณ์และพารามิเตอร์การปรับค่าแบบริดจ์ (หรือ Tikhonov) ทำหน้าที่เป็นค่าคงที่ที่เลื่อนแนวทแยงมุมของเมทริกซ์โมเมนต์^[⁸^]สามารถแสดงได้ว่าตัวประมาณค่านี้เป็นคำตอบของ ปัญหา กำลังสองน้อยที่สุดภายใต้ข้อจำกัดซึ่งสามารถแสดงได้เป็นการลดค่าแบบลากรางจ์: ซึ่งแสดงให้เห็นว่าไม่มีอะไรอื่นนอกจากตัวคูณลากรางจ์ของข้อจำกัด^[⁹^]ในความเป็นจริง มีความสัมพันธ์แบบหนึ่งต่อหนึ่งระหว่างและและเนื่องจากในทางปฏิบัติเราไม่ทราบเราจึงกำหนดโดยใช้หลักการเชิงอนุมานหรือค้นหาผ่านกลยุทธ์การปรับข้อมูลเพิ่มเติม ดูการกำหนดพารามิเตอร์ Tikhonovด้านล่าง $\mathbf {X} ^{\mathsf {T}}\mathbf {X}$ $\lambda \mathbf {I}$ ${\hat {\boldสัญลักษณ์ {\beta }}__{\lambda }=\left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\lambda \mathbf {I} \right)^{-1}\mathbf {X} ^{\mathsf {T}}\mathbf {Y}$ $\mathbf {Y}$ $\mathbf {X}$ $\mathbf {I}$ $\แลมบ์ดา \geq 0$ ${\boldsymbol {\beta }}^{\mathsf {T}}{\boldsymbol {\beta }}=c$ ${\text{argmin}}_{\boldsymbol {\beta }}\,\|\mathbf {Y} -\mathbf {X} {\boldsymbol {\beta }}\|^{2}+\lambda \left({\boldsymbol {\beta }}^{\mathsf {T}}{\boldsymbol {\beta }}-c\right)$ $\lambda$ $c$ $\lambda$ $c$ $\lambda$

โปรดทราบว่าเมื่อข้อจำกัดจะกลายเป็นไม่ผูกมัด ในที่สุด และตัวประมาณค่าแบบริดจ์จะลู่เข้าสู่ตัวประมาณค่ากำลังสองน้อยที่สุดแบบธรรมดาที่มีบรรทัดฐานต่ำสุด ซึ่งในที่นี้แสดงด้วย : $\แลมบ์ดา \downarrow 0$ ${\hat {\boldsymbol {\beta }}}={\hat {\boldsymbol {\beta }}}_{0}$

$\lim _{\lambda \downarrow 0}{\hat {\boldsymbol {\beta }}}_{\lambda }=\mathbf {X} ^{+}\mathbf {Y} ={\hat {\boldsymbol {\beta }}}_{0},$ โดยที่ หมายถึงผกผัน เทียมของ $\mathbf {X} ^{+}$ $\mathbf {X}$

การหาค่าพารามิเตอร์ของทิโคนอฟ

โดยปกติแล้ว ค่าพารามิเตอร์การปรับเสถียรภาพที่เหมาะสมที่สุดมักจะไม่เป็นที่ทราบ และในทางปฏิบัติจำเป็นต้องประมาณค่า โดยทั่วไป การเลือกค่าพารามิเตอร์การปรับเสถียรภาพของ Tikhonov โดยอาศัยข้อมูล จะทำได้โดยใช้การตรวจสอบแบบไขว้ (cross-validation)หรือโดยใช้วิธีการเสียบปลั๊ก (plug-in procedure) ดังต่อไปนี้ $\lambda$ $\lambda$

ตัวประมาณการตรวจสอบความถูกต้องแบบไขว้ทั่วไป

ทางเลือกที่ขับเคลื่อนด้วยข้อมูลทั่วไปคือการลดการสูญเสียการตรวจสอบแบบไขว้หรือการวางนัยทั่วไปให้เหลือน้อยที่สุด ตัวอย่างเช่นGrace Wahbaพิสูจน์ว่าพารามิเตอร์ที่เหมาะสมที่สุดในแง่ของการตรวจสอบแบบไขว้ทั่วไปจะลด^[¹⁰^]^[¹¹^{] ให้เหลือน้อยที่สุด} $\lambda$

$G={\frac {\operatorname {RSS} }{\tau ^{2}}}={\frac {\left\|\mathbf {X} {\hat {\boldsymbol {\beta }}}-\mathbf {Y} \right\|^{2}}{\left[\operatorname {tr} \left(\mathbf {I} -\mathbf {X} \left(\mathbf {X} ^{\mathsf {T}}\mathbf {X} +\lambda ^{2}\mathbf {I} \right)^{-1}\mathbf {X} ^{\mathsf {T}}\right)\right]^{2}}},$ โดยที่คือผลรวมกำลังสองของส่วนเหลือและคือจำนวนองศาอิสระที่มีประสิทธิภาพ $\operatorname {RSS}$ $\tau$

เครื่องมือประมาณการปลั๊กอิน

สมมติว่าเป็น เมทริกซ์ และกำหนดเมทริกซ์จากนั้น พิจารณาตัวเลือกต่อไปนี้สำหรับพารามิเตอร์การปรับเสถียรภาพของ Tikhonov: $\mathbf {X}$ $n\times p$ $\Omega :=(\mathbf {X} ^{\top }\mathbf {X} /n)^{+}$

$\lambda ^{*}:={\frac {\varsigma ^{2}\mathrm {tr} (\Omega )}{{\boldsymbol {\beta }}^{\top }\Omega {\boldsymbol {\beta }}+3\varsigma ^{2}\mathrm {tr} (\Omega ^{2})/n}},$

โดยที่ความแปรปรวนของสัญญาณรบกวน คือ นั่นคือ สามารถแสดงได้^[¹²^] ว่าตัวประมาณแบบ ridge มีความเสี่ยงในตัวอย่างโดยเฉลี่ยน้อยกว่าตัวประมาณแบบ least-squares ขั้นต่ำกล่าวโดยละเอียดคือ $\varsigma ^{2}$ ${\boldsymbol {\varepsilon }}=\mathbf {Y} -\mathbf {X} {\boldsymbol {\beta }}$ $\mathrm {Var} ({\boldsymbol {\varepsilon }})=\varsigma ^{2}\mathbf {I}$ ${\hat {\boldsymbol {\beta }}}_{\lambda ^{*}}$ ${\hat {\boldsymbol {\beta }}}_{0}=\mathbf {X} ^{+}\mathbf {Y}$

$\mathbb {E} \|\mathbf {Y} '-\mathbf {X} {\hat {\boldsymbol {\beta }}}_{0}\|^{2}\geq \mathbb {E} \|\mathbf {Y} '-\mathbf {X} {\hat {\boldsymbol {\beta }}}_{\lambda ^{*}}\|^{2}+{\frac {\varsigma ^{2}}{n}}\lambda ^{*}\mathrm {tr} (\Omega ),$

โดยที่ค่าคาดหวังถือว่าคงที่และเป็น ข้อมูล การตอบสนองการทดสอบ ซึ่งเป็นอิสระจาก(และด้วยเหตุนี้จึงเป็นอิสระจากตัวประมาณค่าและ) $\mathbf {X}$ $\mathbf {Y} '$ $\mathbf {Y}$ ${\hat {\boldsymbol {\beta }}}_{0}$ ${\hat {\boldsymbol {\beta }}}_{\lambda ^{*}}$

แน่นอนว่าในทางปฏิบัติ สูตรสำหรับ จะถูกนำมาใช้โดยการแทนค่าประมาณทางสถิติสำหรับพารามิเตอร์ที่ไม่ทราบค่า และเมื่อตัวประมาณค่าที่เป็นธรรมชาติที่สุดสำหรับพารามิเตอร์เหล่านี้ก็คือตัวประมาณค่ากำลังสองน้อยที่สุดตามปกติ: $\lambda ^{*}$ ${\boldsymbol {\beta }}$ $\varsigma ^{2}$ $n>p$

${\hat {\boldsymbol {\beta }}}=\mathbf {X} ^{+}\mathbf {Y} ,\qquad {\hat {\varsigma }}^{2}={\frac {\|\mathbf {Y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}\|^{2}}{n-p}}.$ การแทนที่ตัวแปรที่ไม่ทราบค่าในสูตรด้วยค่าที่สอดคล้องกันจะได้สิ่งที่เรียกว่าตัวประมาณ ค่าแบบเสียบปลั๊กสำหรับค่าที่เหมาะสมที่สุด ${\boldsymbol {\beta }},\varsigma ^{2}$ $\lambda ^{*}$ ${\hat {\boldsymbol {\beta }}},{\hat {\varsigma }}^{2}$ ${\widehat {\lambda }}^{*}$ $\lambda ^{*}$

^{แนวทางทางเลือกในการ เลือก} พารามิเตอร์การปรับค่า Tikhonov ที่ขับเคลื่อนด้วยข้อมูล ได้แก่หลักการความคลาดเคลื่อน วิธีเส้นโค้ง L [ ¹³^]ความน่าจะเป็นสูงสุดที่จำกัด

ประวัติศาสตร์

การปรับค่าแบบ Tikhonov ถูกคิดค้นขึ้นโดยอิสระในบริบทต่างๆ มากมาย เป็นที่รู้จักกันอย่างแพร่หลายผ่านการนำไปใช้กับสมการอินทิกรัลในงานของAndrey Tikhonov ^{[ 14 ]}^{[ 15 ]}^{[ 16 ]}^{[ 17 ]}^{[ 18 ]}และ David L. Phillips ^{[ 19 ]}ผู้เขียนบางคนใช้คำว่าการปรับค่าแบบ Tikhonov–Phillipsกรณีมิติจำกัดได้รับการอธิบายโดยArthur E. Hoerlซึ่งใช้แนวทางทางสถิติ^{[ 20 ]}และโดย Manus Foster ซึ่งตีความวิธีการนี้ว่าเป็นตัวกรองWiener–Kolmogorov (Kriging) ^{[ 21 ]}ตาม Hoerl เป็นที่รู้จักในวรรณกรรมทางสถิติในชื่อ การถดถอยแบบสัน (ridge regression) ^{[ 22 ]}ซึ่งตั้งชื่อตามการวิเคราะห์แบบสัน ("สัน" หมายถึงเส้นทางจากค่าสูงสุดที่ถูกจำกัด) ^{[ 23 ]}

การปรับเสถียรภาพแบบ Tikhonov สำหรับสมการเชิงเส้น

สมมติว่าสำหรับ เมทริกซ์ และเวกเตอร์จริง ที่ทราบแล้ว เราต้องการหาเวกเตอร์ที่ทำให้ โดย ที่และอาจมีขนาดแตกต่างกันและอาจไม่ใช่เมทริกซ์จัตุรัสก็ได้ $A$ $\mathbf {b}$ $\mathbf {x}$ $A\mathbf {x} =\mathbf {b} ,$ $\mathbf {x}$ $\mathbf {b}$ $A$

วิธีการมาตรฐานคือ การถดถอยเชิงเส้นแบบ กำลังสองน้อยที่สุดธรรมดาอย่างไรก็ตาม หากไม่มีตัวแปรใดที่สอดคล้องกับสมการ หรือมีมากกว่าหนึ่งตัวแปรที่สอดคล้องกับสมการ—นั่นคือ คำตอบไม่เป็นเอกลักษณ์—ปัญหาดังกล่าวเรียกว่าปัญหาที่ไม่เหมาะสม (ill posed ) ในกรณีเช่นนี้ การประมาณค่าแบบกำลังสองน้อยที่สุดธรรมดาจะนำไปสู่ ระบบสมการ ที่มีตัวแปรเกิน (overdetermined ) หรือบ่อยครั้งกว่านั้นคือ ระบบสมการที่มีตัวแปรน้อยกว่า (underdetermined ) ปรากฏการณ์ในโลกแห่งความเป็นจริงส่วนใหญ่มีผลเหมือนตัวกรองความถี่ต่ำในทิศทางไปข้างหน้า โดยที่แมป ไป ยังดังนั้น ในการแก้ปัญหาผกผัน การแมปผกผันจะทำงานเหมือนตัวกรองความถี่สูงที่มีแนวโน้มที่ไม่พึงประสงค์ในการขยายสัญญาณรบกวน ( ค่า ลักษณะเฉพาะ /ค่าเอกลักษณ์จะมีค่ามากที่สุดในการแมปผกผัน ในขณะที่ค่าเหล่านั้นมีค่าน้อยที่สุดในการแมปไปข้างหน้า) นอกจากนี้ กำลังสองน้อยที่สุดธรรมดาจะทำให้ทุกองค์ประกอบของเวอร์ชันที่สร้างใหม่ของที่อยู่ในปริภูมิว่างของ เป็นศูนย์ โดยปริยาย แทนที่จะอนุญาตให้ใช้แบบจำลองเป็นตัวกำหนดเบื้องต้นสำหรับ วิธีการกำลังสองน้อยที่สุดแบบธรรมดา (Ordinary least squares) มุ่งที่จะลดผลรวมของ กำลังสอง ของส่วนเหลือ ให้น้อยที่สุด ซึ่งสามารถเขียนได้อย่างกระชับดังนี้ โดย ที่คือค่ามาตรฐานแบบยุคลิด (Euclidean norm ) $\mathbf {x}$ $\mathbf {x}$ $A$ $\mathbf {x}$ $\mathbf {b}$ $\mathbf {x}$ $A$ $\mathbf {x}$ $\left\|A\mathbf {x} -\mathbf {b} \right\|_{2}^{2},$ $\|\cdot \|_{2}$

เพื่อที่จะให้ความสำคัญกับวิธีแก้ปัญหาเฉพาะที่มีคุณสมบัติที่พึงประสงค์ สามารถรวมเทอมการปรับค่าไว้ในการลดค่านี้ได้ โดยที่และสำหรับเมทริกซ์ Tikhonov ที่เลือกไว้อย่างเหมาะสม ในหลายกรณี เมทริกซ์นี้จะถูกเลือกให้เป็นผลคูณเชิงสเกลาร์ของเมทริกซ์เอกลักษณ์ ( ) ซึ่งให้ความสำคัญกับวิธีแก้ปัญหาที่มีบรรทัดฐาน ที่เล็กกว่า นี่เรียกว่าการปรับค่าแบบ L $2$ $[$ ²⁴^]^ในกรณีอื่นๆ อาจใช้ตัวดำเนินการความถี่สูง (เช่นตัวดำเนินการผลต่างหรือตัวดำเนินการ Fourier แบบถ่วงน้ำหนัก ) เพื่อบังคับให้มีความเรียบ หากเชื่อว่าเวกเตอร์พื้นฐานมีความต่อเนื่องเป็นส่วนใหญ่ การปรับค่านี้ช่วยปรับปรุงเงื่อนไขของปัญหา ทำให้สามารถแก้ปัญหาเชิงตัวเลขได้โดยตรง เมื่อพิจารณาว่าเป็นปัญหาการกำลังสองน้อยที่สุดแบบธรรมดาที่มีเมทริกซ์เสริมและวิธีแก้ปัญหาคือ ผลของการปรับค่าอาจแตกต่างกันไปตามขนาดของเมทริกซ์สำหรับสิ่งนี้จะลดลงเหลือวิธีแก้ปัญหาการกำลังสองน้อยที่สุดที่ไม่มีการปรับค่า หาก ( A ^TA ) ⁻¹มีอยู่ โปรดทราบว่าในกรณีของเมทริกซ์เชิงซ้อนตามปกติแล้วจะต้องแทนที่เมทริกซ์ทรานสโพสด้วยเมทริกซ์ทรานสโพสแบบเฮอร์มิเชียน $\left\|A\mathbf {x} -\mathbf {b} \right\|_{2}^{2}+\left\|\Gamma \mathbf {x} \right\|_{2}^{2}=\left\|{\mathcal {A}}\mathbf {x} -{\mathcal {b}}\right\|_{2}^{2},$ ${\mathcal {A}}={\begin{pmatrix}A\\\Gamma \end{pmatrix}}$ ${\mathcal {b}}={\begin{pmatrix}\mathbf {b} \\{\boldsymbol {0}}\end{pmatrix}}$ $\Gamma$ $\Gamma =\alpha I$ ${\mathcal {A}}$ ${\mathcal {b}}$ ${\hat {\mathbf {x} }}=({\mathcal {A}}^{\mathsf {T}}{\mathcal {A}})^{-1}{\mathcal {A}}^{\mathsf {T}}\mathbf {\mathcal {b}} =(A^{\mathsf {T}}A+\Gamma ^{\mathsf {T}}\Gamma )^{-1}A^{\mathsf {T}}\mathbf {b} .$ $\Gamma$ $\Gamma =0$ $A$ $A^{\mathsf {T}}$ $A^{\mathsf {H}}$

$การปรับค่า L2 ถูกนำมาใช้ในบริบท ต่างๆ$ มากมายนอกเหนือจากการถดถอยเชิงเส้น เช่นการจำแนกประเภทด้วยการถดถอยโลจิสติกหรือเครื่องเวกเตอร์สนับสนุน [²⁵^]และการแยกตัวประกอบเมทริก^ซ์^[^{26 ]}

นำไปประยุกต์ใช้กับผลลัพธ์ความพอดีที่มีอยู่แล้ว

เนื่องจากการปรับค่าแบบ Tikhonov Regularization เพียงแค่เพิ่มพจน์กำลังสองเข้าไปในฟังก์ชันเป้าหมายในปัญหาการหาค่าเหมาะสมที่สุด จึงสามารถทำได้หลังจากที่การหาค่าเหมาะสมที่สุดโดยไม่ใช้การปรับค่าแบบ Tikhonov Regularization ได้เสร็จสิ้นลงแล้ว ตัวอย่างเช่น หากปัญหาข้างต้นให้ผลลัพธ์เป็นคำตอบในกรณีที่มีสามารถแสดงได้ดังนี้: โดยมี "เมทริกซ์การ ปรับ ค่าแบบ Tikhonov Regularization" $\Gamma =0$ ${\hat {\mathbf {x} }}_{0}$ $\Gamma \neq 0$ ${\hat {\mathbf {x} }}=B{\hat {\mathbf {x} }}_{0},$ $B=\left(A^{\mathsf {T}}A+\Gamma ^{\mathsf {T}}\Gamma \right)^{-1}A^{\mathsf {T}}A$

หากค่าพารามิเตอร์ที่ปรับให้เหมาะสมมาพร้อมกับเมทริกซ์ความแปรปรวนร่วมของความไม่แน่นอนของพารามิเตอร์ที่ประมาณไว้เมทริกซ์การปรับค่าจะเป็น และผลลัพธ์ที่ปรับค่าแล้วจะมีเมทริกซ์ความแปรปรวนร่วมใหม่ $V_{0}$ $B=(V_{0}^{-1}+\Gamma ^{\mathsf {T}}\Gamma )^{-1}V_{0}^{-1},$ $V=BV_{0}B^{\mathsf {T}}.$

ในบริบทของการปรับความน่าจะเป็นตามอำเภอใจ สิ่งนี้ถือว่าถูกต้อง ตราบใดที่การประมาณกำลังสองของฟังก์ชันความน่าจะเป็นยังคงใช้ได้ ซึ่งหมายความว่า ตราบใดที่การรบกวนจากผลลัพธ์ที่ไม่ได้ปรับให้เป็นระเบียบมีขนาดเล็ก ก็สามารถปรับผลลัพธ์ใดๆ ที่นำเสนอเป็นจุดที่เหมาะสมที่สุดด้วยเมทริกซ์ความแปรปรวนร่วมได้ ไม่จำเป็นต้องมีความรู้โดยละเอียดเกี่ยวกับฟังก์ชันความน่าจะเป็นพื้นฐาน^{[ 27 ]}

การปรับค่าแบบ Tikhonov ทั่วไป

สำหรับการแจกแจงปกติหลายตัวแปรทั่วไปสำหรับและข้อผิดพลาดของข้อมูล สามารถใช้การแปลงตัวแปรเพื่อลดให้เหลือกรณีข้างต้นได้ หรืออีกนัยหนึ่ง สามารถหาค่าเพื่อลดค่า ให้เหลือน้อยที่สุด โดยที่เราใช้แทนค่ากำลังสองของนอร์มถ่วงน้ำหนัก( เปรียบเทียบกับระยะทางมาฮาลาโนบิส ) ในการตีความแบบเบย์เซียนคือเมทริกซ์ความแปรปรวน ร่วมผกผัน ของคือค่าคาดหวังของและคือเมทริกซ์ความแปรปรวนร่วมผกผันของ $\mathbf {x}$ $\mathbf {x}$ $\left\|A\mathbf {x} -\mathbf {b} \right\|_{P}^{2}+\left\|\mathbf {x} -\mathbf {x} _{0}\right\|_{Q}^{2},$ $\left\|\mathbf {x} \right\|_{Q}^{2}$ $\mathbf {x} ^{\mathsf {T}}Q\mathbf {x}$ $P$ $\mathbf {b}$ $\mathbf {x} _{0}$ $\mathbf {x}$ $Q$ $\mathbf {x}$

เมทริกซ์ Tikhonov ไม่ได้ถูกรวมไว้โดยตรง เนื่องจากเทอมการปรับเสถียรภาพที่สอดคล้องกัน จะลดลงเหลือตามข้างต้นโดยมีและสำหรับการปรับเสถียรภาพแบบปกติซึ่งเมทริกซ์ Tikhonov จะปรากฏในการแยกตัวประกอบ Choleskyและถือว่าเป็น ตัวกรองการ ทำให้ ขาว $\left\|\Gamma \mathbf {x} -\mathbf {x} _{0}'\right\|_{Q'}^{2}$ $\Gamma \mathbf {x} _{0}=\mathbf {x} _{0}'$ $Q=\Gamma ^{T}Q'\Gamma$ $Q'=I$ $Q=\Gamma ^{\mathsf {T}}\Gamma$

ปัญหาทั่วไปนี้มีคำตอบที่เหมาะสมที่สุดซึ่งสามารถเขียนออกมาได้อย่างชัดเจนโดยใช้สูตร ${\hat {\mathbf {x} }}$ $\mathbf {\hat {\mathbf {x} }} =\left(A^{\mathsf {T}}PA+Q\right)^{-1}\left(A^{\mathsf {T}}P\mathbf {b} +Q\mathbf {x} _{0}\right)=\mathbf {x} _{0}+\left(A^{\mathsf {T}}PA+Q\right)^{-1}\left(A^{\mathsf {T}}P\left(\mathbf {b} -A\mathbf {x} _{0}\right)\right).$

การปรับค่า Lavrentyev

ในบางสถานการณ์ เราสามารถหลีกเลี่ยงการใช้ทรานสโพสได้ดังที่เสนอโดยMikhail Lavrentyev [ ²⁸^]^{ตัวอย่าง}เช่น ถ้าเป็นเมทริกซ์สมมาตรบวกแน่นอน กล่าวคือ เมทริกซ์ผกผันของมันก็เป็น เมทริก ซ์สมมาตรบวกแน่นอนเช่นกัน ซึ่งสามารถนำมาใช้ตั้งค่ากำลังสองของนอร์มถ่วงน้ำหนักในการปรับค่า Tikhonov แบบทั่วไป ส่งผลให้ลดค่า หรือเทียบเท่ากับค่า คงที่ $A^{\mathsf {T}}$ $A$ $A=A^{\mathsf {T}}>0$ $A^{-1}$ $\left\|\mathbf {x} \right\|_{P}^{2}=\mathbf {x} ^{\mathsf {T}}A^{-1}\mathbf {x}$ $\left\|A\mathbf {x} -\mathbf {b} \right\|_{A^{-1}}^{2}+\left\|\mathbf {x} -\mathbf {x} _{0}\right\|_{Q}^{2}$ $\mathbf {x} ^{\mathsf {T}}\left(A+Q\right)\mathbf {x} -2\mathbf {x} ^{\mathsf {T}}\left(\mathbf {b} +Q\mathbf {x} _{0}\right).$

ปัญหาการหาค่าต่ำสุดนี้มีคำตอบที่เหมาะสมที่สุดซึ่งสามารถเขียนได้อย่างชัดเจนโดยใช้สูตร ซึ่งก็คือคำตอบของปัญหา Tikhonov แบบทั่วไปนั่นเอง $\mathbf {x} ^{*}$ $\mathbf {x} ^{*}=\left(A+Q\right)^{-1}\left(\mathbf {b} +Q\mathbf {x} _{0}\right),$ $A=A^{\mathsf {T}}=P^{-1}.$

การปรับเสถียรภาพแบบ Lavrentyev หากสามารถนำมาใช้ได้ จะมีข้อดีกว่าการปรับเสถียรภาพแบบ Tikhonov ดั้งเดิม เนื่องจากเมทริกซ์ Lavrentyev สามารถมีสภาพที่ดีกว่า กล่าวคือ มีค่าสภาพ ที่ต่ำกว่า เมื่อเทียบกับเมทริกซ์ Tikhonov $A+Q$ $A^{\mathsf {T}}A+\Gamma ^{\mathsf {T}}\Gamma .$

การทำให้เป็นระเบียบในปริภูมิฮิลเบิร์ต

โดยทั่วไป ปัญหาเชิงเส้นไม่ต่อเนื่องที่มีเงื่อนไขไม่ดีมักเกิดจากการทำให้สมการอินทิกรัล เป็นแบบไม่ต่อเนื่อง และเราสามารถกำหนดการปรับเสถียรภาพแบบทิโคนอฟในบริบทมิติอนันต์ดั้งเดิมได้ ในข้างต้น เราสามารถตีความเป็นตัวดำเนินการกระชับบนปริภูมิฮิลเบิร์ตและและเป็นองค์ประกอบในโดเมนและเรนจ์ของ ตัวดำเนินการจึงเป็นตัวดำเนินการผกผันที่มีขอบเขตและสมมาตร ในตัวเอง $A$ $x$ $b$ $A$ $A^{*}A+\Gamma ^{\mathsf {T}}\Gamma$

ความสัมพันธ์กับการแยกส่วนค่าเอกลักษณ์และตัวกรองไวเนอร์

ด้วยเหตุนี้วิธีแก้ปัญหาแบบกำลังสองน้อยที่สุดนี้จึงสามารถวิเคราะห์ได้ด้วยวิธีพิเศษโดยใช้การแยกส่วนค่าเอกลักษณ์เมื่อกำหนดการแยกส่วนค่าเอกลักษณ์ ที่มีค่าเอกลักษณ์วิธีแก้ปัญหาแบบ Tikhonov regularized สามารถแสดงได้เป็น โดย ที่มีค่าในแนวทแยงมุม และเป็นศูนย์ในที่อื่น ซึ่งแสดงให้เห็นถึงผลกระทบของพารามิเตอร์ Tikhonov ต่อค่าสภาพของปัญหาแบบ regularized สำหรับกรณีทั่วไป สามารถหาการแสดงแทนที่คล้ายกันได้โดยใช้ การแยกส่วนค่า เอกลักษณ์แบบทั่วไป^[²⁹^] $\Gamma =\alpha I$ $A=U\Sigma V^{\mathsf {T}}$ $\sigma _{i}$ ${\hat {x}}=VDU^{\mathsf {T}}b,$ $D$ $D_{ii}={\frac {\sigma _{i}}{\sigma _{i}^{2}+\alpha ^{2}}}$

สุดท้ายนี้ มันเกี่ยวข้องกับตัวกรอง Wienerโดย ที่ น้ำหนัก Wiener คือและคืออันดับของ ${\hat {x}}=\sum _{i=1}^{q}f_{i}{\frac {u_{i}^{\mathsf {T}}b}{\sigma _{i}}}v_{i},$ $f_{i}={\frac {\sigma _{i}^{2}}{\sigma _{i}^{2}+\alpha ^{2}}}$ $q$ $A$

ความสัมพันธ์กับการกำหนดสูตรเชิงความน่าจะเป็น

การกำหนดสูตรความน่าจะเป็นของปัญหาผกผันจะนำเสนอ (เมื่อความไม่แน่นอนทั้งหมดเป็นแบบเกาส์เซียน) เมทริกซ์ความแปรปรวนร่วมที่แสดง ถึงความไม่แน่นอน ก่อนหน้าของพารามิเตอร์แบบจำลอง และเมทริกซ์ความแปรปรวนร่วมที่แสดงถึงความไม่แน่นอนของพารามิเตอร์ที่สังเกตได้^[³⁰^]ในกรณีพิเศษเมื่อเมทริกซ์ทั้งสองนี้เป็นเมทริกซ์ทแยงมุมและไอโซโทรปิกและ และ ในกรณีนี้ สมการของทฤษฎีผกผันจะลดลงเหลือ สมการข้างต้น โดยที่^[³¹^]^[³²^] $C_{M}$ $C_{D}$ $C_{M}=\sigma _{M}^{2}I$ $C_{D}=\sigma _{D}^{2}I$ $\alpha ={\sigma _{D}}/{\sigma _{M}}$

การตีความแบบเบย์เซียน

แม้ว่าในตอนแรก การเลือกวิธีแก้ปัญหาสำหรับปัญหาที่ปรับให้เป็นมาตรฐานนี้อาจดูเหมือนไม่เป็นธรรมชาติ และเมทริกซ์ก็ดูค่อนข้างเป็นไปตามอำเภอใจ แต่กระบวนการนี้สามารถพิสูจน์ได้จากมุมมองแบบเบย์เซียน [ ³³^]^โปรดทราบว่าสำหรับปัญหาที่ไม่เหมาะสม จำเป็นต้องแนะนำสมมติฐานเพิ่มเติมบางอย่างเพื่อให้ได้วิธีแก้ปัญหาที่ไม่ซ้ำกัน ในทางสถิติ บางครั้งการกระจาย ความน่าจะเป็นก่อนหน้าของจะถือว่าเป็นการกระจายแบบปกติหลายตัวแปร [ ³⁴^]^{เพื่อ}ความง่าย ในที่นี้จึงตั้งสมมติฐานดังต่อไปนี้: ค่าเฉลี่ยเป็นศูนย์ ส่วนประกอบของค่าเฉลี่ยเป็นอิสระต่อกัน ส่วนประกอบมีค่าเบี่ยงเบนมาตรฐาน เท่ากัน ข้อมูลยังอาจมีข้อผิดพลาด และข้อผิดพลาดในก็ถือว่าเป็นอิสระต่อกันด้วยค่าเฉลี่ยเป็นศูนย์และค่าเบี่ยงเบนมาตรฐานเป็น ศูนย์ ภายใต้สมมติฐานเหล่านี้ วิธีแก้ปัญหาที่ปรับให้เป็นมาตรฐานแบบ Tikhonov เป็น วิธีแก้ปัญหา ที่มีความน่าจะเป็นมากที่สุดเมื่อพิจารณาจากข้อมูลและการกระจายก่อนหน้า ของ ตามทฤษฎีบทของเบย์ส^[³⁵^] $\Gamma$ $x$ $\sigma _{x}$ $b$ $\sigma _{b}$ $x$

หากสมมติฐานเรื่องความปกติถูกแทนที่ด้วยสมมติฐานเรื่องความแปรปรวนคงที่และความไม่สัมพันธ์กันของข้อผิดพลาดและหากยังคงถือว่าค่าเฉลี่ยเป็นศูนย์ทฤษฎีบท Gauss–Markovจะบ่งชี้ว่าคำตอบคือตัวประมาณเชิงเส้นที่ไม่เอนเอียงขั้น ต่ำ ^{[ 36 ]}

ดูเพิ่มเติม

ตัวประมาณค่า LASSOเป็นอีกหนึ่งวิธีการปรับเสถียรภาพในทางสถิติ
การปรับค่าแบบอีลาสติกเน็ต
การปรับเมทริกซ์
เส้นโค้งแอล

หมายเหตุ

^ในทางสถิติวิธีนี้เรียกว่าการถดถอยแบบสัน (ridge regression ) ในการเรียนรู้ของเครื่องวิธีนี้และการดัดแปลงต่างๆ เรียกว่าการลดน้ำหนัก (weight decay ) และจากการค้นพบอิสระหลายครั้ง วิธีนี้จึงมีชื่อเรียกอื่นๆ อีกหลายชื่อ เช่นวิธี Tikhonov–Millerวิธี Phillips–Twomey วิธีการผกผันเชิงเส้นแบบมีข้อจำกัด ( constrained linear inversion method) $การปรับค่าแบบ L2 (L2 regularization$ )และวิธีการปรับค่าเชิงเส้น (method of linear regularization ) วิธีนี้มีความเกี่ยวข้องกับอัลกอริทึม Levenberg–Marquardtสำหรับปัญหาการหาค่ากำลังสองน้อยที่สุดแบบไม่เชิงเส้น

อ่านเพิ่มเติม

Gruber, Marvin (1998). การปรับปรุงประสิทธิภาพด้วยการลดขนาด: ตัวประมาณค่าการถดถอยแบบ James–Stein และ Ridge . โบคา ราตัน: CRC Press. ISBN 0-8247-0156-9.
Kress, Rainer (1998). " การปรับค่าแบบทิโคนอฟ"การวิเคราะห์เชิงตัวเลขนิวยอร์ก: Springer หน้า 86–90 ISBN 0-387-98408-9.
Press, WH; Teukolsky, SA; Vetterling, WT; Flannery, BP (2007). "ส่วนที่ 19.5 วิธีการปรับค่าเชิงเส้น" . สูตรการคำนวณเชิงตัวเลข: ศิลปะแห่งการคำนวณทางวิทยาศาสตร์ (ฉบับที่ 3). นิวยอร์ก: สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-0-521-88068-8.
Saleh, AK Md. Ehsanes; Arashi, Mohammad; Kibria, BM Golam (2019). ทฤษฎีการประมาณค่าการถดถอยแบบ Ridge พร้อมการประยุกต์ใช้ . นิวยอร์ก: John Wiley & Sons. ISBN 978-1-118-64461-4.
Taddy, Matt (2019). "การทำให้เป็นมาตรฐาน" . วิทยาศาสตร์ข้อมูลธุรกิจ: การผสมผสานการเรียนรู้ของเครื่องจักรและเศรษฐศาสตร์เพื่อเพิ่มประสิทธิภาพ ทำให้เป็นอัตโนมัติ และเร่งการตัดสินใจทางธุรกิจ . นิวยอร์ก: McGraw-Hill. หน้า 69–104 . ISBN 978-1-260-45277-8.

[3] ในทางสถิติวิธีนี้เรียกว่าการถดถอยแบบสัน (ridge regression ) ในการเรียนรู้ของเครื่องวิธีนี้และการดัดแปลงต่างๆ เรียกว่าการลดน้ำหนัก (weight decay ) และจากการค้นพบอิสระหลายครั้ง วิธีนี้จึงมีชื่อเรียกอื่นๆ อีกหลายชื่อ เช่นวิธี Tikhonov–Millerวิธี Phillips–Twomey วิธีการผกผันเชิงเส้นแบบมีข้อจำกัด ( constrained linear inversion method) $การปรับค่าแบบ L2 (L2 regularization$ )และวิธีการปรับค่าเชิงเส้น (method of linear regularization ) วิธีนี้มีความเกี่ยวข้องกับอัลกอริทึม Levenberg–Marquardtสำหรับปัญหาการหาค่ากำลังสองน้อยที่สุดแบบไม่เชิงเส้น

[ 1 ]

[ 2 ]

a ] วิธี

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[

[

[

[

แนวทางทางเลือกในการ เลือก

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

24

25

ซ์

[ 27 ]

28

[

[

[

[

33

34

[

[ 36 ]