กำลังสองน้อยที่สุดแบบธรรมดา

Q: การทำนาย

หลังจากที่เราได้ประมาณ ค่า β แล้ว ค่าที่ได้จากการปรับให้เหมาะสม (หรือ ค่าที่ทำนายได้ ) จากการถดถอยจะเป็นดังนี้

ในทางสถิติวิธีการกำลังสองน้อยที่สุดแบบธรรมดา ( OLS ) เป็น วิธีการกำลังสองน้อยที่สุดเชิงเส้นประเภทหนึ่ง สำหรับการเลือก พารามิเตอร์ ที่ไม่ทราบค่า ใน แบบจำลอง การถดถอยเชิงเส้นโดยใช้หลักการกำลังสองน้อยที่สุด : การลดผลรวมของกำลังสองของความแตกต่างระหว่างตัวแปรตาม ที่สังเกตได้ (ค่าของตัวแปรที่ถูกสังเกต) ในชุดข้อมูล อินพุต และผลลัพธ์ของฟังก์ชัน (เชิงเส้น) ของตัวแปรอิสระ แหล่งข้อมูลบางแหล่งถือว่า OLS เป็นการถดถอยเชิงเส้น^{[ 1 ]}

ในทางเรขาคณิต ค่าประมาณนี้สามารถมองได้ว่าเป็นผลรวมของระยะทางกำลังสองที่ขนานกับแกนของตัวแปรตาม ระหว่างแต่ละจุดข้อมูลในชุดข้อมูลกับจุดที่สอดคล้องกันบนพื้นผิวการถดถอย ยิ่งความแตกต่างน้อยเท่าไร แบบจำลองก็จะยิ่งเหมาะสมกับข้อมูลมากขึ้นเท่านั้นค่าประมาณ ที่ได้ สามารถแสดงได้ด้วยสูตรอย่างง่าย โดยเฉพาะอย่างยิ่งในกรณีของการถดถอยเชิงเส้นอย่างง่ายซึ่งมีตัวแปรอิสระ เพียงตัวเดียว ทางด้านขวาของสมการถดถอย

ตัวประมาณค่า OLS มีความสอดคล้องสำหรับผลกระทบคงที่ระดับหนึ่งเมื่อตัวแปรอิสระเป็นตัวแปรภายนอกและก่อให้เกิดความสัมพันธ์เชิงเส้น ที่สมบูรณ์แบบ (เงื่อนไขอันดับ) มีความสอดคล้องสำหรับการประมาณค่าความแปรปรวนของค่าตกค้างเมื่อตัวแปรอิสระมีโมเมนต์ที่สี่จำกัด^{[ 2 ]}และ—ตามทฤษฎีบท Gauss–Markov— เหมาะสมที่สุดในกลุ่มตัวประมาณค่าเชิงเส้นที่ไม่เอนเอียงเมื่อข้อผิดพลาดมีความแปรปรวน คงที่ และไม่มีความสัมพันธ์แบบอนุกรมภายใต้เงื่อนไขเหล่านี้ วิธีการของ OLS ให้ การประมาณค่า ที่ไม่เอนเอียงค่าเฉลี่ยที่มีความแปรปรวนต่ำสุดเมื่อข้อผิดพลาดมีความแปรปรวน จำกัด ภาย ใต้สมมติฐานเพิ่มเติมที่ว่าข้อผิดพลาดมีการกระจายแบบปกติโดยมีค่าเฉลี่ยเป็นศูนย์ OLS เป็นตัวประมาณค่าความน่าจะเป็นสูงสุดที่ทำงานได้ดีกว่าตัวประมาณค่าที่ไม่เอนเอียงแบบไม่เชิงเส้นใดๆ

แบบจำลองเชิงเส้น

สมมติว่าข้อมูลประกอบด้วยค่าสังเกตแต่ละค่าสังเกตประกอบด้วยตัวแปรตอบสนองแบบสเกลาร์และเวกเตอร์คอลัมน์ของพารามิเตอร์ (ตัวแปรอิสระ) เช่นในแบบจำลองการถดถอยเชิงเส้นตัวแปรตอบสนองคือฟังก์ชันเชิงเส้นของตัวแปรอิสระ: $n$ $\left\{\mathbf {x} _{i},y_{i}\right\}_{i=1}^{n}$ $i$ $y_{i}$ $\mathbf {x} _{i}$ $p$ $\mathbf {x} _{i}=\left[x_{i1},x_{i2},\dots ,x_{ip}\right]^{\operatorname {T} }$ $y_{i}$

y_{i}=\beta _{1}\ x_{i1}+\beta _{2}\ x_{i2}+\cdots +\beta _{p}\ x_{ip}+\varepsilon _{i},

หรือในรูปแบบ เวกเตอร์

y_{i}=\mathbf {x} _{i}^{\operatorname {T} }{\boldsymbol {\beta }}+\varepsilon _{i},\,

โดย ที่ตามที่ได้กล่าวไว้ก่อนหน้านี้ คือเวกเตอร์คอลัมน์ของการสังเกตครั้งที่ ของตัวแปรอธิบายทั้งหมดคือเวกเตอร์ของพารามิเตอร์ที่ไม่ทราบค่า และค่าสเกลาร์แทนตัวแปรสุ่มที่ไม่สามารถสังเกตได้ ( ข้อผิดพลาด ) ของการสังเกตครั้งที่อธิบายถึงอิทธิพลที่มีต่อการตอบสนองจากแหล่งอื่นนอกเหนือจากตัวแปรอธิบายแบบจำลองนี้สามารถเขียนในรูปแบบเมทริกซ์ได้ดังนี้ $\mathbf {x} _{i}$ $i$ ${\boldสัญลักษณ์ {\beta }}$ $p\times 1$ $\varepsilon _{i}$ $i$ $\varepsilon _{i}$ $y_{i}$ $\mathbf {x} _{i}$

\mathbf {y} =\mathbf {X} {\boldสัญลักษณ์ {\beta }}+{\boldสัญลักษณ์ {\varepsilon }},\,

โดยที่และเป็นเวกเตอร์ของตัวแปรตอบสนองและข้อผิดพลาดของการสังเกต และเป็นเมทริกซ์ของตัวแปรอิสระ หรือบางครั้งเรียกว่าเมทริกซ์การออกแบบซึ่งแถวที่คือและประกอบด้วยการสังเกตครั้งที่ บนตัวแปรอธิบายทั้งหมด $\mathbf {y}$ ${\boldสัญลักษณ์ {\varepsilon }}$ $n\times 1$ $n$ $\mathbf {X}$ $n\times p$ $i$ $\mathbf {x} _{i}^{\operatorname {T} }$ $i$

โดยทั่วไปแล้ว ค่าคงที่จะถูกรวมอยู่ในชุดตัวแปรอิสระเช่น โดยการเลือกสำหรับทุกค่า สัมประสิทธิ์ที่สอดคล้องกับตัวแปรอิสระนี้เรียกว่า ค่า คงที่จุดตัดแกน y หากไม่มีค่าคงที่จุดตัดแกน y เส้นที่ได้จากการประมาณค่าจะถูกบังคับให้ตัดผ่านจุดกำเนิดเมื่อ n = 0 $\mathbf {X}$ $x_{i1}=1$ $i=1,\dots ,n$ $\beta _{1}$ $x_{i}={\vec {0}}$

ตัวแปรอิสระไม่จำเป็นต้องเป็นอิสระต่อกันเพื่อให้การประมาณค่ามีความสอดคล้องกัน เช่น อาจมีความสัมพันธ์แบบไม่เป็นเชิงเส้นก็ได้ หากไม่มีภาวะความสัมพันธ์ร่วมเชิงเส้นที่สมบูรณ์แบบ การประมาณค่าพารามิเตอร์อาจยังคงมีความสอดคล้องกัน อย่างไรก็ตาม เมื่อภาวะความสัมพันธ์ร่วมเชิงเส้นสูงขึ้น ค่าความคลาดเคลื่อนมาตรฐานรอบการประมาณค่าดังกล่าวก็จะเพิ่มขึ้นและลดความแม่นยำของการประมาณค่าเหล่านั้น เมื่อมีภาวะความสัมพันธ์ร่วมเชิงเส้นที่สมบูรณ์แบบ จะไม่สามารถหาค่าประมาณที่ไม่ซ้ำกันสำหรับสัมประสิทธิ์ของตัวแปรอิสระที่เกี่ยวข้องได้อีกต่อไป การประมาณค่าพารามิเตอร์เหล่านี้จะไม่สามารถลู่เข้าได้ (ดังนั้นจึงไม่สามารถมีความสอดคล้องกัน)

ตัวอย่างที่เป็นรูปธรรมในกรณีที่ตัวแปรอิสระมีความสัมพันธ์แบบไม่เป็นเชิงเส้น แต่การประมาณค่าอาจยังคงสอดคล้องกัน เราอาจสงสัยว่าตัวแปรตอบสนองมีความสัมพันธ์เชิงเส้นกับทั้งค่าและกำลังสองของค่านั้น ในกรณีนี้ เราจะรวมตัวแปรอิสระตัวหนึ่งที่มีค่าเป็นกำลังสองของตัวแปรอิสระอีกตัวหนึ่ง ในกรณีนั้น แบบจำลองจะเป็นแบบกำลังสองในตัวแปรอิสระตัวที่สอง แต่ถึงกระนั้นก็ยังถือว่าเป็น แบบจำลอง เชิงเส้นเพราะแบบจำลอง ยังคง เป็นเชิงเส้นในพารามิเตอร์ ( ) ${\boldสัญลักษณ์ {\beta }}$

การกำหนดสูตรเมทริกซ์/เวกเตอร์

พิจารณาระบบที่กำหนดไว้เกินกำหนด

\sum _{j=1}^{p}x_{ij}\beta _{j}=y_{i},\ (i=1,2,\dots ,n),

ของสมการเชิงเส้นที่มีสัมประสิทธิ์ที่ไม่ทราบค่า, , โดยที่สามารถเขียนในรูปแบบ เมทริกซ์ ได้ดังนี้ $n$ $p$ $\beta _{1},\beta _{2},\dots ,\beta _{p}$ $n>p$

\mathbf {X} {\boldสัญลักษณ์ {\beta }}=\mathbf {y} ,

ที่ไหน

\mathbf {X} ={\begin{bmatrix}X_{11}&X_{12}&\cdots &X_{1p}\\X_{21}&X_{22}&\cdots &X_{2p}\\\vdots &\vdots &\ddots &\vdots \\X_{n1}&X_{n2}&\cdots &X_{np}\end{bmatrix}},\qquad {\boldsymbol {\beta }}={\begin{bmatrix}\beta _{1}\\\beta _{2}\\\vdots \\\beta _{p}\end{bmatrix}},\qquad \mathbf {y} ={\begin{bmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{bmatrix}}.

(หมายเหตุ: สำหรับแบบจำลองเชิงเส้นดังข้างต้น ไม่ใช่ทุกองค์ประกอบในจะมีข้อมูลเกี่ยวกับจุดข้อมูล คอลัมน์แรกจะมีค่าเป็น 1 เท่านั้น ส่วนคอลัมน์อื่นๆ จะมีข้อมูลจริง ดังนั้น ในที่นี้จึงเท่ากับจำนวนตัวแปรอิสระบวกหนึ่ง) $\mathbf {X}$ $X_{i1}=1$ $p$

ระบบดังกล่าวโดยทั่วไปไม่มีคำตอบที่แน่นอน ดังนั้นเป้าหมายจึงอยู่ที่การหาค่าสัมประสิทธิ์ที่เหมาะสมกับสมการ "ดีที่สุด" ในแง่ของการแก้ปัญหา การหาค่าต่ำสุด ของกำลังสอง ${\boldsymbol {\beta }}$

{\hat {\boldsymbol {\beta }}}={\underset {\boldsymbol {\beta }}{\operatorname {arg\,min} }}\,S({\boldsymbol {\beta }}),

โดยที่ฟังก์ชันเป้าหมายกำหนดโดย:

S

S({\boldsymbol {\beta }})=\sum _{i=1}^{n}\left|y_{i}-\sum _{j=1}^{p}X_{ij}\beta _{j}\right|^{2}=\left\|\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\right\|^{2}.

เหตุผลในการเลือกเกณฑ์นี้ได้ระบุไว้ในคุณสมบัติด้านล่าง ปัญหาการหาค่าต่ำสุดนี้มีคำตอบเดียว หากคอลัมน์ของเมทริกซ์เป็นอิสระเชิงเส้น ซึ่งได้มาจากการแก้สม การปกติที่เรียกว่า: $p$ $\mathbf {X}$

\left(\mathbf {X} ^{\operatorname {T} }\mathbf {X} \right){\hat {\boldsymbol {\beta }}}=\mathbf {X} ^{\operatorname {T} }\mathbf {y} \ .

เมทริกซ์นี้เรียกว่าเมทริกซ์ปกติหรือเมทริกซ์แกรมและเมทริกซ์นี้เรียกว่าเมทริกซ์โมเมนต์ของตัวแปรตามโดยตัวแปรตาม^[³^]สุดท้ายเวกเตอร์สัมประสิทธิ์ของระนาบ กำลังสองน้อยที่สุด แสดงเป็น $\mathbf {X} ^{\operatorname {T} }\mathbf {X}$ $\mathbf {X} ^{\operatorname {T} }\mathbf {y}$ ${\hat {\boldsymbol {\beta }}}$

{\hat {\boldsymbol {\beta }}}=\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\mathbf {y} .

หรือ

{\hat {\boldsymbol {\beta }}}={\boldsymbol {\beta }}+\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }{\boldsymbol {\varepsilon }}.

การประมาณการ

สมมติว่าbเป็นค่า "ผู้สมัคร" สำหรับเวกเตอร์พารามิเตอร์βปริมาณ $y i - x i T b$ ซึ่งเรียกว่าค่าตกค้างสำหรับ การสังเกตครั้งที่ iจะวัดระยะทางแนวตั้งระหว่างจุดข้อมูล $(x i, y i)$ และระนาบไฮเปอร์ $y = x T b$ และด้วยเหตุนี้จึงประเมินระดับความพอดีระหว่างข้อมูลจริงกับแบบจำลอง ผลรวมของกำลังสองของค่าตกค้าง ( SSR ) (เรียกอีกอย่างว่าผลรวมกำลังสองของข้อผิดพลาด ( ESS ) หรือผลรวมกำลังสองของค่าตกค้าง ( RSS )) ^{[ 4 ]}เป็นการวัดความพอดีของแบบจำลองโดยรวม:

S(b)=\sum _{i=1}^{n}(y_{i}-x_{i}^{\operatorname {T} }b)^{2}=(y-Xb)^{\operatorname {T} }(y-Xb),

โดยที่Tแทนการสลับ แถวและคอลัมน์ของเมทริกซ์ และแถวของXซึ่งแทนค่าของตัวแปรอิสระทั้งหมดที่เกี่ยวข้องกับค่าเฉพาะของตัวแปรตาม คือX _i = x _i^Tค่าของbที่ทำให้ผลรวมนี้น้อยที่สุดเรียกว่าตัวประมาณ OLS สำหรับβฟังก์ชันS ( b ) เป็นฟังก์ชันกำลังสองในb ที่มีเมทริกซ์ เฮสเซียนบวกแน่นอนดังนั้นฟังก์ชันนี้จึงมีค่าต่ำสุดทั่วโลกที่ไม่ซ้ำกันที่ซึ่งสามารถกำหนดได้ด้วยสูตรที่ชัดเจน^[⁵^]^{[พิสูจน์]} $b={\hat {\beta }}$

{\hat {\beta }}=\operatorname {argmin} _{b\in \mathbb {R} ^{p}}S(b)=(X^{\operatorname {T} }X)^{-1}X^{\operatorname {T} }y\ .

ผลคูณN = X ^TXคือเมทริกซ์แกรมและเมทริกซ์ผกผัน^{Q = N −1 คือเมทริกซ์โคแฟกเตอร์ของ β [ 6 ] [ 7 ] [ 8 ]}ซึ่งมีความ^{เกี่ยวข้อง}อย่างใกล้ชิดกับเมท^ริก^ซ์^ความ^{แปรปรวน}^ร่วม^C^βเมทริกซ์ ( X _T X ) ⁻¹ X T ⁼ Q ^X T เรียก ว่า^เมทริก ซ์ ผกผันเทียมมัวร์-เพนโรสของXสูตรนี้เน้นย้ำประเด็นที่ว่าการประมาณค่าสามารถดำเนินการได้ก็ต่อเมื่อไม่มีความสัมพันธ์เชิงเส้นร่วม ที่สมบูรณ์แบบ ระหว่างตัวแปรอธิบาย (ซึ่งจะทำให้เมทริกซ์แกรมไม่มีเมทริกซ์ผกผัน)

การทำนาย

หลังจากที่เราได้ประมาณค่า βแล้ว ค่าที่ได้จากการปรับให้เหมาะสม (หรือค่าที่ทำนายได้ ) จากการถดถอยจะเป็นดังนี้

{\hat {y}}=X{\hat {\beta }}=Py,

โดยที่P = X ( X ^TX ) ⁻¹X ^Tคือเมทริกซ์การฉายภาพไปยังพื้นที่Vที่ครอบคลุมโดยคอลัมน์ของX เมทริกซ์ Pนี้บางครั้งเรียกว่าเมทริกซ์หมวกเพราะมัน "สวมหมวก" ให้กับตัวแปรyเมทริกซ์อีกตัวหนึ่งที่เกี่ยวข้องอย่างใกล้ชิดกับPคือเมทริกซ์ทำลาย $M = I n - P$ ซึ่งเป็นเมทริกซ์การฉายภาพไปยังพื้นที่ตั้งฉากกับV เมทริกซ์ PและMทั้งสองเป็น เมทริก ซ์สมมาตรและเอกลักษณ์ (หมายความว่า $P 2 = P$ และ $M 2 = M$ ) และเกี่ยวข้องกับเมทริกซ์ข้อมูลXผ่านเอกลักษณ์ $PX = X$ และ $MX = 0$ [ ^{9 ] เมท}ริกซ์Mสร้างค่าตกค้างจากการถดถอย:

{\hat {\varepsilon }}=y-{\hat {y}}=y-X{\hat {\beta }}=My=M(X\beta +\varepsilon )=(MX)\beta +M\varepsilon =M\varepsilon .

ค่าความแปรปรวนของค่าที่ทำนายได้จะพบได้ในแนวทแยงหลักของเมทริกซ์ความแปรปรวนร่วมของค่าที่ทำนายได้: $s_{{\hat {y}}_{i}}^{2}$

C_{\hat {y}}=s^{2}P,

โดยที่Pคือเมทริกซ์การฉายภาพและs ²คือความแปรปรวนของตัวอย่าง^{[ 10 ]} เมทริกซ์ทั้งหมดมีขนาดใหญ่มาก องค์ประกอบแนวทแยงมุมสามารถคำนวณแยกกันได้ดังนี้:

s_{{\hat {y}}_{i}}^{2}=s^{2}X_{i}(X^{T}X)^{-1}X_{i}^{T},

โดยที่X _iคือ แถว ที่ iของเมทริกซ์X

สถิติตัวอย่าง

^{เมื่อใช้ ค่า}ส่วนเหลือเหล่านี้ เราสามารถประมาณค่าความแปรปรวนของตัวอย่างs²โดยใช้ สถิติ ไคกำลังสองแบบลดรูปได้ :

s^{2}={\frac {{\hat {\varepsilon }}^{\mathrm {T} }{\hat {\varepsilon }}}{n-p}}={\frac {(My)^{\mathrm {T} }My}{n-p}}={\frac {y^{\mathrm {T} }M^{\mathrm {T} }My}{n-p}}={\frac {y^{\mathrm {T} }My}{n-p}}={\frac {S({\hat {\beta }})}{n-p}},\qquad {\hat {\sigma }}^{2}={\frac {n-p}{n}}\;s^{2}

ตัวหารn − pคือระดับความเป็นอิสระทางสถิติปริมาณแรกs²คือค่าประมาณ OLS สำหรับσ² ^ในขณะที่ปริมาณที่สองคือค่าประมาณ MLE สำหรับσ² ^ตัว^{ประมาณ}ทั้งสองค่อนข้างคล้ายกันในตัวอย่างขนาดใหญ่ ตัวประมาณแรกจะไม่เอนเอียง เสมอ ในขณะที่ตัวประมาณที่สองจะเอนเอียงแต่มีค่าความคลาดเคลื่อนกำลังสองเฉลี่ย ที่เล็กกว่า ในทางปฏิบัติs²ถูกใช้บ่อยกว่า เนื่องจากสะดวกกว่าสำหรับการทดสอบสมมติฐาน รากที่สองของ^s²เรียกว่า ค่าความคลาดเคลื่อนมาตรฐาน ของการถดถอย^[¹¹^{] ค่าความ}^{คลาดเคลื่อน}มาตรฐานของการถดถอย [ ¹²^]^[¹³^]หรือ^ค่าความคลาดเคลื่อนมาตรฐานของสมการ^[⁹^] $\scriptstyle {\hat {\sigma }}^{2}$

โดยทั่วไปแล้ว การประเมินความเหมาะสมของแบบจำลองการถดถอย OLS จะทำโดยการเปรียบเทียบว่าความแปรปรวนเริ่มต้นในตัวอย่างจะลดลงได้มากน้อยเพียงใดเมื่อทำการถดถอยกับ^Xค่าสัมประสิทธิ์การกำหนด R²ถูกกำหนดให้เป็นอัตราส่วนของความแปรปรวนที่ "อธิบายได้" ต่อความแปรปรวน "ทั้งหมด" ของตัวแปรตามyในกรณีที่ผลรวมกำลังสองของการถดถอยเท่ากับผลรวมกำลังสองของค่าตกค้าง: ^[¹⁴^]

R^{2}={\frac {\sum ({\hat {y}}_{i}-{\overline {y}})^{2}}{\sum (y_{i}-{\overline {y}})^{2}}}={\frac {y^{\mathrm {T} }P^{\mathrm {T} }LPy}{y^{\mathrm {T} }Ly}}=1-{\frac {y^{\mathrm {T} }My}{y^{\mathrm {T} }Ly}}=1-{\frac {\rm {RSS}}{\rm {TSS}}}

โดยที่ TSS คือผลรวมกำลังสองทั้งหมดของตัวแปรตามและคือ เมทริกซ์ n × nที่ประกอบด้วยเลข 1 ทั้งหมด ( คือเมทริกซ์ศูนย์กลางซึ่งเทียบเท่ากับการถดถอยบนค่าคงที่ โดยจะลบค่าเฉลี่ยออกจากตัวแปร) เพื่อให้R²มีความหมาย เมทริกซ์Xของข้อมูลเกี่ยวกับตัวแปรอิสระจะต้องมีเวกเตอร์คอลัมน์ที่ประกอบด้วยเลข 1 ทั้งหมดเพื่อแทนค่าคงที่ซึ่งสัมประสิทธิ์ของมันคือค่าจุดตัดของการถดถอย ในกรณีนั้น^R²จะมีค่าอยู่ระหว่าง 0 ถึง 1 เสมอ โดยค่าที่ใกล้เคียงกับ 1 แสดงถึงความเหมาะสมที่ ^ดี ${\textstyle L=I_{n}-{\frac {1}{n}}J_{n}}$ ${\textstyle J_{n}}$ $L$

แบบจำลองการถดถอยเชิงเส้นอย่างง่าย

ถ้าเมทริกซ์ข้อมูลXประกอบด้วยตัวแปรเพียงสองตัว คือ ค่าคงที่และตัวแปรอิสระx _iเราจะเรียกว่า "แบบจำลองการถดถอยอย่างง่าย" กรณีนี้มักถูกกล่าวถึงในชั้นเรียนสถิติเบื้องต้น เนื่องจากมีสูตรที่ง่ายกว่ามาก เหมาะสำหรับการคำนวณด้วยมือ พารามิเตอร์มักจะแสดงด้วย $(α, β)$ :

y_{i}=\alpha +\beta x_{i}+\varepsilon _{i}.

ในกรณีนี้ ค่าประมาณกำลังสองน้อยที่สุดได้มาจากสูตรอย่างง่าย

{\begin{aligned}{\widehat {\beta }}&={\frac {\sum _{i=1}^{n}{(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}}{\sum _{i=1}^{n}{(x_{i}-{\bar {x}})^{2}}}}\\[2pt]{\widehat {\alpha }}&={\bar {y}}-{\widehat {\beta }}\,{\bar {x}}\ ,\end{aligned}}

อนุพันธ์ทางเลือก

ในส่วนก่อนหน้านี้ ตัวประมาณค่ากำลังสองน้อยที่สุดได้มาจากการหาค่าที่ทำให้ผลรวมของกำลังสองของส่วนเหลือของแบบจำลองมีค่าน้อยที่สุด อย่างไรก็ตาม ยังสามารถหาตัวประมาณค่าเดียวกันนี้ได้จากวิธีการอื่นๆ ในทุกกรณี สูตรสำหรับตัวประมาณค่า OLS ยังคงเหมือนเดิม คือ $^$ $β$ $= ($ $X$ $T$ $X$ $)$ $-1$ $X$ $T$ $y$ ; ความแตกต่างเพียงอย่างเดียวคือวิธีการตีความผลลัพธ์นี้ ${\hat {\beta }}$

การฉายภาพ

สำหรับนักคณิตศาสตร์ OLS คือคำตอบโดยประมาณของระบบสมการเชิงเส้นที่มีตัวแปรเกินจำนวนที่กำหนด $Xβ \approx y$ โดยที่βคือตัวแปรที่ไม่ทราบค่า สมมติว่าระบบนี้ไม่สามารถหาคำตอบที่แน่นอนได้ (จำนวนสมการnมีมากกว่าจำนวนตัวแปรที่ไม่ทราบค่าp มาก ) เรากำลังมองหาคำตอบที่ให้ค่าความคลาดเคลื่อนน้อยที่สุดระหว่างด้านขวาและด้านซ้ายของสมการ กล่าวอีกนัยหนึ่ง เรากำลังมองหาคำตอบที่สอดคล้องกับเงื่อนไขต่อไปนี้

{\hat {\beta }}={\rm {arg}}\min _{\beta }\,\lVert \mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}\rVert ^{2},

โดยที่ $‖ \cdot ‖$ คือ นอร์ม L ² มาตรฐาน ในปริภูมิยุคลิดnมิติR ⁿปริมาณที่ทำนายได้Xβเป็นเพียงการรวมเชิงเส้นบางอย่างของเวกเตอร์ของตัวแปรอิสระ ดังนั้น เวกเตอร์ส่วนเหลือ $y$ $-$ $Xβ$ จะมีความยาวน้อยที่สุดเมื่อyถูกฉายแบบตั้งฉากไปยังปริภูมิย่อยเชิงเส้น ที่เกิดจากคอลัมน์ของXตัวประมาณค่า OLS ในกรณีนี้สามารถตีความได้ว่าเป็นสัมประสิทธิ์ของการแยกส่วนเวกเตอร์ของ $^$ $y$ $=$ $Py$ ตามฐานของ X ${\hat {\beta }}$

กล่าวอีกนัยหนึ่ง สมการความชัน ณ จุดต่ำสุดสามารถเขียนได้ดังนี้:

(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\top }\mathbf {X} =0.

การตีความเชิงเรขาคณิตของสมการเหล่านี้คือ เวกเตอร์ของค่าความคลาดเคลื่อนนั้นตั้งฉากกับปริภูมิคอลัมน์ของXเนื่องจากผลคูณดอทมีค่าเท่ากับศูนย์สำหรับเวกเตอร์คอนฟอร์มอลใดๆvซึ่งหมายความว่าเป็นเวกเตอร์ที่สั้นที่สุดในบรรดาเวกเตอร์ที่เป็นไปได้ทั้งหมดนั่นคือ ความแปรปรวนของค่าความคลาดเคลื่อนมีค่าน้อยที่สุดเท่าที่จะเป็นไปได้ ดังแสดงในภาพด้านขวา $\mathbf {y} -X{\hat {\boldsymbol {\beta }}}$ $(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\cdot \mathbf {X} \mathbf {v}$ $\mathbf {y} -\mathbf {X} {\boldsymbol {\hat {\beta }}}$ $\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }}$

เมื่อนำเมทริกซ์K มาใช้ โดยสมมติว่าเมทริกซ์นั้นไม่เป็นเมทริกซ์เอกฐาน และK ^TX = 0 (ดูการฉายภาพเชิงตั้งฉาก ) เวกเตอร์ส่วนเหลือควรเป็นไปตามสมการต่อไปนี้: ${\hat {\boldsymbol {\gamma }}}$ $[\mathbf {X} \ \mathbf {K} ]$

{\hat {\mathbf {r} }}:=\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}=\mathbf {K} {\hat {\boldsymbol {\gamma }}}.

สมการและวิธีการแก้ปัญหาของวิธีกำลังสองน้อยที่สุดเชิงเส้น สามารถอธิบายได้ดังนี้:

{\begin{aligned}\mathbf {y} &={\begin{bmatrix}\mathbf {X} &\mathbf {K} \end{bmatrix}}{\begin{bmatrix}{\hat {\boldsymbol {\beta }}}\\{\hat {\boldsymbol {\gamma }}}\end{bmatrix}},\\{}\Rightarrow {\begin{bmatrix}{\hat {\boldsymbol {\beta }}}\\{\hat {\boldsymbol {\gamma }}}\end{bmatrix}}&={\begin{bmatrix}\mathbf {X} &\mathbf {K} \end{bmatrix}}^{-1}\mathbf {y} ={\begin{bmatrix}\left(\mathbf {X} ^{\top }\mathbf {X} \right)^{-1}\mathbf {X} ^{\top }\\\left(\mathbf {K} ^{\top }\mathbf {K} \right)^{-1}\mathbf {K} ^{\top }\end{bmatrix}}\mathbf {y} .\end{aligned}}

อีกวิธีหนึ่งในการมองเรื่องนี้คือการพิจารณาเส้นถดถอยว่าเป็นค่าเฉลี่ยถ่วงน้ำหนักของเส้นที่ผ่านจุดสองจุดใดๆ ในชุดข้อมูล^{[ 15 ]}แม้ว่าวิธีการคำนวณแบบนี้จะใช้ทรัพยากรการคำนวณมากกว่า แต่ก็ช่วยให้เข้าใจ OLS ได้ดีขึ้น

ความน่าจะเป็นสูงสุด

ตัวประมาณค่า OLS เหมือนกับตัวประมาณค่าความน่าจะเป็นสูงสุด (MLE) ภายใต้สมมติฐานความปกติของเทอมความคลาดเคลื่อน^{[ 16 ]}^{[พิสูจน์]}สมมติฐานความปกตินี้มีความสำคัญทางประวัติศาสตร์ เนื่องจากเป็นพื้นฐานสำหรับงานในช่วงแรกในการวิเคราะห์การถดถอยเชิงเส้นโดยYuleและPearsonจากคุณสมบัติของ MLE เราสามารถอนุมานได้ว่าตัวประมาณค่า OLS มีประสิทธิภาพเชิงอะซิมโทติก (ในแง่ของการบรรลุขอบเขต Cramér–Raoสำหรับความแปรปรวน) หากสมมติฐานความปกติเป็นไปตามเงื่อนไข^{[ 17 ]}

วิธีโมเมนต์ทั่วไป

ใน กรณีที่ตัวแปรสุ่มเป็นอิสระและมีการกระจาย เหมือนกัน (iid)ตัวประมาณค่า OLS สามารถมองได้ว่าเป็น ตัวประมาณค่า GMMที่เกิดขึ้นจากเงื่อนไขโมเมนต์

\mathrm {E} {\big [}\,x_{i}\left(y_{i}-x_{i}^{\operatorname {T} }\beta \right)\,{\big ]}=0.

เงื่อนไขโมเมนต์เหล่านี้ระบุว่าตัวแปรอิสระควรไม่มีความสัมพันธ์กับค่าความคลาดเคลื่อน เนื่องจากx _iเป็น เวกเตอร์ p มิติจำนวนเงื่อนไขโมเมนต์จึงเท่ากับมิติของเวกเตอร์พารามิเตอร์βดังนั้นระบบจึงสามารถระบุได้อย่างแม่นยำ นี่คือกรณี GMM แบบคลาสสิกที่เรียกว่า เมื่อตัวประมาณค่าไม่ขึ้นอยู่กับการเลือกเมทริกซ์ถ่วงน้ำหนัก

โปรดทราบว่าสมมติฐานความเป็นอิสระอย่างเข้มงวดดั้งเดิม $E[ε i | x i] = 0 บ่ง$ บอกถึงเงื่อนไขโมเมนต์ที่ซับซ้อนกว่าที่กล่าวไว้ข้างต้นมาก โดยเฉพาะอย่างยิ่ง สมมติฐานนี้หมายความว่าสำหรับฟังก์ชันเวกเตอร์ $ƒ$ ใดๆ เงื่อนไขโมเมนต์ $E[ƒ (x i)\cdot ε i] = 0$ จะเป็นจริง อย่างไรก็ตาม สามารถแสดงได้โดยใช้ทฤษฎีบทเกาส์-มาร์คอฟว่าตัวเลือกฟังก์ชัน $ƒ$ ที่เหมาะสมที่สุด คือการเลือก $ƒ (x) = x$ ซึ่งส่งผลให้ได้สมการโมเมนต์ที่แสดงไว้ข้างต้น

ข้อสมมติฐาน

มีกรอบการทำงานที่แตกต่างกันหลายแบบที่ สามารถนำ แบบจำลองการถดถอยเชิงเส้นมาใช้เพื่อให้เทคนิค OLS สามารถใช้งานได้ แต่ละกรอบการทำงานให้สูตรและผลลัพธ์ที่เหมือนกัน ความแตกต่างเพียงอย่างเดียวคือการตีความและข้อสมมติที่ต้องกำหนดเพื่อให้วิธีการให้ผลลัพธ์ที่มีความหมาย การเลือกกรอบการทำงานที่เหมาะสมนั้นขึ้นอยู่กับลักษณะของข้อมูลและงานการอนุมานที่ต้องดำเนินการเป็นส่วนใหญ่

หนึ่งในความแตกต่างในการตีความคือการพิจารณาตัวแปรอิสระว่าเป็นตัวแปรสุ่มหรือเป็นค่าคงที่ที่กำหนดไว้ล่วงหน้า ในกรณีแรก ( _การออกแบบแบบสุ่ม ) ตัวแปรอิสระxᵢจะถูกสุ่มและได้มาพร้อมกับyᵢ จากประชากรบาง_{กลุ่ม}เช่นเดียวกับการศึกษาเชิงสังเกตวิธีนี้ช่วยให้สามารถศึกษาคุณสมบัติเชิงอะซิมโทติกของตัวประมาณค่าได้อย่างเป็นธรรมชาติมากขึ้น ในการตีความอีกแบบหนึ่ง ( การออกแบบแบบคงที่ ) ตัวแปรอิสระXจะถูกมองว่าเป็นค่าคงที่ที่ทราบแล้วซึ่งกำหนดโดยการออกแบบและyจะถูกสุ่มโดยมีเงื่อนไขตามค่าของXเช่นเดียวกับการทดลองในทางปฏิบัติ ความแตกต่างนี้มักไม่สำคัญ เนื่องจาก1การประมาณค่าและการอนุมานจะดำเนินการโดยมีเงื่อนไขตามXผลลัพธ์ทั้งหมดที่กล่าวไว้ในบทความนี้อยู่ภายใต้กรอบการออกแบบแบบสุ่ม

แบบจำลองคลาสสิกมุ่งเน้นไปที่การประมาณค่าและการอนุมาน "ตัวอย่างจำกัด" ซึ่งหมายความว่าจำนวนการสังเกตnนั้นคงที่ ซึ่งแตกต่างจากแนวทางอื่นๆ ที่ศึกษาพฤติกรรมเชิงอะซิปโทติกของ OLS และศึกษาพฤติกรรมที่จำนวนตัวอย่างมาก ในการพิสูจน์ความไม่เอนเอียงของตัวประมาณค่า OLS ในตัวอย่างจำกัด เราต้องมีข้อสมมติดังต่อไปนี้

ความเป็นอิสระจากตัวแปรอิสระ ( Exogeneity ) หมายความว่า ตัวแปรอิสระจะไม่แปรผันร่วมกับค่าความคลาดเคลื่อน: ตัวอย่างเช่น จะต้องไม่มีตัวแปรที่ถูกละเว้นซึ่งแปรผันร่วมกับตัวแปรที่สังเกตได้และส่งผลต่อตัวแปรตอบสนอง อีกทางเลือกหนึ่ง (แต่เข้มงวดกว่า) ที่มักจำเป็นเมื่ออธิบายการถดถอยเชิงเส้นในสถิติทางคณิตศาสตร์คือ ตัวแปรทำนายxสามารถถือได้ว่าเป็นค่าคงที่ แทนที่จะเป็นตัวแปรสุ่มรูปแบบที่เข้มงวดกว่านี้หมายความว่า ตัวอย่างเช่น ตัวแปรทำนายนั้นถือว่าปราศจากข้อผิดพลาด กล่าวคือ ไม่ปนเปื้อนด้วยข้อผิดพลาดในการวัด แม้ว่าสมมติฐานนี้จะไม่สมจริงในหลายกรณี แต่การละทิ้งสมมติฐานนี้จะนำไปสู่แบบจำลองที่ซับซ้อนมากขึ้น เช่นแบบจำลองข้อผิดพลาดในตัวแปร แบบจำลองตัวแปรเครื่องมือและอื่นๆ $\mathbb {E} [\varepsilon _{i}x_{i}]=0.$
ความเป็นเส้นตรงหรือการกำหนดค่าที่ถูกต้องหมายความว่า ค่าเฉลี่ยของตัวแปรตอบสนองเป็นผลรวมเชิงเส้นของพารามิเตอร์ (สัมประสิทธิ์การถดถอย) และตัวแปรทำนาย โปรดทราบว่าข้อสมมติฐานนี้มีความเข้มงวดน้อยกว่าที่อาจดูเหมือนในตอนแรก เนื่องจากตัวแปรทำนายถูกมองว่าเป็นค่าคงที่ (ดูด้านบน) ความเป็นเส้นตรงจึงเป็นเพียงข้อจำกัดของพารามิเตอร์เท่านั้น ตัวแปรทำนายเองสามารถแปลงรูปได้ตามอำเภอใจ และในความเป็นจริงสามารถเพิ่มตัวแปรทำนายพื้นฐานเดียวกันได้หลายชุด โดยแต่ละชุดถูกแปลงรูปแตกต่างกัน เทคนิคนี้ใช้ ตัวอย่างเช่น ในการถดถอยพหุนามซึ่งใช้การถดถอยเชิงเส้นเพื่อปรับตัวแปรตอบสนองให้เป็น ฟังก์ชัน พหุนาม ตามอำเภอใจ (จนถึงระดับที่กำหนด) ของตัวแปรทำนาย ด้วยความยืดหยุ่นมากเช่นนี้ โมเดลเช่นการถดถอยพหุนามมักจะมี "พลังมากเกินไป" กล่าวคือ มีแนวโน้มที่จะปรับให้เข้ากับข้อมูลมากเกินไป ส่งผลให้โดย ทั่วไปต้องใช้ การปรับค่า บางอย่าง เพื่อป้องกันไม่ให้ได้ผลลัพธ์ที่ไม่สมเหตุสมผลจากกระบวนการประมาณค่า ตัวอย่างที่พบได้ทั่วไป ได้แก่การถดถอยแบบริดจ์ (ridge regression ) และการถดถอยแบบลาโซ (lasso regression) นอกจากนี้ยังสามารถใช้การถดถอยเชิงเส้น แบบเบย์เซียน (Bayesian linear regression)ซึ่งโดยธรรมชาติแล้วค่อนข้างจะไม่มีปัญหาเรื่องการโอเวอร์ฟิตติ้ง (overfitting) (อันที่จริงการถดถอยแบบริดจ์และการถดถอยแบบลาโซ สามารถมองได้ว่าเป็นกรณีพิเศษของการถดถอยเชิงเส้นแบบเบย์เซียน โดยมีการกำหนดการ กระจายความน่าจะเป็นล่วงหน้า (prior distribution ) เฉพาะบางประเภทให้กับสัมประสิทธิ์การถดถอย)
การแสดงภาพความแปรปรวนที่ไม่คงที่ในแผนภาพกระจายเทียบกับค่าประมาณแบบสุ่ม 100 ค่าโดยใช้ Matlab
ความแปรปรวนคงที่หรือ โฮโมสเคดาสติซิตี้หมายความว่า ความแปรปรวนของค่าความคลาดเคลื่อนไม่ขึ้นอยู่กับค่าของตัวแปรทำนายดังนั้น ความแปรปรวนของค่าตอบสนองสำหรับค่าคงที่ของตัวแปรทำนายจะเท่ากันไม่ว่าค่าตอบสนองจะมากหรือน้อยเพียงใดก็ตาม อย่างไรก็ตาม บ่อยครั้งที่ไม่ใช่เช่นนั้น เพราะตัวแปรที่มีค่าเฉลี่ยมากมักจะมีความแปรปรวนมากกว่าตัวแปรที่มีค่าเฉลี่ยน้อย ตัวอย่างเช่น บุคคลที่มีรายได้ตามที่คาดการณ์ไว้ 100,000 ดอลลาร์ อาจมีรายได้จริง 80,000 หรือ 120,000 ดอลลาร์ได้ง่ายๆ กล่าวคือ ค่าเบี่ยงเบนมาตรฐานประมาณ 20,000 ดอลลาร์ ในขณะที่อีกคนหนึ่งที่มีรายได้ตามที่คาดการณ์ไว้ 10,000 ดอลลาร์ มีโอกาสน้อยที่จะมีค่าเบี่ยงเบนมาตรฐาน 20,000 ดอลลาร์เท่ากัน เพราะนั่นหมายความว่ารายได้จริงของพวกเขาอาจแตกต่างกันไปตั้งแต่ -10,000 ถึง 30,000 ดอลลาร์ (อันที่จริง ดังที่แสดงให้เห็น ในหลายกรณี—ซึ่งมักจะเป็นกรณีเดียวกันกับที่สมมติฐานเรื่องความคลาดเคลื่อนมีการกระจายแบบปกติไม่เป็นจริง—ค่าความแปรปรวนหรือค่าเบี่ยงเบนมาตรฐานควรจะถูกทำนายว่าแปรผันตรงกับค่าเฉลี่ย มากกว่าที่จะเป็นค่าคงที่) การขาดความแปรปรวนคงที่เรียกว่า ความแปรปรวนไม่คงที่ในการตรวจสอบสมมติฐานนี้ สามารถตรวจสอบกราฟแสดงค่าความคลาดเคลื่อนเทียบกับค่าที่ทำนายได้ (หรือค่าของตัวทำนายแต่ละตัว) เพื่อหา "ปรากฏการณ์การกระจายแบบพัด" (เช่น การกระจายในแนวตั้งที่เพิ่มขึ้นหรือลดลงเมื่อเคลื่อนจากซ้ายไปขวาในกราฟ) นอกจากนี้ยังสามารถตรวจสอบกราฟแสดงค่าความคลาดเคลื่อนสัมบูรณ์หรือค่าความคลาดเคลื่อนยกกำลังสองเทียบกับค่าที่ทำนายได้ (หรือตัวทำนายแต่ละตัว) เพื่อหาแนวโน้มหรือความโค้งได้อีกด้วย สามารถใช้การทดสอบอย่างเป็นทางการได้เช่นกัน ดูที่ ความแปรปรวนไม่คงที่ การมีอยู่ของความแปรปรวน ไม่คงที่ จะส่งผลให้มีการใช้ค่าประมาณ "เฉลี่ย" โดยรวมของความแปรปรวนแทนที่จะเป็นค่าประมาณที่คำนึงถึงโครงสร้างความแปรปรวนที่แท้จริง สิ่งนี้ส่งผลให้ ค่าประมาณพารามิเตอร์มีความแม่นยำน้อยลง (แต่ในกรณีของวิธีกำลังสองน้อยที่สุดแบบธรรมดา จะไม่เกิดอคติ) และค่าความคลาดเคลื่อนมาตรฐานมีอคติ ทำให้การทดสอบและการประมาณช่วงความเชื่อมั่นผิดพลาด ค่าความคลาดเคลื่อนกำลังสองเฉลี่ยของแบบจำลองก็จะผิดพลาดเช่นกัน เทคนิคการประมาณค่าต่างๆ รวมถึงวิธีกำลังสองน้อยที่สุดแบบถ่วงน้ำหนักและการใช้ค่าความคลาดเคลื่อนมาตรฐานที่สอดคล้องกับความแปรปรวนที่ไม่คงที่ สามารถจัดการกับความแปรปรวนที่ไม่คงที่ได้อย่างค่อนข้างทั่วไป เทคนิค การถดถอยเชิงเส้นแบบเบย์เซียนก็สามารถใช้ได้เช่นกันเมื่อสมมติว่าความแปรปรวนเป็นฟังก์ชันของค่าเฉลี่ย นอกจากนี้ ในบางกรณีก็สามารถแก้ไขปัญหาได้โดยการแปลงตัวแปรตอบสนอง (เช่น การหาค่าลอการิทึมของตัวแปรตอบสนองโดยใช้แบบจำลองการถดถอยเชิงเส้น ซึ่งหมายความว่าตัวแปรตอบสนองเองมีการกระจายแบบลอการิทึมปกติแทนที่จะเป็นการกระจายแบบปกติ ) $\mathbb {E} [\varepsilon _{i}^{2}|x_{i}]=\sigma ^{2}.$

ความคลาดเคลื่อนที่ไม่สัมพันธ์กัน สมมติฐานนี้ถือว่าความคลาดเคลื่อนของตัวแปรตอบสนองไม่สัมพันธ์กันบางวิธี เช่น วิธีการกำลังสองน้อยที่สุดแบบทั่วไปสามารถจัดการกับความคลาดเคลื่อนที่สัมพันธ์กันได้ แม้ว่าโดยทั่วไปแล้วจะต้องการข้อมูลมากกว่าอย่างมาก เว้นแต่จะ มีการใช้ การปรับค่า บางอย่าง เพื่อปรับแบบจำลองให้สันนิษฐานว่าความคลาดเคลื่อนไม่สัมพันธ์กันการถดถอยเชิงเส้นแบบเบย์เซียนเป็นวิธีการทั่วไปในการจัดการกับปัญหานี้ความเป็นอิสระทางสถิติ อย่างสมบูรณ์ เป็นเงื่อนไขที่เข้มงวดกว่าเพียงแค่การไม่มีความสัมพันธ์ และมักไม่จำเป็น แม้ว่าจะหมายถึงความเป็นอิสระของค่าเฉลี่ยก็ตาม $\mathbb {E} [\varepsilon _{i}\varepsilon _{j}|x_{i},x_{j}]=0.$
การขาดความสัมพันธ์เชิงเส้นที่สมบูรณ์แบบในตัวแปรทำนาย สำหรับวิธีการประมาณค่ากำลังสองน้อยที่สุด มาตรฐาน เมทริกซ์การออกแบบ Xต้องมีอันดับคอลัมน์ เต็ม p : ^{[ 18 ]}หากสมมติฐานนี้ถูกละเมิดความสัมพันธ์เชิงเส้น ที่สมบูรณ์แบบ จะเกิดขึ้นในตัวแปรทำนาย ซึ่งหมายความว่ามีความสัมพันธ์เชิงเส้นระหว่างตัวแปรทำนายสองตัวขึ้นไป ความสัมพันธ์เชิงเส้นอาจเกิดจากการทำซ้ำตัวแปรในข้อมูลโดยไม่ได้ตั้งใจ การใช้การแปลงเชิงเส้นของตัวแปรพร้อมกับตัวแปรดั้งเดิม (เช่น การวัดอุณหภูมิเดียวกันที่แสดงในหน่วยฟาเรนไฮต์และเซลเซียส) หรือการรวมเชิงเส้นของตัวแปรหลายตัวในแบบจำลอง เช่น ค่าเฉลี่ยของตัวแปรเหล่านั้น นอกจากนี้ยังอาจเกิดขึ้นได้หากมีข้อมูลน้อยเกินไปเมื่อเทียบกับจำนวนพารามิเตอร์ที่จะประมาณค่า (เช่น จุดข้อมูลน้อยกว่าสัมประสิทธิ์การถดถอย) การละเมิดสมมติฐานนี้อย่างใกล้เคียง ซึ่งตัวแปรทำนายมีความสัมพันธ์กันสูงแต่ไม่สมบูรณ์แบบ สามารถลดความแม่นยำของการประมาณค่าพารามิเตอร์ได้ (ดูปัจจัยการขยายตัวของความแปรปรวน ) ในกรณีที่มีความสัมพันธ์เชิงเส้นสมบูรณ์แบบ เวกเตอร์พารามิเตอร์βจะไม่สามารถระบุได้ — ไม่มีคำตอบที่ไม่ซ้ำกัน ในกรณีเช่นนี้ จะสามารถระบุพารามิเตอร์ได้เพียงบางส่วนเท่านั้น (กล่าวคือ ค่าของพารามิเตอร์เหล่านั้นสามารถประมาณได้เฉพาะภายในปริภูมิย่อยเชิงเส้นบางส่วนของปริภูมิพารามิเตอร์ทั้งหมดR ^pเท่านั้น) ดูการถดถอยกำลังสองน้อยที่สุดบางส่วนวิธีการสำหรับการปรับแบบจำลองเชิงเส้นที่มีความสัมพันธ์เชิงเส้นได้รับการพัฒนาแล้ว^[¹⁹^]^[²⁰^]^[²¹^]^[²²^]ซึ่งบางวิธีต้องใช้สมมติฐานเพิ่มเติม เช่น "ความเบาบางของผลกระทบ" — กล่าวคือ ผลกระทบส่วนใหญ่มีค่าเป็นศูนย์ โปรดทราบว่าอัลกอริธึมแบบวนซ้ำที่มีค่าใช้จ่ายในการคำนวณสูงกว่าสำหรับการประมาณค่าพารามิเตอร์ เช่น ที่ใช้ในแบบจำลองเชิงเส้นทั่วไปจะไม่ประสบปัญหาดังกล่าว $\Pr \!{\big [}\,\operatorname {rank} (X)=p\,{\big ]}=1.$

การละเมิดข้อสมมติเหล่านี้อาจส่งผลให้การประมาณค่าβผิดพลาด ค่าความคลาดเคลื่อนมาตรฐานผิดพลาด ช่วงความเชื่อมั่นไม่น่าเชื่อถือ และการทดสอบนัยสำคัญไม่น่าเชื่อถือ นอกจากข้อสมมติเหล่านี้แล้ว คุณสมบัติทางสถิติอื่นๆ ของข้อมูลยังส่งผลกระทบอย่างมากต่อประสิทธิภาพของวิธีการประมาณค่าต่างๆ ด้วย:

ความสัมพันธ์ทางสถิติระหว่างค่าความคลาดเคลื่อนและตัวแปรอิสระมีบทบาทสำคัญในการพิจารณาว่ากระบวนการประมาณค่ามีคุณสมบัติการสุ่มตัวอย่างที่พึงประสงค์หรือไม่ เช่น การไม่ลำเอียงและความสอดคล้อง
การจัดเรียงหรือการกระจายความน่าจะเป็นของตัวแปรทำนายxมีอิทธิพลอย่างมากต่อความแม่นยำของการประมาณค่าβการสุ่มตัวอย่างและการออกแบบการทดลอง เป็นสาขาย่อยที่มีการพัฒนาอย่างสูงในสถิติ ซึ่งให้แนวทางในการรวบรวม ข้อมูลในลักษณะที่จะทำให้ได้ค่าประมาณβที่ แม่นยำ

คุณสมบัติ

คุณสมบัติของตัวอย่างจำกัด

ประการแรก ภายใต้ สมมติฐาน ความเป็นอิสระที่เข้มงวดตัวประมาณ OLS และs ²จะไม่มีอคติหมายความว่าค่าที่คาดหวังจะตรงกับค่าจริงของพารามิเตอร์: ^[²³^]^{[พิสูจน์]} $\scriptstyle {\hat {\beta }}$

\operatorname {E} [\,{\hat {\beta }}\mid X\,]=\beta ,\quad \operatorname {E} [\,s^{2}\mid X\,]=\sigma ^{2}.

หากเงื่อนไขความเป็นตัวแปรอิสระอย่างเคร่งครัดไม่เป็นจริง (เช่นเดียวกับ แบบจำลอง อนุกรมเวลา หลายแบบ ที่ถือว่าความเป็นตัวแปรอิสระเกิดขึ้นเฉพาะกับตัวแปรในอดีตเท่านั้น แต่ไม่รวมถึงตัวแปรในอนาคต) ตัวประมาณค่าเหล่านี้จะมีความคลาดเคลื่อนในตัวอย่างที่มีขนาดจำกัด

เมทริกซ์ความแปรปรวนร่วม (หรือเรียกง่ายๆ ว่าเมทริกซ์ความแปรปรวนร่วม ) ของมีค่าเท่ากับ^[²⁴^] $\scriptstyle {\hat {\beta }}$

\operatorname {Var} [\,{\hat {\beta }}\mid X\,]=\sigma ^{2}\left(X^{\operatorname {T} }X\right)^{-1}=\sigma ^{2}Q.

โดยเฉพาะอย่างยิ่ง ค่าความคลาดเคลื่อนมาตรฐานของสัมประสิทธิ์แต่ละตัวจะเท่ากับรากที่สองของ องค์ประกอบแนวทแยงมุม ที่ jของเมทริกซ์นี้ การประมาณค่าความคลาดเคลื่อนมาตรฐานนี้ได้มาจากการแทนที่ปริมาณที่ไม่ทราบค่าσ²ด้วยค่าประมาณ^s²^{ดังนั้น} $\scriptstyle {\hat {\beta }}_{j}$

{\widehat {\operatorname {s.\!e.} }}({\hat {\beta }}_{j})={\sqrt {s^{2}\left(X^{\operatorname {T} }X\right)_{jj}^{-1}}}

นอกจากนี้ยังสามารถแสดงได้อย่างง่ายดายว่าตัวประมาณค่าไม่มีความสัมพันธ์กับค่าตกค้างจากแบบจำลอง: ^[²⁴^] $\scriptstyle {\hat {\beta }}$

\operatorname {Cov} [\,{\hat {\beta }},{\hat {\varepsilon }}\mid X\,]=0.

ทฤษฎีบท Gauss –Markovระบุว่าภายใต้ สมมติฐาน ข้อผิดพลาดทรงกลม (นั่นคือ ข้อผิดพลาดควรจะไม่มีความสัมพันธ์กันและมีความแปรปรวนคงที่ ) ตัวประมาณค่าจะมีประสิทธิภาพในกลุ่มของตัวประมาณค่าเชิงเส้นที่ไม่เอนเอียง ซึ่งเรียกว่าตัวประมาณค่าเชิงเส้นที่ไม่เอนเอียงที่ดีที่สุด (BLUE) ประสิทธิภาพควรเข้าใจได้ราวกับว่าเราจะหาตัวประมาณค่าอื่น ๆที่เป็นเชิงเส้นในyและไม่เอนเอียง จากนั้น^[²⁴^] $\scriptstyle {\hat {\beta }}$ $\scriptstyle {\tilde {\beta }}$

\operatorname {Var} [\,{\tilde {\beta }}\mid X\,]-\operatorname {Var} [\,{\hat {\beta }}\mid X\,]\geq 0

ในแง่ที่ว่านี่คือเมทริกซ์ที่ไม่เป็นลบแน่นอนทฤษฎีบทนี้พิสูจน์ความเหมาะสมที่สุดเฉพาะในกลุ่มของตัวประมาณค่าเชิงเส้นที่ไม่เอนเอียง ซึ่งค่อนข้างจำกัด ขึ้นอยู่กับการกระจายของพจน์ความคลาดเคลื่อนεตัวประมาณค่าแบบไม่เชิงเส้นอื่นๆ อาจให้ผลลัพธ์ที่ดีกว่า OLS

สมมติว่าเป็นแบบปกติ

คุณสมบัติที่กล่าวมาทั้งหมดนั้นใช้ได้ไม่ว่าการกระจายตัวพื้นฐานของค่าความคลาดเคลื่อนจะเป็นอย่างไรก็ตาม อย่างไรก็ตาม หากคุณยินดีที่จะสมมติว่าสมมติฐานเรื่องความปกติเป็นจริง (นั่นคือ $ε ~ N (0, σ 2 I n)$ ) ก็สามารถระบุคุณสมบัติเพิ่มเติมของตัวประมาณค่า OLS ได้

ตัวประมาณค่ามีการกระจายแบบปกติ โดยมีค่าเฉลี่ยและความแปรปรวนตามที่ระบุไว้ก่อนหน้านี้: ^[²⁵^] $\scriptstyle {\hat {\beta }}$

{\hat {\beta }}\ \sim \ {\mathcal {N}}{\big (}\beta ,\ \sigma ^{2}(X^{\mathrm {T} }X)^{-1}{\big )}.

ตัวประมาณค่านี้เข้าถึงขอบเขต Cramér–Raoสำหรับแบบจำลอง และด้วยเหตุนี้จึงเหมาะสมที่สุดในกลุ่มของตัวประมาณค่าที่ไม่เอนเอียงทั้งหมด^{[ 17 ]}โปรดทราบว่าแตกต่างจากทฤษฎีบท Gauss–Markovผลลัพธ์นี้สร้างความเหมาะสมที่สุดระหว่างตัวประมาณค่าเชิงเส้นและไม่เชิงเส้น แต่เฉพาะในกรณีของพจน์ข้อผิดพลาดที่มีการกระจายแบบปกติเท่านั้น

ตัวประมาณค่าs ²จะเป็นสัดส่วนกับการกระจายไคกำลังสอง : ^{[ 26 ]}

s^{2}\ \sim \ {\frac {\sigma ^{2}}{n-p}}\cdot \chi _{n-p}^{2}

ความแปรปรวนของตัวประมาณนี้เท่ากับ $2 σ 4 /(n - p)$ ซึ่งไม่ถึงขอบเขต Cramér–Raoที่ $2 σ 4 / n$ อย่างไรก็ตาม ได้มีการแสดงให้เห็นว่าไม่มีตัวประมาณที่ไม่เอนเอียงของσ ²ที่มีความแปรปรวนน้อยกว่าตัวประมาณs 2 ^[^{27 ] หาก}เรายินยอมให้มีตัวประมาณที่เอนเอียง และพิจารณาคลาสของตัวประมาณที่เป็นสัดส่วนกับผลรวมของกำลังสองของส่วนเหลือ (SSR) ของแบบจำลอง ตัวประมาณที่ดีที่สุด (ในแง่ของข้อผิดพลาดกำลังสองเฉลี่ย ) ในคลาสนี้จะเป็น $~ σ 2 = SSR / (n - p + 2)$ ซึ่งเอาชนะขอบเขต Cramér–Rao ได้แม้ในกรณีที่มีตัวแปรอิสระเพียงตัวเดียว ( p = 1 ) ^{[ 28 ]}

ยิ่งไปกว่านั้น ตัวประมาณค่าและs ²เป็นอิสระต่อกัน^[²⁹^]ซึ่งเป็นข้อเท็จจริงที่มีประโยชน์เมื่อสร้างการทดสอบ t และ F สำหรับการถดถอย $\scriptstyle {\hat {\beta }}$

ข้อสังเกตที่มีอิทธิพล

ดังที่กล่าวไว้ก่อนหน้านี้ ตัวประมาณค่าเป็นแบบเชิงเส้นในyซึ่งหมายความว่ามันแสดงถึงการรวมเชิงเส้นของตัวแปรตามy _iน้ำหนักในการรวมเชิงเส้นนี้เป็นฟังก์ชันของตัวแปรอิสระXและโดยทั่วไปจะไม่เท่ากัน ข้อมูลที่มีน้ำหนักสูงเรียกว่าข้อมูลที่มีอิทธิพลเพราะมันมีผลกระทบต่อค่าของตัวประมาณค่ามากกว่า ${\hat {\beta }}$

เพื่อวิเคราะห์ว่าการสังเกตใดมีอิทธิพล เราจะลบ การสังเกตที่ j ที่เฉพาะเจาะจงออก และพิจารณาว่าปริมาณที่ประมาณการจะเปลี่ยนแปลงไปมากน้อยเพียงใด (คล้ายกับวิธีแจ็คไนฟ์ ) สามารถแสดงได้ว่าการเปลี่ยนแปลงในตัวประมาณ OLS สำหรับβจะเท่ากับ^{[ 30 ]}

{\hat {\beta }}^{(j)}-{\hat {\beta }}=-{\frac {1}{1-h_{j}}}(X^{\mathrm {T} }X)^{-1}x_{j}^{\mathrm {T} }{\hat {\varepsilon }}_{j}\,,

โดยที่ $h j = x j T (X T X) -1 x j$ คือ องค์ประกอบแนวทแยงมุมที่ jของเมทริกซ์หมวกPและx _jคือเวกเตอร์ของตัวแปรถดถอยที่สอดคล้องกับ การสังเกตที่ jในทำนองเดียวกัน การเปลี่ยนแปลงในค่าที่ทำนายได้สำหรับ การสังเกตที่ jที่เกิดจากการละเว้นการสังเกตนั้นจากชุดข้อมูลจะเท่ากับ^{[ 30 ]}

{\hat {y}}_{j}^{(j)}-{\hat {y}}_{j}=x_{j}^{\mathrm {T} }{\hat {\beta }}^{(j)}-x_{j}^{\operatorname {T} }{\hat {\beta }}=-{\frac {h_{j}}{1-h_{j}}}\,{\hat {\varepsilon }}_{j}

จากคุณสมบัติของเมทริกซ์หมวก $0 \leq h j \leq 1$ และผลรวมของพวกมันเท่ากับpดังนั้นโดยเฉลี่ยแล้ว $h j \approx p/n$ ปริมาณh _j เหล่านี้ เรียกว่าเลเวอเรจและการสังเกตที่มีค่าh _j สูง เรียกว่าจุดเลเวอเรจ [ ^{31 ] โดย}ปกติแล้วการสังเกตที่มีค่าเลเวอเรจสูงควรได้รับการตรวจสอบอย่างละเอียดมากขึ้น ในกรณีที่อาจเป็นข้อผิดพลาด ค่าผิดปกติ หรือผิดปกติไปจากส่วนที่เหลือของชุดข้อมูล

การถดถอยแบบแบ่งส่วน

บางครั้งตัวแปรและพารามิเตอร์ที่เกี่ยวข้องในสมการถดถอยสามารถแบ่งออกเป็นสองกลุ่มได้อย่างมีเหตุผล ทำให้สมการถดถอยมีรูปแบบที่เหมาะสม

y=X_{1}\beta _{1}+X_{2}\beta _{2}+\varepsilon ,

โดยที่X ₁และX ₂มีมิติn × p ₁ , n × p ₂และβ ₁ , β ₂เป็นเวก เตอร์ p ₁ ×1 และp ₂ ×1 โดยที่ $p 1 + p 2 = p$

ทฤษฎีบทFrisch–Waugh–Lovellระบุว่าในการถดถอยนี้ ค่าตกค้างและค่าประมาณ OLS จะเหมือนกันในเชิงตัวเลขกับค่าตกค้างและค่าประมาณ OLS สำหรับβ ₂ในการถดถอยต่อไปนี้: ^[³²^] ${\hat {\varepsilon }}$ $\scriptstyle {\hat {\beta }}_{2}$

M_{1}y=M_{1}X_{2}\beta _{2}+\eta \,,

โดยที่M ₁คือ เมทริก ซ์ ตัวทำลายล้างสำหรับตัวแปรถดถอยX ₁

ทฤษฎีบทนี้สามารถนำไปใช้เพื่อพิสูจน์ผลลัพธ์ทางทฤษฎีได้หลายประการ ตัวอย่างเช่น การวิเคราะห์การถดถอยโดยมีค่าคงที่และตัวแปรอิสระอีกตัวหนึ่งนั้นเทียบเท่ากับการลบค่าเฉลี่ยของตัวแปรตามและตัวแปรอิสระ แล้วทำการวิเคราะห์การถดถอยอีกครั้งสำหรับตัวแปรที่ลบค่าเฉลี่ยแล้ว แต่ไม่รวมค่าคงที่

คุณสมบัติตัวอย่างขนาดใหญ่

ตัวประมาณค่ากำลังสองน้อยที่สุดเป็นค่าประมาณแบบจุดของพารามิเตอร์β ในแบบจำลองการถดถอยเชิงเส้น อย่างไรก็ตาม โดยทั่วไปแล้ว เรายังต้องการทราบว่าค่าประมาณเหล่านั้นใกล้เคียงกับค่าจริงของพารามิเตอร์มากน้อยเพียงใด กล่าวอีกนัยหนึ่ง เราต้องการสร้าง ค่าประมาณ แบบ ช่วง

เนื่องจากเราไม่ได้ตั้งสมมติฐานใดๆ เกี่ยวกับการกระจายตัวของพจน์ความคลาดเคลื่อนε _iจึงเป็นไปไม่ได้ที่จะอนุมานการกระจายตัวของตัวประมาณค่าและอย่างไรก็ตาม เราสามารถใช้ทฤษฎีบทลิมิตกลางเพื่อหา คุณสมบัติ เชิงอะซิมโทติกของตัวประมาณ ค่าเหล่านี้ เมื่อขนาดตัวอย่างnเข้าสู่ค่าอนันต์ แม้ว่าขนาดตัวอย่างจะมีค่าจำกัด แต่โดยทั่วไปแล้วมักจะถือว่าnมีค่า "มากพอ" เพื่อให้การกระจายตัวที่แท้จริงของตัวประมาณค่า OLS ใกล้เคียงกับลิมิตเชิงอะซิมโทติก ${\hat {\beta }}$ ${\hat {\sigma }}^{2}$

เราสามารถแสดงได้ว่าภายใต้สมมติฐานของแบบจำลอง ตัวประมาณค่ากำลังสองน้อยที่สุดสำหรับβ นั้น มีความสอดคล้อง (กล่าวคือลู่เข้าสู่β ในความน่าจะเป็น ) และมีการแจกแจงปกติเชิงอะซิมโทติก: ^{[พิสูจน์]} ${\hat {\beta }}$

({\hat {\beta }}-\beta )\ {\xrightarrow {d}}\ {\mathcal {N}}{\big (}0,\;\sigma ^{2}Q_{xx}^{-1}{\big )},

ที่ไหน $Q_{xx}=X^{\operatorname {T} }X.$

การอนุมาน

โดยใช้การแจกแจงเชิงอะซิมโทติกนี้ ช่วงความเชื่อมั่นสองด้านโดยประมาณสำหรับ องค์ประกอบที่ jของเวกเตอร์สามารถสร้างได้ดังนี้ ${\hat {\beta }}$

\beta _{j}\in {\bigg [}\ {\hat {\beta }}_{j}\pm q_{1-{\frac {\alpha }{2}}}^{{\mathcal {N}}(0,1)}\!{\sqrt {{\hat {\sigma }}^{2}\left[Q_{xx}^{-1}\right]_{jj}}}\ {\bigg ]}

ที่ระดับความเชื่อมั่น

1 - α

โดยที่qแทนฟังก์ชันควอนไทล์ของการแจกแจงปกติมาตรฐาน และ jj _คือองค์ประกอบ แนวทแยงมุมที่ jของเมทริกซ์

ในทำนองเดียวกัน ตัวประมาณค่ากำลังสองน้อยที่สุดสำหรับσ ²ก็มีความสอดคล้องและมีการแจกแจงแบบปกติเชิงอะซิมโทติก (โดยมีเงื่อนไขว่าโมเมนต์ที่สี่ของε _iมีอยู่) พร้อมกับการแจกแจงแบบจำกัด

({\hat {\sigma }}^{2}-\sigma ^{2})\ {\xrightarrow {d}}\ {\mathcal {N}}\left(0,\;\operatorname {E} \left[\varepsilon _{i}^{4}\right]-\sigma ^{4}\right).

การแจกแจงเชิงอะซิมโทติกเหล่านี้สามารถใช้สำหรับการทำนาย การทดสอบสมมติฐาน การสร้างตัวประมาณค่าอื่นๆ เป็นต้น ตัวอย่างเช่น พิจารณาปัญหาการทำนาย สมมติว่าเป็นจุดใดจุดหนึ่งภายในโดเมนของการแจกแจงของตัวแปรอิสระ และเราต้องการทราบว่าตัวแปรตอบสนองจะเป็นอย่างไร ณ จุดนั้น ค่าเฉลี่ยของตัวแปรตอบสนองคือปริมาณในขณะที่ตัวแปรตอบสนองที่ทำนายได้คือเห็นได้ชัดว่าตัวแปรตอบสนองที่ทำนายได้เป็นตัวแปรสุ่ม การแจกแจงของมันสามารถหาได้จากการแจกแจงของ: $x_{0}$ $y_{0}=x_{0}^{\mathrm {T} }\beta$ ${\hat {y}}_{0}=x_{0}^{\mathrm {T} }{\hat {\beta }}$ ${\hat {\beta }}$

\left({\hat {y}}_{0}-y_{0}\right)\ {\xrightarrow {d}}\ {\mathcal {N}}\left(0,\;\sigma ^{2}x_{0}^{\mathrm {T} }Q_{xx}^{-1}x_{0}\right),

ซึ่งช่วยให้สามารถสร้างช่วงความเชื่อมั่นสำหรับค่าเฉลี่ยของการตอบสนองได้: $y_{0}$

y_{0}\in \left[\ x_{0}^{\mathrm {T} }{\hat {\beta }}\pm q_{1-{\frac {\alpha }{2}}}^{{\mathcal {N}}(0,1)}\!{\sqrt {{\hat {\sigma }}^{2}x_{0}^{\mathrm {T} }Q_{xx}^{-1}x_{0}}}\ \right]

ที่ระดับความเชื่อมั่น

1 - α

การทดสอบสมมติฐาน

มีการทดสอบสมมติฐานสองแบบที่ใช้กันอย่างแพร่หลาย แบบแรกคือ เราต้องการทราบว่าสมการถดถอยที่ประมาณค่าได้นั้นดีกว่าการทำนายว่าค่าทั้งหมดของตัวแปรตอบสนองเท่ากับค่าเฉลี่ยของตัวอย่างหรือไม่ (ถ้าไม่เป็นเช่นนั้น ก็กล่าวได้ว่าไม่มีอำนาจในการอธิบาย) สมมติฐานหลักที่ว่าสมการถดถอยที่ประมาณค่าได้ไม่มีอำนาจในการอธิบาย จะถูกทดสอบโดยใช้การทดสอบ Fถ้าค่า F ที่คำนวณได้มีขนาดใหญ่พอที่จะเกินค่าวิกฤตสำหรับระดับนัยสำคัญที่เลือกไว้ล่วงหน้า สมมติฐานหลักจะถูกปฏิเสธ และสมมติฐานทางเลือกที่ว่าสมการถดถอยมีอำนาจในการอธิบาย จะถูกยอมรับ มิฉะนั้น สมมติฐานหลักที่ว่าสมการถดถอยไม่มีอำนาจในการอธิบายจะถูกยอมรับ

ประการที่สอง สำหรับตัวแปรอธิบายแต่ละตัวที่เราสนใจ เราต้องการทราบว่าค่าสัมประสิทธิ์ที่ประมาณการได้นั้นแตกต่างจากศูนย์อย่างมีนัยสำคัญหรือไม่ กล่าวคือ ตัวแปรอธิบายตัวนี้มีอำนาจในการอธิบายตัวแปรตอบสนองหรือไม่ สมมติฐานว่างคือค่าสัมประสิทธิ์ที่แท้จริงเป็นศูนย์ สมมติฐานนี้ได้รับการทดสอบโดยการคำนวณค่าสถิติ t ของค่าสัมประสิทธิ์ ซึ่งเป็นอัตราส่วนของค่าประมาณสัมประสิทธิ์ต่อค่าความคลาดเคลื่อนมาตรฐานหากค่าสถิติ t มากกว่าค่าที่กำหนดไว้ล่วงหน้า สมมติฐานว่างจะถูกปฏิเสธและพบว่าตัวแปรนั้นมีอำนาจในการอธิบาย โดยที่ค่าสัมประสิทธิ์แตกต่างจากศูนย์อย่างมีนัยสำคัญ มิเช่นนั้น สมมติฐานว่างที่ว่าค่าสัมประสิทธิ์ที่แท้จริงเป็นศูนย์จะถูกยอมรับ

นอกจากนี้ ยังใช้ การทดสอบ Chowเพื่อตรวจสอบว่ากลุ่มตัวอย่างย่อยสองกลุ่มมีค่าสัมประสิทธิ์ที่แท้จริงเหมือนกันหรือไม่ โดยจะเปรียบเทียบผลรวมของกำลังสองของค่าความคลาดเคลื่อนจากการถดถอยในแต่ละกลุ่มตัวอย่างย่อยและในชุดข้อมูลรวม โดยคำนวณค่าสถิติ F หากค่านี้เกินค่าวิกฤต จะปฏิเสธสมมติฐานหลักที่ว่าไม่มีความแตกต่างระหว่างกลุ่มตัวอย่างย่อยทั้งสองกลุ่ม มิเช่นนั้นจะยอมรับสมมติฐานหลักนั้น

การละเมิดข้อสมมติฐาน

แบบจำลองอนุกรมเวลา

ใน แบบจำลอง อนุกรมเวลาเราต้องการให้กระบวนการสุ่ม { x _i , y _i } เป็นแบบคงที่และเออร์โกดิกหาก { x _i , y _i } ไม่คงที่ ผลลัพธ์ OLS มักจะเอนเอียง เว้นแต่ว่า { x _i , y _i } จะมีการรวมตัวกัน^{[ 33 ]}

เรายังคงต้องกำหนดให้ตัวแปรอิสระต้องเป็นตัวแปรภายนอกอย่างเคร่งครัด : E[ x _i ε _i ] = 0 สำหรับทุกi = 1, ..., nหากตัวแปรอิสระถูกกำหนดไว้ล่วงหน้า เท่านั้น OLS จะมีอคติในตัวอย่างที่มีขนาดจำกัด

สุดท้ายนี้ ข้อสมมติเกี่ยวกับความแปรปรวนจะอยู่ในรูปแบบของการกำหนดให้ { x _i ε _i } เป็นลำดับผลต่างมาร์ติงเกลโดย มีเมทริกซ์โมเมนต์อันดับสองจำกัด $Q xxε ² = E[ε i 2 x i x i T]$

การประมาณค่าแบบมีข้อจำกัด

สมมติว่าทราบแล้วว่าสัมประสิทธิ์ในการถดถอยเป็นไปตามระบบสมการเชิงเส้น

A\colon \quad Q^{\operatorname {T} }\beta =c,\,

โดยที่Qเป็น เมทริกซ์ p × qที่มีอันดับเต็ม และcเป็น เวกเตอร์ q × 1 ของค่าคงที่ที่ทราบ โดยที่q < pในกรณีนี้ การประมาณค่ากำลังสองน้อยที่สุดเทียบเท่ากับการลดผลรวมของกำลังสองของส่วนเหลือของแบบจำลองภายใต้ข้อจำกัดAตัว ประมาณ ค่ากำลังสองน้อยที่สุดแบบมีข้อจำกัด (CLS)สามารถกำหนดได้ด้วยสูตรที่ชัดเจน: ^{[ 34 ]}

{\hat {\beta }}^{c}={\hat {\beta }}-(X^{\operatorname {T} }X)^{-1}Q{\Big (}Q^{\operatorname {T} }(X^{\operatorname {T} }X)^{-1}Q{\Big )}^{-1}(Q^{\operatorname {T} }{\hat {\beta }}-c).

นิพจน์สำหรับตัวประมาณค่าแบบมีข้อจำกัดนี้ใช้ได้ตราบใดที่เมทริกซ์X ^T Xสามารถผกผันได้ สมมติไว้ตั้งแต่ต้นบทความนี้ว่าเมทริกซ์นี้มีอันดับเต็ม และได้กล่าวไว้ว่าเมื่อเงื่อนไขอันดับไม่เป็นไปตามที่กำหนดβจะไม่สามารถระบุได้ อย่างไรก็ตาม อาจเกิดขึ้นได้ว่าการเพิ่มข้อจำกัดAทำให้βสามารถระบุได้ ซึ่งในกรณีนี้เราต้องการหาสูตรสำหรับตัวประมาณค่า ตัวประมาณค่าเท่ากับ^{[ 35 ]}

{\hat {\beta }}^{c}=R(R^{\operatorname {T} }X^{\operatorname {T} }XR)^{-1}R^{\operatorname {T} }X^{\operatorname {T} }y+{\Big (}I_{p}-R(R^{\operatorname {T} }X^{\operatorname {T} }XR)^{-1}R^{\operatorname {T} }X^{\operatorname {T} }X{\Big )}Q(Q^{\operatorname {T} }Q)^{-1}c,

โดยที่Rเป็น เมทริกซ์ p × ( p − q ) ซึ่งเมทริกซ์[ QR ]ไม่เป็นเอกฐาน และR ^T Q = 0เมทริกซ์ดังกล่าวสามารถหาได้เสมอ แม้ว่าโดยทั่วไปแล้วจะไม่เป็นเอกลักษณ์ สูตรที่สองจะตรงกับสูตรแรกในกรณีที่X ^T Xสามารถผกผันได้^{[ 35 ]}

ตัวอย่างพร้อมข้อมูลจริง

ชุดข้อมูลต่อไปนี้แสดงส่วนสูงและน้ำหนักเฉลี่ยของสตรีชาวอเมริกันอายุ 30-39 ปี (ที่มา: The World Almanac and Book of Facts, 1975 )

ความสูง (เมตร)	1.47	1.50	1.52	1.55	1.57	แผนภาพกระจายของข้อมูล แสดงให้เห็นว่าความสัมพันธ์นั้นโค้งเล็กน้อย แต่ใกล้เคียงกับเส้นตรง
น้ำหนัก (กก.)	52.21	53.12	54.48	55.84	57.20
ความสูง (เมตร)	1.60	1.63	1.65	1.68	1.70
น้ำหนัก (กก.)	58.57	59.93	61.29	63.11	64.47
ความสูง (เมตร)	1.73	1.75	1.78	1.80	1.83
น้ำหนัก (กก.)	66.28	68.10	69.92	72.19	74.46

เมื่อมีการสร้างแบบจำลองตัวแปรตามเพียงตัวเดียวแผนภาพกระจายจะแสดงรูปแบบและความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปรตามและตัวแปรอิสระ นอกจากนี้ยังอาจเปิดเผยค่าผิดปกติ ความแปรปรวนที่ไม่คงที่ และแง่มุมอื่นๆ ของข้อมูลที่อาจทำให้การตีความแบบจำลองการถดถอยมีความซับซ้อน แผนภาพกระจายแสดงให้เห็นว่าความสัมพันธ์นั้นแข็งแกร่งและสามารถประมาณได้ด้วยฟังก์ชันกำลังสอง OLS สามารถจัดการกับความสัมพันธ์ที่ไม่เป็นเชิงเส้นได้โดยการแนะนำตัวแปรอิสระHEIGHT² แบบจำลองการ ^{ถดถอย}จึงกลายเป็นแบบจำลองเชิงเส้นหลายตัวแปร:

w_{i}=\beta _{1}+\beta _{2}h_{i}+\beta _{3}h_{i}^{2}+\varepsilon _{i}.

ผลลัพธ์จากโปรแกรมวิเคราะห์สถิติ ที่นิยมใช้ส่วนใหญ่ จะมีลักษณะคล้ายกับนี้:

พารามิเตอร์	ค่า	ข้อผิดพลาดมาตรฐาน	ค่าสถิติ t	ค่า p
วิธี	กำลังสองน้อยที่สุด
ตัวแปรตาม	น้ำหนัก
ข้อสังเกต	15


$\beta _{1}$	128.8128	16.3083	7.8986	0.0000
$\beta _{2}$	−143.1620	19.8332	−7.2183	0.0000
$\beta _{3}$	61.9603	6.0084	10.3122	0.0000

อาร์²	0.9989	ค่าความคลาดเคลื่อนมาตรฐานของการถดถอย		0.2516
ค่า R ปรับปรุง²	0.9987	แบบจำลองผลรวมกำลังสอง		692.61
ความน่าจะเป็นล็อก	1.0890	ผลรวมกำลังสองของส่วนเหลือ		0.7595
สถิติเดอร์บิน-วัตสัน	2.1013	ผลรวมกำลังสองทั้งหมด		693.37
เกณฑ์อะไคเกะ	0.2548	สถิติเอฟ		5471.2
เกณฑ์ชวาร์ซ	0.3964	ค่า p (ค่า F)		0.0000

ในตารางนี้:

คอลัมน์Valueแสดงค่าประมาณกำลังสองน้อยที่สุดของพารามิเตอร์β _j
คอลัมน์Std errorแสดงค่าความคลาดเคลื่อนมาตรฐานของการประมาณค่าสัมประสิทธิ์แต่ละค่า: ${\hat {\sigma }}_{j}=\left({\hat {\sigma }}^{2}\left[Q_{xx}^{-1}\right]_{jj}\right)^{\frac {1}{2}}$
คอลัมน์ค่าสถิติ tและค่า pใช้ทดสอบว่าค่าสัมประสิทธิ์ใดๆ อาจเท่ากับศูนย์หรือไม่ ค่าสถิติ tคำนวณได้ง่ายๆ โดยใช้สูตร t = 1/(t - t) / (t - t ) ถ้าค่าความคลาดเคลื่อน ε มีการแจกแจงแบบปกติค่า tก็จะมีการแจกแจงแบบ Student-t ภายใต้เงื่อนไขที่อ่อนกว่า ค่า t จะมีการแจกแจงแบบปกติเชิงอะซิมโทติก ค่าt ที่สูง แสดงว่าสมมติฐานว่างสามารถถูกปฏิเสธได้ และค่าสัมประสิทธิ์ที่เกี่ยวข้องไม่ใช่ศูนย์ คอลัมน์ที่สองคือค่า pซึ่งแสดงผลลัพธ์ของการทดสอบสมมติฐานในรูปของระดับนัยสำคัญโดยทั่วไปแล้ว ค่า pที่น้อยกว่า 0.05 ถือเป็นหลักฐานว่าค่าสัมประสิทธิ์ของประชากรไม่ใช่ศูนย์ $t={\hat {\beta }}_{j}/{\hat {\sigma }}_{j}$
ค่า R-squaredคือค่าสัมประสิทธิ์การกำหนดที่บ่งชี้ความเหมาะสมของแบบจำลองการถดถอย ค่าสถิตินี้จะเท่ากับหนึ่งหากแบบจำลองมีความเหมาะสมสมบูรณ์ และเท่ากับศูนย์เมื่อตัวแปรอิสระX ไม่มีอำนาจในการอธิบายใดๆ เลย นี่คือค่าประมาณที่ไม่เป็นกลางของค่า R-squaredของประชากรและจะไม่ลดลงหากเพิ่มตัวแปรอิสระเพิ่มเติมเข้าไป แม้ว่าตัวแปรเหล่านั้นจะไม่มีความเกี่ยวข้องก็ตาม
ค่า R-squared ที่ปรับแล้ว (Adjusted R-squared)เป็นค่าที่ดัดแปลงเล็กน้อยจากค่า R-squared ทั่วไป โดยมีจุดประสงค์เพื่อลงโทษจำนวนตัวแปรอิสระที่มากเกินไปซึ่งไม่ได้เพิ่มพลังในการอธิบายของการถดถอย ค่าสถิตินี้จะมีค่าน้อยกว่าค่า R-squared ทั่วไปเสมอ และอาจลดลงเมื่อเพิ่มตัวแปรอิสระใหม่ และอาจมีค่าเป็นลบได้สำหรับแบบจำลองที่ไม่เหมาะสม $R^{2}$ $R^{2}$

{\overline {R}}^{2}=1-{\frac {n-1}{n-p}}(1-R^{2})

ค่าลอการิทึมความน่าจะเป็นคำนวณภายใต้สมมติฐานว่าความคลาดเคลื่อนมีการกระจายแบบปกติ แม้ว่าสมมติฐานนี้จะไม่สมเหตุสมผลนัก แต่สถิตินี้ก็ยังสามารถนำไปใช้ในการทดสอบลอการิทึมความน่าจะเป็นได้
สถิติเดอร์บิน-วัตสัน (Durbin–Watson statistic)ใช้ทดสอบว่ามีความสัมพันธ์แบบอนุกรมระหว่างค่าความคลาดเคลื่อนหรือไม่ โดยทั่วไปแล้ว ค่าที่น้อยกว่า 2 จะแสดงว่ามีความสัมพันธ์เชิงบวก
เกณฑ์ข้อมูล Akaikeและเกณฑ์ Schwarzต่างก็ใช้สำหรับการเลือกแบบจำลอง โดยทั่วไป เมื่อเปรียบเทียบแบบจำลองทางเลือกสองแบบ ค่าที่น้อยกว่าของเกณฑ์ใดเกณฑ์หนึ่งจะบ่งชี้ว่าแบบจำลองนั้นดีกว่า^{[ 36 ]}
ค่าความคลาดเคลื่อนมาตรฐานของการถดถอยคือค่าประมาณของσซึ่งเป็นค่าความคลาดเคลื่อนมาตรฐานของพจน์ความคลาดเคลื่อน
ผลรวมกำลังสองทั้งหมดผลรวมกำลังสองของแบบจำลองและผลรวมกำลังสองของส่วนเหลือ บอกเรา ว่าความแปรปรวนเริ่มต้นในตัวอย่างนั้นถูกอธิบายโดยการถดถอยได้มากน้อยเพียงใด
สถิติ Fพยายามทดสอบสมมติฐานที่ว่าสัมประสิทธิ์ทั้งหมด (ยกเว้นค่าคงที่) เท่ากับศูนย์ สถิตินี้มี การกระจายแบบ F ( p–1 , n–p ) ภายใต้สมมติฐานว่างและสมมติฐานความปกติ และค่า p ของมันบ่งบอกถึงความน่าจะเป็นที่สมมติฐานนั้นเป็นจริง โปรดทราบว่าเมื่อความคลาดเคลื่อนไม่เป็นไปตามการกระจายแบบปกติ สถิตินี้จะใช้ไม่ได้ และ ควรใช้การทดสอบอื่นๆ เช่นการทดสอบ Waldหรือการทดสอบ LR แทน

การวิเคราะห์ด้วยวิธีกำลังสองน้อยที่สุดแบบธรรมดา มักจะรวมถึงการใช้แผนภาพวินิจฉัยที่ออกแบบมาเพื่อตรวจจับความเบี่ยงเบนของข้อมูลจากรูปแบบที่สมมติขึ้นของแบบจำลอง แผนภาพวินิจฉัยทั่วไปบางส่วนมีดังนี้:

ค่าความคลาดเคลื่อนเทียบกับตัวแปรอธิบายในแบบจำลอง ความสัมพันธ์ที่ไม่เป็นเชิงเส้นระหว่างตัวแปรเหล่านี้บ่งชี้ว่าความเป็นเชิงเส้นของฟังก์ชันค่าเฉลี่ยแบบมีเงื่อนไขอาจไม่เป็นจริง ระดับความแปรปรวนที่แตกต่างกันในค่าความคลาดเคลื่อนสำหรับระดับที่แตกต่างกันของตัวแปรอธิบายบ่งชี้ถึงความเป็นไปได้ของความแปรปรวนที่ไม่คงที่ (heteroscedasticity)
ค่าความคลาดเคลื่อนเทียบกับตัวแปรอธิบายที่ไม่ได้อยู่ในแบบจำลอง ความสัมพันธ์ใดๆ ระหว่างค่าความคลาดเคลื่อนกับตัวแปรเหล่านี้ จะบ่งชี้ว่าควรพิจารณารวมตัวแปรเหล่านี้ไว้ในแบบจำลอง
ค่าความคลาดเคลื่อนเทียบกับค่าที่คาดการณ์ไว้ ${\hat {y}}$
เปรียบเทียบค่าความคลาดเคลื่อนกับค่าความคลาดเคลื่อนก่อนหน้า แผนภาพนี้อาจช่วยระบุความสัมพันธ์แบบอนุกรมในค่าความคลาดเคลื่อนได้

สิ่งสำคัญที่ควรพิจารณาเมื่อทำการอนุมานทางสถิติโดยใช้แบบจำลองการถดถอยคือวิธีการสุ่มตัวอย่างข้อมูล ในตัวอย่างนี้ ข้อมูลเป็นค่าเฉลี่ย ไม่ใช่การวัดค่าจากผู้หญิงแต่ละคน แบบจำลองมีความเหมาะสมดีมาก แต่ไม่ได้หมายความว่าน้ำหนักของผู้หญิงแต่ละคนสามารถทำนายได้อย่างแม่นยำสูงโดยอาศัยเพียงส่วนสูงของเธอเท่านั้น

ความไวต่อการปัดเศษ

ตัวอย่างนี้ยังแสดงให้เห็นว่าค่าสัมประสิทธิ์ที่กำหนดโดยการคำนวณเหล่านี้มีความอ่อนไหวต่อวิธีการเตรียมข้อมูล ความสูงที่ให้มาเดิมนั้นปัดเศษเป็นนิ้วที่ใกล้ที่สุด และได้ถูกแปลงและปัดเศษเป็นเซนติเมตรที่ใกล้ที่สุดแล้ว เนื่องจากตัวประกอบการแปลงคือ 1 นิ้วต่อ 2.54 เซนติเมตร การแปลงนี้จึงไม่แม่นยำ สามารถกู้คืนค่าหน่วยนิ้วเดิมได้โดยใช้ Round(x/0.0254) แล้วแปลงกลับเป็นหน่วยเมตริกโดยไม่ต้องปัดเศษ หากทำเช่นนี้ ผลลัพธ์จะเป็นดังนี้:

	คอนสต	ความสูง	ความสูง²
แปลงเป็นหน่วยเมตริกโดยปัดเศษแล้ว	128.8128	−143.162	61.96033
แปลงเป็นหน่วยเมตริกโดยไม่ปัดเศษ	119.0205	−131.5076	58.5046

ค่าความคลาดเคลื่อนจากการปรับแบบกำลังสอง สำหรับข้อมูลที่แปลงอย่างถูกต้องและไม่ถูกต้อง

การใช้สมการใดสมการหนึ่งเพื่อทำนายน้ำหนักของผู้หญิงที่มีความสูง 5 ฟุต 6 นิ้ว (1.6764 เมตร) จะได้ค่าที่ใกล้เคียงกัน คือ 62.94 กิโลกรัมเมื่อปัดเศษ และ 62.98 กิโลกรัมเมื่อไม่ปัดเศษ ดังนั้น ความแปรผันเล็กน้อยในข้อมูลจึงมีผลกระทบต่อค่าสัมประสิทธิ์ แต่มีผลกระทบต่อผลลัพธ์ของสมการเพียงเล็กน้อย

แม้ว่าสิ่งนี้อาจดูไม่เป็นอันตรายในช่วงกลางของช่วงข้อมูล แต่ก็อาจมีความสำคัญอย่างมากที่ค่าสุดขั้ว หรือในกรณีที่ใช้แบบจำลองที่ปรับให้เหมาะสมเพื่อคาดการณ์นอกช่วงข้อมูล ( การคาดการณ์ นอกช่วง )

ตัวอย่างนี้ชี้ให้เห็นถึงข้อผิดพลาดทั่วไป: ตัวอย่างนี้เป็นการใช้ OLS อย่างไม่ถูกต้อง ซึ่งโดยพื้นฐานแล้วต้องการให้ข้อผิดพลาดในตัวแปรอิสระ (ในกรณีนี้คือความสูง) เป็นศูนย์หรืออย่างน้อยก็มีค่าเล็กน้อย การปัดเศษเริ่มต้นให้ใกล้เคียงที่สุดเป็นนิ้ว บวกกับข้อผิดพลาดในการวัดจริงใด ๆ ก็ตาม ก่อให้เกิดข้อผิดพลาดที่มีค่าและไม่สามารถละเลยได้ ส่งผลให้พารามิเตอร์ที่ได้จากการประมาณค่าไม่ใช่ค่าประมาณที่ดีที่สุดอย่างที่คาดไว้ แม้จะไม่ใช่ข้อผิดพลาดที่ผิดพลาดโดยสิ้นเชิง แต่ข้อผิดพลาดในการประมาณค่าจะขึ้นอยู่กับขนาดสัมพัทธ์ของข้อผิดพลาด ในแกน xและy

อีกตัวอย่างหนึ่งที่มีข้อมูลจริงน้อยกว่า

คำชี้แจงปัญหา

เราสามารถใช้กลไกกำลังสองน้อยที่สุดเพื่อหาสมการวงโคจรของวัตถุสองชิ้นในระบบพิกัดเชิงขั้ว สมการที่ใช้โดยทั่วไปคือโดยที่คือรัศมีที่แสดงระยะห่างของวัตถุชิ้นหนึ่งจากวัตถุอีกชิ้นหนึ่ง ในสมการนี้ พารามิเตอร์และใช้ในการกำหนดเส้นทางของวงโคจร เราได้วัดข้อมูลต่อไปนี้ $r(\theta )={\frac {p}{1-e\cos(\theta )}}$ $r(\theta )$ $p$ $e$

$\theta$ (ในหน่วยองศา)	43	45	52	93	108	116
$r(\theta )$	4.7126	4.5542	4.0419	2.2187	1.8910	1.7599

เราจำเป็นต้องหาค่าประมาณกำลังสองน้อยที่สุดของและสำหรับข้อมูลที่กำหนดให้ $e$ $p$

สารละลาย

ขั้นแรก เราต้องแสดง e และ p ในรูปแบบเชิงเส้น ดังนั้นเราจะเขียนสมการใหม่เป็น. $r(\theta )$ ${\frac {1}{r(\theta )}}={\frac {1}{p}}-{\frac {e}{p}}\cos(\theta )$

นอกจากนี้ ยังสามารถปรับให้เข้ากับจุดยอดได้โดยการขยายด้วยพารามิเตอร์เพิ่มเติมเป็นซึ่งเป็นเชิงเส้นทั้งในและในฟังก์ชันพื้นฐานเพิ่มเติม $\cos(\theta )$ $\cos(\theta -\theta _{0})=\cos(\theta )\cos(\theta _{0})+\sin(\theta )\sin(\theta _{0})$ $\cos(\theta )$ $\sin(\theta )$

เราใช้รูปแบบสองพารามิเตอร์ดั้งเดิมในการแสดงข้อมูลการสังเกตของเราดังนี้:

$A^{T}A{\binom {x}{y}}=A^{T}b,$

ที่ไหน:

$x=1/p\,$ ; ; ประกอบด้วยสัมประสิทธิ์ของในคอลัมน์แรก ซึ่งทั้งหมดเป็น 1 และสัมประสิทธิ์ของในคอลัมน์ที่สอง กำหนดโดย; และเช่นนั้น: $y=e/p\,$ $A$ $1/p$ $e/p$ $\cos(\theta )\,$ $b=1/r(\theta )$

$A={\begin{bmatrix}1&-0.731354\\1&-0.707107\\1&-0.615661\\1&\ 0.052336\\1&0.309017\\1&0.438371\end{bmatrix}},\quad b={\begin{bmatrix}0.21220\\0.21958\\0.24741\\0.45071\\0.52883\\0.56820\end{bmatrix}}.$

เมื่อแก้สมการแล้วจะได้ ${\binom {x}{y}}={\binom {0.43478}{0.30435}}\,$

ดังนั้นและ $p={\frac {1}{x}}=2.3000$ $e=p\cdot y=0.70001$

ดูเพิ่มเติม

อ่านเพิ่มเติม

ดอเฮอร์ตี้, คริสโตเฟอร์ (2002). บทนำสู่เศรษฐศาสตร์เชิงปริมาณ (ฉบับที่ 2). นิวยอร์ก: สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด. หน้า 48–113 . ISBN 0-19-877643-8.
Gujarati, Damodar N. ; Porter, Dawn C. (2009). เศรษฐศาสตร์เชิงปริมาณพื้นฐาน (ฉบับที่ห้า). บอสตัน: McGraw-Hill Irwin. หน้า 55–96 . ISBN 978-0-07-337577-9.
เฮจ, คริสเตียน ; โบเออร์, พอล; ฟรานเซส, ฟิลิป เอช. ; คลิก, ทึน ; ฟาน ไดจ์ค, เฮอร์มาน เค. (2004) วิธีเศรษฐมิติกับการประยุกต์ในธุรกิจและเศรษฐศาสตร์ (ฉบับที่ 1) ออกซ์ฟอร์ด: สำนักพิมพ์มหาวิทยาลัยออกซ์ฟอร์ด. หน้า 76– 115. ISBN 978-0-19-926801-6.
Hill, R. Carter; Griffiths, William E.; Lim, Guay C. (2008). หลักการทางเศรษฐมิติ (ฉบับที่ 3). โฮโบเคน, นิวเจอร์ซีย์: John Wiley & Sons. หน้า 8–47 . ISBN 978-0-471-72360-8.
วูลดริดจ์, เจฟฟรีย์ (2008). "แบบจำลองการถดถอยอย่างง่าย"เศรษฐศาสตร์เบื้องต้น: แนวทางสมัยใหม่ (ฉบับที่ 4). เมสัน, โอไฮโอ: Cengage Learning. หน้า 22–67 . ISBN 978-0-324-58162-1.

[ 1 ]

[ 2 ]

[

[ 4 ]

[

Q = N −1 คือเมทริกซ์โคแฟกเตอร์ของ β [ 6 ] [ 7 ] [ 8 ]

ริก

แปรปรวน

9 ] เมท

[ 10 ]

[

คลาดเคลื่อน

[

[

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[

[

[

[

[

[

[

[ 26 ]

27 ] หาก

[ 28 ]

[

[ 30 ]

31 ] โดย

[

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]