อ่าน 24 นาที
การถดถอยเชิงเส้น
ในทางสถิติการถดถอยเชิงเส้นเป็นแบบจำลองที่ประมาณความสัมพันธ์ระหว่าง การตอบสนอง แบบสเกลาร์ ( ตัวแปรตาม ) และตัวแปรอธิบายหนึ่งตัวหรือมากกว่า ( ตัวแปรอิสระหรือตัวแปรถดถอย )
การถดถอยเชิงเส้น
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| การวิเคราะห์การถดถอย |
|---|
| นางแบบ |
| การประมาณการ |
| พื้นหลัง |
ในทางสถิติการถดถอยเชิงเส้นเป็นแบบจำลองที่ประมาณความสัมพันธ์ระหว่าง การตอบสนอง แบบสเกลาร์ ( ตัวแปรตาม ) และตัวแปรอธิบายหนึ่งตัวหรือมากกว่า ( ตัวแปรอิสระหรือตัวแปรถดถอย ) แบบจำลองที่มีตัวแปรอธิบายเพียงตัวเดียวเรียกว่าการถดถอยเชิงเส้นแบบง่าย แบบ จำลอง ที่มีตัวแปรอธิบายสองตัวหรือมากกว่าเรียกว่าการถดถอยเชิงเส้นแบบหลายตัวแปร[ 1 ]คำนี้แตกต่างจากการถดถอยเชิงเส้นแบบหลายตัวแปรซึ่งทำนาย ตัวแปรตามที่มี ความสัมพันธ์กัน หลายตัว แทนที่จะเป็นตัวแปรตามเพียงตัวเดียว[ 2 ]
ในการวิเคราะห์การถดถอยเชิงเส้น ความสัมพันธ์จะถูกจำลองโดยใช้ฟังก์ชันทำนายเชิงเส้นซึ่งพารามิเตอร์ ของแบบจำลองที่ไม่ทราบค่า จะถูกประมาณจากข้อมูลโดยทั่วไปแล้วค่าเฉลี่ยแบบมีเงื่อนไขของตัวแปรตอบสนองเมื่อกำหนดค่าของตัวแปรอธิบาย (หรือตัวทำนาย) จะถูกสมมติว่าเป็นฟังก์ชันเชิงเส้นของค่าเหล่านั้น ในบางกรณีอาจใช้ ค่ามัธยฐานแบบมีเงื่อนไขหรือ ควอนไทล์อื่นๆ เช่นเดียวกับ การวิเคราะห์การถดถอย ทุกรูปแบบ การวิเคราะห์การถดถอย เชิงเส้นจะเน้นที่การแจกแจงความน่าจะเป็นแบบมีเงื่อนไขของตัวแปรตอบสนองเมื่อกำหนดค่าของตัวทำนาย มากกว่าการแจกแจงความน่าจะเป็นร่วมของตัวแปรทั้งหมด ซึ่งเป็นขอบเขตของ การ วิเคราะห์ หลายตัวแปร
การถดถอยเชิงเส้นยังเป็นประเภทของอัลกอริธึมการเรียนรู้ของเครื่อง โดยเฉพาะอย่างยิ่ง อัลกอริธึมแบบ มีผู้กำกับดูแลซึ่งเรียนรู้จากชุดข้อมูลที่มีป้ายกำกับและแมปจุดข้อมูลไปยังฟังก์ชันเชิงเส้นที่เหมาะสมที่สุดซึ่งสามารถใช้ในการทำนายบนชุดข้อมูลใหม่ได้[ 3 ]
การถดถอยเชิงเส้นเป็นการวิเคราะห์การถดถอยประเภทแรกที่ได้รับการศึกษาอย่างเข้มงวดและนำไปใช้อย่างกว้างขวางในการประยุกต์ใช้ในทางปฏิบัติ[ 4 ]ทั้งนี้เนื่องจากแบบจำลองที่ขึ้นอยู่กับพารามิเตอร์ที่ไม่ทราบค่าในเชิงเส้นนั้นง่ายต่อการปรับให้เหมาะสมมากกว่าแบบจำลองที่มีความสัมพันธ์กับพารามิเตอร์แบบไม่เชิงเส้น และเนื่องจากคุณสมบัติทางสถิติของตัวประมาณค่าที่ได้นั้นง่ายต่อการกำหนด
การถดถอยเชิงเส้นมีประโยชน์ในทางปฏิบัติมากมาย การใช้งานส่วนใหญ่จัดอยู่ในสองประเภทใหญ่ ๆ ดังต่อไปนี้:
- หากเป้าหมายคือการลดข้อผิดพลาด กล่าวคือความแปรปรวนในการทำนายหรือการพยากรณ์สามารถใช้การถดถอยเชิงเส้นเพื่อสร้างแบบจำลองการทำนายให้เข้ากับชุดข้อมูล ที่สังเกตได้ ของค่าตัวแปรตอบสนองและตัวแปรอธิบาย หลังจากพัฒนาแบบจำลองดังกล่าวแล้ว หากมีการเก็บรวบรวมค่าเพิ่มเติมของตัวแปรอธิบายโดยไม่มีค่าตัวแปรตอบสนองมาด้วย แบบจำลองที่สร้างขึ้นสามารถนำมาใช้ในการทำนายค่าตัวแปรตอบสนองได้
- หากเป้าหมายคือการอธิบายความแปรผันในตัวแปรตอบสนองที่สามารถระบุได้ว่าเป็นผลมาจากความแปรผันในตัวแปรอธิบาย การวิเคราะห์การถดถอยเชิงเส้นสามารถนำมาใช้เพื่อหาปริมาณความแข็งแกร่งของความสัมพันธ์ระหว่างตัวแปรตอบสนองและตัวแปรอธิบาย และโดยเฉพาะอย่างยิ่งเพื่อตรวจสอบว่าตัวแปรอธิบายบางตัวอาจไม่มีความสัมพันธ์เชิงเส้นกับตัวแปรตอบสนองเลยหรือไม่ หรือเพื่อระบุว่ากลุ่มย่อยใดของตัวแปรอธิบายอาจมีข้อมูลที่ซ้ำซ้อนเกี่ยวกับตัวแปรตอบสนอง
แบบจำลองการถดถอยเชิงเส้นมักถูกสร้างขึ้นโดยใช้ วิธีการ กำลังสองน้อยที่สุดแต่ก็อาจสร้างขึ้นด้วยวิธีอื่นได้เช่นกัน เช่น การลด " ความคลาดเคลื่อน " ใน บรรทัดฐานอื่น(เช่นเดียวกับ การ ถดถอยแบบค่าเบี่ยงเบนสัมบูรณ์น้อยที่สุด ) หรือการลดฟังก์ชันต้นทุน กำลังสองน้อยที่สุดแบบมีค่าปรับ เช่น ในการถดถอยแบบริดจ์ ( ค่าปรับ บรรทัดฐานL2 ) และลาโซ ( ค่าปรับ บรรทัดฐานL1 ) การใช้ค่าความคลาดเคลื่อนกำลังสองเฉลี่ย (MSE) เป็นต้นทุนในชุดข้อมูลที่มีค่าผิดปกติขนาดใหญ่จำนวนมาก อาจส่งผลให้แบบจำลองเหมาะสมกับค่าผิดปกติมากกว่าข้อมูลจริง เนื่องจาก MSE ให้ความสำคัญกับความคลาดเคลื่อนขนาดใหญ่มากกว่า ดังนั้น ควรใช้ฟังก์ชันต้นทุนที่ทนทานต่อค่าผิดปกติหากชุดข้อมูลมีค่าผิดปกติขนาดใหญ่จำนวนมาก ในทางกลับกัน วิธีการ กำลังสองน้อยที่สุดสามารถใช้สร้างแบบจำลองที่ไม่ใช่แบบจำลองเชิงเส้นได้ ดังนั้น แม้ว่าคำว่า "กำลังสองน้อยที่สุด" และ "แบบจำลองเชิงเส้น" จะมีความเชื่อมโยงกันอย่างใกล้ชิด แต่ก็ไม่ได้มีความหมายเหมือนกัน
สูตร

เมื่อกำหนดชุดข้อมูล ที่มีหน่วยทางสถิติn หน่วย แบบจำลองการถดถอยเชิงเส้นจะถือว่าความสัมพันธ์ระหว่างตัวแปรตามyและเวกเตอร์ของตัวแปรอิสระxเป็นเชิงเส้นความสัมพันธ์นี้ถูกจำลองผ่านพจน์รบกวนหรือตัวแปรความคลาดเคลื่อนε ซึ่งเป็น ตัวแปรสุ่มที่ไม่สามารถสังเกตได้ซึ่งเพิ่ม "สัญญาณรบกวน" พิเศษให้กับความสัมพันธ์เชิงเส้นระหว่างตัวแปรตามและตัวแปรอิสระ ดังนั้นแบบจำลองจึงมีรูปแบบดังนี้โดยที่Tแทนการสลับแถวและคอลัมน์ ดังนั้นx i T βจึงเป็นผลคูณภายในระหว่างเวกเตอร์x iและβ
โดยทั่วไปสมการทั้ง n สมการ นี้จะถูกเรียงซ้อนกันและเขียนในรูปแบบเมทริกซ์ดังนี้
ที่ไหน
สัญลักษณ์และศัพท์เฉพาะ
- เวกเตอร์ของค่าที่สังเกตได้ของตัวแปรที่เรียกว่าตัวแปรตามตัวแปรภายในตัวแปรตอบสนองตัวแปรเป้าหมายตัวแปรที่วัดได้ตัวแปรเกณฑ์หรือตัวแปรขึ้นอยู่ตัวแปรนี้บางครั้งเรียกว่าตัวแปรที่ทำนายได้แต่ไม่ควรสับสนกับค่าที่ทำนายได้ซึ่งใช้สัญลักษณ์ การตัดสินใจว่าตัวแปรใดในชุดข้อมูลจะถูกจำลองเป็นตัวแปรขึ้นอยู่ และตัวแปรใดจะถูกจำลองเป็นตัวแปรอิสระ อาจขึ้นอยู่กับสมมติฐานที่ว่าค่าของตัวแปรหนึ่งเกิดจาก หรือได้รับอิทธิพลโดยตรงจากตัวแปรอื่น หรืออาจมีเหตุผลเชิงปฏิบัติการในการจำลองตัวแปรหนึ่งในรูปของตัวแปรอื่น ซึ่งในกรณีนี้ไม่จำเป็นต้องมีสมมติฐานเรื่องความสัมพันธ์เชิงสาเหตุ
- อาจมองได้ว่าเป็นเมทริกซ์ของเวกเตอร์แถว หรือเวกเตอร์คอลัมน์มิติnซึ่งรู้จักกันในชื่อตัวแปรถดถอยตัวแปรภายนอกตัวแปรอธิบายตัวแปรควบคุมตัวแปรป้อนเข้าตัวแปรทำนายหรือตัวแปรอิสระ (ไม่ควรสับสนกับแนวคิดของตัวแปรสุ่มอิสระ ) บางครั้งเมทริกซ์นี้เรียกว่า เมทริก ซ์ การออกแบบ
- โดยปกติแล้ว ค่าคงที่จะถูกรวมไว้เป็นหนึ่งในตัวแปรอิสระ โดยเฉพาะอย่างยิ่งสำหรับβองค์ประกอบที่สอดคล้องกันของ β เรียกว่าค่าคงที่จุดตัด (intercept ) กระบวนการอนุมานทางสถิติหลายอย่างสำหรับแบบจำลองเชิงเส้นต้องการให้มีค่าคงที่จุดตัดอยู่ด้วย ดังนั้นจึงมักรวมค่านี้ไว้แม้ว่าตามหลักทฤษฎีแล้วค่าของมันควรจะเป็นศูนย์ก็ตาม
- บางครั้งตัวแปรอิสระตัวหนึ่งอาจเป็นฟังก์ชันที่ไม่เป็นเชิงเส้นของตัวแปรอิสระอีกตัวหนึ่งหรือของค่าข้อมูล เช่น ในการถดถอยพหุนามและการถดถอยแบบแบ่งส่วน แบบจำลองจะยังคงเป็นเชิงเส้นตราบใดที่มันเป็นเชิงเส้นในเวกเตอร์พารามิเตอร์β
- ค่าx ijอาจถูกมองว่าเป็นค่าที่สังเกตได้ของตัวแปรสุ่มX jหรือเป็นค่าคงที่ที่เลือกไว้ก่อนที่จะสังเกตตัวแปรตาม การตีความทั้งสองแบบอาจเหมาะสมในกรณีที่แตกต่างกัน และโดยทั่วไปแล้วจะนำไปสู่ขั้นตอนการประมาณค่าแบบเดียวกัน อย่างไรก็ตาม วิธีการวิเคราะห์เชิงอะซิมโทติกที่ใช้ในสองสถานการณ์นี้ แตกต่างกัน
- เป็นเวกเตอร์พารามิเตอร์มิติ n โดยที่คือค่าคงที่ (ถ้ามีอยู่ในแบบจำลอง มิฉะนั้นจะเป็น เวกเตอร์มิติ p ) องค์ประกอบของเวกเตอร์นี้เรียกว่าค่าผลกระทบหรือสัมประสิทธิ์การถดถอย (แม้ว่าบางครั้งคำว่าสัมประสิทธิ์การถดถอยจะสงวนไว้สำหรับ ค่าผลกระทบ ที่ประมาณได้ ) ในการถดถอยเชิงเส้นอย่างง่ายp = 1 และสัมประสิทธิ์ เรียกว่าความชันของการถดถอยการประมาณค่าและการอนุมานทางสถิติในการถดถอยเชิงเส้นจะเน้นที่ค่า βโดยองค์ประกอบของเวกเตอร์พารามิเตอร์นี้จะถูกตีความว่าเป็นอนุพันธ์ย่อยของตัวแปรตามเทียบกับตัวแปรอิสระต่างๆ
- เป็นเวกเตอร์ของค่าต่างๆส่วนนี้ของแบบจำลองเรียกว่าเทอมความคลาดเคลื่อนเทอมรบกวนหรือบางครั้ง เรียกว่า สัญญาณรบกวน (ตรงข้ามกับ "สัญญาณ" ที่ได้จากส่วนที่เหลือของแบบจำลอง) ตัวแปรนี้รวบรวมปัจจัยอื่นๆ ทั้งหมดที่ส่งผลต่อตัวแปรตามyนอกเหนือจากตัวแปรอิสระxความสัมพันธ์ระหว่างเทอมความคลาดเคลื่อนและตัวแปรอิสระ เช่น ค่าสหสัมพันธ์เป็นสิ่งสำคัญอย่างยิ่งในการสร้างแบบจำลองการถดถอยเชิงเส้น เนื่องจากจะเป็นตัวกำหนดวิธีการประมาณค่าที่เหมาะสม
การสร้างแบบจำลองเชิงเส้นให้เข้ากับชุดข้อมูลที่กำหนด มักต้องประมาณค่าสัมประสิทธิ์การถดถอยเพื่อให้ค่าความคลาดเคลื่อนน้อยที่สุด ตัวอย่างเช่น นิยมใช้ผลรวมของกำลังสองของความคลาดเคลื่อนเป็นตัววัดค่าความคลาดเคลื่อนให้น้อยที่สุด
ตัวอย่าง
ลองพิจารณาสถานการณ์ที่ลูกบอลขนาดเล็กถูกโยนขึ้นไปในอากาศ แล้วเราวัดความสูงในการขึ้นh iในช่วงเวลาต่างๆt iหลักฟิสิกส์บอกเราว่า หากไม่คำนึงถึงแรงต้านอากาศความสัมพันธ์สามารถจำลองได้ดังนี้
โดยที่β 1กำหนดความเร็วเริ่มต้นของลูกบอลβ 2เป็นสัดส่วนกับแรงโน้มถ่วงมาตรฐานและε iเกิดจากข้อผิดพลาดในการวัด สามารถใช้การถดถอยเชิงเส้นเพื่อประมาณค่าของβ 1และβ 2จากข้อมูลที่วัดได้ แบบจำลองนี้ไม่เชิงเส้นในตัวแปรเวลา แต่เชิงเส้นในพารามิเตอร์β 1และβ 2ถ้าเราใช้ตัวแปรอิสระx i = ( x i 1 , x i 2 ) = ( t i , t i 2 ) แบบจำลองจะมีรูปแบบมาตรฐาน
ข้อสมมติฐาน
เมื่อประมาณค่าพารามิเตอร์ของแบบจำลองการถดถอยเชิงเส้นด้วยเทคนิคการประมาณค่ามาตรฐาน เช่นกำลังสองน้อยที่สุดแบบธรรมดาจำเป็นต้องตั้งสมมติฐานหลายประการเกี่ยวกับตัวแปรทำนาย ตัวแปรตอบสนอง และความสัมพันธ์ระหว่างตัวแปรเหล่านั้น เพื่อให้ได้ตัวประมาณค่าที่ไม่เอนเอียงในตัวอย่างจำกัด มีการพัฒนาส่วนขยายจำนวนมากที่ช่วยให้สามารถผ่อนคลายสมมติฐานเหล่านี้ (ลดให้เหลือรูปแบบที่อ่อนกว่า) และในบางกรณีสามารถกำจัดสมมติฐานเหล่านี้ได้ทั้งหมด โดยทั่วไปส่วนขยายเหล่านี้ต้องการข้อมูลหรือสมมติฐานการสร้างแบบจำลองเพิ่มเติมเพื่อ สร้าง แบบจำลองที่แม่นยำเท่าเทียมกัน[ 5 ]
การตีความ

แบบจำลองการถดถอยเชิงเส้นที่เหมาะสมสามารถใช้เพื่อระบุความสัมพันธ์ระหว่างตัวแปรทำนายเดี่ยวx jและตัวแปรตอบสนองyเมื่อตัวแปรทำนายอื่นๆ ทั้งหมดในแบบจำลอง "คงที่" โดยเฉพาะอย่างยิ่ง การตีความβ jคือ การเปลี่ยนแปลง ที่คาดหวังในyสำหรับการเปลี่ยนแปลงหนึ่งหน่วยในx jเมื่อตัวแปรอิสระอื่นๆ คงที่ นั่นคือ ค่าที่คาดหวังของอนุพันธ์ย่อยของ y เทียบกับx jบางครั้งเรียกว่าผลกระทบเฉพาะของx jต่อyในทางตรงกันข้ามผลกระทบส่วนเพิ่มของx jต่อyสามารถประเมินได้โดยใช้สัมประสิทธิ์สหสัมพันธ์หรือ แบบจำลอง การถดถอยเชิงเส้นอย่างง่าย ที่เชื่อม โยง เฉพาะx jกับy เท่านั้น ผลกระทบนี้คืออนุพันธ์ทั้งหมดของyเทียบกับx j
ต้องระมัดระวังในการตีความผลลัพธ์การถดถอย เนื่องจากตัวแปรอิสระบางตัวอาจไม่อนุญาตให้มีการเปลี่ยนแปลงเล็กน้อย (เช่นตัวแปรดัมมี่หรือพจน์ค่าคงที่) ในขณะที่ตัวแปรอิสระอื่นๆ ไม่สามารถคงที่ได้ (โปรดจำตัวอย่างจากบทนำ: เป็นไปไม่ได้ที่จะ " คงที่ t i " และในขณะเดียวกันก็เปลี่ยนค่าของt i 2 )
เป็นไปได้ที่ผลกระทบเฉพาะตัวจะเกือบเป็นศูนย์ แม้ว่าผลกระทบส่วนเพิ่มจะมีขนาดใหญ่ก็ตาม นี่อาจหมายความว่าตัวแปรเสริมอื่น ๆ สามารถอธิบายข้อมูลทั้งหมดในx j ได้ ดังนั้นเมื่อตัวแปรนั้นอยู่ในแบบจำลองแล้ว x jจะไม่มีส่วนร่วมในการแปรผัน ของ yอีกต่อไป ในทางกลับกัน ผลกระทบเฉพาะตัวของx j อาจมีขนาดใหญ่ ในขณะที่ผลกระทบส่วนเพิ่มเกือบเป็นศูนย์ สิ่งนี้จะเกิดขึ้นหากตัวแปรเสริมอื่น ๆ อธิบายการแปรผันของ yได้มากแต่ส่วนใหญ่จะอธิบายการแปรผันในลักษณะที่เสริมกับสิ่งที่x j อธิบายได้ ในกรณีนี้ การรวมตัวแปรอื่น ๆ เข้าในแบบจำลองจะลดส่วนของการแปรผันของyที่ไม่เกี่ยวข้องกับx jจึงทำให้ความสัมพันธ์ที่ปรากฏกับx j แข็งแกร่ง ขึ้น
ความหมายของคำว่า "คงที่" อาจขึ้นอยู่กับว่าค่าของตัวแปรทำนายเกิดขึ้นได้อย่างไร หากผู้ทำการทดลองกำหนดค่าของตัวแปรทำนายโดยตรงตามแผนการศึกษา การเปรียบเทียบที่สนใจอาจสอดคล้องกับการเปรียบเทียบระหว่างหน่วยที่มีตัวแปรทำนาย "คงที่" โดยผู้ทำการทดลอง หรืออีกนัยหนึ่ง คำว่า "คงที่" อาจหมายถึงการเลือกที่เกิดขึ้นในบริบทของการวิเคราะห์ข้อมูล ในกรณีนี้ เรา "คงที่ตัวแปร" โดยจำกัดความสนใจของเราไปที่ชุดย่อยของข้อมูลที่มีค่าร่วมกันสำหรับตัวแปรทำนายที่กำหนด นี่เป็นการตีความเพียงอย่างเดียวของคำว่า "คงที่" ที่สามารถใช้ได้ในการศึกษาเชิงสังเกต
แนวคิดเรื่อง "ผลกระทบเฉพาะ" น่าสนใจเมื่อศึกษาระบบที่ซับซ้อนซึ่งมีองค์ประกอบที่เกี่ยวข้องกันหลายอย่างที่ส่งผลต่อตัวแปรตอบสนอง ในบางกรณี อาจตีความได้ว่าเป็นผลกระทบเชิงสาเหตุของการแทรกแซงที่เชื่อมโยงกับค่าของตัวแปรทำนาย อย่างไรก็ตาม มีการโต้แย้งว่าในหลายกรณี การวิเคราะห์การถดถอยหลายตัวแปรล้มเหลวในการชี้แจงความสัมพันธ์ระหว่างตัวแปรทำนายและตัวแปรตอบสนองเมื่อตัวทำนายมีความสัมพันธ์กันและไม่ได้ถูกกำหนดตามการออกแบบการศึกษา[ 6 ]
ส่วนขยาย
มีการพัฒนาส่วนขยายมากมายของแบบจำลองการถดถอยเชิงเส้น ซึ่งช่วยให้สามารถผ่อนปรนข้อสมมติฐานบางส่วนหรือทั้งหมดที่อยู่เบื้องหลังแบบจำลองพื้นฐานได้
การถดถอยเชิงเส้นแบบง่ายและแบบหลายตัวแปร

กรณีที่ง่ายที่สุดของตัวแปรทำนายแบบสเกลาร์x ตัวเดียว และตัวแปรตอบสนองแบบสเกลาร์y ตัวเดียว เรียกว่าการถดถอยเชิงเส้นแบบง่ายการขยายไปสู่ตัวแปรทำนายหลายตัวและ/หรือ ตัวแปรทำนายแบบ เวกเตอร์ (แสดงด้วยตัวอักษรX ตัวใหญ่ ) เรียกว่าการถดถอยเชิงเส้นหลายตัวแปรหรือเรียกอีกอย่างว่าการถดถอยเชิงเส้นหลายตัวแปร (ไม่ควรสับสนกับการถดถอยเชิงเส้นหลายตัวแปร ) [ 7 ]
การถดถอยเชิงเส้นหลายตัวแปรเป็นการขยายผลของการถดถอยเชิงเส้นอย่างง่ายไปสู่กรณีที่มีตัวแปรอิสระมากกว่าหนึ่งตัว และเป็นกรณีพิเศษของแบบจำลองเชิงเส้นทั่วไปที่จำกัดไว้ที่ตัวแปรตามเพียงตัวเดียว แบบจำลองพื้นฐานสำหรับการถดถอยเชิงเส้นหลายตัวแปรคือ
สำหรับการสังเกตแต่ละครั้ง
ในสูตรข้างต้น เราพิจารณา การสังเกต nครั้งของตัวแปรตามหนึ่งตัว และ ตัวแปรอิสระ pตัว ดังนั้นY iคือ การสังเกต ครั้งที่iของตัวแปรตาม, X ijคือ การสังเกต ครั้งที่iของตัวแปรอิสระตัวที่j , j = 1, 2, ..., pค่าβ jแทนพารามิเตอร์ที่จะประมาณค่า และε iคือค่าความคลาดเคลื่อนปกติที่มีการแจกแจงเหมือนกันและเป็นอิสระตัวที่ i
ในการวิเคราะห์การถดถอยเชิงเส้นหลายตัวแปรแบบทั่วไป จะมีสมการหนึ่งสมการในรูปแบบข้างต้นสำหรับ ตัวแปรตาม m > 1 ตัว ซึ่งแต่ละตัวมีชุดตัวแปรอิสระเดียวกัน และดังนั้นจึงได้รับการประมาณค่าพร้อมกัน:
สำหรับ ข้อมูล สังเกตการณ์ทั้งหมดที่มีดัชนีเป็นi = 1, ... , nและสำหรับตัวแปรตามทั้งหมดที่มีดัชนีเป็นj = 1, ... , m
แบบจำลองการถดถอยในโลกแห่งความเป็นจริงเกือบทั้งหมดเกี่ยวข้องกับตัวทำนายหลายตัว และคำอธิบายพื้นฐานของการถดถอยเชิงเส้นมักจะใช้รูปแบบของแบบจำลองการถดถอยหลายตัวแปร อย่างไรก็ตาม โปรดทราบว่าในกรณีเหล่านี้ ตัวแปรตอบสนองyยังคงเป็นค่าสเกลาร์ ส่วนคำว่าการถดถอยเชิงเส้นหลายตัวแปรหมายถึงกรณีที่y เป็นเวกเตอร์ กล่าว คือ เหมือนกับการถดถอยเชิงเส้นทั่วไป
แบบจำลองเชิงเส้นทั่วไป
แบบจำลองเชิงเส้นทั่วไปพิจารณาสถานการณ์ที่ตัวแปรตอบสนองไม่ใช่ค่าสเกลาร์ (สำหรับแต่ละการสังเกต) แต่เป็นเวกเตอร์y <sub> i </sub> ยังคงถือว่ามีความเป็นเส้นตรงแบบมีเงื่อนไข โดยใช้เมทริกซ์ Bแทนเวกเตอร์βในแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิก มีการพัฒนาแบบจำลองหลายตัวแปรที่คล้ายกับวิธีการกำลังสองน้อยที่สุดแบบธรรมดา (OLS) และ วิธี การกำลังสองน้อยที่สุดแบบทั่วไป (GLS) "แบบจำลองเชิงเส้นทั่วไป" เรียกอีกอย่างว่า "แบบจำลองเชิงเส้นหลายตัวแปร" ซึ่งแตกต่างจากแบบจำลองเชิงเส้นหลายตัวแปร (เรียกอีกอย่างว่า "แบบจำลองเชิงเส้นหลายตัว")
แบบจำลองเฮเทอรอสเคดาสติก
มีการสร้างแบบจำลองต่างๆ ที่รองรับ ความแปรปรวน ที่ไม่คงที่ (heteroscedasticity ) กล่าวคือ ค่าความคลาดเคลื่อนของตัวแปรตอบสนองที่แตกต่างกันอาจมีค่าความแปรปรวน ที่ต่างกัน ตัวอย่างเช่น วิธีการกำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก ( weighted least squares ) เป็นวิธีการประมาณค่าแบบจำลองการถดถอยเชิงเส้นเมื่อตัวแปรตอบสนองอาจมีค่าความแปรปรวนของความคลาดเคลื่อนที่แตกต่างกัน โดยอาจมีความคลาดเคลื่อนที่สัมพันธ์กัน (ดูเพิ่มเติมที่ วิธีการกำลังสองน้อยที่สุดเชิงเส้นแบบถ่วงน้ำหนัก ( Weighted linear least squares ) และ วิธีการกำลัง สองน้อยที่สุดแบบทั่วไป (Generalized least squares )) ค่าความคลาดเคลื่อนมาตรฐานที่สอดคล้องกับความแปรปรวนที่ไม่คงที่ (Heteroscedasticity-consistent standard errors ) เป็นวิธีการปรับปรุงสำหรับการใช้งานกับความคลาดเคลื่อนที่ไม่สัมพันธ์กันแต่มีแนวโน้มที่จะมีความแปรปรวนที่ไม่คงที่
แบบจำลองเชิงเส้นทั่วไป
แบบจำลองเชิงเส้นทั่วไป (Generalized linear model หรือ GLM) เป็นกรอบการทำงานสำหรับการสร้างแบบจำลองตัวแปรตอบสนองที่มีขอบเขตหรือเป็นค่าไม่ต่อเนื่อง ตัวอย่างเช่น ใช้ในกรณีต่อไปนี้:
- เมื่อสร้างแบบจำลองปริมาณที่เป็นบวก (เช่น ราคาหรือประชากร) ที่เปลี่ยนแปลงไปในวงกว้าง ซึ่งจะอธิบายได้ดีกว่าโดยใช้การแจกแจงแบบเบ้เช่นการแจกแจงแบบลอการิทมิกปกติหรือการแจกแจงแบบปัวซง (แม้ว่า GLM จะไม่ใช้กับข้อมูลแบบลอการิทมิกปกติ แต่ตัวแปรตอบสนองจะถูกแปลงโดยใช้ฟังก์ชันลอการิทึมแทน)
- เมื่อทำการสร้างแบบจำลองข้อมูลเชิงหมวดหมู่เช่น การเลือกผู้สมัครคนใดคนหนึ่งในการเลือกตั้ง (ซึ่งอธิบายได้ดีกว่าโดยใช้การแจกแจงแบบเบอร์นูลลี / การแจกแจงแบบทวินามสำหรับตัวเลือกแบบไบนารี หรือการแจกแจงเชิงหมวดหมู่ / การแจกแจงแบบพหุนามสำหรับตัวเลือกแบบหลายทาง) ซึ่งมีจำนวนตัวเลือกที่แน่นอนและไม่สามารถจัดลำดับได้อย่างมีความหมาย
- เมื่อทำการสร้างแบบจำลองข้อมูลเชิงลำดับเช่น การให้คะแนนในมาตราส่วนตั้งแต่ 0 ถึง 5 ซึ่งผลลัพธ์ที่แตกต่างกันสามารถเรียงลำดับได้ แต่ปริมาณนั้นเองอาจไม่มีความหมายที่แน่นอน (เช่น การให้คะแนน 4 อาจไม่ได้หมายความว่า "ดีกว่าสองเท่า" ในแง่ที่เป็นรูปธรรมเมื่อเทียบกับการให้คะแนน 2 แต่เป็นเพียงการบ่งชี้ว่าดีกว่า 2 หรือ 3 แต่ไม่ดีเท่า 5)
แบบจำลองเชิงเส้นทั่วไปอนุญาตให้ใช้ฟังก์ชันเชื่อมโยง g ใดๆ ก็ได้ ซึ่งเชื่อมโยงค่าเฉลี่ยของตัวแปรตอบสนองกับตัวแปรทำนายฟังก์ชันเชื่อมโยงมักเกี่ยวข้องกับการกระจายตัวของตัวแปรตอบสนอง โดยเฉพาะอย่างยิ่งมักมีผลในการแปลงระหว่างช่วงของตัวแปรทำนายเชิงเส้นและช่วงของตัวแปรตอบสนอง
ตัวอย่างทั่วไปของ GLM ได้แก่:
- การถดถอยปัวซงสำหรับข้อมูลเชิงนับ
- การวิเคราะห์การถดถอยโลจิสติกและการวิเคราะห์การถดถอยโพรบิตสำหรับข้อมูลไบนารี
- การถดถอยโลจิสติกแบบหลายตัวแปรและ การถดถอย โพรบิตแบบหลายตัวแปรสำหรับข้อมูลเชิงหมวดหมู่
- การถดถอย แบบ Ordered logitและOrdered probitสำหรับข้อมูลเชิงลำดับ
แบบจำลองดัชนีเดี่ยวช่วยให้มีความไม่เป็นเชิงเส้นในระดับหนึ่งในความสัมพันธ์ระหว่างxและyในขณะที่ยังคงรักษาบทบาทหลักของตัวทำนายเชิงเส้นβ ′ x ไว้ เช่นเดียวกับในแบบจำลองการถดถอยเชิงเส้นแบบคลาสสิก ภายใต้เงื่อนไขบางประการ การใช้ OLS กับข้อมูลจากแบบจำลองดัชนีเดี่ยวจะประมาณค่าβ ได้อย่างสม่ำเสมอ จนถึงค่าคงที่สัดส่วน[ 8 ]
แบบจำลองเชิงเส้นลำดับชั้น
แบบจำลองเชิงเส้นลำดับชั้น (หรือการถดถอยหลายระดับ ) จัดระเบียบข้อมูลเป็นลำดับชั้นของการถดถอย ตัวอย่างเช่นAถูกถดถอยกับBและBถูกถดถอยกับCมักใช้ในกรณีที่ตัวแปรที่สนใจมีโครงสร้างลำดับชั้นตามธรรมชาติ เช่น ในสถิติทางการศึกษา ที่นักเรียนอยู่ภายใต้ห้องเรียน ห้องเรียนอยู่ภายใต้โรงเรียน และโรงเรียนอยู่ภายใต้กลุ่มการบริหารบางอย่าง เช่น เขตการศึกษา ตัวแปรตอบสนองอาจเป็นการวัดผลสัมฤทธิ์ทางการเรียนของนักเรียน เช่น คะแนนสอบ และตัวแปรอิสระต่างๆ จะถูกเก็บรวบรวมในระดับห้องเรียน โรงเรียน และเขตการศึกษา
ข้อผิดพลาดในตัวแปร
แบบจำลองความคลาดเคลื่อนในตัวแปร (หรือ "แบบจำลองความคลาดเคลื่อนในการวัด") ขยายแบบจำลองการถดถอยเชิงเส้นแบบดั้งเดิมเพื่อให้ตัวแปรทำนายXสามารถสังเกตได้โดยมีข้อผิดพลาด ความคลาดเคลื่อนนี้ทำให้ค่าประมาณมาตรฐานของβเกิดความเอนเอียง โดยทั่วไปแล้ว ความเอนเอียงจะมีรูปแบบเป็นการลดทอน หมายความว่าผลกระทบจะเอนเอียงไปทางศูนย์
ผลกระทบของกลุ่ม
ในแบบจำลองการถดถอยเชิงเส้นหลายตัวแปร
พารามิเตอร์ของตัวแปรทำนายแสดงถึงผลกระทบเฉพาะตัวของตัวแปรนั้นโดยมีความหมายว่า การเปลี่ยนแปลงที่คาดหวังในตัวแปรตอบสนองเมื่อตัวแปรนั้นเพิ่มขึ้นหนึ่งหน่วย โดยที่ตัวแปรทำนายอื่นๆ คงที่ เมื่อตัวแปรนั้นมีความสัมพันธ์อย่างมากกับตัวแปรทำนายอื่นๆ โอกาสที่ตัวแปรนั้นจะเพิ่มขึ้นหนึ่งหน่วยโดยที่ตัวแปรอื่นๆ คงที่นั้นมีน้อย ในกรณีนี้ การตีความของตัวแปรนั้นจึงมีปัญหา เนื่องจากขึ้นอยู่กับเงื่อนไขที่ไม่น่าจะเป็นไปได้ และไม่สามารถประเมินผลกระทบของตัวแปรนั้นได้โดยลำพัง
สำหรับกลุ่มตัวแปรทำนาย เช่นผลกระทบของกลุ่มจะถูกกำหนดให้เป็นผลรวมเชิงเส้นของพารามิเตอร์ของกลุ่มนั้น
โดยที่เป็นเวกเตอร์น้ำหนักที่สอดคล้องกับเงื่อนไขเนื่องจากข้อจำกัด เกี่ยวกับ จึงเรียกอีกอย่างว่าผลกระทบกลุ่มแบบนอร์มาไลซ์ ผลกระทบกลุ่มมีการตีความว่าเป็นการเปลี่ยนแปลงที่คาดหวังในเมื่อตัวแปรในกลุ่มเปลี่ยนแปลงไปในปริมาณตามลำดับ ในเวลาเดียวกันกับที่ตัวแปรอื่น ๆ (ที่ไม่ได้อยู่ในกลุ่ม) คงที่ มันเป็นการขยายผลกระทบเฉพาะตัวของตัวแปรไปสู่กลุ่มของตัวแปรในแง่ที่ว่า ( ) ถ้าแล้วผลกระทบกลุ่มจะลดลงเหลือผลกระทบเฉพาะตัว และ ( ) ถ้าและสำหรับแล้วผลกระทบกลุ่มก็จะลดลงเหลือผลกระทบเฉพาะตัวเช่นกัน ผลกระทบกลุ่มจะถือว่ามีความหมายหากการเปลี่ยนแปลงพร้อมกันของตัวแปรที่ เกิดขึ้นนั้น มีความน่าจะเป็น
ผลกระทบของกลุ่มช่วยให้สามารถศึกษาผลกระทบโดยรวมของตัวแปรทำนายที่มีความสัมพันธ์กันอย่างมากในแบบจำลองการถดถอยเชิงเส้น ผลกระทบของตัวแปรแต่ละตัวนั้นไม่สามารถกำหนดได้อย่างชัดเจน เนื่องจากพารามิเตอร์ของตัวแปรเหล่านั้นไม่มีการตีความที่ดี นอกจากนี้ เมื่อขนาดของกลุ่มตัวอย่างไม่ใหญ่ พารามิเตอร์ใดๆ ก็ไม่สามารถประมาณค่าได้อย่างแม่นยำด้วยการถดถอยกำลังสองน้อยที่สุดเนื่องจาก ปัญหา ความสัมพันธ์ร่วมหลายตัวแปรอย่างไรก็ตาม มีผลกระทบของกลุ่มที่มีความหมายซึ่งมีการตีความที่ดีและสามารถประมาณค่าได้อย่างแม่นยำด้วยการถดถอยกำลังสองน้อยที่สุด วิธีง่ายๆ ในการระบุผลกระทบของกลุ่มที่มีความหมายเหล่านี้คือการใช้การจัดเรียงแบบความสัมพันธ์เป็นบวกทั้งหมด (APC) ของตัวแปรที่มีความสัมพันธ์กันอย่างมาก ซึ่งความสัมพันธ์แบบคู่ระหว่างตัวแปรเหล่านี้เป็นบวกทั้งหมด และทำให้ตัวแปรทำนายทั้งหมดในแบบจำลองเป็นมาตรฐานเพื่อให้มีค่าเฉลี่ยเป็นศูนย์และความยาวเป็นหนึ่ง เพื่อแสดงให้เห็นภาพนี้ สมมติว่าเป็นกลุ่มของตัวแปรที่มีความสัมพันธ์กันอย่างมากในการจัดเรียงแบบ APC และตัวแปรเหล่านั้นไม่มีความสัมพันธ์กันอย่างมากกับตัวแปรทำนายภายนอกกลุ่ม ให้เป็นค่าที่ปรับศูนย์กลางแล้วและเป็นค่ามาตรฐานดังนั้น แบบจำลองการถดถอยเชิงเส้นมาตรฐานคือ
พารามิเตอร์ในแบบจำลองดั้งเดิม รวมถึงเป็นฟังก์ชันง่ายๆ ของในแบบจำลองมาตรฐาน การทำให้ตัวแปรเป็นมาตรฐานไม่ได้เปลี่ยนแปลงความสัมพันธ์ของตัวแปรเหล่านั้น ดังนั้น จึงเป็นกลุ่มของตัวแปรที่มีความสัมพันธ์กันอย่างมากในรูปแบบ APC และไม่ได้มีความสัมพันธ์กันอย่างมากกับตัวแปรทำนายอื่นๆ ในแบบจำลองมาตรฐาน ผลกระทบของกลุ่มคือ
และตัวประมาณเชิงเส้นที่ไม่เอนเอียงที่มีความแปรปรวนต่ำสุดคือ
โดยที่คือตัวประมาณค่ากำลังสองน้อยที่สุดของโดยเฉพาะอย่างยิ่ง ผลกระทบเฉลี่ยของกลุ่มของตัวแปรมาตรฐานคือ
ซึ่งมีการตีความได้ว่าเป็นการเปลี่ยนแปลงที่คาดหวังเมื่อตัวแปรทั้งหมดในกลุ่มที่มีความสัมพันธ์กันอย่างมากเพิ่มขึ้นพร้อมกันทีละ 1/3 ของหน่วย โดยที่ตัวแปรภายนอกกลุ่มคงที่ เมื่อมีความสัมพันธ์เชิงบวกที่แข็งแกร่งและอยู่ในหน่วยมาตรฐาน ตัวแปรในกลุ่มจะมีค่าใกล้เคียงกัน ดังนั้นจึงมีแนวโน้มที่จะเพิ่มขึ้นพร้อมกันและในปริมาณที่ใกล้เคียงกัน ดังนั้น ผลกระทบเฉลี่ยของกลุ่มจึง เป็นผลกระทบที่มีความหมาย สามารถประมาณค่าได้อย่างแม่นยำโดยใช้ตัวประมาณค่าเชิงเส้นที่ไม่เอนเอียงที่มีความแปรปรวนต่ำสุด แม้ว่าตัวแปรแต่ละตัวจะไม่สามารถประมาณค่าได้อย่างแม่นยำด้วยตัวประมาณค่าเชิงเส้นที่ไม่เอนเอียงก็ตาม
ผลกระทบของกลุ่มบางอย่างอาจไม่มีความหมายหรือสามารถประมาณค่าได้อย่างแม่นยำ ตัวอย่างเช่นเป็นผลกระทบของกลุ่มพิเศษที่มีน้ำหนักและสำหรับแต่ไม่สามารถประมาณค่าได้อย่างแม่นยำโดยและก็ไม่ใช่ผลกระทบที่มีความหมายเช่นกัน โดยทั่วไปแล้ว สำหรับกลุ่มตัวแปรทำนายที่มีความสัมพันธ์กันอย่างมากในรูปแบบ APC ในแบบจำลองมาตรฐาน ผลกระทบของกลุ่มที่มีเวกเตอร์น้ำหนักอยู่ที่หรือใกล้จุดศูนย์กลางของซิมเพล็กซ์( ) จะมีความหมายและสามารถประมาณค่าได้อย่างแม่นยำโดยตัวประมาณค่าเชิงเส้นที่ไม่เอนเอียงที่มีความแปรปรวนต่ำสุด ผลกระทบที่มีเวกเตอร์น้ำหนักอยู่ไกลจากจุดศูนย์กลางนั้นไม่มีความหมาย เนื่องจากเวกเตอร์น้ำหนักดังกล่าวแสดงถึงการเปลี่ยนแปลงพร้อมกันของตัวแปรที่ละเมิดความสัมพันธ์เชิงบวกที่แข็งแกร่งของตัวแปรมาตรฐานในรูปแบบ APC ดังนั้นจึงไม่น่าจะเป็นไปได้ และไม่สามารถประมาณค่าได้อย่างแม่นยำเช่นกัน
การประยุกต์ใช้ผลกระทบของกลุ่ม ได้แก่ (1) การประมาณและการอนุมานผลกระทบของกลุ่มที่มีความหมายต่อตัวแปรตอบสนอง (2) การทดสอบ "ความสำคัญของกลุ่ม" ของตัวแปรผ่านการทดสอบเทียบกับและ (3) การกำหนดลักษณะของพื้นที่ของตัวแปรทำนายที่การทำนายโดยแบบจำลองที่ประมาณค่ากำลังสองน้อยที่สุดมีความแม่นยำ
ผลกระทบกลุ่มของตัวแปรดั้งเดิมสามารถแสดงได้เป็นค่าคงที่คูณด้วยผลกระทบกลุ่มของตัวแปรมาตรฐาน ผลกระทบกลุ่มแรกจะมีความหมายเมื่อผลกระทบกลุ่มหลังมีความหมาย ดังนั้นผลกระทบกลุ่มที่มีความหมายของตัวแปรดั้งเดิมสามารถพบได้ผ่านผลกระทบกลุ่มที่มีความหมายของตัวแปรมาตรฐาน[ 9 ]
คนอื่น
ในทฤษฎี Dempster–Shaferหรือ โดยเฉพาะอย่างยิ่งใน ฟังก์ชันความเชื่อเชิงเส้นแบบจำลองการถดถอยเชิงเส้นอาจถูกแสดงเป็นเมทริกซ์ที่กวาดบางส่วน ซึ่งสามารถรวมเข้ากับเมทริกซ์ที่คล้ายกันซึ่งแสดงถึงการสังเกตและการกระจายแบบปกติที่สมมติขึ้นอื่นๆ และสมการสถานะ การรวมกันของเมทริกซ์ที่กวาดหรือไม่กวาดให้วิธีการทางเลือกสำหรับการประมาณแบบจำลองการถดถอยเชิงเส้น
วิธีการประมาณค่า
มีการพัฒนาวิธีการมากมายสำหรับ การประมาณ ค่าพารามิเตอร์และการอนุมานในแบบจำลองการถดถอยเชิงเส้น วิธีการเหล่านี้แตกต่างกันในด้านความเรียบง่ายในการคำนวณของอัลกอริทึม การมีคำตอบในรูปแบบปิดความทนทานต่อการแจกแจงแบบหางหนัก และสมมติฐานทางทฤษฎีที่จำเป็นในการตรวจสอบคุณสมบัติทางสถิติที่พึงประสงค์ เช่นความสอดคล้องและประสิทธิภาพเชิง อะซิมโท ติก
เทคนิคการประมาณค่าที่ใช้กันทั่วไปบางส่วนสำหรับการถดถอยเชิงเส้นมีสรุปไว้ด้านล่างนี้
การประมาณค่ากำลังสองน้อยที่สุดและเทคนิคที่เกี่ยวข้อง

สมมติว่าตัวแปรอิสระคือและพารามิเตอร์ของแบบจำลองคือดังนั้นการทำนายของแบบจำลองจะเป็น
- .
ถ้าขยายไปเป็นก็จะกลายเป็นผลคูณดอทของพารามิเตอร์และเวกเตอร์อิสระ กล่าวคือ
- .
ในการตั้งค่าแบบกำลังสองน้อยที่สุด เวกเตอร์พารามิเตอร์ที่เหมาะสมที่สุดจะถูกกำหนดในลักษณะที่ทำให้ผลรวมของค่าความสูญเสียกำลังสองเฉลี่ยมีค่าน้อยที่สุด:
เมื่อนำตัวแปรอิสระและตัวแปรตามมาใส่ในเมทริกซ์ตามลำดับ ฟังก์ชันความสูญเสียสามารถเขียนใหม่ได้ดังนี้:
เนื่องจากฟังก์ชันความสูญเสียเป็นฟังก์ชัน นูน ดังนั้นคำตอบที่เหมาะสมที่สุดจึงอยู่ที่ค่าเกร เดียนต์ เป็นศูนย์ เกรเดียนต์ของฟังก์ชันความสูญเสียคือ (โดยใช้รูปแบบการจัดวางตัวหาร ):
การตั้งค่าความชันเป็นศูนย์จะทำให้ได้พารามิเตอร์ที่เหมาะสมที่สุด:
หมายเหตุ:ค่าที่ได้อาจเป็นค่าต่ำสุดเฉพาะที่ จำเป็นต้องทำการหาอนุพันธ์อีกครั้งเพื่อหาเมทริกซ์เฮสเซียนและแสดงว่าเมทริกซ์นั้นเป็นเมทริกซ์บวกแน่นอน ซึ่งเป็นไปตามทฤษฎีบทเกาส์-มาร์คอฟ
วิธี การกำลังสองน้อยที่สุดเชิงเส้นส่วนใหญ่ได้แก่:
- กำลังสองน้อยที่สุดแบบธรรมดา
- กำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก
- กำลังสองน้อยที่สุดทั่วไป
- การปรับแม่แบบเชิงเส้น[ 11 ]
การประมาณค่าความน่าจะเป็นสูงสุดและเทคนิคที่เกี่ยวข้อง
การประมาณค่าความน่าจะเป็นสูงสุด
การประมาณค่าความน่าจะเป็นสูงสุดสามารถทำได้เมื่อทราบว่าการกระจายของเทอมความคลาดเคลื่อนเป็นของตระกูลพาราเมตริกƒ θของการกระจายความน่าจะเป็น [ 12 ] เมื่อ f θ เป็นการกระจายแบบปกติที่มีค่าเฉลี่ย เป็นศูนย์ และความแปรปรวน θ ค่าประมาณที่ได้จะเหมือนกับค่าประมาณ OLS ค่าประมาณ GLS เป็นค่าประมาณความน่าจะเป็นสูงสุดเมื่อ ε เป็นไปตามการกระจายแบบปกติหลายตัวแปรที่มีเมทริกซ์ความแปรปรวน ร่วมที่ทราบ ให้ เรากำหนดจุดข้อมูลแต่ละจุดเป็นและพารามิเตอร์การถดถอยเป็นและเซตของข้อมูลทั้งหมดเป็นและฟังก์ชันต้นทุนเป็น
ดังที่แสดงด้านล่าง พารามิเตอร์ที่เหมาะสมที่สุดเดียวกันที่ลดค่าให้น้อยที่สุดจะทำให้ได้ความน่าจะเป็นสูงสุดเช่นกัน[ 13 ]ในที่นี้สมมติฐานคือตัวแปรตามเป็นตัวแปรสุ่มที่ตามการแจกแจงแบบเกาส์เซียนโดยที่ค่าเบี่ยงเบนมาตรฐานคงที่และค่าเฉลี่ยเป็นการรวมเชิงเส้นของ:
ตอนนี้เราต้องมองหาพารามิเตอร์ที่ทำให้ฟังก์ชันความน่าจะเป็นนี้มีค่าสูงสุด เนื่องจากฟังก์ชันลอการิทึมเพิ่มขึ้นอย่างต่อเนื่อง แทนที่จะทำให้ฟังก์ชันนี้มีค่าสูงสุด เราสามารถทำให้ลอการิทึมของฟังก์ชันนี้มีค่าสูงสุดและหาพารามิเตอร์ที่เหมาะสมที่สุดด้วยวิธีนั้นได้เช่นกัน[ 13 ]
ดังนั้นพารามิเตอร์ที่เหมาะสมที่สุดจึงเท่ากับ: [ 13 ]
ด้วยวิธีนี้ พารามิเตอร์ที่ทำให้ค่าสูงสุดจะเหมือนกับพารามิเตอร์ที่ทำให้ค่าต่ำสุดซึ่งหมายความว่าในการถดถอยเชิงเส้น ผลลัพธ์ของวิธีการกำลังสองน้อยที่สุดจะเหมือนกับผลลัพธ์ของวิธีการประมาณค่าความน่าจะเป็นสูงสุด[ 13 ]
การถดถอยแบบมีการควบคุม
การถดถอยแบบ Ridge [ 14 ] [ 15 ] [ 16 ]และการประมาณค่าแบบมีค่าปรับในรูปแบบอื่นๆ เช่นการถดถอยแบบ Lasso [ 17 ]จงใจนำอคติเข้ามาในการประมาณค่าβเพื่อลดความแปรปรวนของการประมาณค่า โดยทั่วไปแล้วค่าประมาณที่ได้จะมีค่าความคลาดเคลื่อนกำลังสองเฉลี่ย ต่ำ กว่าค่าประมาณ OLS โดยเฉพาะอย่างยิ่งเมื่อมี ภาวะความสัมพันธ์ เชิงเส้นหลายตัวแปรหรือเมื่อ เกิดปัญหา การโอเวอร์ฟิตติ้งวิธีการเหล่านี้มักใช้เมื่อเป้าหมายคือการทำนายค่าของตัวแปรตอบสนองyสำหรับค่าของตัวทำนายxที่ยังไม่ได้รับการสังเกต วิธีการเหล่านี้ไม่ค่อยได้ใช้เมื่อเป้าหมายคือการอนุมาน เนื่องจากเป็นการยากที่จะคำนึงถึงอคติ
ค่าเบี่ยงเบนสัมบูรณ์น้อยที่สุด
การถดถอยค่าเบี่ยง เบนสัมบูรณ์น้อยที่สุด (LAD) เป็น เทคนิค การประมาณค่าที่แข็งแกร่งเนื่องจากมีความไวต่อการมีอยู่ของค่าผิดปกติน้อยกว่า OLS (แต่มีประสิทธิภาพ น้อย กว่า OLS เมื่อไม่มีค่าผิดปกติ) เทียบเท่ากับการประมาณค่าความน่าจะเป็นสูงสุดภายใต้แบบ จำลอง การแจกแจงแบบลาปลาซสำหรับε [ 18 ]
การประมาณค่าแบบปรับตัวได้
หากเราถือว่าเทอมความคลาดเคลื่อนเป็นอิสระจากตัวแปรอิสระดังนั้นตัวประมาณค่าที่เหมาะสมที่สุดคือ MLE แบบ 2 ขั้นตอน โดยขั้นตอนแรกใช้เพื่อประมาณค่าการกระจายของเทอมความคลาดเคลื่อนแบบไม่ใช้พารามิเตอร์[ 19 ]
เทคนิคการประมาณค่าอื่นๆ

- การถดถอยเชิงเส้นแบบเบย์เซียนประยุกต์ใช้กรอบงานของสถิติแบบเบย์เซียนกับการถดถอยเชิงเส้น (ดูเพิ่มเติมที่การถดถอยเชิงเส้นหลายตัวแปรแบบเบย์เซียน ) โดยเฉพาะอย่างยิ่ง สัมประสิทธิ์การถดถอย β ถือว่าเป็นตัวแปรสุ่ม ที่มีการกระจายความน่าจะเป็นล่วงหน้า (prior distribution ) ที่กำหนดไว้การกระจายความน่าจะเป็นล่วงหน้าสามารถทำให้คำตอบสำหรับสัมประสิทธิ์การถดถอยมีอคติได้ ในลักษณะที่คล้ายกับ (แต่ทั่วไปกว่า)การถดถอยแบบริดจ์ (ridge regression)หรือการถดถอยแบบลาโซ (lasso regression ) นอกจากนี้ กระบวนการประมาณค่าแบบเบย์เซียนไม่ได้ให้ค่าประมาณจุดเดียวสำหรับค่า "ที่ดีที่สุด" ของสัมประสิทธิ์การถดถอย แต่ให้ การกระจายความน่าจะ เป็นภายหลัง (posterior distribution) ทั้งหมด ซึ่งอธิบายความไม่แน่นอนที่อยู่รอบปริมาณนั้นได้อย่างสมบูรณ์ สิ่งนี้สามารถใช้เพื่อประมาณค่าสัมประสิทธิ์ "ที่ดีที่สุด" โดยใช้ค่าเฉลี่ย ค่าฐานนิยม ค่ามัธยฐาน ค่าควอนไทล์ใดๆ (ดูการถดถอยแบบควอนไทล์ ) หรือฟังก์ชันอื่นๆ ของการกระจายความน่าจะเป็นภายหลัง
- การถดถอยควอนไทล์มุ่งเน้นไปที่ควอนไทล์แบบมีเงื่อนไขของ yเมื่อกำหนด Xมากกว่าค่าเฉลี่ยแบบมีเงื่อนไขของ yเมื่อกำหนด Xส่วนการถดถอยควอนไทล์เชิงเส้นจะจำลองควอนไทล์แบบมีเงื่อนไขเฉพาะ เช่น มัธยฐานแบบมีเงื่อนไข เป็นฟังก์ชันเชิงเส้น β T xของตัวทำนาย
- แบบจำลองผสมถูกใช้กันอย่างแพร่หลายในการวิเคราะห์ความสัมพันธ์การถดถอยเชิงเส้นที่เกี่ยวข้องกับข้อมูลที่ขึ้นอยู่กันเมื่อความสัมพันธ์มีโครงสร้างที่ทราบ การประยุกต์ใช้แบบจำลองผสมโดยทั่วไป ได้แก่ การวิเคราะห์ข้อมูลที่เกี่ยวข้องกับการวัดซ้ำ เช่น ข้อมูลระยะยาว หรือข้อมูลที่ได้จากการสุ่มตัวอย่างแบบกลุ่ม โดยทั่วไปจะปรับให้เป็น แบบจำลอง พาราเมตริกโดยใช้การประมาณค่าความน่าจะเป็นสูงสุดหรือการประมาณค่าแบบเบย์เซียน ในกรณีที่ข้อผิดพลาดถูกจำลองเป็น ตัวแปรสุ่ม ปกติจะมีความเชื่อมโยงอย่างใกล้ชิดระหว่างแบบจำลองผสมและกำลังสองน้อยที่สุดแบบทั่วไป [ 20 ]การประมาณค่าผลกระทบคงที่เป็นอีกแนวทางหนึ่งในการวิเคราะห์ข้อมูลประเภทนี้
- การถดถอยส่วนประกอบหลัก (PCR) [ 21 ] [ 22 ]ใช้เมื่อจำนวนตัวแปรทำนายมีขนาดใหญ่ หรือเมื่อมีความสัมพันธ์ที่แข็งแกร่งระหว่างตัวแปรทำนาย ขั้นตอนสองขั้นตอนนี้จะลดจำนวนตัวแปรทำนายโดยใช้การวิเคราะห์ส่วนประกอบหลัก ก่อน จากนั้นจึงใช้ตัวแปรที่ลดลงในการปรับการถดถอย OLS แม้ว่าในทางปฏิบัติมักจะได้ผลดี แต่ก็ไม่มีเหตุผลทางทฤษฎีทั่วไปที่ระบุว่าฟังก์ชันเชิงเส้นที่มีข้อมูลมากที่สุดของตัวแปรทำนายควรอยู่ในส่วนประกอบหลักที่โดดเด่นของการกระจายแบบหลายตัวแปรของตัวแปรทำนายการถดถอยกำลังสองน้อยที่สุดบางส่วนเป็นส่วนขยายของวิธีการ PCR ซึ่งไม่มีข้อบกพร่องดังกล่าว
- การถดถอยมุมน้อยที่สุด[ 23 ]เป็นขั้นตอนการประมาณค่าสำหรับแบบจำลองการถดถอยเชิงเส้นที่พัฒนาขึ้นเพื่อจัดการกับเวกเตอร์ตัวแปรอิสระที่มีมิติสูง ซึ่งอาจมีตัวแปรอิสระมากกว่าจำนวนการสังเกต
- ตัวประมาณค่า Theil –Senเป็น เทคนิค การประมาณค่าที่แข็งแกร่งและเรียบ ง่าย ซึ่งเลือกความชันของเส้นที่เหมาะสมให้เป็นค่ามัธยฐานของความชันของเส้นที่ลากผ่านคู่ของจุดตัวอย่าง มีคุณสมบัติประสิทธิภาพทางสถิติคล้ายกับการถดถอยเชิงเส้นแบบง่าย แต่มีความไวต่อค่าผิดปกติน้อย กว่ามาก [ 24 ]
- มีการนำเทคนิคการประมาณค่าที่แข็งแกร่งอื่นๆ มาใช้ รวมถึง วิธีการ เฉลี่ยแบบตัด αและตัวประมาณค่า L, M, S และ R
แอปพลิเคชัน
การวิเคราะห์การถดถอยเชิงเส้นถูกนำมาใช้กันอย่างแพร่หลายในวิทยาศาสตร์ชีวภาพ พฤติกรรมศาสตร์ และสังคมศาสตร์ เพื่ออธิบายความสัมพันธ์ที่เป็นไปได้ระหว่างตัวแปรต่างๆ จัดว่าเป็นหนึ่งในเครื่องมือที่สำคัญที่สุดที่ใช้ในสาขาวิชาเหล่านี้
เส้นแนวโน้ม
เส้นแนวโน้มแสดงถึงแนวโน้ม การเคลื่อนไหวระยะยาวของ ข้อมูล อนุกรมเวลาหลังจากพิจารณาองค์ประกอบอื่นๆ แล้ว มันบอกว่าชุดข้อมูลเฉพาะ (เช่น GDP ราคาน้ำมัน หรือราคาหุ้น) เพิ่มขึ้นหรือลดลงในช่วงเวลาหนึ่ง เส้นแนวโน้มอาจลากด้วยสายตาผ่านชุดข้อมูล แต่ที่ถูกต้องกว่านั้นคือ ตำแหน่งและความชันของเส้นจะคำนวณโดยใช้เทคนิคทางสถิติ เช่น การถดถอยเชิงเส้น เส้นแนวโน้มโดยทั่วไปจะเป็นเส้นตรง แม้ว่าบางแบบอาจใช้พหุนามดีกรีสูงกว่า ขึ้นอยู่กับระดับความโค้งที่ต้องการในเส้นนั้น
เส้นแนวโน้มบางครั้งถูกนำมาใช้ในการวิเคราะห์ธุรกิจเพื่อแสดงการเปลี่ยนแปลงของข้อมูลเมื่อเวลาผ่านไป ข้อดีคือความเรียบง่าย เส้นแนวโน้มมักถูกใช้เพื่อแสดงให้เห็นว่าการกระทำหรือเหตุการณ์ใดเหตุการณ์หนึ่ง (เช่น การฝึกอบรม หรือแคมเปญโฆษณา) เป็นสาเหตุของการเปลี่ยนแปลงที่สังเกตได้ ณ จุดเวลาใดเวลาหนึ่ง นี่เป็นเทคนิคที่ง่ายและไม่จำเป็นต้องมีกลุ่มควบคุม การออกแบบการทดลอง หรือเทคนิคการวิเคราะห์ที่ซับซ้อน อย่างไรก็ตาม เทคนิคนี้มีข้อเสียคือขาดความถูกต้องทางวิทยาศาสตร์ในกรณีที่การเปลี่ยนแปลงอื่นๆ อาจส่งผลกระทบต่อข้อมูลได้
ระบาดวิทยา
หลักฐานเบื้องต้นที่เชื่อมโยงการสูบบุหรี่กับอัตราการเสียชีวิตและการเจ็บป่วยมาจากการศึกษาเชิงสังเกตโดยใช้การวิเคราะห์การถดถอย เพื่อลดความสัมพันธ์ที่ผิดพลาดเมื่อวิเคราะห์ข้อมูลเชิงสังเกต นักวิจัยมักจะรวมตัวแปรหลายตัวไว้ในแบบจำลองการถดถอย นอกเหนือจากตัวแปรหลักที่สนใจ ตัวอย่างเช่น ในแบบจำลองการถดถอยที่การสูบบุหรี่เป็นตัวแปรอิสระหลักที่สนใจ และตัวแปรตามคืออายุขัยที่วัดเป็นปี นักวิจัยอาจรวมการศึกษาและรายได้เป็นตัวแปรอิสระเพิ่มเติม เพื่อให้แน่ใจว่าผลกระทบที่สังเกตได้ของการสูบบุหรี่ต่ออายุขัยไม่ได้เกิดจากปัจจัยทางเศรษฐกิจและสังคม อื่นๆ เหล่านั้น อย่างไรก็ตาม เป็นไปไม่ได้ที่จะรวม ตัวแปรแทรกซ้อน ที่ เป็นไปได้ทั้งหมด ในการวิเคราะห์เชิงประจักษ์ ตัวอย่างเช่น ยีนสมมติอาจเพิ่มอัตราการเสียชีวิตและทำให้คนสูบบุหรี่มากขึ้นด้วย ด้วยเหตุนี้การทดลองแบบสุ่มที่มีกลุ่มควบคุมจึงมักสร้างหลักฐานที่น่าเชื่อถือมากกว่าเกี่ยวกับความสัมพันธ์เชิงสาเหตุได้มากกว่าที่ได้จากการวิเคราะห์การถดถอยของข้อมูลเชิงสังเกต เมื่อการทดลองแบบควบคุมไม่สามารถทำได้ อาจใช้ การวิเคราะห์การถดถอยแบบต่างๆ เช่น การถดถอย ตัวแปรเครื่องมือ เพื่อพยายามประมาณความสัมพันธ์เชิงสาเหตุจากข้อมูลจากการสังเกต
การเงิน
แบบจำลองการกำหนดราคาหลักทรัพย์ (CAPM)ใช้การถดถอยเชิงเส้นและแนวคิดของค่าเบต้าในการวิเคราะห์และวัดปริมาณความเสี่ยงเชิงระบบของการลงทุน ซึ่งได้มาจากสัมประสิทธิ์เบต้าของแบบจำลองการถดถอยเชิงเส้นที่เชื่อมโยงผลตอบแทนจากการลงทุนกับผลตอบแทนจากสินทรัพย์ที่มีความเสี่ยงทั้งหมด
เศรษฐศาสตร์
การถดถอยเชิงเส้นเป็นเครื่องมือเชิงประจักษ์ที่โดดเด่นในทางเศรษฐศาสตร์ตัวอย่างเช่น ใช้ในการทำนายการใช้จ่ายเพื่อการบริโภค[ 25 ] การใช้ จ่ายเพื่อ การลงทุนในสินทรัพย์ ถาวร การลงทุนในสินค้าคงคลัง การซื้อ สินค้าส่งออกของประเทศ[ 26 ]การใช้จ่ายในการนำเข้า [ 26 ] ความต้องการถือครองสินทรัพย์สภาพคล่อง [ 27 ] ความต้องการแรงงาน[ 28 ]และอุปทานแรงงาน[ 28 ]
วิทยาศาสตร์สิ่งแวดล้อม
การถดถอยเชิงเส้นมีการประยุกต์ใช้ในวิทยาศาสตร์สิ่งแวดล้อมหลากหลายด้าน เช่น การ ใช้ที่ดิน [ 29 ]โรคติดเชื้อ [ 30 ]และมลพิษทางอากาศ [ 31 ] ตัวอย่างเช่น การถดถอยเชิงเส้นสามารถใช้เพื่อทำนายผลกระทบที่เปลี่ยนแปลงไปของมลพิษจากรถยนต์[ 32 ] ตัวอย่างที่โดดเด่นของการประยุกต์ใช้ในด้านโรคติดเชื้อคือ กลยุทธ์การ ทำให้เส้นโค้งแบนราบซึ่งเน้นในช่วงเริ่มต้นของการระบาดของ COVID-19 ซึ่งเจ้าหน้าที่สาธารณสุขต้องรับมือกับข้อมูลที่กระจัดกระจายเกี่ยวกับผู้ติดเชื้อและแบบจำลองการแพร่กระจายของโรคที่ซับซ้อนเพื่ออธิบายการแพร่กระจายของ COVID-19 [ 33 ]
วิทยาศาสตร์การก่อสร้าง
การถดถอยเชิงเส้นมักใช้ใน การศึกษาภาคสนามด้าน วิทยาศาสตร์อาคารเพื่อหาลักษณะเฉพาะของผู้พักอาศัยในอาคาร ใน การศึกษาภาคสนามด้าน ความสบายทางความร้อนนักวิทยาศาสตร์อาคารมักจะสอบถามความรู้สึกทางความร้อนของผู้พักอาศัย ซึ่งมีค่าตั้งแต่ -3 (รู้สึกหนาว) ถึง 0 (เป็นกลาง) ถึง +3 (รู้สึกร้อน) และวัดข้อมูลอุณหภูมิโดยรอบของผู้พักอาศัย อุณหภูมิที่เป็นกลางหรืออุณหภูมิที่สบายสามารถคำนวณได้จากการถดถอยเชิงเส้นระหว่างความรู้สึกทางความร้อนและอุณหภูมิภายในอาคาร โดยกำหนดให้ความรู้สึกทางความร้อนเป็นศูนย์ อย่างไรก็ตาม มีการถกเถียงกันเกี่ยวกับทิศทางการถดถอย: การถดถอยความรู้สึกทางความร้อน (แกน y) เทียบกับอุณหภูมิภายในอาคาร (แกน x) หรือในทางกลับกัน: การถดถอยอุณหภูมิภายในอาคาร (แกน y) เทียบกับความรู้สึกทางความร้อน (แกน x) [ 34 ]
การเรียนรู้ของเครื่อง
การถดถอยเชิงเส้นมีบทบาทสำคัญในสาขาย่อยของปัญญาประดิษฐ์ที่เรียกว่าการเรียนรู้ของเครื่อง อั ลกอริทึม การถดถอยเชิงเส้นเป็นหนึ่งในอัลก อริทึม การเรียนรู้ของเครื่องแบบมีผู้กำกับดูแล ขั้นพื้นฐาน เนื่องจากมีความเรียบง่ายและคุณสมบัติที่เป็นที่รู้จักกันดี[ 35 ]
ประวัติศาสตร์
ไอแซค นิวตันได้รับการยกย่องว่าเป็นผู้คิดค้น "เทคนิคบางอย่างที่รู้จักกันในปัจจุบันว่าการวิเคราะห์การถดถอยเชิงเส้น " ในงานของเขาเกี่ยวกับวิษุวัตในปี ค.ศ. 1700 และได้เขียนสมการปกติข้อแรกจากสองสมการของวิธี การ กำลังสองน้อยที่สุดแบบธรรมดา[ 36 ] [ 37 ]การถดถอยเชิงเส้นกำลังสองน้อยที่สุด ซึ่งเป็นวิธีการหาความเหมาะสมเชิงเส้นคร่าวๆ ที่ดีสำหรับชุดจุดต่างๆ นั้น ดำเนินการโดยเลอจองเดอร์ (1805) และเกาส์ (1809) เพื่อทำนายการเคลื่อนที่ของดาวเคราะห์เควเตเลต์เป็นผู้รับผิดชอบในการทำให้กระบวนการนี้เป็นที่รู้จักและนำไปใช้อย่างกว้างขวางในสังคมศาสตร์[ 38 ]
ดูเพิ่มเติม
- การวิเคราะห์ความแปรปรวน
- การสลายตัวของ Blinder–Oaxaca
- แบบจำลองการถดถอยแบบเซ็นเซอร์
- การถดถอยภาคตัดขวาง
- การปรับเส้นโค้งให้เหมาะสม
- วิธีการเบย์เชิงประจักษ์
- ข้อผิดพลาดและค่าคงเหลือ
- ผลรวมกำลังสองที่ไม่สอดคล้องกัน
- การติดตั้งท่อ
- ตัวจำแนกเชิงเส้น
- สมการเชิงเส้น
- การถดถอยโลจิสติก
- ตัวประมาณค่า M
- สปลายการถดถอยแบบปรับตัวหลายตัวแปร
- การถดถอยแบบไม่เชิงเส้น
- การถดถอยแบบไม่ใช้พารามิเตอร์
- สมการปกติ
- การถดถอยการไล่ล่าการฉายภาพ
- ระเบียบวิธีสร้างแบบจำลองการตอบสนอง
- การถดถอยเชิงเส้นแบบแบ่งส่วน
- เส้นค่าเบี่ยงเบนมาตรฐาน
- การถดถอยแบบทีละขั้นตอน
- การแตกหักเชิงโครงสร้าง
- เครื่องสนับสนุนเวกเตอร์
- แบบจำลองการถดถอยแบบตัดทอน
- การถดถอยของเดมิง
อ่านเพิ่มเติม
- Pedhazur, Elazar J (1982). การวิเคราะห์การถดถอยพหุตัวแปรในการวิจัยพฤติกรรม: คำอธิบายและการทำนาย (ฉบับที่ 2). นิวยอร์ก: Holt, Rinehart and Winston. ISBN 978-0-03-041760-3.
- Mathieu Rouaud, 2013: ความน่าจะเป็น สถิติ และการประมาณค่าบทที่ 2: การถดถอยเชิงเส้น การถดถอยเชิงเส้นพร้อมแถบแสดงความคลาดเคลื่อน และการถดถอยแบบไม่เชิงเส้น
- ห้องปฏิบัติการฟิสิกส์แห่งชาติ (1961). "บทที่ 1: สมการเชิงเส้นและเมทริกซ์: วิธีตรง". วิธีการคำนวณสมัยใหม่ . บันทึกเกี่ยวกับวิทยาศาสตร์ประยุกต์. เล่มที่ 16 (ฉบับที่ 2). สำนักงานสิ่งพิมพ์ของสมเด็จพระราชินีนาถ .
ลิงก์ภายนอก
- การถดถอยกำลังสองน้อยที่สุด , การจำลองแบบเชิงโต้ตอบ PhET , มหาวิทยาลัยโคโลราโดที่โบลเดอร์
- DIY การติดตั้งเชิงเส้น
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การถดถอยเชิงเส้น
ในทางสถิติการถดถอยเชิงเส้นเป็นแบบจำลองที่ประมาณความสัมพันธ์ระหว่าง การตอบสนอง แบบสเกลาร์ ( ตัวแปรตาม ) และตัวแปรอธิบายหนึ่งตัวหรือมากกว่า ( ตัวแปรอิสระหรือตัวแปรถดถอย )
สูตร
เมื่อกำหนด ชุดข้อมูล ที่ มีหน่วยทางสถิติ n หน่วย แบบจำลองการถดถอยเชิงเส้นจะถือว่าความสัมพันธ์ระหว่างตัวแปรตาม y และเวกเตอร์ของตัวแปรอิสระ x เป็น เชิงเส้น ความสัมพันธ์นี้ถูกจำลองผ่าน พจน์รบกวน หรือ ตัวแปรความคลาดเคลื่อน ε ซึ่งเป็น ตัวแปรสุ่ม...
สัญลักษณ์และศัพท์เฉพาะ
การสร้างแบบจำลองเชิงเส้นให้เข้ากับชุดข้อมูลที่กำหนด มักต้องประมาณค่าสัมประสิทธิ์การถดถอยเพื่อให้ค่าความคลาดเคลื่อนน้อยที่สุด ตัวอย่างเช่น นิยมใช้ผลรวมของกำลังสองของความคลาดเคลื่อนเป็นตัววัดค่าความคลาดเคลื่อนให้น้อยที่สุด เบต้า {\displaystyle {\boldสัญลักษณ์...
ตัวอย่าง
ลองพิจารณาสถานการณ์ที่ลูกบอลขนาดเล็กถูกโยนขึ้นไปในอากาศ แล้วเราวัดความสูงในการขึ้น h i ในช่วงเวลาต่างๆ t i หลักฟิสิกส์บอกเราว่า หากไม่คำนึงถึง แรงต้านอากาศ ความสัมพันธ์สามารถจำลองได้ดังนี้