กลับไปหน้าบทความ

อ่าน 17 นาที

การถดถอยในระดับท้องถิ่น

การถดถอยแบบโลคอล หรือ การถดถอยพหุนามแบบโลคอล [ 1 ] หรือ ที่รู้จักกันในชื่อ การถดถอยแบบเคลื่อนที่ [ 2 ] เป็นการ ขยาย ผลของ ค่าเฉลี่ยเคลื่อนที่ และ การถดถอยพหุนาม [ 3 ]...

การถดถอยในระดับท้องถิ่น

เส้นโค้ง LOESS ที่ปรับให้เข้ากับกลุ่มตัวอย่างที่ได้จากคลื่นไซน์ที่มีการเพิ่มสัญญาณรบกวนแบบสม่ำเสมอ เส้นโค้ง LOESS นี้เป็นค่าประมาณของคลื่นไซน์ดั้งเดิม

การถดถอยแบบโลคอลหรือการถดถอยพหุนามแบบโลคอล [ 1 ] หรือที่รู้จักกันในชื่อการถดถอยแบบเคลื่อนที่ [ 2 ]เป็นการขยายผลของค่าเฉลี่ยเคลื่อนที่และการถดถอยพหุนาม[ 3 ] วิธีการที่ใช้กันทั่วไปมากที่สุด ซึ่งพัฒนาขึ้นครั้งแรกสำหรับการปรับเรียบแผนภาพกระจายคือLOESS ( การปรับเรียบแผนภาพกระจายโดยประมาณแบบโล คอล ) และLOWESS ( การปรับเรียบแผนภาพกระจายแบบถ่วงน้ำหนักแบบ โล คอ ล ) ซึ่งทั้งสองคำออกเสียงว่า/ ˈ ɛ s / LOH -ess ทั้งสองเป็นวิธี การถดถอยแบบไม่ใช้พารามิเตอร์ที่เกี่ยวข้องกันอย่างมากซึ่งรวมแบบจำลองการถดถอยหลายแบบเข้าด้วยกันใน แบบจำลองเมตาแบบ k -nearest-neighborในบางสาขา LOESS เป็นที่รู้จักและเรียกกันทั่วไปว่าตัวกรอง Savitzky–Golay [ 4 ] [ 5 ] (เสนอเมื่อ 15 ปีก่อน LOESS)

LOESS และ LOWESS จึงสร้างขึ้นบนพื้นฐานวิธีการ "แบบดั้งเดิม"เช่นการถดถอยกำลังสองน้อยที่สุด เชิงเส้นและไม่เชิงเส้น วิธีการเหล่านี้แก้ปัญหาในสถานการณ์ที่วิธีการแบบดั้งเดิมไม่ได้ผลดี หรือไม่สามารถนำไปใช้ได้อย่างมีประสิทธิภาพโดยไม่ต้องใช้ความพยายามมากเกินไป LOESS ผสมผสานความเรียบง่ายของการถดถอยกำลังสองน้อยที่สุดเชิงเส้นเข้ากับความยืดหยุ่นของการถดถอยไม่เชิงเส้นโดยการสร้างแบบจำลองอย่างง่ายให้กับชุดย่อยของข้อมูลเฉพาะที่ เพื่อสร้างฟังก์ชันที่อธิบายส่วนที่เป็นตัวกำหนดของความแปรผันในข้อมูลทีละจุด อันที่จริง หนึ่งในจุดเด่นหลักของวิธีนี้คือ นักวิเคราะห์ข้อมูลไม่จำเป็นต้องระบุฟังก์ชันโดยรวมในรูปแบบใดๆ เพื่อปรับแบบจำลองให้เข้ากับข้อมูล เพียงแต่ต้องปรับให้เข้ากับส่วนต่างๆ ของข้อมูลเท่านั้น

ข้อแลกเปลี่ยนสำหรับคุณสมบัติเหล่านี้คือการคำนวณที่เพิ่มขึ้น เนื่องจากต้องใช้การคำนวณอย่างมาก LOESS จึงแทบเป็นไปไม่ได้เลยที่จะนำมาใช้ในยุคที่กำลังพัฒนาวิธีการถดถอยกำลังสองน้อยที่สุด วิธีการสร้างแบบจำลองกระบวนการสมัยใหม่ส่วนใหญ่ก็คล้ายกับ LOESS ในแง่นี้ วิธีการเหล่านี้ได้รับการออกแบบมาอย่างตั้งใจเพื่อใช้ประโยชน์จากความสามารถในการคำนวณในปัจจุบันของเราอย่างเต็มที่ที่สุด เพื่อบรรลุเป้าหมายที่ทำได้ยากด้วยวิธีการแบบดั้งเดิม

เส้นโค้งเรียบที่ลากผ่านชุดจุดข้อมูลที่ได้จากเทคนิคทางสถิตินี้เรียกว่าเส้นโค้งโลเอสโดยเฉพาะอย่างยิ่งเมื่อค่าที่เรียบแต่ละค่าได้มาจากการถดถอยกำลังสองน้อยที่สุดแบบถ่วงน้ำหนักในช่วงค่าของ ตัวแปรเกณฑ์ของแผนภาพ กระจายแกนyเมื่อค่าที่เรียบแต่ละค่าได้มาจากการถดถอยกำลังสองน้อยที่สุดเชิงเส้นแบบถ่วงน้ำหนักในช่วงนี้ จะเรียกว่าเส้นโค้งโลเวสอย่างไรก็ตาม ผู้เชี่ยวชาญบางคนถือว่าโลเวสและโลเอสเป็นคำพ้องความหมาย[ 6 ] [ 7 ]

ประวัติศาสตร์

การถดถอยแบบโลคอลและกระบวนการที่เกี่ยวข้องอย่างใกล้ชิดมีประวัติอันยาวนานและอุดมสมบูรณ์ โดยได้รับการค้นพบและค้นพบใหม่ในสาขาต่างๆ หลายครั้ง งานในช่วงแรกโดยRobert Henderson [ 8 ]ที่ศึกษาปัญหาการสำเร็จการศึกษา (คำศัพท์สำหรับการปรับให้เรียบที่ใช้ในวรรณกรรมด้านคณิตศาสตร์ประกันภัย) ได้แนะนำการถดถอยแบบโลคอลโดยใช้พหุนามลูกบาศก์

โดยเฉพาะอย่างยิ่ง ให้แทนลำดับการสังเกตที่ยังไม่ได้ปรับระดับ ตามแนวคิดของเฮนเดอร์สัน สมมติว่าเฉพาะพจน์ตั้งแต่ถึง เท่านั้นที่จะถูกนำมาพิจารณาในการคำนวณค่าที่ปรับระดับแล้วของและคือค่าน้ำหนักที่จะกำหนดให้กับ จากนั้นเฮนเดอร์สันจะใช้การประมาณค่าพหุนามเฉพาะที่และตั้งสมการสี่สมการต่อไปนี้สำหรับสัมประสิทธิ์:

การแก้สมการเหล่านี้เพื่อหาค่าสัมประสิทธิ์ของพหุนามจะให้ค่าที่ไล่ระดับแล้ว นั่นคือ

เฮนเดอร์สันไปไกลกว่านั้น ในช่วงหลายปีก่อนหน้านี้ มีการพัฒนาวิธีการแบ่งระดับแบบ 'สูตรผลรวม' หลายวิธี ซึ่งได้มาจากกฎการแบ่งระดับโดยอาศัยสูตรผลรวม (การสังเคราะห์อนุกรมของการสังเกตด้วยชุดน้ำหนักที่เลือก) กฎดังกล่าวสองข้อคือกฎ 15 จุดและ 21 จุดของสเปนเซอร์ (1904) [ 9 ]กฎการแบ่งระดับเหล่านี้ได้รับการออกแบบอย่างระมัดระวังเพื่อให้มีคุณสมบัติการสร้างแบบกำลังสอง: หากค่าที่ยังไม่ได้แบ่งระดับเป็นไปตามสูตรกำลังสองอย่างแม่นยำ ค่าที่แบ่งระดับแล้วจะเท่ากับค่าที่ยังไม่ได้แบ่งระดับ นี่เป็นคุณสมบัติที่สำคัญ: ในทางตรงกันข้าม ค่าเฉลี่ยเคลื่อนที่แบบง่ายไม่สามารถจำลองจุดสูงสุดและจุดต่ำสุดในข้อมูลได้อย่างเพียงพอ ความเข้าใจของเฮนเดอร์สันคือการแสดงให้เห็นว่า กฎการแบ่งระดับ ดังกล่าวสามารถแสดงได้เป็นค่าพอดีแบบลูกบาศก์ (หรือกำลังสอง) เฉพาะที่สำหรับการเลือกน้ำหนักที่เหมาะสม

การอภิปรายเพิ่มเติมเกี่ยวกับงานทางประวัติศาสตร์เกี่ยวกับการสำเร็จการศึกษาและการปรับพหุนามเฉพาะที่สามารถพบได้ในMacaulay (1931) [ 10 ] ClevelandและLoader (1995); [ 11 ]และMurrayและBellhouse (2019) [ 12 ]

ตัวกรอง Savitzky-Golayซึ่งแนะนำโดยAbraham SavitzkyและMarcel JE Golay (1964) [ 13 ]ได้ขยายวิธีการนี้อย่างมีนัยสำคัญ เช่นเดียวกับงานการไล่ระดับก่อนหน้านี้ พวกเขามุ่งเน้นไปที่ข้อมูลที่มีตัวแปรทำนายที่มีระยะห่างเท่ากัน ซึ่ง (ไม่รวมผลกระทบที่ขอบเขต) การถดถอยเฉพาะที่สามารถแสดงเป็นคอนโวลูชันได้ Savitzky และ Golay ได้เผยแพร่ชุดสัมประสิทธิ์คอนโวลูชันจำนวนมากสำหรับลำดับต่างๆ ของความกว้างของหน้าต่างพหุนามและหน้าต่างปรับเรียบ

วิธีการถดถอยเฉพาะที่เริ่มปรากฏให้เห็นอย่างแพร่หลายในวรรณกรรมทางสถิติในช่วงทศวรรษ 1970 ตัวอย่างเช่นCharles J. Stone (1977) [ 14 ] Vladimir Katkovnik (1979) [ 15 ]และWilliam S. Cleveland (1979) [ 16 ] Katkovnik (1985) [ 17 ]เป็นหนังสือเล่มแรกที่อุทิศให้กับวิธีการถดถอยเฉพาะที่เป็นหลัก

งานเชิงทฤษฎียังคงปรากฏออกมาอย่างต่อเนื่องตลอดช่วงทศวรรษ 1990 ผลงานสำคัญได้แก่Jianqing FanและIrène Gijbels (1992) [ 18 ]ที่ศึกษาคุณสมบัติประสิทธิภาพ และDavid RuppertและMatthew P. Wand (1994) [ 19 ]ที่พัฒนาทฤษฎีการกระจายแบบเชิงเส้นกำกับสำหรับการถดถอยเฉพาะที่แบบหลายตัวแปร

ส่วนขยายที่สำคัญของการถดถอยแบบโลคอลคือการประมาณค่าความน่าจะเป็นแบบโลคอล ซึ่งคิดค้นโดยRobert TibshiraniและTrevor Hastie (1987) [ 20 ]วิธีนี้แทนที่เกณฑ์กำลังสองน้อยที่สุดแบบโลคอลด้วยเกณฑ์ตามความน่าจะเป็น จึงขยายวิธีการถดถอยแบบโลคอลไปยัง การตั้ง ค่าแบบจำลองเชิงเส้นทั่วไปเช่น ข้อมูลไบนารี ข้อมูลการนับ หรือข้อมูลที่ถูกตัดทอน

การนำการถดถอยแบบโลคอลไปใช้ในทางปฏิบัติเริ่มปรากฏในซอฟต์แวร์ทางสถิติในช่วงทศวรรษ 1980 Cleveland (1981) [ 21 ]ได้แนะนำรูทีน LOWESS ซึ่งมีจุดประสงค์เพื่อปรับความเรียบของแผนภาพกระจาย รูทีนนี้ใช้การปรับแบบเชิงเส้นแบบโลคอลด้วยตัวแปรทำนายตัวเดียว และยังแนะนำการลดน้ำหนักความทนทานเพื่อให้กระบวนการนี้ทนต่อค่าผิดปกติ การใช้งานแบบใหม่ทั้งหมด LOESS ได้รับการอธิบายไว้ใน Cleveland และSusan J. Devlin (1988) [ 22 ] LOESS เป็นตัวปรับความเรียบแบบหลายตัวแปร สามารถจัดการกับข้อมูลเชิงพื้นที่ที่มีตัวแปรทำนายสองตัว (หรือมากกว่า) และใช้การปรับแบบกำลังสองแบบโลคอล (โดยค่าเริ่มต้น) ทั้ง LOWESS และ LOESS ถูกนำไปใช้ใน ภาษาการเขียนโปรแกรม SและRดูซอฟต์แวร์การปรับแบบโลคอลของ Cleveland เพิ่มเติม[ 23 ]

แม้ว่าบางครั้งคำว่า Local Regression, LOWESS และ LOESS จะถูกใช้สลับกันได้ แต่การใช้งานเช่นนั้นถือว่าไม่ถูกต้อง Local Regression เป็นคำทั่วไปสำหรับกระบวนการปรับให้เหมาะสม ในขณะที่ LOWESS และ LOESS เป็นการนำไปใช้ที่แตกต่างกันสองแบบ

คำจำกัดความของแบบจำลอง

การถดถอยเฉพาะที่ (Local regression) ใช้ชุดข้อมูลที่ประกอบด้วยค่าสังเกต ตัวแปรอิสระหรือตัวแปรทำนายหนึ่งตัวหรือมากกว่า และตัวแปรตามหรือตัวแปรตอบสนอง ชุดข้อมูลจะประกอบด้วยค่าสังเกตจำนวนหนึ่ง ค่าสังเกตของตัวแปรทำนายสามารถแทนด้วยและค่าสังเกตที่สอดคล้องกันของตัวแปรตอบสนองสามารถแทนด้วย

เพื่อความสะดวกในการนำเสนอ การพัฒนาต่อไปนี้จะถือว่ามีตัวแปรทำนายเพียงตัวเดียว การขยายไปสู่ตัวแปรทำนายหลายตัว (เมื่อเป็นเวกเตอร์) นั้นทำได้ง่ายในเชิงแนวคิด สมมติความสัมพันธ์เชิงฟังก์ชันระหว่างตัวแปรทำนายและตัวแปรตอบสนอง โดยที่คือฟังก์ชันการถดถอยแบบ 'เรียบ' ที่ไม่ทราบค่าที่จะต้องประมาณ และ แทนค่าคาดหวังแบบมีเงื่อนไขของตัวแปรตอบสนอง เมื่อกำหนดค่าของตัวแปรทำนาย ในงานทางทฤษฎี ความ 'เรียบ' ของฟังก์ชันนี้สามารถกำหนดลักษณะอย่างเป็นทางการได้โดยการกำหนดขอบเขตให้กับอนุพันธ์อันดับสูง แทนค่าความคลาดเคลื่อนแบบสุ่ม สำหรับวัตถุประสงค์ในการประมาณค่า จะถือว่าค่าเฉลี่ยเป็นศูนย์ อาจมีการตั้งสมมติฐานที่เข้มงวดกว่า (เช่นความเป็นอิสระและความแปรปรวน เท่ากัน ) เมื่อประเมินคุณสมบัติของการประมาณค่า

จากนั้น การถดถอยเฉพาะที่ (Local regression) จะประมาณค่าฟังก์ชันโดยพิจารณาค่าของทีละค่า เนื่องจากถือว่าฟังก์ชันมีความเรียบ จุดข้อมูลที่มีประโยชน์มากที่สุดจึงเป็นจุดที่มีค่าใกล้เคียงกับ ซึ่ง กำหนดเป็นรูปทรงโดยใช้แบนด์วิดท์และเคอร์เนลหรือฟังก์ชันน้ำหนักโดยกำหนดค่าน้ำหนักให้กับข้อมูลแต่ละ ส่วน โดยทั่วไปแล้ว Cleveland เลือกใช้ค่า สำหรับ เป็นหลัก โดย มีค่า เท่ากับ สำหรับแม้ว่าฟังก์ชันที่คล้ายกันใดๆ (มีค่าสูงสุดที่และมีค่าน้อยหรือเป็น 0 สำหรับค่ามากของ) ก็สามารถใช้ได้เช่นกัน ส่วนคำถามเกี่ยวกับการเลือกและการกำหนดแบนด์วิดท์ (ควรมีขนาดใหญ่แค่ไหน และควรเปลี่ยนแปลงไปตามจุดที่เหมาะสมหรือไม่) นั้น จะกล่าวถึงในภายหลัง

แบบจำลองเฉพาะที่ (โดยปกติจะเป็นพหุนามลำดับต่ำที่มีดีกรี n ) ซึ่งแสดงเป็น จะถูกปรับให้เหมาะสมโดยใช้ วิธี ถ่วงน้ำหนักกำลังสองน้อยที่สุด : เลือกสัมประสิทธิ์การถดถอย เพื่อลดค่า ให้เหลือน้อย ที่สุด ค่าประมาณการถดถอยเฉพาะที่ของจึงเป็นเพียงค่าประมาณจุดตัดแกน: ในขณะที่สัมประสิทธิ์ที่เหลือสามารถตีความได้ (โดยมีปัจจัย n ไม่เกิน) เป็นค่าประมาณอนุพันธ์

ควรเน้นย้ำว่าขั้นตอนข้างต้นให้ค่าประมาณสำหรับค่า เพียงค่าเดียวเท่านั้นเมื่อพิจารณาค่า ใหม่ จะต้องคำนวณ ชุดน้ำหนักใหม่และประมาณค่าสัมประสิทธิ์การถดถอยใหม่อีกครั้ง

การแสดงผลเมทริกซ์ของการประมาณการถดถอยเฉพาะที่

เช่นเดียวกับการประมาณค่ากำลังสองน้อยที่สุดทั้งหมด ค่าสัมประสิทธิ์การถดถอยที่ประมาณได้สามารถแสดงในรูปแบบปิดได้ (ดูรายละเอียดในหัวข้อ กำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก ): โดยที่เป็นเวกเตอร์ของค่าสัมประสิทธิ์การถดถอยเฉพาะที่; เป็นเมทริกซ์การออกแบบที่มีสมาชิก; เป็นเมทริกซ์แนวทแยงของน้ำหนักการปรับเรียบ; และเป็นเวกเตอร์ของการตอบสนอง

การนำเสนอในรูปแบบเมทริกซ์นี้มีความสำคัญอย่างยิ่งสำหรับการศึกษาคุณสมบัติทางทฤษฎีของการประมาณค่าการถดถอยเฉพาะที่ ด้วยคำจำกัดความที่เหมาะสมของเมทริกซ์การออกแบบและเมทริกซ์น้ำหนัก มันสามารถขยายไปสู่การตั้งค่าตัวแปรทำนายหลายตัวได้ทันที

ประเด็นในการคัดเลือก: แบนด์วิดท์, โมเดลท้องถิ่น, เกณฑ์การปรับให้เหมาะสม

การนำการถดถอยเชิงพื้นที่ไปใช้ จำเป็นต้องมีการระบุและเลือกส่วนประกอบหลายอย่าง:

  1. แบนด์วิดท์ และโดยทั่วไปแล้วคือชุดย่อยของข้อมูลเฉพาะที่
  2. ระดับของพหุนามเฉพาะที่ หรือโดยทั่วไปแล้ว รูปแบบของแบบจำลองเฉพาะที่
  3. การเลือกฟังก์ชันน้ำหนัก
  4. การเลือกเกณฑ์การปรับให้เหมาะสม (วิธีกำลังสองน้อยที่สุด หรือวิธีอื่น)

ส่วนประกอบแต่ละอย่างเหล่านี้ได้รับการศึกษาอย่างละเอียดถี่ถ้วนแล้ว โดยมีบทสรุปอยู่ด้านล่างนี้

ชุดข้อมูลย่อยเฉพาะที่; แบนด์วิดท์

แบนด์วิดท์ควบคุมความละเอียดของการประมาณค่าการถดถอยเฉพาะที่ หากhมีค่าน้อยเกินไป การประมาณค่าอาจแสดงคุณลักษณะที่มีความละเอียดสูงซึ่งแสดงถึงสัญญาณรบกวนในข้อมูล แทนที่จะเป็นโครงสร้างที่แท้จริงในฟังก์ชันค่าเฉลี่ย ในทางกลับกัน หากhมีค่ามากเกินไป การประมาณค่าจะแสดงเฉพาะคุณลักษณะที่มีความละเอียดต่ำ และโครงสร้างที่สำคัญอาจสูญหายไป นี่คือความสมดุลระหว่างความเอนเอียงและความแปรปรวนหากh มีค่าน้อยเกินไป การประมาณค่าจะแสดงความแปรปรวนมาก ในขณะที่หาก hมีค่ามากการประมาณค่าจะแสดงความเอนเอียงมาก

ดังนั้น การเลือกแบนด์วิดท์อย่างระมัดระวังจึงมีความสำคัญอย่างยิ่งเมื่อใช้การถดถอยเฉพาะที่ วิธีการทางคณิตศาสตร์สำหรับการเลือกแบนด์วิดท์นั้น จำเป็นต้องมีเกณฑ์ที่เป็นทางการเพื่อประเมินประสิทธิภาพของการประมาณค่าก่อน เกณฑ์หนึ่งดังกล่าวคือ ข้อผิดพลาดในการทำนาย: หากมีการสังเกตใหม่ที่ ค่าประมาณนั้นสามารถทำนายการตอบสนองใหม่ได้ดีเพียงใด

ประสิทธิภาพมักถูกประเมินโดยใช้ฟังก์ชันความสูญเสียแบบกำลังสอง ค่าเฉลี่ยกำลังสองของความคลาดเคลื่อนในการทำนายคือ พจน์แรกคือความผันแปรแบบสุ่มของการสังเกต ซึ่งเป็นอิสระอย่างสมบูรณ์จากการประมาณการถดถอย เฉพาะที่ พจน์ที่สองคือค่าเฉลี่ยกำลังสองของความคลาดเคลื่อนในการประมาณค่า ความสัมพันธ์นี้แสดงให้เห็นว่า สำหรับความสูญเสียแบบกำลังสอง การลดความคลาดเคลื่อนในการทำนายและความคลาดเคลื่อนในการประมาณค่าเป็นปัญหาที่เทียบเท่ากัน

ในการเลือกแบนด์วิดท์ทั่วโลก มาตรการเหล่านี้สามารถบูรณาการตลอดพื้นที่ ("ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองแบบบูรณาการ" ซึ่งมักใช้ในงานเชิงทฤษฎี) หรือหาค่าเฉลี่ยจากค่าจริง(ซึ่งมีประโยชน์มากกว่าสำหรับการนำไปใช้ในทางปฏิบัติ) เทคนิคมาตรฐานบางอย่างจากการเลือกแบบจำลองสามารถปรับใช้กับการถดถอยเฉพาะที่ได้อย่างง่ายดาย:

  1. การตรวจสอบแบบไขว้ (Cross Validation ) ซึ่งเป็นการประมาณค่าความคลาดเคลื่อนในการทำนายแบบกำลังสองเฉลี่ย
  2. ค่า Cp ของ Mallowและเกณฑ์สารสนเทศของ Akaikeซึ่งใช้ในการประมาณค่าความคลาดเคลื่อนกำลังสองเฉลี่ยของการประมาณค่า
  3. วิธีการอื่นๆ ที่พยายามประมาณค่าความเอนเอียงและส่วนประกอบความแปรปรวนของข้อผิดพลาดในการประมาณค่าโดยตรง

เกณฑ์เหล่านี้สามารถลดให้น้อยที่สุดเพื่อสร้างตัวเลือกแบนด์วิดท์อัตโนมัติ Cleveland และ Devlin [ 22 ]นิยมใช้วิธีกราฟิก ( M -plot) เพื่อแสดงการแลกเปลี่ยนระหว่างอคติและความแปรปรวนและแนะนำการเลือกแบนด์วิดท์

คำถามหนึ่งที่ไม่ได้กล่าวถึงข้างต้นคือ แบนด์วิดท์ควรขึ้นอยู่กับจุดที่เหมาะสมอย่างไร? โดยทั่วไปจะใช้แบนด์วิดท์คงที่ ในขณะที่ LOWESS และ LOESS นิยมใช้แบนด์วิดท์แบบเพื่อนบ้านที่ใกล้ที่สุด ซึ่งหมายความว่าhจะมีขนาดเล็กกว่าในบริเวณที่มีจุดข้อมูลจำนวนมาก ในทางทฤษฎี พารามิเตอร์การปรับเรียบคือเศษส่วนของจำนวนจุดข้อมูลทั้งหมดnที่ใช้ในการปรับแบบโลคอลแต่ละครั้ง ชุดย่อยของข้อมูลที่ใช้ในการปรับแบบกำลังสองน้อยที่สุดแบบถ่วงน้ำหนักแต่ละครั้งจึงประกอบด้วยจุด (ปัดเศษเป็นจำนวนเต็มที่มากที่สุดถัดไป) ซึ่งค่าของตัวแปรอธิบายอยู่ใกล้กับจุดที่กำลังประมาณค่าการตอบสนองมากที่สุด[ 7 ]

วิธีการที่ซับซ้อนกว่านั้นพยายามเลือกแบนด์วิดท์แบบปรับเปลี่ยนได้กล่าวคือ เลือกแบนด์วิดท์ที่จุดปรับแต่ละจุดโดยใช้เกณฑ์ เช่น การตรวจสอบแบบไขว้ภายในหน้าต่างการปรับให้เรียบ ตัวอย่างแรกๆ ของเรื่องนี้คือ "supersmoother" ของJerome H. Friedman [ 24 ]ซึ่งใช้การตรวจสอบแบบไขว้เพื่อเลือกการปรับเชิงเส้นเฉพาะที่ในแบนด์วิดท์ที่แตกต่างกัน

ระดับของพหุนามท้องถิ่น

แหล่งข้อมูลส่วนใหญ่ ทั้งในงานเชิงทฤษฎีและเชิงคำนวณ ใช้พหุนามลำดับต่ำเป็นแบบจำลองเฉพาะที่ โดยมีดีกรีของพหุนามตั้งแต่ 0 ถึง 3

แบบจำลองระดับ 0 (ค่าคงที่เฉพาะที่) เทียบเท่ากับตัวปรับเรียบเคอร์เนลซึ่งโดยทั่วไปแล้วได้รับการยกย่องให้เป็นผลงานของÈlizbar Nadaraya (1964) [ 25 ]และGS Watson (1964) [ 26 ]นี่เป็นแบบจำลองที่ง่ายที่สุดในการใช้งาน แต่สามารถประสบปัญหาจากอคติเมื่อปรับให้เข้ากับบริเวณใกล้ขอบของชุดข้อมูล

การปรับเส้นตรงเฉพาะที่ (ระดับ 1) สามารถลดอคติที่ขอบเขตได้อย่างมาก

ฟังก์ชันกำลังสองเฉพาะที่ (ดีกรี 2) และฟังก์ชันกำลังสามเฉพาะที่ (ดีกรี 3) สามารถส่งผลให้การปรับให้เข้ากับข้อมูลดีขึ้น โดยเฉพาะอย่างยิ่งเมื่อฟังก์ชันค่าเฉลี่ยพื้นฐานมีความโค้งมาก หรือเทียบเท่ากับอนุพันธ์อันดับสองที่มีค่ามาก

ในทางทฤษฎี พหุนามลำดับสูงกว่าสามารถนำไปสู่การลู่เข้าที่เร็วขึ้นของการประมาณค่าไปสู่ค่าเฉลี่ยที่แท้จริง ได้ หากพหุนามนั้นมีอนุพันธ์จำนวนมากพอ ดู CJ Stone (1980) [ 27 ]โดยทั่วไปแล้ว ต้องใช้ขนาดตัวอย่างที่ใหญ่มากจึงจะทำให้เกิดการลู่เข้าที่เร็วขึ้นได้ นอกจากนี้ยังมีปัญหาด้านการคำนวณและความเสถียรที่เกิดขึ้น โดยเฉพาะอย่างยิ่งสำหรับการปรับเรียบแบบหลายตัวแปร โดยทั่วไปแล้วไม่แนะนำให้ใช้พหุนามเฉพาะที่ที่มีดีกรีมากกว่า 3

เช่นเดียวกับการเลือกแบนด์วิดท์ วิธีการต่างๆ เช่น การตรวจสอบแบบไขว้ (cross-validation) สามารถนำมาใช้เพื่อเปรียบเทียบความเหมาะสมที่ได้จากพหุนามที่มีระดับต่างกันได้

ฟังก์ชันน้ำหนัก

ดังที่กล่าวมาข้างต้น ฟังก์ชันน้ำหนักจะให้น้ำหนักมากที่สุดกับจุดข้อมูลที่อยู่ใกล้จุดประมาณค่ามากที่สุด และให้น้ำหนักน้อยที่สุดกับจุดข้อมูลที่อยู่ไกลออกไป การใช้น้ำหนักนี้อยู่บนพื้นฐานของแนวคิดที่ว่า จุดที่อยู่ใกล้กันในพื้นที่ตัวแปรอธิบายมีแนวโน้มที่จะมีความสัมพันธ์กันในลักษณะที่ง่ายกว่าจุดที่อยู่ห่างกัน ตามตรรกะนี้ จุดที่มีแนวโน้มที่จะสอดคล้องกับแบบจำลองเฉพาะที่ได้ดีที่สุดจะมีอิทธิพลต่อค่าประมาณพารามิเตอร์ของแบบจำลองเฉพาะที่มากที่สุด จุดที่มีแนวโน้มที่จะไม่สอดคล้องกับแบบจำลองเฉพาะที่นั้นจะมีอิทธิพลต่อค่าประมาณพารามิเตอร์ของแบบจำลองเฉพาะที่ น้อยกว่า

Cleveland (1979) [ 16 ]กำหนดข้อกำหนดสี่ประการสำหรับฟังก์ชันน้ำหนัก:

  1. ไม่เป็นลบ: สำหรับ.
  2. ความสมมาตร: .
  3. โมโนโทน: คือฟังก์ชันที่ไม่เพิ่มขึ้นสำหรับ
  4. ช่วงการรองรับที่จำกัด: สำหรับ.

ประสิทธิภาพเชิงอะซิมโทติกของฟังก์ชันน้ำหนักได้รับการพิจารณาโดยVA Epanechnikov (1969) [ 28 ]ในบริบทของการประมาณความหนาแน่นเคอร์เนล; J. Fan (1993) [ 29 ]ได้ผลลัพธ์ที่คล้ายกันสำหรับการถดถอยเฉพาะที่ พวกเขาสรุปว่าเคอร์เนลกำลังสองมีประสิทธิภาพสูงสุดภายใต้ฟังก์ชันการสูญเสียข้อผิดพลาดกำลังสองเฉลี่ย ดู"ฟังก์ชันเคอร์เนลที่ใช้กันทั่วไป"สำหรับการอภิปรายเพิ่มเติมเกี่ยวกับเคอร์เนลต่างๆ และประสิทธิภาพของพวกมัน

นอกจากค่า MSE แล้ว ปัจจัยอื่นๆ ก็มีความสำคัญต่อการเลือกฟังก์ชันน้ำหนักเช่นกัน คุณสมบัติความเรียบของฟังก์ชันส่งผลโดยตรงต่อความเรียบของการประมาณค่าโดยเฉพาะอย่างยิ่ง เคอร์เนลแบบกำลังสองไม่สามารถหาอนุพันธ์ได้ที่และส่งผลให้ไม่สามารถหาอนุพันธ์ได้เช่นกันฟังก์ชันน้ำหนักแบบไตรคิวบ์ถูก นำมาใช้ใน LOWESS และซอฟต์แวร์การถดถอยเฉพาะที่อื่นๆ ซึ่งรวมความสามารถในการหาอนุพันธ์ลำดับสูงเข้ากับประสิทธิภาพ MSE ที่สูง

ข้อวิจารณ์ประการหนึ่งของฟังก์ชันน้ำหนักที่มีขอบเขตจำกัดคือ อาจนำไปสู่ปัญหาทางตัวเลข (เช่น เมทริกซ์การออกแบบที่ไม่เสถียรหรือเป็นเมทริกซ์เอกฐาน) เมื่อทำการปรับให้เข้ากับบริเวณที่มีข้อมูลน้อย ด้วยเหตุนี้ ผู้เขียนบางคนจึงเลือกใช้เคอร์เนลแบบเกาส์เซียน หรือบางคนก็เลือกใช้แบบที่ไม่มีขอบเขตจำกัด

การเลือกเกณฑ์ความเหมาะสม

ดังที่กล่าวมาข้างต้น การถดถอยแบบโลคอลใช้เกณฑ์กำลังสองน้อยที่สุดแบบถ่วงน้ำหนักเฉพาะที่เพื่อประมาณค่าพารามิเตอร์การถดถอย วิธีนี้สืบทอดข้อดีหลายประการ (ง่ายต่อการใช้งานและการตีความ คุณสมบัติที่ดีเมื่อค่าความคลาดเคลื่อนมีการกระจายแบบปกติ) และข้อเสีย (ความไวต่อค่าสุดขั้วและค่าผิดปกติ ประสิทธิภาพต่ำเมื่อค่าความคลาดเคลื่อนมีความแปรปรวนไม่เท่ากันหรือไม่ได้มีการกระจายแบบปกติ) ที่มักเกี่ยวข้องกับการถดถอยแบบกำลังสองน้อยที่สุด

ข้อเสียเหล่านี้สามารถแก้ไขได้โดยการแทนที่การประมาณค่ากำลังสองน้อยที่สุดในระดับท้องถิ่นด้วยวิธีอื่น แนวคิดสองประการที่นำเสนอในที่นี้ ได้แก่ การประมาณค่าความน่าจะเป็นในระดับท้องถิ่น ซึ่งใช้การประมาณค่าในระดับท้องถิ่นกับแบบจำลองเชิงเส้นทั่วไป และการถดถอยในระดับท้องถิ่นที่ทนทาน ซึ่งเป็นการปรับวิธีการจาก การถดถอยที่ทนทานให้เข้ากับระดับท้องถิ่น

การประมาณความน่าจะเป็นในระดับท้องถิ่น

ในการประมาณค่าความน่าจะเป็นเฉพาะที่ ซึ่งพัฒนาโดย Tibshirani และ Hastie (1987) [ 20 ]ถือว่า การสังเกตการณ์ มาจากตระกูลการแจกแจงแบบพาราเมตริก โดยมีฟังก์ชันความหนาแน่นความน่าจะเป็นที่ทราบ (หรือฟังก์ชันมวล สำหรับข้อมูลแบบไม่ต่อเนื่อง) โดยที่ฟังก์ชันพารามิเตอร์เป็นปริมาณที่ไม่ทราบค่าที่จะต้องประมาณค่า ในการประมาณค่าณ จุดใดจุดหนึ่งเกณฑ์ความน่าจะเป็นเฉพาะที่คือ การประมาณค่าสัมประสิทธิ์การถดถอย (โดยเฉพาะ) ได้มาจากการเพิ่มค่าเกณฑ์ความน่าจะเป็นเฉพาะที่ให้สูงสุด และการประมาณค่าความน่าจะเป็นเฉพาะที่คือ

เมื่อเป็นการแจกแจงแบบปกติและคือฟังก์ชันค่าเฉลี่ย วิธีความน่าจะเป็นเฉพาะที่จะลดลงเหลือเพียงการถดถอยกำลังสองน้อยที่สุดเฉพาะที่แบบมาตรฐาน สำหรับตระกูลความน่าจะเป็นอื่นๆ (โดยปกติ) จะไม่มีคำตอบในรูปแบบปิดสำหรับการประมาณค่าความน่าจะเป็นเฉพาะที่ และต้องใช้วิธีการวนซ้ำ เช่นกำลังสองน้อยที่สุดแบบถ่วงน้ำหนักซ้ำเพื่อคำนวณค่าประมาณ

ตัวอย่าง (การถดถอยโลจิสติกเฉพาะที่) ค่าสังเกตการตอบสนองทั้งหมดเป็น 0 หรือ 1 และฟังก์ชันค่าเฉลี่ยคือความน่าจะเป็นของ "ความสำเร็จ" เนื่องจากต้องอยู่ระหว่าง 0 และ 1 จึงไม่ควรใช้แบบจำลองพหุนามเฉพาะที่ โดยตรง แต่ สามารถใช้ การแปลงโลจิสติก แทนได้ และฟังก์ชันมวลคือ

ทฤษฎีเชิงอะซิมโทติกสำหรับการประมาณความน่าจะเป็นเฉพาะที่ได้รับการพัฒนาใน J. Fan, Nancy E. Heckmanและ MPWand (1995); [ 30 ]หนังสือ Loader (1999) [ 31 ]กล่าวถึงการประยุกต์ใช้ความน่าจะเป็นเฉพาะที่อีกมากมาย

การถดถอยเฉพาะที่ที่แข็งแกร่ง

เพื่อจัดการกับความไวต่อค่าผิดปกติสามารถใช้ เทคนิคจาก การถดถอยที่แข็งแกร่งได้ ใน การประมาณค่า M ในระดับท้องถิ่น เกณฑ์กำลังสองน้อยที่สุดในระดับท้องถิ่นจะถูกแทนที่ด้วยเกณฑ์ในรูปแบบ ที่เป็นฟังก์ชันความแข็งแกร่ง และเป็นพารามิเตอร์มาตราส่วน การอภิปรายเกี่ยวกับข้อดีข้อเสียของการเลือกฟังก์ชันความแข็งแกร่งที่แตกต่างกันนั้นควรปล่อยให้เป็นหน้าที่ของ เอกสาร การถดถอยที่แข็งแกร่งพารามิเตอร์มาตราส่วนจะต้องได้รับการประมาณค่าด้วยเช่นกัน เอกสารอ้างอิงสำหรับการประมาณค่า M ในระดับท้องถิ่น ได้แก่ Katkovnik (1985) [ 17 ]และAlexandre Tsybakov (1986) [ 32 ]

การวนซ้ำความทนทานใน LOWESS และ LOESS สอดคล้องกับฟังก์ชันความทนทานที่กำหนดโดย และการประมาณค่าทั่วโลกที่ทนทานของพารามิเตอร์มาตราส่วน

ถ้าเกณฑ์ ท้องถิ่น จะส่งผลให้เกิดสิ่งนี้ ซึ่งไม่จำเป็นต้องใช้พารามิเตอร์มาตราส่วน เมื่อเกณฑ์นี้จะถูกทำให้น้อยที่สุดโดยค่ามัธยฐานที่ถ่วงน้ำหนักในระดับท้องถิ่นการถดถอยในระดับท้องถิ่นสามารถตีความได้ว่าเป็นการประมาณค่ามัธยฐานแทนที่จะเป็นค่าเฉลี่ยของการตอบสนอง ถ้าฟังก์ชันการสูญเสียเบี่ยงเบน สิ่งนี้จะกลายเป็นการถดถอยควอนไทล์ในระดับท้องถิ่น ดูKeming YuและMC Jones (1998) [ 33 ]

ทางเลือกใหม่ล่าสุดคือการปรับเปลี่ยนน้ำหนักการถดถอยเฉพาะที่แทนที่จะเป็นฟังก์ชันการสูญเสีย Shulman (2025) เสนอการถดถอยพหุนามเฉพาะที่ที่แข็งแกร่งด้วยเคอร์เนลความคล้ายคลึงกันซึ่งการถ่วงน้ำหนักเคอร์เนลได้รับการขยายให้ครอบคลุมทั้งตัวแปรทำนายและตัวแปรตอบสนอง ในเวอร์ชันหนึ่ง เกณฑ์กำลังสองน้อยที่สุดเฉพาะที่จะถูกถ่วงน้ำหนักใหม่โดยการประมาณความหนาแน่นแบบมีเงื่อนไขเพื่อให้การสังเกตที่มีความหนาแน่นแบบมีเงื่อนไขเฉพาะที่ที่ประมาณไว้ต่ำมีน้ำหนักลดลง วิธีนี้ให้ความแข็งแกร่งต่อค่าผิดปกติและจุดที่มีเลเวอเรจสูงโดยไม่ต้องใช้การวนซ้ำความแข็งแกร่งหลายครั้งที่ใช้ในวิธีการต่างๆ เช่น LOWESS และ LOESS [ 34 ]

ข้อดี

ดังที่กล่าวมาข้างต้น ข้อได้เปรียบที่สำคัญที่สุดของ LOESS เมื่อเทียบกับวิธีการอื่นๆ คือ กระบวนการปรับแบบจำลองให้เข้ากับข้อมูลตัวอย่างไม่ได้เริ่มต้นด้วยการกำหนดฟังก์ชัน แต่ผู้ทำการวิเคราะห์เพียงแค่ต้องระบุค่าพารามิเตอร์การปรับเรียบและระดับของพหุนามเฉพาะที่เท่านั้น นอกจากนี้ LOESS ยังมีความยืดหยุ่นสูง ทำให้เหมาะสำหรับการสร้างแบบจำลองกระบวนการที่ซับซ้อนซึ่งไม่มีแบบจำลองทางทฤษฎีอยู่ ข้อได้เปรียบทั้งสองประการนี้ เมื่อรวมกับความเรียบง่ายของวิธีการ ทำให้ LOESS เป็นหนึ่งในวิธีการถดถอยสมัยใหม่ที่น่าสนใจที่สุดสำหรับการใช้งานที่เข้ากับกรอบทั่วไปของการถดถอยกำลังสองน้อยที่สุด แต่มีโครงสร้างเชิงกำหนดที่ซับซ้อน

แม้ว่าจะไม่ชัดเจนเท่ากับวิธีการอื่นๆ ที่เกี่ยวข้องกับการถดถอยกำลังสองน้อยที่สุดเชิงเส้น แต่ LOESS ก็มีข้อดีส่วนใหญ่ที่วิธีการเหล่านั้นมักมีร่วมกัน ข้อดีที่สำคัญที่สุดคือทฤษฎีสำหรับการคำนวณความไม่แน่นอนในการทำนายและการปรับเทียบ นอกจากนี้ การทดสอบและขั้นตอนอื่นๆ ที่ใช้ในการตรวจสอบความถูกต้องของแบบจำลองกำลังสองน้อยที่สุดก็สามารถขยายไปใช้กับแบบจำลอง LOESS ได้เช่นกัน

ข้อเสีย

LOESS ใช้ข้อมูลอย่างมีประสิทธิภาพน้อยกว่าวิธีการกำลังสองน้อยที่สุดอื่นๆ จำเป็นต้องใช้ชุดข้อมูลขนาดใหญ่และมีการสุ่มตัวอย่างอย่างหนาแน่นเพื่อให้ได้แบบจำลองที่ดี เนื่องจาก LOESS อาศัยโครงสร้างข้อมูลเฉพาะที่เมื่อทำการปรับให้เข้ากับข้อมูลเฉพาะที่ ดังนั้น LOESS จึงให้การวิเคราะห์ข้อมูลที่ซับซ้อนน้อยกว่า แต่แลกมาด้วยต้นทุนการทดลองที่สูงกว่า[ 7 ]

ข้อเสียอีกประการหนึ่งของ LOESS คือการที่มันไม่สร้างฟังก์ชันการถดถอยที่สามารถแสดงด้วยสูตรทางคณิตศาสตร์ได้อย่างง่ายดาย ซึ่งอาจทำให้การถ่ายทอดผลการวิเคราะห์ไปยังผู้อื่นทำได้ยาก ในการถ่ายทอดฟังก์ชันการถดถอยไปยังผู้อื่น พวกเขาจะต้องมีชุดข้อมูลและซอฟต์แวร์สำหรับการคำนวณ LOESS ในทางกลับกัน ในการถดถอยแบบไม่เชิงเส้นนั้น เพียงแค่เขียนรูปแบบฟังก์ชันก็เพียงพอแล้วสำหรับการประมาณค่าพารามิเตอร์ที่ไม่ทราบค่าและความไม่แน่นอนที่ประมาณไว้ ขึ้นอยู่กับการใช้งาน นี่อาจเป็นข้อเสียที่สำคัญหรือเล็กน้อยของการใช้ LOESS โดยเฉพาะอย่างยิ่ง รูปแบบที่เรียบง่ายของ LOESS ไม่สามารถใช้ได้กับการสร้างแบบจำลองเชิงกลที่พารามิเตอร์ที่ปรับให้เหมาะสมระบุคุณสมบัติทางกายภาพเฉพาะของระบบ

สุดท้ายนี้ ดังที่ได้กล่าวไว้ข้างต้น LOESS เป็นวิธีการที่ต้องใช้การคำนวณอย่างมาก (ยกเว้นข้อมูลที่มีระยะห่างเท่ากัน ซึ่งการถดถอยสามารถกำหนดเป็น ตัวกรอง การตอบสนองแบบอิมพัลส์จำกัด ที่ไม่เป็นเหตุเป็นผล ได้) นอกจากนี้ LOESS ยังมีแนวโน้มที่จะได้รับผลกระทบจากค่าผิดปกติในชุดข้อมูล เช่นเดียวกับวิธีการกำลังสองน้อยที่สุดอื่นๆ มี LOESS เวอร์ชัน ที่ทนทาน และทำซ้ำได้ [Cleveland (1979)] ที่สามารถใช้เพื่อลดความไวของ LOESS ต่อค่าผิดปกติได้แต่ค่าผิดปกติสุดขั้วจำนวนมากก็ยังสามารถเอาชนะวิธีการทนทานได้ แม้กระทั่งวิธีการดังกล่าว วิธีการถดถอยเฉพาะที่ที่ทนทานและไม่ทำซ้ำอื่นๆ ก็ได้รับการเสนอเช่นกัน[ 34 ]

อ่านเพิ่มเติม

หนังสือที่ครอบคลุมเนื้อหาเกี่ยวกับการถดถอยในระดับท้องถิ่นและการขยายตัว:

  • Macaulay (1931) "การปรับเรียบอนุกรมเวลา" [ 10 ]กล่าวถึงวิธีการแบ่งระดับด้วยบทต่างๆ ที่เกี่ยวข้องกับการปรับพหุนามเฉพาะที่
  • Katkovnik (1985) "การระบุและการปรับเรียบข้อมูลแบบไม่ใช้พารามิเตอร์" [ 17 ]ในภาษารัสเซีย
  • Fan และ Gijbels (1996) "การสร้างแบบจำลองพหุนามท้องถิ่นและการประยุกต์ใช้" [ 35 ]
  • Loader (1999) "การถดถอยท้องถิ่นและความน่าจะเป็น" [ 31 ]
  • Fotheringham, Brunsdon และ Charlton (2002), "การถดถอยแบบถ่วงน้ำหนักทางภูมิศาสตร์" [ 36 ] (การพัฒนาการถดถอยท้องถิ่นสำหรับข้อมูลเชิงพื้นที่)

บทต่างๆ ในหนังสือ, บทวิจารณ์:

  • "การปรับให้เรียบด้วยการถดถอยเฉพาะที่: หลักการและวิธีการ" [ 11 ]
  • "การถดถอยท้องถิ่นและความน่าจะเป็น" บทที่ 13 ของพลวัตสมองที่สังเกตได้ Mitra และ Bokil (2007) [ 37 ]
  • Rafael Irizarry , "การถดถอยเฉพาะที่" บทที่ 3 ของ "สถิติเชิงไม่พาราเมตริกประยุกต์และสถิติสมัยใหม่" [ 38 ]

ดูเพิ่มเติม

  • คู่มือสถิติทางวิศวกรรมของ NIST ส่วนที่เกี่ยวกับ LOESS
  • R: การปรับความเหมาะสมของการถดถอยพหุนามเฉพาะที่ฟังก์ชัน Loess ในR
  • R: การปรับเรียบแผนภาพกระจายจุดด้วยฟังก์ชัน Lowess ในR
  • ฟังก์ชัน supsmu (Friedman's SuperSmoother) ใน R
  • Quantile LOESS – วิธีการทำการถดถอยเชิงพื้นที่บน หน้าต่างเคลื่อนที่ แบบควอนไทล์ (พร้อมโค้ด R)
  • เนท ซิลเวอร์, ความคิดเห็นเกี่ยวกับการแต่งงานของเพศเดียวกันกำลังเปลี่ยนแปลงไปอย่างไร และนั่นหมายความว่าอย่างไร – ตัวอย่างการเปรียบเทียบ LOESS กับการถดถอยเชิงเส้น

สาธารณสมบัติ บทความนี้ได้นำเนื้อหาที่เป็นสาธารณสมบัติจากสถาบันมาตรฐานและเทคโนโลยีแห่งชาติ มาใช้

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Local_regression&oldid=1347836750 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การถดถอยในระดับท้องถิ่น

การถดถอยแบบโลคอล หรือ การถดถอยพหุนามแบบโลคอล [ 1 ] หรือ ที่รู้จักกันในชื่อ การถดถอยแบบเคลื่อนที่ [ 2 ] เป็นการ ขยาย ผลของ ค่าเฉลี่ยเคลื่อนที่ และ การถดถอยพหุนาม [ 3 ]...

ประวัติศาสตร์

การถดถอยแบบโลคอลและกระบวนการที่เกี่ยวข้องอย่างใกล้ชิดมีประวัติอันยาวนานและอุดมสมบูรณ์ โดยได้รับการค้นพบและค้นพบใหม่ในสาขาต่างๆ หลายครั้ง งานในช่วงแรกโดย Robert Henderson [ 8 ] ที่ศึกษาปัญหาการสำเร็จการศึกษา...

คำจำกัดความของแบบจำลอง

การถดถอยเฉพาะที่ (Local regression) ใช้ ชุดข้อมูล ที่ประกอบด้วยค่าสังเกต ตัวแปรอิสระหรือตัวแปรทำนายหนึ่งตัวหรือมากกว่า และตัวแปรตามหรือตัวแปรตอบสนอง ชุดข้อมูลจะประกอบด้วยค่าสังเกตจำนวนหนึ่ง...

การแสดงผลเมทริกซ์ของการประมาณการถดถอยเฉพาะที่

เช่นเดียวกับการประมาณค่ากำลังสองน้อยที่สุดทั้งหมด ค่าสัมประสิทธิ์การถดถอยที่ประมาณได้สามารถแสดงในรูปแบบปิดได้ (ดูรายละเอียดในหัวข้อ กำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก ): โดยที่เป็นเวกเตอร์ของค่าสัมประสิทธิ์การถดถอยเฉพาะที่; เป็น เมทริกซ์การออกแบบ ที่มีสมาชิก;...