การถดถอยในระดับท้องถิ่น

การถดถอยแบบโลคอลหรือการถดถอยพหุนามแบบโลคอล [ ^{1 ] หรือ}ที่รู้จักกันในชื่อการถดถอยแบบเคลื่อนที่ [ 2 ^{]เป็นการขยาย}ผลของค่าเฉลี่ยเคลื่อนที่และการถดถอยพหุนาม^{[ 3 ]} วิธีการที่ใช้กันทั่วไปมากที่สุด ซึ่งพัฒนาขึ้นครั้งแรกสำหรับการปรับเรียบแผนภาพกระจายคือLOESS ( การปรับเรียบแผนภาพกระจายโดยประมาณแบบโล คอล ) และLOWESS ( การปรับเรียบแผนภาพกระจายแบบถ่วงน้ำหนักแบบ โล คอ ล ) ซึ่งทั้งสองคำออกเสียงว่า/ ˈ oʊ ɛ s / LOH -ess ทั้งสองเป็นวิธี การถดถอยแบบไม่ใช้พารามิเตอร์ที่เกี่ยวข้องกันอย่างมากซึ่งรวมแบบจำลองการถดถอยหลายแบบเข้าด้วยกันใน แบบจำลองเมตาแบบ k -nearest-neighborในบางสาขา LOESS เป็นที่รู้จักและเรียกกันทั่วไปว่าตัวกรอง Savitzky–Golay ^{[ 4 ]}^{[ 5 ]} (เสนอเมื่อ 15 ปีก่อน LOESS)

LOESS และ LOWESS จึงสร้างขึ้นบนพื้นฐานวิธีการ "แบบดั้งเดิม"เช่นการถดถอยกำลังสองน้อยที่สุด เชิงเส้นและไม่เชิงเส้น วิธีการเหล่านี้แก้ปัญหาในสถานการณ์ที่วิธีการแบบดั้งเดิมไม่ได้ผลดี หรือไม่สามารถนำไปใช้ได้อย่างมีประสิทธิภาพโดยไม่ต้องใช้ความพยายามมากเกินไป LOESS ผสมผสานความเรียบง่ายของการถดถอยกำลังสองน้อยที่สุดเชิงเส้นเข้ากับความยืดหยุ่นของการถดถอยไม่เชิงเส้นโดยการสร้างแบบจำลองอย่างง่ายให้กับชุดย่อยของข้อมูลเฉพาะที่ เพื่อสร้างฟังก์ชันที่อธิบายส่วนที่เป็นตัวกำหนดของความแปรผันในข้อมูลทีละจุด อันที่จริง หนึ่งในจุดเด่นหลักของวิธีนี้คือ นักวิเคราะห์ข้อมูลไม่จำเป็นต้องระบุฟังก์ชันโดยรวมในรูปแบบใดๆ เพื่อปรับแบบจำลองให้เข้ากับข้อมูล เพียงแต่ต้องปรับให้เข้ากับส่วนต่างๆ ของข้อมูลเท่านั้น

ข้อแลกเปลี่ยนสำหรับคุณสมบัติเหล่านี้คือการคำนวณที่เพิ่มขึ้น เนื่องจากต้องใช้การคำนวณอย่างมาก LOESS จึงแทบเป็นไปไม่ได้เลยที่จะนำมาใช้ในยุคที่กำลังพัฒนาวิธีการถดถอยกำลังสองน้อยที่สุด วิธีการสร้างแบบจำลองกระบวนการสมัยใหม่ส่วนใหญ่ก็คล้ายกับ LOESS ในแง่นี้ วิธีการเหล่านี้ได้รับการออกแบบมาอย่างตั้งใจเพื่อใช้ประโยชน์จากความสามารถในการคำนวณในปัจจุบันของเราอย่างเต็มที่ที่สุด เพื่อบรรลุเป้าหมายที่ทำได้ยากด้วยวิธีการแบบดั้งเดิม

เส้นโค้งเรียบที่ลากผ่านชุดจุดข้อมูลที่ได้จากเทคนิคทางสถิตินี้เรียกว่าเส้นโค้งโลเอสโดยเฉพาะอย่างยิ่งเมื่อค่าที่เรียบแต่ละค่าได้มาจากการถดถอยกำลังสองน้อยที่สุดแบบถ่วงน้ำหนักในช่วงค่าของ ตัวแปรเกณฑ์ของแผนภาพ กระจายแกนyเมื่อค่าที่เรียบแต่ละค่าได้มาจากการถดถอยกำลังสองน้อยที่สุดเชิงเส้นแบบถ่วงน้ำหนักในช่วงนี้ จะเรียกว่าเส้นโค้งโลเวสอย่างไรก็ตาม ผู้เชี่ยวชาญบางคนถือว่าโลเวสและโลเอสเป็นคำพ้องความหมาย^[⁶^]^[⁷^]

ประวัติศาสตร์

การถดถอยแบบโลคอลและกระบวนการที่เกี่ยวข้องอย่างใกล้ชิดมีประวัติอันยาวนานและอุดมสมบูรณ์ โดยได้รับการค้นพบและค้นพบใหม่ในสาขาต่างๆ หลายครั้ง งานในช่วงแรกโดยRobert Henderson ^{[ 8 ]}ที่ศึกษาปัญหาการสำเร็จการศึกษา (คำศัพท์สำหรับการปรับให้เรียบที่ใช้ในวรรณกรรมด้านคณิตศาสตร์ประกันภัย) ได้แนะนำการถดถอยแบบโลคอลโดยใช้พหุนามลูกบาศก์

โดยเฉพาะอย่างยิ่ง ให้แทนลำดับการสังเกตที่ยังไม่ได้ปรับระดับ ตามแนวคิดของเฮนเดอร์สัน สมมติว่าเฉพาะพจน์ตั้งแต่ถึง เท่านั้นที่จะถูกนำมาพิจารณาในการคำนวณค่าที่ปรับระดับแล้วของและคือค่าน้ำหนักที่จะกำหนดให้กับ จากนั้นเฮนเดอร์สันจะใช้การประมาณค่าพหุนามเฉพาะที่และตั้งสมการสี่สมการต่อไปนี้สำหรับสัมประสิทธิ์: $Y_{j}$ $Y_{-h}$ $Y_{h}$ $Y_{0}$ $W_{j}$ $Y_{j}$ $a+bj+cj^{2}+dj^{3}$

{\begin{aligned}\sum _{j=-h}^{h}(a+bj+cj^{2}+dj^{3})W_{j}&=\sum _{j=-h}^{h}W_{j}Y_{j}\\\sum _{j=-h}^{h}(aj+bj^{2}+cj^{3}+dj^{4})W_{j}&=\sum _{j=-h}^{h}jW_{j}Y_{j}\\\sum _{j=-h}^{h}(aj^{2}+bj^{3}+cj^{4}+dj^{5})W_{j}&=\sum _{j=-h}^{h}j^{2}W_{j}Y_{j}\\\sum _{j=-h}^{h}(aj^{3}+bj^{4}+cj^{5}+dj^{6})W_{j}&=\sum _{j=-h}^{h}j^{3}W_{j}Y_{j}\end{aligned}}

การแก้สมการเหล่านี้เพื่อหาค่าสัมประสิทธิ์ของพหุนามจะให้ค่าที่ไล่ระดับแล้ว นั่นคือ ${\hat {Y}}_{0}=a$

เฮนเดอร์สันไปไกลกว่านั้น ในช่วงหลายปีก่อนหน้านี้ มีการพัฒนาวิธีการแบ่งระดับแบบ 'สูตรผลรวม' หลายวิธี ซึ่งได้มาจากกฎการแบ่งระดับโดยอาศัยสูตรผลรวม (การสังเคราะห์อนุกรมของการสังเกตด้วยชุดน้ำหนักที่เลือก) กฎดังกล่าวสองข้อคือกฎ 15 จุดและ 21 จุดของสเปนเซอร์ (1904) ^{[ 9 ]}กฎการแบ่งระดับเหล่านี้ได้รับการออกแบบอย่างระมัดระวังเพื่อให้มีคุณสมบัติการสร้างแบบกำลังสอง: หากค่าที่ยังไม่ได้แบ่งระดับเป็นไปตามสูตรกำลังสองอย่างแม่นยำ ค่าที่แบ่งระดับแล้วจะเท่ากับค่าที่ยังไม่ได้แบ่งระดับ นี่เป็นคุณสมบัติที่สำคัญ: ในทางตรงกันข้าม ค่าเฉลี่ยเคลื่อนที่แบบง่ายไม่สามารถจำลองจุดสูงสุดและจุดต่ำสุดในข้อมูลได้อย่างเพียงพอ ความเข้าใจของเฮนเดอร์สันคือการแสดงให้เห็นว่า กฎการแบ่งระดับ ดังกล่าวสามารถแสดงได้เป็นค่าพอดีแบบลูกบาศก์ (หรือกำลังสอง) เฉพาะที่สำหรับการเลือกน้ำหนักที่เหมาะสม

การอภิปรายเพิ่มเติมเกี่ยวกับงานทางประวัติศาสตร์เกี่ยวกับการสำเร็จการศึกษาและการปรับพหุนามเฉพาะที่สามารถพบได้ในMacaulay (1931) ^{[ 10 ]} ClevelandและLoader (1995); ^{[ 11 ]}และMurrayและBellhouse (2019) ^{[ 12 ]}

ตัวกรอง Savitzky-Golayซึ่งแนะนำโดยAbraham SavitzkyและMarcel JE Golay (1964) ^{[ 13 ]}ได้ขยายวิธีการนี้อย่างมีนัยสำคัญ เช่นเดียวกับงานการไล่ระดับก่อนหน้านี้ พวกเขามุ่งเน้นไปที่ข้อมูลที่มีตัวแปรทำนายที่มีระยะห่างเท่ากัน ซึ่ง (ไม่รวมผลกระทบที่ขอบเขต) การถดถอยเฉพาะที่สามารถแสดงเป็นคอนโวลูชันได้ Savitzky และ Golay ได้เผยแพร่ชุดสัมประสิทธิ์คอนโวลูชันจำนวนมากสำหรับลำดับต่างๆ ของความกว้างของหน้าต่างพหุนามและหน้าต่างปรับเรียบ

วิธีการถดถอยเฉพาะที่เริ่มปรากฏให้เห็นอย่างแพร่หลายในวรรณกรรมทางสถิติในช่วงทศวรรษ 1970 ตัวอย่างเช่นCharles J. Stone (1977) ^{[ 14 ]} Vladimir Katkovnik (1979) ^{[ 15 ]}และWilliam S. Cleveland (1979) ^{[ 16 ]} Katkovnik (1985) ^{[ 17 ]}เป็นหนังสือเล่มแรกที่อุทิศให้กับวิธีการถดถอยเฉพาะที่เป็นหลัก

งานเชิงทฤษฎียังคงปรากฏออกมาอย่างต่อเนื่องตลอดช่วงทศวรรษ 1990 ผลงานสำคัญได้แก่Jianqing FanและIrène Gijbels (1992) ^{[ 18 ]}ที่ศึกษาคุณสมบัติประสิทธิภาพ และDavid RuppertและMatthew P. Wand (1994) ^{[ 19 ]}ที่พัฒนาทฤษฎีการกระจายแบบเชิงเส้นกำกับสำหรับการถดถอยเฉพาะที่แบบหลายตัวแปร

ส่วนขยายที่สำคัญของการถดถอยแบบโลคอลคือการประมาณค่าความน่าจะเป็นแบบโลคอล ซึ่งคิดค้นโดยRobert TibshiraniและTrevor Hastie (1987) ^{[ 20 ]}วิธีนี้แทนที่เกณฑ์กำลังสองน้อยที่สุดแบบโลคอลด้วยเกณฑ์ตามความน่าจะเป็น จึงขยายวิธีการถดถอยแบบโลคอลไปยัง การตั้ง ค่าแบบจำลองเชิงเส้นทั่วไปเช่น ข้อมูลไบนารี ข้อมูลการนับ หรือข้อมูลที่ถูกตัดทอน

การนำการถดถอยแบบโลคอลไปใช้ในทางปฏิบัติเริ่มปรากฏในซอฟต์แวร์ทางสถิติในช่วงทศวรรษ 1980 Cleveland (1981) ^{[ 21 ]}ได้แนะนำรูทีน LOWESS ซึ่งมีจุดประสงค์เพื่อปรับความเรียบของแผนภาพกระจาย รูทีนนี้ใช้การปรับแบบเชิงเส้นแบบโลคอลด้วยตัวแปรทำนายตัวเดียว และยังแนะนำการลดน้ำหนักความทนทานเพื่อให้กระบวนการนี้ทนต่อค่าผิดปกติ การใช้งานแบบใหม่ทั้งหมด LOESS ได้รับการอธิบายไว้ใน Cleveland และSusan J. Devlin (1988) ^{[ 22 ]} LOESS เป็นตัวปรับความเรียบแบบหลายตัวแปร สามารถจัดการกับข้อมูลเชิงพื้นที่ที่มีตัวแปรทำนายสองตัว (หรือมากกว่า) และใช้การปรับแบบกำลังสองแบบโลคอล (โดยค่าเริ่มต้น) ทั้ง LOWESS และ LOESS ถูกนำไปใช้ใน ภาษาการเขียนโปรแกรม SและRดูซอฟต์แวร์การปรับแบบโลคอลของ Cleveland เพิ่มเติม^{[ 23 ]}

แม้ว่าบางครั้งคำว่า Local Regression, LOWESS และ LOESS จะถูกใช้สลับกันได้ แต่การใช้งานเช่นนั้นถือว่าไม่ถูกต้อง Local Regression เป็นคำทั่วไปสำหรับกระบวนการปรับให้เหมาะสม ในขณะที่ LOWESS และ LOESS เป็นการนำไปใช้ที่แตกต่างกันสองแบบ

คำจำกัดความของแบบจำลอง

การถดถอยเฉพาะที่ (Local regression) ใช้ชุดข้อมูลที่ประกอบด้วยค่าสังเกต ตัวแปรอิสระหรือตัวแปรทำนายหนึ่งตัวหรือมากกว่า และตัวแปรตามหรือตัวแปรตอบสนอง ชุดข้อมูลจะประกอบด้วยค่าสังเกตจำนวนหนึ่ง ค่าสังเกตของตัวแปรทำนายสามารถแทนด้วยและค่าสังเกตที่สอดคล้องกันของตัวแปรตอบสนองสามารถแทนด้วย $n$ $x_{1},\ldots ,x_{n}$ $Y_{1},\ldots ,Y_{n}$

เพื่อความสะดวกในการนำเสนอ การพัฒนาต่อไปนี้จะถือว่ามีตัวแปรทำนายเพียงตัวเดียว การขยายไปสู่ตัวแปรทำนายหลายตัว (เมื่อเป็นเวกเตอร์) นั้นทำได้ง่ายในเชิงแนวคิด สมมติความสัมพันธ์เชิงฟังก์ชันระหว่างตัวแปรทำนายและตัวแปรตอบสนอง โดยที่คือฟังก์ชันการถดถอยแบบ 'เรียบ' ที่ไม่ทราบค่าที่จะต้องประมาณ และ แทนค่าคาดหวังแบบมีเงื่อนไขของตัวแปรตอบสนอง เมื่อกำหนดค่าของตัวแปรทำนาย ในงานทางทฤษฎี ความ 'เรียบ' ของฟังก์ชันนี้สามารถกำหนดลักษณะอย่างเป็นทางการได้โดยการกำหนดขอบเขตให้กับอนุพันธ์อันดับสูง แทนค่าความคลาดเคลื่อนแบบสุ่ม สำหรับวัตถุประสงค์ในการประมาณค่า จะถือว่าค่าเฉลี่ยเป็นศูนย์ อาจมีการตั้งสมมติฐานที่เข้มงวดกว่า (เช่นความเป็นอิสระและความแปรปรวน เท่ากัน ) เมื่อประเมินคุณสมบัติของการประมาณค่า $x_{i}$ $Y_{i}=\mu (x_{i})+\epsilon _{i}$ $\mu (x)$ $\epsilon _{i}$

จากนั้น การถดถอยเฉพาะที่ (Local regression) จะประมาณค่าฟังก์ชันโดยพิจารณาค่าของทีละค่า เนื่องจากถือว่าฟังก์ชันมีความเรียบ จุดข้อมูลที่มีประโยชน์มากที่สุดจึงเป็นจุดที่มีค่าใกล้เคียงกับ ซึ่ง กำหนดเป็นรูปทรงโดยใช้แบนด์วิดท์และเคอร์เนลหรือฟังก์ชันน้ำหนักโดยกำหนดค่าน้ำหนักให้กับข้อมูลแต่ละ ส่วน โดยทั่วไปแล้ว Cleveland เลือกใช้ค่า สำหรับ เป็นหลัก โดย มีค่า เท่ากับ สำหรับแม้ว่าฟังก์ชันที่คล้ายกันใดๆ (มีค่าสูงสุดที่และมีค่าน้อยหรือเป็น 0 สำหรับค่ามากของ) ก็สามารถใช้ได้เช่นกัน ส่วนคำถามเกี่ยวกับการเลือกและการกำหนดแบนด์วิดท์ (ควรมีขนาดใหญ่แค่ไหน และควรเปลี่ยนแปลงไปตามจุดที่เหมาะสมหรือไม่) นั้น จะกล่าวถึงในภายหลัง $\mu (x)$ $x$ $x_{i}$ $x$ $h$ $W(\cdot )$ $w_{i}(x)=W{\left({\frac {x_{i}-x}{h}}\right)}.$ $W$ $W(u)=(1-|u|^{3})^{3}$ $|u|<1$ $u=0$ $u$ $h$ $x$

แบบจำลองเฉพาะที่ (โดยปกติจะเป็นพหุนามลำดับต่ำที่มีดีกรี n ) ซึ่งแสดงเป็น จะถูกปรับให้เหมาะสมโดยใช้ วิธี ถ่วงน้ำหนักกำลังสองน้อยที่สุด : เลือกสัมประสิทธิ์การถดถอย เพื่อลดค่า ให้เหลือน้อย ที่สุด ค่าประมาณการถดถอยเฉพาะที่ของจึงเป็นเพียงค่าประมาณจุดตัดแกน: ในขณะที่สัมประสิทธิ์ที่เหลือสามารถตีความได้ (โดยมีปัจจัย n ไม่เกิน) เป็นค่าประมาณอนุพันธ์ $p\leq 3$ $\mu (x_{i})\approx \beta _{0}+\beta _{1}(x_{i}-x)+\ldots +\beta _{p}(x_{i}-x)^{p}$ $({\hat {\beta }}_{0},\ldots ,{\hat {\beta }}_{p})$ $\sum _{i=1}^{n}w_{i}(x)\left(Y_{i}-\beta _{0}-\beta _{1}(x_{i}-x)-\ldots -\beta _{p}(x_{i}-x)^{p}\right)^{2}.$ $\mu (x)$ ${\hat {\mu }}(x)={\hat {\beta }}_{0}$ $p!$

ควรเน้นย้ำว่าขั้นตอนข้างต้นให้ค่าประมาณสำหรับค่า เพียงค่าเดียวเท่านั้นเมื่อพิจารณาค่า ใหม่ จะต้องคำนวณ ชุดน้ำหนักใหม่และประมาณค่าสัมประสิทธิ์การถดถอยใหม่อีกครั้ง ${\hat {\mu }}(x)$ $x$ $x$ $w_{i}(x)$

การแสดงผลเมทริกซ์ของการประมาณการถดถอยเฉพาะที่

เช่นเดียวกับการประมาณค่ากำลังสองน้อยที่สุดทั้งหมด ค่าสัมประสิทธิ์การถดถอยที่ประมาณได้สามารถแสดงในรูปแบบปิดได้ (ดูรายละเอียดในหัวข้อ กำลังสองน้อยที่สุดแบบถ่วงน้ำหนัก ): โดยที่เป็นเวกเตอร์ของค่าสัมประสิทธิ์การถดถอยเฉพาะที่; เป็นเมทริกซ์การออกแบบที่มีสมาชิก; เป็นเมทริกซ์แนวทแยงของน้ำหนักการปรับเรียบ; และเป็นเวกเตอร์ของการตอบสนอง ${\hat {\boldsymbol {\beta }}}=\left(\mathbf {X^{\textsf {T}}WX} \right)^{-1}\mathbf {X^{\textsf {T}}W} \mathbf {y}$ ${\hat {\boldsymbol {\beta }}}$ $\mathbf {X}$ $n\times (p+1)$ $(x_{i}-x)^{j}$ $\mathbf {W}$ $w_{i}(x)$ $\mathbf {y}$ $Y_{i}$

การนำเสนอในรูปแบบเมทริกซ์นี้มีความสำคัญอย่างยิ่งสำหรับการศึกษาคุณสมบัติทางทฤษฎีของการประมาณค่าการถดถอยเฉพาะที่ ด้วยคำจำกัดความที่เหมาะสมของเมทริกซ์การออกแบบและเมทริกซ์น้ำหนัก มันสามารถขยายไปสู่การตั้งค่าตัวแปรทำนายหลายตัวได้ทันที

ประเด็นในการคัดเลือก: แบนด์วิดท์, โมเดลท้องถิ่น, เกณฑ์การปรับให้เหมาะสม

การนำการถดถอยเชิงพื้นที่ไปใช้ จำเป็นต้องมีการระบุและเลือกส่วนประกอบหลายอย่าง:

แบนด์วิดท์ และโดยทั่วไปแล้วคือชุดย่อยของข้อมูลเฉพาะที่
ระดับของพหุนามเฉพาะที่ หรือโดยทั่วไปแล้ว รูปแบบของแบบจำลองเฉพาะที่
การเลือกฟังก์ชันน้ำหนัก $W(\cdot )$
การเลือกเกณฑ์การปรับให้เหมาะสม (วิธีกำลังสองน้อยที่สุด หรือวิธีอื่น)

ส่วนประกอบแต่ละอย่างเหล่านี้ได้รับการศึกษาอย่างละเอียดถี่ถ้วนแล้ว โดยมีบทสรุปอยู่ด้านล่างนี้

ชุดข้อมูลย่อยเฉพาะที่; แบนด์วิดท์

แบนด์วิดท์ควบคุมความละเอียดของการประมาณค่าการถดถอยเฉพาะที่ หากhมีค่าน้อยเกินไป การประมาณค่าอาจแสดงคุณลักษณะที่มีความละเอียดสูงซึ่งแสดงถึงสัญญาณรบกวนในข้อมูล แทนที่จะเป็นโครงสร้างที่แท้จริงในฟังก์ชันค่าเฉลี่ย ในทางกลับกัน หากhมีค่ามากเกินไป การประมาณค่าจะแสดงเฉพาะคุณลักษณะที่มีความละเอียดต่ำ และโครงสร้างที่สำคัญอาจสูญหายไป นี่คือความสมดุลระหว่างความเอนเอียงและความแปรปรวนหากh มีค่าน้อยเกินไป การประมาณค่าจะแสดงความแปรปรวนมาก ในขณะที่หาก hมีค่ามากการประมาณค่าจะแสดงความเอนเอียงมาก $h$

ดังนั้น การเลือกแบนด์วิดท์อย่างระมัดระวังจึงมีความสำคัญอย่างยิ่งเมื่อใช้การถดถอยเฉพาะที่ วิธีการทางคณิตศาสตร์สำหรับการเลือกแบนด์วิดท์นั้น จำเป็นต้องมีเกณฑ์ที่เป็นทางการเพื่อประเมินประสิทธิภาพของการประมาณค่าก่อน เกณฑ์หนึ่งดังกล่าวคือ ข้อผิดพลาดในการทำนาย: หากมีการสังเกตใหม่ที่ ค่าประมาณนั้นสามารถทำนายการตอบสนองใหม่ได้ดีเพียงใด ${\tilde {x}}$ ${\hat {\mu }}({\tilde {x}})$ ${\tilde {Y}}$

ประสิทธิภาพมักถูกประเมินโดยใช้ฟังก์ชันความสูญเสียแบบกำลังสอง ค่าเฉลี่ยกำลังสองของความคลาดเคลื่อนในการทำนายคือ พจน์แรกคือความผันแปรแบบสุ่มของการสังเกต ซึ่งเป็นอิสระอย่างสมบูรณ์จากการประมาณการถดถอย เฉพาะที่ พจน์ที่สองคือค่าเฉลี่ยกำลังสองของความคลาดเคลื่อนในการประมาณค่า ความสัมพันธ์นี้แสดงให้เห็นว่า สำหรับความสูญเสียแบบกำลังสอง การลดความคลาดเคลื่อนในการทำนายและความคลาดเคลื่อนในการประมาณค่าเป็นปัญหาที่เทียบเท่ากัน ${\begin{aligned}\operatorname {E} \left[{\tilde {Y}}-{\hat {\mu }}({\tilde {x}})\right]^{2}&=\operatorname {E} \left[{\tilde {Y}}-\mu (x)+\mu (x)-{\hat {\mu }}({\tilde {x}})\right]^{2}\\&=\operatorname {E} \left[{\tilde {Y}}-\mu (x)\right]^{2}+\operatorname {E} \left[\mu (x)-{\hat {\mu }}({\tilde {x}})\right]^{2}.\end{aligned}}$ $E\left({\tilde {Y}}-\mu (x)\right)^{2}$ $\operatorname {E} \left[\mu (x)-{\hat {\mu }}({\tilde {x}})\right]^{2}$

ในการเลือกแบนด์วิดท์ทั่วโลก มาตรการเหล่านี้สามารถบูรณาการตลอดพื้นที่ ("ค่าเฉลี่ยความคลาดเคลื่อนกำลังสองแบบบูรณาการ" ซึ่งมักใช้ในงานเชิงทฤษฎี) หรือหาค่าเฉลี่ยจากค่าจริง(ซึ่งมีประโยชน์มากกว่าสำหรับการนำไปใช้ในทางปฏิบัติ) เทคนิคมาตรฐานบางอย่างจากการเลือกแบบจำลองสามารถปรับใช้กับการถดถอยเฉพาะที่ได้อย่างง่ายดาย: $x$ $x_{i}$

การตรวจสอบแบบไขว้ (Cross Validation ) ซึ่งเป็นการประมาณค่าความคลาดเคลื่อนในการทำนายแบบกำลังสองเฉลี่ย
ค่า Cp ของ Mallowและเกณฑ์สารสนเทศของ Akaikeซึ่งใช้ในการประมาณค่าความคลาดเคลื่อนกำลังสองเฉลี่ยของการประมาณค่า
วิธีการอื่นๆ ที่พยายามประมาณค่าความเอนเอียงและส่วนประกอบความแปรปรวนของข้อผิดพลาดในการประมาณค่าโดยตรง

เกณฑ์เหล่านี้สามารถลดให้น้อยที่สุดเพื่อสร้างตัวเลือกแบนด์วิดท์อัตโนมัติ Cleveland และ Devlin ^{[ 22 ]}นิยมใช้วิธีกราฟิก ( M -plot) เพื่อแสดงการแลกเปลี่ยนระหว่างอคติและความแปรปรวนและแนะนำการเลือกแบนด์วิดท์

คำถามหนึ่งที่ไม่ได้กล่าวถึงข้างต้นคือ แบนด์วิดท์ควรขึ้นอยู่กับจุดที่เหมาะสมอย่างไร? โดยทั่วไปจะใช้แบนด์วิดท์คงที่ ในขณะที่ LOWESS และ LOESS นิยมใช้แบนด์วิดท์แบบเพื่อนบ้านที่ใกล้ที่สุด ซึ่งหมายความว่าhจะมีขนาดเล็กกว่าในบริเวณที่มีจุดข้อมูลจำนวนมาก ในทางทฤษฎี พารามิเตอร์การปรับเรียบคือเศษส่วนของจำนวนจุดข้อมูลทั้งหมดnที่ใช้ในการปรับแบบโลคอลแต่ละครั้ง ชุดย่อยของข้อมูลที่ใช้ในการปรับแบบกำลังสองน้อยที่สุดแบบถ่วงน้ำหนักแต่ละครั้งจึงประกอบด้วยจุด (ปัดเศษเป็นจำนวนเต็มที่มากที่สุดถัดไป) ซึ่งค่าของตัวแปรอธิบายอยู่ใกล้กับจุดที่กำลังประมาณค่าการตอบสนองมากที่สุด^[⁷^] $x$ $\alpha$ $n\alpha$

วิธีการที่ซับซ้อนกว่านั้นพยายามเลือกแบนด์วิดท์แบบปรับเปลี่ยนได้กล่าวคือ เลือกแบนด์วิดท์ที่จุดปรับแต่ละจุดโดยใช้เกณฑ์ เช่น การตรวจสอบแบบไขว้ภายในหน้าต่างการปรับให้เรียบ ตัวอย่างแรกๆ ของเรื่องนี้คือ "supersmoother" ของJerome H. Friedman ^[²⁴^]ซึ่งใช้การตรวจสอบแบบไขว้เพื่อเลือกการปรับเชิงเส้นเฉพาะที่ในแบนด์วิดท์ที่แตกต่างกัน $x$

ระดับของพหุนามท้องถิ่น

แหล่งข้อมูลส่วนใหญ่ ทั้งในงานเชิงทฤษฎีและเชิงคำนวณ ใช้พหุนามลำดับต่ำเป็นแบบจำลองเฉพาะที่ โดยมีดีกรีของพหุนามตั้งแต่ 0 ถึง 3

แบบจำลองระดับ 0 (ค่าคงที่เฉพาะที่) เทียบเท่ากับตัวปรับเรียบเคอร์เนลซึ่งโดยทั่วไปแล้วได้รับการยกย่องให้เป็นผลงานของÈlizbar Nadaraya (1964) ^{[ 25 ]}และGS Watson (1964) ^{[ 26 ]}นี่เป็นแบบจำลองที่ง่ายที่สุดในการใช้งาน แต่สามารถประสบปัญหาจากอคติเมื่อปรับให้เข้ากับบริเวณใกล้ขอบของชุดข้อมูล

การปรับเส้นตรงเฉพาะที่ (ระดับ 1) สามารถลดอคติที่ขอบเขตได้อย่างมาก

ฟังก์ชันกำลังสองเฉพาะที่ (ดีกรี 2) และฟังก์ชันกำลังสามเฉพาะที่ (ดีกรี 3) สามารถส่งผลให้การปรับให้เข้ากับข้อมูลดีขึ้น โดยเฉพาะอย่างยิ่งเมื่อฟังก์ชันค่าเฉลี่ยพื้นฐานมีความโค้งมาก หรือเทียบเท่ากับอนุพันธ์อันดับสองที่มีค่ามาก $\mu (x)$

ในทางทฤษฎี พหุนามลำดับสูงกว่าสามารถนำไปสู่การลู่เข้าที่เร็วขึ้นของการประมาณค่าไปสู่ค่าเฉลี่ยที่แท้จริง ได้ หากพหุนามนั้นมีอนุพันธ์จำนวนมากพอ ดู CJ Stone (1980) ^[²⁷^]โดยทั่วไปแล้ว ต้องใช้ขนาดตัวอย่างที่ใหญ่มากจึงจะทำให้เกิดการลู่เข้าที่เร็วขึ้นได้ นอกจากนี้ยังมีปัญหาด้านการคำนวณและความเสถียรที่เกิดขึ้น โดยเฉพาะอย่างยิ่งสำหรับการปรับเรียบแบบหลายตัวแปร โดยทั่วไปแล้วไม่แนะนำให้ใช้พหุนามเฉพาะที่ที่มีดีกรีมากกว่า 3 ${\hat {\mu }}(x)$ $\mu (x)$ $\mu (x)$

เช่นเดียวกับการเลือกแบนด์วิดท์ วิธีการต่างๆ เช่น การตรวจสอบแบบไขว้ (cross-validation) สามารถนำมาใช้เพื่อเปรียบเทียบความเหมาะสมที่ได้จากพหุนามที่มีระดับต่างกันได้

ฟังก์ชันน้ำหนัก

ดังที่กล่าวมาข้างต้น ฟังก์ชันน้ำหนักจะให้น้ำหนักมากที่สุดกับจุดข้อมูลที่อยู่ใกล้จุดประมาณค่ามากที่สุด และให้น้ำหนักน้อยที่สุดกับจุดข้อมูลที่อยู่ไกลออกไป การใช้น้ำหนักนี้อยู่บนพื้นฐานของแนวคิดที่ว่า จุดที่อยู่ใกล้กันในพื้นที่ตัวแปรอธิบายมีแนวโน้มที่จะมีความสัมพันธ์กันในลักษณะที่ง่ายกว่าจุดที่อยู่ห่างกัน ตามตรรกะนี้ จุดที่มีแนวโน้มที่จะสอดคล้องกับแบบจำลองเฉพาะที่ได้ดีที่สุดจะมีอิทธิพลต่อค่าประมาณพารามิเตอร์ของแบบจำลองเฉพาะที่มากที่สุด จุดที่มีแนวโน้มที่จะไม่สอดคล้องกับแบบจำลองเฉพาะที่นั้นจะมีอิทธิพลต่อค่าประมาณพารามิเตอร์ของแบบจำลองเฉพาะที่ น้อย กว่า

Cleveland (1979) ^{[ 16 ]}กำหนดข้อกำหนดสี่ประการสำหรับฟังก์ชันน้ำหนัก:

ไม่เป็นลบ: สำหรับ. $W(x)>0$ $|x|<1$
ความสมมาตร: . $W(-x)=W(x)$
โมโนโทน: คือฟังก์ชันที่ไม่เพิ่มขึ้นสำหรับ $W(x)$ $x\geq 0$
ช่วงการรองรับที่จำกัด: สำหรับ. $W(x)=0$ $|x|\geq 1$

ประสิทธิภาพเชิงอะซิมโทติกของฟังก์ชันน้ำหนักได้รับการพิจารณาโดยVA Epanechnikov (1969) ^{[ 28 ]}ในบริบทของการประมาณความหนาแน่นเคอร์เนล; J. Fan (1993) ^{[ 29 ]}ได้ผลลัพธ์ที่คล้ายกันสำหรับการถดถอยเฉพาะที่ พวกเขาสรุปว่าเคอร์เนลกำลังสองมีประสิทธิภาพสูงสุดภายใต้ฟังก์ชันการสูญเสียข้อผิดพลาดกำลังสองเฉลี่ย ดู"ฟังก์ชันเคอร์เนลที่ใช้กันทั่วไป"สำหรับการอภิปรายเพิ่มเติมเกี่ยวกับเคอร์เนลต่างๆ และประสิทธิภาพของพวกมัน $W(x)=1-x^{2}$ $|x|\leq 1$

นอกจากค่า MSE แล้ว ปัจจัยอื่นๆ ก็มีความสำคัญต่อการเลือกฟังก์ชันน้ำหนักเช่นกัน คุณสมบัติความเรียบของฟังก์ชันส่งผลโดยตรงต่อความเรียบของการประมาณค่าโดยเฉพาะอย่างยิ่ง เคอร์เนลแบบกำลังสองไม่สามารถหาอนุพันธ์ได้ที่และส่งผลให้ไม่สามารถหาอนุพันธ์ได้เช่นกันฟังก์ชันน้ำหนักแบบไตรคิวบ์ถูก นำมาใช้ใน LOWESS และซอฟต์แวร์การถดถอยเฉพาะที่อื่นๆ ซึ่งรวมความสามารถในการหาอนุพันธ์ลำดับสูงเข้ากับประสิทธิภาพ MSE ที่สูง $W(x)$ ${\hat {\mu }}(x)$ $x=\pm 1$ ${\hat {\mu }}(x)$ $W(x)=(1-|x|^{3})^{3};|x|<1$

ข้อวิจารณ์ประการหนึ่งของฟังก์ชันน้ำหนักที่มีขอบเขตจำกัดคือ อาจนำไปสู่ปัญหาทางตัวเลข (เช่น เมทริกซ์การออกแบบที่ไม่เสถียรหรือเป็นเมทริกซ์เอกฐาน) เมื่อทำการปรับให้เข้ากับบริเวณที่มีข้อมูลน้อย ด้วยเหตุนี้ ผู้เขียนบางคนจึงเลือกใช้เคอร์เนลแบบเกาส์เซียน หรือบางคนก็เลือกใช้แบบที่ไม่มีขอบเขตจำกัด

การเลือกเกณฑ์ความเหมาะสม

ดังที่กล่าวมาข้างต้น การถดถอยแบบโลคอลใช้เกณฑ์กำลังสองน้อยที่สุดแบบถ่วงน้ำหนักเฉพาะที่เพื่อประมาณค่าพารามิเตอร์การถดถอย วิธีนี้สืบทอดข้อดีหลายประการ (ง่ายต่อการใช้งานและการตีความ คุณสมบัติที่ดีเมื่อค่าความคลาดเคลื่อนมีการกระจายแบบปกติ) และข้อเสีย (ความไวต่อค่าสุดขั้วและค่าผิดปกติ ประสิทธิภาพต่ำเมื่อค่าความคลาดเคลื่อนมีความแปรปรวนไม่เท่ากันหรือไม่ได้มีการกระจายแบบปกติ) ที่มักเกี่ยวข้องกับการถดถอยแบบกำลังสองน้อยที่สุด

ข้อเสียเหล่านี้สามารถแก้ไขได้โดยการแทนที่การประมาณค่ากำลังสองน้อยที่สุดในระดับท้องถิ่นด้วยวิธีอื่น แนวคิดสองประการที่นำเสนอในที่นี้ ได้แก่ การประมาณค่าความน่าจะเป็นในระดับท้องถิ่น ซึ่งใช้การประมาณค่าในระดับท้องถิ่นกับแบบจำลองเชิงเส้นทั่วไป และการถดถอยในระดับท้องถิ่นที่ทนทาน ซึ่งเป็นการปรับวิธีการจาก การถดถอยที่ทนทานให้เข้ากับระดับท้องถิ่น

การประมาณความน่าจะเป็นในระดับท้องถิ่น

ในการประมาณค่าความน่าจะเป็นเฉพาะที่ ซึ่งพัฒนาโดย Tibshirani และ Hastie (1987) ^{[ 20 ]}ถือว่า การสังเกตการณ์ มาจากตระกูลการแจกแจงแบบพาราเมตริก โดยมีฟังก์ชันความหนาแน่นความน่าจะเป็นที่ทราบ (หรือฟังก์ชันมวล สำหรับข้อมูลแบบไม่ต่อเนื่อง) โดยที่ฟังก์ชันพารามิเตอร์เป็นปริมาณที่ไม่ทราบค่าที่จะต้องประมาณค่า ในการประมาณค่าณ จุดใดจุดหนึ่งเกณฑ์ความน่าจะเป็นเฉพาะที่คือ การประมาณค่าสัมประสิทธิ์การถดถอย (โดยเฉพาะ) ได้มาจากการเพิ่มค่าเกณฑ์ความน่าจะเป็นเฉพาะที่ให้สูงสุด และการประมาณค่าความน่าจะเป็นเฉพาะที่คือ $Y_{i}$ $Y_{i}\sim f(y,\theta (x_{i})),$ $\theta (x)$ $\theta (x)$ $x$ $\sum _{i=1}^{n}w_{i}(x)\log \left[f{\left(Y_{i},\beta _{0}+\beta _{1}(x_{i}-x)+\dots +\beta _{p}\left(x_{i}-x\right)^{p}\right)}\right].$ ${\hat {\beta }}_{0}$ ${\hat {\theta }}(x)={\hat {\beta }}_{0}.$

เมื่อเป็นการแจกแจงแบบปกติและคือฟังก์ชันค่าเฉลี่ย วิธีความน่าจะเป็นเฉพาะที่จะลดลงเหลือเพียงการถดถอยกำลังสองน้อยที่สุดเฉพาะที่แบบมาตรฐาน สำหรับตระกูลความน่าจะเป็นอื่นๆ (โดยปกติ) จะไม่มีคำตอบในรูปแบบปิดสำหรับการประมาณค่าความน่าจะเป็นเฉพาะที่ และต้องใช้วิธีการวนซ้ำ เช่นกำลังสองน้อยที่สุดแบบถ่วงน้ำหนักซ้ำเพื่อคำนวณค่าประมาณ $f(y,\theta (x))$ $\theta (x)$

ตัวอย่าง (การถดถอยโลจิสติกเฉพาะที่) ค่าสังเกตการตอบสนองทั้งหมดเป็น 0 หรือ 1 และฟังก์ชันค่าเฉลี่ยคือความน่าจะเป็นของ "ความสำเร็จ" เนื่องจากต้องอยู่ระหว่าง 0 และ 1 จึงไม่ควรใช้แบบจำลองพหุนามเฉพาะที่ โดยตรง แต่ สามารถใช้ การแปลงโลจิสติก แทนได้ และฟังก์ชันมวลคือ $\mu (x_{i})=\Pr(Y_{i}=1|x_{i})$ $\mu (x_{i})$ $\mu (x)$ $\theta (x)=\log \left({\frac {\mu (x)}{1-\mu (x)}}\right)$ ${\begin{aligned}1-\mu (x)&={\frac {1}{1+e^{\theta (x)}}};\\\mu (x)&={\frac {e^{\theta (x)}}{1+e^{\theta (x)}}}\end{aligned}}$ $f(Y_{i},\theta (x_{i}))={\frac {e^{Y_{i}\theta (x_{i})}}{1+e^{\theta (x_{i})}}}.$

ทฤษฎีเชิงอะซิมโทติกสำหรับการประมาณความน่าจะเป็นเฉพาะที่ได้รับการพัฒนาใน J. Fan, Nancy E. Heckmanและ MPWand (1995); ^{[ 30 ]}หนังสือ Loader (1999) ^{[ 31 ]}กล่าวถึงการประยุกต์ใช้ความน่าจะเป็นเฉพาะที่อีกมากมาย

การถดถอยเฉพาะที่ที่แข็งแกร่ง

เพื่อจัดการกับความไวต่อค่าผิดปกติสามารถใช้ เทคนิคจาก การถดถอยที่แข็งแกร่งได้ ใน การประมาณค่า M ในระดับท้องถิ่น เกณฑ์กำลังสองน้อยที่สุดในระดับท้องถิ่นจะถูกแทนที่ด้วยเกณฑ์ในรูปแบบ ที่เป็นฟังก์ชันความแข็งแกร่ง และเป็นพารามิเตอร์มาตราส่วน การอภิปรายเกี่ยวกับข้อดีข้อเสียของการเลือกฟังก์ชันความแข็งแกร่งที่แตกต่างกันนั้นควรปล่อยให้เป็นหน้าที่ของ เอกสาร การถดถอยที่แข็งแกร่งพารามิเตอร์มาตราส่วนจะต้องได้รับการประมาณค่าด้วยเช่นกัน เอกสารอ้างอิงสำหรับการประมาณค่า M ในระดับท้องถิ่น ได้แก่ Katkovnik (1985) ^[¹⁷^]และAlexandre Tsybakov (1986) ^[³²^] $\sum _{i=1}^{n}w_{i}(x)\,\rho {\left({\frac {Y_{i}-\beta _{0}-\dots -\beta _{p}(x_{i}-x)^{p}}{s}}\right)}$ $\rho (\cdot )$ $s$ $s$

การวนซ้ำความทนทานใน LOWESS และ LOESS สอดคล้องกับฟังก์ชันความทนทานที่กำหนดโดย และการประมาณค่าทั่วโลกที่ทนทานของพารามิเตอร์มาตราส่วน $\rho '(u)=u(1-u^{2}/6)^{2};|u|<1$

ถ้าเกณฑ์ ท้องถิ่น จะส่งผลให้เกิดสิ่งนี้ ซึ่งไม่จำเป็นต้องใช้พารามิเตอร์มาตราส่วน เมื่อเกณฑ์นี้จะถูกทำให้น้อยที่สุดโดยค่ามัธยฐานที่ถ่วงน้ำหนักในระดับท้องถิ่นการถดถอยในระดับท้องถิ่นสามารถตีความได้ว่าเป็นการประมาณค่ามัธยฐานแทนที่จะเป็นค่าเฉลี่ยของการตอบสนอง ถ้าฟังก์ชันการสูญเสียเบี่ยงเบน สิ่งนี้จะกลายเป็นการถดถอยควอนไทล์ในระดับท้องถิ่น ดูKeming YuและMC Jones (1998) ^[³³^] $\rho (u)=|u|$ $L_{1}$ $\sum _{i=1}^{n}w_{i}(x)\left|Y_{i}-\beta _{0}-\ldots -\beta _{p}(x_{i}-x)^{p}\right|$ $p=0$ $L_{1}$

ทางเลือกใหม่ล่าสุดคือการปรับเปลี่ยนน้ำหนักการถดถอยเฉพาะที่แทนที่จะเป็นฟังก์ชันการสูญเสีย Shulman (2025) เสนอการถดถอยพหุนามเฉพาะที่ที่แข็งแกร่งด้วยเคอร์เนลความคล้ายคลึงกันซึ่งการถ่วงน้ำหนักเคอร์เนลได้รับการขยายให้ครอบคลุมทั้งตัวแปรทำนายและตัวแปรตอบสนอง ในเวอร์ชันหนึ่ง เกณฑ์กำลังสองน้อยที่สุดเฉพาะที่จะถูกถ่วงน้ำหนักใหม่โดยการประมาณความหนาแน่นแบบมีเงื่อนไขเพื่อให้การสังเกตที่มีความหนาแน่นแบบมีเงื่อนไขเฉพาะที่ที่ประมาณไว้ต่ำมีน้ำหนักลดลง วิธีนี้ให้ความแข็งแกร่งต่อค่าผิดปกติและจุดที่มีเลเวอเรจสูงโดยไม่ต้องใช้การวนซ้ำความแข็งแกร่งหลายครั้งที่ใช้ในวิธีการต่างๆ เช่น LOWESS และ LOESS ^[³⁴^] ${\hat {f}}_{Y\mid X}(Y_{i}\mid X_{i})$

ข้อดี

ดังที่กล่าวมาข้างต้น ข้อได้เปรียบที่สำคัญที่สุดของ LOESS เมื่อเทียบกับวิธีการอื่นๆ คือ กระบวนการปรับแบบจำลองให้เข้ากับข้อมูลตัวอย่างไม่ได้เริ่มต้นด้วยการกำหนดฟังก์ชัน แต่ผู้ทำการวิเคราะห์เพียงแค่ต้องระบุค่าพารามิเตอร์การปรับเรียบและระดับของพหุนามเฉพาะที่เท่านั้น นอกจากนี้ LOESS ยังมีความยืดหยุ่นสูง ทำให้เหมาะสำหรับการสร้างแบบจำลองกระบวนการที่ซับซ้อนซึ่งไม่มีแบบจำลองทางทฤษฎีอยู่ ข้อได้เปรียบทั้งสองประการนี้ เมื่อรวมกับความเรียบง่ายของวิธีการ ทำให้ LOESS เป็นหนึ่งในวิธีการถดถอยสมัยใหม่ที่น่าสนใจที่สุดสำหรับการใช้งานที่เข้ากับกรอบทั่วไปของการถดถอยกำลังสองน้อยที่สุด แต่มีโครงสร้างเชิงกำหนดที่ซับซ้อน

แม้ว่าจะไม่ชัดเจนเท่ากับวิธีการอื่นๆ ที่เกี่ยวข้องกับการถดถอยกำลังสองน้อยที่สุดเชิงเส้น แต่ LOESS ก็มีข้อดีส่วนใหญ่ที่วิธีการเหล่านั้นมักมีร่วมกัน ข้อดีที่สำคัญที่สุดคือทฤษฎีสำหรับการคำนวณความไม่แน่นอนในการทำนายและการปรับเทียบ นอกจากนี้ การทดสอบและขั้นตอนอื่นๆ ที่ใช้ในการตรวจสอบความถูกต้องของแบบจำลองกำลังสองน้อยที่สุดก็สามารถขยายไปใช้กับแบบจำลอง LOESS ได้เช่นกัน

ข้อเสีย

LOESS ใช้ข้อมูลอย่างมีประสิทธิภาพน้อยกว่าวิธีการกำลังสองน้อยที่สุดอื่นๆ จำเป็นต้องใช้ชุดข้อมูลขนาดใหญ่และมีการสุ่มตัวอย่างอย่างหนาแน่นเพื่อให้ได้แบบจำลองที่ดี เนื่องจาก LOESS อาศัยโครงสร้างข้อมูลเฉพาะที่เมื่อทำการปรับให้เข้ากับข้อมูลเฉพาะที่ ดังนั้น LOESS จึงให้การวิเคราะห์ข้อมูลที่ซับซ้อนน้อยกว่า แต่แลกมาด้วยต้นทุนการทดลองที่สูงกว่า^{[ 7 ]}

ข้อเสียอีกประการหนึ่งของ LOESS คือการที่มันไม่สร้างฟังก์ชันการถดถอยที่สามารถแสดงด้วยสูตรทางคณิตศาสตร์ได้อย่างง่ายดาย ซึ่งอาจทำให้การถ่ายทอดผลการวิเคราะห์ไปยังผู้อื่นทำได้ยาก ในการถ่ายทอดฟังก์ชันการถดถอยไปยังผู้อื่น พวกเขาจะต้องมีชุดข้อมูลและซอฟต์แวร์สำหรับการคำนวณ LOESS ในทางกลับกัน ในการถดถอยแบบไม่เชิงเส้นนั้น เพียงแค่เขียนรูปแบบฟังก์ชันก็เพียงพอแล้วสำหรับการประมาณค่าพารามิเตอร์ที่ไม่ทราบค่าและความไม่แน่นอนที่ประมาณไว้ ขึ้นอยู่กับการใช้งาน นี่อาจเป็นข้อเสียที่สำคัญหรือเล็กน้อยของการใช้ LOESS โดยเฉพาะอย่างยิ่ง รูปแบบที่เรียบง่ายของ LOESS ไม่สามารถใช้ได้กับการสร้างแบบจำลองเชิงกลที่พารามิเตอร์ที่ปรับให้เหมาะสมระบุคุณสมบัติทางกายภาพเฉพาะของระบบ

สุดท้ายนี้ ดังที่ได้กล่าวไว้ข้างต้น LOESS เป็นวิธีการที่ต้องใช้การคำนวณอย่างมาก (ยกเว้นข้อมูลที่มีระยะห่างเท่ากัน ซึ่งการถดถอยสามารถกำหนดเป็น ตัวกรอง การตอบสนองแบบอิมพัลส์จำกัด ที่ไม่เป็นเหตุเป็นผล ได้) นอกจากนี้ LOESS ยังมีแนวโน้มที่จะได้รับผลกระทบจากค่าผิดปกติในชุดข้อมูล เช่นเดียวกับวิธีการกำลังสองน้อยที่สุดอื่นๆ มี LOESS เวอร์ชัน ที่ทนทาน และทำซ้ำได้ [Cleveland (1979)] ที่สามารถใช้เพื่อลดความไวของ LOESS ต่อค่าผิดปกติได้แต่ค่าผิดปกติสุดขั้วจำนวนมากก็ยังสามารถเอาชนะวิธีการทนทานได้ แม้กระทั่งวิธีการดังกล่าว วิธีการถดถอยเฉพาะที่ที่ทนทานและไม่ทำซ้ำอื่นๆ ก็ได้รับการเสนอเช่นกัน^{[ 34 ]}

อ่านเพิ่มเติม

หนังสือที่ครอบคลุมเนื้อหาเกี่ยวกับการถดถอยในระดับท้องถิ่นและการขยายตัว:

Macaulay (1931) "การปรับเรียบอนุกรมเวลา" ^{[ 10 ]}กล่าวถึงวิธีการแบ่งระดับด้วยบทต่างๆ ที่เกี่ยวข้องกับการปรับพหุนามเฉพาะที่
Katkovnik (1985) "การระบุและการปรับเรียบข้อมูลแบบไม่ใช้พารามิเตอร์" ^{[ 17 ]}ในภาษารัสเซีย
Fan และ Gijbels (1996) "การสร้างแบบจำลองพหุนามท้องถิ่นและการประยุกต์ใช้" ^{[ 35 ]}
Loader (1999) "การถดถอยท้องถิ่นและความน่าจะเป็น" ^{[ 31 ]}
Fotheringham, Brunsdon และ Charlton (2002), "การถดถอยแบบถ่วงน้ำหนักทางภูมิศาสตร์" ^{[ 36 ]} (การพัฒนาการถดถอยท้องถิ่นสำหรับข้อมูลเชิงพื้นที่)

บทต่างๆ ในหนังสือ, บทวิจารณ์:

"การปรับให้เรียบด้วยการถดถอยเฉพาะที่: หลักการและวิธีการ" ^{[ 11 ]}
"การถดถอยท้องถิ่นและความน่าจะเป็น" บทที่ 13 ของพลวัตสมองที่สังเกตได้ Mitra และ Bokil (2007) ^{[ 37 ]}
Rafael Irizarry , "การถดถอยเฉพาะที่" บทที่ 3 ของ "สถิติเชิงไม่พาราเมตริกประยุกต์และสถิติสมัยใหม่" ^{[ 38 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

คู่มือสถิติทางวิศวกรรมของ NIST ส่วนที่เกี่ยวกับ LOESS
R: การปรับความเหมาะสมของการถดถอยพหุนามเฉพาะที่ฟังก์ชัน Loess ในR
R: การปรับเรียบแผนภาพกระจายจุดด้วยฟังก์ชัน Lowess ในR
ฟังก์ชัน supsmu (Friedman's SuperSmoother) ใน R
Quantile LOESS – วิธีการทำการถดถอยเชิงพื้นที่บน หน้าต่างเคลื่อนที่ แบบควอนไทล์ (พร้อมโค้ด R)
เนท ซิลเวอร์, ความคิดเห็นเกี่ยวกับการแต่งงานของเพศเดียวกันกำลังเปลี่ยนแปลงไปอย่างไร และนั่นหมายความว่าอย่างไร – ตัวอย่างการเปรียบเทียบ LOESS กับการถดถอยเชิงเส้น

บทความนี้ได้นำเนื้อหาที่เป็นสาธารณสมบัติจากสถาบันมาตรฐานและเทคโนโลยีแห่งชาติ มาใช้

1 ] หรือ

]เป็นการขยาย

[ 3 ]

[ 4 ]

[ 5 ]

[

[

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[

[ 25 ]

[ 26 ]

[

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[

[

[

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]