เครื่องเรียนรู้ขั้นสูง

เครื่องจักรเรียนรู้แบบสุดขั้ว (Extreme Learning Machines: Extreme Learning Machines: EXML ) คือโครงข่ายประสาทเทียมแบบฟีดฟอร์เวิร์ดสำหรับการจำแนกประเภท การถดถอย การ จัดกลุ่ม การประมาณค่าแบบเบาบาง การบีบอัด และการเรียนรู้คุณลักษณะโดยมีโหนดซ่อนอยู่ชั้นเดียวหรือหลายชั้น ซึ่งพารามิเตอร์ของโหนดซ่อนอยู่ (ไม่ใช่แค่ค่าน้ำหนักที่เชื่อมต่ออินพุตกับโหนดซ่อนอยู่) จำเป็นต้องได้รับการปรับแต่ง โหนดซ่อนอยู่เหล่านี้สามารถกำหนดแบบสุ่มและไม่ได้รับการอัปเดต (กล่าวคือ เป็นการฉายภาพแบบสุ่มแต่มีการแปลงแบบไม่เชิงเส้น) หรือสามารถสืบทอดมาจากบรรพบุรุษโดยไม่เปลี่ยนแปลง ในกรณีส่วนใหญ่ ค่าน้ำหนักเอาต์พุตของโหนดซ่อนอยู่มักจะเรียนรู้ในขั้นตอนเดียว ซึ่งโดยพื้นฐานแล้วเทียบเท่ากับการเรียนรู้แบบจำลองเชิงเส้น

ชื่อ "เครื่องจักรการเรียนรู้สุดขีด" (ELM) ถูกตั้งให้กับแบบจำลองดังกล่าวโดย Guang-Bin Huang ซึ่งเสนอเครือข่ายที่มีโหนดซ่อนเร้นแบบไม่เชิงเส้นต่อเนื่องเป็นช่วงๆ ทุกประเภท รวมถึงเซลล์ประสาททางชีววิทยาและฟังก์ชันพื้นฐานทางคณิตศาสตร์ประเภทต่างๆ^{[ 1 ]}^{[ 2 ]}แนวคิดเกี่ยวกับเครือข่ายประสาทเทียมย้อนกลับไปถึงFrank Rosenblatt ซึ่งไม่เพียงแต่ตีพิมพ์ เพอร์เซปตรอนชั้นเดียวในปี 1958 ^{[ 3 ]}แต่ยังแนะนำเพอร์เซปตรอนหลายชั้นที่มี 3 ชั้น ได้แก่ ชั้นอินพุต ชั้นซ่อนเร้นที่มีน้ำหนักแบบสุ่มที่ไม่เรียนรู้ และชั้นเอาต์พุตที่เรียนรู้^{[ 4 ]}

ตามที่นักวิจัยบางคนกล่าวไว้ โมเดลเหล่านี้สามารถสร้างประสิทธิภาพการวางนัยทั่วไปที่ดีและเรียนรู้ได้เร็วกว่าเครือข่ายที่ฝึกฝนโดยใช้การแพร่กระจายย้อนกลับหลาย พันเท่า ^{[ 5 ]} ในวรรณกรรมยังแสดงให้เห็นว่าโมเดลเหล่านี้สามารถทำงานได้ดีกว่าเครื่องเวกเตอร์สนับสนุนทั้งในแอปพลิเคชันการจำแนกและการถดถอย^{[ 6 ]}^{[ 1 ]}^{[ 7 ]}

ประวัติศาสตร์

ตั้งแต่ปี 2001-2010 การวิจัย ELM มุ่งเน้นไปที่กรอบการเรียนรู้แบบรวมสำหรับโครงข่ายประสาทเทียมแบบฟีดฟอร์เวิร์ดชั้นซ่อนเดียว (SLFNs) ที่ "ทั่วไป" ซึ่งรวมถึงแต่ไม่จำกัดเพียงโครงข่ายซิกมอยด์ โครงข่าย RBF โครงข่ายเกณฑ์^{[ 8 ]}โครงข่ายตรีโกณมิติ ระบบอนุมานแบบฟัซซี อนุกรมฟูริเยร์^{[ 9 ]}^{[ 10 ]}การแปลงลาปลาเซียน โครงข่ายเวฟเล็ต^{[ 11 ]}เป็นต้น ความสำเร็จที่สำคัญอย่างหนึ่งที่เกิดขึ้นในช่วงปีเหล่านั้นคือการพิสูจน์ความสามารถในการประมาณค่าและการจำแนกประเภทแบบสากลของ ELM ในทางทฤษฎีได้สำเร็จ^{[ 9 ]}^{[ 12 ]}^{[ 13 ]}

ตั้งแต่ปี 2010 ถึง 2015 การวิจัย ELM ได้ขยายไปสู่กรอบการเรียนรู้แบบรวมสำหรับการเรียนรู้เคอร์เนล SVM และวิธีการเรียนรู้คุณลักษณะทั่วไปบางอย่าง เช่นการวิเคราะห์ส่วนประกอบหลัก (PCA) และการแยกตัวประกอบเมทริกซ์ที่ไม่เป็นลบ (NMF) พบว่า SVM ให้ผลลัพธ์ที่ไม่เหมาะสมเมื่อเทียบกับ ELM และ ELM สามารถให้การแมปเคอร์เนลแบบกล่องขาว ซึ่งดำเนินการโดยการแมปคุณลักษณะแบบสุ่มของ ELM แทนที่จะใช้เคอร์เนลแบบกล่องดำที่ใช้ใน SVM PCA และ NMF สามารถพิจารณาได้ว่าเป็นกรณีพิเศษที่ใช้โหนดซ่อนเชิงเส้นใน ELM ^{[ 14 ]}^{[ 15 ]}

ตั้งแต่ปี 2015 ถึง 2017 มีการให้ความสำคัญกับการนำ ELM ไปใช้ในเชิงลำดับชั้นมากขึ้น^{[ 16 ]}^{[ 17 ]}นอกจากนี้ ตั้งแต่ปี 2011 มีการศึกษาทางชีววิทยาที่สำคัญซึ่งสนับสนุนทฤษฎี ELM บางประการ^{[ 18 ]}^{[ 19 ]}^{[ 20 ]}

ตั้งแต่ปี 2017 เป็นต้นมา เพื่อเอาชนะปัญหาการบรรจบกันต่ำระหว่างการฝึกการแยกส่วน LU วิธี การแยกส่วน Hessenbergและการแยกส่วน QRที่ใช้การควบคุมความสม่ำเสมอเริ่มได้รับความสนใจ^{[ 21 ]}^{[ 22 ]}^{[ 23 ]}

ในปี 2017 Google Scholar Blog ได้เผยแพร่รายชื่อ "เอกสารคลาสสิก: บทความที่ผ่านการทดสอบของกาลเวลา" ^{[ 24 ]}ในจำนวนนี้มีเอกสารสองฉบับที่เขียนเกี่ยวกับ ELM ซึ่งแสดงอยู่ในงานวิจัยที่ 2 และ 7 จาก "รายชื่อเอกสาร AI คลาสสิก 10 ฉบับจากปี 2006" ^{[ 25 ]}^{[ 26 ]}^{[ 27 ]}

อัลกอริทึม

กำหนดให้ ELM มีเลเยอร์ซ่อนเพียงชั้นเดียว สมมติว่าฟังก์ชันเอาต์พุตของโหนดซ่อนที่ i คือโดยที่และเป็นพารามิเตอร์ของโหนดซ่อนที่ i ฟังก์ชันเอาต์พุตของ ELM สำหรับเครือข่ายฟีดฟอร์เวิร์ดเลเยอร์ซ่อนเดียว (SLFN) ที่มีโหนดซ่อน คือ: $i$ $h_{i}(\mathbf {x} )=G(\mathbf {a} _{i},b_{i},\mathbf {x} )$ $\mathbf {a} _{i}$ $b_{i}$ $i$ $L$

$f_{L}({\bf {x}})=\sum _{i=1}^{L}{\boldsymbol {\beta }}_{i}h_{i}({\bf {x}})$ โดยที่คือค่าน้ำหนักเอาต์พุตของโหนดซ่อนเร้นลำดับที่ ${\boldสัญลักษณ์ {\beta }__{i}$ $i$

$\mathbf {h} (\mathbf {x} )=[h_{1}(\mathbf {x} ),...,h_{L}(\mathbf {x} )]$ คือแผนที่แสดงผลลัพธ์ของเลเยอร์ที่ซ่อนอยู่ของ ELM เมื่อกำหนดตัวอย่างการฝึกอบรมแล้ว เมทริกซ์ผลลัพธ์ของเลเยอร์ที่ซ่อนอยู่ของ ELM จะมีค่าดังนี้: $N$ $\mathbf {H}$ ${\bf {H}}=\left[{\begin{matrix}{\bf {h}}({\bf {x}}_{1})\\\vdots \\{\bf {h}}({\bf {x}}_{N})\end{matrix}}\right]=\left[{\begin{matrix}G({\bf {a}}_{1},b_{1},{\bf {x}}_{1})&\cdots &G({\bf {a}}_{L},b_{L},{\bf {x}}_{1})\\\vdots &\vdots &\vdots \\G({\bf {a}}_{1},b_{1},{\bf {x}}_{N})&\cdots &G({\bf {a}}_{L},b_{L},{\bf {x}}_{N})\end{matrix}}\right]$

และนี่คือเมทริกซ์เป้าหมายข้อมูลการฝึกอบรม: $\mathbf {T}$ ${\bf {T}}=\left[{\begin{matrix}{\bf {t}}_{1}\\\vdots \\{\bf {t}}_{N}\end{matrix}}\right]$

โดยทั่วไป ELM เป็นโครงข่ายประสาทเทียมแบบปรับค่าความสม่ำเสมอชนิดหนึ่ง แต่มีแผนที่ชั้นซ่อนที่ไม่ได้รับการปรับแต่ง (สร้างขึ้นจากโหนดซ่อนแบบสุ่ม เคอร์เนล หรือการใช้งานอื่นๆ) โดยฟังก์ชันเป้าหมายของมันคือ:

${\text{Minimize: }}\|{\boldsymbol {\beta }}\|_{p}^{\sigma _{1}}+C\|{\bf {H}}{\boldsymbol {\beta }}-{\bf {T}}\|_{q}^{\sigma _{2}}$

ที่ไหน. $\sigma _{1}>0,\sigma _{2}>0,p,q=0,{\frac {1}{2}},1,2,\cdots ,+\infty$

สามารถใช้ การผสมผสานที่แตกต่างกันของ, , และซึ่งจะส่งผลให้เกิดอัลกอริธึมการเรียนรู้ที่แตกต่างกันสำหรับการถดถอย การจำแนกประเภท การเข้ารหัสแบบเบาบาง การบีบอัด การเรียนรู้คุณลักษณะ และการจัดกลุ่ม $\sigma _{1}$ $\sigma _{2}$ $p$ $q$

ในกรณีพิเศษ อัลกอริทึมการฝึก ELM ที่ง่ายที่สุดจะเรียนรู้แบบจำลองในรูปแบบ (สำหรับโครงข่ายประสาทเทียมแบบซิกมอยด์ที่มีชั้นซ่อนเพียงชั้นเดียว):

\mathbf {\hat {Y}} =\mathbf {W} _{2}\sigma (\mathbf {W} _{1}x)

โดยที่ $W 1$ คือเมทริกซ์ของน้ำหนักจากชั้นอินพุตไปยังชั้นซ่อนคือฟังก์ชันการกระตุ้น และ $W$ $2$ คือเมทริกซ์ของน้ำหนักจากชั้นซ่อนไปยังชั้นเอาต์พุต อัลกอริทึมดำเนินไปดังนี้: $\sigma$

เติม ค่าสุ่มลงใน $W 1$ (เช่นสัญญาณรบกวนสุ่มแบบเกาส์เซียน )
ประมาณค่า $W 2$ โดยใช้การปรับแบบกำลังสองน้อยที่สุดกับเมทริกซ์ของตัวแปรตอบสนอง $Y$ ซึ่งคำนวณโดยใช้ผกผันเทียม $\cdot +$ โดยกำหนดเมทริกซ์การออกแบบ $X$ :
$\mathbf {W} _{2}=\sigma (\mathbf {W} _{1}\mathbf {X} )^{+}\mathbf {Y}$

สถาปัตยกรรม

ในกรณีส่วนใหญ่ ELM ถูกใช้เป็นเครือข่ายฟีดฟอร์เวิร์ดชั้นซ่อนเดียว (SLFN) ซึ่งรวมถึงแต่ไม่จำกัดเพียงเครือข่ายซิกมอยด์ เครือข่าย RBF เครือข่ายเกณฑ์ เครือข่ายอนุมานแบบฟัซซี เครือข่ายประสาทที่ซับซ้อน เครือข่ายเวฟเล็ต การแปลงฟูริเยร์ การแปลงลาปลาเซียน เป็นต้น เนื่องจากมีการนำอัลกอริธึมการเรียนรู้ที่แตกต่างกันมาใช้สำหรับการถดถอย การจำแนกประเภท การเข้ารหัสแบบเบาบาง การบีบอัด การเรียนรู้คุณลักษณะ และการจัดกลุ่ม ELM หลายตัวจึงถูกนำมาใช้เพื่อสร้างเครือข่ายชั้นซ่อนหลายชั้นการเรียนรู้เชิงลึกหรือเครือข่ายแบบลำดับชั้น^{[ 16 ]}^{[ 17 ]}^{[ 28 ]}

โหนดที่ซ่อนอยู่ใน ELM คือองค์ประกอบการคำนวณ ซึ่งไม่จำเป็นต้องถือว่าเป็นเซลล์ประสาทแบบคลาสสิก โหนดที่ซ่อนอยู่ใน ELM อาจเป็นเซลล์ประสาทเทียมแบบคลาสสิก ฟังก์ชันพื้นฐาน หรือเครือข่ายย่อยที่สร้างขึ้นจากโหนดที่ซ่อนอยู่บางส่วน^{[ 12 ]}

ทฤษฎี

ความสามารถในการประมาณค่าสากลและการจำแนกประเภท^{[ 6 ]}^{[ 1 ]}ได้รับการพิสูจน์แล้วสำหรับ ELM ในเอกสาร โดยเฉพาะอย่างยิ่งGuang-Bin Huangและทีมงานของเขาใช้เวลาเกือบเจ็ดปี (2001-2008) ในการพิสูจน์ความสามารถในการประมาณค่าสากลของ ELM อย่างเข้มงวด^{[ 9 ]}^{[ 12 ]}^{[ 13 ]}

ความสามารถในการประมาณค่าสากล

ในทางทฤษฎี ฟังก์ชันต่อเนื่องเป็นช่วงๆ ที่ไม่คงที่ใดๆ สามารถใช้เป็นฟังก์ชันกระตุ้นในโหนดซ่อนของ ELM ได้ โดยฟังก์ชันกระตุ้นดังกล่าวไม่จำเป็นต้องเป็นฟังก์ชันเชิงอนุพันธ์ หากการปรับพารามิเตอร์ของโหนดซ่อนสามารถทำให้ SLFN ประมาณค่าฟังก์ชันเป้าหมายใดๆ ได้พารามิเตอร์ของโหนดซ่อนก็สามารถสร้างขึ้นแบบสุ่มตามความน่าจะเป็นของการแจกแจงแบบต่อเนื่องใดๆ และเป็นจริงด้วยความน่าจะเป็นหนึ่งเมื่อมีน้ำหนักเอาต์พุตที่เหมาะสม $f(\mathbf {x} )$ $\lim _{L\rightarrow \infty }\left\|\sum _{i=1}^{L}{\boldsymbol {\beta }}_{i}h_{i}({\bf {x}})-f({\bf {x}})\right\|=0$ ${\boldสัญลักษณ์ {\beta }}$

ความสามารถในการจำแนกประเภท

หากกำหนดให้ฟังก์ชันต่อเนื่องเป็นช่วงๆ ที่ไม่คงที่ใดๆ เป็นฟังก์ชันกระตุ้นใน SLFNs และการปรับพารามิเตอร์ของโหนดที่ซ่อนอยู่สามารถทำให้ SLFNs ประมาณค่าฟังก์ชันเป้าหมายใดๆ ได้SLFNs ที่มีการแมปเลเยอร์ที่ซ่อนอยู่แบบสุ่มก็สามารถแยกพื้นที่ที่ไม่ทับซ้อนกันใดๆ ที่มีรูปร่างใดๆ ก็ได้ $f(\mathbf {x} )$ $\mathbf {h} (\mathbf {x} )$

เซลล์ประสาท

ฟังก์ชันต่อเนื่องแบบแบ่งช่วงที่ไม่เป็นเชิงเส้นหลากหลายประเภทสามารถนำมาใช้ในเซลล์ประสาทที่ซ่อนอยู่ของ ELM ได้ ตัวอย่างเช่น: $G(\mathbf {a} ,b,\mathbf {x} )$

โดเมนจริง

ฟังก์ชันซิกมอยด์: $G(\mathbf {a} ,b,\mathbf {x} )={\frac {1}{1+\exp(-(\mathbf {a} \cdot \mathbf {x} +b))}}$

ฟังก์ชันฟูริเยร์: $G(\mathbf {a} ,b,\mathbf {x} )=\sin(\mathbf {a} \cdot \mathbf {x} +b)$

ฟังก์ชัน Hardlimit: $G(\mathbf {a} ,b,\mathbf {x} )={\begin{cases}1,&{\text{if }}{\bf {a}}\cdot {\bf {x}}-b\geq 0\\0,&{\text{otherwise}}\end{cases}}$

ฟังก์ชันเกาส์เซียน: $G(\mathbf {a} ,b,\mathbf {x} )=\exp(-b\|\mathbf {x} -\mathbf {a} \|^{2})$

ฟังก์ชันมัลติควอดริก: $G(\mathbf {a} ,b,\mathbf {x} )=(\|\mathbf {x} -\mathbf {a} \|^{2}+b^{2})^{1/2}$

เวฟเล็ต: โดยที่เป็นฟังก์ชันเวฟเล็ตแม่แบบเดี่ยว $G(\mathbf {a} ,b,\mathbf {x} )=\|a\|^{-1/2}\Psi \left({\frac {\mathbf {x} -\mathbf {a} }{b}}\right)$ $\Psi$

โดเมนที่ซับซ้อน

ฟังก์ชันวงกลม:

$\tan(z)={\frac {e^{iz}-e^{-iz}}{i(e^{iz}+e^{-iz})}}$

$\sin(z)={\frac {e^{iz}-e^{-iz}}{2i}}$

ฟังก์ชันผกผันแบบวงกลม:

$\arctan(z)=\int _{0}^{z}{\frac {dt}{1+t^{2}}}$

$\arccos(z)=\int _{0}^{z}{\frac {dt}{(1-t^{2})^{1/2}}}$

ฟังก์ชันไฮเปอร์โบลิก:

$\tanh(z)={\frac {e^{z}-e^{-z}}{e^{z}+e^{-z}}}$

$\sinh(z)={\frac {e^{z}-e^{-z}}{2}}$

ฟังก์ชันไฮเปอร์โบลิกผกผัน:

${\text{arctanh}}(z)=\int _{0}^{z}{\frac {dt}{1-t^{2}}}$

${\text{arcsinh}}(z)=\int _{0}^{z}{\frac {dt}{(1+t^{2})^{1/2}}}$

ความน่าเชื่อถือ

ลักษณะ กล่องดำของเครือข่ายประสาทเทียมโดยทั่วไปและเครื่องจักรการเรียนรู้แบบสุดขั้ว (ELM) โดยเฉพาะ เป็นหนึ่งในข้อกังวลหลักที่ทำให้วิศวกรไม่กล้านำไปประยุกต์ใช้ในงานอัตโนมัติที่ไม่ปลอดภัย ปัญหานี้ได้รับการแก้ไขด้วยเทคนิคต่างๆ หลายวิธี วิธีหนึ่งคือการลดการพึ่งพาอินพุตแบบสุ่ม^{[ 29 ]}^{[ 30 ]}อีกวิธีหนึ่งมุ่งเน้นไปที่การรวมข้อจำกัดแบบต่อเนื่องเข้ากับกระบวนการเรียนรู้ของ ELM ^{[ 31 ]}^{[ 32 ]}ซึ่งได้มาจากความรู้ก่อนหน้าเกี่ยวกับงานเฉพาะนั้นๆ ซึ่งเป็นเรื่องที่สมเหตุสมผล เนื่องจากโซลูชันการเรียนรู้ของเครื่องต้องรับประกันการทำงานที่ปลอดภัยในหลายๆ โดเมนการใช้งาน การศึกษาที่กล่าวถึงข้างต้นแสดงให้เห็นว่ารูปแบบพิเศษของ ELM ที่มีการแยกฟังก์ชันและน้ำหนักการอ่านค่าเชิงเส้น เหมาะอย่างยิ่งสำหรับการรวมข้อจำกัดแบบต่อเนื่องอย่างมีประสิทธิภาพในพื้นที่ที่กำหนดไว้ล่วงหน้าของพื้นที่อินพุต

ความขัดแย้ง

มีข้อร้องเรียนหลักสองประการจากชุมชนวิชาการเกี่ยวกับงานนี้ ประการแรกคือเรื่อง "การคิดค้นใหม่และเพิกเฉยต่อแนวคิดก่อนหน้า" ประการที่สองคือเรื่อง "การตั้งชื่อและการเผยแพร่ที่ไม่เหมาะสม" ดังที่แสดงให้เห็นในการอภิปรายบางประเด็นในปี 2551 และ 2558 ^{[ 33 ]}โดยเฉพาะอย่างยิ่ง มีการชี้ให้เห็นในจดหมาย^{[ 34 ]}ถึงบรรณาธิการของIEEE Transactions on Neural Networksว่าแนวคิดของการใช้เลเยอร์ที่ซ่อนอยู่ซึ่งเชื่อมต่อกับอินพุตโดยใช้น้ำหนักแบบสุ่มที่ไม่ได้ฝึกฝนนั้นได้รับการเสนอแนะไว้แล้วในเอกสารต้นฉบับเกี่ยวกับเครือข่าย RBFในช่วงปลายทศวรรษ 1980; Guang-Bin Huang ตอบกลับโดยชี้ให้เห็นถึงความแตกต่างเล็กน้อย^{[ 35 ]}ในบทความปี 2015 ^{[ 1 ]} Huang ได้ตอบโต้ข้อร้องเรียนเกี่ยวกับการคิดค้นชื่อ ELM สำหรับวิธีการที่มีอยู่แล้ว โดยบ่นถึง "ความคิดเห็นเชิงลบและไม่เป็นประโยชน์เกี่ยวกับ ELM ทั้งในเชิงวิชาการและเชิงวิชาชีพเนื่องจากเหตุผลและเจตนาต่างๆ" และ "การโจมตีแบบไม่ระบุชื่อที่ไร้ความรับผิดชอบซึ่งมีเจตนาที่จะทำลายสภาพแวดล้อมการวิจัยที่กลมกลืน" โดยโต้แย้งว่างานของเขา "ให้แพลตฟอร์มการเรียนรู้ที่เป็นหนึ่งเดียว" สำหรับโครงข่ายประสาทเทียมประเภทต่างๆ^{[ 1 ]}รวมถึง ELM ที่มีโครงสร้างแบบลำดับชั้น^{[ 28 ]}ในปี 2015 Huang ยังได้ให้คำโต้แย้งอย่างเป็นทางการต่อสิ่งที่เขาถือว่าเป็น "การใส่ร้ายและการโจมตี" ^{[ 36 ]}งานวิจัยล่าสุดได้แทนที่น้ำหนักแบบสุ่มด้วยน้ำหนักแบบสุ่มที่มีข้อจำกัด^{[ 6 ]}^{[ 37 ]}

โอเพนซอร์ส

ไลบรารี Matlab
ไลบรารี Python ^{[ 38 ]}

ดูเพิ่มเติม

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 7 ]

[ 8 ]

[ 10 ]

[ 11 ]

[ 14 ]

[ 15 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]