การกลั่นกรองความรู้

ใน การเรียนรู้ ของเครื่องการกลั่นความรู้หรือการกลั่นแบบจำลองคือกระบวนการถ่ายโอนความรู้จากแบบจำลอง ขนาดใหญ่ ไปยังแบบจำลองขนาดเล็ก ในขณะที่แบบจำลองขนาดใหญ่ (เช่นเครือข่ายประสาทเทียมที่ลึก มาก หรือกลุ่มของแบบจำลองจำนวนมาก) มีความจุความรู้มากกว่าแบบจำลองขนาดเล็ก แต่ความจุนี้อาจไม่ได้ถูกใช้ประโยชน์อย่างเต็มที่ การประเมินแบบจำลองอาจมีค่าใช้จ่ายในการคำนวณสูงเท่ากันแม้ว่าจะใช้ความจุความรู้เพียงเล็กน้อยก็ตาม การกลั่นความรู้จะถ่ายโอนความรู้จากแบบจำลองขนาดใหญ่ไปยังแบบจำลองขนาดเล็กโดยไม่สูญเสียความถูกต้องเนื่องจากแบบจำลองขนาดเล็กมีค่าใช้จ่ายในการประเมินน้อยกว่า จึงสามารถใช้งานบนฮาร์ดแวร์ที่มีประสิทธิภาพน้อยกว่า (เช่นอุปกรณ์เคลื่อนที่ ) ได้^{[ 1 ]}

นอกจากนี้ยังมีเทคนิคที่พบได้น้อยกว่าที่เรียกว่าการกลั่นความรู้แบบย้อนกลับซึ่งเป็นการถ่ายโอนความรู้จากแบบจำลองขนาดเล็กไปยังแบบจำลองขนาดใหญ่^{[ 2 ]}

การกลั่นกรองโมเดล (Model distillation) ไม่ควรสับสนกับการบีบอัดโมเดล (Model compression ) ซึ่งหมายถึงวิธีการลดขนาดของโมเดลขนาดใหญ่โดยไม่ต้องฝึกโมเดลใหม่ การบีบอัดโมเดลโดยทั่วไปจะรักษาโครงสร้างและจำนวนพารามิเตอร์ตามชื่อของโมเดลไว้ ในขณะที่ลดจำนวนบิตต่อพารามิเตอร์ลง

การกลั่นความรู้ได้รับการนำไปใช้สำเร็จในแอปพลิเคชันการเรียนรู้ของเครื่องหลายอย่าง เช่นการตรวจจับวัตถุ [ ^{3 ] โมเดล} เสียง[ ^{4 ] และ}การประมวลผลภาษาธรรมชาติ^{[ 5 ]} เมื่อเร็วๆ นี้ ยังมีการนำมาใช้กับเครือข่ายประสาทกราฟที่สามารถนำไปใช้กับข้อมูลที่ไม่ใช่กริดได้ อีกด้วย ^{[ 6 ]}

วิธีการ

การถ่ายทอดความรู้จากแบบจำลองขนาดใหญ่ไปยังแบบจำลองขนาดเล็กจำเป็นต้องสอนแบบจำลองขนาดเล็กโดยไม่สูญเสียความถูกต้อง หากแบบจำลองทั้งสองได้รับการฝึกฝนด้วยข้อมูลชุดเดียวกัน แบบจำลองขนาดเล็กอาจมีความสามารถในการเรียนรู้การแสดงความรู้ที่กระชับ ไม่เพียงพอ เมื่อเทียบกับแบบจำลองขนาดใหญ่ อย่างไรก็ตาม ข้อมูลบางส่วนเกี่ยวกับการแสดงความรู้ที่กระชับนั้นถูกเข้ารหัสไว้ในความน่าจะเป็นเทียมที่กำหนดให้กับเอาต์พุต: เมื่อแบบจำลองทำนายคลาสได้อย่างถูกต้อง แบบจำลองจะกำหนดค่ามากให้กับตัวแปรเอาต์พุตที่สอดคล้องกับคลาสนั้น และค่าที่น้อยกว่าให้กับตัวแปรเอาต์พุตอื่นๆ การกระจายของค่าในเอาต์พุตสำหรับเรคอร์ดจะให้ข้อมูลเกี่ยวกับวิธีที่แบบจำลองขนาดใหญ่แสดงความรู้ ดังนั้น เป้าหมายของการใช้งานแบบจำลองที่ถูกต้องอย่างประหยัดสามารถบรรลุได้โดยการฝึกฝนแบบจำลองขนาดใหญ่กับข้อมูลเท่านั้น ใช้ประโยชน์จากความสามารถที่ดีกว่าในการเรียนรู้การแสดงความรู้ที่กระชับ จากนั้นกลั่นกรองความรู้ดังกล่าวลงในแบบจำลองขนาดเล็กโดยการฝึกฝนให้เรียนรู้เอาต์พุตแบบอ่อนของแบบจำลองขนาดใหญ่^{[ 1 ]}

การกำหนดสูตรทางคณิตศาสตร์

เมื่อกำหนดโมเดลขนาดใหญ่เป็นฟังก์ชันของตัวแปรเวกเตอร์ซึ่งได้รับการฝึกฝนสำหรับ งาน จำแนก ประเภทเฉพาะ โดยทั่วไปแล้วเลเยอร์สุดท้ายของเครือข่ายการจำแนกประเภทจะเป็นฟังก์ชันซอฟต์แม็กซ์ในรูปแบบ $\mathbf {x}$

y_{i}(\mathbf {x} |t)={\frac {e^{\frac {z_{i}(\mathbf {x} )}{t}}}{\sum _{j}e^{\frac {z_{j}(\mathbf {x} )}{t}}}}

โดยที่อุณหภูมิเป็นพารามิเตอร์ที่ตั้งค่าเป็น 1 สำหรับ softmax มาตรฐาน ตัวดำเนินการ softmax จะแปลงค่าlogitเป็นความน่าจะเป็นเทียม: ค่าอุณหภูมิที่สูงขึ้นจะสร้างการกระจายความน่าจะเป็นเทียมที่นุ่มนวลกว่าในกลุ่มคลาสเอาต์พุต การกลั่นความรู้ประกอบด้วยการฝึกเครือข่ายขนาดเล็กที่เรียกว่าแบบจำลองที่กลั่นแล้วบนชุดข้อมูลที่เรียกว่าชุดถ่ายโอนซึ่งอาจสอดคล้องกับชุดฝึกอบรมดั้งเดิมหรือประกอบด้วยข้อมูลใหม่ที่อาจไม่มีป้ายกำกับ โดยทั่วไปจะใช้ ฟังก์ชันการสูญเสีย เอนโทรปีไขว้ซึ่งคำนวณระหว่างเอาต์พุตของแบบจำลองที่กลั่นแล้วและเอาต์พุตของแบบจำลองขนาดใหญ่บนเรคอร์ดเดียวกัน (หรือค่าเฉลี่ยของเอาต์พุตแต่ละรายการ หากแบบจำลองขนาดใหญ่เป็นแบบรวม) โดยใช้ค่าอุณหภูมิ softmax สูงสำหรับทั้งสองแบบจำลอง: ^[¹^] $t$ $z_{i}(\mathbf {x} )$ $\mathbf {y} (\mathbf {x} |t)$ ${\hat {\mathbf {y} }}(\mathbf {x} |t)$ $t$

E(\mathbf {x} |t)=-\sum _{i}{\hat {y}__{i}(\mathbf {x} |t)\log y_{i}(\mathbf {x} |t).

ในบริบทนี้ อุณหภูมิที่สูงขึ้นจะเพิ่มเอนโทรปีของเอาต์พุต ดังนั้นจึงมีข้อมูลให้เรียนรู้เพิ่มเติมสำหรับโมเดลที่กลั่นแล้วเมื่อเทียบกับเป้าหมายที่แข็ง และในขณะเดียวกันก็ลดความแปรปรวนของเกรเดียนต์ระหว่างบันทึกต่างๆ จึงทำให้สามารถใช้อัตราการเรียนรู้ ที่สูงขึ้น ได้^{[ 1 ]}

หาก มี ข้อมูลความจริงพื้นฐานสำหรับชุดการถ่ายโอน กระบวนการสามารถเสริมความแข็งแกร่งได้โดยการเพิ่มค่าความสูญเสียของเอนโทรปีไขว้ระหว่างผลลัพธ์ของแบบจำลองกลั่นที่คำนวณด้วยและป้ายกำกับที่ทราบแล้ว $y_{i}(\mathbf {x} |1)$ $t=1$ ${\bar {y}}_{i}$

E(\mathbf {x} |t)=-t^{2}\sum _{i}{\hat {y}__{i}(\mathbf {x} |t)\log y_{i}(\mathbf {x} |t)-\sum _{i}{\bar {y}__{i}\log y_{i}(\mathbf {x} |1)

โดยที่ส่วนประกอบของการสูญเสียที่เกี่ยวข้องกับแบบจำลองขนาดใหญ่จะถูกถ่วงน้ำหนักด้วยปัจจัย เนื่องจากเมื่ออุณหภูมิเพิ่มขึ้น ความชันของการสูญเสียที่เกี่ยวข้องกับน้ำหนักของแบบจำลองจะ ^ถูกปรับขนาดด้วยปัจจัย^[¹ ] $t^{2}$ ${\frac {1}{t^{2}}}$

ความสัมพันธ์กับการบีบอัดโมเดล

ภายใต้สมมติฐานที่ว่าค่า logit มีค่า เฉลี่ยเป็นศูนย์ สามารถแสดงได้ว่าการบีบอัดแบบจำลองเป็นกรณีพิเศษของการกลั่นความรู้ เกรเดียนต์ของการสูญเสียจากการกลั่นความรู้เทียบกับค่า logit ของแบบจำลองที่กลั่นแล้วนั้นกำหนดโดย $E$ $z_{i}$

{\begin{aligned}{\frac {\partial }{\partial z_{i}}}E&=-{\frac {\partial }{\partial z_{i}}}\sum _{j}{\hat {y}}_{j}\log y_{j}\\&=-{\frac {\partial }{\partial z_{i}}}{\hat {y}}_{i}\log y_{i}+\left(-{\frac {\partial }{\partial z_{i}}}\sum _{k\neq i}{\hat {y}}_{k}\log y_{k}\right)\\&=-{\hat {y}}_{i}{\frac {1}{y_{i}}}{\frac {\partial }{\partial z_{i}}}y_{i}+\sum _{k\neq i}\left(-{\hat {y}}_{k}\cdot {\frac {1}{y_{k}}}\cdot e^{\frac {z_{k}}{t}}\cdot \left(-{\frac {1}{\left(\sum _{j}e^{\frac {z_{j}}{t}}\right)^{2}}}\right)\cdot e^{\frac {z_{i}}{t}}\cdot {\frac {1}{t}}\right)\\&=-{\hat {y}}_{i}{\frac {1}{y_{i}}}{\frac {\partial }{\partial z_{i}}}{\frac {e^{\frac {z_{i}}{t}}}{\sum _{j}e^{\frac {z_{j}}{t}}}}+\sum _{k\neq i}\left({\hat {y}}_{k}\cdot {\frac {1}{y_{k}}}\cdot y_{k}\cdot y_{i}\cdot {\frac {1}{t}}\right)\\&=-{\hat {y}}_{i}{\frac {1}{y_{i}}}\left({\frac {{\frac {1}{t}}e^{\frac {z_{i}}{t}}\sum _{j}e^{\frac {z_{j}}{t}}-{\frac {1}{t}}\left(e^{\frac {z_{i}}{t}}\right)^{2}}{\left(\sum _{j}e^{\frac {z_{j}}{t}}\right)^{2}}}\right)+{\frac {y_{i}\sum _{k\neq i}{\hat {y}}_{k}}{t}}\\&=-{\hat {y}}_{i}{\frac {1}{y_{i}}}\left({\frac {y_{i}}{t}}-{\frac {y_{i}^{2}}{t}}\right)+{\frac {y_{i}(1-{\hat {y}}_{i})}{t}}\\&={\frac {1}{t}}\left(y_{i}-{\hat {y}}_{i}\right)\\&={\frac {1}{t}}\left({\frac {e^{\frac {z_{i}}{t}}}{\sum _{j}e^{\frac {z_{j}}{t}}}}-{\frac {e^{\frac {{\hat {z}}_{i}}{t}}}{\sum _{j}e^{\frac {{\hat {z}}_{j}}{t}}}}\right)\\\end{aligned}}

ค่า logit ของแบบจำลองขนาดใหญ่อยู่ที่ไหน สำหรับค่าขนาดใหญ่ สามารถประมาณได้ดังนี้ ${\หมวก {z}__{i}$ $t$

{\frac {1}{t}}\left({\frac {1+{\frac {z_{i}}{t}}}{N+\sum _{j}{\frac {z_{j}}{t}}}}-{\frac {1+{\frac {{\hat {z}}_{i}}{t}}}{N+\sum _{j}{\frac {{\hat {z}}_{j}}{t}}}}\right)

และภายใต้สมมติฐานค่าเฉลี่ยเป็นศูนย์มันจะกลายเป็นซึ่งเป็นอนุพันธ์ของ กล่าวคือ การสูญเสียเทียบเท่ากับการจับคู่ logit ของโมเดลทั้งสอง ดังที่ทำในการบีบอัดโมเดล^[¹^] $\sum _{j}z_{j}=\sum _{j}{\hat {z}__{j}=0$ ${\frac {z_{i}-{\hat {z}__{i}}{NT^{2}}}$ ${\frac {1}{2}}\left(z_{i}-{\hat {z}}_{i}\right)^{2}$

อัลกอริทึม "ความเสียหายของสมองที่เหมาะสมที่สุด"

อัลกอริทึมความเสียหายของสมองที่เหมาะสมที่สุด (OBD) มีดังนี้: ^{[ 7 ]}

ทำซ้ำไปเรื่อยๆ จนกว่าจะได้ระดับความหนาแน่นหรือประสิทธิภาพที่ต้องการ:

ฝึกฝนเครือข่าย (โดยใช้วิธีต่างๆ เช่น การแพร่กระจายย้อนกลับ) จนกว่าจะได้คำตอบที่เหมาะสม

คำนวณค่าความโดดเด่นสำหรับแต่ละพารามิเตอร์

ลบพารามิเตอร์ที่มีความสำคัญน้อยที่สุดบางส่วนออก

การลบพารามิเตอร์หมายถึงการกำหนดค่าพารามิเตอร์ให้เป็นศูนย์ "ความโดดเด่น" ของพารามิเตอร์ถูกกำหนดโดย โดยที่คือฟังก์ชันความสูญเสีย อนุพันธ์อันดับสองสามารถคำนวณได้โดยใช้ การแพร่กระจายย้อน กลับ อันดับสอง $\theta$ ${\frac {1}{2}}(\partial _{\theta }^{2}L)\theta ^{2}$ $L$ $\partial _{\theta }^{2}L$

แนวคิดสำหรับการสร้างความเสียหายต่อสมองอย่างเหมาะสมที่สุดคือการประมาณฟังก์ชันความสูญเสียในบริเวณใกล้เคียงพารามิเตอร์ที่เหมาะสมที่สุดโดยใช้การกระจายอนุกรมเทย์เลอร์ : โดยที่เนื่องจากเป็นค่าที่เหมาะสมที่สุด และอนุพันธ์ไขว้จะถูกละเลยเพื่อประหยัดเวลาในการคำนวณ ดังนั้น ความโดดเด่นของพารามิเตอร์จะประมาณค่าการเพิ่มขึ้นของความสูญเสียหากพารามิเตอร์นั้นถูกลบออก $\theta ^{*}$ $L(\theta )\approx L(\theta ^{*})+{\frac {1}{2}}\sum _{i}(\partial _{\theta _{i}}^{2}L(\theta ^{*}))(\theta _{i}-\theta _{i}^{*})^{2}$ $\nabla L(\theta ^{*})\approx 0$ $\theta ^{*}$ $\partial _{\theta _{i}}\partial _{\theta _{j}}L$

ประวัติศาสตร์

วิธีการที่เกี่ยวข้องคือ การบีบอัด หรือการตัดแต่งโมเดลโดยที่เครือข่ายที่ได้รับการฝึกฝนจะถูกลดขนาดลง วิธีนี้ทำเป็นครั้งแรกในปี 1965 โดยAlexey Ivakhnenkoและ Valentin Lapa ในสหภาพโซเวียต (1965) ^[⁸^]^[⁹^]^[¹⁰^]เครือข่ายเชิงลึกของพวกเขาได้รับการฝึกฝนทีละชั้นผ่านการวิเคราะห์การถดถอยหน่วยซ่อนที่เกินความจำเป็นจะถูกตัดแต่งโดยใช้ชุดตรวจสอบความถูกต้องแยกต่างหาก^[¹¹^]วิธีการบีบอัดเครือข่ายประสาทเทียมอื่นๆ ได้แก่ Biased Weight Decay ^[¹²^]และ Optimal Brain Damage ^[⁷^]

ตัวอย่างแรกของการกลั่นกรองโครงข่ายประสาทเทียมได้รับการตีพิมพ์โดยJürgen Schmidhuberในปี 1991 ในสาขาโครงข่ายประสาทเทียมแบบวนซ้ำ (RNN) ปัญหาคือการทำนายลำดับสำหรับลำดับยาว กล่าวคือการเรียนรู้เชิงลึกแนวทางของพวกเขาคือการใช้ RNN สองตัว ตัวหนึ่ง ( ตัวสร้างอัตโนมัติ ) ทำนายลำดับ และอีกตัวหนึ่ง ( ตัวแบ่งกลุ่ม ) ทำนายข้อผิดพลาดของตัวสร้างอัตโนมัติ ในขณะเดียวกัน ตัวสร้างอัตโนมัติก็ทำนายสถานะภายในของตัวแบ่งกลุ่ม หลังจากที่ตัวสร้างอัตโนมัติสามารถทำนายสถานะภายในของตัวแบ่งกลุ่มได้ดีแล้ว มันจะเริ่มแก้ไขข้อผิดพลาด และในไม่ช้าตัวแบ่งกลุ่มก็จะล้าสมัย เหลือเพียง RNN ตัวเดียวในตอนท้าย^{[ 13 ]}^{[ 14 ]}

แนวคิดในการใช้เอาต์พุตของเครือข่ายประสาทหนึ่งเพื่อฝึกเครือข่ายประสาทอีกเครือข่ายหนึ่งได้รับการศึกษาในรูปแบบการกำหนดค่าเครือข่ายครู-นักเรียนเช่นกัน^{[ 15 ]}ในปี 1992 มีเอกสารหลายฉบับที่ศึกษา เกี่ยวกับ กลศาสตร์สถิติของการกำหนดค่าครู-นักเรียนด้วยเครื่องจักรคณะกรรมการ^{[ 16 ]}^{[ 17 ]}หรือเครื่องจักรพาริตี^{[ 18 ]}

การบีบอัดความรู้ของโมเดลหลายตัวลงในเครือข่ายประสาทเทียม เดียว เรียกว่าการบีบอัดโมเดลในปี 2549: การบีบอัดทำได้โดยการฝึกโมเดลขนาดเล็กบนข้อมูลเสมือนจำนวนมากที่ติดป้ายกำกับโดยกลุ่มที่มีประสิทธิภาพสูงกว่า โดยปรับให้เหมาะสมเพื่อให้logitของโมเดลที่บีบอัดตรงกับ logit ของกลุ่ม^{[ 19 ]}เอกสารก่อนตีพิมพ์เกี่ยวกับการกลั่นความรู้ของGeoffrey Hintonและคณะ (2015) ^{[ 1 ]}ได้กำหนดแนวคิดและแสดงผลลัพธ์บางอย่างที่ทำได้ในงาน การ จำแนก ภาพ

การกลั่นความรู้ยังเกี่ยวข้องกับแนวคิดการโคลนนิ่งพฤติกรรมที่ Faraz Torabi และคณะได้กล่าวถึง^{[ 20 ]}

ลิงก์ภายนอก

การกลั่นกรองความรู้ในโครงข่ายประสาทเทียม – ปัญญาประดิษฐ์ของ Google

[ 1 ]

[ 2 ]

3 ] โมเดล

4 ] และ

[ 5 ]

[ 6 ]

[

[

[

[

[

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]