อ่าน 8 นาที
การกลั่นกรองความรู้
ใน การเรียนรู้ ของ เครื่อง การกลั่นความรู้ หรือ การกลั่นแบบจำลอง คือกระบวนการถ่ายโอนความรู้จาก แบบจำลอง ขนาดใหญ่ ไปยังแบบจำลองขนาดเล็ก ในขณะที่แบบจำลองขนาดใหญ่ (เช่น...
การกลั่นกรองความรู้
ใน การเรียนรู้ ของเครื่องการกลั่นความรู้หรือการกลั่นแบบจำลองคือกระบวนการถ่ายโอนความรู้จากแบบจำลอง ขนาดใหญ่ ไปยังแบบจำลองขนาดเล็ก ในขณะที่แบบจำลองขนาดใหญ่ (เช่นเครือข่ายประสาทเทียมที่ลึก มาก หรือกลุ่มของแบบจำลองจำนวนมาก) มีความจุความรู้มากกว่าแบบจำลองขนาดเล็ก แต่ความจุนี้อาจไม่ได้ถูกใช้ประโยชน์อย่างเต็มที่ การประเมินแบบจำลองอาจมีค่าใช้จ่ายในการคำนวณสูงเท่ากันแม้ว่าจะใช้ความจุความรู้เพียงเล็กน้อยก็ตาม การกลั่นความรู้จะถ่ายโอนความรู้จากแบบจำลองขนาดใหญ่ไปยังแบบจำลองขนาดเล็กโดยไม่สูญเสียความถูกต้องเนื่องจากแบบจำลองขนาดเล็กมีค่าใช้จ่ายในการประเมินน้อยกว่า จึงสามารถใช้งานบนฮาร์ดแวร์ที่มีประสิทธิภาพน้อยกว่า (เช่นอุปกรณ์เคลื่อนที่ ) ได้[ 1 ]
นอกจากนี้ยังมีเทคนิคที่พบได้น้อยกว่าที่เรียกว่าการกลั่นความรู้แบบย้อนกลับซึ่งเป็นการถ่ายโอนความรู้จากแบบจำลองขนาดเล็กไปยังแบบจำลองขนาดใหญ่[ 2 ]
การกลั่นกรองโมเดล (Model distillation) ไม่ควรสับสนกับการบีบอัดโมเดล (Model compression ) ซึ่งหมายถึงวิธีการลดขนาดของโมเดลขนาดใหญ่โดยไม่ต้องฝึกโมเดลใหม่ การบีบอัดโมเดลโดยทั่วไปจะรักษาโครงสร้างและจำนวนพารามิเตอร์ตามชื่อของโมเดลไว้ ในขณะที่ลดจำนวนบิตต่อพารามิเตอร์ลง
การกลั่นความรู้ได้รับการนำไปใช้สำเร็จในแอปพลิเคชันการเรียนรู้ของเครื่องหลายอย่าง เช่นการตรวจจับวัตถุ [ 3 ] โมเดล เสียง[ 4 ] และการประมวลผลภาษาธรรมชาติ[ 5 ] เมื่อเร็วๆ นี้ ยังมีการนำมาใช้กับเครือข่ายประสาทกราฟที่สามารถนำไปใช้กับข้อมูลที่ไม่ใช่กริดได้ อีกด้วย [ 6 ]
วิธีการ
การถ่ายทอดความรู้จากแบบจำลองขนาดใหญ่ไปยังแบบจำลองขนาดเล็กจำเป็นต้องสอนแบบจำลองขนาดเล็กโดยไม่สูญเสียความถูกต้อง หากแบบจำลองทั้งสองได้รับการฝึกฝนด้วยข้อมูลชุดเดียวกัน แบบจำลองขนาดเล็กอาจมีความสามารถในการเรียนรู้การแสดงความรู้ที่กระชับ ไม่เพียงพอ เมื่อเทียบกับแบบจำลองขนาดใหญ่ อย่างไรก็ตาม ข้อมูลบางส่วนเกี่ยวกับการแสดงความรู้ที่กระชับนั้นถูกเข้ารหัสไว้ในความน่าจะเป็นเทียมที่กำหนดให้กับเอาต์พุต: เมื่อแบบจำลองทำนายคลาสได้อย่างถูกต้อง แบบจำลองจะกำหนดค่ามากให้กับตัวแปรเอาต์พุตที่สอดคล้องกับคลาสนั้น และค่าที่น้อยกว่าให้กับตัวแปรเอาต์พุตอื่นๆ การกระจายของค่าในเอาต์พุตสำหรับเรคอร์ดจะให้ข้อมูลเกี่ยวกับวิธีที่แบบจำลองขนาดใหญ่แสดงความรู้ ดังนั้น เป้าหมายของการใช้งานแบบจำลองที่ถูกต้องอย่างประหยัดสามารถบรรลุได้โดยการฝึกฝนแบบจำลองขนาดใหญ่กับข้อมูลเท่านั้น ใช้ประโยชน์จากความสามารถที่ดีกว่าในการเรียนรู้การแสดงความรู้ที่กระชับ จากนั้นกลั่นกรองความรู้ดังกล่าวลงในแบบจำลองขนาดเล็กโดยการฝึกฝนให้เรียนรู้เอาต์พุตแบบอ่อนของแบบจำลองขนาดใหญ่[ 1 ]
การกำหนดสูตรทางคณิตศาสตร์
เมื่อกำหนดโมเดลขนาดใหญ่เป็นฟังก์ชันของตัวแปรเวกเตอร์ซึ่งได้รับการฝึกฝนสำหรับ งาน จำแนก ประเภทเฉพาะ โดยทั่วไปแล้วเลเยอร์สุดท้ายของเครือข่ายการจำแนกประเภทจะเป็นฟังก์ชันซอฟต์แม็กซ์ในรูปแบบ
โดยที่อุณหภูมิเป็นพารามิเตอร์ที่ตั้งค่าเป็น 1 สำหรับ softmax มาตรฐาน ตัวดำเนินการ softmax จะแปลงค่าlogitเป็นความน่าจะเป็นเทียม: ค่าอุณหภูมิที่สูงขึ้นจะสร้างการกระจายความน่าจะเป็นเทียมที่นุ่มนวลกว่าในกลุ่มคลาสเอาต์พุต การกลั่นความรู้ประกอบด้วยการฝึกเครือข่ายขนาดเล็กที่เรียกว่าแบบจำลองที่กลั่นแล้วบนชุดข้อมูลที่เรียกว่าชุดถ่ายโอนซึ่งอาจสอดคล้องกับชุดฝึกอบรมดั้งเดิมหรือประกอบด้วยข้อมูลใหม่ที่อาจไม่มีป้ายกำกับ โดยทั่วไปจะใช้ ฟังก์ชันการสูญเสียเอนโทรปีไขว้ซึ่งคำนวณระหว่างเอาต์พุตของแบบจำลองที่กลั่นแล้วและเอาต์พุตของแบบจำลองขนาดใหญ่บนเรคอร์ดเดียวกัน (หรือค่าเฉลี่ยของเอาต์พุตแต่ละรายการ หากแบบจำลองขนาดใหญ่เป็นแบบรวม) โดยใช้ค่าอุณหภูมิ softmax สูงสำหรับทั้งสองแบบจำลอง: [ 1 ]
ในบริบทนี้ อุณหภูมิที่สูงขึ้นจะเพิ่มเอนโทรปีของเอาต์พุต ดังนั้นจึงมีข้อมูลให้เรียนรู้เพิ่มเติมสำหรับโมเดลที่กลั่นแล้วเมื่อเทียบกับเป้าหมายที่แข็ง และในขณะเดียวกันก็ลดความแปรปรวนของเกรเดียนต์ระหว่างบันทึกต่างๆ จึงทำให้สามารถใช้อัตราการเรียนรู้ ที่สูงขึ้น ได้[ 1 ]
หาก มี ข้อมูลความจริงพื้นฐานสำหรับชุดการถ่ายโอน กระบวนการสามารถเสริมความแข็งแกร่งได้โดยการเพิ่มค่าความสูญเสียของเอนโทรปีไขว้ระหว่างผลลัพธ์ของแบบจำลองกลั่นที่คำนวณด้วยและป้ายกำกับที่ทราบแล้ว
โดยที่ส่วนประกอบของการสูญเสียที่เกี่ยวข้องกับแบบจำลองขนาดใหญ่จะถูกถ่วงน้ำหนักด้วยปัจจัย เนื่องจากเมื่ออุณหภูมิเพิ่มขึ้น ความชันของการสูญเสียที่เกี่ยวข้องกับน้ำหนักของแบบจำลองจะ ถูกปรับขนาดด้วยปัจจัย[ 1 ]
ความสัมพันธ์กับการบีบอัดโมเดล
ภายใต้สมมติฐานที่ว่าค่า logit มีค่า เฉลี่ยเป็นศูนย์ สามารถแสดงได้ว่าการบีบอัดแบบจำลองเป็นกรณีพิเศษของการกลั่นความรู้ เกรเดียนต์ของการสูญเสียจากการกลั่นความรู้เทียบกับค่า logit ของแบบจำลองที่กลั่นแล้วนั้นกำหนดโดย
ค่า logit ของแบบจำลองขนาดใหญ่อยู่ที่ไหน สำหรับค่าขนาดใหญ่ สามารถประมาณได้ดังนี้
และภายใต้สมมติฐานค่าเฉลี่ยเป็นศูนย์มันจะกลายเป็นซึ่งเป็นอนุพันธ์ของ กล่าวคือ การสูญเสียเทียบเท่ากับการจับคู่ logit ของโมเดลทั้งสอง ดังที่ทำในการบีบอัดโมเดล[ 1 ]
อัลกอริทึม "ความเสียหายของสมองที่เหมาะสมที่สุด"
อัลกอริทึมความเสียหายของสมองที่เหมาะสมที่สุด (OBD) มีดังนี้: [ 7 ]
- ทำซ้ำไปเรื่อยๆ จนกว่าจะได้ระดับความหนาแน่นหรือประสิทธิภาพที่ต้องการ:
- ฝึกฝนเครือข่าย (โดยใช้วิธีต่างๆ เช่น การแพร่กระจายย้อนกลับ) จนกว่าจะได้คำตอบที่เหมาะสม
- คำนวณค่าความโดดเด่นสำหรับแต่ละพารามิเตอร์
- ลบพารามิเตอร์ที่มีความสำคัญน้อยที่สุดบางส่วนออก
การลบพารามิเตอร์หมายถึงการกำหนดค่าพารามิเตอร์ให้เป็นศูนย์ "ความโดดเด่น" ของพารามิเตอร์ถูกกำหนดโดย โดยที่คือฟังก์ชันความสูญเสีย อนุพันธ์อันดับสองสามารถคำนวณได้โดยใช้ การแพร่กระจายย้อน กลับ อันดับสอง
แนวคิดสำหรับการสร้างความเสียหายต่อสมองอย่างเหมาะสมที่สุดคือการประมาณฟังก์ชันความสูญเสียในบริเวณใกล้เคียงพารามิเตอร์ที่เหมาะสมที่สุดโดยใช้การกระจายอนุกรมเทย์เลอร์ : โดยที่เนื่องจากเป็นค่าที่เหมาะสมที่สุด และอนุพันธ์ไขว้จะถูกละเลยเพื่อประหยัดเวลาในการคำนวณ ดังนั้น ความโดดเด่นของพารามิเตอร์จะประมาณค่าการเพิ่มขึ้นของความสูญเสียหากพารามิเตอร์นั้นถูกลบออก
ประวัติศาสตร์
วิธีการที่เกี่ยวข้องคือ การบีบอัด หรือการตัดแต่งโมเดลโดยที่เครือข่ายที่ได้รับการฝึกฝนจะถูกลดขนาดลง วิธีนี้ทำเป็นครั้งแรกในปี 1965 โดยAlexey Ivakhnenkoและ Valentin Lapa ในสหภาพโซเวียต (1965) [ 8 ] [ 9 ] [ 10 ]เครือข่ายเชิงลึกของพวกเขาได้รับการฝึกฝนทีละชั้นผ่านการวิเคราะห์การถดถอยหน่วยซ่อนที่เกินความจำเป็นจะถูกตัดแต่งโดยใช้ชุดตรวจสอบความถูกต้องแยกต่างหาก[ 11 ]วิธีการบีบอัดเครือข่ายประสาทเทียมอื่นๆ ได้แก่ Biased Weight Decay [ 12 ]และ Optimal Brain Damage [ 7 ]
ตัวอย่างแรกของการกลั่นกรองโครงข่ายประสาทเทียมได้รับการตีพิมพ์โดยJürgen Schmidhuberในปี 1991 ในสาขาโครงข่ายประสาทเทียมแบบวนซ้ำ (RNN) ปัญหาคือการทำนายลำดับสำหรับลำดับยาว กล่าวคือการเรียนรู้เชิงลึกแนวทางของพวกเขาคือการใช้ RNN สองตัว ตัวหนึ่ง ( ตัวสร้างอัตโนมัติ ) ทำนายลำดับ และอีกตัวหนึ่ง ( ตัวแบ่งกลุ่ม ) ทำนายข้อผิดพลาดของตัวสร้างอัตโนมัติ ในขณะเดียวกัน ตัวสร้างอัตโนมัติก็ทำนายสถานะภายในของตัวแบ่งกลุ่ม หลังจากที่ตัวสร้างอัตโนมัติสามารถทำนายสถานะภายในของตัวแบ่งกลุ่มได้ดีแล้ว มันจะเริ่มแก้ไขข้อผิดพลาด และในไม่ช้าตัวแบ่งกลุ่มก็จะล้าสมัย เหลือเพียง RNN ตัวเดียวในตอนท้าย[ 13 ] [ 14 ]
แนวคิดในการใช้เอาต์พุตของเครือข่ายประสาทหนึ่งเพื่อฝึกเครือข่ายประสาทอีกเครือข่ายหนึ่งได้รับการศึกษาในรูปแบบการกำหนดค่าเครือข่ายครู-นักเรียนเช่นกัน[ 15 ]ในปี 1992 มีเอกสารหลายฉบับที่ศึกษา เกี่ยวกับ กลศาสตร์สถิติของการกำหนดค่าครู-นักเรียนด้วยเครื่องจักรคณะกรรมการ[ 16 ] [ 17 ]หรือเครื่องจักรพาริตี[ 18 ]
การบีบอัดความรู้ของโมเดลหลายตัวลงในเครือข่ายประสาทเทียม เดียว เรียกว่าการบีบอัดโมเดลในปี 2549: การบีบอัดทำได้โดยการฝึกโมเดลขนาดเล็กบนข้อมูลเสมือนจำนวนมากที่ติดป้ายกำกับโดยกลุ่มที่มีประสิทธิภาพสูงกว่า โดยปรับให้เหมาะสมเพื่อให้logitของโมเดลที่บีบอัดตรงกับ logit ของกลุ่ม[ 19 ]เอกสารก่อนตีพิมพ์เกี่ยวกับการกลั่นความรู้ของGeoffrey Hintonและคณะ (2015) [ 1 ]ได้กำหนดแนวคิดและแสดงผลลัพธ์บางอย่างที่ทำได้ในงาน การ จำแนก ภาพ
การกลั่นความรู้ยังเกี่ยวข้องกับแนวคิดการโคลนนิ่งพฤติกรรมที่ Faraz Torabi และคณะได้กล่าวถึง[ 20 ]
ลิงก์ภายนอก
- การกลั่นกรองความรู้ในโครงข่ายประสาทเทียม – ปัญญาประดิษฐ์ของ Google
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ การกลั่นกรองความรู้
ใน การเรียนรู้ ของ เครื่อง การกลั่นความรู้ หรือ การกลั่นแบบจำลอง คือกระบวนการถ่ายโอนความรู้จาก แบบจำลอง ขนาดใหญ่ ไปยังแบบจำลองขนาดเล็ก ในขณะที่แบบจำลองขนาดใหญ่ (เช่น...
วิธีการ
การถ่ายทอดความรู้จากแบบจำลองขนาดใหญ่ไปยังแบบจำลองขนาดเล็กจำเป็นต้องสอนแบบจำลองขนาดเล็กโดยไม่สูญเสียความถูกต้อง หากแบบจำลองทั้งสองได้รับการฝึกฝนด้วยข้อมูลชุดเดียวกัน แบบจำลองขนาดเล็กอาจมีความสามารถในการเรียนรู้ การแสดงความรู้ที่กระชับ ไม่เพียงพอ...
การกำหนดสูตรทางคณิตศาสตร์
เมื่อกำหนดโมเดลขนาดใหญ่เป็นฟังก์ชันของตัวแปรเวกเตอร์ซึ่งได้รับการฝึกฝนสำหรับ งาน จำแนก ประเภทเฉพาะ โดยทั่วไปแล้วเลเยอร์สุดท้ายของเครือข่ายการจำแนกประเภทจะเป็น ฟังก์ชันซอฟต์แม็กซ์ ในรูปแบบ x {\displaystyle \mathbf {x} }
ความสัมพันธ์กับการบีบอัดโมเดล
ภายใต้สมมติฐานที่ว่าค่า logit มี ค่า เฉลี่ยเป็นศูนย์ สามารถแสดงได้ว่าการบีบอัดแบบจำลองเป็นกรณีพิเศษของการกลั่นความรู้ เกรเดียนต์ของการสูญเสียจากการกลั่นความรู้เทียบกับค่า logit ของแบบจำลองที่กลั่นแล้วนั้นกำหนดโดย อี {\displaystyle E} z ฉัน {\displaystyle...