การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์

ในการเรียนรู้ของเครื่องการปรับแต่งไฮเปอร์พารามิเตอร์^{[ 1 ]}หรือการปรับจูน คือปัญหาของการเลือกชุดไฮเปอร์พารามิเตอร์ ที่เหมาะสมที่สุด สำหรับอัลกอริธึมการเรียนรู้ ไฮเปอร์พารามิเตอร์คือพารามิเตอร์ที่มีค่าที่ใช้ในการควบคุมกระบวนการเรียนรู้ ซึ่งต้องกำหนดค่าก่อนเริ่มกระบวนการ^{[ 2 ]}^{[ 3 ]}

การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์จะกำหนดชุดของไฮเปอร์พารามิเตอร์ที่ให้โมเดลที่เหมาะสมที่สุดซึ่งลดฟังก์ชันการสูญเสีย ที่กำหนดไว้ล่วงหน้า บนชุดข้อมูล ที่ กำหนด^{[ 4 ]} ฟังก์ชันวัตถุประสงค์จะรับชุดของไฮเปอร์พารามิเตอร์และส่งคืนค่าการสูญเสียที่เกี่ยวข้อง^{[ 4 ]}การตรวจสอบแบบไขว้มักใช้เพื่อประเมินประสิทธิภาพการวางนัยทั่วไปนี้ และด้วยเหตุนี้จึงเลือกชุดค่าสำหรับไฮเปอร์พารามิเตอร์ที่ทำให้ค่าสูงสุด^{[ 5 ]}

แนวทาง

การค้นหาแบบตาราง

วิธีการดั้งเดิมสำหรับการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์คือการค้นหาแบบกริดหรือการกวาดพารามิเตอร์ซึ่งเป็นการค้นหาอย่างละเอียด ถี่ถ้วน ผ่านชุดย่อยที่ระบุด้วยตนเองของพื้นที่ไฮเปอร์พารามิเตอร์ของอัลกอริธึมการเรียนรู้ อัลกอริธึมการค้นหาแบบกริดจะต้องได้รับการชี้นำโดยตัวชี้วัดประสิทธิภาพบางอย่าง ซึ่งโดยทั่วไปจะวัดโดยการตรวจสอบแบบไขว้บนชุดฝึกอบรม^{[ 6 ]} หรือการประเมินบนชุดตรวจสอบแบบแยกส่วน

เนื่องจากพื้นที่พารามิเตอร์ของตัวเรียนรู้ของเครื่องอาจรวมถึงพื้นที่ค่าจริงหรือค่าที่ไม่จำกัดสำหรับพารามิเตอร์บางตัว การกำหนดขอบเขตและการแบ่งช่วงค่าด้วยตนเองจึงอาจจำเป็นก่อนที่จะใช้การค้นหาแบบกริด ตัวอย่างเช่น ตัวจำแนกSVM แบบ soft-margin ทั่วไป ที่ติดตั้งเคอร์เนล RBFมีพารามิเตอร์อย่างน้อยสองตัวที่ต้องปรับแต่งเพื่อให้ได้ประสิทธิภาพที่ดีกับข้อมูลที่ไม่เคยเห็นมาก่อน ได้แก่ ค่าคงที่การปรับค่าCและพารามิเตอร์เคอร์เนล γ พารามิเตอร์ทั้งสองเป็นค่าต่อเนื่อง ดังนั้นในการทำการค้นหาแบบกริด จึงต้องเลือกชุดค่า "ที่เหมาะสม" จำนวนจำกัดสำหรับแต่ละค่า เช่น

C\in \{10,100,1000\}

\gamma \in \{0.1,0.2,0.5,1.0\}

จากนั้นอัลกอริทึมการค้นหาแบบกริดจะฝึก SVM โดยใช้แต่ละคู่ ( C , γ) ในผลคูณคาร์ทีเซียนของชุดข้อมูลทั้งสองชุด และประเมินประสิทธิภาพของ SVM เหล่านั้นบนชุดข้อมูลตรวจสอบที่แยกไว้ต่างหาก (หรือโดยการตรวจสอบแบบไขว้ภายในบนชุดข้อมูลฝึกฝน ซึ่งในกรณีนี้จะมีการฝึก SVM หลายตัวต่อคู่) สุดท้าย อัลกอริทึมการค้นหาแบบกริดจะแสดงผลการตั้งค่าที่ได้คะแนนสูงสุดในขั้นตอนการตรวจสอบ

การค้นหาแบบกริดประสบปัญหาจากคำสาปของมิติแต่โดยทั่วไปแล้วมักจะขนานกันอย่างน่าอับอายเนื่องจากการตั้งค่าไฮเปอร์พารามิเตอร์ที่ประเมินมักจะเป็นอิสระต่อกัน^{[ 5 ]}

การค้นหาแบบสุ่ม

การค้นหาแบบสุ่ม (Random Search) แทนที่การแจงนับชุดค่าผสมทั้งหมดอย่างละเอียดด้วยการเลือกแบบสุ่ม ซึ่งสามารถนำไปใช้กับการตั้งค่าแบบไม่ต่อเนื่องที่อธิบายไว้ข้างต้นได้อย่างง่ายดาย แต่ยังสามารถขยายไปสู่พื้นที่ต่อเนื่องและพื้นที่ผสมได้อีกด้วย ข้อดีเหนือการค้นหาแบบกริด (Grid Search) คือการค้นหาแบบสุ่มสามารถสำรวจค่าได้มากกว่าการค้นหาแบบกริดสำหรับไฮเปอร์พารามิเตอร์แบบต่อเนื่อง โดยสามารถทำงานได้ดีกว่าการค้นหาแบบกริด โดยเฉพาะอย่างยิ่งเมื่อไฮเปอร์พารามิเตอร์เพียงไม่กี่ตัวเท่านั้นที่มีผลต่อประสิทธิภาพขั้นสุดท้ายของอัลกอริธึมการเรียนรู้ของเครื่อง^{[ 5 ]}ในกรณีนี้ ปัญหาการเพิ่มประสิทธิภาพจะกล่าวได้ว่ามีมิติภายในที่ต่ำ^{[ 7 ]}การค้นหาแบบสุ่มยังสามารถประมวลผลแบบขนานได้อย่างง่ายดายและยังช่วยให้สามารถรวมความรู้ก่อนหน้าได้โดยการระบุการกระจายที่จะสุ่มตัวอย่าง แม้จะมีความเรียบง่าย แต่การค้นหาแบบสุ่มยังคงเป็นหนึ่งในเกณฑ์พื้นฐานที่สำคัญในการเปรียบเทียบประสิทธิภาพของวิธีการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์แบบใหม่

การเพิ่มประสิทธิภาพแบบเบย์เซียน

การเพิ่มประสิทธิภาพแบบเบย์เซียนเป็นวิธีการเพิ่มประสิทธิภาพแบบทั่วโลกสำหรับฟังก์ชันกล่องดำที่มีสัญญาณรบกวน เมื่อนำไปใช้กับการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ การเพิ่มประสิทธิภาพแบบเบย์เซียนจะสร้างแบบจำลองความน่าจะเป็นของฟังก์ชันที่แมปจากค่าไฮเปอร์พารามิเตอร์ไปยังวัตถุประสงค์ที่ประเมินบนชุดการตรวจสอบ โดยการประเมินการกำหนดค่าไฮเปอร์พารามิเตอร์ที่น่าสนใจซ้ำๆ โดยอิงจากแบบจำลองปัจจุบัน แล้วอัปเดต การเพิ่มประสิทธิภาพแบบเบย์เซียนมีเป้าหมายเพื่อรวบรวมข้อมูลที่เปิดเผยข้อมูลให้ได้มากที่สุดเกี่ยวกับฟังก์ชันนี้ และโดยเฉพาะอย่างยิ่ง ตำแหน่งของค่าที่เหมาะสมที่สุด พยายามสร้างสมดุลระหว่างการสำรวจ (ไฮเปอร์พารามิเตอร์ที่ผลลัพธ์ไม่แน่นอนที่สุด) และการใช้ประโยชน์ (ไฮเปอร์พารามิเตอร์ที่คาดว่าจะใกล้เคียงกับค่าที่เหมาะสมที่สุด) ในทางปฏิบัติ การเพิ่มประสิทธิภาพแบบเบย์เซียนได้รับการแสดงให้เห็นแล้ว^{[ 8 ]}^{[ 9 ]}^{[ 10 ]}^{[ 11 ]}^{[ 12 ]}ว่าได้ผลลัพธ์ที่ดีกว่าในการประเมินที่น้อยกว่าเมื่อเทียบกับการค้นหาแบบกริดและการค้นหาแบบสุ่ม เนื่องจากความสามารถในการให้เหตุผลเกี่ยวกับคุณภาพของการทดลองก่อนที่จะดำเนินการ

การเพิ่มประสิทธิภาพตามความชัน

สำหรับอัลกอริธึมการเรียนรู้เฉพาะนั้น สามารถคำนวณเกรเดียนต์เทียบกับไฮเปอร์พารามิเตอร์ได้ จากนั้นจึงปรับไฮเปอร์พารามิเตอร์ให้เหมาะสมโดยใช้การลดเกรเดียนต์การใช้งานเทคนิคเหล่านี้ครั้งแรกมุ่งเน้นไปที่โครงข่ายประสาทเทียม^{[ 13 ]}ตั้งแต่นั้นมา วิธีการเหล่านี้ได้รับการขยายไปยังโมเดลอื่นๆ เช่นเครื่องเวกเตอร์สนับสนุน^{[ 14 ]}หรือการถดถอยโลจิสติก^{[ 15 ]}

แนวทางที่แตกต่างในการหาค่าเกรเดียนต์เทียบกับไฮเปอร์พารามิเตอร์ประกอบด้วยการหาอนุพันธ์ของขั้นตอนของอัลกอริธึมการเพิ่มประสิทธิภาพแบบวนซ้ำโดยใช้การหา อนุพันธ์อัตโนมัติ^{[ 16 ]}^{[ 17 ]}^{[ 18 ]}^{[ 19 ]}งานวิจัยล่าสุดในทิศทางนี้ใช้ทฤษฎีบทฟังก์ชันโดยปริยายในการคำนวณไฮเปอร์เกรเดียนต์และเสนอการประมาณค่าที่เสถียรของเมทริกซ์เฮสเซียนผกผัน วิธีนี้สามารถรองรับไฮเปอร์พารามิเตอร์ได้หลายล้านตัวและต้องการหน่วยความจำคงที่^{[ 20 ]}

ในแนวทางที่แตกต่างออกไป^{[ 21 ]}ไฮเปอร์เน็ตเวิร์กได้รับการฝึกฝนเพื่อประมาณฟังก์ชันการตอบสนองที่ดีที่สุด ข้อดีอย่างหนึ่งของวิธีนี้คือสามารถจัดการกับไฮเปอร์พารามิเตอร์แบบไม่ต่อเนื่องได้เช่นกัน เครือข่ายแบบปรับตัวเอง^{[ 22 ]}นำเสนอเวอร์ชันที่มีประสิทธิภาพด้านหน่วยความจำของวิธีการนี้โดยการเลือกการแสดงแบบกระชับสำหรับไฮเปอร์เน็ตเวิร์ก เมื่อไม่นานมานี้ Δ-STN ^{[ 23 ]}ได้ปรับปรุงวิธีการนี้ให้ดียิ่งขึ้นไปอีกโดยการปรับพารามิเตอร์ของไฮเปอร์เน็ตเวิร์กเล็กน้อย ซึ่งช่วยเร่งความเร็วในการฝึกอบรม Δ-STN ยังให้การประมาณค่า Jacobian การตอบสนองที่ดีที่สุดที่ดีกว่าโดยการทำให้เครือข่ายเป็นเชิงเส้นในน้ำหนัก จึงช่วยขจัดผลกระทบที่ไม่เป็นเชิงเส้นที่ไม่จำเป็นของการเปลี่ยนแปลงน้ำหนักจำนวนมาก

นอกเหนือจากแนวทางไฮเปอร์เน็ตเวิร์กแล้ว ยังสามารถใช้วิธีการที่ใช้การไล่ระดับเพื่อปรับไฮเปอร์พารามิเตอร์แบบไม่ต่อเนื่องให้เหมาะสม ได้ โดยการใช้การผ่อนคลายพารามิเตอร์แบบต่อเนื่อง^{[ 24 ]}วิธีการดังกล่าวได้รับการใช้อย่างกว้างขวางเพื่อปรับไฮเปอร์พารามิเตอร์ของสถาปัตยกรรมให้เหมาะสมในการค้นหาสถาปัตยกรรมประสาท

การเพิ่มประสิทธิภาพเชิงวิวัฒนาการ

การเพิ่มประสิทธิภาพเชิงวิวัฒนาการเป็นวิธีการสำหรับการเพิ่มประสิทธิภาพโดยรวมของฟังก์ชันกล่องดำที่มีสัญญาณรบกวน ในการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ การเพิ่มประสิทธิภาพเชิงวิวัฒนาการใช้อัลกอริธึมเชิงวิวัฒนาการเพื่อค้นหาพื้นที่ของไฮเปอร์พารามิเตอร์สำหรับอัลกอริธึมที่กำหนด^{[ 9 ]}การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์เชิงวิวัฒนาการเป็นไปตามกระบวนการที่ได้รับแรงบันดาลใจจากแนวคิดทางชีววิทยาของวิวัฒนาการ :

สร้างกลุ่มตัวอย่างเริ่มต้นของโซลูชันแบบสุ่ม (เช่น สร้างทูเปิลของไฮเปอร์พารามิเตอร์แบบสุ่ม โดยทั่วไปมากกว่า 100 รายการ)
ประเมินค่าพารามิเตอร์ต่างๆ และหาค่าฟังก์ชันความเหมาะสม (เช่น ความแม่นยำ ของการตรวจสอบแบบไขว้ 10 เท่า ของอัลกอริธึมการเรียนรู้ของเครื่องด้วยพารามิเตอร์เหล่านั้น)
จัดอันดับคู่พารามิเตอร์ตามความเหมาะสมสัมพัทธ์
แทนที่ทูเปิลไฮเปอร์พารามิเตอร์ที่มีประสิทธิภาพต่ำที่สุดด้วยทูเปิลใหม่ที่สร้างขึ้นผ่านการผสมข้ามและการกลายพันธุ์
ทำซ้ำขั้นตอนที่ 2-4 จนกว่าประสิทธิภาพของอัลกอริทึมจะน่าพอใจหรือไม่มีการปรับปรุงอีกต่อไป

การเพิ่มประสิทธิภาพเชิงวิวัฒนาการถูกนำมาใช้ในการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์สำหรับอัลกอริธึมการเรียนรู้ของเครื่องเชิงสถิติ^{[ 9 ]}การเรียนรู้ของเครื่องแบบอัตโนมัติเครือข่ายประสาทเทียมทั่วไป^{[ 25 ]}และการค้นหาสถาปัตยกรรมเครือข่ายประสาทเทียมเชิงลึก^{[ 26 ]}^{[ 27 ]}รวมถึงการฝึกน้ำหนักในเครือข่ายประสาทเทียมเชิงลึก^{[ 28 ]}

อิงตามประชากร

การฝึกอบรมแบบอิงประชากร (Population Based Training: PBT) เรียนรู้ทั้งค่าไฮเปอร์พารามิเตอร์และน้ำหนักของเครือข่าย กระบวนการเรียนรู้หลายกระบวนการทำงานอย่างอิสระ โดยใช้ไฮเปอร์พารามิเตอร์ที่แตกต่างกัน เช่นเดียวกับวิธีการวิวัฒนาการ โมเดลที่ทำงานได้ไม่ดีจะถูกแทนที่ด้วยโมเดลที่ปรับใช้ค่าไฮเปอร์พารามิเตอร์และน้ำหนักที่แก้ไขแล้วโดยอิงจากโมเดลที่ทำงานได้ดีกว่า กระบวนการเริ่มต้นแบบอุ่นเครื่อง (warm starting) ของโมเดลทดแทนนี้เป็นความแตกต่างหลักระหว่าง PBT กับวิธีการวิวัฒนาการอื่นๆ ดังนั้น PBT จึงช่วยให้ไฮเปอร์พารามิเตอร์สามารถพัฒนาได้และขจัดความจำเป็นในการปรับแต่งไฮเปอร์พารามิเตอร์ด้วยตนเอง กระบวนการนี้ไม่มีข้อสมมติใดๆ เกี่ยวกับสถาปัตยกรรมของโมเดล ฟังก์ชันการสูญเสีย หรือขั้นตอนการฝึกอบรม

PBT และรูปแบบต่างๆ ของ PBT เป็นวิธีการปรับตัว: โดยจะอัปเดตไฮเปอร์พารามิเตอร์ระหว่างการฝึกโมเดล ในทางตรงกันข้าม วิธีการที่ไม่ปรับตัวจะมีกลยุทธ์ที่ไม่เหมาะสมในการกำหนดชุดไฮเปอร์พารามิเตอร์คงที่สำหรับการฝึกทั้งหมด^{[ 29 ]}

การหยุดก่อนกำหนดตามหลักการ

การลดจำนวนลงครึ่งหนึ่งอย่างต่อเนื่องสำหรับค่าพารามิเตอร์แปดค่าที่กำหนดไว้ วิธีการนี้เริ่มต้นด้วยแบบจำลองแปดแบบที่มีค่าการกำหนดค่าแตกต่างกัน และใช้การลดจำนวนลงครึ่งหนึ่งอย่างต่อเนื่องจนกระทั่งเหลือเพียงแบบจำลองเดียว

อัลกอริทึมการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์แบบหยุดก่อนกำหนดถูกสร้างขึ้นเพื่อวัตถุประสงค์เฉพาะสำหรับพื้นที่การค้นหาขนาดใหญ่ของไฮเปอร์พารามิเตอร์แบบต่อเนื่องและแบบไม่ต่อเนื่อง โดยเฉพาะอย่างยิ่งเมื่อต้นทุนการคำนวณในการประเมินประสิทธิภาพของชุดไฮเปอร์พารามิเตอร์สูง Irace ใช้ขั้นตอนวิธีแข่งแบบวนซ้ำ ซึ่งมุ่งเน้นการค้นหาไปที่การกำหนดค่าที่มีแนวโน้มดีที่สุด โดยใช้การทดสอบทางสถิติเพื่อกำจัดค่าที่ทำงานได้ไม่ดี^{[ 30 ]}^{[ 31 ]} อัลกอริทึมการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์แบบหยุดก่อนกำหนดอีกแบบหนึ่งคือ การลดครึ่งหนึ่งแบบต่อเนื่อง (SHA) ^{[ 32 ]}ซึ่งเริ่มต้นด้วยการค้นหาแบบสุ่ม แต่จะตัดโมเดลที่มีประสิทธิภาพต่ำออกเป็นระยะๆ จึงมุ่งเน้นทรัพยากรการคำนวณไปที่โมเดลที่มีแนวโน้มดีกว่า การลดครึ่งหนึ่งแบบต่อเนื่องแบบไม่พร้อมกัน (ASHA) ^{[ 33 ]}ปรับปรุงโปรไฟล์การใช้ทรัพยากรของ SHA ให้ดียิ่งขึ้นไปอีกโดยการกำจัดความจำเป็นในการประเมินและตัดโมเดลที่มีประสิทธิภาพต่ำออกพร้อมกัน Hyperband ^{[ 34 ]}เป็นอัลกอริทึมระดับสูงที่ใช้การหยุดก่อนกำหนด ซึ่งเรียกใช้ SHA หรือ ASHA หลายครั้งด้วยระดับความรุนแรงของการตัดแต่งที่แตกต่างกัน เพื่อให้สามารถนำไปใช้ได้อย่างกว้างขวางมากขึ้นและมีอินพุตที่จำเป็นน้อยลง

คนอื่น

แนวทาง RBF ^{[ 35 ]}และสเปกตรัม^{[ 36 ]}ได้รับการพัฒนาขึ้นเช่นกัน

ปัญหาในการปรับแต่งไฮเปอร์พารามิเตอร์

เมื่อทำการปรับแต่งไฮเปอร์พารามิเตอร์ ชุดของไฮเปอร์พารามิเตอร์มักจะถูกปรับให้เข้ากับชุดข้อมูลฝึกฝน และเลือกโดยพิจารณาจากประสิทธิภาพการวางนัยทั่วไป หรือคะแนนของชุดข้อมูลตรวจสอบ อย่างไรก็ตาม ขั้นตอนนี้มีความเสี่ยงที่จะทำให้ไฮเปอร์พารามิเตอร์นั้นเหมาะสมกับชุดข้อมูลตรวจสอบมากเกินไป ดังนั้น คะแนนประสิทธิภาพการวางนัยทั่วไปของชุดข้อมูลตรวจสอบ (ซึ่งอาจมีหลายชุดในกรณีของกระบวนการตรวจสอบแบบไขว้) จึงไม่สามารถนำมาใช้ประเมินประสิทธิภาพการวางนัยทั่วไปของแบบจำลองสุดท้ายได้พร้อมกัน ในการทำเช่นนั้น ประสิทธิภาพการวางนัยทั่วไปจะต้องได้รับการประเมินบนชุดข้อมูลที่เป็นอิสระ (ซึ่งไม่มีส่วนที่ทับซ้อนกัน) จากชุดข้อมูล (หรือหลายชุด) ที่ใช้สำหรับการปรับแต่งไฮเปอร์พารามิเตอร์ มิฉะนั้นประสิทธิภาพอาจให้ค่าที่มองโลกในแง่ดีเกินไป (มากเกินไป) สามารถทำได้บนชุดข้อมูลทดสอบชุดที่สอง หรือผ่าน กระบวนการ ตรวจสอบแบบไขว้ ภายนอก ที่เรียกว่าการตรวจสอบแบบไขว้ซ้อน ซึ่งช่วยให้สามารถประเมินประสิทธิภาพการวางนัยทั่วไปของแบบจำลองได้อย่างเป็นกลาง โดยคำนึงถึงอคติที่เกิดจากการปรับแต่งไฮเปอร์พารามิเตอร์

ดูเพิ่มเติม

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]