กลับไปหน้าบทความ

อ่าน 6 นาที

การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์

ในการ เรียนรู้ของเครื่อง การปรับแต่งไฮเปอร์พารามิเตอร์ [ 1 ] หรือการปรับจูน คือปัญหาของการเลือกชุด ไฮเปอร์พารามิเตอร์ ที่เหมาะสมที่สุด สำหรับอัลกอริธึมการเรียนรู้...

การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์

ในการเรียนรู้ของเครื่องการปรับแต่งไฮเปอร์พารามิเตอร์[ 1 ]หรือการปรับจูน คือปัญหาของการเลือกชุดไฮเปอร์พารามิเตอร์ ที่เหมาะสมที่สุด สำหรับอัลกอริธึมการเรียนรู้ ไฮเปอร์พารามิเตอร์คือพารามิเตอร์ที่มีค่าที่ใช้ในการควบคุมกระบวนการเรียนรู้ ซึ่งต้องกำหนดค่าก่อนเริ่มกระบวนการ[ 2 ] [ 3 ]

การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์จะกำหนดชุดของไฮเปอร์พารามิเตอร์ที่ให้โมเดลที่เหมาะสมที่สุดซึ่งลดฟังก์ชันการสูญเสีย ที่กำหนดไว้ล่วงหน้า บนชุดข้อมูล ที่ กำหนด[ 4 ] ฟังก์ชันวัตถุประสงค์จะรับชุดของไฮเปอร์พารามิเตอร์และส่งคืนค่าการสูญเสียที่เกี่ยวข้อง[ 4 ]การตรวจสอบแบบไขว้มักใช้เพื่อประเมินประสิทธิภาพการวางนัยทั่วไปนี้ และด้วยเหตุนี้จึงเลือกชุดค่าสำหรับไฮเปอร์พารามิเตอร์ที่ทำให้ค่าสูงสุด[ 5 ]

แนวทาง

ทำการค้นหาแบบกริด (Grid search) โดยพิจารณาค่าต่างๆ ของไฮเปอร์พารามิเตอร์สองตัว สำหรับแต่ละไฮเปอร์พารามิเตอร์ จะพิจารณาค่าที่แตกต่างกัน 10 ค่า ดังนั้นจึงมีการประเมินและเปรียบเทียบค่าผสมที่แตกต่างกันทั้งหมด 100 แบบ เส้นโค้งสีน้ำเงินแสดงถึงบริเวณที่มีผลลัพธ์ที่ดี ในขณะที่เส้นโค้งสีแดงแสดงถึงบริเวณที่มีผลลัพธ์ที่ไม่ดี

วิธีการดั้งเดิมสำหรับการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์คือการค้นหาแบบกริดหรือการกวาดพารามิเตอร์ซึ่งเป็นการค้นหาอย่างละเอียด ถี่ถ้วน ผ่านชุดย่อยที่ระบุด้วยตนเองของพื้นที่ไฮเปอร์พารามิเตอร์ของอัลกอริธึมการเรียนรู้ อัลกอริธึมการค้นหาแบบกริดจะต้องได้รับการชี้นำโดยตัวชี้วัดประสิทธิภาพบางอย่าง ซึ่งโดยทั่วไปจะวัดโดยการตรวจสอบแบบไขว้บนชุดฝึกอบรม[ 6 ] หรือการประเมินบนชุดตรวจสอบแบบแยกส่วน

เนื่องจากพื้นที่พารามิเตอร์ของตัวเรียนรู้ของเครื่องอาจรวมถึงพื้นที่ค่าจริงหรือค่าที่ไม่จำกัดสำหรับพารามิเตอร์บางตัว การกำหนดขอบเขตและการแบ่งช่วงค่าด้วยตนเองจึงอาจจำเป็นก่อนที่จะใช้การค้นหาแบบกริด ตัวอย่างเช่น ตัวจำแนกSVM แบบ soft-margin ทั่วไป ที่ติดตั้งเคอร์เนล RBFมีพารามิเตอร์อย่างน้อยสองตัวที่ต้องปรับแต่งเพื่อให้ได้ประสิทธิภาพที่ดีกับข้อมูลที่ไม่เคยเห็นมาก่อน ได้แก่ ค่าคงที่การปรับค่าCและพารามิเตอร์เคอร์เนล γ พารามิเตอร์ทั้งสองเป็นค่าต่อเนื่อง ดังนั้นในการทำการค้นหาแบบกริด จึงต้องเลือกชุดค่า "ที่เหมาะสม" จำนวนจำกัดสำหรับแต่ละค่า เช่น

จากนั้นอัลกอริทึมการค้นหาแบบกริดจะฝึก SVM โดยใช้แต่ละคู่ ( C , γ) ในผลคูณคาร์ทีเซียนของชุดข้อมูลทั้งสองชุด และประเมินประสิทธิภาพของ SVM เหล่านั้นบนชุดข้อมูลตรวจสอบที่แยกไว้ต่างหาก (หรือโดยการตรวจสอบแบบไขว้ภายในบนชุดข้อมูลฝึกฝน ซึ่งในกรณีนี้จะมีการฝึก SVM หลายตัวต่อคู่) สุดท้าย อัลกอริทึมการค้นหาแบบกริดจะแสดงผลการตั้งค่าที่ได้คะแนนสูงสุดในขั้นตอนการตรวจสอบ

การค้นหาแบบกริดประสบปัญหาจากคำสาปของมิติแต่โดยทั่วไปแล้วมักจะขนานกันอย่างน่าอับอายเนื่องจากการตั้งค่าไฮเปอร์พารามิเตอร์ที่ประเมินมักจะเป็นอิสระต่อกัน[ 5 ]

การค้นหาแบบสุ่มโดยใช้ค่าผสมต่างๆ ของพารามิเตอร์สองตัว ในตัวอย่างนี้ มีการประเมินตัวเลือกแบบสุ่มที่แตกต่างกัน 100 แบบ แถบสีเขียวแสดงให้เห็นว่ามีการพิจารณาค่าแต่ละพารามิเตอร์มากกว่าเมื่อเทียบกับการค้นหาแบบตาราง

การค้นหาแบบสุ่ม (Random Search) แทนที่การแจงนับชุดค่าผสมทั้งหมดอย่างละเอียดด้วยการเลือกแบบสุ่ม ซึ่งสามารถนำไปใช้กับการตั้งค่าแบบไม่ต่อเนื่องที่อธิบายไว้ข้างต้นได้อย่างง่ายดาย แต่ยังสามารถขยายไปสู่พื้นที่ต่อเนื่องและพื้นที่ผสมได้อีกด้วย ข้อดีเหนือการค้นหาแบบกริด (Grid Search) คือการค้นหาแบบสุ่มสามารถสำรวจค่าได้มากกว่าการค้นหาแบบกริดสำหรับไฮเปอร์พารามิเตอร์แบบต่อเนื่อง โดยสามารถทำงานได้ดีกว่าการค้นหาแบบกริด โดยเฉพาะอย่างยิ่งเมื่อไฮเปอร์พารามิเตอร์เพียงไม่กี่ตัวเท่านั้นที่มีผลต่อประสิทธิภาพขั้นสุดท้ายของอัลกอริธึมการเรียนรู้ของเครื่อง[ 5 ]ในกรณีนี้ ปัญหาการเพิ่มประสิทธิภาพจะกล่าวได้ว่ามีมิติภายในที่ต่ำ[ 7 ]การค้นหาแบบสุ่มยังสามารถประมวลผลแบบขนานได้อย่างง่ายดายและยังช่วยให้สามารถรวมความรู้ก่อนหน้าได้โดยการระบุการกระจายที่จะสุ่มตัวอย่าง แม้จะมีความเรียบง่าย แต่การค้นหาแบบสุ่มยังคงเป็นหนึ่งในเกณฑ์พื้นฐานที่สำคัญในการเปรียบเทียบประสิทธิภาพของวิธีการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์แบบใหม่

วิธีการต่างๆ เช่น การปรับให้เหมาะสมแบบเบย์เซียน จะสำรวจพื้นที่ของตัวเลือกที่เป็นไปได้ของไฮเปอร์พารามิเตอร์อย่างชาญฉลาด โดยตัดสินใจว่าจะสำรวจชุดค่าผสมใดต่อไปโดยพิจารณาจากข้อสังเกตก่อนหน้านี้

การเพิ่มประสิทธิภาพแบบเบย์เซียน

การเพิ่มประสิทธิภาพแบบเบย์เซียนเป็นวิธีการเพิ่มประสิทธิภาพแบบทั่วโลกสำหรับฟังก์ชันกล่องดำที่มีสัญญาณรบกวน เมื่อนำไปใช้กับการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ การเพิ่มประสิทธิภาพแบบเบย์เซียนจะสร้างแบบจำลองความน่าจะเป็นของฟังก์ชันที่แมปจากค่าไฮเปอร์พารามิเตอร์ไปยังวัตถุประสงค์ที่ประเมินบนชุดการตรวจสอบ โดยการประเมินการกำหนดค่าไฮเปอร์พารามิเตอร์ที่น่าสนใจซ้ำๆ โดยอิงจากแบบจำลองปัจจุบัน แล้วอัปเดต การเพิ่มประสิทธิภาพแบบเบย์เซียนมีเป้าหมายเพื่อรวบรวมข้อมูลที่เปิดเผยข้อมูลให้ได้มากที่สุดเกี่ยวกับฟังก์ชันนี้ และโดยเฉพาะอย่างยิ่ง ตำแหน่งของค่าที่เหมาะสมที่สุด พยายามสร้างสมดุลระหว่างการสำรวจ (ไฮเปอร์พารามิเตอร์ที่ผลลัพธ์ไม่แน่นอนที่สุด) และการใช้ประโยชน์ (ไฮเปอร์พารามิเตอร์ที่คาดว่าจะใกล้เคียงกับค่าที่เหมาะสมที่สุด) ในทางปฏิบัติ การเพิ่มประสิทธิภาพแบบเบย์เซียนได้รับการแสดงให้เห็นแล้ว[ 8 ] [ 9 ] [ 10 ] [ 11 ] [ 12 ]ว่าได้ผลลัพธ์ที่ดีกว่าในการประเมินที่น้อยกว่าเมื่อเทียบกับการค้นหาแบบกริดและการค้นหาแบบสุ่ม เนื่องจากความสามารถในการให้เหตุผลเกี่ยวกับคุณภาพของการทดลองก่อนที่จะดำเนินการ

การเพิ่มประสิทธิภาพตามความชัน

สำหรับอัลกอริธึมการเรียนรู้เฉพาะนั้น สามารถคำนวณเกรเดียนต์เทียบกับไฮเปอร์พารามิเตอร์ได้ จากนั้นจึงปรับไฮเปอร์พารามิเตอร์ให้เหมาะสมโดยใช้การลดเกรเดียนต์การใช้งานเทคนิคเหล่านี้ครั้งแรกมุ่งเน้นไปที่โครงข่ายประสาทเทียม[ 13 ]ตั้งแต่นั้นมา วิธีการเหล่านี้ได้รับการขยายไปยังโมเดลอื่นๆ เช่นเครื่องเวกเตอร์สนับสนุน[ 14 ]หรือการถดถอยโลจิสติก[ 15 ]

แนวทางที่แตกต่างในการหาค่าเกรเดียนต์เทียบกับไฮเปอร์พารามิเตอร์ประกอบด้วยการหาอนุพันธ์ของขั้นตอนของอัลกอริธึมการเพิ่มประสิทธิภาพแบบวนซ้ำโดยใช้การหา อนุพันธ์อัตโนมัติ[ 16 ] [ 17 ] [ 18 ] [ 19 ]งานวิจัยล่าสุดในทิศทางนี้ใช้ทฤษฎีบทฟังก์ชันโดยปริยายในการคำนวณไฮเปอร์เกรเดียนต์และเสนอการประมาณค่าที่เสถียรของเมทริกซ์เฮสเซียนผกผัน วิธีนี้สามารถรองรับไฮเปอร์พารามิเตอร์ได้หลายล้านตัวและต้องการหน่วยความจำคงที่[ 20 ]

ในแนวทางที่แตกต่างออกไป[ 21 ]ไฮเปอร์เน็ตเวิร์กได้รับการฝึกฝนเพื่อประมาณฟังก์ชันการตอบสนองที่ดีที่สุด ข้อดีอย่างหนึ่งของวิธีนี้คือสามารถจัดการกับไฮเปอร์พารามิเตอร์แบบไม่ต่อเนื่องได้เช่นกัน เครือข่ายแบบปรับตัวเอง[ 22 ]นำเสนอเวอร์ชันที่มีประสิทธิภาพด้านหน่วยความจำของวิธีการนี้โดยการเลือกการแสดงแบบกระชับสำหรับไฮเปอร์เน็ตเวิร์ก เมื่อไม่นานมานี้ Δ-STN [ 23 ]ได้ปรับปรุงวิธีการนี้ให้ดียิ่งขึ้นไปอีกโดยการปรับพารามิเตอร์ของไฮเปอร์เน็ตเวิร์กเล็กน้อย ซึ่งช่วยเร่งความเร็วในการฝึกอบรม Δ-STN ยังให้การประมาณค่า Jacobian การตอบสนองที่ดีที่สุดที่ดีกว่าโดยการทำให้เครือข่ายเป็นเชิงเส้นในน้ำหนัก จึงช่วยขจัดผลกระทบที่ไม่เป็นเชิงเส้นที่ไม่จำเป็นของการเปลี่ยนแปลงน้ำหนักจำนวนมาก

นอกเหนือจากแนวทางไฮเปอร์เน็ตเวิร์กแล้ว ยังสามารถใช้วิธีการที่ใช้การไล่ระดับเพื่อปรับไฮเปอร์พารามิเตอร์แบบไม่ต่อเนื่องให้เหมาะสม ได้ โดยการใช้การผ่อนคลายพารามิเตอร์แบบต่อเนื่อง[ 24 ]วิธีการดังกล่าวได้รับการใช้อย่างกว้างขวางเพื่อปรับไฮเปอร์พารามิเตอร์ของสถาปัตยกรรมให้เหมาะสมในการค้นหาสถาปัตยกรรมประสาท

การเพิ่มประสิทธิภาพเชิงวิวัฒนาการ

การเพิ่มประสิทธิภาพเชิงวิวัฒนาการเป็นวิธีการสำหรับการเพิ่มประสิทธิภาพโดยรวมของฟังก์ชันกล่องดำที่มีสัญญาณรบกวน ในการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์ การเพิ่มประสิทธิภาพเชิงวิวัฒนาการใช้อัลกอริธึมเชิงวิวัฒนาการเพื่อค้นหาพื้นที่ของไฮเปอร์พารามิเตอร์สำหรับอัลกอริธึมที่กำหนด[ 9 ]การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์เชิงวิวัฒนาการเป็นไปตามกระบวนการที่ได้รับแรงบันดาลใจจากแนวคิดทางชีววิทยาของวิวัฒนาการ :

  1. สร้างกลุ่มตัวอย่างเริ่มต้นของโซลูชันแบบสุ่ม (เช่น สร้างทูเปิลของไฮเปอร์พารามิเตอร์แบบสุ่ม โดยทั่วไปมากกว่า 100 รายการ)
  2. ประเมินค่าพารามิเตอร์ต่างๆ และหาค่าฟังก์ชันความเหมาะสม (เช่น ความแม่นยำ ของการตรวจสอบแบบไขว้ 10 เท่า ของอัลกอริธึมการเรียนรู้ของเครื่องด้วยพารามิเตอร์เหล่านั้น)
  3. จัดอันดับคู่พารามิเตอร์ตามความเหมาะสมสัมพัทธ์
  4. แทนที่ทูเปิลไฮเปอร์พารามิเตอร์ที่มีประสิทธิภาพต่ำที่สุดด้วยทูเปิลใหม่ที่สร้างขึ้นผ่านการผสมข้ามและการกลายพันธุ์
  5. ทำซ้ำขั้นตอนที่ 2-4 จนกว่าประสิทธิภาพของอัลกอริทึมจะน่าพอใจหรือไม่มีการปรับปรุงอีกต่อไป

การเพิ่มประสิทธิภาพเชิงวิวัฒนาการถูกนำมาใช้ในการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์สำหรับอัลกอริธึมการเรียนรู้ของเครื่องเชิงสถิติ[ 9 ]การเรียนรู้ของเครื่องแบบอัตโนมัติเครือข่ายประสาทเทียมทั่วไป[ 25 ]และการค้นหาสถาปัตยกรรมเครือข่ายประสาทเทียมเชิงลึก[ 26 ] [ 27 ]รวมถึงการฝึกน้ำหนักในเครือข่ายประสาทเทียมเชิงลึก[ 28 ]

อิงตามประชากร

การฝึกอบรมแบบอิงประชากร (Population Based Training: PBT) เรียนรู้ทั้งค่าไฮเปอร์พารามิเตอร์และน้ำหนักของเครือข่าย กระบวนการเรียนรู้หลายกระบวนการทำงานอย่างอิสระ โดยใช้ไฮเปอร์พารามิเตอร์ที่แตกต่างกัน เช่นเดียวกับวิธีการวิวัฒนาการ โมเดลที่ทำงานได้ไม่ดีจะถูกแทนที่ด้วยโมเดลที่ปรับใช้ค่าไฮเปอร์พารามิเตอร์และน้ำหนักที่แก้ไขแล้วโดยอิงจากโมเดลที่ทำงานได้ดีกว่า กระบวนการเริ่มต้นแบบอุ่นเครื่อง (warm starting) ของโมเดลทดแทนนี้เป็นความแตกต่างหลักระหว่าง PBT กับวิธีการวิวัฒนาการอื่นๆ ดังนั้น PBT จึงช่วยให้ไฮเปอร์พารามิเตอร์สามารถพัฒนาได้และขจัดความจำเป็นในการปรับแต่งไฮเปอร์พารามิเตอร์ด้วยตนเอง กระบวนการนี้ไม่มีข้อสมมติใดๆ เกี่ยวกับสถาปัตยกรรมของโมเดล ฟังก์ชันการสูญเสีย หรือขั้นตอนการฝึกอบรม

PBT และรูปแบบต่างๆ ของ PBT เป็นวิธีการปรับตัว: โดยจะอัปเดตไฮเปอร์พารามิเตอร์ระหว่างการฝึกโมเดล ในทางตรงกันข้าม วิธีการที่ไม่ปรับตัวจะมีกลยุทธ์ที่ไม่เหมาะสมในการกำหนดชุดไฮเปอร์พารามิเตอร์คงที่สำหรับการฝึกทั้งหมด[ 29 ]

การหยุดก่อนกำหนดตามหลักการ

การลดจำนวนลงครึ่งหนึ่งอย่างต่อเนื่องสำหรับค่าพารามิเตอร์แปดค่าที่กำหนดไว้ วิธีการนี้เริ่มต้นด้วยแบบจำลองแปดแบบที่มีค่าการกำหนดค่าแตกต่างกัน และใช้การลดจำนวนลงครึ่งหนึ่งอย่างต่อเนื่องจนกระทั่งเหลือเพียงแบบจำลองเดียว

อัลกอริทึมการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์แบบหยุดก่อนกำหนดถูกสร้างขึ้นเพื่อวัตถุประสงค์เฉพาะสำหรับพื้นที่การค้นหาขนาดใหญ่ของไฮเปอร์พารามิเตอร์แบบต่อเนื่องและแบบไม่ต่อเนื่อง โดยเฉพาะอย่างยิ่งเมื่อต้นทุนการคำนวณในการประเมินประสิทธิภาพของชุดไฮเปอร์พารามิเตอร์สูง Irace ใช้ขั้นตอนวิธีแข่งแบบวนซ้ำ ซึ่งมุ่งเน้นการค้นหาไปที่การกำหนดค่าที่มีแนวโน้มดีที่สุด โดยใช้การทดสอบทางสถิติเพื่อกำจัดค่าที่ทำงานได้ไม่ดี[ 30 ] [ 31 ] อัลกอริทึมการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์แบบหยุดก่อนกำหนดอีกแบบหนึ่งคือ การลดครึ่งหนึ่งแบบต่อเนื่อง (SHA) [ 32 ]ซึ่งเริ่มต้นด้วยการค้นหาแบบสุ่ม แต่จะตัดโมเดลที่มีประสิทธิภาพต่ำออกเป็นระยะๆ จึงมุ่งเน้นทรัพยากรการคำนวณไปที่โมเดลที่มีแนวโน้มดีกว่า การลดครึ่งหนึ่งแบบต่อเนื่องแบบไม่พร้อมกัน (ASHA) [ 33 ]ปรับปรุงโปรไฟล์การใช้ทรัพยากรของ SHA ให้ดียิ่งขึ้นไปอีกโดยการกำจัดความจำเป็นในการประเมินและตัดโมเดลที่มีประสิทธิภาพต่ำออกพร้อมกัน Hyperband [ 34 ]เป็นอัลกอริทึมระดับสูงที่ใช้การหยุดก่อนกำหนด ซึ่งเรียกใช้ SHA หรือ ASHA หลายครั้งด้วยระดับความรุนแรงของการตัดแต่งที่แตกต่างกัน เพื่อให้สามารถนำไปใช้ได้อย่างกว้างขวางมากขึ้นและมีอินพุตที่จำเป็นน้อยลง

คนอื่น

แนวทาง RBF [ 35 ]และสเปกตรัม[ 36 ]ได้รับการพัฒนาขึ้นเช่นกัน

ปัญหาในการปรับแต่งไฮเปอร์พารามิเตอร์

เมื่อทำการปรับแต่งไฮเปอร์พารามิเตอร์ ชุดของไฮเปอร์พารามิเตอร์มักจะถูกปรับให้เข้ากับชุดข้อมูลฝึกฝน และเลือกโดยพิจารณาจากประสิทธิภาพการวางนัยทั่วไป หรือคะแนนของชุดข้อมูลตรวจสอบ อย่างไรก็ตาม ขั้นตอนนี้มีความเสี่ยงที่จะทำให้ไฮเปอร์พารามิเตอร์นั้นเหมาะสมกับชุดข้อมูลตรวจสอบมากเกินไป ดังนั้น คะแนนประสิทธิภาพการวางนัยทั่วไปของชุดข้อมูลตรวจสอบ (ซึ่งอาจมีหลายชุดในกรณีของกระบวนการตรวจสอบแบบไขว้) จึงไม่สามารถนำมาใช้ประเมินประสิทธิภาพการวางนัยทั่วไปของแบบจำลองสุดท้ายได้พร้อมกัน ในการทำเช่นนั้น ประสิทธิภาพการวางนัยทั่วไปจะต้องได้รับการประเมินบนชุดข้อมูลที่เป็นอิสระ (ซึ่งไม่มีส่วนที่ทับซ้อนกัน) จากชุดข้อมูล (หรือหลายชุด) ที่ใช้สำหรับการปรับแต่งไฮเปอร์พารามิเตอร์ มิฉะนั้นประสิทธิภาพอาจให้ค่าที่มองโลกในแง่ดีเกินไป (มากเกินไป) สามารถทำได้บนชุดข้อมูลทดสอบชุดที่สอง หรือผ่าน กระบวนการ ตรวจสอบแบบไขว้ ภายนอก ที่เรียกว่าการตรวจสอบแบบไขว้ซ้อน ซึ่งช่วยให้สามารถประเมินประสิทธิภาพการวางนัยทั่วไปของแบบจำลองได้อย่างเป็นกลาง โดยคำนึงถึงอคติที่เกิดจากการปรับแต่งไฮเปอร์พารามิเตอร์

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Hyperparameter_optimization&oldid=1344778460 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์

ในการ เรียนรู้ของเครื่อง การปรับแต่งไฮเปอร์พารามิเตอร์ [ 1 ] หรือการปรับจูน คือปัญหาของการเลือกชุด ไฮเปอร์พารามิเตอร์ ที่เหมาะสมที่สุด สำหรับอัลกอริธึมการเรียนรู้...

แนวทาง

ทำการค้นหาแบบกริด (Grid search) โดยพิจารณาค่าต่างๆ ของไฮเปอร์พารามิเตอร์สองตัว สำหรับแต่ละไฮเปอร์พารามิเตอร์ จะพิจารณาค่าที่แตกต่างกัน 10 ค่า ดังนั้นจึงมีการประเมินและเปรียบเทียบค่าผสมที่แตกต่างกันทั้งหมด 100 แบบ...

การค้นหาแบบตาราง

วิธีการดั้งเดิมสำหรับการเพิ่มประสิทธิภาพไฮเปอร์พารามิเตอร์คือ การค้นหาแบบกริด หรือ การกวาดพารามิเตอร์ ซึ่งเป็นการ ค้นหาอย่างละเอียด ถี่ถ้วน ผ่านชุดย่อยที่ระบุด้วยตนเองของพื้นที่ไฮเปอร์พารามิเตอร์ของอัลกอริธึมการเรียนรู้...

การค้นหาแบบสุ่ม

การค้นหาแบบสุ่ม (Random Search) แทนที่การแจงนับชุดค่าผสมทั้งหมดอย่างละเอียดด้วยการเลือกแบบสุ่ม ซึ่งสามารถนำไปใช้กับการตั้งค่าแบบไม่ต่อเนื่องที่อธิบายไว้ข้างต้นได้อย่างง่ายดาย แต่ยังสามารถขยายไปสู่พื้นที่ต่อเนื่องและพื้นที่ผสมได้อีกด้วย...