อ่าน 12 นาที
ปัญหาการหายไปของเกรเดียนต์
ในการเรียนรู้ของเครื่องปัญหาการลดลงของเกรเดียนต์คือปัญหาของขนาดเกรเดียนต์ ที่แตกต่างกันอย่างมากระหว่างเลเยอร์ก่อนหน้าและเลเยอร์ถัดไป ซึ่งพบเมื่อฝึก...
ปัญหาการหายไปของเกรเดียนต์
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| การเรียนรู้ของเครื่องจักรและการขุดข้อมูล |
|---|
ในการเรียนรู้ของเครื่องปัญหาการลดลงของเกรเดียนต์คือปัญหาของขนาดเกรเดียนต์ ที่แตกต่างกันอย่างมากระหว่างเลเยอร์ก่อนหน้าและเลเยอร์ถัดไป ซึ่งพบเมื่อฝึก เครือข่ายประสาทด้วยการแพร่กระจายย้อนกลับในวิธีการดังกล่าว น้ำหนักของเครือข่ายประสาทจะได้รับการอัปเดตตามสัดส่วนของอนุพันธ์ย่อยของฟังก์ชันการสูญเสีย [ 1 ] เมื่อจำนวนขั้นตอนการแพร่กระจายไปข้างหน้าในเครือข่ายเพิ่มขึ้น เช่น เนื่องจากความลึกของเครือข่ายที่มากขึ้น เกรเดียนต์ของน้ำหนักก่อนหน้าจะถูกคำนวณด้วยการคูณที่มากขึ้นเรื่อยๆ การคูณเหล่านี้ทำให้ขนาดเกรเดียนต์ลดลง ดังนั้น เกรเดียนต์ของน้ำหนักก่อนหน้าจะมีขนาดเล็กกว่าเกรเดียนต์ของน้ำหนักถัดไปอย่างมาก ความแตกต่างในขนาดเกรเดียนต์นี้อาจทำให้เกิดความไม่เสถียรในกระบวนการฝึก ทำให้ช้าลง หรือหยุดลงโดยสิ้นเชิง[ 1 ]ตัวอย่างเช่น พิจารณาฟังก์ชันการกระตุ้นแทนเจนต์ไฮเปอร์โบลิก เกร เดียนต์ของฟังก์ชันนี้อยู่ในช่วง[0,1]ผลคูณของการคูณซ้ำๆ กับเกรเดียนต์ดังกล่าวจะลดลงอย่างมาก ปัญหาตรงกันข้าม เมื่อค่าความชันของน้ำหนักในเลเยอร์ก่อนหน้าเพิ่มขึ้นอย่างรวดเร็วแบบทวีคูณ เรียกว่าปัญหาความชันระเบิด (exploding gradient problem )
การแพร่ย้อนกลับ (Backpropagation) ช่วยให้นักวิจัยสามารถฝึกฝนเครือข่ายประสาทเทียมเชิงลึกแบบมีผู้กำกับดูแลได้ ตั้งแต่เริ่มต้น โดยในตอนแรกประสบความสำเร็จเพียงเล็กน้อย วิทยานิพนธ์ ระดับปริญญาโทของHochreiterในปี 1991 ได้ระบุสาเหตุของความล้มเหลวนี้อย่างเป็นทางการใน "ปัญหาการไล่ระดับที่หายไป" [ 2 ] [ 3 ]ซึ่งไม่เพียงแต่ส่งผลกระทบต่อเครือข่ายฟีดฟอร์เวิร์ดหลายชั้น [ 4 ]แต่ยังรวม ถึง เครือข่ายแบบวนซ้ำด้วย [ 5 ] [ 6 ] เครือ ข่ายแบบวนซ้ำเหล่านี้ได้รับการฝึกฝนโดยการคลี่ออกเป็นเครือข่ายฟีดฟอร์เวิร์ดที่ลึกมาก โดยจะสร้างชั้นใหม่สำหรับแต่ละขั้นตอนเวลาของลำดับอินพุตที่ประมวล ผลโดยเครือข่าย (การรวมกันของการคลี่ออกและการแพร่ย้อนกลับเรียกว่าการแพร่ย้อนกลับผ่านเวลา )
แบบจำลองต้นแบบ
ส่วนนี้อ้างอิงจากบทความเรื่อง"ความยากลำบากในการฝึกเครือข่ายประสาทแบบวนซ้ำ"โดย Pascanu, Mikolov และ Bengio [ 6 ]
แบบจำลองเครือข่ายแบบวนซ้ำ
เครือข่ายแบบวนซ้ำทั่วไปมีสถานะซ่อนเร้นอินพุตและเอาต์พุตให้กำหนดพารามิเตอร์โดยเพื่อให้ระบบวิวัฒนาการเป็น บ่อยครั้งที่เอาต์พุตเป็นฟังก์ชันของเมื่อบางค่าปัญหาการลดลงของเกรเดียนต์จะปรากฏชัดเจนเมื่อ ดังนั้นเรา จึงลดรูปสัญลักษณ์ของเราเป็นกรณีพิเศษที่มี: ทีนี้ หาอนุพันธ์ ของมัน : การฝึกเครือข่ายจำเป็นต้องกำหนดฟังก์ชันความสูญเสียที่จะต้องลดให้เหลือน้อยที่สุด ให้เป็น[หมายเหตุ 1 ]จากนั้นการลดให้เหลือน้อยที่สุดโดยการลดเกรเดียนต์จะให้
| การสูญเสียส่วนต่าง |
อัตราการเรียนรู้อยู่ ที่ไหน
ปัญหาเกรเดียนต์หายไป/ระเบิด เกิดขึ้นเนื่องจากการคูณซ้ำๆ ในรูปแบบ
ตัวอย่าง: โครงข่ายประสาทแบบวนซ้ำที่มีฟังก์ชันกระตุ้นแบบซิกมอยด์
เพื่อเป็นตัวอย่างที่เป็นรูปธรรม ลองพิจารณาเครือข่ายแบบวนซ้ำทั่วไปที่กำหนดโดย
โดยที่คือพารามิเตอร์เครือข่ายคือฟังก์ชันการกระตุ้นซิกมอยด์[หมายเหตุ 2 ]ซึ่งใช้กับพิกัดเวกเตอร์แต่ละตัวแยกกัน และคือเวกเตอร์ไบแอส
จากนั้นและดังนั้น เนื่องจากค่า บรรทัดฐานของ ตัวดำเนินการของการคูณข้างต้นจึงมีขอบเขตบนโดยดังนั้นหากรัศมีสเปกตรัมของคือแล้วที่ค่า มาก ๆการคูณข้างต้นจะมีค่าบรรทัดฐานของตัวดำเนินการที่มีขอบเขตบนโดยนี่คือปัญหาเกรเดียนต์ที่หายไปต้นแบบ
ผลของการที่เกรเดียนต์หายไปคือเครือข่ายไม่สามารถเรียนรู้ผลกระทบระยะไกลได้ โปรดจำสมการ ( อนุพันธ์ของการสูญเสีย ): ส่วนประกอบของก็คือส่วนประกอบของและดังนั้นหากมีขอบเขตจำกัด ก็จะมีขอบเขตจำกัดด้วยค่าบางค่า เช่นกัน และดังนั้นพจน์ในจะลดลงเมื่อซึ่งหมายความว่า ในทางปฏิบัติแล้วจะได้รับผลกระทบจากพจน์แรกในผลรวม เท่านั้น
ถ้าเช่นนั้น การวิเคราะห์ข้างต้นจะใช้ไม่ได้ผลเสียทีเดียว[หมายเหตุ 3 ]สำหรับปัญหาการไล่ระดับที่ระเบิดแบบต้นแบบ โมเดลต่อไปนี้จะชัดเจนกว่า
แบบจำลองระบบพลวัต

ตาม (Doya, 1993) [ 7 ]พิจารณาเครือข่ายแบบวนซ้ำหนึ่งเซลล์ประสาทนี้ด้วยการเปิดใช้งานแบบ ซิก มอยด์: ที่ขีดจำกัดเล็ก ๆ พลวัตของเครือข่ายจะ กลายเป็น พิจารณา กรณีอิสระ ก่อน โดยที่ . กำหนด ,และแปรผันใน. เมื่อลดลง ระบบจะมีจุดเสถียร 1 จุด จากนั้นจะมีจุดเสถียร 2 จุดและจุดไม่เสถียร 1 จุด และสุดท้ายจะมีจุดเสถียร 1 จุดอีกครั้ง อย่างชัดเจน จุดเสถียรคือ.
ทีนี้ลองพิจารณาและโดยที่มีขนาดใหญ่พอที่ระบบจะเข้าสู่จุดเสถียรจุดใดจุดหนึ่ง
ถ้าค่า ทำให้ระบบเข้าใกล้จุดที่ไม่เสถียรมาก ๆ การเปลี่ยนแปลงเพียงเล็กน้อยในค่าหรือ ก็จะทำให้ระบบเคลื่อนจากจุดเสถียรหนึ่งไปยังอีกจุดหนึ่งได้ ซึ่งจะทำให้ค่าและมีค่ามาก เป็นกรณีของปรากฏการณ์เกรเดียนต์ระเบิด (exploding gradient)
ถ้าทำให้ระบบอยู่ห่างจากจุดที่ไม่เสถียร การเปลี่ยนแปลงเล็กน้อยในก็จะไม่มีผลต่อทำให้เป็นกรณีที่ความชันหายไป
โปรดทราบว่าในกรณีนี้ไม่มีการลดลงเป็นศูนย์หรือเพิ่มขึ้นเป็นอนันต์ อันที่จริง มันเป็นเกรเดียนต์ที่มีพฤติกรรมดีเพียงอย่างเดียว ซึ่งอธิบายได้ว่าทำไมการวิจัยในยุคแรกจึงมุ่งเน้นไปที่การเรียนรู้หรือการออกแบบระบบเครือข่ายแบบวนซ้ำที่สามารถดำเนินการคำนวณระยะไกลได้ (เช่น การส่งออกอินพุตแรกที่เห็นในตอนท้ายของตอน) โดยการสร้างตัวดึงดูดที่เสถียร[ 8 ]
สำหรับกรณีทั่วไป สัญชาตญาณยังคงใช้ได้ ( [ 6 ]รูปที่ 3, 4 และ 5)
แบบจำลองทางเรขาคณิต
ดำเนินการใช้โครงข่ายประสาทเทียมหนึ่งตัวข้างต้นต่อไป โดยกำหนดค่าคงที่และพิจารณาฟังก์ชันความสูญเสียที่กำหนดโดยซึ่งจะสร้างภูมิทัศน์ความสูญเสียที่ค่อนข้างผิดปกติ: เมื่อเข้าใกล้จากด้านบน ความสูญเสียจะเข้าใกล้ศูนย์ แต่ทันทีที่ข้ามแอ่งดึงดูดจะเปลี่ยนไป และความสูญเสียจะกระโดดไปที่ 0.50 [หมายเหตุ 4 ]
ดังนั้น การพยายามฝึกฝนโดยใช้การลดระดับความชันจะ "ชนกำแพงในภูมิทัศน์การสูญเสีย" และทำให้เกิดความชันระเบิด สถานการณ์ที่ซับซ้อนกว่าเล็กน้อยแสดงไว้ใน[ 6 ]รูปที่ 6
โซลูชัน
เพื่อแก้ไขปัญหานี้ จึงมีการเสนอวิธีการหลายวิธี
อาร์เอ็นเอ็น
สำหรับโครงข่ายประสาทแบบวนซ้ำโครง ข่ายหน่วย ความจำระยะสั้นระยะยาว (LSTM) ได้รับการออกแบบมาเพื่อแก้ปัญหา ( Hochreiter & Schmidhuber , 1997) [ 9 ]
สำหรับปัญหาการไล่ระดับที่ระเบิด (Pascanu et al, 2012) [ 6 ]แนะนำการตัดการไล่ระดับ ซึ่งหมายถึงการหารเวกเตอร์การไล่ระดับด้วยถ้าซึ่งจะจำกัดเวกเตอร์การไล่ระดับให้อยู่ภายในทรงกลมที่มีรัศมี
การทำให้เป็นมาตรฐานแบบกลุ่ม
การทำให้เป็นมาตรฐานแบบกลุ่ม (Batch normalization)เป็นวิธีการมาตรฐานในการแก้ปัญหาทั้งปัญหาการระเบิดและปัญหาการหายไปของเกรเดียนต์[ 10 ] [ 11 ]
ลำดับชั้นหลายระดับ
ในลำดับชั้นของเครือข่ายหลายระดับ ( Schmidhuber , 1992) ฝึกฝนล่วงหน้าทีละระดับผ่านการเรียนรู้แบบไม่กำกับดูแลปรับแต่งอย่างละเอียดผ่านการแพร่กระจายย้อนกลับ [ 12 ] ในที่นี้แต่ละระดับจะเรียนรู้การแสดงแทนแบบบีบอัดของการสังเกตที่ป้อนไปยังระดับถัดไป
เครือข่ายความเชื่อมั่นอย่างลึกซึ้ง
แนวคิดที่คล้ายกันนี้ถูกนำมาใช้ในโครงข่ายประสาทแบบฟีดฟอร์เวิร์ดสำหรับการฝึกก่อนแบบไม่กำกับดูแลเพื่อสร้างโครงสร้างของโครงข่ายประสาท โดยทำให้โครงข่ายเรียนรู้ตัวตรวจจับคุณลักษณะ ที่มีประโยชน์ทั่วไปก่อน จากนั้นโครงข่ายจะได้รับการฝึกฝนเพิ่มเติมโดยการแพร่กระจายย้อนกลับแบบ กำกับดูแล เพื่อจำแนกข้อมูลที่มีป้ายกำกับ โมเดลโครงข่ายความเชื่อเชิงลึกโดย Hinton et al. (2006) เกี่ยวข้องกับการเรียนรู้การกระจายของการแสดงแทนระดับสูงโดยใช้เลเยอร์ต่อเนื่องของตัวแปรแฝง แบบไบนารีหรือค่าจริง มันใช้เครื่อง Boltzmann แบบจำกัดเพื่อสร้างแบบจำลองแต่ละเลเยอร์ใหม่ของคุณลักษณะระดับสูง แต่ละเลเยอร์ใหม่รับประกันการเพิ่มขึ้นของขอบล่างของลอการิทึมความน่าจะเป็นของข้อมูล ดังนั้นจึงปรับปรุงโมเดลหากได้รับการฝึกฝนอย่างเหมาะสม เมื่อเรียนรู้เลเยอร์จำนวนมากเพียงพอแล้ว สถาปัตยกรรมเชิงลึกอาจถูกใช้เป็นโมเดลแบบสร้างโดยการสร้างข้อมูลขึ้นใหม่เมื่อสุ่มตัวอย่างโมเดล ("การส่งผ่านบรรพบุรุษ") จากการเปิดใช้งานคุณลักษณะระดับบนสุด[ 13 ] Hinton รายงานว่าโมเดลของเขามีประสิทธิภาพในการสกัดคุณลักษณะเหนือข้อมูลที่มีโครงสร้างมิติสูง[ 14 ]
ฮาร์ดแวร์ที่เร็วขึ้น
ความก้าวหน้าของฮาร์ดแวร์ส่งผลให้ตั้งแต่ปี 1991 ถึง 2015 พลังการประมวลผลของคอมพิวเตอร์ (โดยเฉพาะอย่างยิ่งที่มาจากGPU ) เพิ่มขึ้นประมาณหนึ่งล้านเท่า ทำให้การแพร่กระจายย้อนกลับแบบมาตรฐานเป็นไปได้สำหรับเครือข่ายที่มีความลึกหลายชั้นมากกว่าเมื่อครั้งที่ปัญหาการลดลงของเกรเดียนต์ได้รับการค้นพบ Schmidhuber ตั้งข้อสังเกตว่า "นี่คือสิ่งที่ทำให้ชนะการแข่งขันการจดจำภาพหลายรายการในปัจจุบัน" แต่ "มันไม่ได้เอาชนะปัญหาในทางพื้นฐานอย่างแท้จริง" [ 15 ]เนื่องจากโมเดลดั้งเดิมที่จัดการกับปัญหาการลดลงของเกรเดียนต์โดย Hinton และคนอื่นๆ ได้รับการฝึกฝนในโปรเซสเซอร์ Xeonไม่ใช่ GPU [ 13 ]
การเชื่อมต่อที่เหลืออยู่
การเชื่อมต่อแบบเหลือหรือการเชื่อมต่อแบบข้ามขั้นตอน หมายถึงรูปแบบทางสถาปัตยกรรมของ,โดยที่เป็นโมดูลเครือข่ายประสาทเทียมที่กำหนด สิ่งนี้จะให้ค่าเกรเดียนต์ของโดยที่เมทริกซ์เอกลักษณ์จะไม่ได้รับผลกระทบจากเกรเดียนต์ที่หายไปหรือระเบิด ในระหว่างการย้อนกลับการแพร่กระจาย ส่วนหนึ่งของเกรเดียนต์จะไหลผ่านการเชื่อมต่อที่เหลืออยู่[ 16 ]
กล่าวโดยละเอียด สมมติให้โครงข่ายประสาทเทียม (ที่ไม่มีการเชื่อมต่อแบบตกค้าง) เป็นแล้วเมื่อมีการเชื่อมต่อแบบตกค้าง เกรเดียนต์ของเอาต์พุตเทียบกับแอคติเวชันที่ชั้นจะเป็นดังนั้นเกรเดียนต์จึงไม่เป็นศูนย์ในโครงข่ายที่มีความลึกมากเท่าใดก็ได้
เครือข่ายฟีดฟอร์เวิร์ดที่มีการเชื่อมต่อตกค้างสามารถถือได้ว่าเป็นกลุ่มของเครือข่ายที่ค่อนข้างตื้น ในมุมมองนี้ เครือข่ายเหล่านี้แก้ปัญหาการลดลงของเกรเดียนต์โดยการเทียบเท่ากับกลุ่มของเครือข่ายตื้นจำนวนมาก ซึ่งไม่มีปัญหาการลดลงของเกรเดียนต์[ 17 ]
ฟังก์ชันการเปิดใช้งานอื่นๆ
ตัวแก้ไขเช่นReLUประสบปัญหาน้อยลงจากปัญหาการหายไปของเกรเดียนต์ เนื่องจากมีการอิ่มตัวเพียงทิศทางเดียวเท่านั้น[ 18 ]
การเริ่มต้นน้ำหนัก
การกำหนดค่าเริ่มต้นของน้ำหนักเป็นอีกแนวทางหนึ่งที่ได้รับการเสนอเพื่อลดปัญหาการลดลงของค่าความชันในโครงข่ายประสาทเทียมแบบลึก
Kumar แนะนำว่าการกระจายของน้ำหนักเริ่มต้นควรแตกต่างกันไปตามฟังก์ชันการกระตุ้นที่ใช้ และเสนอให้กำหนดค่าเริ่มต้นของน้ำหนักในเครือข่ายด้วยฟังก์ชันการกระตุ้นแบบโลจิสติกโดยใช้การกระจายแบบเกาส์เซียนที่มีค่าเฉลี่ยเป็นศูนย์และค่าเบี่ยงเบนมาตรฐานเท่ากับโดยที่คือจำนวนเซลล์ประสาทในแต่ละชั้น[ 19 ]
ในปี 2022 Yilmaz และ Poli [ 20 ]ได้ทำการวิเคราะห์เชิงทฤษฎีเกี่ยวกับวิธีที่เกรเดียนต์ได้รับผลกระทบจากค่าเฉลี่ยของน้ำหนักเริ่มต้นในเครือข่ายประสาทเทียมแบบลึกโดยใช้ฟังก์ชันการเปิดใช้งานแบบโลจิสติก และพบว่าเกรเดียนต์จะไม่หายไปหากค่าเฉลี่ยของน้ำหนักเริ่มต้นถูกกำหนดตามสูตร: กลยุทธ์ง่ายๆ นี้ช่วยให้สามารถฝึกฝนเครือข่ายที่มีเลเยอร์ซ่อน 10 หรือ 15 เลเยอร์ได้อย่างมีประสิทธิภาพและประสิทธิผลโดยใช้ การ แพร่ กระจายย้อนกลับแบบมาตรฐาน
อื่น
Behnke อาศัยเพียงเครื่องหมายของเกรเดียนต์ ( Rprop ) เมื่อฝึกNeural Abstraction Pyramid [ 21 ] ของเขา เพื่อแก้ปัญหาต่างๆ เช่น การสร้างภาพขึ้นใหม่และการระบุตำแหน่งใบหน้า
เครือข่ายประสาทเทียมยังสามารถปรับให้เหมาะสมได้โดยใช้อัลกอริธึมการค้นหาแบบสากลบนพื้นที่ของน้ำหนักของเครือข่ายประสาทเทียม เช่นการเดาสุ่มหรือ อัลกอริ ธึมพันธุกรรม ที่เป็นระบบมากขึ้น วิธีการนี้ไม่ได้ขึ้นอยู่กับเกรเดียนต์และหลีกเลี่ยงปัญหาเกรเดียนต์หายไป[ 22 ]
ดูเพิ่มเติม
หมายเหตุ
- ^ฟังก์ชันการสูญเสียทั่วไปอาจขึ้นอยู่กับลำดับของเอาต์พุตทั้งหมด ซึ่งในกรณีนี้ปัญหาจะเหมือนกัน เพียงแต่ใช้สัญลักษณ์ที่ซับซ้อนกว่า
- ^ฟังก์ชันกระตุ้นใดๆ ก็ใช้ได้ ตราบใดที่สามารถหาอนุพันธ์ได้และมีอนุพันธ์ที่มีขอบเขตจำกัด
- ^พิจารณา และโดยที่และแล้วจะมีรัศมีสเปกตรัมและซึ่งการเลือก
- ^เนื่องจากที่จุดนั้นตัวดึงดูดที่มีเสถียรภาพสองตัวคือและตัวดึงดูดที่ไม่มีเสถียรภาพคือ