กลับไปหน้าบทความ

อ่าน 12 นาที

ปัญหาการหายไปของเกรเดียนต์

ในการเรียนรู้ของเครื่องปัญหาการลดลงของเกรเดียนต์คือปัญหาของขนาดเกรเดียนต์ ที่แตกต่างกันอย่างมากระหว่างเลเยอร์ก่อนหน้าและเลเยอร์ถัดไป ซึ่งพบเมื่อฝึก...

ปัญหาการหายไปของเกรเดียนต์

ในการเรียนรู้ของเครื่องปัญหาการลดลงของเกรเดียนต์คือปัญหาของขนาดเกรเดียนต์ ที่แตกต่างกันอย่างมากระหว่างเลเยอร์ก่อนหน้าและเลเยอร์ถัดไป ซึ่งพบเมื่อฝึก เครือข่ายประสาทด้วยการแพร่กระจายย้อนกลับในวิธีการดังกล่าว น้ำหนักของเครือข่ายประสาทจะได้รับการอัปเดตตามสัดส่วนของอนุพันธ์ย่อยของฟังก์ชันการสูญเสีย [ 1 ] เมื่อจำนวนขั้นตอนการแพร่กระจายไปข้างหน้าในเครือข่ายเพิ่มขึ้น เช่น เนื่องจากความลึกของเครือข่ายที่มากขึ้น เกรเดียนต์ของน้ำหนักก่อนหน้าจะถูกคำนวณด้วยการคูณที่มากขึ้นเรื่อยๆ การคูณเหล่านี้ทำให้ขนาดเกรเดียนต์ลดลง ดังนั้น เกรเดียนต์ของน้ำหนักก่อนหน้าจะมีขนาดเล็กกว่าเกรเดียนต์ของน้ำหนักถัดไปอย่างมาก ความแตกต่างในขนาดเกรเดียนต์นี้อาจทำให้เกิดความไม่เสถียรในกระบวนการฝึก ทำให้ช้าลง หรือหยุดลงโดยสิ้นเชิง[ 1 ]ตัวอย่างเช่น พิจารณาฟังก์ชันการกระตุ้นแทนเจนต์ไฮเปอร์โบลิก เกร เดียนต์ของฟังก์ชันนี้อยู่ในช่วง[0,1]ผลคูณของการคูณซ้ำๆ กับเกรเดียนต์ดังกล่าวจะลดลงอย่างมาก ปัญหาตรงกันข้าม เมื่อค่าความชันของน้ำหนักในเลเยอร์ก่อนหน้าเพิ่มขึ้นอย่างรวดเร็วแบบทวีคูณ เรียกว่าปัญหาความชันระเบิด (exploding gradient problem )

การแพร่ย้อนกลับ (Backpropagation) ช่วยให้นักวิจัยสามารถฝึกฝนเครือข่ายประสาทเทียมเชิงลึกแบบมีผู้กำกับดูแลได้ ตั้งแต่เริ่มต้น โดยในตอนแรกประสบความสำเร็จเพียงเล็กน้อย วิทยานิพนธ์ ระดับปริญญาโทของHochreiterในปี 1991 ได้ระบุสาเหตุของความล้มเหลวนี้อย่างเป็นทางการใน "ปัญหาการไล่ระดับที่หายไป" [ 2 ] [ 3 ]ซึ่งไม่เพียงแต่ส่งผลกระทบต่อเครือข่ายฟีดฟอร์เวิร์ดหลายชั้น [ 4 ]แต่ยังรวม ถึง เครือข่ายแบบวนซ้ำด้วย [ 5 ] [ 6 ] เครือ ข่ายแบบวนซ้ำเหล่านี้ได้รับการฝึกฝนโดยการคลี่ออกเป็นเครือข่ายฟีดฟอร์เวิร์ดที่ลึกมาก โดยจะสร้างชั้นใหม่สำหรับแต่ละขั้นตอนเวลาของลำดับอินพุตที่ประมวล ผลโดยเครือข่าย (การรวมกันของการคลี่ออกและการแพร่ย้อนกลับเรียกว่าการแพร่ย้อนกลับผ่านเวลา )

แบบจำลองต้นแบบ

ส่วนนี้อ้างอิงจากบทความเรื่อง"ความยากลำบากในการฝึกเครือข่ายประสาทแบบวนซ้ำ"โดย Pascanu, Mikolov และ Bengio [ 6 ]

แบบจำลองเครือข่ายแบบวนซ้ำ

เครือข่ายแบบวนซ้ำทั่วไปมีสถานะซ่อนเร้นอินพุตและเอาต์พุตให้กำหนดพารามิเตอร์โดยเพื่อให้ระบบวิวัฒนาการเป็น บ่อยครั้งที่เอาต์พุตเป็นฟังก์ชันของเมื่อบางค่าปัญหาการลดลงของเกรเดียนต์จะปรากฏชัดเจนเมื่อ ดังนั้นเรา จึงลดรูปสัญลักษณ์ของเราเป็นกรณีพิเศษที่มี: ทีนี้ หาอนุพันธ์ ของมัน : การฝึกเครือข่ายจำเป็นต้องกำหนดฟังก์ชันความสูญเสียที่จะต้องลดให้เหลือน้อยที่สุด ให้เป็น[หมายเหตุ 1 ]จากนั้นการลดให้เหลือน้อยที่สุดโดยการลดเกรเดียนต์จะให้

อัตราการเรียนรู้อยู่ ที่ไหน

ปัญหาเกรเดียนต์หายไป/ระเบิด เกิดขึ้นเนื่องจากการคูณซ้ำๆ ในรูปแบบ

ตัวอย่าง: โครงข่ายประสาทแบบวนซ้ำที่มีฟังก์ชันกระตุ้นแบบซิกมอยด์

เพื่อเป็นตัวอย่างที่เป็นรูปธรรม ลองพิจารณาเครือข่ายแบบวนซ้ำทั่วไปที่กำหนดโดย

โดยที่คือพารามิเตอร์เครือข่ายคือฟังก์ชันการกระตุ้นซิกมอยด์[หมายเหตุ 2 ]ซึ่งใช้กับพิกัดเวกเตอร์แต่ละตัวแยกกัน และคือเวกเตอร์ไบแอส

จากนั้นและดังนั้น เนื่องจากค่า บรรทัดฐานของ ตัวดำเนินการของการคูณข้างต้นจึงมีขอบเขตบนโดยดังนั้นหากรัศมีสเปกตรัมของคือแล้วที่ค่า มาก ๆการคูณข้างต้นจะมีค่าบรรทัดฐานของตัวดำเนินการที่มีขอบเขตบนโดยนี่คือปัญหาเกรเดียนต์ที่หายไปต้นแบบ

ผลของการที่เกรเดียนต์หายไปคือเครือข่ายไม่สามารถเรียนรู้ผลกระทบระยะไกลได้ โปรดจำสมการ ( อนุพันธ์ของการสูญเสีย ): ส่วนประกอบของก็คือส่วนประกอบของและดังนั้นหากมีขอบเขตจำกัด ก็จะมีขอบเขตจำกัดด้วยค่าบางค่า เช่นกัน และดังนั้นพจน์ในจะลดลงเมื่อซึ่งหมายความว่า ในทางปฏิบัติแล้วจะได้รับผลกระทบจากพจน์แรกในผลรวม เท่านั้น

ถ้าเช่นนั้น การวิเคราะห์ข้างต้นจะใช้ไม่ได้ผลเสียทีเดียว[หมายเหตุ 3 ]สำหรับปัญหาการไล่ระดับที่ระเบิดแบบต้นแบบ โมเดลต่อไปนี้จะชัดเจนกว่า

แบบจำลองระบบพลวัต

แผนภาพการแยกสาขาของเครือข่ายประสาทวนซ้ำแบบหนึ่งนิวรอน แกนแนวนอนคือ b และแกนแนวตั้งคือ x เส้นโค้งสีดำแสดงถึงเซตของจุดสมดุลที่เสถียรและไม่เสถียร สังเกตว่าระบบแสดงปรากฏการณ์ฮิสเทอรีซิสและสามารถใช้เป็นหน่วยความจำแบบหนึ่งบิตได้

ตาม (Doya, 1993) [ 7 ]พิจารณาเครือข่ายแบบวนซ้ำหนึ่งเซลล์ประสาทนี้ด้วยการเปิดใช้งานแบบ ซิก มอยด์: ที่ขีดจำกัดเล็ก ๆ พลวัตของเครือข่ายจะ กลายเป็น พิจารณา กรณีอิสระ ก่อน โดยที่ . กำหนด ,และแปรผันใน. เมื่อลดลง ระบบจะมีจุดเสถียร 1 จุด จากนั้นจะมีจุดเสถียร 2 จุดและจุดไม่เสถียร 1 จุด และสุดท้ายจะมีจุดเสถียร 1 จุดอีกครั้ง อย่างชัดเจน จุดเสถียรคือ.

ทีนี้ลองพิจารณาและโดยที่มีขนาดใหญ่พอที่ระบบจะเข้าสู่จุดเสถียรจุดใดจุดหนึ่ง

ถ้าค่า ทำให้ระบบเข้าใกล้จุดที่ไม่เสถียรมาก ๆ การเปลี่ยนแปลงเพียงเล็กน้อยในค่าหรือ ก็จะทำให้ระบบเคลื่อนจากจุดเสถียรหนึ่งไปยังอีกจุดหนึ่งได้ ซึ่งจะทำให้ค่าและมีค่ามาก เป็นกรณีของปรากฏการณ์เกรเดียนต์ระเบิด (exploding gradient)

ถ้าทำให้ระบบอยู่ห่างจากจุดที่ไม่เสถียร การเปลี่ยนแปลงเล็กน้อยในก็จะไม่มีผลต่อทำให้เป็นกรณีที่ความชันหายไป

โปรดทราบว่าในกรณีนี้ไม่มีการลดลงเป็นศูนย์หรือเพิ่มขึ้นเป็นอนันต์ อันที่จริง มันเป็นเกรเดียนต์ที่มีพฤติกรรมดีเพียงอย่างเดียว ซึ่งอธิบายได้ว่าทำไมการวิจัยในยุคแรกจึงมุ่งเน้นไปที่การเรียนรู้หรือการออกแบบระบบเครือข่ายแบบวนซ้ำที่สามารถดำเนินการคำนวณระยะไกลได้ (เช่น การส่งออกอินพุตแรกที่เห็นในตอนท้ายของตอน) โดยการสร้างตัวดึงดูดที่เสถียร[ 8 ]

สำหรับกรณีทั่วไป สัญชาตญาณยังคงใช้ได้ ( [ 6 ]รูปที่ 3, 4 และ 5)

แบบจำลองทางเรขาคณิต

ดำเนินการใช้โครงข่ายประสาทเทียมหนึ่งตัวข้างต้นต่อไป โดยกำหนดค่าคงที่และพิจารณาฟังก์ชันความสูญเสียที่กำหนดโดยซึ่งจะสร้างภูมิทัศน์ความสูญเสียที่ค่อนข้างผิดปกติ: เมื่อเข้าใกล้จากด้านบน ความสูญเสียจะเข้าใกล้ศูนย์ แต่ทันทีที่ข้ามแอ่งดึงดูดจะเปลี่ยนไป และความสูญเสียจะกระโดดไปที่ 0.50 [หมายเหตุ 4 ]

ดังนั้น การพยายามฝึกฝนโดยใช้การลดระดับความชันจะ "ชนกำแพงในภูมิทัศน์การสูญเสีย" และทำให้เกิดความชันระเบิด สถานการณ์ที่ซับซ้อนกว่าเล็กน้อยแสดงไว้ใน[ 6 ]รูปที่ 6

โซลูชัน

(Learn how and when to remove this message)

เพื่อแก้ไขปัญหานี้ จึงมีการเสนอวิธีการหลายวิธี

อาร์เอ็นเอ็น

สำหรับโครงข่ายประสาทแบบวนซ้ำโครง ข่ายหน่วย ความจำระยะสั้นระยะยาว (LSTM) ได้รับการออกแบบมาเพื่อแก้ปัญหา ( Hochreiter & Schmidhuber , 1997) [ 9 ]

สำหรับปัญหาการไล่ระดับที่ระเบิด (Pascanu et al, 2012) [ 6 ]แนะนำการตัดการไล่ระดับ ซึ่งหมายถึงการหารเวกเตอร์การไล่ระดับด้วยถ้าซึ่งจะจำกัดเวกเตอร์การไล่ระดับให้อยู่ภายในทรงกลมที่มีรัศมี

การทำให้เป็นมาตรฐานแบบกลุ่ม

การทำให้เป็นมาตรฐานแบบกลุ่ม (Batch normalization)เป็นวิธีการมาตรฐานในการแก้ปัญหาทั้งปัญหาการระเบิดและปัญหาการหายไปของเกรเดียนต์[ 10 ] [ 11 ]

ลำดับชั้นหลายระดับ

ในลำดับชั้นของเครือข่ายหลายระดับ ( Schmidhuber , 1992) ฝึกฝนล่วงหน้าทีละระดับผ่านการเรียนรู้แบบไม่กำกับดูแลปรับแต่งอย่างละเอียดผ่านการแพร่กระจายย้อนกลับ [ 12 ] ในที่นี้แต่ละระดับจะเรียนรู้การแสดงแทนแบบบีบอัดของการสังเกตที่ป้อนไปยังระดับถัดไป

เครือข่ายความเชื่อมั่นอย่างลึกซึ้ง

แนวคิดที่คล้ายกันนี้ถูกนำมาใช้ในโครงข่ายประสาทแบบฟีดฟอร์เวิร์ดสำหรับการฝึกก่อนแบบไม่กำกับดูแลเพื่อสร้างโครงสร้างของโครงข่ายประสาท โดยทำให้โครงข่ายเรียนรู้ตัวตรวจจับคุณลักษณะ ที่มีประโยชน์ทั่วไปก่อน จากนั้นโครงข่ายจะได้รับการฝึกฝนเพิ่มเติมโดยการแพร่กระจายย้อนกลับแบบ กำกับดูแล เพื่อจำแนกข้อมูลที่มีป้ายกำกับ โมเดลโครงข่ายความเชื่อเชิงลึกโดย Hinton et al. (2006) เกี่ยวข้องกับการเรียนรู้การกระจายของการแสดงแทนระดับสูงโดยใช้เลเยอร์ต่อเนื่องของตัวแปรแฝง แบบไบนารีหรือค่าจริง มันใช้เครื่อง Boltzmann แบบจำกัดเพื่อสร้างแบบจำลองแต่ละเลเยอร์ใหม่ของคุณลักษณะระดับสูง แต่ละเลเยอร์ใหม่รับประกันการเพิ่มขึ้นของขอบล่างของลอการิทึมความน่าจะเป็นของข้อมูล ดังนั้นจึงปรับปรุงโมเดลหากได้รับการฝึกฝนอย่างเหมาะสม เมื่อเรียนรู้เลเยอร์จำนวนมากเพียงพอแล้ว สถาปัตยกรรมเชิงลึกอาจถูกใช้เป็นโมเดลแบบสร้างโดยการสร้างข้อมูลขึ้นใหม่เมื่อสุ่มตัวอย่างโมเดล ("การส่งผ่านบรรพบุรุษ") จากการเปิดใช้งานคุณลักษณะระดับบนสุด[ 13 ] Hinton รายงานว่าโมเดลของเขามีประสิทธิภาพในการสกัดคุณลักษณะเหนือข้อมูลที่มีโครงสร้างมิติสูง[ 14 ]

ฮาร์ดแวร์ที่เร็วขึ้น

ความก้าวหน้าของฮาร์ดแวร์ส่งผลให้ตั้งแต่ปี 1991 ถึง 2015 พลังการประมวลผลของคอมพิวเตอร์ (โดยเฉพาะอย่างยิ่งที่มาจากGPU ) เพิ่มขึ้นประมาณหนึ่งล้านเท่า ทำให้การแพร่กระจายย้อนกลับแบบมาตรฐานเป็นไปได้สำหรับเครือข่ายที่มีความลึกหลายชั้นมากกว่าเมื่อครั้งที่ปัญหาการลดลงของเกรเดียนต์ได้รับการค้นพบ Schmidhuber ตั้งข้อสังเกตว่า "นี่คือสิ่งที่ทำให้ชนะการแข่งขันการจดจำภาพหลายรายการในปัจจุบัน" แต่ "มันไม่ได้เอาชนะปัญหาในทางพื้นฐานอย่างแท้จริง" [ 15 ]เนื่องจากโมเดลดั้งเดิมที่จัดการกับปัญหาการลดลงของเกรเดียนต์โดย Hinton และคนอื่นๆ ได้รับการฝึกฝนในโปรเซสเซอร์ Xeonไม่ใช่ GPU [ 13 ]

การเชื่อมต่อที่เหลืออยู่

การเชื่อมต่อแบบเหลือหรือการเชื่อมต่อแบบข้ามขั้นตอน หมายถึงรูปแบบทางสถาปัตยกรรมของ,โดยที่เป็นโมดูลเครือข่ายประสาทเทียมที่กำหนด สิ่งนี้จะให้ค่าเกรเดียนต์ของโดยที่เมทริกซ์เอกลักษณ์จะไม่ได้รับผลกระทบจากเกรเดียนต์ที่หายไปหรือระเบิด ในระหว่างการย้อนกลับการแพร่กระจาย ส่วนหนึ่งของเกรเดียนต์จะไหลผ่านการเชื่อมต่อที่เหลืออยู่[ 16 ]

กล่าวโดยละเอียด สมมติให้โครงข่ายประสาทเทียม (ที่ไม่มีการเชื่อมต่อแบบตกค้าง) เป็นแล้วเมื่อมีการเชื่อมต่อแบบตกค้าง เกรเดียนต์ของเอาต์พุตเทียบกับแอคติเวชันที่ชั้นจะเป็นดังนั้นเกรเดียนต์จึงไม่เป็นศูนย์ในโครงข่ายที่มีความลึกมากเท่าใดก็ได้

เครือข่ายฟีดฟอร์เวิร์ดที่มีการเชื่อมต่อตกค้างสามารถถือได้ว่าเป็นกลุ่มของเครือข่ายที่ค่อนข้างตื้น ในมุมมองนี้ เครือข่ายเหล่านี้แก้ปัญหาการลดลงของเกรเดียนต์โดยการเทียบเท่ากับกลุ่มของเครือข่ายตื้นจำนวนมาก ซึ่งไม่มีปัญหาการลดลงของเกรเดียนต์[ 17 ]

ฟังก์ชันการเปิดใช้งานอื่นๆ

ตัวแก้ไขเช่นReLUประสบปัญหาน้อยลงจากปัญหาการหายไปของเกรเดียนต์ เนื่องจากมีการอิ่มตัวเพียงทิศทางเดียวเท่านั้น[ 18 ]

การเริ่มต้นน้ำหนัก

การกำหนดค่าเริ่มต้นของน้ำหนักเป็นอีกแนวทางหนึ่งที่ได้รับการเสนอเพื่อลดปัญหาการลดลงของค่าความชันในโครงข่ายประสาทเทียมแบบลึก

Kumar แนะนำว่าการกระจายของน้ำหนักเริ่มต้นควรแตกต่างกันไปตามฟังก์ชันการกระตุ้นที่ใช้ และเสนอให้กำหนดค่าเริ่มต้นของน้ำหนักในเครือข่ายด้วยฟังก์ชันการกระตุ้นแบบโลจิสติกโดยใช้การกระจายแบบเกาส์เซียนที่มีค่าเฉลี่ยเป็นศูนย์และค่าเบี่ยงเบนมาตรฐานเท่ากับโดยที่คือจำนวนเซลล์ประสาทในแต่ละชั้น[ 19 ]

ในปี 2022 Yilmaz และ Poli [ 20 ]ได้ทำการวิเคราะห์เชิงทฤษฎีเกี่ยวกับวิธีที่เกรเดียนต์ได้รับผลกระทบจากค่าเฉลี่ยของน้ำหนักเริ่มต้นในเครือข่ายประสาทเทียมแบบลึกโดยใช้ฟังก์ชันการเปิดใช้งานแบบโลจิสติก และพบว่าเกรเดียนต์จะไม่หายไปหากค่าเฉลี่ยของน้ำหนักเริ่มต้นถูกกำหนดตามสูตร: กลยุทธ์ง่ายๆ นี้ช่วยให้สามารถฝึกฝนเครือข่ายที่มีเลเยอร์ซ่อน 10 หรือ 15 เลเยอร์ได้อย่างมีประสิทธิภาพและประสิทธิผลโดยใช้ การ แพร่ กระจายย้อนกลับแบบมาตรฐาน

อื่น

Behnke อาศัยเพียงเครื่องหมายของเกรเดียนต์ ( Rprop ) เมื่อฝึกNeural Abstraction Pyramid [ 21 ] ของเขา เพื่อแก้ปัญหาต่างๆ เช่น การสร้างภาพขึ้นใหม่และการระบุตำแหน่งใบหน้า

เครือข่ายประสาทเทียมยังสามารถปรับให้เหมาะสมได้โดยใช้อัลกอริธึมการค้นหาแบบสากลบนพื้นที่ของน้ำหนักของเครือข่ายประสาทเทียม เช่นการเดาสุ่มหรือ อัลกอริ ธึมพันธุกรรม ที่เป็นระบบมากขึ้น วิธีการนี้ไม่ได้ขึ้นอยู่กับเกรเดียนต์และหลีกเลี่ยงปัญหาเกรเดียนต์หายไป[ 22 ]

ดูเพิ่มเติม

หมายเหตุ

  1. ^ฟังก์ชันการสูญเสียทั่วไปอาจขึ้นอยู่กับลำดับของเอาต์พุตทั้งหมด ซึ่งในกรณีนี้ปัญหาจะเหมือนกัน เพียงแต่ใช้สัญลักษณ์ที่ซับซ้อนกว่า
  2. ^ฟังก์ชันกระตุ้นใดๆ ก็ใช้ได้ ตราบใดที่สามารถหาอนุพันธ์ได้และมีอนุพันธ์ที่มีขอบเขตจำกัด
  3. ^พิจารณา และโดยที่และแล้วจะมีรัศมีสเปกตรัมและซึ่งการเลือก
  4. ^เนื่องจากที่จุดนั้นตัวดึงดูดที่มีเสถียรภาพสองตัวคือและตัวดึงดูดที่ไม่มีเสถียรภาพคือ
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Vanishing_gradient_problem&oldid=1356326467 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ปัญหาการหายไปของเกรเดียนต์

ในการเรียนรู้ของเครื่องปัญหาการลดลงของเกรเดียนต์คือปัญหาของขนาดเกรเดียนต์ ที่แตกต่างกันอย่างมากระหว่างเลเยอร์ก่อนหน้าและเลเยอร์ถัดไป ซึ่งพบเมื่อฝึก...

แบบจำลองต้นแบบ

ส่วนนี้อ้างอิงจากบทความเรื่อง "ความยากลำบากในการฝึกเครือข่ายประสาทแบบวนซ้ำ" โดย Pascanu, Mikolov และ Bengio [ 6 ]

แบบจำลองเครือข่ายแบบวนซ้ำ

เครือข่ายแบบวนซ้ำทั่วไปมีสถานะซ่อน เร้น อินพุต และ เอาต์พุตให้กำหนดพารามิเตอร์โดย เพื่อ ให้ระบบวิวัฒนาการเป็น บ่อยครั้งที่เอาต์พุตเป็นฟังก์ชันของ เมื่อ บางค่า ปัญหา การลดลงของเกรเดียนต์จะปรากฏชัดเจนเมื่อ ดังนั้นเรา จึง ลดรูปสัญลักษณ์ของเราเป็นกรณีพิเศษที่มี:...

แบบจำลองระบบพลวัต

ตาม (Doya, 1993) [ 7 ] พิจารณาเครือข่ายแบบวนซ้ำหนึ่งเซลล์ประสาทนี้ด้วยการเปิดใช้งานแบบ ซิก มอยด์: ที่ขีดจำกัดเล็ก ๆ พลวัตของเครือข่ายจะ กลายเป็น พิจารณา กรณี อิสระ ก่อน โดยที่ . กำหนด , และแปรผันใน.