ปัญหาการหายไปของเกรเดียนต์

Q: แบบจำลองต้นแบบ

ส่วนนี้อ้างอิงจากบทความเรื่อง "ความยากลำบากในการฝึกเครือข่ายประสาทแบบวนซ้ำ" โดย Pascanu, Mikolov และ Bengio [ 6 ]

Q: แบบจำลองระบบพลวัต

ตาม (Doya, 1993) [ 7 ] พิจารณาเครือข่ายแบบวนซ้ำหนึ่งเซลล์ประสาทนี้ด้วยการเปิดใช้งานแบบ ซิก มอยด์: ที่ขีดจำกัดเล็ก ๆ พลวัตของเครือข่ายจะ กลายเป็น พิจารณา กรณี อิสระ ก่อน โดยที่ . กำหนด , และแปรผันใน.

ในการเรียนรู้ของเครื่องปัญหาการลดลงของเกรเดียนต์คือปัญหาของขนาดเกรเดียนต์ ที่แตกต่างกันอย่างมากระหว่างเลเยอร์ก่อนหน้าและเลเยอร์ถัดไป ซึ่งพบเมื่อฝึก เครือข่ายประสาทด้วยการแพร่กระจายย้อนกลับในวิธีการดังกล่าว น้ำหนักของเครือข่ายประสาทจะได้รับการอัปเดตตามสัดส่วนของอนุพันธ์ย่อยของฟังก์ชันการสูญเสีย [ ^{1 ] เมื่อ}จำนวนขั้นตอนการแพร่กระจายไปข้างหน้าในเครือข่ายเพิ่มขึ้น เช่น เนื่องจากความลึกของเครือข่ายที่มากขึ้น เกรเดียนต์ของน้ำหนักก่อนหน้าจะถูกคำนวณด้วยการคูณที่มากขึ้นเรื่อยๆ การคูณเหล่านี้ทำให้ขนาดเกรเดียนต์ลดลง ดังนั้น เกรเดียนต์ของน้ำหนักก่อนหน้าจะมีขนาดเล็กกว่าเกรเดียนต์ของน้ำหนักถัดไปอย่างมาก ความแตกต่างในขนาดเกรเดียนต์นี้อาจทำให้เกิดความไม่เสถียรในกระบวนการฝึก ทำให้ช้าลง หรือหยุดลงโดยสิ้นเชิง^{[ 1 ]}ตัวอย่างเช่น พิจารณาฟังก์ชันการกระตุ้น แทนเจนต์ไฮเปอร์โบลิก เกร เดียนต์ของฟังก์ชันนี้อยู่ในช่วง $[0,1]$ ผลคูณของการคูณซ้ำๆ กับเกรเดียนต์ดังกล่าวจะลดลงอย่างมาก ปัญหาตรงกันข้าม เมื่อค่าความชันของน้ำหนักในเลเยอร์ก่อนหน้าเพิ่มขึ้นอย่างรวดเร็วแบบทวีคูณ เรียกว่าปัญหาความชันระเบิด (exploding gradient problem )

การแพร่ย้อนกลับ (Backpropagation) ช่วยให้นักวิจัยสามารถฝึกฝนเครือข่ายประสาทเทียมเชิงลึกแบบมีผู้กำกับดูแลได้ ตั้งแต่เริ่มต้น โดยในตอนแรกประสบความสำเร็จเพียงเล็กน้อย วิทยานิพนธ์ ระดับปริญญาโทของHochreiterในปี 1991 ได้ระบุสาเหตุของความล้มเหลวนี้อย่างเป็นทางการใน "ปัญหาการไล่ระดับที่หายไป" ^[²^]^[³^]ซึ่งไม่เพียงแต่ส่งผลกระทบต่อเครือข่ายฟีดฟอร์เวิร์ด หลายชั้น [ ⁴^]แต่ยังรวม ถึง เครือข่ายแบบวนซ้ำด้วย [ ⁵^]^[⁶^]^{เครือ ข่ายแบบวนซ้ำเหล่านี้ได้รับการฝึกฝนโดยการคลี่ออกเป็นเครือข่ายฟีดฟอร์เวิร์ดที่ลึกมาก โดยจะสร้างชั้นใหม่สำหรับแต่ละขั้นตอนเวลาของลำดับอินพุตที่ประมวล}^ผลโดยเครือข่าย (การรวมกันของการคลี่ออกและการแพร่ย้อนกลับเรียกว่าการแพร่ย้อนกลับผ่านเวลา )

แบบจำลองต้นแบบ

ส่วนนี้อ้างอิงจากบทความเรื่อง"ความยากลำบากในการฝึกเครือข่ายประสาทแบบวนซ้ำ"โดย Pascanu, Mikolov และ Bengio ^{[ 6 ]}

แบบจำลองเครือข่ายแบบวนซ้ำ

เครือข่ายแบบวนซ้ำทั่วไปมีสถานะซ่อนเร้นอินพุตและเอาต์พุตให้กำหนดพารามิเตอร์โดยเพื่อให้ระบบวิวัฒนาการเป็น บ่อยครั้งที่เอาต์พุตเป็นฟังก์ชันของเมื่อบางค่าปัญหาการลดลงของเกรเดียนต์จะปรากฏชัดเจนเมื่อ ดังนั้นเรา จึงลดรูปสัญลักษณ์ของเราเป็นกรณีพิเศษที่มี: ทีนี้ หาอนุพันธ์ ของมัน : การฝึกเครือข่ายจำเป็นต้องกำหนดฟังก์ชันความสูญเสียที่จะต้องลดให้เหลือน้อยที่สุด ให้เป็น^[^{หมายเหตุ 1}^]จากนั้นการลดให้เหลือน้อยที่สุดโดยการลดเกรเดียนต์จะให้ $h_{1},h_{2},\dots$ $u_{1},u_{2},\จุด$ $x_{1},x_{2},\dots$ $\theta$ $(h_{t},x_{t})=F(h_{t-1},u_{t},\theta )$ $x_{t}$ $h_{t}$ $x_{t}=G(h_{t})$ $x_{t}=h_{t}$ $x_{t}=F(x_{t-1},u_{t},\theta )$ ${\begin{aligned}dx_{t}&=\nabla _{\theta }F(x_{t-1},u_{t},\theta )d\theta +\nabla _{x}F(x_{t-1},u_{t},\theta )dx_{t-1}\\&=\nabla _{\theta }F(x_{t-1},u_{t},\theta )d\theta +\nabla _{x}F(x_{t-1},u_{t},\theta )\left[\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )d\theta +\nabla _{x}F(x_{t-2},u_{t-1},\theta )dx_{t-2}\right]\\&\;\;\vdots \\&=\left[\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right]d\theta \end{aligned}}$ $L(x_{T},u_{1},\dots ,u_{T})$

dL=\nabla _{x}L(x_{T},u_{1},\dots ,u_{T})\left[\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right]d\theta

การสูญเสียส่วนต่าง

$\Delta \theta =-\eta \cdot \left[\nabla _{x}L(x_{T})\left(\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right)\right]^{T}$ อัตราการเรียนรู้อยู่ ที่ไหน $\eta$

ปัญหาเกรเดียนต์หายไป/ระเบิด เกิดขึ้นเนื่องจากการคูณซ้ำๆ ในรูปแบบ $\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{x}F(x_{t-2},u_{t-1},\theta )\nabla _{x}F(x_{t-3},u_{t-2},\theta )\cdots$

ตัวอย่าง: โครงข่ายประสาทแบบวนซ้ำที่มีฟังก์ชันกระตุ้นแบบซิกมอยด์

เพื่อเป็นตัวอย่างที่เป็นรูปธรรม ลองพิจารณาเครือข่ายแบบวนซ้ำทั่วไปที่กำหนดโดย

$x_{t}=F(x_{t-1},u_{t},\theta )=W_{\text{rec}}\sigma (x_{t-1})+W_{\text{in}}u_{t}+b$ โดยที่คือพารามิเตอร์เครือข่ายคือฟังก์ชันการกระตุ้นซิกมอยด์^[^{หมายเหตุ 2}^]ซึ่งใช้กับพิกัดเวกเตอร์แต่ละตัวแยกกัน และคือเวกเตอร์ไบแอส $\theta =(W_{\text{rec}},W_{\text{in}})$ $\sigma$ $b$

จากนั้นและดังนั้น เนื่องจากค่า บรรทัดฐานของ ตัวดำเนินการของการคูณข้างต้นจึงมีขอบเขตบนโดยดังนั้นหากรัศมีสเปกตรัมของคือแล้วที่ค่า มาก ๆการคูณข้างต้นจะมีค่าบรรทัดฐานของตัวดำเนินการที่มีขอบเขตบนโดยนี่คือปัญหาเกรเดียนต์ที่หายไปต้นแบบ $\nabla _{x}F(x_{t-1},u_{t},\theta )=W_{\text{rec}}\operatorname {diag} (\sigma '(x_{t-1}))$ ${\begin{aligned}&\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{x}F(x_{t-2},u_{t-1},\theta )\cdots \nabla _{x}F(x_{t-k},u_{t-k+1},\theta )\\&=W_{\text{rec}}\operatorname {diag} (\sigma '(x_{t-1}))W_{\text{rec}}\operatorname {diag} (\sigma '(x_{t-2}))\cdots W_{\text{rec}}\operatorname {diag} (\sigma '(x_{t-k}))\end{aligned}}$ $\left|\sigma '\right|\leq 1$ $\left\|W_{\text{rec}}\right\|^{k}$ $W_{\text{rec}}$ $\gamma <1$ $k$ $\gamma ^{k}\to 0$

ผลของการที่เกรเดียนต์หายไปคือเครือข่ายไม่สามารถเรียนรู้ผลกระทบระยะไกลได้ โปรดจำสมการ ( อนุพันธ์ของการสูญเสีย ): ส่วนประกอบของก็คือส่วนประกอบของและดังนั้นหากมีขอบเขตจำกัด ก็จะมีขอบเขตจำกัดด้วยค่าบางค่า เช่นกัน และดังนั้นพจน์ในจะลดลงเมื่อซึ่งหมายความว่า ในทางปฏิบัติแล้วจะได้รับผลกระทบจากพจน์แรกในผลรวม เท่านั้น $\nabla _{\theta }L=\nabla _{x}L(x_{T},u_{1},\dots ,u_{T})\left[\nabla _{\theta }F(x_{t-1},u_{t},\theta )+\nabla _{x}F(x_{t-1},u_{t},\theta )\nabla _{\theta }F(x_{t-2},u_{t-1},\theta )+\cdots \right]$ $\nabla _{\theta }F(x,u,\theta )$ $\sigma (x)$ $u$ $u_{t},u_{t-1},\dots$ $\left\|\nabla _{\theta }F(x_{t-k-1},u_{t-k},\theta )\right\|$ $M>0$ $\nabla _{\theta }L$ $M\gamma ^{k}$ $\nabla _{\theta }L$ $O(\gamma ^{-1})$

ถ้าเช่นนั้น การวิเคราะห์ข้างต้นจะใช้ไม่ได้ผลเสียทีเดียว^[^{หมายเหตุ 3}^]สำหรับปัญหาการไล่ระดับที่ระเบิดแบบต้นแบบ โมเดลต่อไปนี้จะชัดเจนกว่า $\gamma \geq 1$

แบบจำลองระบบพลวัต

ตาม (Doya, 1993) ^{[ 7 ]}พิจารณาเครือข่ายแบบวนซ้ำหนึ่งเซลล์ประสาทนี้ด้วยการเปิดใช้งานแบบ ซิก มอยด์: ที่ขีดจำกัดเล็ก ๆ พลวัตของเครือข่ายจะ กลายเป็น พิจารณา กรณีอิสระ ก่อน โดยที่ . กำหนด ,และแปรผันใน. เมื่อลดลง ระบบจะมีจุดเสถียร 1 จุด จากนั้นจะมีจุดเสถียร 2 จุดและจุดไม่เสถียร 1 จุด และสุดท้ายจะมีจุดเสถียร 1 จุดอีกครั้ง อย่างชัดเจน จุดเสถียรคือ. $x_{t+1}=(1-\varepsilon )x_{t}+\varepsilon \sigma (wx_{t}+b)+\varepsilon w'u_{t}$ $\varepsilon$ ${\frac {dx}{dt}}=-x(t)+\sigma (wx(t)+b)+w'u(t)$ $u=0$ $w=5.0$ $b$ $[-3,-2]$ $b$ $(x,b)=\left(x,\ln \left({\frac {x}{1-x}}\right)-5x\right)$

ทีนี้ลองพิจารณาและโดยที่มีขนาดใหญ่พอที่ระบบจะเข้าสู่จุดเสถียรจุดใดจุดหนึ่ง ${\frac {\Delta x(T)}{\Delta x(0)}}$ ${\frac {\Delta x(T)}{\Delta b}}$ $T$

ถ้าค่า ทำให้ระบบเข้าใกล้จุดที่ไม่เสถียรมาก ๆ การเปลี่ยนแปลงเพียงเล็กน้อยในค่าหรือ ก็จะทำให้ระบบเคลื่อนจากจุดเสถียรหนึ่งไปยังอีกจุดหนึ่งได้ ซึ่งจะทำให้ค่าและมีค่ามาก เป็นกรณีของปรากฏการณ์เกรเดียนต์ระเบิด (exploding gradient) $(x(0),b)$ $x(0)$ $b$ $x(T)$ ${\frac {\Delta x(T)}{\Delta x(0)}}$ ${\frac {\Delta x(T)}{\Delta b}}$

ถ้าทำให้ระบบอยู่ห่างจากจุดที่ไม่เสถียร การเปลี่ยนแปลงเล็กน้อยในก็จะไม่มีผลต่อทำให้เป็นกรณีที่ความชันหายไป $(x(0),b)$ $x(0)$ $x(T)$ ${\frac {\Delta x(T)}{\Delta x(0)}}=0$

โปรดทราบว่าในกรณีนี้ไม่มีการลดลงเป็นศูนย์หรือเพิ่มขึ้นเป็นอนันต์ อันที่จริง มันเป็นเกรเดียนต์ที่มีพฤติกรรมดีเพียงอย่างเดียว ซึ่งอธิบายได้ว่าทำไมการวิจัยในยุคแรกจึงมุ่งเน้นไปที่การเรียนรู้หรือการออกแบบระบบเครือข่ายแบบวนซ้ำที่สามารถดำเนินการคำนวณระยะไกลได้ (เช่น การส่งออกอินพุตแรกที่เห็นในตอนท้ายของตอน) โดยการสร้างตัวดึงดูดที่เสถียร^[⁸^] ${\frac {\Delta x(T)}{\Delta b}}\approx {\frac {\partial x(T)}{\partial b}}=\left({\frac {1}{x(T)(1-x(T))}}-5\right)^{-1}$

สำหรับกรณีทั่วไป สัญชาตญาณยังคงใช้ได้ ( ^{[ 6 ]}รูปที่ 3, 4 และ 5)

แบบจำลองทางเรขาคณิต

ดำเนินการใช้โครงข่ายประสาทเทียมหนึ่งตัวข้างต้นต่อไป โดยกำหนดค่าคงที่และพิจารณาฟังก์ชันความสูญเสียที่กำหนดโดยซึ่งจะสร้างภูมิทัศน์ความสูญเสียที่ค่อนข้างผิดปกติ: เมื่อเข้าใกล้จากด้านบน ความสูญเสียจะเข้าใกล้ศูนย์ แต่ทันทีที่ข้ามแอ่งดึงดูดจะเปลี่ยนไป และความสูญเสียจะกระโดดไปที่ 0.50 ^[^{หมายเหตุ 4}^] $w=5,x(0)=0.5,u(t)=0$ $L(x(T))=(0.855-x(T))^{2}$ $b$ $-2.5$ $b$ $-2.5$

ดังนั้น การพยายามฝึกฝนโดยใช้การลดระดับความชันจะ "ชนกำแพงในภูมิทัศน์การสูญเสีย" และทำให้เกิดความชันระเบิด สถานการณ์ที่ซับซ้อนกว่าเล็กน้อยแสดงไว้ใน^[⁶^]รูปที่ 6 $b$

โซลูชัน

1 ] เมื่อ

[

[

4

]

[

[

[

[ 7 ]

[

[

ปัญหาการหายไปของเกรเดียนต์

ปัญหาการหายไปของเกรเดียนต์

แบบจำลองต้นแบบ

แบบจำลองเครือข่ายแบบวนซ้ำ

ตัวอย่าง: โครงข่ายประสาทแบบวนซ้ำที่มีฟังก์ชันกระตุ้นแบบซิกมอยด์

แบบจำลองระบบพลวัต

แบบจำลองทางเรขาคณิต

โซลูชัน

อาร์เอ็นเอ็น

การทำให้เป็นมาตรฐานแบบกลุ่ม

ลำดับชั้นหลายระดับ

เครือข่ายความเชื่อมั่นอย่างลึกซึ้ง

ฮาร์ดแวร์ที่เร็วขึ้น

การเชื่อมต่อที่เหลืออยู่

ฟังก์ชันการเปิดใช้งานอื่นๆ

การเริ่มต้นน้ำหนัก

อื่น

ดูเพิ่มเติม

หมายเหตุ

ข้อมูลสำคัญจากบทความ