เครือข่ายประสาทเทียมตกค้าง

บล็อกตกค้างในเครือข่ายตกค้างเชิงลึก ในที่นี้ การเชื่อมต่อตกค้างจะข้ามสองเลเยอร์

เครือข่ายประสาทเทียมแบบตกค้าง (เรียกอีกอย่างว่าเครือข่ายตกค้างหรือResNet ) ^{[ 1 ]}เป็น สถาปัตยกรรม การเรียนรู้เชิงลึกที่เลเยอร์เรียนรู้ฟังก์ชันตกค้างโดยอ้างอิงจากอินพุตของเลเยอร์ พัฒนาขึ้นในปี 2015 สำหรับการจดจำภาพและได้รับรางวัลImageNet Large Scale Visual Recognition Challenge ( ILSVRC ) ในปีนั้น^{[ 2 ]}^{[ 3 ]}

ในแง่ของศัพท์เฉพาะ "การเชื่อมต่อที่เหลืออยู่" หมายถึงรูปแบบทางสถาปัตยกรรมเฉพาะของ $x\mapsto f(x)+x$ โดยที่เป็นโมดูลเครือข่ายประสาทเทียมที่กำหนดขึ้นเอง รูปแบบนี้เคยถูกนำมาใช้มาก่อนแล้ว (ดู รายละเอียดในหัวข้อ §ประวัติ) อย่างไรก็ตาม การตีพิมพ์ ResNet ทำให้มันได้รับความนิยมอย่างแพร่หลายในเครือข่ายฟีดฟอร์เวิร์ดโดยปรากฏในเครือข่ายประสาทเทียมที่ดูเหมือนจะไม่เกี่ยวข้องกับ ResNet $f$

การเชื่อมต่อแบบตกค้างช่วยรักษาเสถียรภาพในการฝึกฝนและการลู่เข้าของโครงข่ายประสาทเทียมเชิงลึกที่มีหลายร้อยชั้น และเป็นรูปแบบทั่วไปในโครงข่ายประสาทเทียมเชิงลึก เช่น โมเดลทราน ส์ฟอร์เมอร์ (เช่นBERTและ โมเดล GPTเช่นChatGPT ) ระบบAlphaGo Zero ระบบ AlphaStarและระบบ AlphaFold

คณิตศาสตร์

การเชื่อมต่อที่เหลืออยู่

ในแบบจำลองโครงข่ายประสาทเทียมแบบหลายชั้น ให้พิจารณาโครงข่ายย่อย (ที่ไม่ใช่แบบตกค้าง) ที่มีจำนวนชั้นซ้อนกันจำนวนหนึ่ง (เช่น 2 หรือ 3) ให้แทนโครงข่ายย่อยนั้น สมมติว่าคือผลลัพธ์ที่เหมาะสมที่สุดที่ต้องการของโครงข่ายย่อยนี้ การเรียนรู้แบบตกค้างจะเพิ่มค่า เข้ากับผลลัพธ์โดยตรง ทำให้ผลลัพธ์ที่เรียนรู้ได้ดีที่สุดกลายเป็น ซึ่งตีความได้ว่าเป็น "ค่าตกค้าง" เมื่อเทียบ กับ $H(x;\alpha )$ $H^{*}$ $x$ $H^{*}-x$ $x$

การดำเนินการ "การบวก" นั้นถูกนำไปใช้ผ่าน "การเชื่อมต่อแบบข้าม" ซึ่งทำการแมปแบบเอกลักษณ์เพื่อเชื่อมต่ออินพุตของเครือข่ายย่อยกับเอาต์พุต การเชื่อมต่อนี้จะถูกเรียกว่า "การเชื่อมต่อส่วนที่เหลือ" ในงานวิจัยต่อมา $x$

ให้. ฟังก์ชันมักจะแสดงโดยการคูณเมทริกซ์ที่สลับกับฟังก์ชันการกระตุ้นและการดำเนินการทำให้เป็นมาตรฐาน (เช่นการทำให้เป็นมาตรฐานแบบกลุ่มหรือการทำให้เป็นมาตรฐานแบบเลเยอร์ ) โดยรวมแล้ว หนึ่งในเครือข่ายย่อยเหล่านี้เรียกว่า "บล็อกตกค้าง" ^[¹^]เครือข่ายตกค้างเชิงลึกถูกสร้างขึ้นโดยการเรียงซ้อนบล็อกเหล่านี้ $F(x;\alpha )=H(x;a)+x$ $F$

หน่วยความจำระยะสั้นแบบยาว (LSTM) มีกลไกหน่วยความจำที่ทำหน้าที่เป็นการเชื่อมต่อที่เหลืออยู่^{[ 4 ]}ใน LSTM ที่ไม่มีเกต ลืม อินพุตจะถูกประมวลผลโดยฟังก์ชันและเพิ่มไปยังเซลล์หน่วยความจำ ส่งผลให้LSTM ที่มีเกตลืมโดยพื้นฐานแล้วทำหน้าที่เป็นเครือ ข่ายทางหลวง $x_{t}$ $F$ $c_{t}$ $c_{t+1}=c_{t}+F(x_{t})$

เพื่อรักษาเสถียรภาพของความแปรปรวนของอินพุตของเลเยอร์ ขอแนะนำให้แทนที่การเชื่อมต่อตกค้างด้วยโดยที่คือจำนวนเลเยอร์ตกค้างทั้งหมด^[⁵^] $x+f(x)$ $x/L+f(x)$ $L$

การเชื่อมต่อการฉายภาพ

ถ้าฟังก์ชันเป็นประเภทที่แล้วจะไม่ถูกกำหนด เพื่อจัดการกับกรณีพิเศษนี้ จึงใช้การเชื่อมต่อแบบโปรเจคชั่น: $F$ $F:\mathbb {R} ^{n}\to \mathbb {R} ^{m}$ $n\neq m$ $F(x)+x$

$y=F(x)+P(x)$

โดยทั่วไปแล้ว คือการฉายภาพเชิงเส้น ซึ่งกำหนดโดย โดยที่คือเมทริกซ์ เมทริกซ์นี้ได้รับการฝึกฝนผ่านการแพร่กระจายย้อนกลับเช่นเดียวกับพารามิเตอร์อื่นๆ ของแบบจำลอง $P$ $P(x)=Mx$ $M$ $m\times n$

การแพร่กระจายสัญญาณ

การนำแผนที่เอกลักษณ์มาใช้ช่วยอำนวยความสะดวกในการแพร่กระจายสัญญาณทั้งในเส้นทางไปข้างหน้าและย้อนกลับ^{[ 6 ]}

การส่งต่อข้อมูลไปข้างหน้า

ถ้าเอาต์พุตของบล็อกตกค้างที่ -th เป็นอินพุตของบล็อกตกค้างที่ -th (โดยสมมติว่าไม่มีฟังก์ชันกระตุ้นระหว่างบล็อก) แล้วอินพุตที่ -th คือ: $\ell$ $(\ell +1)$ $(\ell +1)$

$x_{\ell +1}=F(x_{\ell })+x_{\ell }$

โดยการนำสูตรนี้ไปใช้ซ้ำ ๆ เช่น:

${\begin{aligned}x_{\ell +2}&=F(x_{\ell +1})+x_{\ell +1}\\&=F(x_{\ell +1})+F(x_{\ell })+x_{\ell }\end{aligned}}$

ส่งผลให้เกิดความสัมพันธ์ทั่วไปดังนี้:

$x_{L}=x_{\ell }+\sum _{i=\ell }^{L-1}F(x_{i})$

โดยที่คือดัชนีของบล็อกที่เหลือ และคือดัชนีของบล็อกก่อนหน้าบางบล็อก สูตรนี้ชี้ให้เห็นว่าจะมีสัญญาณที่ส่งตรงจากบล็อกที่ตื้นกว่าไป ยังบล็อกที่ลึกกว่า เสมอ ${\textstyle L}$ ${\textstyle \ell }$ ${\textstyle \ell }$ ${\textstyle L}$

การแพร่กระจายย้อนกลับ

สูตรการเรียนรู้แบบตกค้างให้ประโยชน์เพิ่มเติมในการลดปัญหาการลดลงของเกรเดียนต์ในระดับหนึ่ง อย่างไรก็ตาม สิ่งสำคัญคือต้องยอมรับว่าปัญหาการลดลงของเกรเดียนต์ไม่ใช่สาเหตุหลักของปัญหาการเสื่อมสภาพ ซึ่งแก้ไขได้โดยการใช้การทำให้เป็นมาตรฐาน เพื่อสังเกตผลกระทบของบล็อกตกค้างต่อการแพร่กระจายย้อนกลับ ให้พิจารณาอนุพันธ์ย่อยของฟังก์ชันการสูญเสีย เทียบกับอินพุตบล็อกตกค้าง บางส่วน โดย ใช้สมการข้างต้นจากการแพร่กระจายไปข้างหน้าสำหรับบล็อกตกค้างในภายหลัง: ^[⁶^] ${\mathcal {E}}$ $x_{\ell }$ $L>\ell$

${\begin{aligned}{\frac {\partial {\mathcal {E}}}{\partial x_{\ell }}}&={\frac {\partial {\mathcal {E}}}{\partial x_{L}}}{\frac {\partial x_{L}}{\partial x_{\ell }}}\\&={\frac {\partial {\mathcal {E}}}{\partial x_{L}}}\left(1+{\frac {\partial }{\partial x_{\ell }}}\sum _{i=\ell }^{L-1}F(x_{i})\right)\\&={\frac {\partial {\mathcal {E}}}{\partial x_{L}}}+{\frac {\partial {\mathcal {E}}}{\partial x_{L}}}{\frac {\partial }{\partial x_{\ell }}}\sum _{i=\ell }^{L-1}F(x_{i})\end{aligned}}$

สูตรนี้ชี้ให้เห็นว่าการคำนวณเกรเดียนต์ของชั้นที่ตื้นกว่านั้นจะมีพจน์เพิ่มเติมที่ถูกเพิ่มเข้ามาโดยตรงเสมอ แม้ว่าเกรเดียนต์ของพจน์เหล่านั้นจะมีค่าน้อย แต่เกรเดียนต์โดยรวมก็ยังคงไม่หายไปเนื่องจากพจน์ที่เพิ่มเข้ามานั้น ${\textstyle {\frac {\partial {\mathcal {E}}}{\partial x_{\ell }}}}$ ${\textstyle {\frac {\partial {\mathcal {E}}}{\partial x_{L}}}}$ $F(x_{i})$ ${\textstyle {\frac {\partial {\mathcal {E}}}{\partial x_{\ell }}}}$ ${\textstyle {\frac {\partial {\mathcal {E}}}{\partial x_{L}}}}$

รูปแบบต่างๆ ของบล็อกที่เหลืออยู่

บล็อกพื้นฐาน

บล็อกพื้นฐานเป็นบล็อกการสร้างที่ง่ายที่สุดที่ศึกษาใน ResNet ดั้งเดิม^{[ 1 ]}บล็อกนี้ประกอบด้วย เลเยอร์ การแปลงแบบ ลำดับ 3x3 สองเลเยอร์ และการเชื่อมต่อแบบตกค้าง มิติอินพุตและเอาต์พุตของทั้งสองเลเยอร์เท่ากัน

การปิดกั้นคอขวด

บล็อกbottleneck ^{[ 1 ]}ประกอบด้วยเลเยอร์ convolutional สามชั้นเรียงกันและการเชื่อมต่อแบบ residual เลเยอร์แรกในบล็อกนี้เป็น convolution ขนาด 1×1 สำหรับการลดมิติ (เช่น เหลือ 1/2 ของมิติอินพุต) เลเยอร์ที่สองทำการ convolution ขนาด 3×3 และเลเยอร์สุดท้ายเป็น convolution ขนาด 1×1 อีกชั้นหนึ่งสำหรับการคืนค่ามิติ โมเดล ResNet-50, ResNet-101 และ ResNet-152 ล้วนใช้บล็อก bottleneck เป็นพื้นฐาน^{[ 1 ]}

บล็อกก่อนการเปิดใช้งาน

บล็อกตกค้างก่อนการเปิดใช้งาน^{[ 6 ]}ใช้ฟังก์ชันการเปิดใช้งานก่อนที่จะใช้ฟังก์ชันตกค้าง ในทางรูปธรรม การคำนวณบล็อกตกค้างก่อนการเปิดใช้งานสามารถเขียนได้ดังนี้: $F$

$x_{\ell +1}=F(\phi (x_{\ell }))+x_{\ell }$

โดยที่ ฟังก์ชันการเปิดใช้ งานใดๆ (เช่นReLU ) หรือการทำให้เป็นมาตรฐาน (เช่นLayerNorm ) ก็สามารถเป็นได้ การออกแบบนี้ช่วยลดจำนวนการแมปที่ไม่ใช่ฟังก์ชันเอกลักษณ์ระหว่างบล็อกตกค้าง และอนุญาตให้มีการแมปเอกลักษณ์โดยตรงจากอินพุตไปยังเอาต์พุต การออกแบบนี้ถูกใช้เพื่อฝึกโมเดลที่มีเลเยอร์ตั้งแต่ 200 ถึงมากกว่า 1000 เลเยอร์ และพบว่ามีประสิทธิภาพเหนือกว่าโมเดลแบบอื่นๆ ที่เส้นทางตกค้างไม่ใช่ฟังก์ชันเอกลักษณ์อย่างสม่ำเสมอ ResNet ที่มีการเปิดใช้งานล่วงหน้าที่มี 200 เลเยอร์ใช้เวลา 3 สัปดาห์ในการฝึกสำหรับImageNetบนGPU 8 ตัว ในปี 2016 ^[⁶^] $\phi$

ตั้งแต่GPT-2เป็นต้นมา บล็อก หม้อแปลงส่วนใหญ่ถูกนำไปใช้เป็นบล็อกการเปิดใช้งานล่วงหน้า ซึ่งมักเรียกกันว่า "การทำให้เป็นมาตรฐานล่วงหน้า" ในเอกสารเกี่ยวกับแบบจำลองหม้อแปลง^{[ 7 ]}

แอปพลิเคชัน

เดิมที ResNet ถูกออกแบบมาสำหรับ การมองเห็น ด้วยคอมพิวเตอร์^{[ 1 ]}^{[ 8 ]}^{[ 9 ]}

สถาปัตยกรรมหม้อแปลงไฟฟ้าทั้งหมดมีการเชื่อมต่อที่เหลืออยู่ อันที่จริง หม้อแปลงไฟฟ้าที่มีความลึกมากไม่สามารถฝึกได้หากไม่มีการเชื่อมต่อเหล่านี้^{[ 10 ]}

เอกสาร ResNet ฉบับดั้งเดิมไม่ได้อ้างว่าได้รับแรงบันดาลใจจากระบบชีวภาพ อย่างไรก็ตาม งานวิจัยในภายหลังได้เชื่อมโยง ResNet กับอัลกอริทึมที่สมเหตุสมผลทางชีววิทยา^{[ 11 ]}^{[ 12 ]}

การศึกษาที่ตีพิมพ์ในScienceในปี 2023 ^{[ 13 ]}เปิดเผยคอนเน็กโทม ที่สมบูรณ์ ของสมองแมลง (โดยเฉพาะของตัวอ่อนแมลงวันผลไม้) การศึกษานี้ค้นพบ "ทางลัดหลายชั้น" ที่คล้ายกับการเชื่อมต่อแบบข้ามในเครือข่ายประสาทเทียม รวมถึง ResNets

ประวัติศาสตร์

ผลงานก่อนหน้า

มีการสังเกตการเชื่อมต่อที่เหลืออยู่ในกายวิภาคศาสตร์ระบบประสาทเช่นLorente de No (1938) ^{[ 14 ]}^{: รูปที่ 3} McCullochและPitts (1943) เสนอเครือข่ายประสาทเทียมและพิจารณาเครือข่ายที่มีการเชื่อมต่อที่เหลืออยู่^{[ 15 ]}^{: รูปที่ 1.h}

ในปี พ.ศ. 2504 แฟรงค์ โรเซนแบลตต์ ได้อธิบายแบบจำลอง เพอร์เซปตรอนหลาย ชั้น (MLP) สามชั้น ที่มีการเชื่อมต่อแบบข้าม ^{[ 16 ]}^{: 313 บทที่ 15}แบบจำลองนี้เรียกว่า "ระบบที่เชื่อมโยงแบบไขว้" และการเชื่อมต่อแบบข้ามเป็นรูปแบบหนึ่งของการเชื่อมต่อแบบไขว้

ในช่วงปลายทศวรรษ 1980 การเชื่อมต่อแบบ "skip-layer" ถูกนำมาใช้ในเครือข่ายประสาทเทียมเป็นบางครั้ง ตัวอย่างเช่น: ^{[ 17 ]}^{[ 18 ]} Lang และ Witbrock (1988) ^{[ 19 ]}ฝึกเครือข่ายฟีดฟอร์เวิร์ดที่เชื่อมต่ออย่างสมบูรณ์ โดยแต่ละเลเยอร์จะเชื่อมต่อแบบ skip-connect กับเลเยอร์ถัดไปทั้งหมด เช่นเดียวกับ DenseNet ในภายหลัง (2016) ในงานนี้ การเชื่อมต่อแบบ residual อยู่ในรูปแบบ $x\mapsto F(x)+P(x)$ ,โดยที่การเชื่อมต่อการฉายภาพที่เริ่มต้นแบบสุ่มเรียกว่า "การเชื่อมต่อทางลัด" โมเดลภาษาประสาทในยุคแรกใช้การเชื่อมต่อที่เหลืออยู่และตั้งชื่อว่า "การเชื่อมต่อโดยตรง" ^[²⁰^] $P$

ปัญหาการเสื่อมสภาพ

Sepp Hochreiterค้นพบปัญหาการลดลงของเกรเดียนต์ในปี 1991 ^{[ 21 ]}และโต้แย้งว่าปัญหานี้อธิบายได้ว่าทำไมเครือข่ายประสาทแบบวนซ้ำ ที่แพร่หลายในขณะนั้น จึงใช้งานไม่ได้กับลำดับที่ยาว เขาและSchmidhuberได้ออกแบบสถาปัตยกรรม LSTM ในภายหลังเพื่อแก้ปัญหานี้^{[ 4 ]}^{[ 22 ]}ซึ่งมี "สถานะเซลล์" ที่สามารถทำหน้าที่เป็นการเชื่อมต่อตกค้างแบบทั่วไปเครือข่ายทางหลวง (2015) ^[²³^]^[²⁴^]ได้นำแนวคิดของ LSTM ที่คลี่ออกตามเวลามาใช้กับเครือข่ายประสาทแบบฟีดฟอร์เวิร์ดส่งผลให้เกิดเครือข่ายทางหลวง ResNet เทียบเท่ากับเครือข่ายทางหลวงแบบเปิดประตู $c_{t}$

ในช่วงแรกๆ ของการเรียนรู้เชิงลึก มีความพยายามที่จะฝึกโมเดลที่มีความลึกมากขึ้นเรื่อยๆ ตัวอย่างที่โดดเด่น ได้แก่AlexNet (2012) ซึ่งมี 8 เลเยอร์ และVGG-19 (2014) ซึ่งมี 19 เลเยอร์^{[ 25 ]}อย่างไรก็ตาม การเพิ่มเลเยอร์มากเกินไปทำให้ความแม่นยำ ใน การฝึก ลดลงอย่างมาก ^{[ 26 ]}ซึ่งเรียกว่าปัญหา "การเสื่อมสภาพ" [ ^{1 ] ใน}ทางทฤษฎี การเพิ่มเลเยอร์เพิ่มเติมเพื่อทำให้เครือข่ายลึกขึ้นไม่ควรส่งผลให้การสูญเสีย ในการฝึกสูงขึ้น แต่นี่คือสิ่งที่เกิดขึ้นกับVGGNet ^{[ 1 ]} อย่างไรก็ตาม หากเลเยอร์พิเศษสามารถตั้งค่าเป็นidentity mapping ได้เครือข่ายที่ลึกกว่าจะแสดงฟังก์ชันเดียวกันกับเครือข่ายที่ตื้นกว่า มีหลักฐานบางอย่างที่แสดงว่า optimizer ไม่สามารถเข้าใกล้ identity mapping สำหรับเลเยอร์ที่มีพารามิเตอร์ได้ และประโยชน์ของการเชื่อมต่อแบบ residual คือการอนุญาตให้ใช้ identity mapping เป็นค่าเริ่มต้น^{[ 6 ]}

ในปี 2014 เทคโนโลยีล้ำสมัยคือการฝึกโครงข่ายประสาทเทียมแบบลึกที่มี 20 ถึง 30 ชั้น^{[ 25 ]}ทีมวิจัย ResNet พยายามฝึกโครงข่ายที่ลึกกว่าโดยการทดสอบเชิงประจักษ์ด้วยวิธีต่างๆ ในการฝึกโครงข่ายที่ลึกกว่า จนกระทั่งพวกเขาค้นพบสถาปัตยกรรม ResNet ^{[ 27 ]}

งานต่อมา

Wide Residual Network (2016) พบว่าการใช้ช่องสัญญาณมากขึ้นและเลเยอร์น้อยลงกว่า ResNet ดั้งเดิมช่วยปรับปรุงประสิทธิภาพและประสิทธิภาพการคำนวณของ GPU และบล็อกที่มีการ convolution 3×3 สองบล็อกนั้นเหนือกว่าการกำหนดค่าบล็อก convolution อื่นๆ^{[ 28 ]}

DenseNet (2016) ^{[ 29 ]}เชื่อมต่อเอาต์พุตของแต่ละเลเยอร์เข้ากับอินพุตของแต่ละเลเยอร์ถัดไป:

$x_{\ell +1}=F(x_{1},x_{2},\dots ,x_{\ell -1},x_{\ell })$

ความลึกแบบสุ่ม^{[ 30 ]}เป็น วิธี การควบคุมที่สุ่มทิ้งเลเยอร์ย่อยบางส่วนและปล่อยให้สัญญาณแพร่กระจายผ่านการเชื่อมต่อข้ามเอกลักษณ์ เรียกอีกอย่างว่าDropPathซึ่งควบคุมการฝึกอบรมสำหรับโมเดลเชิงลึก เช่นVision Transformers ^{[ 31 ]}

ResNeXt (2017) รวมโมดูล Inception เข้า กับ ResNet ^{[ 32 ]}^{[ 8 ]}

เครือข่าย Squeeze-and-Excitation (2018) ได้เพิ่มโมดูล squeeze-and-excitation (SE) ลงใน ResNet ^{[ 33 ]}โมดูล SE จะถูกนำไปใช้หลังจากการ convolution และรับเทนเซอร์ที่มีรูปร่าง(ความสูง ความกว้าง ช่องสัญญาณ) เป็นอินพุต แต่ละช่องสัญญาณจะถูกหาค่าเฉลี่ย ส่งผลให้ได้เวกเตอร์ที่มีรูปร่าง จากนั้นเวก เตอร์นี้จะถูกส่งผ่านperceptron หลายชั้น (ด้วยสถาปัตยกรรมเช่นlinear-ReLU-linear-sigmoid ) ก่อนที่จะคูณกับเทนเซอร์ดั้งเดิม เครือข่ายนี้ได้รับรางวัลILSVRCในปี 2017 ^[³⁴^] $\mathbb {R} ^{H\times W\times C}$ $\mathbb {R} ^{C}$

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[

[ 6 ]

[ 7 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[

[ 21 ]

[ 22 ]

[

[

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[