กลับไปหน้าบทความ

อ่าน 11 นาที

เครือข่ายประสาทเทียมตกค้าง

เครือข่ายประสาทเทียมแบบตกค้าง (เรียกอีกอย่างว่าเครือข่ายตกค้างหรือResNet ) เป็น สถาปัตยกรรม การเรียนรู้เชิงลึกที่เลเยอร์เรียนรู้ฟังก์ชันตกค้างโดยอ้างอิงจากอินพุตของเลเยอร์...

เครือข่ายประสาทเทียมตกค้าง

บล็อกตกค้างในเครือข่ายตกค้างเชิงลึก ในที่นี้ การเชื่อมต่อตกค้างจะข้ามสองเลเยอร์

เครือข่ายประสาทเทียมแบบตกค้าง (เรียกอีกอย่างว่าเครือข่ายตกค้างหรือResNet ) [ 1 ]เป็น สถาปัตยกรรม การเรียนรู้เชิงลึกที่เลเยอร์เรียนรู้ฟังก์ชันตกค้างโดยอ้างอิงจากอินพุตของเลเยอร์ พัฒนาขึ้นในปี 2015 สำหรับการจดจำภาพและได้รับรางวัลImageNet Large Scale Visual Recognition Challenge ( ILSVRC ) ในปีนั้น[ 2 ] [ 3 ]

ในแง่ของศัพท์เฉพาะ "การเชื่อมต่อที่เหลืออยู่" หมายถึงรูปแบบทางสถาปัตยกรรมเฉพาะของโดยที่เป็นโมดูลเครือข่ายประสาทเทียมที่กำหนดขึ้นเอง รูปแบบนี้เคยถูกนำมาใช้มาก่อนแล้ว (ดู รายละเอียดในหัวข้อ §ประวัติ) อย่างไรก็ตาม การตีพิมพ์ ResNet ทำให้มันได้รับความนิยมอย่างแพร่หลายในเครือข่ายฟีดฟอร์เวิร์ดโดยปรากฏในเครือข่ายประสาทเทียมที่ดูเหมือนจะไม่เกี่ยวข้องกับ ResNet

การเชื่อมต่อแบบตกค้างช่วยรักษาเสถียรภาพในการฝึกฝนและการลู่เข้าของโครงข่ายประสาทเทียมเชิงลึกที่มีหลายร้อยชั้น และเป็นรูปแบบทั่วไปในโครงข่ายประสาทเทียมเชิงลึก เช่น โมเดลทราน ส์ฟอร์เมอร์ (เช่นBERTและ โมเดล GPTเช่นChatGPT ) ระบบAlphaGo Zero ระบบ AlphaStarและระบบ AlphaFold

คณิตศาสตร์

การเชื่อมต่อที่เหลืออยู่

ในแบบจำลองโครงข่ายประสาทเทียมแบบหลายชั้น ให้พิจารณาโครงข่ายย่อย (ที่ไม่ใช่แบบตกค้าง) ที่มีจำนวนชั้นซ้อนกันจำนวนหนึ่ง (เช่น 2 หรือ 3) ให้แทนโครงข่ายย่อยนั้น สมมติว่าคือผลลัพธ์ที่เหมาะสมที่สุดที่ต้องการของโครงข่ายย่อยนี้ การเรียนรู้แบบตกค้างจะเพิ่มค่า เข้ากับผลลัพธ์โดยตรง ทำให้ผลลัพธ์ที่เรียนรู้ได้ดีที่สุดกลายเป็น ซึ่งตีความได้ว่าเป็น "ค่าตกค้าง" เมื่อเทียบ กับ

การดำเนินการ "การบวก" นั้นถูกนำไปใช้ผ่าน "การเชื่อมต่อแบบข้าม" ซึ่งทำการแมปแบบเอกลักษณ์เพื่อเชื่อมต่ออินพุตของเครือข่ายย่อยกับเอาต์พุต การเชื่อมต่อนี้จะถูกเรียกว่า "การเชื่อมต่อส่วนที่เหลือ" ในงานวิจัยต่อมา

ให้. ฟังก์ชันมักจะแสดงโดยการคูณเมทริกซ์ที่สลับกับฟังก์ชันการกระตุ้นและการดำเนินการทำให้เป็นมาตรฐาน (เช่นการทำให้เป็นมาตรฐานแบบกลุ่มหรือการทำให้เป็นมาตรฐานแบบเลเยอร์ ) โดยรวมแล้ว หนึ่งในเครือข่ายย่อยเหล่านี้เรียกว่า "บล็อกตกค้าง" [ 1 ]เครือข่ายตกค้างเชิงลึกถูกสร้างขึ้นโดยการเรียงซ้อนบล็อกเหล่านี้

หน่วยความจำระยะสั้นแบบยาว (LSTM) มีกลไกหน่วยความจำที่ทำหน้าที่เป็นการเชื่อมต่อที่เหลืออยู่[ 4 ]ใน LSTM ที่ไม่มีเกต ลืม อินพุตจะถูกประมวลผลโดยฟังก์ชันและเพิ่มไปยังเซลล์หน่วยความจำ ส่งผลให้LSTM ที่มีเกตลืมโดยพื้นฐานแล้วทำหน้าที่เป็นเครือ ข่ายทางหลวง

เพื่อรักษาเสถียรภาพของความแปรปรวนของอินพุตของเลเยอร์ ขอแนะนำให้แทนที่การเชื่อมต่อตกค้างด้วยโดยที่คือจำนวนเลเยอร์ตกค้างทั้งหมด[ 5 ]

การเชื่อมต่อการฉายภาพ

ถ้าฟังก์ชันเป็นประเภทที่แล้วจะไม่ถูกกำหนด เพื่อจัดการกับกรณีพิเศษนี้ จึงใช้การเชื่อมต่อแบบโปรเจคชั่น:

โดยทั่วไปแล้ว คือการฉายภาพเชิงเส้น ซึ่งกำหนดโดย โดยที่คือเมทริกซ์ เมทริกซ์นี้ได้รับการฝึกฝนผ่านการแพร่กระจายย้อนกลับเช่นเดียวกับพารามิเตอร์อื่นๆ ของแบบจำลอง

การแพร่กระจายสัญญาณ

การนำแผนที่เอกลักษณ์มาใช้ช่วยอำนวยความสะดวกในการแพร่กระจายสัญญาณทั้งในเส้นทางไปข้างหน้าและย้อนกลับ[ 6 ]

การส่งต่อข้อมูลไปข้างหน้า

ถ้าเอาต์พุตของบล็อกตกค้างที่ -th เป็นอินพุตของบล็อกตกค้างที่ -th (โดยสมมติว่าไม่มีฟังก์ชันกระตุ้นระหว่างบล็อก) แล้วอินพุตที่ -th คือ:

โดยการนำสูตรนี้ไปใช้ซ้ำ ๆ เช่น:

ส่งผลให้เกิดความสัมพันธ์ทั่วไปดังนี้:

โดยที่คือดัชนีของบล็อกที่เหลือ และคือดัชนีของบล็อกก่อนหน้าบางบล็อก สูตรนี้ชี้ให้เห็นว่าจะมีสัญญาณที่ส่งตรงจากบล็อกที่ตื้นกว่าไป ยังบล็อกที่ลึกกว่า เสมอ

การแพร่กระจายย้อนกลับ

สูตรการเรียนรู้แบบตกค้างให้ประโยชน์เพิ่มเติมในการลดปัญหาการลดลงของเกรเดียนต์ในระดับหนึ่ง อย่างไรก็ตาม สิ่งสำคัญคือต้องยอมรับว่าปัญหาการลดลงของเกรเดียนต์ไม่ใช่สาเหตุหลักของปัญหาการเสื่อมสภาพ ซึ่งแก้ไขได้โดยการใช้การทำให้เป็นมาตรฐาน เพื่อสังเกตผลกระทบของบล็อกตกค้างต่อการแพร่กระจายย้อนกลับ ให้พิจารณาอนุพันธ์ย่อยของฟังก์ชันการสูญเสีย เทียบกับอินพุตบล็อกตกค้าง บางส่วน โดย ใช้สมการข้างต้นจากการแพร่กระจายไปข้างหน้าสำหรับบล็อกตกค้างในภายหลัง: [ 6 ]

สูตรนี้ชี้ให้เห็นว่าการคำนวณเกรเดียนต์ของชั้นที่ตื้นกว่านั้นจะมีพจน์เพิ่มเติมที่ถูกเพิ่มเข้ามาโดยตรงเสมอ แม้ว่าเกรเดียนต์ของพจน์เหล่านั้นจะมีค่าน้อย แต่เกรเดียนต์โดยรวมก็ยังคงไม่หายไปเนื่องจากพจน์ที่เพิ่มเข้ามานั้น

รูปแบบต่างๆ ของบล็อกที่เหลืออยู่

บล็อกตกค้างแบบคอนโวลูชันสองรูปแบบ[ 1 ]ซ้าย : บล็อกพื้นฐานที่มีเลเยอร์คอนโวลูชัน 3x3 สองเลเยอร์ขวา : บล็อกคอขวดที่มีเลเยอร์คอนโวลูชัน 1x1 สำหรับการลดมิติ เลเยอร์คอนโวลูชัน 3x3 และเลเยอร์คอนโวลูชัน 1x1 อีกเลเยอร์สำหรับการคืนค่ามิติ

บล็อกพื้นฐาน

บล็อกพื้นฐานเป็นบล็อกการสร้างที่ง่ายที่สุดที่ศึกษาใน ResNet ดั้งเดิม[ 1 ]บล็อกนี้ประกอบด้วย เลเยอร์ การแปลงแบบ ลำดับ 3x3 สองเลเยอร์ และการเชื่อมต่อแบบตกค้าง มิติอินพุตและเอาต์พุตของทั้งสองเลเยอร์เท่ากัน

แผนภาพบล็อกของ ResNet (2015) แสดงบล็อก ResNet ทั้งแบบที่มีและไม่มีการแปลงแบบคอนโวลูชัน 1x1 การแปลงแบบคอนโวลูชัน 1x1 (พร้อมค่า stride) สามารถใช้เพื่อเปลี่ยนรูปร่างของอาร์เรย์ ซึ่งจำเป็นสำหรับการเชื่อมต่อแบบตกค้างผ่านเลเยอร์การเพิ่ม/ลดขนาด

การปิดกั้นคอขวด

บล็อกbottleneck [ 1 ]ประกอบด้วยเลเยอร์ convolutional สามชั้นเรียงกันและการเชื่อมต่อแบบ residual เลเยอร์แรกในบล็อกนี้เป็น convolution ขนาด 1×1 สำหรับการลดมิติ (เช่น เหลือ 1/2 ของมิติอินพุต) เลเยอร์ที่สองทำการ convolution ขนาด 3×3 และเลเยอร์สุดท้ายเป็น convolution ขนาด 1×1 อีกชั้นหนึ่งสำหรับการคืนค่ามิติ โมเดล ResNet-50, ResNet-101 และ ResNet-152 ล้วนใช้บล็อก bottleneck เป็นพื้นฐาน[ 1 ]

บล็อกก่อนการเปิดใช้งาน

บล็อกตกค้างก่อนการเปิดใช้งาน[ 6 ]ใช้ฟังก์ชันการเปิดใช้งานก่อนที่จะใช้ฟังก์ชันตกค้าง ในทางรูปธรรม การคำนวณบล็อกตกค้างก่อนการเปิดใช้งานสามารถเขียนได้ดังนี้:

โดยที่ ฟังก์ชันการเปิดใช้ งานใดๆ (เช่นReLU ) หรือการทำให้เป็นมาตรฐาน (เช่นLayerNorm ) ก็สามารถเป็นได้ การออกแบบนี้ช่วยลดจำนวนการแมปที่ไม่ใช่ฟังก์ชันเอกลักษณ์ระหว่างบล็อกตกค้าง และอนุญาตให้มีการแมปเอกลักษณ์โดยตรงจากอินพุตไปยังเอาต์พุต การออกแบบนี้ถูกใช้เพื่อฝึกโมเดลที่มีเลเยอร์ตั้งแต่ 200 ถึงมากกว่า 1000 เลเยอร์ และพบว่ามีประสิทธิภาพเหนือกว่าโมเดลแบบอื่นๆ ที่เส้นทางตกค้างไม่ใช่ฟังก์ชันเอกลักษณ์อย่างสม่ำเสมอ ResNet ที่มีการเปิดใช้งานล่วงหน้าที่มี 200 เลเยอร์ใช้เวลา 3 สัปดาห์ในการฝึกสำหรับImageNetบนGPU 8 ตัว ในปี 2016 [ 6 ]

ตั้งแต่GPT-2เป็นต้นมา บล็อก หม้อแปลงส่วนใหญ่ถูกนำไปใช้เป็นบล็อกการเปิดใช้งานล่วงหน้า ซึ่งมักเรียกกันว่า "การทำให้เป็นมาตรฐานล่วงหน้า" ในเอกสารเกี่ยวกับแบบจำลองหม้อแปลง[ 7 ]

สถาปัตยกรรม Resnet-18 ดั้งเดิม มีการฝึกฝนเลเยอร์มากถึง 152 เลเยอร์ในเอกสารต้นฉบับ (ในชื่อ "ResNet-152") [ 8 ]

แอปพลิเคชัน

เดิมที ResNet ถูกออกแบบมาสำหรับ การมองเห็น ด้วยคอมพิวเตอร์[ 1 ] [ 8 ] [ 9 ]

โครงสร้างของหม้อแปลงไฟฟ้าประกอบด้วยการเชื่อมต่อที่เหลืออยู่

สถาปัตยกรรมหม้อแปลงไฟฟ้าทั้งหมดมีการเชื่อมต่อที่เหลืออยู่ อันที่จริง หม้อแปลงไฟฟ้าที่มีความลึกมากไม่สามารถฝึกได้หากไม่มีการเชื่อมต่อเหล่านี้[ 10 ]

เอกสาร ResNet ฉบับดั้งเดิมไม่ได้อ้างว่าได้รับแรงบันดาลใจจากระบบชีวภาพ อย่างไรก็ตาม งานวิจัยในภายหลังได้เชื่อมโยง ResNet กับอัลกอริทึมที่สมเหตุสมผลทางชีววิทยา[ 11 ] [ 12 ]

การศึกษาที่ตีพิมพ์ในScienceในปี 2023 [ 13 ]เปิดเผยคอนเน็กโทม ที่สมบูรณ์ ของสมองแมลง (โดยเฉพาะของตัวอ่อนแมลงวันผลไม้) การศึกษานี้ค้นพบ "ทางลัดหลายชั้น" ที่คล้ายกับการเชื่อมต่อแบบข้ามในเครือข่ายประสาทเทียม รวมถึง ResNets

ประวัติศาสตร์

ผลงานก่อนหน้า

มีการสังเกตการเชื่อมต่อที่เหลืออยู่ในกายวิภาคศาสตร์ระบบประสาทเช่นLorente de No (1938) [ 14 ] : รูปที่ 3 McCullochและPitts (1943) เสนอเครือข่ายประสาทเทียมและพิจารณาเครือข่ายที่มีการเชื่อมต่อที่เหลืออยู่[ 15 ] : รูปที่ 1.h

ในปี พ.ศ. 2504 แฟรงค์ โรเซนแบลตต์ ได้อธิบายแบบจำลอง เพอร์เซปตรอนหลาย ชั้น (MLP) สามชั้น ที่มีการเชื่อมต่อแบบข้าม [ 16 ] : 313 บทที่ 15 แบบจำลองนี้เรียกว่า "ระบบที่เชื่อมโยงแบบไขว้" และการเชื่อมต่อแบบข้ามเป็นรูปแบบหนึ่งของการเชื่อมต่อแบบไขว้

ในช่วงปลายทศวรรษ 1980 การเชื่อมต่อแบบ "skip-layer" ถูกนำมาใช้ในเครือข่ายประสาทเทียมเป็นบางครั้ง ตัวอย่างเช่น: [ 17 ] [ 18 ] Lang และ Witbrock (1988) [ 19 ]ฝึกเครือข่ายฟีดฟอร์เวิร์ดที่เชื่อมต่ออย่างสมบูรณ์ โดยแต่ละเลเยอร์จะเชื่อมต่อแบบ skip-connect กับเลเยอร์ถัดไปทั้งหมด เช่นเดียวกับ DenseNet ในภายหลัง (2016) ในงานนี้ การเชื่อมต่อแบบ residual อยู่ในรูปแบบ,โดยที่การเชื่อมต่อการฉายภาพที่เริ่มต้นแบบสุ่มเรียกว่า "การเชื่อมต่อทางลัด" โมเดลภาษาประสาทในยุคแรกใช้การเชื่อมต่อที่เหลืออยู่และตั้งชื่อว่า "การเชื่อมต่อโดยตรง" [ 20 ]

เซลล์หน่วยความจำระยะสั้นแบบยาว (LSTM) สามารถประมวลผลข้อมูลตามลำดับและรักษาสถานะที่ซ่อนอยู่ไว้ได้ตลอดเวลา สถานะของเซลล์สามารถทำหน้าที่เสมือนการเชื่อมต่อตกค้างแบบทั่วไปได้

ปัญหาการเสื่อมสภาพ

Sepp Hochreiterค้นพบปัญหาการลดลงของเกรเดียนต์ในปี 1991 [ 21 ]และโต้แย้งว่าปัญหานี้อธิบายได้ว่าทำไมเครือข่ายประสาทแบบวนซ้ำ ที่แพร่หลายในขณะนั้น จึงใช้งานไม่ได้กับลำดับที่ยาว เขาและSchmidhuberได้ออกแบบสถาปัตยกรรม LSTM ในภายหลังเพื่อแก้ปัญหานี้[ 4 ] [ 22 ]ซึ่งมี "สถานะเซลล์" ที่สามารถทำหน้าที่เป็นการเชื่อมต่อตกค้างแบบทั่วไปเครือข่ายทางหลวง (2015) [ 23 ] [ 24 ]ได้นำแนวคิดของ LSTM ที่คลี่ออกตามเวลามาใช้กับเครือข่ายประสาทแบบฟีดฟอร์เวิร์ดส่งผลให้เกิดเครือข่ายทางหลวง ResNet เทียบเท่ากับเครือข่ายทางหลวงแบบเปิดประตู

โครงข่ายประสาทเทียมแบบวนซ้ำพื้นฐานแบบมาตรฐาน (ซ้าย) และแบบคลี่ออก (ขวา)

ในช่วงแรกๆ ของการเรียนรู้เชิงลึก มีความพยายามที่จะฝึกโมเดลที่มีความลึกมากขึ้นเรื่อยๆ ตัวอย่างที่โดดเด่น ได้แก่AlexNet (2012) ซึ่งมี 8 เลเยอร์ และVGG-19 (2014) ซึ่งมี 19 เลเยอร์[ 25 ]อย่างไรก็ตาม การเพิ่มเลเยอร์มากเกินไปทำให้ความแม่นยำ ใน การฝึก ลดลงอย่างมาก [ 26 ]ซึ่งเรียกว่าปัญหา "การเสื่อมสภาพ" [ 1 ] ในทางทฤษฎี การเพิ่มเลเยอร์เพิ่มเติมเพื่อทำให้เครือข่ายลึกขึ้นไม่ควรส่งผลให้การสูญเสีย ในการฝึกสูงขึ้น แต่นี่คือสิ่งที่เกิดขึ้นกับVGGNet [ 1 ] อย่างไรก็ตาม หากเลเยอร์พิเศษสามารถตั้งค่าเป็นidentity mapping ได้เครือข่ายที่ลึกกว่าจะแสดงฟังก์ชันเดียวกันกับเครือข่ายที่ตื้นกว่า มีหลักฐานบางอย่างที่แสดงว่า optimizer ไม่สามารถเข้าใกล้ identity mapping สำหรับเลเยอร์ที่มีพารามิเตอร์ได้ และประโยชน์ของการเชื่อมต่อแบบ residual คือการอนุญาตให้ใช้ identity mapping เป็นค่าเริ่มต้น[ 6 ]

ในปี 2014 เทคโนโลยีล้ำสมัยคือการฝึกโครงข่ายประสาทเทียมแบบลึกที่มี 20 ถึง 30 ชั้น[ 25 ]ทีมวิจัย ResNet พยายามฝึกโครงข่ายที่ลึกกว่าโดยการทดสอบเชิงประจักษ์ด้วยวิธีต่างๆ ในการฝึกโครงข่ายที่ลึกกว่า จนกระทั่งพวกเขาค้นพบสถาปัตยกรรม ResNet [ 27 ]

งานต่อมา

Wide Residual Network (2016) พบว่าการใช้ช่องสัญญาณมากขึ้นและเลเยอร์น้อยลงกว่า ResNet ดั้งเดิมช่วยปรับปรุงประสิทธิภาพและประสิทธิภาพการคำนวณของ GPU และบล็อกที่มีการ convolution 3×3 สองบล็อกนั้นเหนือกว่าการกำหนดค่าบล็อก convolution อื่นๆ[ 28 ]

DenseNet (2016) [ 29 ]เชื่อมต่อเอาต์พุตของแต่ละเลเยอร์เข้ากับอินพุตของแต่ละเลเยอร์ถัดไป:

ความลึกแบบสุ่ม[ 30 ]เป็น วิธี การควบคุมที่สุ่มทิ้งเลเยอร์ย่อยบางส่วนและปล่อยให้สัญญาณแพร่กระจายผ่านการเชื่อมต่อข้ามเอกลักษณ์ เรียกอีกอย่างว่าDropPathซึ่งควบคุมการฝึกอบรมสำหรับโมเดลเชิงลึก เช่นVision Transformers [ 31 ]

แผนภาพบล็อกของ ResNeXt

ResNeXt (2017) รวมโมดูล Inception เข้า กับ ResNet [ 32 ] [ 8 ]

เครือข่าย Squeeze-and-Excitation (2018) ได้เพิ่มโมดูล squeeze-and-excitation (SE) ลงใน ResNet [ 33 ]โมดูล SE จะถูกนำไปใช้หลังจากการ convolution และรับเทนเซอร์ที่มีรูปร่าง(ความสูง ความกว้าง ช่องสัญญาณ) เป็นอินพุต แต่ละช่องสัญญาณจะถูกหาค่าเฉลี่ย ส่งผลให้ได้เวกเตอร์ที่มีรูปร่าง จากนั้นเวก เตอร์นี้จะถูกส่งผ่านperceptron หลายชั้น (ด้วยสถาปัตยกรรมเช่นlinear-ReLU-linear-sigmoid ) ก่อนที่จะคูณกับเทนเซอร์ดั้งเดิม เครือข่ายนี้ได้รับรางวัลILSVRCในปี 2017 [ 34 ]

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Residual_neural_network&oldid=1360775117 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ เครือข่ายประสาทเทียมตกค้าง

เครือข่ายประสาทเทียมแบบตกค้าง (เรียกอีกอย่างว่าเครือข่ายตกค้างหรือResNet ) เป็น สถาปัตยกรรม การเรียนรู้เชิงลึกที่เลเยอร์เรียนรู้ฟังก์ชันตกค้างโดยอ้างอิงจากอินพุตของเลเยอร์...

การเชื่อมต่อที่เหลืออยู่

ในแบบจำลองโครงข่ายประสาทเทียมแบบหลายชั้น ให้พิจารณาโครงข่ายย่อย (ที่ไม่ใช่แบบตกค้าง) ที่มีจำนวนชั้นซ้อนกันจำนวนหนึ่ง (เช่น 2 หรือ 3) ให้แทนโครงข่ายย่อยนั้น สมมติว่าคือผลลัพธ์ที่เหมาะสมที่สุดที่ต้องการของโครงข่ายย่อยนี้ การเรียนรู้แบบตกค้างจะเพิ่มค่า...

การเชื่อมต่อการฉายภาพ

ถ้าฟังก์ชันเป็นประเภทที่แล้วจะไม่ถูกกำหนด เพื่อจัดการกับกรณีพิเศษนี้ จึงใช้การเชื่อมต่อแบบโปรเจคชั่น: เอฟ {\displaystyle F} เอฟ : อาร์ n → อาร์ ม {\displaystyle F:\mathbb {R} ^{n}\to \mathbb {R} ^{m}} n ≠ ม {\displaystyle n\neq m} เอฟ ( x ) + x {\displaystyle...

การแพร่กระจายสัญญาณ

การนำแผนที่เอกลักษณ์มาใช้ช่วยอำนวยความสะดวกในการแพร่กระจายสัญญาณทั้งในเส้นทางไปข้างหน้าและย้อนกลับ [ 6 ]