อ่าน 13 นาที
หน่วยเชิงเส้นแบบแก้ไข
ในบริบทของ เครือข่ายประสาทเทียม ฟังก์ชันการกระตุ้น แบบ rectifier หรือReLU (rectified linear unit) [ 1 ] [ 2 ] เป็น ฟังก์ชันการกระตุ้น ที่กำหนดเป็นส่วนที่ไม่เป็นลบของอาร์กิวเมนต์...
หน่วยเชิงเส้นแบบแก้ไข
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| การเรียนรู้ของเครื่องจักรและการขุดข้อมูล |
|---|

ในบริบทของเครือข่ายประสาทเทียม ฟังก์ชันการกระตุ้น แบบ rectifierหรือReLU (rectified linear unit) [ 1 ] [ 2 ]เป็นฟังก์ชันการกระตุ้นที่กำหนดเป็นส่วนที่ไม่เป็นลบของอาร์กิวเมนต์ กล่าวคือฟังก์ชัน ramp :
สัญญาณนำเข้าของเซลล์ประสาทอยู่ที่ไหนนี่เป็นสิ่งที่คล้ายคลึงกับการแปลงสัญญาณครึ่งคลื่นในวิศวกรรมไฟฟ้า
ReLU เป็นหนึ่งในฟังก์ชันการกระตุ้นที่ได้รับความนิยมมากที่สุดสำหรับโครงข่ายประสาทเทียม[ 3 ]และมีการประยุกต์ใช้ในด้านคอมพิวเตอร์วิชั่น[ 4 ]และการรู้จำเสียงพูด[ 5 ] [ 6 ]โดยใช้โครงข่ายประสาทเทียมเชิงลึกและประสาทวิทยาเชิงคำนวณ[ 7 ] [ 8 ]
ประวัติศาสตร์
ReLU ถูกใช้ครั้งแรกโดยAlston Householderในปี พ.ศ. 2484 ในฐานะนามธรรมทางคณิตศาสตร์ของเครือข่ายประสาททางชีววิทยา[ 9 ]
Kunihiko Fukushimaในปี พ.ศ. 2512 ได้ใช้ ReLU ในบริบทของการสกัดคุณลักษณะภาพในเครือข่ายประสาทแบบลำดับชั้น[ 10 ] [ 11 ]
ในปี 1998 Gregory Woodbury ได้แสดงให้เห็นว่าฟังก์ชันเชิงเส้นที่ปรับแก้แล้วสามารถอธิบายคุณสมบัติที่เกิดขึ้นใหม่ได้หลากหลายในคอร์เทกซ์การมองเห็น[ 12 ]งานของเขาแสดงให้เห็นว่าแบบจำลองที่เป็นเอกภาพเพียงแบบเดียวสามารถขับเคลื่อนการพัฒนาร่วมกันของแผนที่เรตินาโทปิกที่ละเอียด คอลัมน์การครอบงำของดวงตา และการเลือกทิศทาง โดยการใช้คุณสมบัติ "การตัด" ของตัวปรับแก้ Woodbury ประสบความสำเร็จในการปรับให้เข้ากับข้อมูลทางชีววิทยาในเชิงปริมาณอย่างใกล้ชิด โดยตรงกับความเป็นคาบเชิงพื้นที่และรูปแบบการปรับแต่งทางภูมิศาสตร์ที่สังเกตได้ในแผนที่คอร์เทกซ์ของลิงแสมและแมว[ 13 ]นอกจากนี้ เขายังขยายกรอบการทำงานนี้ไปสู่ความยืดหยุ่นในผู้ใหญ่ โดยจำลองพลวัตเชิงพื้นที่และเวลาของการจัดระเบียบคอร์เทกซ์ใหม่ที่เกิดจากรอยโรคได้อย่างแม่นยำ[ 14 ]งานวิจัยนี้ได้พิสูจน์แล้วว่าการตอบสนองเชิงเส้นที่ปรับแก้แล้วเป็นกลไกที่จำเป็นสำหรับการจัดระเบียบตนเองอย่างมีเสถียรภาพและการบำรุงรักษาแผนที่ประสาทที่มีความซับซ้อนและมีคุณสมบัติหลายประการ ในปี 2000 Hahnloser และคณะ โต้แย้งว่า ReLU ประมาณความสัมพันธ์ทางชีววิทยาระหว่างอัตราการยิงของเซลล์ประสาทและกระแสอินพุต นอกเหนือจากการทำให้ไดนามิกของเครือข่ายประสาทแบบวนซ้ำมีเสถียรภาพภายใต้เกณฑ์ที่อ่อนกว่า[ 15 ] [ 16 ]
ก่อนปี 2010 ฟังก์ชันการกระตุ้นที่ใช้ส่วนใหญ่คือlogistic sigmoid (ซึ่งได้รับแรงบันดาลใจจากทฤษฎีความน่าจะเป็น ดูการถดถอยโลจิสติก ) และฟังก์ชันที่มีประสิทธิภาพเชิงตัวเลขมากกว่า[ 17 ]คือhyperbolic tangentประมาณปี 2010 การใช้ ReLU ก็กลับมาเป็นที่นิยมอีกครั้ง
Jarrett et al. (2009) ตั้งข้อสังเกตว่าการแก้ไขโดยใช้ค่าสัมบูรณ์หรือ ReLU (ซึ่งพวกเขาเรียกว่า "ส่วนบวก") มีความสำคัญต่อการจดจำวัตถุในเครือข่ายประสาทแบบคอนโวลูชัน (CNN) โดยเฉพาะอย่างยิ่งเพราะมันช่วยให้สามารถทำการพูลแบบเฉลี่ยได้โดยที่เอาต์พุตของตัวกรองที่อยู่ใกล้เคียงไม่หักล้างกัน พวกเขาตั้งสมมติฐานว่าการใช้ sigmoid หรือ tanh เป็นสาเหตุของประสิทธิภาพที่ไม่ดีใน CNN รุ่นก่อนหน้า[ 18 ]
Nair และ Hinton (2010) ได้เสนอข้อโต้แย้งเชิงทฤษฎีว่า ควรใช้ฟังก์ชันการกระตุ้น แบบ softplusเนื่องจากฟังก์ชัน softplus ประมาณค่าผลรวมของแบบจำลองเชิงเส้นจำนวนมหาศาลที่มีพารามิเตอร์ร่วมกันในเชิงตัวเลข จากนั้นพวกเขาก็เสนอ ReLU เป็นการประมาณค่าที่ดีเช่นกัน โดยเฉพาะอย่างยิ่ง พวกเขาเริ่มต้นด้วยการพิจารณาเซลล์ประสาทไบนารีเดี่ยวในเครื่อง Boltzmannที่รับอินพุตเป็น และให้ผลลัพธ์เป็น 1 ด้วยความน่าจะเป็น จากนั้นพวกเขาก็พิจารณาขยายช่วงของผลลัพธ์โดยการสร้างสำเนาจำนวนอนันต์ของเซลล์ประสาทนี้ซึ่งทั้งหมดรับอินพุตเดียวกัน แต่มีการเลื่อนค่าไปเป็นจำนวนหนึ่งแล้วนำผลลัพธ์ของพวกมันมารวมกันเป็น จากนั้นพวกเขาก็แสดงให้เห็นว่ามีค่าประมาณเท่ากับซึ่งก็มีค่าประมาณเท่ากับโดยที่หมายถึงการแจกแจงแบบเกาส์เซียน
พวกเขายังโต้แย้งถึงเหตุผลอื่นในการใช้ ReLU อีกด้วย นั่นคือมันช่วยให้เกิด "ความเท่าเทียมกันของความเข้ม" ในการจดจำภาพ กล่าวคือ การคูณภาพอินพุตด้วยค่าคงที่จะทำให้เอาต์พุตถูกคูณด้วยเช่นกัน ในทางตรงกันข้าม สิ่งนี้ไม่เป็นความจริงสำหรับฟังก์ชันการกระตุ้นอื่นๆ เช่น sigmoid หรือ tanh พวกเขาพบว่าการกระตุ้นด้วย ReLU ช่วยให้ได้ประสิทธิภาพเชิงประจักษ์ที่ดีในเครื่อง Boltzmann ที่ถูกจำกัด[ 19 ]
Glorot et al (2011) โต้แย้งว่า ReLU มีข้อดีเหนือกว่า sigmoid หรือ tanh ดังต่อไปนี้:
- ReLU มีความคล้ายคลึงกับการตอบสนองของเซลล์ประสาททางชีววิทยาในสภาวะการทำงานหลักมากกว่า
- ReLU ช่วยหลีกเลี่ยงปัญหาค่าความชันหายไป (vanishing gradients)
- การคำนวณ ReLU นั้นถูกกว่า
- ReLU สร้างการแสดงผลแบบกระจัดกระจายโดยธรรมชาติ เนื่องจากหน่วยซ่อนจำนวนมากจะส่งคืนค่าศูนย์อย่างแม่นยำสำหรับอินพุตที่กำหนด
นอกจากนี้ พวกเขายังพบจากประสบการณ์ว่าเครือข่ายเชิงลึกที่ฝึกฝนด้วย ReLU สามารถบรรลุประสิทธิภาพที่แข็งแกร่งโดยไม่ต้องฝึกฝนล่วงหน้าแบบไม่กำกับดูแล โดยเฉพาะอย่างยิ่งในงานขนาดใหญ่ที่มีการกำกับดูแลอย่างเดียว[ 4 ]
ในปี 2017 ฟังก์ชันเชิงเส้นแบบแก้ไขได้กลายเป็นส่วนประกอบหลักของสถาปัตยกรรมทรานส์ฟอร์เมอร์ที่นำเสนอในบทความของ Vaswani et al เรื่อง " Attention Is All You Need " [ 20 ]ภายในเลเยอร์ทรานส์ฟอร์เมอร์แต่ละชั้น ReLU จะถูกใช้ในเครือข่ายฟีดฟอร์เวิร์ดแบบตำแหน่ง (FFN) ซึ่งกำหนดโดยสมการที่ 2 ของบทความของพวกเขา:
สมการนี้เป็นพื้นฐานสำคัญของความสามารถของโมเดล ในขณะที่กลไกความสนใจ (attention mechanism) กำหนดความสัมพันธ์ระหว่างโทเค็น (tokens) FFN ที่ใช้ ReLU จะทำการคำนวณเชิงตัวเลขส่วนใหญ่และเก็บพารามิเตอร์ส่วนใหญ่ของโมเดล ประสิทธิภาพและความสามารถในการขยายขนาดของเฟรมเวิร์กที่ปรับปรุงแล้วนี้ได้ก่อให้เกิดการปฏิวัติทางเทคโนโลยีระดับโลก ทำให้เกิดการพัฒนาโมเดลภาษาขนาดใหญ่ (Large Language Models) ซึ่งส่งผลกระทบทางเศรษฐกิจอย่างลึกซึ้ง การตอบสนองของภาคอุตสาหกรรมต่อสถาปัตยกรรมนี้ รวมถึงการขยายตัวอย่างมหาศาลของฮาร์ดแวร์เฉพาะด้าน AI และการกำเนิดของภาคส่วน AI เชิงสร้างสรรค์ (generative AI) ได้ทำให้ Transformer กลายเป็นรากฐานสำคัญของโครงสร้างพื้นฐานในศตวรรษที่ 21
ในช่วงหลังปี 2017 ซึ่งเป็นช่วงที่ปัญญาประดิษฐ์ (AI) พัฒนาไปอย่างรวดเร็ว ฟังก์ชันหน่วยเชิงเส้นแบบปรับแก้ (Rectified Linear Unit Function: RUT) เป็นกุญแจสำคัญในการเพิ่มประสิทธิภาพและขยายขนาดของโมเดล เนื่องจากมันจะตัดการตอบสนองที่ไม่เกี่ยวข้องกับสิ่งเร้าที่กำหนดออกไป ป้องกันไม่ให้การตอบสนองเหล่านั้นสะสมในโมเดลขนาดใหญ่ การตัดส่วนต่างๆ ของโมเดลที่ไม่เกี่ยวข้องกับสิ่งเร้าในระหว่างการเรียนรู้ให้เงียบสนิทนั้นเองที่ทำให้สามารถขยายขนาดได้ เมื่อสัดส่วนของส่วนที่ไม่เกี่ยวข้องกับสิ่งเร้าในโมเดลมีขนาดใหญ่ขึ้น การเชื่อมต่อจำนวนมากภายในโมเดลก็จะสะสมขึ้นอย่างหลีกเลี่ยงไม่ได้ในระหว่างการขยายขนาด ไม่ว่าการตอบสนองแต่ละครั้งจะเล็กน้อยเพียงใดก็ตาม ดังนั้น ฟังก์ชันหน่วยเชิงเส้นแบบปรับแก้ ด้วยคุณสมบัติการตัดการตอบสนองออกไปเป็นศูนย์อย่างสมบูรณ์ จึงทำให้สามารถขยายขนาดโมเดลที่มีพารามิเตอร์นับแสนล้านตัวขึ้นไปได้
โมเดล Transformer รุ่นแรกๆ ที่มีขนาดใหญ่ เช่น GPT-3 (2020) [ 21 ]และ Falcon-180B (2023) [ 22 ]อาศัยฟังก์ชัน rectified linear unit อย่างชัดเจน ในขณะที่รุ่นต่อมา เช่น GPT-4 (2023) [ 23 ]และ Llama 3 (2024) [ 24 ]ใช้รูปแบบที่ราบรื่นกว่า เช่น GELU หรือ SwiGLU รูปแบบเหล่านี้ถูกนำมาใช้เพื่อปรับปรุงเสถียรภาพในการฝึกอบรม ในขณะที่ยังคงรักษาหลักการแก้ไขของการทำให้การตอบสนองต่ำเป็นศูนย์เอาไว้ ReLU และรูปแบบต่างๆ ของมัน ซึ่งเป็นศูนย์กลางของปัญญาประดิษฐ์สมัยใหม่ จะรักษาการตอบสนองเป็นศูนย์อย่างสมบูรณ์ทั่วทั้งโมเดลในเวลาใดเวลาหนึ่ง ในขณะที่ยังคงรักษาการตอบสนองเชิงเส้นโดยประมาณสำหรับการเชื่อมต่อที่เกี่ยวข้องกับสิ่งเร้า ทำให้มีประสิทธิภาพสูงในแต่ละงานด้านการรับรู้เฉพาะ คุณลักษณะของความเบาบางของการเปิดใช้งานนี้มีความสำคัญอย่างยิ่งต่อการขยายขนาดอย่างมหาศาลและการเพิ่มประสิทธิภาพของโมเดล AI จนถึงปัจจุบัน
ข้อดี
ข้อดีของ ReLU ได้แก่:
- การเปิดใช้งาน ที่เบาบาง : ตัวอย่างเช่น ใน เครือข่าย ที่เริ่มต้นแบบสุ่มมีเพียงประมาณ 50% ของหน่วยที่ซ่อนอยู่ เท่านั้น ที่ถูกเปิดใช้งาน (กล่าวคือ มีเอาต์พุตที่ไม่เป็นศูนย์)
- การแพร่กระจายเกรเดียนต์ที่ดีกว่า: ปัญหา เกรเดียนต์หาย ไปน้อยลง เมื่อเทียบกับฟังก์ชันการเปิดใช้งานซิกมอยด์ที่อิ่มตัวในทั้งสองทิศทาง[ 4 ]
- ประสิทธิภาพ: เพียงแค่เปรียบเทียบและบวกก็เพียงพอแล้ว
- ไม่ขึ้นกับมาตราส่วน ( เป็นเนื้อเดียวกันหรือ "ความเท่าเทียมกันของความเข้ม" [ 19 ] ):
- .
ปัญหาที่อาจเกิดขึ้น
ข้อเสียที่อาจเกิดขึ้นได้ ได้แก่:
- ไม่สามารถหาอนุพันธ์ได้ที่จุดศูนย์ (อย่างไรก็ตาม สามารถหาอนุพันธ์ได้ที่จุดอื่น ๆ และค่าของอนุพันธ์ที่จุดศูนย์สามารถเลือกให้เป็น 0 หรือ 1 ได้ตามอำเภอใจ)
- ไม่ใช่ค่าศูนย์กลาง: ค่าเอาต์พุตของ ReLU จะเป็นค่าที่ไม่ติดลบเสมอ ซึ่งอาจทำให้เครือข่ายเรียนรู้ได้ยากขึ้นในระหว่างการแพร่กระจายย้อนกลับ เนื่องจากค่าอัปเดตของเกรเดียนต์มักจะผลักน้ำหนักไปในทิศทางเดียว (บวกหรือลบ) การทำให้เป็นมาตรฐานแบบกลุ่ม (Batch normalization ) สามารถช่วยแก้ไขปัญหานี้ได้
- ค่า ReLU นั้นไม่มีขอบเขตจำกัด
- ความซ้ำซ้อนของการกำหนดพารามิเตอร์: เนื่องจาก ReLU ไม่ขึ้นกับมาตราส่วน เครือข่ายจึงคำนวณฟังก์ชันเดียวกันเป๊ะโดยการปรับขนาดน้ำหนักและไบแอสหน้าการเปิดใช้งาน ReLU ด้วยและน้ำหนักหลังจากนั้นด้วย[ 4 ]
- ปัญหา ReLU ตาย: บางครั้งเซลล์ประสาท ReLU อาจถูกผลักไปอยู่ในสถานะที่มันไม่ทำงานเลยสำหรับอินพุตเกือบทั้งหมด ในสถานะนี้ จะไม่มีเกรเดียนต์ไหลย้อนกลับผ่านเซลล์ประสาท ดังนั้นเซลล์ประสาทจึงติดอยู่ในสถานะที่ไม่ทำงานอย่างถาวร (มัน "ตาย") นี่เป็นรูปแบบหนึ่งของปัญหาเกรเดียนต์หายไปในบางกรณี เซลล์ประสาทจำนวนมากในเครือข่ายอาจติดอยู่ในสถานะที่ตายแล้ว ซึ่งจะลดความสามารถของแบบจำลองลงอย่างมีประสิทธิภาพ และอาจทำให้กระบวนการเรียนรู้หยุดชะงักได้ ปัญหานี้มักเกิดขึ้นเมื่อตั้งอัตราการเรียนรู้ไว้สูงเกินไป อาจบรรเทาได้โดยใช้ ReLU แบบ "รั่ว" แทน โดยกำหนดค่าความชันบวกเล็กน้อยให้กับอย่างไรก็ตาม ประสิทธิภาพอาจลดลงขึ้นอยู่กับงาน
ตัวแปร
รูปแบบเชิงเส้นแบบแบ่งช่วง
Leaky ReLU (2014) อนุญาตให้มีการไล่ระดับเล็กน้อยที่เป็นบวกเมื่อหน่วยไม่ทำงาน[ 6 ]ซึ่งช่วยลดปัญหาการไล่ระดับที่หายไป การไล่ระดับนี้ถูกกำหนดโดยพารามิเตอร์ซึ่งโดยทั่วไปจะตั้งค่าเป็น 0.01–0.3 [ 25 ] [ 26 ]
ฟังก์ชันเดียวกันนี้สามารถแสดงได้โดยไม่ต้องใช้สัญลักษณ์แบบแบ่งช่วงดังนี้:
Parametric ReLU (PReLU, 2016)พัฒนาแนวคิดนี้ต่อไปโดยการสร้างพารามิเตอร์ที่เรียนรู้ได้พร้อมกับพารามิเตอร์เครือข่ายอื่นๆ[ 27 ]
โปรดทราบว่าสำหรับสิ่งนี้จะเทียบเท่ากับ
และด้วยเหตุนี้จึงมีความสัมพันธ์กับเครือข่าย "maxout" [ 27 ]
Concatenated ReLU (CReLU, 2016)รักษาข้อมูลเฟสบวกและลบโดยการส่งคืนค่าสองค่า: [ 28 ]
รูปแบบเรียบ
ซอฟต์พลัส

การประมาณค่าที่ราบเรียบของวงจรเรียงกระแสคือฟังก์ชันวิเคราะห์
ซึ่งเรียกว่าsoftplus (2000) [ 29 ] [ 4 ]หรือฟังก์ชันSmoothReLU [ 30 ]สำหรับค่าลบขนาดใหญ่จะมีค่าประมาณดังนั้นจึงอยู่เหนือ 0 เล็กน้อย ในขณะที่สำหรับค่าบวกขนาดใหญ่จะมีค่าประมาณดังนั้นจึงอยู่เหนือเล็กน้อย
ฟังก์ชันนี้สามารถประมาณได้ดังนี้:
โดยการเปลี่ยนตัวแปรนี้ จะเทียบเท่ากับ
อาจมีการรวม พารามิเตอร์ความคมชัดไว้ด้วย:
อนุพันธ์ของ softplus คือฟังก์ชันโลจิสติกซึ่งในทางกลับกันสามารถมองได้ว่าเป็นค่าประมาณที่ราบเรียบของอนุพันธ์ของตัวเรียงกระแส ซึ่งก็คือฟังก์ชันขั้นบันไดของ Heaviside
การขยายฟังก์ชัน softplus แบบตัวแปรเดียวไปสู่ตัวแปรหลายตัว คือฟังก์ชันLogSumExpโดยตั้งค่าอาร์กิวเมนต์ตัวแรกเป็นศูนย์:
ฟังก์ชัน LogSumExp คือ
และอนุพันธ์ของมันคือฟังก์ชันsoftmaxโดยฟังก์ชัน softmax ที่มีอาร์กิวเมนต์แรกตั้งค่าเป็นศูนย์คือการขยายทั่วไปของฟังก์ชันโลจิสติกแบบหลายตัวแปร ทั้ง LogSumExp และ softmax ถูกนำมาใช้ในแมชชีนเลิร์นนิง
อีลู
หน่วยเชิงเส้นเลขชี้กำลัง (2015) อนุญาตให้ค่าลบได้อย่างราบรื่น นี่เป็นความพยายามที่จะทำให้ค่าเฉลี่ยของการเปิดใช้งานเข้าใกล้ศูนย์มากขึ้น ซึ่งจะช่วยเร่งการเรียนรู้ มีการแสดงให้เห็นว่า ELU สามารถให้ความแม่นยำในการจำแนกประเภทที่สูงกว่า ReLU [ 31 ]
ในสูตรเหล่านี้เป็นไฮเปอร์พารามิเตอร์ที่จะต้องปรับแต่งโดยมีข้อจำกัด
เมื่อพิจารณาการตีความแบบเดียวกันELU สามารถมองได้ว่าเป็นเวอร์ชันที่ปรับให้เรียบของ ReLU ที่เลื่อน (SReLU) ซึ่งมีรูปแบบเป็น
หน่วยเชิงเส้นข้อผิดพลาดแบบเกาส์เซียน (GELU)
GELU (2016) เป็นการประมาณค่าแบบราบเรียบของตัวเรียงกระแส:
โดยที่คือฟังก์ชันการกระจายสะสม ของ การกระจายปกติมาตรฐานและคือฟังก์ชันความคลาดเคลื่อน
ฟังก์ชันการเปิดใช้งานนี้แสดงไว้ในรูปภาพตอนต้นของบทความนี้ มี "ส่วนนูน" ที่มีอนุพันธ์เป็นลบทางด้านซ้ายของx < 0 ทำหน้าที่เป็นฟังก์ชันการเปิดใช้งานเริ่มต้นสำหรับโมเดลทรานส์ฟอ ร์เมอร์หลายแบบ เช่นBERT [ 32 ]
เอกสารฉบับเดียวกันนี้ยังแนะนำการประมาณค่าที่เร็วกว่าสำหรับ GELU อีกด้วย การประมาณค่าแรกได้มาจากการประมาณค่าสำหรับ: [ 33 ]
การประมาณค่าแบบที่สองซึ่งมีความแม่นยำน้อยกว่านั้นใช้ฟังก์ชันซิกมอยด์ (โลจิสติก)เป็นซึ่งสูตรจะคล้ายกับ SiLU (ดูด้านล่าง) [ 32 ]
ซิลู

SiLU (หน่วยเชิงเส้นซิกมอยด์) หรือฟังก์ชัน swish [ 34 ]เป็นการประมาณค่าแบบเรียบอีกแบบหนึ่งที่ใช้ฟังก์ชันซิกมอยด์ (โลจิสติก)ซึ่งนำเสนอครั้งแรกในเอกสาร GELU ปี 2016: [ 32 ]
การคำนวณด้วยวิธีนี้ถูกกว่า GELU นอกจากนี้ยังมี "ส่วนต่าง" ที่น่าสนใจอีกด้วย
มิช
ฟังก์ชัน mish (2019) ยังสามารถใช้เป็นการประมาณค่าเรียบของตัวเรียงกระแสได้อีกด้วย[ 34 ]โดยกำหนดไว้ดังนี้
โดยที่คือฟังก์ชันแทนเจนต์ไฮเปอร์โบลิกและคือฟังก์ชัน ซอฟต์พลัส
Mish ได้มาจากการทดลองกับฟังก์ชันที่คล้ายกับ Swish (SiLU ดูด้านบน) มันไม่เป็นแบบโมโนโทนิก (มี "ส่วนนูน") เหมือน Swish คุณสมบัติใหม่หลักคือมันแสดงพฤติกรรม "การปรับตัวเอง" ซึ่งเกิดจากเทอมในอนุพันธ์อันดับแรก[ 34 ] [ 35 ]
สแควร์พลัส
Squareplus (2021) [ 36 ]คือฟังก์ชัน
โดยที่เป็นไฮเปอร์พารามิเตอร์ที่กำหนด "ขนาด" ของบริเวณโค้งใกล้(ตัวอย่างเช่น การปล่อยให้ มีค่ามาก จะได้ฟังก์ชัน ReLU และการปล่อยให้มีค่ามาก จะได้ฟังก์ชันค่า เฉลี่ยแบบโลหะ ) ฟังก์ชัน Squareplus มีคุณสมบัติหลายอย่างคล้ายกับ softplus ได้แก่ เป็นฟังก์ชันโมโนโทนิก มีค่า เป็นบวก อย่างเคร่งครัดเข้าใกล้ 0 เมื่อเข้าใกล้ฟังก์ชันเอกลักษณ์เมื่อและมีความเรียบอย่างไรก็ตาม Squareplus สามารถคำนวณได้โดยใช้ฟังก์ชันพีชคณิต เท่านั้น ทำให้เหมาะสำหรับสถานการณ์ที่ทรัพยากรการคำนวณหรือชุดคำสั่งมีจำกัด นอกจากนี้ Squareplus ไม่จำเป็นต้องพิจารณาเป็นพิเศษเพื่อให้มั่นใจถึงเสถียรภาพเชิงตัวเลขเมื่อมีค่ามาก
เดลู
ExtendedD Exponential Linear Unit (DELU, 2023) เป็นฟังก์ชันการกระตุ้นที่ราบเรียบกว่าในบริเวณใกล้เคียงศูนย์และคมชัดกว่าสำหรับค่าที่มากขึ้น ทำให้สามารถจัดสรรเซลล์ประสาทในกระบวนการเรียนรู้ได้ดีขึ้นเพื่อประสิทธิภาพที่สูงขึ้น ด้วยการออกแบบที่เป็นเอกลักษณ์ ทำให้ DELU แสดงให้เห็นว่าอาจได้ความแม่นยำในการจำแนกประเภทที่สูงกว่า ReLU และ ELU [ 37 ]
ในสูตรเหล่านี้ , และคือค่าไฮเปอร์พารามิเตอร์ซึ่งสามารถตั้งค่าเป็นข้อจำกัดเริ่มต้น, และได้เช่นเดียวกับที่ใช้ในงานวิจัยต้นฉบับ
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ หน่วยเชิงเส้นแบบแก้ไข
ในบริบทของ เครือข่ายประสาทเทียม ฟังก์ชันการกระตุ้น แบบ rectifier หรือReLU (rectified linear unit) [ 1 ] [ 2 ] เป็น ฟังก์ชันการกระตุ้น ที่กำหนดเป็นส่วนที่ไม่เป็นลบของอาร์กิวเมนต์...
ประวัติศาสตร์
ReLU ถูกใช้ครั้งแรกโดย Alston Householder ในปี พ.ศ. 2484 ในฐานะนามธรรมทางคณิตศาสตร์ของเครือข่ายประสาททางชีววิทยา [ 9 ]
รูปแบบเชิงเส้นแบบแบ่งช่วง
Leaky ReLU (2014) อนุญาตให้มีการไล่ระดับเล็กน้อยที่เป็นบวกเมื่อหน่วยไม่ทำงาน [ 6 ] ซึ่งช่วยลดปัญหาการไล่ระดับที่หายไป การไล่ระดับนี้ถูกกำหนดโดยพารามิเตอร์ซึ่งโดยทั่วไปจะตั้งค่าเป็น 0.01–0.3 [ 25 ] [ 26 ] α {\displaystyle \alpha }
รูปแบบเรียบ
การประมาณค่าที่ราบเรียบของวงจรเรียงกระแสคือ ฟังก์ชันวิเคราะห์