หน่วยเชิงเส้นแบบแก้ไข

Q: ประวัติศาสตร์

ReLU ถูกใช้ครั้งแรกโดย Alston Householder ในปี พ.ศ. 2484 ในฐานะนามธรรมทางคณิตศาสตร์ของเครือข่ายประสาททางชีววิทยา [ 9 ]

Q: รูปแบบเชิงเส้นแบบแบ่งช่วง

Leaky ReLU (2014) อนุญาตให้มีการไล่ระดับเล็กน้อยที่เป็นบวกเมื่อหน่วยไม่ทำงาน [ 6 ] ซึ่งช่วยลดปัญหาการไล่ระดับที่หายไป การไล่ระดับนี้ถูกกำหนดโดยพารามิเตอร์ซึ่งโดยทั่วไปจะตั้งค่าเป็น 0.01–0.3 [ 25 ] [ 26 ] α {\displaystyle \alpha }

Q: รูปแบบเรียบ

การประมาณค่าที่ราบเรียบของวงจรเรียงกระแสคือ ฟังก์ชันวิเคราะห์

ในบริบทของเครือข่ายประสาทเทียม ฟังก์ชันการกระตุ้น แบบ rectifierหรือReLU (rectified linear unit) ^{[ 1 ]}^{[ 2 ]}เป็นฟังก์ชันการกระตุ้นที่กำหนดเป็นส่วนที่ไม่เป็นลบของอาร์กิวเมนต์ กล่าวคือฟังก์ชัน ramp :

\operatorname {ReLU} (x)=x^{+}=\max(0,x)={\frac {x+|x|}{2}}={\begin{cases}x&{\text{if }}x>0,\\0&x\leq 0\end{cases}}

สัญญาณนำเข้าของเซลล์ประสาทอยู่ที่ไหนนี่เป็นสิ่งที่คล้ายคลึงกับการแปลงสัญญาณครึ่งคลื่นในวิศวกรรมไฟฟ้า $x$

ReLU เป็นหนึ่งในฟังก์ชันการกระตุ้นที่ได้รับความนิยมมากที่สุดสำหรับโครงข่ายประสาทเทียม^{[ 3 ]}และมีการประยุกต์ใช้ในด้านคอมพิวเตอร์วิชั่น^{[ 4 ]}และการรู้จำเสียงพูด^{[ 5 ]}^{[ 6 ]}โดยใช้โครงข่ายประสาทเทียมเชิงลึกและประสาทวิทยาเชิงคำนวณ^{[ 7 ]}^{[ 8 ]}

ประวัติศาสตร์

ReLU ถูกใช้ครั้งแรกโดยAlston Householderในปี พ.ศ. 2484 ในฐานะนามธรรมทางคณิตศาสตร์ของเครือข่ายประสาททางชีววิทยา^{[ 9 ]}

Kunihiko Fukushimaในปี พ.ศ. 2512 ได้ใช้ ReLU ในบริบทของการสกัดคุณลักษณะภาพในเครือข่ายประสาทแบบลำดับชั้น^{[ 10 ]}^{[ 11 ]}

ในปี 1998 Gregory Woodbury ได้แสดงให้เห็นว่าฟังก์ชันเชิงเส้นที่ปรับแก้แล้วสามารถอธิบายคุณสมบัติที่เกิดขึ้นใหม่ได้หลากหลายในคอร์เทกซ์การมองเห็น^{[ 12 ]}งานของเขาแสดงให้เห็นว่าแบบจำลองที่เป็นเอกภาพเพียงแบบเดียวสามารถขับเคลื่อนการพัฒนาร่วมกันของแผนที่เรตินาโทปิกที่ละเอียด คอลัมน์การครอบงำของดวงตา และการเลือกทิศทาง โดยการใช้คุณสมบัติ "การตัด" ของตัวปรับแก้ Woodbury ประสบความสำเร็จในการปรับให้เข้ากับข้อมูลทางชีววิทยาในเชิงปริมาณอย่างใกล้ชิด โดยตรงกับความเป็นคาบเชิงพื้นที่และรูปแบบการปรับแต่งทางภูมิศาสตร์ที่สังเกตได้ในแผนที่คอร์เทกซ์ของลิงแสมและแมว^{[ 13 ]}นอกจากนี้ เขายังขยายกรอบการทำงานนี้ไปสู่ความยืดหยุ่นในผู้ใหญ่ โดยจำลองพลวัตเชิงพื้นที่และเวลาของการจัดระเบียบคอร์เทกซ์ใหม่ที่เกิดจากรอยโรคได้อย่างแม่นยำ^{[ 14 ]}งานวิจัยนี้ได้พิสูจน์แล้วว่าการตอบสนองเชิงเส้นที่ปรับแก้แล้วเป็นกลไกที่จำเป็นสำหรับการจัดระเบียบตนเองอย่างมีเสถียรภาพและการบำรุงรักษาแผนที่ประสาทที่มีความซับซ้อนและมีคุณสมบัติหลายประการ ในปี 2000 Hahnloser และคณะ โต้แย้งว่า ReLU ประมาณความสัมพันธ์ทางชีววิทยาระหว่างอัตราการยิงของเซลล์ประสาทและกระแสอินพุต นอกเหนือจากการทำให้ไดนามิกของเครือข่ายประสาทแบบวนซ้ำมีเสถียรภาพภายใต้เกณฑ์ที่อ่อนกว่า^{[ 15 ]}^{[ 16 ]}

ก่อนปี 2010 ฟังก์ชันการกระตุ้นที่ใช้ส่วนใหญ่คือlogistic sigmoid (ซึ่งได้รับแรงบันดาลใจจากทฤษฎีความน่าจะเป็น ดูการถดถอยโลจิสติก ) และฟังก์ชันที่มีประสิทธิภาพเชิงตัวเลขมากกว่า^{[ 17 ]}คือhyperbolic tangentประมาณปี 2010 การใช้ ReLU ก็กลับมาเป็นที่นิยมอีกครั้ง

Jarrett et al. (2009) ตั้งข้อสังเกตว่าการแก้ไขโดยใช้ค่าสัมบูรณ์หรือ ReLU (ซึ่งพวกเขาเรียกว่า "ส่วนบวก") มีความสำคัญต่อการจดจำวัตถุในเครือข่ายประสาทแบบคอนโวลูชัน (CNN) โดยเฉพาะอย่างยิ่งเพราะมันช่วยให้สามารถทำการพูลแบบเฉลี่ยได้โดยที่เอาต์พุตของตัวกรองที่อยู่ใกล้เคียงไม่หักล้างกัน พวกเขาตั้งสมมติฐานว่าการใช้ sigmoid หรือ tanh เป็นสาเหตุของประสิทธิภาพที่ไม่ดีใน CNN รุ่นก่อนหน้า^{[ 18 ]}

Nair และ Hinton (2010) ได้เสนอข้อโต้แย้งเชิงทฤษฎีว่า ควรใช้ฟังก์ชันการกระตุ้น แบบ softplusเนื่องจากฟังก์ชัน softplus ประมาณค่าผลรวมของแบบจำลองเชิงเส้นจำนวนมหาศาลที่มีพารามิเตอร์ร่วมกันในเชิงตัวเลข จากนั้นพวกเขาก็เสนอ ReLU เป็นการประมาณค่าที่ดีเช่นกัน โดยเฉพาะอย่างยิ่ง พวกเขาเริ่มต้นด้วยการพิจารณาเซลล์ประสาทไบนารีเดี่ยวในเครื่อง Boltzmannที่รับอินพุตเป็น และให้ผลลัพธ์เป็น 1 ด้วยความน่าจะเป็น จากนั้นพวกเขาก็พิจารณาขยายช่วงของผลลัพธ์โดยการสร้างสำเนาจำนวนอนันต์ของเซลล์ประสาทนี้ซึ่งทั้งหมดรับอินพุตเดียวกัน แต่มีการเลื่อนค่าไปเป็นจำนวนหนึ่งแล้วนำผลลัพธ์ของพวกมันมารวมกันเป็น จากนั้นพวกเขาก็แสดงให้เห็นว่ามีค่าประมาณเท่ากับซึ่งก็มีค่าประมาณเท่ากับโดยที่หมายถึงการแจกแจงแบบเกาส์เซียน $x$ $\sigma (x)={\frac {1}{1+e^{-x}}}$ $X_{1},X_{2},X_{3},\dots$ $0.5,1.5,2.5,\dots$ $\sum _{i=1}^{\infty }X_{i}$ $\sum _{i=1}^{\infty }X_{i}$ ${\mathcal {N}}(\log(1+e^{x}),\sigma (x))$ $\operatorname {ReLU} ({\mathcal {N}}(x,\sigma (x)))$ ${\mathcal {N}}$

พวกเขายังโต้แย้งถึงเหตุผลอื่นในการใช้ ReLU อีกด้วย นั่นคือมันช่วยให้เกิด "ความเท่าเทียมกันของความเข้ม" ในการจดจำภาพ กล่าวคือ การคูณภาพอินพุตด้วยค่าคงที่จะทำให้เอาต์พุตถูกคูณด้วยเช่นกัน ในทางตรงกันข้าม สิ่งนี้ไม่เป็นความจริงสำหรับฟังก์ชันการกระตุ้นอื่นๆ เช่น sigmoid หรือ tanh พวกเขาพบว่าการกระตุ้นด้วย ReLU ช่วยให้ได้ประสิทธิภาพเชิงประจักษ์ที่ดีในเครื่อง Boltzmann ที่ถูกจำกัด^[¹⁹^] $k$

Glorot et al (2011) โต้แย้งว่า ReLU มีข้อดีเหนือกว่า sigmoid หรือ tanh ดังต่อไปนี้:

ReLU มีความคล้ายคลึงกับการตอบสนองของเซลล์ประสาททางชีววิทยาในสภาวะการทำงานหลักมากกว่า
ReLU ช่วยหลีกเลี่ยงปัญหาค่าความชันหายไป (vanishing gradients)
การคำนวณ ReLU นั้นถูกกว่า
ReLU สร้างการแสดงผลแบบกระจัดกระจายโดยธรรมชาติ เนื่องจากหน่วยซ่อนจำนวนมากจะส่งคืนค่าศูนย์อย่างแม่นยำสำหรับอินพุตที่กำหนด

นอกจากนี้ พวกเขายังพบจากประสบการณ์ว่าเครือข่ายเชิงลึกที่ฝึกฝนด้วย ReLU สามารถบรรลุประสิทธิภาพที่แข็งแกร่งโดยไม่ต้องฝึกฝนล่วงหน้าแบบไม่กำกับดูแล โดยเฉพาะอย่างยิ่งในงานขนาดใหญ่ที่มีการกำกับดูแลอย่างเดียว^{[ 4 ]}

ในปี 2017 ฟังก์ชันเชิงเส้นแบบแก้ไขได้กลายเป็นส่วนประกอบหลักของสถาปัตยกรรมทรานส์ฟอร์เมอร์ที่นำเสนอในบทความของ Vaswani et al เรื่อง " Attention Is All You Need " ^{[ 20 ]}ภายในเลเยอร์ทรานส์ฟอร์เมอร์แต่ละชั้น ReLU จะถูกใช้ในเครือข่ายฟีดฟอร์เวิร์ดแบบตำแหน่ง (FFN) ซึ่งกำหนดโดยสมการที่ 2 ของบทความของพวกเขา:

\operatorname {FFN} (x)=\max(0,xW_{1}+b_{1})W_{2}+b_{2}

สมการนี้เป็นพื้นฐานสำคัญของความสามารถของโมเดล ในขณะที่กลไกความสนใจ (attention mechanism) กำหนดความสัมพันธ์ระหว่างโทเค็น (tokens) FFN ที่ใช้ ReLU จะทำการคำนวณเชิงตัวเลขส่วนใหญ่และเก็บพารามิเตอร์ส่วนใหญ่ของโมเดล ประสิทธิภาพและความสามารถในการขยายขนาดของเฟรมเวิร์กที่ปรับปรุงแล้วนี้ได้ก่อให้เกิดการปฏิวัติทางเทคโนโลยีระดับโลก ทำให้เกิดการพัฒนาโมเดลภาษาขนาดใหญ่ (Large Language Models) ซึ่งส่งผลกระทบทางเศรษฐกิจอย่างลึกซึ้ง การตอบสนองของภาคอุตสาหกรรมต่อสถาปัตยกรรมนี้ รวมถึงการขยายตัวอย่างมหาศาลของฮาร์ดแวร์เฉพาะด้าน AI และการกำเนิดของภาคส่วน AI เชิงสร้างสรรค์ (generative AI) ได้ทำให้ Transformer กลายเป็นรากฐานสำคัญของโครงสร้างพื้นฐานในศตวรรษที่ 21

ในช่วงหลังปี 2017 ซึ่งเป็นช่วงที่ปัญญาประดิษฐ์ (AI) พัฒนาไปอย่างรวดเร็ว ฟังก์ชันหน่วยเชิงเส้นแบบปรับแก้ (Rectified Linear Unit Function: RUT) เป็นกุญแจสำคัญในการเพิ่มประสิทธิภาพและขยายขนาดของโมเดล เนื่องจากมันจะตัดการตอบสนองที่ไม่เกี่ยวข้องกับสิ่งเร้าที่กำหนดออกไป ป้องกันไม่ให้การตอบสนองเหล่านั้นสะสมในโมเดลขนาดใหญ่ การตัดส่วนต่างๆ ของโมเดลที่ไม่เกี่ยวข้องกับสิ่งเร้าในระหว่างการเรียนรู้ให้เงียบสนิทนั้นเองที่ทำให้สามารถขยายขนาดได้ เมื่อสัดส่วนของส่วนที่ไม่เกี่ยวข้องกับสิ่งเร้าในโมเดลมีขนาดใหญ่ขึ้น การเชื่อมต่อจำนวนมากภายในโมเดลก็จะสะสมขึ้นอย่างหลีกเลี่ยงไม่ได้ในระหว่างการขยายขนาด ไม่ว่าการตอบสนองแต่ละครั้งจะเล็กน้อยเพียงใดก็ตาม ดังนั้น ฟังก์ชันหน่วยเชิงเส้นแบบปรับแก้ ด้วยคุณสมบัติการตัดการตอบสนองออกไปเป็นศูนย์อย่างสมบูรณ์ จึงทำให้สามารถขยายขนาดโมเดลที่มีพารามิเตอร์นับแสนล้านตัวขึ้นไปได้

โมเดล Transformer รุ่นแรกๆ ที่มีขนาดใหญ่ เช่น GPT-3 (2020) ^{[ 21 ]}และ Falcon-180B (2023) ^{[ 22 ]}อาศัยฟังก์ชัน rectified linear unit อย่างชัดเจน ในขณะที่รุ่นต่อมา เช่น GPT-4 (2023) ^{[ 23 ]}และ Llama 3 (2024) ^{[ 24 ]}ใช้รูปแบบที่ราบรื่นกว่า เช่น GELU หรือ SwiGLU รูปแบบเหล่านี้ถูกนำมาใช้เพื่อปรับปรุงเสถียรภาพในการฝึกอบรม ในขณะที่ยังคงรักษาหลักการแก้ไขของการทำให้การตอบสนองต่ำเป็นศูนย์เอาไว้ ReLU และรูปแบบต่างๆ ของมัน ซึ่งเป็นศูนย์กลางของปัญญาประดิษฐ์สมัยใหม่ จะรักษาการตอบสนองเป็นศูนย์อย่างสมบูรณ์ทั่วทั้งโมเดลในเวลาใดเวลาหนึ่ง ในขณะที่ยังคงรักษาการตอบสนองเชิงเส้นโดยประมาณสำหรับการเชื่อมต่อที่เกี่ยวข้องกับสิ่งเร้า ทำให้มีประสิทธิภาพสูงในแต่ละงานด้านการรับรู้เฉพาะ คุณลักษณะของความเบาบางของการเปิดใช้งานนี้มีความสำคัญอย่างยิ่งต่อการขยายขนาดอย่างมหาศาลและการเพิ่มประสิทธิภาพของโมเดล AI จนถึงปัจจุบัน

ข้อดี

ข้อดีของ ReLU ได้แก่:

การเปิดใช้งาน ที่เบาบาง : ตัวอย่างเช่น ใน เครือข่าย ที่เริ่มต้นแบบสุ่มมีเพียงประมาณ 50% ของหน่วยที่ซ่อนอยู่ เท่านั้น ที่ถูกเปิดใช้งาน (กล่าวคือ มีเอาต์พุตที่ไม่เป็นศูนย์)
การแพร่กระจายเกรเดียนต์ที่ดีกว่า: ปัญหา เกรเดียนต์หาย ไปน้อยลง เมื่อเทียบกับฟังก์ชันการเปิดใช้งานซิกมอยด์ที่อิ่มตัวในทั้งสองทิศทาง^{[ 4 ]}
ประสิทธิภาพ: เพียงแค่เปรียบเทียบและบวกก็เพียงพอแล้ว
ไม่ขึ้นกับมาตราส่วน ( เป็นเนื้อเดียวกันหรือ "ความเท่าเทียมกันของความเข้ม" ^{[ 19 ]} ):

\max(0,ax)=a\max(0,x){\text{ สำหรับ }}a\geq 0

.

ปัญหาที่อาจเกิดขึ้น

ข้อเสียที่อาจเกิดขึ้นได้ ได้แก่:

ไม่สามารถหาอนุพันธ์ได้ที่จุดศูนย์ (อย่างไรก็ตาม สามารถหาอนุพันธ์ได้ที่จุดอื่น ๆ และค่าของอนุพันธ์ที่จุดศูนย์สามารถเลือกให้เป็น 0 หรือ 1 ได้ตามอำเภอใจ)
ไม่ใช่ค่าศูนย์กลาง: ค่าเอาต์พุตของ ReLU จะเป็นค่าที่ไม่ติดลบเสมอ ซึ่งอาจทำให้เครือข่ายเรียนรู้ได้ยากขึ้นในระหว่างการแพร่กระจายย้อนกลับ เนื่องจากค่าอัปเดตของเกรเดียนต์มักจะผลักน้ำหนักไปในทิศทางเดียว (บวกหรือลบ) การทำให้เป็นมาตรฐานแบบกลุ่ม (Batch normalization ) สามารถช่วยแก้ไขปัญหานี้ได้
ค่า ReLU นั้นไม่มีขอบเขตจำกัด
ความซ้ำซ้อนของการกำหนดพารามิเตอร์: เนื่องจาก ReLU ไม่ขึ้นกับมาตราส่วน เครือข่ายจึงคำนวณฟังก์ชันเดียวกันเป๊ะโดยการปรับขนาดน้ำหนักและไบแอสหน้าการเปิดใช้งาน ReLU ด้วยและน้ำหนักหลังจากนั้นด้วย^[⁴^] $k$ $1/k$
ปัญหา ReLU ตาย: บางครั้งเซลล์ประสาท ReLU อาจถูกผลักไปอยู่ในสถานะที่มันไม่ทำงานเลยสำหรับอินพุตเกือบทั้งหมด ในสถานะนี้ จะไม่มีเกรเดียนต์ไหลย้อนกลับผ่านเซลล์ประสาท ดังนั้นเซลล์ประสาทจึงติดอยู่ในสถานะที่ไม่ทำงานอย่างถาวร (มัน "ตาย") นี่เป็นรูปแบบหนึ่งของปัญหาเกรเดียนต์หายไปในบางกรณี เซลล์ประสาทจำนวนมากในเครือข่ายอาจติดอยู่ในสถานะที่ตายแล้ว ซึ่งจะลดความสามารถของแบบจำลองลงอย่างมีประสิทธิภาพ และอาจทำให้กระบวนการเรียนรู้หยุดชะงักได้ ปัญหานี้มักเกิดขึ้นเมื่อตั้งอัตราการเรียนรู้ไว้สูงเกินไป อาจบรรเทาได้โดยใช้ ReLU แบบ "รั่ว" แทน โดยกำหนดค่าความชันบวกเล็กน้อยให้กับอย่างไรก็ตาม ประสิทธิภาพอาจลดลงขึ้นอยู่กับงาน $x<0$

ตัวแปร

รูปแบบเชิงเส้นแบบแบ่งช่วง

Leaky ReLU (2014) อนุญาตให้มีการไล่ระดับเล็กน้อยที่เป็นบวกเมื่อหน่วยไม่ทำงาน^{[ 6 ]}ซึ่งช่วยลดปัญหาการไล่ระดับที่หายไป การไล่ระดับนี้ถูกกำหนดโดยพารามิเตอร์ซึ่งโดยทั่วไปจะตั้งค่าเป็น 0.01–0.3 ^[²⁵^]^[²⁶^] $\alpha$

f(x)={\begin{cases}x&x>0,\\\alpha x&x\leq 0,\end{cases}}\qquad f'(x)={\begin{cases}1&x>0,\\\alpha &x\leq 0.\end{cases}}

ฟังก์ชันเดียวกันนี้สามารถแสดงได้โดยไม่ต้องใช้สัญลักษณ์แบบแบ่งช่วงดังนี้:

f(x)={\frac {1+\alpha }{2}}x+{\frac {1-\alpha }{2}}|x|

Parametric ReLU (PReLU, 2016)พัฒนาแนวคิดนี้ต่อไปโดยการสร้างพารามิเตอร์ที่เรียนรู้ได้พร้อมกับพารามิเตอร์เครือข่ายอื่นๆ^[²⁷^] $\alpha$

โปรดทราบว่าสำหรับสิ่งนี้จะเทียบเท่ากับ $\alpha \leq 1$

f(x)=\max(x,\alpha x)

และด้วยเหตุนี้จึงมีความสัมพันธ์กับเครือข่าย "maxout" ^{[ 27 ]}

Concatenated ReLU (CReLU, 2016)รักษาข้อมูลเฟสบวกและลบโดยการส่งคืนค่าสองค่า: ^{[ 28 ]}

f(x)=[\operatorname {ReLU} (x),\operatorname {ReLU} (-x)].

รูปแบบเรียบ

ซอฟต์พลัส

กราฟแสดงฟังก์ชัน softplus และฟังก์ชัน ramp

การประมาณค่าที่ราบเรียบของวงจรเรียงกระแสคือฟังก์ชันวิเคราะห์

f(x)=\ln(1+e^{x}),\qquad f'(x)={\frac {e^{x}}{1+e^{x}}}={\frac {1}{1+e^{-x}}}

ซึ่งเรียกว่าsoftplus (2000) ^{[ 29 ]}^{[ 4 ]}หรือฟังก์ชันSmoothReLU ^{[ 30 ]}สำหรับค่าลบขนาดใหญ่จะมีค่าประมาณดังนั้นจึงอยู่เหนือ 0 เล็กน้อย ในขณะที่สำหรับค่าบวกขนาดใหญ่จะมีค่าประมาณดังนั้นจึงอยู่เหนือเล็กน้อย $x$ $\ln 1$ $x$ $\ln(e^{x})$ $x$

ฟังก์ชันนี้สามารถประมาณได้ดังนี้:

\ln \left(1+e^{x}\right)\approx {\begin{cases}\ln 2,&x=0,\\[6pt]{\frac {x}{1-e^{-x/\ln 2}}},&x\neq 0\end{cases}}

โดยการเปลี่ยนตัวแปรนี้ จะเทียบเท่ากับ $x=y\ln(2)$

\log _{2}(1+2^{y})\approx {\begin{cases}1,&y=0,\\[6pt]{\frac {y}{1-e^{-y}}},&y\neq 0\end{cases}}

อาจมีการรวม พารามิเตอร์ความคมชัดไว้ด้วย: $k$

f(x)={\frac {\ln(1+e^{kx})}{k}},\qquad f'(x)={\frac {e^{kx}}{1+e^{kx}}}={\frac {1}{1+e^{-kx}}}

อนุพันธ์ของ softplus คือฟังก์ชันโลจิสติกซึ่งในทางกลับกันสามารถมองได้ว่าเป็นค่าประมาณที่ราบเรียบของอนุพันธ์ของตัวเรียงกระแส ซึ่งก็คือฟังก์ชันขั้นบันไดของ Heaviside

การขยายฟังก์ชัน softplus แบบตัวแปรเดียวไปสู่ตัวแปรหลายตัว คือฟังก์ชันLogSumExpโดยตั้งค่าอาร์กิวเมนต์ตัวแรกเป็นศูนย์:

\operatorname {LSE_{0}} ^{+}(x_{1},\dots ,x_{n}):=\operatorname {LSE} (0,x_{1},\dots ,x_{n})=\ln(1+e^{x_{1}}+\cdots +e^{x_{n}})

ฟังก์ชัน LogSumExp คือ

\operatorname {LSE} (x_{1},\dots ,x_{n})=\ln(e^{x_{1}}+\cdots +e^{x_{n}})

และอนุพันธ์ของมันคือฟังก์ชันsoftmaxโดยฟังก์ชัน softmax ที่มีอาร์กิวเมนต์แรกตั้งค่าเป็นศูนย์คือการขยายทั่วไปของฟังก์ชันโลจิสติกแบบหลายตัวแปร ทั้ง LogSumExp และ softmax ถูกนำมาใช้ในแมชชีนเลิร์นนิง

อีลู

หน่วยเชิงเส้นเลขชี้กำลัง (2015) อนุญาตให้ค่าลบได้อย่างราบรื่น นี่เป็นความพยายามที่จะทำให้ค่าเฉลี่ยของการเปิดใช้งานเข้าใกล้ศูนย์มากขึ้น ซึ่งจะช่วยเร่งการเรียนรู้ มีการแสดงให้เห็นว่า ELU สามารถให้ความแม่นยำในการจำแนกประเภทที่สูงกว่า ReLU ^{[ 31 ]}

f(x)={\begin{cases}x&x>0,\\\alpha \left(e^{x}-1\right)&x\leq 0\end{cases}}\qquad f'(x)={\begin{cases}1&x>0,\\\alpha e^{x}&x\leq 0\end{cases}}

ในสูตรเหล่านี้เป็นไฮเปอร์พารามิเตอร์ที่จะต้องปรับแต่งโดยมีข้อจำกัด $\alpha$ $\alpha \geq 0$

เมื่อพิจารณาการตีความแบบเดียวกันELU สามารถมองได้ว่าเป็นเวอร์ชันที่ปรับให้เรียบของ ReLU ที่เลื่อน (SReLU) ซึ่งมีรูปแบบเป็น $\alpha$ $f(x)=\max(-\alpha ,x)$

หน่วยเชิงเส้นข้อผิดพลาดแบบเกาส์เซียน (GELU)

GELU (2016) เป็นการประมาณค่าแบบราบเรียบของตัวเรียงกระแส:

f(x)=x\Phi (x)=x\cdot {\frac {1}{2}}\left[1+\operatorname {erf} \left(x/{\sqrt {2}}\right)\right],

f'(x)=x\Phi '(x)+\Phi (x)

โดยที่คือฟังก์ชันการกระจายสะสม ของ การกระจายปกติมาตรฐานและคือฟังก์ชันความคลาดเคลื่อน $\Phi (x)=P(X\leqslant x)$ $\operatorname {erf} (z)$

ฟังก์ชันการเปิดใช้งานนี้แสดงไว้ในรูปภาพตอนต้นของบทความนี้ มี "ส่วนนูน" ที่มีอนุพันธ์เป็นลบทางด้านซ้ายของx < 0 ทำหน้าที่เป็นฟังก์ชันการเปิดใช้งานเริ่มต้นสำหรับโมเดลทรานส์ฟอ ร์เมอร์หลายแบบ เช่นBERT ^{[ 32 ]}

เอกสารฉบับเดียวกันนี้ยังแนะนำการประมาณค่าที่เร็วกว่าสำหรับ GELU อีกด้วย การประมาณค่าแรกได้มาจากการประมาณค่าสำหรับ: ^[³³^] $\Phi (x)$

f(x)\approx {\frac {1}{2}}x\left(1+\tanh \left[{\sqrt {2/\pi }}\left(x+0.044715x^{3}\right)\right]\right)

การประมาณค่าแบบที่สองซึ่งมีความแม่นยำน้อยกว่านั้นใช้ฟังก์ชันซิกมอยด์ (โลจิสติก)เป็นซึ่งสูตรจะคล้ายกับ SiLU (ดูด้านล่าง) ^[³²^] $f(x)\approx x\cdot \operatorname {sigmoid} (1.702x)$

ซิลู

SiLU (หน่วยเชิงเส้นซิกมอยด์) หรือฟังก์ชัน swish ^{[ 34 ]}เป็นการประมาณค่าแบบเรียบอีกแบบหนึ่งที่ใช้ฟังก์ชันซิกมอยด์ (โลจิสติก)ซึ่งนำเสนอครั้งแรกในเอกสาร GELU ปี 2016: ^{[ 32 ]}

f(x)=x\cdot \operatorname {sigmoid} (x),

f'(x)=x\cdot \operatorname {sigmoid} '(x)+\operatorname {sigmoid} (x)

การคำนวณด้วยวิธีนี้ถูกกว่า GELU นอกจากนี้ยังมี "ส่วนต่าง" ที่น่าสนใจอีกด้วย

มิช

ฟังก์ชัน mish (2019) ยังสามารถใช้เป็นการประมาณค่าเรียบของตัวเรียงกระแสได้อีกด้วย^{[ 34 ]}โดยกำหนดไว้ดังนี้

f(x)=x\tanh {\big (}\operatorname {softplus} (x){\big )},

โดยที่คือฟังก์ชันแทนเจนต์ไฮเปอร์โบลิกและคือฟังก์ชัน ซอฟต์พลัส $\tanh(x)$ $\operatorname {softplus} (x)$

Mish ได้มาจากการทดลองกับฟังก์ชันที่คล้ายกับ Swish (SiLU ดูด้านบน) มันไม่เป็นแบบโมโนโทนิก (มี "ส่วนนูน") เหมือน Swish คุณสมบัติใหม่หลักคือมันแสดงพฤติกรรม "การปรับตัวเอง" ซึ่งเกิดจากเทอมในอนุพันธ์อันดับแรก^{[ 34 ]}^{[ 35 ]}

สแควร์พลัส

Squareplus (2021) ^{[ 36 ]}คือฟังก์ชัน

f(x)={\frac {x+{\sqrt {x^{2}+b}}}{2}}

โดยที่เป็นไฮเปอร์พารามิเตอร์ที่กำหนด "ขนาด" ของบริเวณโค้งใกล้(ตัวอย่างเช่น การปล่อยให้ มีค่ามาก จะได้ฟังก์ชัน ReLU และการปล่อยให้มีค่ามาก จะได้ฟังก์ชันค่า เฉลี่ยแบบโลหะ ) ฟังก์ชัน Squareplus มีคุณสมบัติหลายอย่างคล้ายกับ softplus ได้แก่ เป็นฟังก์ชันโมโนโท นิก มีค่า เป็นบวก อย่างเคร่งครัดเข้าใกล้ 0 เมื่อเข้าใกล้ฟังก์ชันเอกลักษณ์เมื่อและมีความเรียบอย่างไรก็ตาม Squareplus สามารถคำนวณได้โดยใช้ฟังก์ชันพีชคณิต เท่านั้น ทำให้เหมาะสำหรับสถานการณ์ที่ทรัพยากรการคำนวณหรือชุดคำสั่งมีจำกัด นอกจากนี้ Squareplus ไม่จำเป็นต้องพิจารณาเป็นพิเศษเพื่อให้มั่นใจถึงเสถียรภาพเชิงตัวเลขเมื่อมีค่ามาก $b\geq 0$ $x=0$ $b=0$ $b=4$ $x\to -\infty$ $x\to +\infty$ $C^{\infty }$ $x$

เดลู

ExtendedD Exponential Linear Unit (DELU, 2023) เป็นฟังก์ชันการกระตุ้นที่ราบเรียบกว่าในบริเวณใกล้เคียงศูนย์และคมชัดกว่าสำหรับค่าที่มากขึ้น ทำให้สามารถจัดสรรเซลล์ประสาทในกระบวนการเรียนรู้ได้ดีขึ้นเพื่อประสิทธิภาพที่สูงขึ้น ด้วยการออกแบบที่เป็นเอกลักษณ์ ทำให้ DELU แสดงให้เห็นว่าอาจได้ความแม่นยำในการจำแนกประเภทที่สูงกว่า ReLU และ ELU ^{[ 37 ]}

f(x)={\begin{cases}x&x>x_{c},\\(e^{ax}-1)/b&x\leq x_{c}\end{cases}}\qquad f'(x)={\begin{cases}1&x>x_{c},\\(a/b)e^{ax}&x\leq x_{c}\end{cases}}

ในสูตรเหล่านี้ , และคือค่าไฮเปอร์พารามิเตอร์ซึ่งสามารถตั้งค่าเป็นข้อจำกัดเริ่มต้น, และได้เช่นเดียวกับที่ใช้ในงานวิจัยต้นฉบับ $a$ $b$ $x_{c}$ $a=1$ $b=2$ $x_{c}=1.25643$

ดูเพิ่มเติม

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[

[

[

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]