กลับไปหน้าบทความ

อ่าน 3 นาที

ฟังก์ชันสวิช

ฟังก์ชัน swish เป็นกลุ่มของ ฟังก์ชันทางคณิตศาสตร์ ที่กำหนดไว้ดังนี้:

ฟังก์ชันสวิช

ฟังก์ชันswishเป็นกลุ่มของฟังก์ชันทางคณิตศาสตร์ที่กำหนดไว้ดังนี้:

ฟังก์ชันสวิช
[ 1 ]

โดยที่สามารถเป็นค่าคงที่ (โดยปกติจะตั้งไว้ที่ 1) หรือสามารถฝึกฝนได้และ "sigmoid" หมายถึงฟังก์ชันโลจิสติ

ตระกูลฟังก์ชัน swish ได้รับการออกแบบมาเพื่อทำการประมาณค่า แบบราบรื่น ระหว่างฟังก์ชันเชิงเส้นและ ฟังก์ชัน Rectified linear unit (ReLU)

เมื่อพิจารณาค่าบวก Swish เป็นกรณีพิเศษของฟังก์ชันการหดตัวแบบซิกมอยด์ที่มีพารามิเตอร์สองตัวที่กำหนดไว้ใน[ 2 ] :สมการ 3 ตัวแปรของฟังก์ชัน swish ได้แก่Mish [ 3 ]

คุณค่าพิเศษ

สำหรับ β = 0 ฟังก์ชันจะเป็นเชิงเส้น: f( x ) = x /2

สำหรับ β = 1 ฟังก์ชันดังกล่าวคือหน่วยเชิงเส้นซิกมอยด์ (SiLU)

สำหรับ β = 1.702 ฟังก์ชันจะประมาณค่าGeLU [ 4 ]

เมื่อ β → ∞ ฟังก์ชันจะลู่เข้าสู่ ReLU

ดังนั้นตระกูล swish จึงทำการสอดแทรก อย่างราบรื่น ระหว่างฟังก์ชันเชิงเส้นและฟังก์ชัน ReLU [ 1 ]

เนื่องจากทุกอินสแตนซ์ของ swish มีรูปร่างเหมือนกับค่าเริ่มต้นโดยซูมเข้าตาม ค่าที่กำหนด โดยปกติจะตั้งค่าเป็นเมื่อสามารถฝึกฝนได้ ข้อจำกัดนี้สามารถบังคับใช้ได้โดย โดยที่สามารถฝึกฝนได้

อนุพันธ์

เพราะว่าการคำนวณอนุพันธ์สำหรับกรณีเริ่มต้นก็เพียงพอแล้วดังนั้น จึงเป็นจำนวนคี่ดังนั้น จึงเป็นจำนวนคู่

ประวัติศาสตร์

SiLU ได้รับการเสนอครั้งแรกควบคู่ไปกับGELUในปี 2016 [ 4 ]จากนั้นได้รับการเสนออีกครั้งในปี 2017 ในชื่อSigmoid-weighted Linear Unit (SiL) ใน การเรียน รู้แบบเสริมแรง[ 5 ] [ 1 ] SiLU/SiL ได้รับการเสนออีกครั้งในชื่อ SWISH กว่าหนึ่งปีหลังจากที่ค้นพบครั้งแรก โดยเดิมทีเสนอโดยไม่มีพารามิเตอร์ที่เรียนรู้ได้ β ดังนั้น β จึงเท่ากับ 1 โดยปริยาย จากนั้นเอกสาร swish ก็ได้รับการปรับปรุงเพื่อเสนอการเปิดใช้งานด้วยพารามิเตอร์ที่เรียนรู้ได้ β

ในปี 2017 หลังจากทำการวิเคราะห์ ข้อมูล ImageNetนักวิจัยจากGoogleระบุว่าการใช้ฟังก์ชันนี้เป็นฟังก์ชันการกระตุ้นในโครงข่ายประสาทเทียมช่วยปรับปรุงประสิทธิภาพเมื่อเทียบกับฟังก์ชัน ReLU และ sigmoid [ 1 ]เชื่อกันว่าเหตุผลหนึ่งที่ทำให้ประสิทธิภาพดีขึ้นคือฟังก์ชัน swish ช่วยลดปัญหาการลดลงของเกรเดียนต์ระหว่างการแพร่กระจายย้อนกลับ[ 6 ]

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Swish_function&oldid=1342997104 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ฟังก์ชันสวิช

ฟังก์ชัน swish เป็นกลุ่มของ ฟังก์ชันทางคณิตศาสตร์ ที่กำหนดไว้ดังนี้:

คุณค่าพิเศษ

สำหรับ β = 0 ฟังก์ชันจะเป็นเชิงเส้น: f( x ) = x /2

อนุพันธ์

เพราะว่าการคำนวณอนุพันธ์สำหรับกรณีเริ่มต้นก็เพียงพอแล้วดังนั้น จึงเป็นจำนวนคี่ดังนั้น จึงเป็นจำนวนคู่ swish β ⁡ ( x ) = swish 1 ⁡ ( β x ) / β {\displaystyle \operatorname {swish} _{\beta }(x)=\operatorname {swish} _{1}(\beta x)/\beta } swish 1 ′ ⁡ ( x ) = x +...

ประวัติศาสตร์

SiLU ได้รับการเสนอครั้งแรกควบคู่ไปกับ GELU ในปี 2016 [ 4 ] จากนั้นได้รับการเสนออีกครั้งในปี 2017 ในชื่อ Sigmoid-weighted Linear Unit (SiL) ใน การเรียน รู้ แบบเสริมแรง [ 5 ] [ 1 ] SiLU/SiL ได้รับการเสนออีกครั้งในชื่อ SWISH กว่าหนึ่งปีหลังจากที่ค้นพบครั้งแรก...