อ่าน 3 นาที
ฟังก์ชันสวิช
ฟังก์ชัน swish เป็นกลุ่มของ ฟังก์ชันทางคณิตศาสตร์ ที่กำหนดไว้ดังนี้:
ฟังก์ชันสวิช
ฟังก์ชันswishเป็นกลุ่มของฟังก์ชันทางคณิตศาสตร์ที่กำหนดไว้ดังนี้:
[ 1 ]
ฟังก์ชันสวิช
โดยที่สามารถเป็นค่าคงที่ (โดยปกติจะตั้งไว้ที่ 1) หรือสามารถฝึกฝนได้และ "sigmoid" หมายถึงฟังก์ชันโลจิสติก
ตระกูลฟังก์ชัน swish ได้รับการออกแบบมาเพื่อทำการประมาณค่า แบบราบรื่น ระหว่างฟังก์ชันเชิงเส้นและ ฟังก์ชัน Rectified linear unit (ReLU)
เมื่อพิจารณาค่าบวก Swish เป็นกรณีพิเศษของฟังก์ชันการหดตัวแบบซิกมอยด์ที่มีพารามิเตอร์สองตัวที่กำหนดไว้ใน[ 2 ] :สมการ 3 ตัวแปรของฟังก์ชัน swish ได้แก่Mish [ 3 ]
คุณค่าพิเศษ
สำหรับ β = 0 ฟังก์ชันจะเป็นเชิงเส้น: f( x ) = x /2
สำหรับ β = 1 ฟังก์ชันดังกล่าวคือหน่วยเชิงเส้นซิกมอยด์ (SiLU)
สำหรับ β = 1.702 ฟังก์ชันจะประมาณค่าGeLU [ 4 ]
เมื่อ β → ∞ ฟังก์ชันจะลู่เข้าสู่ ReLU
ดังนั้นตระกูล swish จึงทำการสอดแทรก อย่างราบรื่น ระหว่างฟังก์ชันเชิงเส้นและฟังก์ชัน ReLU [ 1 ]
เนื่องจากทุกอินสแตนซ์ของ swish มีรูปร่างเหมือนกับค่าเริ่มต้นโดยซูมเข้าตาม ค่าที่กำหนด โดยปกติจะตั้งค่าเป็นเมื่อสามารถฝึกฝนได้ ข้อจำกัดนี้สามารถบังคับใช้ได้โดย โดยที่สามารถฝึกฝนได้
อนุพันธ์
เพราะว่าการคำนวณอนุพันธ์สำหรับกรณีเริ่มต้นก็เพียงพอแล้วดังนั้น จึงเป็นจำนวนคี่ดังนั้น จึงเป็นจำนวนคู่
ประวัติศาสตร์
SiLU ได้รับการเสนอครั้งแรกควบคู่ไปกับGELUในปี 2016 [ 4 ]จากนั้นได้รับการเสนออีกครั้งในปี 2017 ในชื่อSigmoid-weighted Linear Unit (SiL) ใน การเรียน รู้แบบเสริมแรง[ 5 ] [ 1 ] SiLU/SiL ได้รับการเสนออีกครั้งในชื่อ SWISH กว่าหนึ่งปีหลังจากที่ค้นพบครั้งแรก โดยเดิมทีเสนอโดยไม่มีพารามิเตอร์ที่เรียนรู้ได้ β ดังนั้น β จึงเท่ากับ 1 โดยปริยาย จากนั้นเอกสาร swish ก็ได้รับการปรับปรุงเพื่อเสนอการเปิดใช้งานด้วยพารามิเตอร์ที่เรียนรู้ได้ β
ในปี 2017 หลังจากทำการวิเคราะห์ ข้อมูล ImageNetนักวิจัยจากGoogleระบุว่าการใช้ฟังก์ชันนี้เป็นฟังก์ชันการกระตุ้นในโครงข่ายประสาทเทียมช่วยปรับปรุงประสิทธิภาพเมื่อเทียบกับฟังก์ชัน ReLU และ sigmoid [ 1 ]เชื่อกันว่าเหตุผลหนึ่งที่ทำให้ประสิทธิภาพดีขึ้นคือฟังก์ชัน swish ช่วยลดปัญหาการลดลงของเกรเดียนต์ระหว่างการแพร่กระจายย้อนกลับ[ 6 ]
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ฟังก์ชันสวิช
ฟังก์ชัน swish เป็นกลุ่มของ ฟังก์ชันทางคณิตศาสตร์ ที่กำหนดไว้ดังนี้:
คุณค่าพิเศษ
สำหรับ β = 0 ฟังก์ชันจะเป็นเชิงเส้น: f( x ) = x /2
อนุพันธ์
เพราะว่าการคำนวณอนุพันธ์สำหรับกรณีเริ่มต้นก็เพียงพอแล้วดังนั้น จึงเป็นจำนวนคี่ดังนั้น จึงเป็นจำนวนคู่ swish β ( x ) = swish 1 ( β x ) / β {\displaystyle \operatorname {swish} _{\beta }(x)=\operatorname {swish} _{1}(\beta x)/\beta } swish 1 ′ ( x ) = x +...
ประวัติศาสตร์
SiLU ได้รับการเสนอครั้งแรกควบคู่ไปกับ GELU ในปี 2016 [ 4 ] จากนั้นได้รับการเสนออีกครั้งในปี 2017 ในชื่อ Sigmoid-weighted Linear Unit (SiL) ใน การเรียน รู้ แบบเสริมแรง [ 5 ] [ 1 ] SiLU/SiL ได้รับการเสนออีกครั้งในชื่อ SWISH กว่าหนึ่งปีหลังจากที่ค้นพบครั้งแรก...
