โมบายเน็ต

Q: ข้อมูลสำคัญเกี่ยวกับ โมบายเน็ต

MobileNetคือตระกูลของ สถาปัตยกรรม โครงข่ายประสาทเทียมแบบคอนโวลูชัน (CNN) ที่ออกแบบมาสำหรับการจำแนกภาพการตรวจจับวัตถุและงานด้านคอมพิวเตอร์วิชันอื่นๆ โดยได้รับการออกแบบให้มีขนาดเล็ก.

Q: วี1

MobileNetV1 ได้รับการเผยแพร่ในเดือนเมษายน พ.ศ. 2560 [ 1 ] [ 2 ] นวัตกรรมทางสถาปัตยกรรมหลักคือการรวม convolution แบบแยกส่วนเชิงลึก โดยได้ รับการพัฒนาครั้งแรกโดย Laurent Sifre ในระหว่างการฝึกงานที่ Google Brain ในปี พ.ศ.

Q: วี2

MobileNetV2 ได้รับการเผยแพร่ในเดือนมีนาคม พ.ศ. 2562 [ 4 ] [ 5 ] โดยใช้ เลเยอร์ตกค้างแบบกลับด้าน และ คอขวดเชิง เส้น

โมบายเน็ต
โมบายเน็ต
นักพัฒนา	Google
ปล่อย	เมษายน 2560
เวอร์ชันเสถียร	เวอร์ชัน 5 / มิถุนายน 2568
เขียนเป็น	ไพธอน
ใบอนุญาต	ใบอนุญาต Apache 2.0
ที่เก็บข้อมูล	github.com/tensorflow/models/tree/master/research/slim/nets/mobilenet

MobileNetคือตระกูลของ สถาปัตยกรรม โครงข่ายประสาทเทียมแบบคอนโวลูชัน (CNN) ที่ออกแบบมาสำหรับการจำแนกภาพการตรวจจับวัตถุและงานด้านคอมพิวเตอร์วิชันอื่นๆ โดยได้รับการออกแบบให้มีขนาดเล็ก ความหน่วงต่ำ และการใช้พลังงานต่ำ ทำให้เหมาะสำหรับการประมวลผลบนอุปกรณ์และการประมวลผลแบบเอดจ์บนอุปกรณ์ที่มีทรัพยากรจำกัด เช่นโทรศัพท์มือถือและระบบฝังตัวเดิมทีได้รับการออกแบบมาให้ทำงานได้อย่างมีประสิทธิภาพบนอุปกรณ์พกพาด้วยTensorFlow Lite

ความต้องการโมเดลการเรียนรู้เชิงลึกที่มีประสิทธิภาพบนอุปกรณ์พกพา ทำให้ทีมนักวิจัยของGoogleพัฒนา MobileNet ขึ้นมา ณ เดือนมิถุนายน 2025 ตระกูลนี้มีทั้งหมดห้าเวอร์ชัน โดยแต่ละเวอร์ชันมีการพัฒนาประสิทธิภาพและความคล่องตัวให้ดีขึ้นกว่าเวอร์ชันก่อนหน้า

คุณสมบัติ

วี1

MobileNetV1 ได้รับการเผยแพร่ในเดือนเมษายน พ.ศ. 2560 ^{[ 1 ]}^{[ 2 ]}นวัตกรรมทางสถาปัตยกรรมหลักคือการรวมconvolution แบบแยกส่วนเชิงลึก โดยได้รับการพัฒนาครั้งแรกโดย Laurent Sifre ในระหว่างการฝึกงานที่Google Brainในปี พ.ศ. 2556 ในฐานะรูปแบบสถาปัตยกรรมของAlexNetเพื่อปรับปรุงความเร็วในการบรรจบกันและขนาดของโมเดล^{[ 3 ]}

การแปลงแบบแยกส่วนตามความลึก (depthwise separable convolution) จะแยกการแปลงแบบมาตรฐานหนึ่งเดียวออกเป็นสองการแปลง: การแปลงแบบตามความลึกที่กรองแต่ละช่องสัญญาณอินพุตอย่างอิสระ และการแปลงแบบจุดต่อจุด (pointwise convolution) ที่รวมเอาผลลัพธ์ของการแปลงแบบตามความลึกเข้าด้วยกัน การแยกส่วนนี้ช่วยลดต้นทุนการคำนวณได้อย่างมาก $1\times 1$

MobileNetV1 มีพารามิเตอร์สองตัว ได้แก่ตัวคูณความกว้าง ที่ควบคุมจำนวนช่องสัญญาณในแต่ละเลเยอร์ ค่าที่น้อยลงจะทำให้โมเดลมีขนาดเล็กลงและประมวลผลได้เร็วขึ้น แต่จะทำให้ความแม่นยำลดลง และตัวคูณความละเอียดซึ่งควบคุมความละเอียดของภาพอินพุต ความละเอียดที่ต่ำลงจะทำให้การประมวลผลเร็วขึ้น แต่ความแม่นยำอาจลดลง $\alpha$ $\alpha$ $\rho$

วี2

MobileNetV2 ได้รับการเผยแพร่ในเดือนมีนาคม พ.ศ. 2562 ^{[ 4 ]}^{[ 5 ]}โดยใช้เลเยอร์ตกค้างแบบกลับด้านและคอขวดเชิงเส้น

โครงสร้างแบบ Inverted residuals จะปรับเปลี่ยนโครงสร้างบล็อก residual แบบดั้งเดิม แทนที่จะบีบอัดช่องสัญญาณอินพุตก่อนการ convolution แบบ depthwise มันจะขยาย ช่องสัญญาณ เหล่านั้น การขยายนี้จะตามด้วยการ convolution แบบ depthwise และจากนั้นเลเยอร์ projection ที่ลดจำนวนช่องสัญญาณลง โครงสร้างแบบกลับด้านนี้ช่วยรักษาความสามารถในการแสดงผลโดยอนุญาตให้ convolution แบบ depthwise ทำงานในพื้นที่คุณลักษณะที่มีมิติสูงกว่า จึงช่วยรักษาการไหลของข้อมูลได้มากขึ้นในระหว่างกระบวนการ convolution $1\times 1$ $1\times 1$

วิธีแก้ปัญหาคอขวดเชิงเส้น (Linear bottlenecks) จะขจัดฟังก์ชันการกระตุ้น ReLU ทั่วไปในเลเยอร์การฉายภาพ โดยให้เหตุผลว่าการกระตุ้นแบบไม่เชิงเส้นจะทำให้สูญเสียข้อมูลในพื้นที่มิติที่ต่ำกว่า ซึ่งเป็นปัญหาเมื่อจำนวนช่องสัญญาณมีน้อยอยู่แล้ว

วี3

MobileNetV3 ได้รับการเผยแพร่ในปี 2019 ^{[ 6 ]}^{[ 7 ]}การเผยแพร่นี้รวมถึง MobileNetV3-Small, MobileNetV3-Large และ MobileNetEdgeTPU (ปรับให้เหมาะสมสำหรับPixel 4 ) ซึ่งค้นพบโดยการค้นหาสถาปัตยกรรมโครงข่ายประสาทเทียม (NAS) รูปแบบหนึ่งที่คำนึงถึงความหน่วงแฝงของอุปกรณ์เคลื่อนที่ เพื่อให้ได้ความสมดุลที่ดีระหว่างความแม่นยำและความหน่วงแฝง^{[ 8 ]}^{[ 9 ]}โดยใช้การประมาณเชิงเส้นแบบแบ่งส่วนของฟังก์ชันการกระตุ้น swishและsigmoid (ซึ่งพวกเขาเรียกว่า "h-swish" และ "h-sigmoid") โมดูลsqueeze-and-excitation ^[¹⁰^]และ bottlenecks แบบกลับด้านของ MobileNetV2

วี4

MobileNetV4 ได้รับการเผยแพร่ในเดือนกันยายน พ.ศ. 2567 ^{[ 11 ]}^{[ 12 ]}การเผยแพร่ดังกล่าวรวมถึงสถาปัตยกรรมจำนวนมากที่พบโดย NAS

ได้รับแรงบันดาลใจจากVision Transformersซีรี่ส์ V4 จึงรวมเอาความสนใจแบบหลายคำถาม ไว้ ด้วย^{[ 13 ]}นอกจากนี้ยังรวมทั้งส่วนตกค้างแบบกลับด้านและคอขวดแบบกลับด้านจากซีรี่ส์ V3 เข้ากับ "คอขวดแบบกลับด้านสากล" ซึ่งรวมทั้งสองอย่างนี้ไว้เป็นกรณีพิเศษ

วี5

สถาปัตยกรรมของ MobileNetV5 ได้รับการเผยแพร่ไม่นานหลังจากการเปิดตัว Gemma 3n ในเดือนมิถุนายน 2025 ^{[ 14 ]} แม้ว่าการประกาศจะระบุว่ารายงานทางเทคนิคเกี่ยวกับ MobileNetV5 จะพร้อม ใช้ งานในเร็วๆ นี้ แต่ก็ยังไม่ปรากฏให้เห็น เครือข่ายมีขนาดใหญ่กว่ารุ่น V4 ที่ใหญ่ที่สุดถึง 10 เท่า^{[ 14 ]}

ดูเพิ่มเติม

ลิงก์ภายนอก

"mobilenet" . GitHub . สืบค้นเมื่อ 2024-10-18 .
"เอกสารประกอบของ Keras : MobileNet, MobileNetV2 และ MobileNetV3" Keras สืบค้นเมื่อ 18 ตุลาคม 2024

[ 1 ]

[ 2 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[

[ 11 ]

[ 12 ]

[ 13 ]

โมบายเน็ต

คุณสมบัติ

วี1

วี2

วี3

วี4

วี5

ดูเพิ่มเติม

ลิงก์ภายนอก

ข้อมูลสำคัญจากบทความ