กลับไปหน้าบทความ

อ่าน 4 นาที

โมบายเน็ต

MobileNetคือตระกูลของ สถาปัตยกรรม โครงข่ายประสาทเทียมแบบคอนโวลูชัน (CNN) ที่ออกแบบมาสำหรับการจำแนกภาพการตรวจจับวัตถุและงานด้านคอมพิวเตอร์วิชันอื่นๆ โดยได้รับการออกแบบให้มีขนาดเล็ก.

โมบายเน็ต

โมบายเน็ต
นักพัฒนาGoogle
ปล่อยเมษายน 2560
เวอร์ชันเสถียร
เวอร์ชัน 5 / มิถุนายน 2568
เขียนเป็นไพธอน
ใบอนุญาตใบอนุญาต Apache 2.0
ที่เก็บข้อมูลgithub.com/tensorflow/models/tree/master/research/slim/nets/mobilenet

MobileNetคือตระกูลของ สถาปัตยกรรม โครงข่ายประสาทเทียมแบบคอนโวลูชัน (CNN) ที่ออกแบบมาสำหรับการจำแนกภาพการตรวจจับวัตถุและงานด้านคอมพิวเตอร์วิชันอื่นๆ โดยได้รับการออกแบบให้มีขนาดเล็ก ความหน่วงต่ำ และการใช้พลังงานต่ำ ทำให้เหมาะสำหรับการประมวลผลบนอุปกรณ์และการประมวลผลแบบเอดจ์บนอุปกรณ์ที่มีทรัพยากรจำกัด เช่นโทรศัพท์มือถือและระบบฝังตัวเดิมทีได้รับการออกแบบมาให้ทำงานได้อย่างมีประสิทธิภาพบนอุปกรณ์พกพาด้วยTensorFlow Lite

ความต้องการโมเดลการเรียนรู้เชิงลึกที่มีประสิทธิภาพบนอุปกรณ์พกพา ทำให้ทีมนักวิจัยของGoogleพัฒนา MobileNet ขึ้นมา ณ เดือนมิถุนายน 2025 ตระกูลนี้มีทั้งหมดห้าเวอร์ชัน โดยแต่ละเวอร์ชันมีการพัฒนาประสิทธิภาพและความคล่องตัวให้ดีขึ้นกว่าเวอร์ชันก่อนหน้า

คุณสมบัติ

วี1

MobileNetV1 ได้รับการเผยแพร่ในเดือนเมษายน พ.ศ. 2560 [ 1 ] [ 2 ]นวัตกรรมทางสถาปัตยกรรมหลักคือการรวมconvolution แบบแยกส่วนเชิงลึก โดยได้รับการพัฒนาครั้งแรกโดย Laurent Sifre ในระหว่างการฝึกงานที่Google Brainในปี พ.ศ. 2556 ในฐานะรูปแบบสถาปัตยกรรมของAlexNetเพื่อปรับปรุงความเร็วในการบรรจบกันและขนาดของโมเดล[ 3 ]

การแปลงแบบแยกส่วนตามความลึก (depthwise separable convolution) จะแยกการแปลงแบบมาตรฐานหนึ่งเดียวออกเป็นสองการแปลง: การแปลงแบบตามความลึกที่กรองแต่ละช่องสัญญาณอินพุตอย่างอิสระ และการแปลงแบบจุดต่อจุด (pointwise convolution) ที่รวมเอาผลลัพธ์ของการแปลงแบบตามความลึกเข้าด้วยกัน การแยกส่วนนี้ช่วยลดต้นทุนการคำนวณได้อย่างมาก

MobileNetV1 มีพารามิเตอร์สองตัว ได้แก่ตัวคูณความกว้าง ที่ควบคุมจำนวนช่องสัญญาณในแต่ละเลเยอร์ ค่าที่น้อยลงจะทำให้โมเดลมีขนาดเล็กลงและประมวลผลได้เร็วขึ้น แต่จะทำให้ความแม่นยำลดลง และตัวคูณความละเอียดซึ่งควบคุมความละเอียดของภาพอินพุต ความละเอียดที่ต่ำลงจะทำให้การประมวลผลเร็วขึ้น แต่ความแม่นยำอาจลดลง

วี2

MobileNetV2 ได้รับการเผยแพร่ในเดือนมีนาคม พ.ศ. 2562 [ 4 ] [ 5 ]โดยใช้เลเยอร์ตกค้างแบบกลับด้านและคอขวดเชิงเส้น

โครงสร้างแบบ Inverted residuals จะปรับเปลี่ยนโครงสร้างบล็อก residual แบบดั้งเดิม แทนที่จะบีบอัดช่องสัญญาณอินพุตก่อนการ convolution แบบ depthwise มันจะขยาย ช่องสัญญาณ เหล่านั้น การขยายนี้จะตามด้วยการ convolution แบบ depthwise และจากนั้นเลเยอร์ projection ที่ลดจำนวนช่องสัญญาณลง โครงสร้างแบบกลับด้านนี้ช่วยรักษาความสามารถในการแสดงผลโดยอนุญาตให้ convolution แบบ depthwise ทำงานในพื้นที่คุณลักษณะที่มีมิติสูงกว่า จึงช่วยรักษาการไหลของข้อมูลได้มากขึ้นในระหว่างกระบวนการ convolution

วิธีแก้ปัญหาคอขวดเชิงเส้น (Linear bottlenecks) จะขจัดฟังก์ชันการกระตุ้น ReLU ทั่วไปในเลเยอร์การฉายภาพ โดยให้เหตุผลว่าการกระตุ้นแบบไม่เชิงเส้นจะทำให้สูญเสียข้อมูลในพื้นที่มิติที่ต่ำกว่า ซึ่งเป็นปัญหาเมื่อจำนวนช่องสัญญาณมีน้อยอยู่แล้ว

วี3

MobileNetV3 ได้รับการเผยแพร่ในปี 2019 [ 6 ] [ 7 ]การเผยแพร่นี้รวมถึง MobileNetV3-Small, MobileNetV3-Large และ MobileNetEdgeTPU (ปรับให้เหมาะสมสำหรับPixel 4 ) ซึ่งค้นพบโดยการค้นหาสถาปัตยกรรมโครงข่ายประสาทเทียม (NAS) รูปแบบหนึ่งที่คำนึงถึงความหน่วงแฝงของอุปกรณ์เคลื่อนที่ เพื่อให้ได้ความสมดุลที่ดีระหว่างความแม่นยำและความหน่วงแฝง[ 8 ] [ 9 ]โดยใช้การประมาณเชิงเส้นแบบแบ่งส่วนของฟังก์ชันการกระตุ้นswishและsigmoid (ซึ่งพวกเขาเรียกว่า "h-swish" และ "h-sigmoid") โมดูลsqueeze-and-excitation [ 10 ]และ bottlenecks แบบกลับด้านของ MobileNetV2

วี4

MobileNetV4 ได้รับการเผยแพร่ในเดือนกันยายน พ.ศ. 2567 [ 11 ] [ 12 ]การเผยแพร่ดังกล่าวรวมถึงสถาปัตยกรรมจำนวนมากที่พบโดย NAS

ได้รับแรงบันดาลใจจากVision Transformersซีรี่ส์ V4 จึงรวมเอาความสนใจแบบหลายคำถาม ไว้ ด้วย[ 13 ]นอกจากนี้ยังรวมทั้งส่วนตกค้างแบบกลับด้านและคอขวดแบบกลับด้านจากซีรี่ส์ V3 เข้ากับ "คอขวดแบบกลับด้านสากล" ซึ่งรวมทั้งสองอย่างนี้ไว้เป็นกรณีพิเศษ

วี5

สถาปัตยกรรมของ MobileNetV5 ได้รับการเผยแพร่ไม่นานหลังจากการเปิดตัว Gemma 3n ในเดือนมิถุนายน 2025 [ 14 ] แม้ว่าการประกาศจะระบุว่ารายงานทางเทคนิคเกี่ยวกับ MobileNetV5 จะพร้อม ใช้ งานในเร็วๆ นี้ แต่ก็ยังไม่ปรากฏให้เห็น เครือข่ายมีขนาดใหญ่กว่ารุ่น V4 ที่ใหญ่ที่สุดถึง 10 เท่า[ 14 ]

ดูเพิ่มเติม

  • "mobilenet" . GitHub . สืบค้นเมื่อ 2024-10-18 .
  • "เอกสารประกอบของ Keras : MobileNet, MobileNetV2 และ MobileNetV3" Keras สืบค้นเมื่อ 18 ตุลาคม 2024
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=MobileNet&oldid=1350591938 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ โมบายเน็ต

MobileNetคือตระกูลของ สถาปัตยกรรม โครงข่ายประสาทเทียมแบบคอนโวลูชัน (CNN) ที่ออกแบบมาสำหรับการจำแนกภาพการตรวจจับวัตถุและงานด้านคอมพิวเตอร์วิชันอื่นๆ โดยได้รับการออกแบบให้มีขนาดเล็ก.

วี1

MobileNetV1 ได้รับการเผยแพร่ในเดือนเมษายน พ.ศ. 2560 [ 1 ] [ 2 ] นวัตกรรมทางสถาปัตยกรรมหลักคือการรวม convolution แบบแยกส่วนเชิงลึก โดยได้ รับการพัฒนาครั้งแรกโดย Laurent Sifre ในระหว่างการฝึกงานที่ Google Brain ในปี พ.ศ.

วี2

MobileNetV2 ได้รับการเผยแพร่ในเดือนมีนาคม พ.ศ. 2562 [ 4 ] [ 5 ] โดยใช้ เลเยอร์ตกค้างแบบกลับด้าน และ คอขวดเชิง เส้น

วี3

MobileNetV3 ได้รับการเผยแพร่ในปี 2019 [ 6 ] [ 7 ] การเผยแพร่นี้รวมถึง MobileNetV3-Small, MobileNetV3-Large และ MobileNetEdgeTPU (ปรับให้เหมาะสมสำหรับ Pixel 4 ) ซึ่งค้นพบโดย การค้นหาสถาปัตยกรรมโครงข่ายประสาทเทียม (NAS)...