หน่วยประมวลผลประสาท

หน่วยประมวลผลประสาท ( NPU ) หรือที่รู้จักกันในชื่อตัวเร่งความเร็ว AIหรือตัวประมวลผลการเรียนรู้เชิงลึกเป็นฮาร์ดแวร์เร่งความเร็ว เฉพาะทาง ^{[ 1 ]}หรือระบบคอมพิวเตอร์^{[ 2 ]}^{[ 3 ]}ที่ออกแบบมาเพื่อเร่งความเร็ว แอปพลิเคชัน ปัญญาประดิษฐ์และการเรียนรู้ของเครื่องรวมถึงเครือข่ายประสาทเทียมและคอมพิวเตอร์วิชั่น NPU สามารถเป็นแบบสแตนด์อะโลน เป็นส่วนหนึ่งของ CPU หรือเป็นส่วนหนึ่งของ GPU

ใช้

จุดประสงค์ของมันคือการประมวลผลโมเดล AI ที่ได้รับการฝึกฝนมาแล้วอย่างมีประสิทธิภาพ (การอนุมาน) หรือการฝึกฝนโมเดล AI NPU อาจมีประสิทธิภาพมากกว่าในแง่ของความเร็วหรือการใช้พลังงาน

แอปพลิเคชัน NPU ประกอบด้วยอัลกอริธึมสำหรับหุ่นยนต์อินเทอร์เน็ตของสิ่งต่างๆและ งานที่ต้องการ ข้อมูลจำนวนมากหรืองานที่ขับเคลื่อนด้วยเซ็นเซอร์^{[ 4 ]}มักจะ เป็นการออกแบบ แบบหลายคอร์หรือแบบเชิงพื้นที่และมุ่งเน้นไปที่ การคำนวณเลขคณิต ความแม่นยำต่ำ สถาปัตยกรรมกระแสข้อมูลแบบใหม่หรือ ความสามารถ ในการประมวลผลในหน่วยความจำ ณ ปี 2024 ชิปวงจรรวม AI ระดับศูนย์ข้อมูลที่ใช้กันอย่างแพร่หลายอย่างNvidia H100 GPUมีMOSFET หลายหมื่นล้านตัว^[⁵^]

อุปกรณ์สำหรับผู้บริโภค

ตัวเร่งความเร็ว AI ถูกใช้ในโปรเซสเซอร์สมาร์ทโฟนApple Silicon , Qualcomm , Samsung , Huawei ^{[ 6 ]}และGoogle Tensor ^{[ 7 ]}เมื่อ ใช้เป็นส่วน หนึ่งของ GPUจะสามารถลดการใช้ทรัพยากรได้อย่างมากโดยการเรนเดอร์ที่ความละเอียดและอัตราเฟรมที่ต่ำกว่ามาก (540p 30fps) จากนั้นใช้ NPU กับโมเดล AI ที่ได้รับการฝึกฝนล่วงหน้าเพื่อสร้างเอาต์พุตที่ราบรื่นและมีความละเอียดสูงขึ้นอย่างมาก (2160p 240fps) แบบเรียลไทม์

หน่วยประมวลผลภาพเป็นตัวเร่งความเร็วที่เชี่ยวชาญสำหรับอัลกอริธึมการมองเห็นด้วยเครื่องจักรเช่น CNN ( เครือข่ายประสาทแบบคอนโวลูชัน ) และ SIFT ( การแปลงคุณลักษณะที่ไม่ขึ้นกับมาตราส่วน ) ใช้ในอุปกรณ์ที่ต้องติดตามวัตถุด้วยภาพ เช่นชุดหูฟัง AR และโดรน^[⁸^]^[⁹^]^[¹⁰^]

เมื่อไม่นานมานี้ (ประมาณปี 2017) ได้มีการเพิ่มหน่วยประมวลผลอเนกประสงค์ (VPU) เข้าไปในโปรเซสเซอร์ของ Apple [ ^{11 ] และ (ประมาณปี 2022) เข้าไปในโปรเซสเซอร์ของ Intel [ 12 ] และ AMD [ 13 ]}^{โปรเซสเซอร์ Intel Meteor} Lake ทุก^{รุ่นมีหน่วย}ประมวลผล^{อเนกประสงค์ (} VPU ) ในตัวสำหรับเร่งความเร็วการอนุมานสำหรับคอมพิวเตอร์วิชั่นและการเรียนรู้เชิงลึก^[¹⁴^]

ในอุปกรณ์สำหรับผู้บริโภค NPU ถูกออกแบบมาให้มีขนาดเล็ก ประหยัดพลังงาน แต่มีความเร็วพอสมควรเมื่อใช้ในการประมวลผลโมเดลขนาดเล็ก โดยได้รับการออกแบบให้รองรับการดำเนินการที่มีความกว้างบิตต่ำโดยใช้ประเภทข้อมูล เช่น INT4, INT8, FP8และFP16ตัวชี้วัดทั่วไปคือจำนวนการดำเนินการต่อวินาที (TOPS) แม้ว่า TOPS จะไม่ได้ระบุประเภทของการดำเนินการอย่างชัดเจน แต่โดยทั่วไปแล้วจะเป็นการบวกและการคูณของ INT8 ^{[ 15 ]}

ศูนย์ข้อมูล

ตัวเร่งความเร็วถูกใช้ใน เซิร์ฟเวอร์ การประมวลผลแบบคลาวด์เช่นหน่วยประมวลผลเทนเซอร์ (TPU) สำหรับGoogle Cloud Platform ^{[ 16 ]}และ ชิป TrainiumและInferentiaสำหรับAmazon Web Services [ ^{17 ] มี}คำศัพท์เฉพาะของผู้จำหน่ายจำนวนมากสำหรับอุปกรณ์ในหมวดหมู่นี้ และเป็นเทคโนโลยีที่กำลังเกิดขึ้นใหม่โดยไม่มีการออกแบบที่โดดเด่น

ตั้งแต่ช่วงปลายปี 2010 หน่วยประมวลผลกราฟิกที่ออกแบบโดยบริษัทต่างๆ เช่นNvidiaและAMDมักจะมีฮาร์ดแวร์เฉพาะสำหรับ AI ในรูปแบบของหน่วยการทำงานเฉพาะสำหรับ การดำเนินการ คูณเมทริกซ์ ความแม่นยำต่ำ GPU เหล่านี้มักใช้เป็นตัวเร่งความเร็ว AI ทั้งสำหรับการฝึกอบรมและการอนุมาน^{[ 18 ]}

การคำนวณทางวิทยาศาสตร์

แม้ว่า NPU จะถูกออกแบบมาสำหรับการดำเนินการ คูณเมทริกซ์ที่มีความแม่นยำต่ำ (เช่น FP16, INT8) แต่ก็สามารถใช้เพื่อจำลองการคูณเมทริกซ์ที่มีความแม่นยำสูงขึ้นในการคำนวณทางวิทยาศาสตร์ได้ เนื่องจาก GPU รุ่นใหม่ให้ความสำคัญกับการทำให้ส่วน NPU ทำงานได้เร็วขึ้น การใช้ FP64 ที่จำลอง (แบบแผน Ozaki) บน NPU อาจทำให้มีประสิทธิภาพเหนือกว่า FP64 ดั้งเดิมได้ สิ่งนี้ได้รับการพิสูจน์แล้วโดยใช้ FP16 ที่จำลอง FP64 บน NVIDIA TITAN RTX และการใช้ INT8 ที่จำลอง FP64 บน GPU สำหรับผู้บริโภคของ NVIDIA และ GPU A100 GPU สำหรับผู้บริโภคได้รับประโยชน์เป็นพิเศษเนื่องจากมีฮาร์ดแวร์ FP64 ที่จำกัด แสดงให้เห็นถึงความเร็วที่เพิ่มขึ้น 6 เท่า^{[ 19 ]}ตั้งแต่ CUDA Toolkit 13.0 Update 2 เป็นต้นไป cuBLAS จะใช้การคูณเมทริกซ์ FP64 ที่จำลอง INT8 ที่มีความแม่นยำเทียบเท่าโดยอัตโนมัติหากเร็วกว่าแบบดั้งเดิม นอกจากนี้ยังมีคุณสมบัติ FP32 ที่จำลอง FP16 ที่แนะนำในเวอร์ชัน 12.9 อีกด้วย^{[ 20 ]}

การเขียนโปรแกรม

ระบบปฏิบัติการหรือไลบรารีระดับสูงกว่าอาจมีอินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชันเช่นTensorFlowพร้อม LiteRT Next (Android), CoreML (iOS, macOS) หรือ DirectML (Windows) รูปแบบต่างๆ เช่นONNXใช้สำหรับแสดงโครงข่ายประสาทเทียมที่ได้รับการฝึกฝนแล้ว

NPU ที่รวมอยู่ใน CPU สำหรับผู้บริโภคสามารถเข้าถึงได้ผ่าน API เฉพาะของผู้ผลิต AMD (Ryzen AI), Intel (OpenVINO), Apple Silicon (CoreML) ^{[ a ]}และ Qualcomm (SNPE) แต่ละรายมี API ของตนเอง ซึ่งสามารถนำไปสร้างต่อยอดโดยไลบรารีระดับสูงกว่าได้

โดยทั่วไป GPU จะใช้ ไปป์ไลน์ GPGPU ที่มีอยู่แล้ว เช่นCUDAและOpenCLที่ปรับให้เหมาะสมกับความแม่นยำที่ต่ำกว่าและการดำเนินการคูณเมทริกซ์แบบพิเศษ นอกจากนี้ยังมีการใช้ Vulkanด้วย ระบบที่สร้างขึ้นเอง เช่น Google TPUจะใช้อินเทอร์เฟซส่วนตัว

มีการใช้งาน API เร่งความเร็วพื้นฐานและคอมไพเลอร์/รันไทม์แยกกันจำนวนมากในสาขา AI ซึ่งทำให้ความพยายามในการพัฒนาซอฟต์แวร์เพิ่มขึ้นอย่างมากเนื่องจากการผสมผสานที่เกี่ยวข้องมากมาย นับตั้งแต่ปี 2025 องค์กรมาตรฐานเปิดKhronos Groupกำลังดำเนินการสร้างมาตรฐานของอินเทอร์เฟซที่เกี่ยวข้องกับ AI เพื่อลดปริมาณงานที่จำเป็น Khronos กำลังดำเนินการในสามด้านแยกกัน ได้แก่ การขยายประเภทข้อมูลและการดำเนินการภายในใน OpenCL และ Vulkan การรวมกราฟการคำนวณในSPIR-Vและ รูปแบบไฟล์ NNEF /SkriptND สำหรับอธิบายเครือข่ายประสาท^{[ 21 ]}

หมายเหตุ

^ MLX สร้างขึ้นบนพื้นฐานของ CPU และ GPU ไม่ใช่ส่วนของ Apple Neural Engine (ANE) ในชิป Apple Silicon ประสิทธิภาพที่ดีนั้นเกิดจากการใช้การออกแบบหน่วยความจำแบบรวมขนาด ใหญ่และรวดเร็ว

ดูเพิ่มเติม

ลิงก์ภายนอก

Nvidia เร่งประสิทธิภาพสูงสุดด้วย Pascalแพลตฟอร์มรุ่นต่อไป
โครงการ Eyeriss , สถาบันเทคโนโลยีแมสซาชูเซตส์

[21] MLX สร้างขึ้นบนพื้นฐานของ CPU และ GPU ไม่ใช่ส่วนของ Apple Neural Engine (ANE) ในชิป Apple Silicon ประสิทธิภาพที่ดีนั้นเกิดจากการใช้การออกแบบหน่วยความจำแบบรวมขนาด ใหญ่และรวดเร็ว

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[

[ 6 ]

[ 7 ]

[

[

[

11 ] และ (ประมาณปี 2022) เข้าไปในโปรเซสเซอร์ของ Intel [ 12 ] และ AMD [ 13 ]

โปรเซสเซอร์ Intel Meteor

รุ่นมีหน่วย

[

[ 15 ]

[ 16 ]

17 ] มี

[ 18 ]

[ 19 ]

[ 20 ]

[ a ]

[ 21 ]