กลับไปหน้าบทความ

อ่าน 17 นาที

หน่วยประมวลผลเทนเซอร์

หน่วยประมวลผลเทนเซอร์ ( TPU ) เป็น หน่วยประมวลผลประสาท (NPU) วงจรรวมเฉพาะแอปพลิ เคชัน (ASIC) ที่พัฒนาโดย Google สำหรับ การเรียน รู้ ของเครื่อง ด้วยโครง ข่ายประสาทเทียม [ 2 ]...

หน่วยประมวลผลเทนเซอร์

หน่วยประมวลผลเทนเซอร์
หน่วยประมวลผลเทนเซอร์ 3.0
นักออกแบบGoogle
แนะนำ2015 [ 1 ]
เวอร์ชั่น8
พิมพ์โครงข่ายประสาทเทียมการเรียนรู้ของเครื่อง

หน่วยประมวลผลเทนเซอร์ ( TPU ) เป็นหน่วยประมวลผลประสาท (NPU) วงจรรวมเฉพาะแอปพลิเคชัน (ASIC) ที่พัฒนาโดยGoogleสำหรับ การเรียน รู้ของเครื่อง ด้วยโครง ข่ายประสาทเทียม[ 2 ] Tensorflow , JaxและPyTorchเป็นเฟรมเวิร์กที่รองรับสำหรับ TPU [ 3 ] Google เริ่มใช้ TPU ภายในองค์กรในปี 2015 และในปี 2018 ได้เปิดให้บุคคลที่สามใช้งานได้ ทั้งในฐานะส่วนหนึ่งของโครงสร้างพื้นฐานคลาวด์และโดยการเสนอชิปรุ่นเล็กกว่าเพื่อจำหน่าย

การเปรียบเทียบ TPU และ GPU

เมื่อเปรียบเทียบกับหน่วยประมวลผลกราฟิก TPU ได้รับการออกแบบมาสำหรับ การคำนวณที่ มีความแม่นยำ ต่ำในปริมาณมาก (เช่น ความแม่นยำเพียง8 บิต ) [ 4 ]โดยมีการดำเนินการอินพุต/เอาต์พุตต่อจูล มากกว่า โดย ไม่มีฮาร์ดแวร์สำหรับการแรสเตอร์ไรเซชันหรือ การแม ปพื้นผิว[ 5 ] ASICของ TPU ถูกติดตั้งในชุดระบายความร้อน ซึ่งสามารถใส่ในช่องเสียบฮาร์ดไดรฟ์ภายในแร็ค ศูนย์ข้อมูล ได้ ตามที่Norman Jouppiกล่าว[ 6 ]

โปรเซสเซอร์ประเภทต่างๆ เหมาะสำหรับโมเดลการเรียนรู้ของเครื่องประเภทต่างๆ TPU เหมาะสำหรับเครือข่ายประสาทแบบคอนโวลูชัน ( CNN ) ในขณะที่GPUมีข้อดีสำหรับเครือข่ายประสาทแบบเชื่อมต่อเต็มรูปแบบบางประเภท และCPUอาจมีข้อได้เปรียบสำหรับเครือข่ายประสาทแบบวนซ้ำ ( RNN ) [ 7 ]

ประวัติศาสตร์

ในปี 2013 Google ได้ว่าจ้างAmir Salekเพื่อสร้างความสามารถในการพัฒนาซิลิคอนแบบกำหนดเองสำหรับศูนย์ข้อมูลของบริษัท[ 8 ]ในฐานะผู้ก่อตั้งและหัวหน้าฝ่าย Custom Silicon สำหรับ Google Technical Infrastructure และ Google Cloud Salek เป็นผู้นำในการพัฒนา TPU รุ่นแรก (ชิปผลิตตัวแรกของ Google), TPUv2 (ชิปฝึกอบรมการเรียนรู้เชิงลึกผลิตตัวแรกของอุตสาหกรรม), TPUv3, TPUv4, Edge-TPU และผลิตภัณฑ์ซิลิคอนเพิ่มเติม รวมถึง VCU, IPU และ OpenTitan [ 9 ] [ 10 ] ตามที่ Jonathan Ross หนึ่งในวิศวกร TPU รุ่นแรก[ 1 ]และต่อมาเป็นผู้ก่อตั้งGroqกล่าวไว้ มีกลุ่มแยกกันสามกลุ่มที่ Google กำลังพัฒนาตัวเร่งความเร็ว AI โดย TPU ซึ่ง เป็น อาร์เรย์ซิสโตลิก [ 11 ] เป็นการออกแบบที่ได้รับการคัดเลือกในที่สุด

Norman P. Jouppi ดำรงตำแหน่งหัวหน้าทีมเทคโนโลยีและสถาปนิกหลักในการพัฒนาหน่วยประมวลผลเทนเซอร์ (Tensor Processing Unit) ของ Google โดยเป็นผู้นำในการออกแบบ ตรวจสอบ และใช้งาน TPU รุ่นแรกสู่การผลิตอย่างรวดเร็วภายในเวลาเพียง 15 เดือน[ 12 ]ในฐานะผู้เขียนหลักของบทความสำคัญในปี 2017 เรื่อง "การวิเคราะห์ประสิทธิภาพในศูนย์ข้อมูลของหน่วยประมวลผลเทนเซอร์" ซึ่งนำเสนอในการประชุมวิชาการนานาชาติว่าด้วยสถาปัตยกรรมคอมพิวเตอร์ครั้งที่ 44 (ISCA 2017) Jouppi ได้แสดงให้เห็นว่า TPU มีประสิทธิภาพสูงกว่า CPU และ GPU ในปัจจุบันถึง 15–30 เท่า และมีประสิทธิภาพต่อวัตต์สูงกว่า 30–80 เท่า ทำให้ TPU กลายเป็นแพลตฟอร์มพื้นฐานสำหรับการอนุมานเครือข่ายประสาทเทียมในระดับใหญ่ทั่วบริการการผลิตของ Google [ 13 ] [ 14 ]

หน่วยประมวลผลเทนเซอร์ (TPU) ได้รับการประกาศในเดือนพฤษภาคม 2016 ใน งานประชุม Google I/Oซึ่งบริษัทกล่าวว่า TPU ได้ถูกนำไปใช้ภายในศูนย์ข้อมูลของพวกเขามานานกว่าหนึ่งปีแล้ว[ 6 ] [ 5 ]เอกสารของ Google ในปี 2017 ที่อธิบายถึงการสร้างชิปนี้ได้อ้างถึงตัวคูณเมทริกซ์ซิสโตลิกก่อนหน้านี้ที่มีสถาปัตยกรรมคล้ายกันซึ่งสร้างขึ้นในช่วงทศวรรษ 1990 [ 15 ]ชิปนี้ได้รับการออกแบบมาโดยเฉพาะสำหรับ เฟรมเวิร์ก TensorFlow ของ Google ซึ่งเป็นไลบรารีคณิตศาสตร์เชิงสัญลักษณ์ที่ใช้สำหรับ แอปพลิเคชัน การเรียนรู้ของเครื่องเช่นเครือข่ายประสาทเทียม [ 16 ] อย่างไรก็ตามณ ปี 2017 Google ยังคงใช้CPUและGPU สำหรับการเรียนรู้ ของเครื่องประเภทอื่น ๆ[ 6 ] การออกแบบ ตัวเร่งความเร็ว AIอื่น ๆกำลังปรากฏขึ้นจากผู้จำหน่ายรายอื่น ๆ เช่นกัน และมุ่งเป้าไปที่ตลาด ฝังตัวและหุ่นยนต์

TPU ของ Google เป็นกรรมสิทธิ์ของ Google เอง บางรุ่นวางจำหน่ายในเชิงพาณิชย์ และเมื่อวันที่ 12 กุมภาพันธ์ 2018 หนังสือพิมพ์ The New York Timesรายงานว่า Google "จะอนุญาตให้บริษัทอื่นซื้อสิทธิ์การเข้าถึงชิปเหล่านั้นผ่านบริการคลาวด์คอมพิวติ้ง" [ 17 ] Google กล่าวว่าชิปเหล่านี้ถูกใช้ในการแข่งขันโกะระหว่างมนุษย์กับเครื่องจักรในซีรีส์AlphaGo กับ Lee Sedol [ 5 ]รวมถึงใน ระบบ AlphaZeroซึ่งสร้าง โปรแกรมเล่น หมากรุกโชงิและโกะจากกฎของเกมเพียงอย่างเดียว และสามารถเอาชนะโปรแกรมชั้นนำในเกมเหล่านั้นได้[ 18 ] Google ยังใช้ TPU สำหรับ การประมวลผลข้อความใน Google Street Viewและสามารถค้นหาข้อความทั้งหมดในฐานข้อมูล Street View ได้ภายในเวลาไม่ถึงห้าวัน ในGoogle Photos TPU แต่ละตัวสามารถประมวลผลรูปภาพได้มากกว่า 100 ล้านรูปต่อวัน[ 6 ]นอกจากนี้ยังใช้ในRankBrainซึ่ง Google ใช้ในการแสดงผลการค้นหา[ 19 ]

Google ให้บุคคลที่สามเข้าถึง TPU ผ่าน บริการ Cloud TPUซึ่งเป็นส่วนหนึ่งของGoogle Cloud Platform [ 20 ]และผ่านบริการที่ใช้โน้ตบุ๊กอย่างKaggleและColaboratory [ 21 ] [ 22 ]

Broadcomเป็นผู้ร่วมพัฒนา TPU โดยแปลสถาปัตยกรรมและข้อกำหนดของ Google ให้เป็นซิลิคอนที่สามารถผลิตได้ โดยให้บริการเทคโนโลยีที่เป็นกรรมสิทธิ์ เช่น อินเทอร์เฟซความเร็วสูง SerDesดูแลการออกแบบ ASIC และจัดการการผลิตและบรรจุภัณฑ์ชิปผ่านโรงงานผลิตของบุคคลที่สาม เช่น Taiwan Semiconductor Manufacturing Company ( TSMC ) ครอบคลุมทุกรุ่นตั้งแต่เริ่มโครงการ[ 23 ] [ 24 ] [ 25 ]

ในเดือนกันยายน พ.ศ. 2568 Google กำลังเจรจากับ "neocloud" หลายแห่ง รวมถึง Crusoe และ CoreWeave เกี่ยวกับการติดตั้ง TPU ในศูนย์ข้อมูลของพวกเขา[ 26 ] [ 27 ]ในเดือนพฤศจิกายน พ.ศ. 2568 Meta กำลังเจรจากับ Google เพื่อติดตั้ง TPU ในศูนย์ข้อมูล AI ของ ตน

สินค้า

รุ่นของหน่วยประมวลผลเทนเซอร์ (TPU) [ 28 ] [ 29 ] [ 30 ]
ว1เวอร์ชัน 2เวอร์ชัน 3v4 [ 29 ] [ 31 ] [ 32 ]v5e [ 33 ]v5p [ 34 ] [ 35 ]v6e (ทริลเลียม) [ 36 ] [ 37 ]v7 (ไอรอนวูด)v8t / v8i [ 38 ] [ 39 ]
วันที่เปิดตัว201520172018202120232023202420252026
โหนดประมวลผล28 นาโนเมตร16 นาโนเมตร16 นาโนเมตร7 นาโนเมตรไม่ได้ระบุไว้ไม่ได้ระบุไว้ไม่ได้ระบุไว้ไม่ได้ระบุไว้ไม่ได้ระบุไว้
ขนาดแม่พิมพ์ (มม. ² )331< 625< 700< 400300–350ไม่ได้ระบุไว้ไม่ได้ระบุไว้ไม่ได้ระบุไว้ไม่ได้ระบุไว้
หน่วยความจำภายในชิป (MiB)283232 (VMEM) + 5 (spMEM)128 (CMEM) + 32 (VMEM) + 10 (spMEM)ไม่ได้ระบุไว้ไม่ได้ระบุไว้ไม่ได้ระบุไว้ไม่ได้ระบุไว้384 (v8i)
ความเร็วสัญญาณนาฬิกา (MHz)7007009401050ไม่ได้ระบุไว้1750ไม่ได้ระบุไว้ไม่ได้ระบุไว้ไม่ได้ระบุไว้
หน่วยความจำ8 กิกะไบต์DDR316 GiB HBM32 GiB HBM32 GiB HBM16 GB HBM95 GB HBM32 GB192 GB HBM216/288 GB HBM3e
แบนด์วิดท์หน่วยความจำ34 GB/s600 GB/s900 GB/s1200 GB/s819 GB/s2765 GB/s1640 GB/s7.37 เทราไบต์/วินาที6.5/8.6 เทราไบต์/วินาที
กำลังการออกแบบทางความร้อน (วัตต์)75280220170ไม่ได้ระบุไว้ไม่ได้ระบุไว้ไม่ได้ระบุไว้ไม่ได้ระบุไว้ไม่ได้ระบุไว้
ประสิทธิภาพการคำนวณ (ล้านล้านการดำเนินการต่อวินาที)2345123275197 (bf16)

393 (int8)

459 (bf16)

918 (int8)

918 (bf16)

1836 (int8)

4614 (fp8) 12600 (v8t fp4)

10100 (v8i fp4)

ประสิทธิภาพการใช้พลังงาน (teraOPS/W)0.310.160.561.62ไม่ได้ระบุไว้ไม่ได้ระบุไว้ไม่ได้ระบุไว้4.7ไม่ได้ระบุไว้

TPU รุ่นแรก

TPU รุ่นแรกเป็น เอนจิน การคูณเมทริกซ์ 8 บิต ขับเคลื่อนด้วยคำสั่ง CISCโดยโปรเซสเซอร์โฮสต์ผ่าน บัส PCIe 3.0ผลิตด้วยกระบวนการ 28 นาโนเมตรโดยมีขนาดได ≤ 331  มม. ²ความเร็วสัญญาณนาฬิกาคือ 700  เมกะ เฮิร์ตซ์ และมีกำลังการออกแบบความร้อน 28–40  วัตต์มี  หน่วยความจำบนชิป  28 มิกเมน ตัมไบต์ และ ตัวสะสม32 บิต 4 มิกเมน ตัม ไบต์ซึ่งรับผลลัพธ์จากอาร์เรย์ซิสโตลิก 256 ×256 ของ ตัวคูณ 8 บิต[ 15 ]ภายในแพ็คเกจ TPU มี  DDR3 SDRAMแบบดูอัลแชนเนล 2133 เมกะ เฮิร์ตซ์ ขนาด 8 กิกะไบต์ซึ่งให้แบนด์วิดท์ 34 กิกะบิตต่อวินาที[ 30 ]คำสั่งจะถ่ายโอนข้อมูลไปยังหรือจากโฮสต์ ทำการคูณเมทริกซ์หรือการคอนโวลูชันและใช้ฟังก์ชันการเปิดใช้งาน[ 15 ]

TPU รุ่นที่สอง

TPU รุ่นที่สองได้รับการประกาศในเดือนพฤษภาคม 2017 [ 40 ] Google ระบุว่าการออกแบบ TPU รุ่นแรกมีข้อจำกัดด้านแบนด์วิดท์ของหน่วยความจำและการใช้หน่วยความจำแบนด์วิดท์สูง 16 GB ในการออกแบบรุ่นที่สองทำให้แบนด์วิดท์เพิ่มขึ้นเป็น 600 GB/s และประสิทธิภาพเพิ่มขึ้นเป็น 45 tera FLOPS [ 30 ] จากนั้นTPUจะถูกจัดเรียงเป็นโมดูลสี่ชิปที่มีประสิทธิภาพ 180 tera FLOPS [ 40 ]จากนั้นโมดูลเหล่านี้ 64 โมดูลจะถูกประกอบเป็นพ็อด 256 ชิปที่มีประสิทธิภาพ 11.5 peta FLOPS [ 40 ]ที่น่าสังเกตคือ ในขณะที่ TPU รุ่นแรกมีข้อจำกัดเฉพาะจำนวนเต็ม TPU รุ่นที่สองยังสามารถคำนวณใน รูป แบบจุดลอยตัว ได้ โดย แนะนำ รูปแบบ bfloat16ที่คิดค้นโดยGoogle Brainทำให้ TPU รุ่นที่สองมีประโยชน์สำหรับทั้งการฝึกอบรมและการอนุมานของโมเดลการเรียนรู้ของเครื่อง Google ระบุว่า TPU รุ่นที่สองเหล่านี้จะพร้อมใช้งานบนGoogle Compute Engineเพื่อใช้ในแอปพลิเคชัน TensorFlow [ 41 ]

TPU รุ่นที่สาม

TPU รุ่นที่สามได้รับการประกาศเมื่อวันที่ 8 พฤษภาคม 2561 [ 42 ] Google ประกาศว่าโปรเซสเซอร์มีประสิทธิภาพมากกว่า TPU รุ่นที่สองถึงสองเท่า และจะถูกนำไปใช้งานในพ็อดที่มีชิปมากกว่ารุ่นก่อนหน้าถึงสี่เท่า[ 43 ] [ 44 ]ส่งผลให้ประสิทธิภาพต่อพ็อดเพิ่มขึ้นถึง 8 เท่า (โดยมีชิปมากถึง 1,024 ตัวต่อพ็อด) เมื่อเทียบกับการใช้งาน TPU รุ่นที่สอง

แพ็คเกจ TPU v4 (ASIC ตรงกลางพร้อม HBM 4 ชุด) และแผงวงจรพิมพ์ (PCB) พร้อมแพ็คเกจระบายความร้อนด้วยของเหลว 4 ชุด แผงด้านหน้าของบอร์ดมีขั้วต่อ PCIe ด้านบน 4 ตัว (2023)

TPU รุ่นที่สี่

เมื่อวันที่ 18 พฤษภาคม 2021 Sundar Pichai ซีอีโอของ Google ได้กล่าวถึงหน่วยประมวลผล Tensor TPU v4 ระหว่างการกล่าวปาฐกถาหลักในการประชุมเสมือนจริง Google I/O โดย TPU v4 มีประสิทธิภาพดีขึ้นกว่าชิป TPU v3 มากกว่า 2 เท่า Pichai กล่าวว่า "พอด v4 หนึ่งชุดประกอบด้วยชิป v4 จำนวน 4,096 ตัว และแต่ละพอดมีแบนด์วิดท์การเชื่อมต่อต่อชิปมากกว่าเทคโนโลยีเครือข่ายอื่นๆ ถึง 10 เท่า" [ 45 ]เอกสารของ Google ในเดือนเมษายน 2023 อ้างว่า TPU v4 เร็วกว่าNvidia A100 ถึง 5–87% ในการทดสอบประสิทธิภาพ การเรียน รู้ ของเครื่อง [ 46 ]

นอกจากนี้ยังมีเวอร์ชัน "การอนุมาน" ที่เรียกว่า v4i [ 47 ]ซึ่งไม่จำเป็นต้องใช้ การระบายความ ร้อนด้วยของเหลว[ 48 ]

TPU รุ่นที่ห้า

ในปี 2021 Google เปิดเผยว่าเค้าโครงทางกายภาพของ TPU v5 ได้รับการออกแบบโดยอาศัยการประยุกต์ใช้การเรียนรู้แบบเสริมแรงเชิงลึก แบบ ใหม่[ 49 ] Google อ้างว่า TPU v5 เร็วกว่า TPU v4 เกือบสองเท่า[ 50 ] และจาก ข้อมูลดังกล่าวและประสิทธิภาพเชิงเปรียบเทียบของ TPU v4 เมื่อเทียบกับ A100 บางคนคาดการณ์ว่า TPU v5 จะเร็วเท่าหรือเร็วกว่าH100 [ 51 ]

เช่นเดียวกับ v4i ที่เป็นรุ่นน้ำหนักเบากว่าของ v4 รุ่นที่ห้าก็มีรุ่น "ประหยัดต้นทุน" [ 52 ]ที่เรียกว่า v5e [ 33 ]ในเดือนธันวาคม 2023 Google ประกาศ TPU v5p ซึ่งอ้างว่าสามารถแข่งขันกับ Nvidia H100 ได้[ 53 ]

TPU รุ่นที่หก

ในเดือนพฤษภาคม 2024 ในงาน ประชุม Google I/O Google ได้ประกาศเปิดตัว Trillium ซึ่งเปิดให้ใช้งานในเวอร์ชันพรีวิวในเดือนตุลาคม 2024 [ 54 ] Google อ้างว่าประสิทธิภาพเพิ่มขึ้น 4.7 เท่าเมื่อเทียบกับ TPU v5e [ 55 ]ผ่านหน่วยการคูณเมทริกซ์ที่ใหญ่ขึ้นและความเร็วสัญญาณนาฬิกาที่เพิ่มขึ้น ความจุและแบนด์วิดท์ของหน่วยความจำแบนด์วิดท์สูง (HBM) ก็เพิ่มขึ้นเป็นสองเท่าเช่นกัน พ็อดหนึ่งสามารถบรรจุหน่วย Trillium ได้มากถึง 256 หน่วย[ 56 ]

TPU รุ่นที่เจ็ด

ในเดือนเมษายน พ.ศ. 2568 ในงานประชุม Google Cloud Next Google ได้เปิดตัว TPU v7 ชิปตัวใหม่นี้เรียกว่า Ironwood [ 57 ]โดยจะมีให้เลือกสองแบบคือ คลัสเตอร์ 256 ชิป และคลัสเตอร์ 9,216 ชิป Ironwood จะมีประสิทธิภาพการคำนวณสูงสุดที่ 4,614 TFLOP/s [ 58 ]

TPU รุ่นที่แปด

เมื่อวันที่ 22 เมษายน พ.ศ. 2569 Google ได้ประกาศหน่วยประมวลผล Tensor รุ่นที่แปด ซึ่งประกอบด้วยชิปเฉพาะทางสองตัว ได้แก่TPU 8tและTPU 8i [ 38 ] นับเป็นครั้งแรก ที่ Google ได้แยกสถาปัตยกรรม TPU ออกเป็นดีไซน์ที่ปรับให้เหมาะสมสำหรับการฝึกอบรมและการอนุมานแยกกัน ชิปทั้งสองตัวนี้ทำงานบน CPU Axionที่ใช้สถาปัตยกรรม Arm แบบกำหนดเองของ Google และใช้ระบบระบายความร้อนด้วยของเหลวรุ่นที่ 4 [ 59 ]

TPU 8t

TPU 8t ("Training") ได้รับการปรับให้เหมาะสมสำหรับการฝึกอบรมล่วงหน้าขนาดใหญ่ของโมเดลแนวหน้าและภาระงานฝังข้อมูลจำนวนมาก โดยให้ประสิทธิภาพสูงสุด 12.6 FP4 PFLOPs และมีหน่วยความจำ HBM3e ขนาด 216 GB พร้อมแบนด์วิดท์ 6,528 GB/s ใช้โครงสร้างเครือข่าย Virgo ทำให้สามารถขยายขนาดได้ถึง 9,600 ชิปต่อ "superpod" ซึ่งให้ประสิทธิภาพการคำนวณ 121 FP4 ExaFLOPs [ 38 ]

TPU 8i

TPU 8i ("Inference") ได้รับการออกแบบมาเพื่อการให้บริการความเร็วสูง ตัวแทน AI และการให้เหตุผลตามบริบทยาว โดยให้ประสิทธิภาพสูงสุด 10.1 FP4 PFLOPs และมีหน่วยความจำ HBM3e ขนาด 288 GB พร้อมแบนด์วิดท์ 8,601 GB/s ประกอบด้วย SRAM บนชิปขนาด 384 MB ซึ่งเพิ่มขึ้นสามเท่าจากรุ่นก่อนหน้า TPU 8i นำเสนอโครงสร้างเครือข่าย "Boardfly" และ Collectives Acceleration Engine (CAE) ซึ่งช่วยลดความหน่วงในการซิงโครไนซ์ลงห้าเท่า[ 38 ]

ขอบ TPU

ในเดือนกรกฎาคม 2018 Google ประกาศเปิดตัว Edge TPU Edge TPU เป็นชิป ASIC ที่ Google สร้างขึ้นโดยเฉพาะเพื่อใช้ในการรันโมเดลแมชชีนเลิร์นนิง (ML) สำหรับการประมวลผลแบบเอดจ์ซึ่งหมายความว่ามีขนาดเล็กกว่าและใช้พลังงานน้อยกว่า TPU ที่อยู่ในศูนย์ข้อมูลของ Google (หรือที่รู้จักกันในชื่อ Cloud TPU [ 60 ] ) มาก ในเดือนมกราคม 2019 Google ได้เปิดให้ผู้พัฒนาใช้งาน Edge TPU ในกลุ่มผลิตภัณฑ์ภายใต้ แบรนด์ Coral Edge TPU สามารถประมวลผลได้ 4 ล้านล้านครั้งต่อวินาทีด้วยพลังงานไฟฟ้า 2 วัตต์[ 61 ]

ผลิตภัณฑ์ที่นำเสนอประกอบด้วยคอมพิวเตอร์บอร์ดเดี่ยว (SBC), ระบบบนโมดูล (SoM), อุปกรณ์เสริม USB , การ์ด mini PCI-eและการ์ดM.2 บอร์ด พัฒนา SBC Coral Dev Board และ Coral SoM ต่างก็ใช้ระบบปฏิบัติการ Mendel Linux ซึ่งเป็นระบบปฏิบัติการที่พัฒนามาจากDebian [ 62 ] [ 63 ]ผลิตภัณฑ์ USB, PCI-e และ M.2 ทำหน้าที่เป็นส่วนเสริมสำหรับระบบคอมพิวเตอร์ที่มีอยู่ และรองรับระบบ Linux ที่ใช้ Debian บนโฮสต์ x86-64 และ ARM64 (รวมถึงRaspberry Pi )

รันไทม์การเรียนรู้ของเครื่องที่ใช้ในการเรียกใช้โมเดลบน Edge TPU นั้นใช้TensorFlow Liteเป็น พื้นฐาน [ 64 ] Edge TPU สามารถเร่งความเร็วการดำเนินการแบบส่งต่อเท่านั้น ซึ่งหมายความว่ามีประโยชน์หลักๆ สำหรับการดำเนินการอนุมาน (แม้ว่าจะสามารถทำการเรียนรู้แบบถ่ายโอนที่มีน้ำหนักเบาบน Edge TPU ได้ก็ตาม[ 65 ] ) นอกจากนี้ Edge TPU ยังรองรับเฉพาะคณิตศาสตร์ 8 บิตเท่านั้น ซึ่งหมายความว่าเพื่อให้เครือข่ายเข้ากันได้กับ Edge TPU จะต้องได้รับการฝึกฝนโดยใช้เทคนิคการฝึกอบรมที่คำนึงถึงการควอนไทเซชันของ TensorFlow หรือตั้งแต่ปลายปี 2019 ก็สามารถใช้การควอนไทเซชันหลังการฝึกอบรมได้เช่นกัน

เมื่อวันที่ 12 พฤศจิกายน 2019 Asus ได้ประกาศเปิด ตัวคอมพิวเตอร์บอร์ดเดี่ยว (SBC)สองรุ่นที่มี Edge TPU ได้แก่Asus Tinker Edge T และ Tinker Edge R Boardซึ่งออกแบบมาสำหรับIoTและAI สำหรับอุปกรณ์ปลายทาง SBC เหล่านี้รองรับระบบปฏิบัติการAndroidและDebian อย่างเป็น ทางการ[ 66 ] [ 67 ]นอกจากนี้ ASUS ยังได้สาธิตมินิพีซีชื่อ Asus PN60T ที่มี Edge TPU อีกด้วย[ 68 ]

เมื่อวันที่ 2 มกราคม 2020 Google ประกาศเปิดตัว Coral Accelerator Module และ Coral Dev Board Mini ซึ่งจะนำมาสาธิตในงานCES 2020ในเดือนเดียวกันนั้น Coral Accelerator Module เป็นโมดูลมัลติชิปที่มีอินเทอร์เฟซ Edge TPU, PCIe และ USB เพื่อการรวมระบบที่ง่ายขึ้น ส่วน Coral Dev Board Mini เป็นคอมพิวเตอร์บอร์ดเดี่ยว ( SBC ) ขนาดเล็กที่มี Coral Accelerator Module และMediaTek 8167s SoC [ 69 ] [ 70 ]

พิกเซล นูลาร์ คอร์

เมื่อวันที่ 15 ตุลาคม 2562 Google ได้ประกาศเปิด ตัวสมาร์ทโฟน Pixel 4ซึ่งมี Edge TPU ที่เรียกว่าPixel Neural Core Google อธิบายว่า "ได้รับการปรับแต่งให้ตรงตามข้อกำหนดของฟีเจอร์กล้องหลักใน Pixel 4" โดยใช้การค้นหาเครือข่ายประสาทเทียมที่ยอมเสียความแม่นยำไปบ้างเพื่อลดความหน่วงและการใช้พลังงานให้น้อยที่สุด[ 71 ]

กูเกิลเทนเซอร์

Google ได้พัฒนา Pixel Neural Core ต่อโดยการรวม Edge TPU เข้ากับระบบประมวลผล แบบกำหนดเอง ที่ชื่อว่าGoogle Tensorซึ่งเปิดตัวในปี 2021 พร้อมกับสมาร์ทโฟนตระกูลPixel 6 [ 72 ] Google Tensor SoC แสดงให้เห็นถึง "ข้อได้เปรียบด้านประสิทธิภาพที่เหนือกว่าคู่แข่งอย่างมาก" ในการทดสอบประสิทธิภาพที่เน้นการเรียนรู้ของเครื่อง แม้ว่าการใช้พลังงานในทันทีจะค่อนข้างสูง แต่ประสิทธิภาพที่ได้รับการปรับปรุงหมายความว่ามีการใช้พลังงานน้อยลงเนื่องจากช่วงเวลาที่ต้องการประสิทธิภาพสูงสุดสั้นลง[ 73 ]

คดีความ

ในปี 2019 Singular Computing ซึ่งก่อตั้งขึ้นในปี 2009 โดย Joseph Bates ศาสตราจารย์รับเชิญที่MIT [ 74 ]ได้ยื่นฟ้อง Google โดยกล่าวหาว่าละเมิดสิทธิบัตรในชิป TPU [ 75 ]ภายในปี 2020 Google ประสบความสำเร็จในการลดจำนวนข้อเรียกร้องที่ศาลจะพิจารณาเหลือเพียงสองข้อ ได้แก่ ข้อเรียกร้องที่ 53 ของUS 8407273ที่ยื่นในปี 2012 และข้อเรียกร้องที่ 7 ของUS 9218156ที่ยื่นในปี 2013 ซึ่งทั้งสองข้อเรียกร้องอ้างถึงช่วงไดนามิกของ 10 −6ถึง 10 6สำหรับตัวเลขจุดลอยตัว ซึ่ง float16มาตรฐานไม่สามารถทำได้ (โดยไม่ต้องใช้ตัวเลขย่อยปกติ ) เนื่องจากมีเพียงห้าบิตสำหรับเลขชี้กำลัง ในการยื่นฟ้องต่อศาลในปี 2023 Singular Computing ได้ระบุอย่างชัดเจนถึงการใช้ bfloat16 ของ Google เนื่องจากเกินช่วงไดนามิกของfloat16 [ 76 ] Singular Computing อ้างว่ารูปแบบจุดลอยตัวที่ไม่เป็นมาตรฐานนั้นไม่ชัดเจนในปี 2009 แต่ Google โต้กลับว่ารูปแบบ VFLOAT [ 77 ]ซึ่งมีจำนวนบิตเลขชี้กำลังที่กำหนดค่าได้นั้นมีอยู่ก่อนแล้วในปี 2002 [ 78 ]ภายในเดือนมกราคม 2024 การฟ้องร้องครั้งต่อมาโดย Singular Computing ทำให้จำนวนสิทธิบัตรที่ถูกฟ้องร้องเพิ่มขึ้นเป็นแปดรายการ ในช่วงท้ายของการพิจารณาคดีในเดือนนั้น Google ตกลงที่จะยุติคดีโดยมีเงื่อนไขที่ไม่เปิดเผย[ 79 ] [ 80 ]  

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Tensor_Processing_Unit&oldid=1360833288 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ หน่วยประมวลผลเทนเซอร์

หน่วยประมวลผลเทนเซอร์ ( TPU ) เป็น หน่วยประมวลผลประสาท (NPU) วงจรรวมเฉพาะแอปพลิ เคชัน (ASIC) ที่พัฒนาโดย Google สำหรับ การเรียน รู้ ของเครื่อง ด้วยโครง ข่ายประสาทเทียม [ 2 ]...

การเปรียบเทียบ TPU และ GPU

เมื่อเปรียบเทียบกับ หน่วยประมวลผลกราฟิก TPU ได้รับการออกแบบมาสำหรับ การคำนวณที่ มีความแม่นยำ ต่ำในปริมาณมาก (เช่น ความแม่นยำเพียง 8 บิต ) [ 4 ] โดยมีการดำเนินการอินพุต/เอาต์พุตต่อ จูล มากกว่า โดย ไม่มีฮาร์ดแวร์สำหรับ การแรสเตอร์ไรเซชัน หรือ การแม ป พื้นผิว [...

ประวัติศาสตร์

ในปี 2013 Google ได้ว่าจ้าง Amir Salek เพื่อสร้างความสามารถในการพัฒนาซิลิคอนแบบกำหนดเองสำหรับศูนย์ข้อมูลของบริษัท [ 8 ] ในฐานะผู้ก่อตั้งและหัวหน้าฝ่าย Custom Silicon สำหรับ Google Technical Infrastructure และ Google Cloud Salek เป็นผู้นำในการพัฒนา TPU รุ่นแรก...

TPU รุ่นแรก

TPU รุ่นแรกเป็น เอนจิน การคูณเมทริก ซ์ 8 บิต ขับเคลื่อนด้วย คำสั่ง CISC โดยโปรเซสเซอร์โฮสต์ผ่าน บัส PCIe 3.0 ผลิตด้วยกระบวนการ 28 นาโนเมตร โดยมีขนาดได ≤ 331 มม.