หน่วยประมวลผลเทนเซอร์

Q: TPU รุ่นแรก

TPU รุ่นแรกเป็น เอนจิน การคูณเมทริก ซ์ 8 บิต ขับเคลื่อนด้วย คำสั่ง CISC โดยโปรเซสเซอร์โฮสต์ผ่าน บัส PCIe 3.0 ผลิตด้วยกระบวนการ 28 นาโนเมตร โดยมีขนาดได ≤ 331 มม.

หน่วยประมวลผลเทนเซอร์
	หน่วยประมวลผลเทนเซอร์ 3.0
นักออกแบบ	Google
แนะนำ	2015
เวอร์ชั่น	8
พิมพ์	โครงข่ายประสาทเทียมการเรียนรู้ของเครื่อง

หน่วยประมวลผลเทนเซอร์ ( TPU ) เป็นหน่วยประมวลผลประสาท (NPU) วงจรรวมเฉพาะแอปพลิเคชัน (ASIC) ที่พัฒนาโดยGoogleสำหรับ การเรียน รู้ของเครื่อง ด้วยโครง ข่ายประสาทเทียม^[²^] Tensorflow , JaxและPyTorchเป็นเฟรมเวิร์กที่รองรับสำหรับ TPU ^[³^] Google เริ่มใช้ TPU ภายในองค์กรในปี 2015 และในปี 2018 ได้เปิดให้บุคคลที่สามใช้งานได้ ทั้งในฐานะส่วนหนึ่งของโครงสร้างพื้นฐานคลาวด์และโดยการเสนอชิปรุ่นเล็กกว่าเพื่อจำหน่าย

การเปรียบเทียบ TPU และ GPU

เมื่อเปรียบเทียบกับหน่วยประมวลผลกราฟิก TPU ได้รับการออกแบบมาสำหรับ การคำนวณที่ มีความแม่นยำ ต่ำในปริมาณมาก (เช่น ความแม่นยำเพียง8 บิต ) ^{[ 4 ]}โดยมีการดำเนินการอินพุต/เอาต์พุตต่อจูล มากกว่า โดย ไม่มีฮาร์ดแวร์สำหรับการแรสเตอร์ไรเซชันหรือ การแม ปพื้นผิว^{[ 5 ]} ASICของ TPU ถูกติดตั้งในชุดระบายความร้อน ซึ่งสามารถใส่ในช่องเสียบฮาร์ดไดรฟ์ภายในแร็ค ศูนย์ข้อมูล ได้ ตามที่Norman Jouppiกล่าว^{[ 6 ]}

โปรเซสเซอร์ประเภทต่างๆ เหมาะสำหรับโมเดลการเรียนรู้ของเครื่องประเภทต่างๆ TPU เหมาะสำหรับเครือข่ายประสาทแบบคอนโวลูชัน ( CNN ) ในขณะที่GPUมีข้อดีสำหรับเครือข่ายประสาทแบบเชื่อมต่อเต็มรูปแบบบางประเภท และCPUอาจมีข้อได้เปรียบสำหรับเครือข่ายประสาทแบบวนซ้ำ ( RNN ) ^{[ 7 ]}

ประวัติศาสตร์

ในปี 2013 Google ได้ว่าจ้างAmir Salekเพื่อสร้างความสามารถในการพัฒนาซิลิคอนแบบกำหนดเองสำหรับศูนย์ข้อมูลของบริษัท^{[ 8 ]}ในฐานะผู้ก่อตั้งและหัวหน้าฝ่าย Custom Silicon สำหรับ Google Technical Infrastructure และ Google Cloud Salek เป็นผู้นำในการพัฒนา TPU รุ่นแรก (ชิปผลิตตัวแรกของ Google), TPUv2 (ชิปฝึกอบรมการเรียนรู้เชิงลึกผลิตตัวแรกของอุตสาหกรรม), TPUv3, TPUv4, Edge-TPU และผลิตภัณฑ์ซิลิคอนเพิ่มเติม รวมถึง VCU, IPU และ OpenTitan ^{[ 9 ]}^{[ 10 ]} ตามที่ Jonathan Ross หนึ่งในวิศวกร TPU รุ่นแรก^{[ 1 ]}และต่อมาเป็นผู้ก่อตั้งGroqกล่าวไว้ มีกลุ่มแยกกันสามกลุ่มที่ Google กำลังพัฒนาตัวเร่งความเร็ว AI โดย TPU ซึ่ง เป็น อาร์เรย์ซิสโตลิก [ ^{11 ] เป็นการ}ออกแบบที่ได้รับการคัดเลือกในที่สุด

Norman P. Jouppi ดำรงตำแหน่งหัวหน้าทีมเทคโนโลยีและสถาปนิกหลักในการพัฒนาหน่วยประมวลผลเทนเซอร์ (Tensor Processing Unit) ของ Google โดยเป็นผู้นำในการออกแบบ ตรวจสอบ และใช้งาน TPU รุ่นแรกสู่การผลิตอย่างรวดเร็วภายในเวลาเพียง 15 เดือน^{[ 12 ]}ในฐานะผู้เขียนหลักของบทความสำคัญในปี 2017 เรื่อง "การวิเคราะห์ประสิทธิภาพในศูนย์ข้อมูลของหน่วยประมวลผลเทนเซอร์" ซึ่งนำเสนอในการประชุมวิชาการนานาชาติว่าด้วยสถาปัตยกรรมคอมพิวเตอร์ครั้งที่ 44 (ISCA 2017) Jouppi ได้แสดงให้เห็นว่า TPU มีประสิทธิภาพสูงกว่า CPU และ GPU ในปัจจุบันถึง 15–30 เท่า และมีประสิทธิภาพต่อวัตต์สูงกว่า 30–80 เท่า ทำให้ TPU กลายเป็นแพลตฟอร์มพื้นฐานสำหรับการอนุมานเครือข่ายประสาทเทียมในระดับใหญ่ทั่วบริการการผลิตของ Google ^{[ 13 ]}^{[ 14 ]}

หน่วยประมวลผลเทนเซอร์ (TPU) ได้รับการประกาศในเดือนพฤษภาคม 2016 ใน งานประชุม Google I/Oซึ่งบริษัทกล่าวว่า TPU ได้ถูกนำไปใช้ภายในศูนย์ข้อมูลของพวกเขามานานกว่าหนึ่งปีแล้ว^{[ 6 ]}^{[ 5 ]}เอกสารของ Google ในปี 2017 ที่อธิบายถึงการสร้างชิปนี้ได้อ้างถึงตัวคูณเมทริกซ์ซิสโตลิกก่อนหน้านี้ที่มีสถาปัตยกรรมคล้ายกันซึ่งสร้างขึ้นในช่วงทศวรรษ 1990 ^{[ 15 ]}ชิปนี้ได้รับการออกแบบมาโดยเฉพาะสำหรับ เฟรมเวิร์ก TensorFlow ของ Google ซึ่งเป็นไลบรารีคณิตศาสตร์เชิงสัญลักษณ์ที่ใช้สำหรับ แอปพลิเคชัน การเรียนรู้ของเครื่องเช่นเครือข่ายประสาทเทียม [ ^{16 ] อย่างไรก็ตาม}ณ ปี 2017 Google ยังคงใช้CPUและGPU สำหรับการเรียนรู้ ของเครื่องประเภทอื่น ๆ^{[ 6 ]} การออกแบบ ตัวเร่งความเร็ว AIอื่น ๆกำลังปรากฏขึ้นจากผู้จำหน่ายรายอื่น ๆ เช่นกัน และมุ่งเป้าไปที่ตลาด ฝังตัวและหุ่นยนต์

TPU ของ Google เป็นกรรมสิทธิ์ของ Google เอง บางรุ่นวางจำหน่ายในเชิงพาณิชย์ และเมื่อวันที่ 12 กุมภาพันธ์ 2018 หนังสือพิมพ์ The New York Timesรายงานว่า Google "จะอนุญาตให้บริษัทอื่นซื้อสิทธิ์การเข้าถึงชิปเหล่านั้นผ่านบริการคลาวด์คอมพิวติ้ง" ^{[ 17 ]} Google กล่าวว่าชิปเหล่านี้ถูกใช้ในการแข่งขันโกะระหว่างมนุษย์กับเครื่องจักรในซีรีส์AlphaGo กับ Lee Sedol ^[⁵^]รวมถึงใน ระบบ AlphaZeroซึ่งสร้าง โปรแกรมเล่น หมากรุกโชงิและโกะจากกฎของเกมเพียงอย่างเดียว และสามารถเอาชนะโปรแกรมชั้นนำในเกมเหล่านั้นได้^[¹⁸^] Google ยังใช้ TPU สำหรับ การประมวลผลข้อความใน Google Street Viewและสามารถค้นหาข้อความทั้งหมดในฐานข้อมูล Street View ได้ภายในเวลาไม่ถึงห้าวัน ในGoogle Photos TPU แต่ละตัวสามารถประมวลผลรูปภาพได้มากกว่า 100 ล้านรูปต่อวัน^[⁶^]นอกจากนี้ยังใช้ในRankBrainซึ่ง Google ใช้ในการแสดงผลการค้นหา^[¹⁹^]

Google ให้บุคคลที่สามเข้าถึง TPU ผ่าน บริการ Cloud TPUซึ่งเป็นส่วนหนึ่งของGoogle Cloud Platform ^{[ 20 ]}และผ่านบริการที่ใช้โน้ตบุ๊กอย่างKaggleและColaboratory ^{[ 21 ]}^{[ 22 ]}

Broadcomเป็นผู้ร่วมพัฒนา TPU โดยแปลสถาปัตยกรรมและข้อกำหนดของ Google ให้เป็นซิลิคอนที่สามารถผลิตได้ โดยให้บริการเทคโนโลยีที่เป็นกรรมสิทธิ์ เช่น อินเทอร์เฟซความเร็วสูง SerDesดูแลการออกแบบ ASIC และจัดการการผลิตและบรรจุภัณฑ์ชิปผ่านโรงงานผลิตของบุคคลที่สาม เช่น Taiwan Semiconductor Manufacturing Company ( TSMC ) ครอบคลุมทุกรุ่นตั้งแต่เริ่มโครงการ^{[ 23 ]}^{[ 24 ]}^{[ 25 ]}

ในเดือนกันยายน พ.ศ. 2568 Google กำลังเจรจากับ "neocloud" หลายแห่ง รวมถึง Crusoe และ CoreWeave เกี่ยวกับการติดตั้ง TPU ในศูนย์ข้อมูลของพวกเขา^{[ 26 ]}^{[ 27 ]}ในเดือนพฤศจิกายน พ.ศ. 2568 Meta กำลังเจรจากับ Google เพื่อติดตั้ง TPU ในศูนย์ข้อมูล AI ของ ตน

สินค้า

รุ่นของหน่วยประมวลผลเทนเซอร์ (TPU) ^{[ 28 ]}^{[ 29 ]}^{[ 30 ]}
	ว1	เวอร์ชัน 2	เวอร์ชัน 3	v4 ^{[ 29 ]}^{[ 31 ]}^{[ 32 ]}	v5e ^{[ 33 ]}	v5p ^{[ 34 ]}^{[ 35 ]}	v6e (ทริลเลียม) ^{[ 36 ]}^{[ 37 ]}	v7 (ไอรอนวูด)	v8t / v8i ^{[ 38 ]}^{[ 39 ]}
วันที่เปิดตัว	2015	2017	2018	2021	2023	2023	2024	2025	2026
โหนดประมวลผล	28 นาโนเมตร	16 นาโนเมตร	16 นาโนเมตร	7 นาโนเมตร	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้
ขนาดแม่พิมพ์ (มม. ^² )	331	< 625	< 700	< 400	300–350	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้
หน่วยความจำภายในชิป (MiB)	28	32	32 (VMEM) + 5 (spMEM)	128 (CMEM) + 32 (VMEM) + 10 (spMEM)	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	384 (v8i)
ความเร็วสัญญาณนาฬิกา (MHz)	700	700	940	1050	ไม่ได้ระบุไว้	1750	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้
หน่วยความจำ	8 กิกะไบต์DDR3	16 GiB HBM	32 GiB HBM	32 GiB HBM	16 GB HBM	95 GB HBM	32 GB	192 GB HBM	216/288 GB HBM3e
แบนด์วิดท์หน่วยความจำ	34 GB/s	600 GB/s	900 GB/s	1200 GB/s	819 GB/s	2765 GB/s	1640 GB/s	7.37 เทราไบต์/วินาที	6.5/8.6 เทราไบต์/วินาที
กำลังการออกแบบทางความร้อน (วัตต์)	75	280	220	170	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้
ประสิทธิภาพการคำนวณ (ล้านล้านการดำเนินการต่อวินาที)	23	45	123	275	197 (bf16) 393 (int8)	459 (bf16) 918 (int8)	918 (bf16) 1836 (int8)	4614 (fp8)	12600 (v8t fp4) 10100 (v8i fp4)
ประสิทธิภาพการใช้พลังงาน (teraOPS/W)	0.31	0.16	0.56	1.62	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	ไม่ได้ระบุไว้	4.7	ไม่ได้ระบุไว้

TPU รุ่นแรก

TPU รุ่นแรกเป็น เอนจิน การคูณเมทริก ซ์ 8 บิต ขับเคลื่อนด้วยคำสั่ง CISCโดยโปรเซสเซอร์โฮสต์ผ่าน บัส PCIe 3.0ผลิตด้วยกระบวนการ 28 นาโนเมตรโดยมีขนาดได ≤ 331 มม. ^²ความเร็วสัญญาณนาฬิกาคือ 700 เมกะ เฮิร์ตซ์ และมีกำลังการออกแบบความร้อน 28–40 วัตต์มี หน่วยความจำบนชิป 28 มิกเมน ตัมไบต์ และ ตัวสะสม 32 บิต 4 มิกเมน ตัม ไบต์ซึ่งรับผลลัพธ์จากอาร์เรย์ซิสโตลิก 256 ×256 ของ ตัวคูณ 8 บิต^[¹⁵^]ภายในแพ็คเกจ TPU มี DDR3 SDRAMแบบดูอัลแชนเนล 2133 เมกะ เฮิร์ตซ์ ขนาด 8 กิกะไบต์ซึ่งให้แบนด์วิดท์ 34 กิกะบิตต่อวินาที^[³⁰^]คำสั่งจะถ่ายโอนข้อมูลไปยังหรือจากโฮสต์ ทำการคูณเมทริกซ์หรือการคอนโวลูชันและใช้ฟังก์ชันการเปิดใช้งาน^[¹⁵^]

TPU รุ่นที่สอง

TPU รุ่นที่สองได้รับการประกาศในเดือนพฤษภาคม 2017 ^{[ 40 ]} Google ระบุว่าการออกแบบ TPU รุ่นแรกมีข้อจำกัดด้านแบนด์วิดท์ของหน่วยความจำและการใช้หน่วยความจำแบนด์วิดท์สูง 16 ^{GB ในการออกแบบรุ่นที่สองทำให้แบนด์วิดท์เพิ่มขึ้นเป็น 600 GB/s และประสิทธิภาพเพิ่มขึ้นเป็น 45 tera FLOPS [} 30 ] จากนั้นTPUจะ^ถูก^จัดเรียงเป็นโมดูลสี่ชิปที่มีประสิทธิภาพ 180 tera FLOPS ^[⁴⁰^]จากนั้นโมดูลเหล่านี้ 64 โมดูลจะถูกประกอบเป็นพ็อด 256 ชิปที่มีประสิทธิภาพ 11.5 peta FLOPS ^[⁴⁰^]ที่น่าสังเกตคือ ในขณะที่ TPU รุ่นแรกมีข้อจำกัดเฉพาะจำนวนเต็ม TPU รุ่นที่สองยังสามารถคำนวณใน รูป แบบจุดลอยตัว ได้ โดย แนะนำ รูปแบบ bfloat16ที่คิดค้นโดยGoogle Brainทำให้ TPU รุ่นที่สองมีประโยชน์สำหรับทั้งการฝึกอบรมและการอนุมานของโมเดลการเรียนรู้ของเครื่อง Google ระบุว่า TPU รุ่นที่สองเหล่านี้จะพร้อมใช้งานบนGoogle Compute Engineเพื่อใช้ในแอปพลิเคชัน TensorFlow ^[⁴¹^]

TPU รุ่นที่สาม

TPU รุ่นที่สามได้รับการประกาศเมื่อวันที่ 8 พฤษภาคม 2561 ^{[ 42 ]} Google ประกาศว่าโปรเซสเซอร์มีประสิทธิภาพมากกว่า TPU รุ่นที่สองถึงสองเท่า และจะถูกนำไปใช้งานในพ็อดที่มีชิปมากกว่ารุ่นก่อนหน้าถึงสี่เท่า^{[ 43 ]}^{[ 44 ]}ส่งผลให้ประสิทธิภาพต่อพ็อดเพิ่มขึ้นถึง 8 เท่า (โดยมีชิปมากถึง 1,024 ตัวต่อพ็อด) เมื่อเทียบกับการใช้งาน TPU รุ่นที่สอง

TPU รุ่นที่สี่

เมื่อวันที่ 18 พฤษภาคม 2021 Sundar Pichai ซีอีโอของ Google ได้กล่าวถึงหน่วยประมวลผล Tensor TPU v4 ระหว่างการกล่าวปาฐกถาหลักในการประชุมเสมือนจริง Google I/O โดย TPU v4 มีประสิทธิภาพดีขึ้นกว่าชิป TPU v3 มากกว่า 2 เท่า Pichai กล่าวว่า "พอด v4 หนึ่งชุดประกอบด้วยชิป v4 จำนวน 4,096 ตัว และแต่ละพอดมีแบนด์วิดท์การเชื่อมต่อต่อชิปมากกว่าเทคโนโลยีเครือข่ายอื่นๆ ถึง 10 เท่า" ^{[ 45 ]}เอกสารของ Google ในเดือนเมษายน 2023 อ้างว่า TPU v4 เร็วกว่าNvidia A100 ถึง 5–87% ในการทดสอบประสิทธิภาพ การเรียน รู้ ของเครื่อง ^{[ 46 ]}

นอกจากนี้ยังมีเวอร์ชัน "การอนุมาน" ที่เรียกว่า v4i ^{[ 47 ]}ซึ่งไม่จำเป็นต้องใช้ การระบายความ ร้อนด้วยของเหลว^{[ 48 ]}

TPU รุ่นที่ห้า

ในปี 2021 Google เปิดเผยว่าเค้าโครงทางกายภาพของ TPU v5 ได้รับการออกแบบโดยอาศัยการประยุกต์ใช้การเรียนรู้แบบเสริมแรงเชิงลึก แบบ ใหม่^{[ 49 ]} Google อ้างว่า TPU v5 เร็วกว่า TPU v4 เกือบสองเท่า^{[ 50 ]}^{และจาก ข้อมูล}ดังกล่าวและประสิทธิภาพเชิงเปรียบเทียบของ TPU v4 เมื่อเทียบกับ A100 บางคนคาดการณ์ว่า TPU v5 จะเร็วเท่าหรือเร็วกว่าH100 [ ^{51 ]}

เช่นเดียวกับ v4i ที่เป็นรุ่นน้ำหนักเบากว่าของ v4 รุ่นที่ห้าก็มีรุ่น "ประหยัดต้นทุน" ^{[ 52 ]}ที่เรียกว่า v5e ^{[ 33 ]}ในเดือนธันวาคม 2023 Google ประกาศ TPU v5p ซึ่งอ้างว่าสามารถแข่งขันกับ Nvidia H100 ได้^{[ 53 ]}

TPU รุ่นที่หก

ในเดือนพฤษภาคม 2024 ในงาน ประชุม Google I/O Google ได้ประกาศเปิดตัว Trillium ซึ่งเปิดให้ใช้งานในเวอร์ชันพรีวิวในเดือนตุลาคม 2024 ^{[ 54 ]} Google อ้างว่าประสิทธิภาพเพิ่มขึ้น 4.7 เท่าเมื่อเทียบกับ TPU v5e ^{[ 55 ]}ผ่านหน่วยการคูณเมทริกซ์ที่ใหญ่ขึ้นและความเร็วสัญญาณนาฬิกาที่เพิ่มขึ้น ความจุและแบนด์วิดท์ของหน่วยความจำแบนด์วิดท์สูง (HBM) ก็เพิ่มขึ้นเป็นสองเท่าเช่นกัน พ็อดหนึ่งสามารถบรรจุหน่วย Trillium ได้มากถึง 256 หน่วย^{[ 56 ]}

TPU รุ่นที่เจ็ด

ในเดือนเมษายน พ.ศ. 2568 ในงานประชุม Google Cloud Next Google ได้เปิดตัว TPU v7 ชิปตัวใหม่นี้เรียกว่า Ironwood ^{[ 57 ]}โดยจะมีให้เลือกสองแบบคือ คลัสเตอร์ 256 ชิป และคลัสเตอร์ 9,216 ชิป Ironwood จะมีประสิทธิภาพการคำนวณสูงสุดที่ 4,614 TFLOP/s ^{[ 58 ]}

TPU รุ่นที่แปด

เมื่อวันที่ 22 เมษายน พ.ศ. 2569 Google ได้ประกาศหน่วยประมวลผล Tensor รุ่นที่แปด ซึ่งประกอบด้วยชิปเฉพาะทางสองตัว ได้แก่TPU 8tและTPU 8i ^{[ 38 ]} นับเป็นครั้งแรก ที่ Google ได้แยกสถาปัตยกรรม TPU ออกเป็นดีไซน์ที่ปรับให้เหมาะสมสำหรับการฝึกอบรมและการอนุมานแยกกัน ชิปทั้งสองตัวนี้ทำงานบน CPU Axionที่ใช้สถาปัตยกรรม Arm แบบกำหนดเองของ Google และใช้ระบบระบายความร้อนด้วยของเหลวรุ่นที่ 4 ^{[ 59 ]}

TPU 8t

TPU 8t ("Training") ได้รับการปรับให้เหมาะสมสำหรับการฝึกอบรมล่วงหน้าขนาดใหญ่ของโมเดลแนวหน้าและภาระงานฝังข้อมูลจำนวนมาก โดยให้ประสิทธิภาพสูงสุด 12.6 FP4 PFLOPs และมีหน่วยความจำ HBM3e ขนาด 216 GB พร้อมแบนด์วิดท์ 6,528 GB/s ใช้โครงสร้างเครือข่าย Virgo ทำให้สามารถขยายขนาดได้ถึง 9,600 ชิปต่อ "superpod" ซึ่งให้ประสิทธิภาพการคำนวณ 121 FP4 ExaFLOPs ^{[ 38 ]}

TPU 8i

TPU 8i ("Inference") ได้รับการออกแบบมาเพื่อการให้บริการความเร็วสูง ตัวแทน AI และการให้เหตุผลตามบริบทยาว โดยให้ประสิทธิภาพสูงสุด 10.1 FP4 PFLOPs และมีหน่วยความจำ HBM3e ขนาด 288 GB พร้อมแบนด์วิดท์ 8,601 GB/s ประกอบด้วย SRAM บนชิปขนาด 384 MB ซึ่งเพิ่มขึ้นสามเท่าจากรุ่นก่อนหน้า TPU 8i นำเสนอโครงสร้างเครือข่าย "Boardfly" และ Collectives Acceleration Engine (CAE) ซึ่งช่วยลดความหน่วงในการซิงโครไนซ์ลงห้าเท่า^{[ 38 ]}

ขอบ TPU

ในเดือนกรกฎาคม 2018 Google ประกาศเปิดตัว Edge TPU Edge TPU เป็นชิป ASIC ที่ Google สร้างขึ้นโดยเฉพาะเพื่อใช้ในการรันโมเดลแมชชีนเลิร์นนิง (ML) สำหรับการประมวลผลแบบเอดจ์ซึ่งหมายความว่ามีขนาดเล็กกว่าและใช้พลังงานน้อยกว่า TPU ที่อยู่ในศูนย์ข้อมูลของ Google (หรือที่รู้จักกันในชื่อ Cloud TPU ^{[ 60 ]} ) มาก ในเดือนมกราคม 2019 Google ได้เปิดให้ผู้พัฒนาใช้งาน Edge TPU ในกลุ่มผลิตภัณฑ์ภายใต้ แบรนด์ Coral Edge TPU สามารถประมวลผลได้ 4 ล้านล้านครั้งต่อวินาทีด้วยพลังงานไฟฟ้า 2 วัตต์^{[ 61 ]}

ผลิตภัณฑ์ที่นำเสนอประกอบด้วยคอมพิวเตอร์บอร์ดเดี่ยว (SBC), ระบบบนโมดูล (SoM), อุปกรณ์เสริม USB , การ์ด mini PCI-eและการ์ดM.2 บอร์ด พัฒนา SBC Coral Dev Board และ Coral SoM ต่างก็ใช้ระบบปฏิบัติการ Mendel Linux ซึ่งเป็นระบบปฏิบัติการที่พัฒนามาจากDebian ^{[ 62 ]}^{[ 63 ]}ผลิตภัณฑ์ USB, PCI-e และ M.2 ทำหน้าที่เป็นส่วนเสริมสำหรับระบบคอมพิวเตอร์ที่มีอยู่ และรองรับระบบ Linux ที่ใช้ Debian บนโฮสต์ x86-64 และ ARM64 (รวมถึงRaspberry Pi )

รันไทม์การเรียนรู้ของเครื่องที่ใช้ในการเรียกใช้โมเดลบน Edge TPU นั้นใช้TensorFlow Liteเป็น พื้นฐาน ^{[ 64 ]} Edge TPU สามารถเร่งความเร็วการดำเนินการแบบส่งต่อเท่านั้น ซึ่งหมายความว่ามีประโยชน์หลักๆ สำหรับการดำเนินการอนุมาน (แม้ว่าจะสามารถทำการเรียนรู้แบบถ่ายโอนที่มีน้ำหนักเบาบน Edge TPU ได้ก็ตาม^{[ 65 ]} ) นอกจากนี้ Edge TPU ยังรองรับเฉพาะคณิตศาสตร์ 8 บิตเท่านั้น ซึ่งหมายความว่าเพื่อให้เครือข่ายเข้ากันได้กับ Edge TPU จะต้องได้รับการฝึกฝนโดยใช้เทคนิคการฝึกอบรมที่คำนึงถึงการควอนไทเซชันของ TensorFlow หรือตั้งแต่ปลายปี 2019 ก็สามารถใช้การควอนไทเซชันหลังการฝึกอบรมได้เช่นกัน

เมื่อวันที่ 12 พฤศจิกายน 2019 Asus ได้ประกาศเปิด ตัวคอมพิวเตอร์บอร์ดเดี่ยว (SBC)สองรุ่นที่มี Edge TPU ได้แก่Asus Tinker Edge T และ Tinker Edge R Boardซึ่งออกแบบมาสำหรับIoTและAI สำหรับอุปกรณ์ปลายทาง SBC เหล่านี้รองรับระบบปฏิบัติการ AndroidและDebian อย่างเป็น ทางการ^[⁶⁶^]^[⁶⁷^]นอกจากนี้ ASUS ยังได้สาธิตมินิพีซีชื่อ Asus PN60T ที่มี Edge TPU อีกด้วย^[⁶⁸^]

เมื่อวันที่ 2 มกราคม 2020 Google ประกาศเปิดตัว Coral Accelerator Module และ Coral Dev Board Mini ซึ่งจะนำมาสาธิตในงานCES 2020ในเดือนเดียวกันนั้น Coral Accelerator Module เป็นโมดูลมัลติชิปที่มีอินเทอร์เฟซ Edge TPU, PCIe และ USB เพื่อการรวมระบบที่ง่ายขึ้น ส่วน Coral Dev Board Mini เป็นคอมพิวเตอร์บอร์ดเดี่ยว ( SBC ) ขนาดเล็กที่มี Coral Accelerator Module และMediaTek 8167s SoC ^{[ 69 ]}^{[ 70 ]}

พิกเซล นูลาร์ คอร์

เมื่อวันที่ 15 ตุลาคม 2562 Google ได้ประกาศเปิด ตัวสมาร์ทโฟน Pixel 4ซึ่งมี Edge TPU ที่เรียกว่าPixel Neural Core Google อธิบายว่า "ได้รับการปรับแต่งให้ตรงตามข้อกำหนดของฟีเจอร์กล้องหลักใน Pixel 4" โดยใช้การค้นหาเครือข่ายประสาทเทียมที่ยอมเสียความแม่นยำไปบ้างเพื่อลดความหน่วงและการใช้พลังงานให้น้อยที่สุด^{[ 71 ]}

กูเกิลเทนเซอร์

Google ได้พัฒนา Pixel Neural Core ต่อโดยการรวม Edge TPU เข้ากับระบบประมวลผล แบบกำหนดเอง ที่ชื่อว่าGoogle Tensorซึ่งเปิดตัวในปี 2021 พร้อมกับสมาร์ทโฟนตระกูลPixel 6 ^{[ 72 ]} Google Tensor SoC แสดงให้เห็นถึง "ข้อได้เปรียบด้านประสิทธิภาพที่เหนือกว่าคู่แข่งอย่างมาก" ในการทดสอบประสิทธิภาพที่เน้นการเรียนรู้ของเครื่อง แม้ว่าการใช้พลังงานในทันทีจะค่อนข้างสูง แต่ประสิทธิภาพที่ได้รับการปรับปรุงหมายความว่ามีการใช้พลังงานน้อยลงเนื่องจากช่วงเวลาที่ต้องการประสิทธิภาพสูงสุดสั้นลง^{[ 73 ]}

คดีความ

ในปี 2019 Singular Computing ซึ่งก่อตั้งขึ้นในปี 2009 โดย Joseph Bates ศาสตราจารย์รับเชิญที่MIT [ ⁷⁴^]ได้ยื่นฟ้อง Google โดยกล่าวหาว่าละเมิดสิทธิบัตรในชิป TPU ^[⁷⁵^]ภายในปี 2020 Google ประสบความสำเร็จในการลดจำนวนข้อเรียกร้องที่ศาลจะพิจารณาเหลือเพียงสองข้อ ได้แก่ ข้อเรียกร้องที่ 53 ของ^US 8407273ที่ยื่นในปี 2012 และข้อเรียกร้องที่ 7 ของUS 9218156ที่ยื่นในปี 2013 ซึ่งทั้งสองข้อเรียกร้องอ้างถึงช่วงไดนามิกของ 10 ⁻⁶ถึง 10 ⁶สำหรับตัวเลขจุดลอยตัว ซึ่ง float16มาตรฐานไม่สามารถทำได้ (โดยไม่ต้องใช้ตัวเลขย่อยปกติ ) เนื่องจากมีเพียงห้าบิตสำหรับเลขชี้กำลัง ในการยื่นฟ้องต่อศาลในปี 2023 Singular Computing ได้ระบุอย่างชัดเจนถึงการใช้ bfloat16 ของ Google เนื่องจากเกินช่วงไดนามิกของfloat16 ^[⁷⁶^] Singular Computing อ้างว่ารูปแบบจุดลอยตัวที่ไม่เป็นมาตรฐานนั้นไม่ชัดเจนในปี 2009 แต่ Google โต้กลับว่ารูปแบบ VFLOAT ^[⁷⁷^]ซึ่งมีจำนวนบิตเลขชี้กำลังที่กำหนดค่าได้นั้นมีอยู่ก่อนแล้วในปี 2002 ^[⁷⁸^]ภายในเดือนมกราคม 2024 การฟ้องร้องครั้งต่อมาโดย Singular Computing ทำให้จำนวนสิทธิบัตรที่ถูกฟ้องร้องเพิ่มขึ้นเป็นแปดรายการ ในช่วงท้ายของการพิจารณาคดีในเดือนนั้น Google ตกลงที่จะยุติคดีโดยมีเงื่อนไขที่ไม่เปิดเผย^[⁷⁹^]^[⁸⁰^]

ดูเพิ่มเติม

ตัวเร่งความเร็ว AI
ศูนย์ข้อมูล AI
คอมพิวเตอร์เชิงปัญญา
Google Colab — IDE ออนไลน์สำหรับ Python ที่สามารถใช้งาน TPU ผ่านระบบคลาวด์ได้
Tensor Core —สถาปัตยกรรมที่คล้ายกันจากNvidia
TrueNorth —อุปกรณ์ที่คล้ายกันซึ่งจำลองการทำงานของเซลล์ประสาทที่ส่งสัญญาณแทนที่จะใช้เทนเซอร์ที่มีความแม่นยำต่ำ
หน่วยประมวลผลภาพ — อุปกรณ์ที่คล้ายคลึงกันซึ่งมีความเชี่ยวชาญเฉพาะด้านการประมวลผลภาพ

ลิงก์ภายนอก

หน่วยประมวลผลเทนเซอร์บนคลาวด์ (TPU) (เอกสารจาก Google Cloud)
ภาพถ่ายชิปและแผงวงจร TPU ของ Google
ภาพถ่ายบอร์ด TPU v2 ของ Googleเก็บถาวรเมื่อวันที่ 9 สิงหาคม 2021 ในWayback Machine
ภาพถ่ายบอร์ด TPU v3 ของ Googleเก็บถาวรเมื่อวันที่ 8 มีนาคม 2021 ในWayback Machine
ภาพถ่ายของโมดูล TPU v2 ของ Googleเก็บถาวรเมื่อวันที่ 9 สิงหาคม 2021 ในWayback Machine

[ 1 ]

[

[

[ 4 ]

[ 5 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

11 ] เป็นการ

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

16 ] อย่างไรก็ตาม

[ 17 ]

[

[

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

และจาก ข้อมูล

[ 52 ]

[ 53 ]

[ 54 ]

[ 55 ]

[ 56 ]

[ 57 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 61 ]

[ 62 ]

[ 63 ]

[ 64 ]

[ 65 ]

[

[

[

[ 69 ]

[ 70 ]

[ 71 ]

[ 72 ]

[ 73 ]

74

75

[

[

[

[

[