ฮอปเปอร์ (สถาปัตยกรรมระดับไมโคร)

Q: ข้อมูลสำคัญเกี่ยวกับ ฮอปเปอร์ (สถาปัตยกรรมระดับไมโคร)

Hopper เป็น สถาปัตยกรรมไมโคร ของหน่วยประมวลผลกราฟิก (GPU) ที่พัฒนาโดย Nvidia ออกแบบมาสำหรับศูนย์ข้อมูลและใช้งานควบคู่กับสถาปัตยกรรมไมโคร Lovelace

Q: หน่วยความจำ

Nvidia Hopper H100 รองรับ หน่วยความจำ HBM3 และ HBM2e สูงสุด 80 GB; ระบบหน่วยความจำ HBM3 รองรับความเร็ว 3 TB/s ซึ่งเพิ่มขึ้น 50% จาก 2 TB/s ของ Nvidia Ampere A100 ความจุและแบนด์วิดท์ของแคช L2 เพิ่มขึ้นทั่วทั้งสถาปัตยกรรม [ 9 ]

เกรซ ฮอปเปอร์ GH200
ออกแบบโดย	เอ็นดีวีดี
ผลิตโดย	ทีเอสเอ็มซี;
กระบวนการผลิต	ทีเอสเอ็มซี4เอ็น
ชื่อรหัส	เกรซ ฮอปเปอร์
ข้อกำหนด
คำนวณ	GPU: 132 Hopper SMs CPU: 72 แกนNeoverse V2
อัตราความเร็วสัญญาณนาฬิกาของเชเดอร์	1980 เมกะเฮิร์ตซ์
การสนับสนุนหน่วยความจำ	GPU: 96 GB HBM3 หรือ 144 GB HBM3e CPU: 480 GB LPDDR5X

ฮอปเปอร์
เปิดตัว	20 กันยายน 2022
ออกแบบโดย	เอ็นดีวีดี
ผลิตโดย	ทีเอสเอ็มซี;
กระบวนการผลิต	ทีเอสเอ็มซีเอ็น4
ชุดผลิตภัณฑ์
เซิร์ฟเวอร์/ศูนย์ข้อมูล	เทสลาเอช ซีรีส์;
ข้อกำหนด
แคช L1	256 KB (ต่อ SM)
แคช L2	50 MB
การสนับสนุนหน่วยความจำ	เอชบีเอ็ม3
รองรับPCIe	PCI Express 5.0
เครื่องมือสื่อ
รองรับตัวเข้ารหัส	เอ็นเวนซี
ประวัติศาสตร์
ผู้มาก่อน	แอมแปร์
ตัวแปร	เอดา โลฟเลซ (ผู้บริโภคและผู้เชี่ยวชาญ)
ผู้สืบทอด	แบล็กเวลล์

Hopperเป็นสถาปัตยกรรมไมโคร ของหน่วยประมวลผลกราฟิก (GPU) ที่พัฒนาโดยNvidiaออกแบบมาสำหรับศูนย์ข้อมูลและใช้งานควบคู่กับสถาปัตยกรรมไมโคร Lovelace

สถาปัตยกรรม Hopper ซึ่งตั้งชื่อตาม เกรซ ฮอปเปอร์นักวิทยาศาสตร์คอมพิวเตอร์และพลเรือตรี แห่งกองทัพเรือสหรัฐฯ ถูกเปิดเผยข้อมูลรั่วไหลในเดือนพฤศจิกายน 2019 และเปิดตัวอย่างเป็นทางการในเดือนมีนาคม 2022 โดยพัฒนาต่อยอดจากสถาปัตยกรรมไมโคร TuringและAmpere รุ่นก่อนหน้า ด้วยคุณสมบัติใหม่ เช่นหน่วยประมวลผลแบบสตรีมมิ่งระบบหน่วยความจำที่เร็วขึ้น และกลไกเร่งความเร็วแบบ Transformer

สถาปัตยกรรม

GPU Nvidia Hopper H100 ถูกสร้างขึ้นโดยใช้ กระบวนการ TSMC N4 ที่มีทรานซิสเตอร์ 80 พันล้านตัว ประกอบด้วยมัลติโปรเซสเซอร์แบบสตรีมมิ่ง สูงสุด 144 ตัว^{[ 1 ]}เนื่องจากแบนด์วิดท์หน่วยความจำที่เพิ่มขึ้นจาก ซ็อกเก็ต SXM5ทำให้ Nvidia Hopper H100 มีประสิทธิภาพที่ดีกว่าเมื่อใช้ในการกำหนดค่า SXM5 มากกว่าในซ็อกเก็ต PCIe ทั่วไป^{[ 2 ]}

สตรีมมิ่งมัลติโปรเซสเซอร์

มัลติโปรเซสเซอร์แบบสตรีมมิ่งสำหรับ Hopper ปรับปรุง สถาปัตยกรรมไมโคร TuringและAmpereแม้ว่าจำนวน warps พร้อมกันสูงสุดต่อมัลติโปรเซสเซอร์แบบสตรีมมิ่ง (SM) จะยังคงเท่ากันระหว่างสถาปัตยกรรม Ampere และ Hopper คือ 64 ^{[ 3 ]}สถาปัตยกรรม Hopper มี Tensor Memory Accelerator (TMA) ซึ่งรองรับการถ่ายโอนหน่วยความจำแบบอะซิงโครนัสสองทิศทางระหว่างหน่วยความจำที่ใช้ร่วมกันและหน่วยความจำส่วนกลาง^{[ 4 ]}ภายใต้ TMA แอปพลิเคชันสามารถถ่ายโอนเทนเซอร์ได้ถึง 5 มิติ เมื่อเขียนจากหน่วยความจำที่ใช้ร่วมกันไปยังหน่วยความจำส่วนกลาง สามารถใช้การลดแบบองค์ประกอบและการดำเนินการแบบบิตได้ หลีกเลี่ยงรีจิสเตอร์และคำสั่ง SM ในขณะที่ช่วยให้ผู้ใช้สามารถเขียนโค้ดเฉพาะ warp ได้ TMA ถูกเปิดเผยcuda::memcpy_asyncผ่าน^{[ 5 ]}

เมื่อทำการประมวลผลแอปพลิเคชันแบบขนาน นักพัฒนาสามารถใช้ คลัสเตอร์ บล็อกเธรดได้ บล็อกเธรดอาจดำเนินการอะตอมิกในหน่วยความจำที่ใช้ร่วมกันของบล็อกเธรดอื่นภายในคลัสเตอร์ หรือที่เรียกว่าหน่วยความจำที่ใช้ร่วมกันแบบกระจายหน่วยความจำที่ใช้ร่วมกันแบบกระจายอาจถูกใช้โดย SM พร้อมกับแคช L2 พร้อมกัน เมื่อใช้ในการสื่อสารข้อมูลระหว่าง SM จะสามารถใช้แบนด์วิดท์รวมของหน่วยความจำที่ใช้ร่วมกันแบบกระจายและ L2 ได้ ขนาดคลัสเตอร์แบบพกพาสูงสุดคือ 8 แม้ว่า Nvidia Hopper H100 จะรองรับขนาดคลัสเตอร์ 16 ได้โดยใช้cudaFuncAttributeNonPortableClusterSizeAllowedฟังก์ชัน ซึ่งอาจต้องแลกมาด้วยจำนวนบล็อกที่ใช้งานอยู่ลดลง^{[ 6 ]}ด้วยการมัลติแคสติ้ง L2 และหน่วยความจำที่ใช้ร่วมกันแบบกระจาย แบนด์วิดท์ที่จำเป็นสำหรับ การอ่านและเขียน หน่วยความจำเข้าถึงแบบสุ่มไดนามิกจะลดลง^{[ 7 ]}

Hopper มีคุณสมบัติในการปรับปรุงประสิทธิภาพ การประมวลผล รูปแบบจุดลอยตัวความแม่นยำเดี่ยว (FP32) โดยมีจำนวนการดำเนินการ FP32 ต่อรอบต่อ SM มากกว่ารุ่นก่อนหน้าถึงสองเท่า นอกจากนี้ สถาปัตยกรรม Hopper ยังเพิ่มการรองรับคำสั่งใหม่ๆ รวมถึงอัลกอริทึม Smith–Waterman [ ^{6 ] เช่น}เดียวกับ Ampere รองรับการคำนวณเลขคณิต TensorFloat-32 (TF-32) รูปแบบการแมปสำหรับสถาปัตยกรรมทั้งสองเหมือนกัน^{[ 8 ]}

หน่วยความจำ

Nvidia Hopper H100 รองรับ หน่วยความจำ HBM3และHBM2eสูงสุด 80 GB; ระบบหน่วยความจำ HBM3 รองรับความเร็ว 3 TB/s ซึ่งเพิ่มขึ้น 50% จาก 2 TB/s ของ Nvidia Ampere A100 ความจุและแบนด์วิดท์ของแคช L2 เพิ่มขึ้นทั่วทั้งสถาปัตยกรรม^{[ 9 ]}

Hopper อนุญาตให้เคอร์เนลการคำนวณ CUDA ใช้การบีบอัดแบบอินไลน์อัตโนมัติ รวมถึงในการจัดสรรหน่วยความจำแต่ละรายการ ซึ่งช่วยให้เข้าถึงหน่วยความจำด้วยแบนด์วิดท์ที่สูงขึ้น คุณสมบัตินี้ไม่ได้เพิ่มปริมาณหน่วยความจำที่มีให้แอปพลิเคชัน เนื่องจากข้อมูล (และด้วยเหตุนี้ความสามารถในการบีบอัด ) อาจเปลี่ยนแปลงได้ตลอดเวลา ตัวบีบอัดจะเลือกอัลกอริทึมการบีบอัดหลายแบบโดยอัตโนมัติ^[⁹^]

Nvidia Hopper H100 เพิ่มความจุของแคช L1, แคชพื้นผิว และหน่วยความจำที่ใช้ร่วมกันรวมกันเป็น 256 KB เช่นเดียวกับรุ่นก่อนหน้า โดยจะรวมแคช L1 และแคชพื้นผิวเข้าไว้ในแคชเดียวที่ออกแบบมาเพื่อเป็นบัฟเฟอร์แบบรวม คุณสมบัตินี้cudaFuncAttributePreferredSharedMemoryCarveoutอาจใช้เพื่อกำหนดการแบ่งส่วนของแคช L1 Hopper นำเสนอการปรับปรุงNVLinkผ่านรุ่นใหม่ที่มีแบนด์วิดธ์การสื่อสารโดยรวมที่เร็วขึ้น^{[ 10 ]}

โดเมนการซิงโครไนซ์หน่วยความจำ

แอปพลิเคชัน CUDA บางตัวอาจประสบปัญหาการรบกวนเมื่อทำการดำเนินการ fence หรือ flush เนื่องจากการเรียงลำดับหน่วยความจำ เนื่องจาก GPU ไม่สามารถทราบได้ว่าการเขียนใดรับประกันได้และการเขียนใดมองเห็นได้โดยบังเอิญ จึงอาจรอการดำเนินการหน่วยความจำที่ไม่จำเป็น ทำให้การดำเนินการ fence หรือ flush ช้าลง ตัวอย่างเช่น เมื่อเคอร์เนลทำการคำนวณในหน่วยความจำ GPU และเคอร์เนลแบบขนานทำการสื่อสารกับคู่ค้า เคอร์เนลภายในจะทำการ flush การเขียน ส่งผลให้การเขียน NVLink หรือPCIe ช้าลง ในสถาปัตยกรรม Hopper GPU สามารถลดปริมาณข้อมูลสุทธิผ่านการดำเนินการ fence ได้^{[ 11 ]}

คำแนะนำ DPX

สถาปัตยกรรม Hopper อินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน ทางคณิตศาสตร์ (API) เปิดเผยฟังก์ชันใน SM เช่น__viaddmin_s16x2_reluซึ่งดำเนินการต่อครึ่งคำ ในอัลกอริทึม Smith–Waterman สามารถใช้ค่าต่ำสุดหรือสูงสุดสามทางตามด้วยการจำกัดให้เป็นศูนย์^[¹²^]ในทำนองเดียวกัน Hopper ช่วยเร่งความเร็วในการใช้ งาน อัลกอริทึม Needleman–Wunsch ^[¹³^] ${\textrm {max}}({\textrm {min}}(a+b,c),0)$ __vimax3_s16x2_relu

เครื่องยนต์ทรานส์ฟอร์เมอร์

สถาปัตยกรรม Hopper เป็นสถาปัตยกรรม Nvidia แรกที่ใช้เอนจิน Transformer ^{[ 14 ]}เอนจิน Transformer ช่วยเร่งการคำนวณโดยการลดความแม่นยำเชิงตัวเลขที่สูงกว่า (เช่น FP16) ลงเป็นความแม่นยำที่ต่ำกว่าซึ่งทำงานได้เร็วกว่า (เช่น FP8) เมื่อการสูญเสียความแม่นยำนั้นถือว่ายอมรับได้^{[ 14 ]}เอนจิน Transformer ยังสามารถจัดสรรบิตในความแม่นยำที่เลือกให้กับแมนทิสซาหรือเลขชี้กำลังได้แบบไดนามิกในระหว่างการทำงานเพื่อเพิ่มความแม่นยำสูงสุด^{[ 5 ]}

ประสิทธิภาพการใช้พลังงาน

ฟอร์มแฟคเตอร์ SXM5 H100 มีกำลังการออกแบบความร้อน (TDP) 700 วัตต์ในส่วนของความไม่สอดคล้องกัน สถาปัตยกรรม Hopper อาจบรรลุระดับการใช้งานที่สูงขึ้น และอาจมีประสิทธิภาพต่อวัตต์ที่ดีกว่า^{[ 15 ]}

เกรซ ฮอปเปอร์

GH200 รวม GPU H100 ที่ใช้ Hopper เข้ากับ CPU 72 คอร์ที่ใช้ Grace ในโมดูลเดียว การใช้พลังงานรวมของโมดูลสูงถึง 1000 วัตต์ CPU และ GPU เชื่อมต่อกันผ่าน NVLink ซึ่งให้ความสอดคล้องของหน่วยความจำระหว่างหน่วยความจำ CPU และ GPU ^{[ 16 ]}

ประวัติศาสตร์

ในเดือนพฤศจิกายน พ.ศ. 2562 บัญชี ทวิตเตอร์ชื่อดังได้โพสต์ทวีตเปิดเผยว่าสถาปัตยกรรมรุ่นถัดไปหลังจากAmpereจะเรียกว่า Hopper ซึ่งตั้งชื่อตามนักวิทยาศาสตร์คอมพิวเตอร์และพลเรือตรีหญิง แห่ง กองทัพเรือสหรัฐฯ เกรซ ฮอปเปอร์หนึ่งในโปรแกรมเมอร์คนแรกของHarvard Mark Iบัญชีดังกล่าวระบุว่า Hopper จะใช้ การออกแบบ โมดูลหลายชิปซึ่งจะส่งผลให้ผลผลิตเพิ่มขึ้นโดยมีการสูญเสียน้อยลง^{[ 17 ]}

ในระหว่างงาน Nvidia GTCเดือนมีนาคม 2022 Nvidia ได้ประกาศเปิดตัว Hopper ^{[ 18 ]}

ในช่วงปลายปี 2022 เนื่องจากข้อกำหนดของสหรัฐฯที่จำกัดการส่งออกชิปไปยังสาธารณรัฐประชาชนจีน Nvidia จึงปรับชิป H100 ให้เข้ากับตลาดจีนด้วยรุ่น H800 ซึ่งมีแบนด์วิดท์ต่ำกว่ารุ่น H100 เดิม^{[ 19 ]}^{[ 20 ]}ในช่วงปลายปี 2023 รัฐบาลสหรัฐฯ ประกาศข้อจำกัดใหม่เกี่ยวกับการส่งออกชิป AI ไปยังจีน ซึ่งรวมถึง รุ่น A800และ H800 ^{[ 21 ]}ทำให้ Nvidia ต้องสร้างชิปอีกตัวหนึ่งโดยใช้สถาปัตยกรรมไมโคร Hopper คือ H20 ซึ่งเป็นรุ่นดัดแปลงของ H100 โดย H20 กลายเป็นชิปที่โดดเด่นที่สุดในตลาดจีนในปี 2025 ^{[ 22 ]}

ในปี 2023 ในช่วงที่AI กำลังเฟื่องฟู H100 เป็นที่ต้องการอย่างมากLarry EllisonจากOracle Corporationกล่าวในปีนั้นว่า ในงานเลี้ยงอาหารค่ำกับJensen Huang ซีอีโอของ Nvidia เขาและElon MuskจากTesla, Inc.และxAI "ต่างก็ขอร้อง" ให้ได้ H100 มา "ผมคิดว่านั่นเป็นวิธีที่ดีที่สุดที่จะอธิบายได้ การกินซูชิเป็นชั่วโมงแล้วก็ขอร้อง" ^{[ 23 ]}

ในเดือนมกราคม 2024 นักวิเคราะห์ ของ Raymond James Financialประเมินว่า Nvidia ขาย GPU H100 ในช่วงราคา 25,000 ถึง 30,000 ดอลลาร์ต่อชิ้น ในขณะที่บน eBay นั้น H100 แต่ละชิ้นมีราคาสูงกว่า 40,000 ดอลลาร์^{[ 24 ]}ณ เดือนกุมภาพันธ์ 2024 มีรายงานว่า Nvidia กำลังจัดส่ง GPU H100 ไปยังศูนย์ข้อมูลโดยใช้รถหุ้มเกราะ^{[ 25 ]}

ตัวเร่งปฏิกิริยา H100 และ DGX H100

เริ่มต้นจาก P100 ^{[ 26 ]}^{[ 27 ]}^{[ 28 ]}ไปจนถึง V100 ^{[ 29 ]}ไปจนถึง A100 ^{[ 30 ]}ไปจนถึง H100 ^{[ 31 ]}ไปจนถึง B200 ^{[ 32 ]}^{[ 33 ]}และไปจนถึง R100 ^{[ 34 ]}การเปรียบเทียบเครื่องเร่งอนุภาคที่ใช้ใน DGX:

ทั่วไปและสถาปัตยกรรม

แบบอย่าง	สถาปัตยกรรม	ซ็อกเก็ต	จีพี	กระบวนการผลิต	จำนวนทรานซิสเตอร์ (พันล้าน)	ขนาดแม่พิมพ์ (มม. ^² )	เปิดตัว
พี100	ปาสคาล	SXM/SXM2	จีพี100	TSMC 16FF+	15.3	610	ไตรมาสที่ 2 ปี 2559
V100 16GB	โวลต้า	SXM2	จีวี100	ทีเอสเอ็มซี 12เอฟเอ็น	21.1	815	ไตรมาสที่ 3 ปี 2560
V100 32GB	โวลต้า	SXM3	จีวี100	ทีเอสเอ็มซี 12เอฟเอ็น	21.1	815	ไตรมาสที่ 3 ปี 2560
A100 40GB	แอมแปร์	SXM4	GA100	ทีเอสเอ็มซีเอ็น7	54.2	826	ไตรมาสที่ 1 ปี 2020
A100 80GB	แอมแปร์	SXM4	GA100	ทีเอสเอ็มซีเอ็น7	54.2	826	ไตรมาสที่ 4 ปี 2020
เอช100	ฮอปเปอร์	SXM5	GH100	ทีเอสเอ็มซี 4เอ็น	80	814	ไตรมาสที่ 3 ปี 2022
เอช200	ฮอปเปอร์	SXM5	GH100	ทีเอสเอ็มซี 4เอ็น	80	814	ไตรมาสที่ 3 ปี 2023
บี100	แบล็กเวลล์	SXM6	จีบี100	ทีเอสเอ็มซี 4เอ็นพี	208	ไม่มีข้อมูล	ไตรมาสที่ 4 ปี 2024
บี200	แบล็กเวลล์	SXM6	จีบี100	ทีเอสเอ็มซี 4เอ็นพี	208	ไม่มีข้อมูล	ไตรมาสที่ 4 ปี 2024
100 แรนด์	รูบิน	SXM7	ไม่มีข้อมูล	ทีเอสเอ็มซี 3เอ็น	338	ไม่มีข้อมูล	ครึ่งหลังของปี 2026

คอร์, นาฬิกา และพลังงาน

แบบอย่าง	นาฬิกาเร่งความเร็ว (เมกะเฮิร์ตซ์)	#SM	แกนกลาง (FP32 CUDA)	แกนกลาง (FP64 ไม่รวมเทนเซอร์)	แกนกลาง (ผสม INT32/FP32)	แกนกลาง (INT32)	ทีดีพี (W)
พี100	1480	56	3584	ค.ศ. 1792	ไม่มีข้อมูล	ไม่มีข้อมูล	300
V100 16GB	1530	80	5120	2560	ไม่มีข้อมูล	5120	300
V100 32GB	1530	80	5120	2560	ไม่มีข้อมูล	5120	350
A100 40GB	1410	108	6912	3456	6912	ไม่มีข้อมูล	400
A100 80GB	1410	108	6912	3456	6912	ไม่มีข้อมูล	400
เอช100	1980	132	16896	4608	16896	ไม่มีข้อมูล	700
เอช200	1980	132	16896	4608	16896	ไม่มีข้อมูล	1000
บี100	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	700
บี200	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	1000
100 แรนด์	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	2300

หน่วยความจำและแคช

แบบอย่าง	ประเภทหน่วยความจำ (เอชบีเอ็ม)	ขนาด VRAM (สหราชอาณาจักร)	ความเร็วหน่วยความจำ (กิกะไบต์/วินาที)	ความกว้างของรถบัส (บิต)	แบนด์วิดท์ (TB/s)	แคช L1 ต่อ SM (KB)	แคช L1 รวม (KB)	แคช L2 (KB)
พี100	เอชบีเอ็ม2	16	1.4	4096	0.72	24	1344	4096
V100 16GB	เอชบีเอ็ม2	16	1.75	4096	0.9	128	10240	6144
V100 32GB	เอชบีเอ็ม2	32	1.75	4096	0.9	128	10240	6144
A100 40GB	เอชบีเอ็ม2	40	2.4	5120	1.52	192	20736	40960
A100 80GB	HBM2e	80	3.2	5120	1.52	192	20736	40960
เอช100	เอชบีเอ็ม3	80	5.2	5120	3.35	192	25344	51200
เอช200	HBM3e	141	6.3	6144	4.8	192	25344	51200
บี100	HBM3e	192	8	8192	8	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล
บี200	HBM3e	192	8	8192	8	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล
100 แรนด์	เอชบีเอ็ม4	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล

ประสิทธิภาพการประมวลผล การเชื่อมต่อ และเครือข่าย

แบบอย่าง	เอฟพี32 (TFLOPS)	เอฟพี64 (TFLOPS)	อินที8 เทนเซอร์หนาแน่น	FP16 เทนเซอร์หนาแน่น	บฟลัต16 เทนเซอร์หนาแน่น	เอฟเอฟ32 เทนเซอร์หนาแน่น	เอฟพี64 เทนเซอร์หนาแน่น	การเชื่อมต่อ (NVLink; เทราไบต์/วินาที)	การสร้างเครือข่าย
พี100	10.6	5.3	ไม่มีข้อมูล	21.2	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	0.16	คอนเน็กต์เอ็กซ์-4 (100 กิกะไบต์/วินาที)
V100 16GB	15.7	7.8	ไม่มีข้อมูล	125 TFLOPS	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	0.3	คอนเน็กต์เอ็กซ์-5 (100 กิกะไบต์/วินาที)
V100 32GB	15.7	7.8	ไม่มีข้อมูล	125 TFLOPS	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	0.3	คอนเน็กต์เอ็กซ์-5 (100 กิกะไบต์/วินาที)
A100 40GB	19.5	9.7	624 ท็อปส์	312 TFLOPS	312 TFLOPS	156 TFLOPS	19.5 TFLOPS	0.6	คอนเน็กต์เอ็กซ์-6 (200 กิกะไบต์/วินาที)
A100 80GB	19.5	9.7	624 ท็อปส์	312 TFLOPS	312 TFLOPS	156 TFLOPS	19.5 TFLOPS	0.6	คอนเน็กต์เอ็กซ์-6 (200 กิกะไบต์/วินาที)
เอช100	67	34	1.98 ป๊อปส์	990 TFLOPS	990 TFLOPS	495 TFLOPS	67 TFLOPS	0.9	คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที)
เอช200	67	34	1.98 ป๊อปส์	990 TFLOPS	990 TFLOPS	495 TFLOPS	67 TFLOPS	0.9	คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที)
บี100	ไม่มีข้อมูล	ไม่มีข้อมูล	3.5 ป๊อปส์	1.98 PFLOPS	1.98 PFLOPS	989 TFLOPS	30 TFLOPS	1.8	คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที)
บี200	ไม่มีข้อมูล	ไม่มีข้อมูล	4.5 ป๊อปส์	2.25 ฟล็อปส์	2.25 ฟล็อปส์	1.2 พีแอลโอปส์	40 ทฟล็อปส์	1.8	คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที)
100 แรนด์	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	คอนเน็กต์เอ็กซ์-9 (1600 กิกะไบต์/วินาที)

การควบคุมการส่งออกและประเด็นการค้าระหว่างประเทศ

ในช่วงต้นปี 2026 ตัวเร่งความเร็ว AI H200 ที่ใช้ชิป Hopper ของ Nvidia กลายเป็นประเด็นสำคัญในข้อพิพาททางการค้าระหว่างประเทศที่เกี่ยวข้องกับนโยบายการส่งออกของสหรัฐฯ และการควบคุมการนำเข้าของจีน แม้ว่ารัฐบาลสหรัฐฯ จะอนุมัติการส่งออกชิป H200 ไปยังจีนในวงจำกัดภายใต้เงื่อนไขด้านความปลอดภัยที่เฉพาะเจาะจง แต่รายงานระบุว่าเจ้าหน้าที่ศุลกากรจีนได้สกัดกั้นการขนส่งโปรเซสเซอร์เข้าประเทศ แม้ว่าจะได้รับการอนุมัติจากสหรัฐฯ แล้วก็ตาม ทำให้ซัพพลายเออร์ต้องหยุดการผลิตชิ้นส่วน H200 ท่ามกลางความไม่แน่นอนเกี่ยวกับการปิดกั้นการนำเข้า มีรายงานว่าทางการจีนได้สั่งให้บริษัทในประเทศงดการซื้อชิปเว้นแต่จำเป็น แม้ว่าจะไม่มีการประกาศห้ามอย่างเป็นทางการต่อสาธารณะ และสถานะระยะยาวของข้อจำกัดยังคงไม่ชัดเจน สถานการณ์ดังกล่าวเน้นย้ำถึงความอ่อนไหวทางภูมิรัฐศาสตร์ที่เกี่ยวข้องกับการส่งออกฮาร์ดแวร์ AI ขั้นสูง และการทำงานร่วมกันที่ซับซ้อนระหว่างกฎระเบียบการส่งออกของสหรัฐฯ และนโยบายการนำเข้าของจีน^{[ 35 ]}

ในเดือนพฤษภาคม พ.ศ. 2569 การควบคุมการส่งออกโปรเซสเซอร์ Nvidia H200 ของรัฐบาลสหรัฐฯ กลายเป็นประเด็นสำคัญในการหารือระหว่างการเยือนจีนอย่างเป็นทางการของประธานาธิบดีโดนัลด์ ทรัมป์สหรัฐฯ อนุญาตให้บริษัทจีน 10 แห่ง รวมถึงAlibaba Group , Tencent , ByteDanceและJD.comและผู้จัดจำหน่าย เช่นLenovoและFoxconnซื้อชิป NVIDIA H200 ได้^{[ 36 ]}

อ่านเพิ่มเติม

Choquette, Jack (พฤษภาคม 2023). "NVIDIA Hopper H100 GPU: การปรับขนาดประสิทธิภาพ" . IEEE Micro . 43 (3): 9– 17. doi : 10.1109/MM.2023.3256796 . S2CID 257544490 . สืบค้นเมื่อ29 พฤษภาคม 2023 .
มัวร์, ซามูเอล (8 เมษายน 2022). "GPU รุ่นต่อไปของ Nvidia แสดงให้เห็นว่า Transformer กำลังเปลี่ยนแปลง AI" . IEEE Spectrum . สืบค้นเมื่อ29 พฤษภาคม 2023 .
มอร์แกน, ทิโมธี (31 มีนาคม 2022). "เจาะลึกสถาปัตยกรรม GPU "Hopper" ของ Nvidia" . The Next Platform . สืบค้นเมื่อ29 พฤษภาคม 2023 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[

[

[ 15 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 32 ]

[ 33 ]

[ 35 ]

[ 36 ]

ชุดผลิตภัณฑ์
เปิดตัว	20 กันยายน 2022 ( 2022-09-20 )
ออกแบบโดย	เอ็นดีวีดี
ผลิตโดย	ทีเอสเอ็มซี
กระบวนการผลิต	ทีเอสเอ็มซีเอ็น4
เซิร์ฟเวอร์/ศูนย์ข้อมูล	เทสลาเอช ซีรีส์
ข้อกำหนด
แคช L1	256 KB (ต่อ SM)
แคช L2	50 MB
การสนับสนุนหน่วยความจำ	เอชบีเอ็ม3
รองรับPCIe	PCI Express 5.0
เครื่องมือสื่อ
รองรับตัวเข้ารหัส	เอ็นเวนซี
ประวัติศาสตร์
ผู้มาก่อน	แอมแปร์
ตัวแปร	เอดา โลฟเลซ (ผู้บริโภคและผู้เชี่ยวชาญ)
ผู้สืบทอด	แบล็กเวลล์