อ่าน 8 นาที
ฮอปเปอร์ (สถาปัตยกรรมระดับไมโคร)
Hopper เป็น สถาปัตยกรรมไมโคร ของหน่วยประมวลผลกราฟิก (GPU) ที่พัฒนาโดย Nvidia ออกแบบมาสำหรับศูนย์ข้อมูลและใช้งานควบคู่กับสถาปัตยกรรมไมโคร Lovelace
ฮอปเปอร์ (สถาปัตยกรรมระดับไมโคร)
| เปิดตัว | 20 กันยายน 2022 |
|---|---|
| ออกแบบโดย | เอ็นดีวีดี |
| ผลิตโดย | |
| กระบวนการผลิต | ทีเอสเอ็มซีเอ็น4 |
| ชุดผลิตภัณฑ์ | |
| เซิร์ฟเวอร์/ศูนย์ข้อมูล |
|
| ข้อกำหนด | |
| แคช L1 | 256 KB (ต่อ SM) |
| แคช L2 | 50 MB |
| การสนับสนุนหน่วยความจำ | เอชบีเอ็ม3 |
| รองรับPCIe | PCI Express 5.0 |
| เครื่องมือสื่อ | |
| รองรับตัวเข้ารหัส | เอ็นเวนซี |
| ประวัติศาสตร์ | |
| ผู้มาก่อน | แอมแปร์ |
| ตัวแปร | เอดา โลฟเลซ (ผู้บริโภคและผู้เชี่ยวชาญ) |
| ผู้สืบทอด | แบล็กเวลล์ |

Hopperเป็นสถาปัตยกรรมไมโครของหน่วยประมวลผลกราฟิก (GPU) ที่พัฒนาโดยNvidiaออกแบบมาสำหรับศูนย์ข้อมูลและใช้งานควบคู่กับสถาปัตยกรรมไมโคร Lovelace
สถาปัตยกรรม Hopper ซึ่งตั้งชื่อตาม เกรซ ฮอปเปอร์นักวิทยาศาสตร์คอมพิวเตอร์และพลเรือตรีแห่งกองทัพเรือสหรัฐฯ ถูกเปิดเผยข้อมูลรั่วไหลในเดือนพฤศจิกายน 2019 และเปิดตัวอย่างเป็นทางการในเดือนมีนาคม 2022 โดยพัฒนาต่อยอดจากสถาปัตยกรรมไมโคร TuringและAmpere รุ่นก่อนหน้า ด้วยคุณสมบัติใหม่ เช่นหน่วยประมวลผลแบบสตรีมมิ่งระบบหน่วยความจำที่เร็วขึ้น และกลไกเร่งความเร็วแบบ Transformer
สถาปัตยกรรม
GPU Nvidia Hopper H100 ถูกสร้างขึ้นโดยใช้ กระบวนการ TSMC N4 ที่มีทรานซิสเตอร์ 80 พันล้านตัว ประกอบด้วยมัลติโปรเซสเซอร์แบบสตรีมมิ่ง สูงสุด 144 ตัว[ 1 ]เนื่องจากแบนด์วิดท์หน่วยความจำที่เพิ่มขึ้นจาก ซ็อกเก็ต SXM5ทำให้ Nvidia Hopper H100 มีประสิทธิภาพที่ดีกว่าเมื่อใช้ในการกำหนดค่า SXM5 มากกว่าในซ็อกเก็ต PCIe ทั่วไป[ 2 ]
สตรีมมิ่งมัลติโปรเซสเซอร์
มัลติโปรเซสเซอร์แบบสตรีมมิ่งสำหรับ Hopper ปรับปรุง สถาปัตยกรรมไมโคร TuringและAmpereแม้ว่าจำนวน warps พร้อมกันสูงสุดต่อมัลติโปรเซสเซอร์แบบสตรีมมิ่ง (SM) จะยังคงเท่ากันระหว่างสถาปัตยกรรม Ampere และ Hopper คือ 64 [ 3 ]สถาปัตยกรรม Hopper มี Tensor Memory Accelerator (TMA) ซึ่งรองรับการถ่ายโอนหน่วยความจำแบบอะซิงโครนัสสองทิศทางระหว่างหน่วยความจำที่ใช้ร่วมกันและหน่วยความจำส่วนกลาง[ 4 ]ภายใต้ TMA แอปพลิเคชันสามารถถ่ายโอนเทนเซอร์ได้ถึง 5 มิติ เมื่อเขียนจากหน่วยความจำที่ใช้ร่วมกันไปยังหน่วยความจำส่วนกลาง สามารถใช้การลดแบบองค์ประกอบและการดำเนินการแบบบิตได้ หลีกเลี่ยงรีจิสเตอร์และคำสั่ง SM ในขณะที่ช่วยให้ผู้ใช้สามารถเขียนโค้ดเฉพาะ warp ได้ TMA ถูกเปิดเผยcuda::memcpy_asyncผ่าน[ 5 ]
เมื่อทำการประมวลผลแอปพลิเคชันแบบขนาน นักพัฒนาสามารถใช้ คลัสเตอร์ บล็อกเธรดได้ บล็อกเธรดอาจดำเนินการอะตอมิกในหน่วยความจำที่ใช้ร่วมกันของบล็อกเธรดอื่นภายในคลัสเตอร์ หรือที่เรียกว่าหน่วยความจำที่ใช้ร่วมกันแบบกระจายหน่วยความจำที่ใช้ร่วมกันแบบกระจายอาจถูกใช้โดย SM พร้อมกับแคช L2 พร้อมกัน เมื่อใช้ในการสื่อสารข้อมูลระหว่าง SM จะสามารถใช้แบนด์วิดท์รวมของหน่วยความจำที่ใช้ร่วมกันแบบกระจายและ L2 ได้ ขนาดคลัสเตอร์แบบพกพาสูงสุดคือ 8 แม้ว่า Nvidia Hopper H100 จะรองรับขนาดคลัสเตอร์ 16 ได้โดยใช้cudaFuncAttributeNonPortableClusterSizeAllowedฟังก์ชัน ซึ่งอาจต้องแลกมาด้วยจำนวนบล็อกที่ใช้งานอยู่ลดลง[ 6 ]ด้วยการมัลติแคสติ้ง L2 และหน่วยความจำที่ใช้ร่วมกันแบบกระจาย แบนด์วิดท์ที่จำเป็นสำหรับ การอ่านและเขียน หน่วยความจำเข้าถึงแบบสุ่มไดนามิกจะลดลง[ 7 ]
Hopper มีคุณสมบัติในการปรับปรุงประสิทธิภาพ การประมวลผล รูปแบบจุดลอยตัวความแม่นยำเดี่ยว (FP32) โดยมีจำนวนการดำเนินการ FP32 ต่อรอบต่อ SM มากกว่ารุ่นก่อนหน้าถึงสองเท่า นอกจากนี้ สถาปัตยกรรม Hopper ยังเพิ่มการรองรับคำสั่งใหม่ๆ รวมถึงอัลกอริทึม Smith–Waterman [ 6 ] เช่นเดียวกับ Ampere รองรับการคำนวณเลขคณิต TensorFloat-32 (TF-32) รูปแบบการแมปสำหรับสถาปัตยกรรมทั้งสองเหมือนกัน[ 8 ]
หน่วยความจำ
Nvidia Hopper H100 รองรับ หน่วยความจำ HBM3และHBM2eสูงสุด 80 GB; ระบบหน่วยความจำ HBM3 รองรับความเร็ว 3 TB/s ซึ่งเพิ่มขึ้น 50% จาก 2 TB/s ของ Nvidia Ampere A100 ความจุและแบนด์วิดท์ของแคช L2 เพิ่มขึ้นทั่วทั้งสถาปัตยกรรม[ 9 ]
Hopper อนุญาตให้เคอร์เนลการคำนวณCUDA ใช้การบีบอัดแบบอินไลน์อัตโนมัติ รวมถึงในการจัดสรรหน่วยความจำแต่ละรายการ ซึ่งช่วยให้เข้าถึงหน่วยความจำด้วยแบนด์วิดท์ที่สูงขึ้น คุณสมบัตินี้ไม่ได้เพิ่มปริมาณหน่วยความจำที่มีให้แอปพลิเคชัน เนื่องจากข้อมูล (และด้วยเหตุนี้ความสามารถในการบีบอัด ) อาจเปลี่ยนแปลงได้ตลอดเวลา ตัวบีบอัดจะเลือกอัลกอริทึมการบีบอัดหลายแบบโดยอัตโนมัติ[ 9 ]
Nvidia Hopper H100 เพิ่มความจุของแคช L1, แคชพื้นผิว และหน่วยความจำที่ใช้ร่วมกันรวมกันเป็น 256 KB เช่นเดียวกับรุ่นก่อนหน้า โดยจะรวมแคช L1 และแคชพื้นผิวเข้าไว้ในแคชเดียวที่ออกแบบมาเพื่อเป็นบัฟเฟอร์แบบรวม คุณสมบัตินี้cudaFuncAttributePreferredSharedMemoryCarveoutอาจใช้เพื่อกำหนดการแบ่งส่วนของแคช L1 Hopper นำเสนอการปรับปรุงNVLinkผ่านรุ่นใหม่ที่มีแบนด์วิดธ์การสื่อสารโดยรวมที่เร็วขึ้น[ 10 ]
โดเมนการซิงโครไนซ์หน่วยความจำ
แอปพลิเคชัน CUDA บางตัวอาจประสบปัญหาการรบกวนเมื่อทำการดำเนินการ fence หรือ flush เนื่องจากการเรียงลำดับหน่วยความจำ เนื่องจาก GPU ไม่สามารถทราบได้ว่าการเขียนใดรับประกันได้และการเขียนใดมองเห็นได้โดยบังเอิญ จึงอาจรอการดำเนินการหน่วยความจำที่ไม่จำเป็น ทำให้การดำเนินการ fence หรือ flush ช้าลง ตัวอย่างเช่น เมื่อเคอร์เนลทำการคำนวณในหน่วยความจำ GPU และเคอร์เนลแบบขนานทำการสื่อสารกับคู่ค้า เคอร์เนลภายในจะทำการ flush การเขียน ส่งผลให้การเขียน NVLink หรือPCIe ช้าลง ในสถาปัตยกรรม Hopper GPU สามารถลดปริมาณข้อมูลสุทธิผ่านการดำเนินการ fence ได้[ 11 ]
คำแนะนำ DPX
สถาปัตยกรรม Hopper อินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน ทางคณิตศาสตร์ (API) เปิดเผยฟังก์ชันใน SM เช่น__viaddmin_s16x2_reluซึ่งดำเนินการต่อครึ่งคำ ในอัลกอริทึม Smith–Waterman สามารถใช้ค่าต่ำสุดหรือสูงสุดสามทางตามด้วยการจำกัดให้เป็นศูนย์[ 12 ]ในทำนองเดียวกัน Hopper ช่วยเร่งความเร็วในการใช้ งาน อัลกอริทึม Needleman–Wunsch [ 13 ]__vimax3_s16x2_relu
เครื่องยนต์ทรานส์ฟอร์เมอร์
สถาปัตยกรรม Hopper เป็นสถาปัตยกรรม Nvidia แรกที่ใช้เอนจิน Transformer [ 14 ]เอนจิน Transformer ช่วยเร่งการคำนวณโดยการลดความแม่นยำเชิงตัวเลขที่สูงกว่า (เช่น FP16) ลงเป็นความแม่นยำที่ต่ำกว่าซึ่งทำงานได้เร็วกว่า (เช่น FP8) เมื่อการสูญเสียความแม่นยำนั้นถือว่ายอมรับได้[ 14 ]เอนจิน Transformer ยังสามารถจัดสรรบิตในความแม่นยำที่เลือกให้กับแมนทิสซาหรือเลขชี้กำลังได้แบบไดนามิกในระหว่างการทำงานเพื่อเพิ่มความแม่นยำสูงสุด[ 5 ]
ประสิทธิภาพการใช้พลังงาน
ฟอร์มแฟคเตอร์ SXM5 H100 มีกำลังการออกแบบความร้อน (TDP) 700 วัตต์ในส่วนของความไม่สอดคล้องกัน สถาปัตยกรรม Hopper อาจบรรลุระดับการใช้งานที่สูงขึ้น และอาจมีประสิทธิภาพต่อวัตต์ที่ดีกว่า[ 15 ]
เกรซ ฮอปเปอร์
| ออกแบบโดย | เอ็นดีวีดี |
|---|---|
| ผลิตโดย | |
| กระบวนการผลิต | ทีเอสเอ็มซี4เอ็น |
| ชื่อรหัส | เกรซ ฮอปเปอร์ |
| ข้อกำหนด | |
| คำนวณ | GPU: 132 Hopper SMs CPU: 72 แกนNeoverse V2 |
| อัตราความเร็วสัญญาณนาฬิกาของเชเดอร์ | 1980 เมกะเฮิร์ตซ์ |
| การสนับสนุนหน่วยความจำ | GPU: 96 GB HBM3 หรือ 144 GB HBM3e CPU: 480 GB LPDDR5X |
GH200 รวม GPU H100 ที่ใช้ Hopper เข้ากับ CPU 72 คอร์ที่ใช้ Grace ในโมดูลเดียว การใช้พลังงานรวมของโมดูลสูงถึง 1000 วัตต์ CPU และ GPU เชื่อมต่อกันผ่าน NVLink ซึ่งให้ความสอดคล้องของหน่วยความจำระหว่างหน่วยความจำ CPU และ GPU [ 16 ]
ประวัติศาสตร์
ในเดือนพฤศจิกายน พ.ศ. 2562 บัญชี ทวิตเตอร์ชื่อดังได้โพสต์ทวีตเปิดเผยว่าสถาปัตยกรรมรุ่นถัดไปหลังจากAmpereจะเรียกว่า Hopper ซึ่งตั้งชื่อตามนักวิทยาศาสตร์คอมพิวเตอร์และพลเรือตรีหญิง แห่ง กองทัพเรือสหรัฐฯเกรซ ฮอปเปอร์หนึ่งในโปรแกรมเมอร์คนแรกของHarvard Mark Iบัญชีดังกล่าวระบุว่า Hopper จะใช้ การออกแบบ โมดูลหลายชิปซึ่งจะส่งผลให้ผลผลิตเพิ่มขึ้นโดยมีการสูญเสียน้อยลง[ 17 ]
ในระหว่างงาน Nvidia GTCเดือนมีนาคม 2022 Nvidia ได้ประกาศเปิดตัว Hopper [ 18 ]
ในช่วงปลายปี 2022 เนื่องจากข้อกำหนดของสหรัฐฯที่จำกัดการส่งออกชิปไปยังสาธารณรัฐประชาชนจีน Nvidia จึงปรับชิป H100 ให้เข้ากับตลาดจีนด้วยรุ่น H800 ซึ่งมีแบนด์วิดท์ต่ำกว่ารุ่น H100 เดิม[ 19 ] [ 20 ]ในช่วงปลายปี 2023 รัฐบาลสหรัฐฯ ประกาศข้อจำกัดใหม่เกี่ยวกับการส่งออกชิป AI ไปยังจีน ซึ่งรวมถึง รุ่น A800และ H800 [ 21 ]ทำให้ Nvidia ต้องสร้างชิปอีกตัวหนึ่งโดยใช้สถาปัตยกรรมไมโคร Hopper คือ H20 ซึ่งเป็นรุ่นดัดแปลงของ H100 โดย H20 กลายเป็นชิปที่โดดเด่นที่สุดในตลาดจีนในปี 2025 [ 22 ]
ในปี 2023 ในช่วงที่AI กำลังเฟื่องฟู H100 เป็นที่ต้องการอย่างมากLarry EllisonจากOracle Corporationกล่าวในปีนั้นว่า ในงานเลี้ยงอาหารค่ำกับJensen Huang ซีอีโอของ Nvidia เขาและElon MuskจากTesla, Inc.และxAI "ต่างก็ขอร้อง" ให้ได้ H100 มา "ผมคิดว่านั่นเป็นวิธีที่ดีที่สุดที่จะอธิบายได้ การกินซูชิเป็นชั่วโมงแล้วก็ขอร้อง" [ 23 ]
ในเดือนมกราคม 2024 นักวิเคราะห์ ของ Raymond James Financialประเมินว่า Nvidia ขาย GPU H100 ในช่วงราคา 25,000 ถึง 30,000 ดอลลาร์ต่อชิ้น ในขณะที่บน eBay นั้น H100 แต่ละชิ้นมีราคาสูงกว่า 40,000 ดอลลาร์[ 24 ]ณ เดือนกุมภาพันธ์ 2024 มีรายงานว่า Nvidia กำลังจัดส่ง GPU H100 ไปยังศูนย์ข้อมูลโดยใช้รถหุ้มเกราะ[ 25 ]
ตัวเร่งปฏิกิริยา H100 และ DGX H100
เริ่มต้นจาก P100 [ 26 ] [ 27 ] [ 28 ]ไปจนถึง V100 [ 29 ]ไปจนถึง A100 [ 30 ]ไปจนถึง H100 [ 31 ]ไปจนถึง B200 [ 32 ] [ 33 ]และไปจนถึง R100 [ 34 ]การเปรียบเทียบเครื่องเร่งอนุภาคที่ใช้ใน DGX:
ทั่วไปและสถาปัตยกรรม
| แบบอย่าง | สถาปัตยกรรม | ซ็อกเก็ต | จีพี | กระบวนการผลิต | จำนวนทรานซิสเตอร์ (พันล้าน) | ขนาดแม่พิมพ์ (มม. ² ) | เปิดตัว |
|---|---|---|---|---|---|---|---|
| พี100 | ปาสคาล | SXM/SXM2 | จีพี100 | TSMC 16FF+ | 15.3 | 610 | ไตรมาสที่ 2 ปี 2559 |
| V100 16GB | โวลต้า | SXM2 | จีวี100 | ทีเอสเอ็มซี 12เอฟเอ็น | 21.1 | 815 | ไตรมาสที่ 3 ปี 2560 |
| V100 32GB | SXM3 | ||||||
| A100 40GB | แอมแปร์ | SXM4 | GA100 | ทีเอสเอ็มซีเอ็น7 | 54.2 | 826 | ไตรมาสที่ 1 ปี 2020 |
| A100 80GB | ไตรมาสที่ 4 ปี 2020 | ||||||
| เอช100 | ฮอปเปอร์ | SXM5 | GH100 | ทีเอสเอ็มซี 4เอ็น | 80 | 814 | ไตรมาสที่ 3 ปี 2022 |
| เอช200 | ไตรมาสที่ 3 ปี 2023 | ||||||
| บี100 | แบล็กเวลล์ | SXM6 | จีบี100 | ทีเอสเอ็มซี 4เอ็นพี | 208 | ไม่มีข้อมูล | ไตรมาสที่ 4 ปี 2024 |
| บี200 | |||||||
| 100 แรนด์ | รูบิน | SXM7 | ไม่มีข้อมูล | ทีเอสเอ็มซี 3เอ็น | 338 | ไม่มีข้อมูล | ครึ่งหลังของปี 2026 |
คอร์, นาฬิกา และพลังงาน
| แบบอย่าง | นาฬิกาเร่งความเร็ว (เมกะเฮิร์ตซ์) | #SM | แกนกลาง (FP32 CUDA) | แกนกลาง (FP64 ไม่รวมเทนเซอร์) | แกนกลาง (ผสม INT32/FP32) | แกนกลาง (INT32) | ทีดีพี (W) |
|---|---|---|---|---|---|---|---|
| พี100 | 1480 | 56 | 3584 | ค.ศ. 1792 | ไม่มีข้อมูล | ไม่มีข้อมูล | 300 |
| V100 16GB | 1530 | 80 | 5120 | 2560 | ไม่มีข้อมูล | 5120 | 300 |
| V100 32GB | 350 | ||||||
| A100 40GB | 1410 | 108 | 6912 | 3456 | 6912 | ไม่มีข้อมูล | 400 |
| A100 80GB | |||||||
| เอช100 | 1980 | 132 | 16896 | 4608 | 16896 | ไม่มีข้อมูล | 700 |
| เอช200 | 1000 | ||||||
| บี100 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 700 |
| บี200 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 1000 |
| 100 แรนด์ | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 2300 |
หน่วยความจำและแคช
| แบบอย่าง | ประเภทหน่วยความจำ (เอชบีเอ็ม) | ขนาด VRAM (สหราชอาณาจักร) | ความเร็วหน่วยความจำ (กิกะไบต์/วินาที) | ความกว้างของรถบัส (บิต) | แบนด์วิดท์ (TB/s) | แคช L1 ต่อ SM (KB) | แคช L1 รวม (KB) | แคช L2 (KB) |
|---|---|---|---|---|---|---|---|---|
| พี100 | เอชบีเอ็ม2 | 16 | 1.4 | 4096 | 0.72 | 24 | 1344 | 4096 |
| V100 16GB | เอชบีเอ็ม2 | 16 | 1.75 | 4096 | 0.9 | 128 | 10240 | 6144 |
| V100 32GB | 32 | |||||||
| A100 40GB | เอชบีเอ็ม2 | 40 | 2.4 | 5120 | 1.52 | 192 | 20736 | 40960 |
| A100 80GB | HBM2e | 80 | 3.2 | |||||
| เอช100 | เอชบีเอ็ม3 | 80 | 5.2 | 5120 | 3.35 | 192 | 25344 | 51200 |
| เอช200 | HBM3e | 141 | 6.3 | 6144 | 4.8 | |||
| บี100 | HBM3e | 192 | 8 | 8192 | 8 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล |
| บี200 | ||||||||
| 100 แรนด์ | เอชบีเอ็ม4 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล |
ประสิทธิภาพการประมวลผล การเชื่อมต่อ และเครือข่าย
| แบบอย่าง | เอฟพี32 (TFLOPS) | เอฟพี64 (TFLOPS) | อินที8 เทนเซอร์หนาแน่น | FP16 เทนเซอร์หนาแน่น | บฟลัต16 เทนเซอร์หนาแน่น | เอฟเอฟ32 เทนเซอร์หนาแน่น | เอฟพี64 เทนเซอร์หนาแน่น | การเชื่อมต่อ (NVLink; เทราไบต์/วินาที) | การสร้างเครือข่าย |
|---|---|---|---|---|---|---|---|---|---|
| พี100 | 10.6 | 5.3 | ไม่มีข้อมูล | 21.2 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 0.16 | คอนเน็กต์เอ็กซ์-4 (100 กิกะไบต์/วินาที) |
| V100 16GB | 15.7 | 7.8 | ไม่มีข้อมูล | 125 TFLOPS | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 0.3 | คอนเน็กต์เอ็กซ์-5 (100 กิกะไบต์/วินาที) |
| V100 32GB | |||||||||
| A100 40GB | 19.5 | 9.7 | 624 ท็อปส์ | 312 TFLOPS | 312 TFLOPS | 156 TFLOPS | 19.5 TFLOPS | 0.6 | คอนเน็กต์เอ็กซ์-6 (200 กิกะไบต์/วินาที) |
| A100 80GB | |||||||||
| เอช100 | 67 | 34 | 1.98 ป๊อปส์ | 990 TFLOPS | 990 TFLOPS | 495 TFLOPS | 67 TFLOPS | 0.9 | คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที) |
| เอช200 | |||||||||
| บี100 | ไม่มีข้อมูล | ไม่มีข้อมูล | 3.5 ป๊อปส์ | 1.98 PFLOPS | 1.98 PFLOPS | 989 TFLOPS | 30 TFLOPS | 1.8 | คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที) |
| บี200 | ไม่มีข้อมูล | ไม่มีข้อมูล | 4.5 ป๊อปส์ | 2.25 ฟล็อปส์ | 2.25 ฟล็อปส์ | 1.2 พีแอลโอปส์ | 40 ทฟล็อปส์ | ||
| 100 แรนด์ | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | คอนเน็กต์เอ็กซ์-9 (1600 กิกะไบต์/วินาที) |
การควบคุมการส่งออกและประเด็นการค้าระหว่างประเทศ
ในช่วงต้นปี 2026 ตัวเร่งความเร็ว AI H200 ที่ใช้ชิป Hopper ของ Nvidia กลายเป็นประเด็นสำคัญในข้อพิพาททางการค้าระหว่างประเทศที่เกี่ยวข้องกับนโยบายการส่งออกของสหรัฐฯ และการควบคุมการนำเข้าของจีน แม้ว่ารัฐบาลสหรัฐฯ จะอนุมัติการส่งออกชิป H200 ไปยังจีนในวงจำกัดภายใต้เงื่อนไขด้านความปลอดภัยที่เฉพาะเจาะจง แต่รายงานระบุว่าเจ้าหน้าที่ศุลกากรจีนได้สกัดกั้นการขนส่งโปรเซสเซอร์เข้าประเทศ แม้ว่าจะได้รับการอนุมัติจากสหรัฐฯ แล้วก็ตาม ทำให้ซัพพลายเออร์ต้องหยุดการผลิตชิ้นส่วน H200 ท่ามกลางความไม่แน่นอนเกี่ยวกับการปิดกั้นการนำเข้า มีรายงานว่าทางการจีนได้สั่งให้บริษัทในประเทศงดการซื้อชิปเว้นแต่จำเป็น แม้ว่าจะไม่มีการประกาศห้ามอย่างเป็นทางการต่อสาธารณะ และสถานะระยะยาวของข้อจำกัดยังคงไม่ชัดเจน สถานการณ์ดังกล่าวเน้นย้ำถึงความอ่อนไหวทางภูมิรัฐศาสตร์ที่เกี่ยวข้องกับการส่งออกฮาร์ดแวร์ AI ขั้นสูง และการทำงานร่วมกันที่ซับซ้อนระหว่างกฎระเบียบการส่งออกของสหรัฐฯ และนโยบายการนำเข้าของจีน[ 35 ]
ในเดือนพฤษภาคม พ.ศ. 2569 การควบคุมการส่งออกโปรเซสเซอร์ Nvidia H200 ของรัฐบาลสหรัฐฯ กลายเป็นประเด็นสำคัญในการหารือระหว่างการเยือนจีนอย่างเป็นทางการของประธานาธิบดีโดนัลด์ ทรัมป์สหรัฐฯ อนุญาตให้บริษัทจีน 10 แห่ง รวมถึงAlibaba Group , Tencent , ByteDanceและJD.comและผู้จัดจำหน่าย เช่นLenovoและFoxconnซื้อชิป NVIDIA H200 ได้[ 36 ]
อ่านเพิ่มเติม
- Choquette, Jack (พฤษภาคม 2023). "NVIDIA Hopper H100 GPU: การปรับขนาดประสิทธิภาพ" . IEEE Micro . 43 (3): 9– 17. doi : 10.1109/MM.2023.3256796 . S2CID 257544490 . สืบค้นเมื่อ29 พฤษภาคม 2023 .
- มัวร์, ซามูเอล (8 เมษายน 2022). "GPU รุ่นต่อไปของ Nvidia แสดงให้เห็นว่า Transformer กำลังเปลี่ยนแปลง AI" . IEEE Spectrum . สืบค้นเมื่อ29 พฤษภาคม 2023 .
- มอร์แกน, ทิโมธี (31 มีนาคม 2022). "เจาะลึกสถาปัตยกรรม GPU "Hopper" ของ Nvidia" . The Next Platform . สืบค้นเมื่อ29 พฤษภาคม 2023 .
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ฮอปเปอร์ (สถาปัตยกรรมระดับไมโคร)
Hopper เป็น สถาปัตยกรรมไมโคร ของหน่วยประมวลผลกราฟิก (GPU) ที่พัฒนาโดย Nvidia ออกแบบมาสำหรับศูนย์ข้อมูลและใช้งานควบคู่กับสถาปัตยกรรมไมโคร Lovelace
สถาปัตยกรรม
GPU Nvidia Hopper H100 ถูกสร้างขึ้นโดยใช้ กระบวนการ TSMC N4 ที่มีทรานซิสเตอร์ 80 พันล้านตัว ประกอบด้วย มัลติโปรเซสเซอร์แบบสตรีมมิ่ง สูงสุด 144 ตัว [ 1 ] เนื่องจากแบนด์วิดท์หน่วยความจำที่เพิ่มขึ้นจาก ซ็อกเก็ต SXM5 ทำให้ Nvidia Hopper H100...
สตรีมมิ่งมัลติโปรเซสเซอร์
มัลติโปรเซสเซอร์แบบสตรีมมิ่งสำหรับ Hopper ปรับปรุง สถาปัตยกรรมไมโคร Turing และ Ampere แม้ว่าจำนวน warps พร้อมกันสูงสุดต่อมัลติโปรเซสเซอร์แบบสตรีมมิ่ง (SM) จะยังคงเท่ากันระหว่างสถาปัตยกรรม Ampere และ Hopper คือ 64 [ 3 ] สถาปัตยกรรม Hopper มี Tensor Memory...
หน่วยความจำ
Nvidia Hopper H100 รองรับ หน่วยความจำ HBM3 และ HBM2e สูงสุด 80 GB; ระบบหน่วยความจำ HBM3 รองรับความเร็ว 3 TB/s ซึ่งเพิ่มขึ้น 50% จาก 2 TB/s ของ Nvidia Ampere A100 ความจุและแบนด์วิดท์ของแคช L2 เพิ่มขึ้นทั่วทั้งสถาปัตยกรรม [ 9 ]