กลับไปหน้าบทความ

อ่าน 8 นาที

ฮอปเปอร์ (สถาปัตยกรรมระดับไมโคร)

Hopper เป็น สถาปัตยกรรมไมโคร ของหน่วยประมวลผลกราฟิก (GPU) ที่พัฒนาโดย Nvidia ออกแบบมาสำหรับศูนย์ข้อมูลและใช้งานควบคู่กับสถาปัตยกรรมไมโคร Lovelace

ฮอปเปอร์ (สถาปัตยกรรมระดับไมโคร)

ฮอปเปอร์
เปิดตัว20 กันยายน 2022 ( 2022-09-20 )
ออกแบบโดยเอ็นดีวีดี
ผลิตโดย
กระบวนการผลิตทีเอสเอ็มซีเอ็น4
ชุดผลิตภัณฑ์
เซิร์ฟเวอร์/ศูนย์ข้อมูล
ข้อกำหนด
แคช L1256  KB (ต่อ SM)
แคช L250  MB
การสนับสนุนหน่วยความจำเอชบีเอ็ม3
รองรับPCIePCI Express 5.0
เครื่องมือสื่อ
รองรับตัวเข้ารหัสเอ็นเวนซี
ประวัติศาสตร์
ผู้มาก่อนแอมแปร์
ตัวแปรเอดา โลฟเลซ (ผู้บริโภคและผู้เชี่ยวชาญ)
ผู้สืบทอดแบล็กเวลล์
การ์ดจอ Nvidia H100 จำนวน 4 ตัว

Hopperเป็นสถาปัตยกรรมไมโครของหน่วยประมวลผลกราฟิก (GPU) ที่พัฒนาโดยNvidiaออกแบบมาสำหรับศูนย์ข้อมูลและใช้งานควบคู่กับสถาปัตยกรรมไมโคร Lovelace

สถาปัตยกรรม Hopper ซึ่งตั้งชื่อตาม เกรซ ฮอปเปอร์นักวิทยาศาสตร์คอมพิวเตอร์และพลเรือตรีแห่งกองทัพเรือสหรัฐฯ ถูกเปิดเผยข้อมูลรั่วไหลในเดือนพฤศจิกายน 2019 และเปิดตัวอย่างเป็นทางการในเดือนมีนาคม 2022 โดยพัฒนาต่อยอดจากสถาปัตยกรรมไมโคร TuringและAmpere รุ่นก่อนหน้า ด้วยคุณสมบัติใหม่ เช่นหน่วยประมวลผลแบบสตรีมมิ่งระบบหน่วยความจำที่เร็วขึ้น และกลไกเร่งความเร็วแบบ Transformer

สถาปัตยกรรม

GPU Nvidia Hopper H100 ถูกสร้างขึ้นโดยใช้ กระบวนการ TSMC N4 ที่มีทรานซิสเตอร์ 80 พันล้านตัว ประกอบด้วยมัลติโปรเซสเซอร์แบบสตรีมมิ่ง สูงสุด 144 ตัว[ 1 ]เนื่องจากแบนด์วิดท์หน่วยความจำที่เพิ่มขึ้นจาก ซ็อกเก็ต SXM5ทำให้ Nvidia Hopper H100 มีประสิทธิภาพที่ดีกว่าเมื่อใช้ในการกำหนดค่า SXM5 มากกว่าในซ็อกเก็ต PCIe ทั่วไป[ 2 ]

สตรีมมิ่งมัลติโปรเซสเซอร์

มัลติโปรเซสเซอร์แบบสตรีมมิ่งสำหรับ Hopper ปรับปรุง สถาปัตยกรรมไมโคร TuringและAmpereแม้ว่าจำนวน warps พร้อมกันสูงสุดต่อมัลติโปรเซสเซอร์แบบสตรีมมิ่ง (SM) จะยังคงเท่ากันระหว่างสถาปัตยกรรม Ampere และ Hopper คือ 64 [ 3 ]สถาปัตยกรรม Hopper มี Tensor Memory Accelerator (TMA) ซึ่งรองรับการถ่ายโอนหน่วยความจำแบบอะซิงโครนัสสองทิศทางระหว่างหน่วยความจำที่ใช้ร่วมกันและหน่วยความจำส่วนกลาง[ 4 ]ภายใต้ TMA แอปพลิเคชันสามารถถ่ายโอนเทนเซอร์ได้ถึง 5 มิติ เมื่อเขียนจากหน่วยความจำที่ใช้ร่วมกันไปยังหน่วยความจำส่วนกลาง สามารถใช้การลดแบบองค์ประกอบและการดำเนินการแบบบิตได้ หลีกเลี่ยงรีจิสเตอร์และคำสั่ง SM ในขณะที่ช่วยให้ผู้ใช้สามารถเขียนโค้ดเฉพาะ warp ได้ TMA ถูกเปิดเผยcuda::memcpy_asyncผ่าน[ 5 ]

เมื่อทำการประมวลผลแอปพลิเคชันแบบขนาน นักพัฒนาสามารถใช้ คลัสเตอร์ บล็อกเธรดได้ บล็อกเธรดอาจดำเนินการอะตอมิกในหน่วยความจำที่ใช้ร่วมกันของบล็อกเธรดอื่นภายในคลัสเตอร์ หรือที่เรียกว่าหน่วยความจำที่ใช้ร่วมกันแบบกระจายหน่วยความจำที่ใช้ร่วมกันแบบกระจายอาจถูกใช้โดย SM พร้อมกับแคช L2 พร้อมกัน เมื่อใช้ในการสื่อสารข้อมูลระหว่าง SM จะสามารถใช้แบนด์วิดท์รวมของหน่วยความจำที่ใช้ร่วมกันแบบกระจายและ L2 ได้ ขนาดคลัสเตอร์แบบพกพาสูงสุดคือ 8 แม้ว่า Nvidia Hopper H100 จะรองรับขนาดคลัสเตอร์ 16 ได้โดยใช้cudaFuncAttributeNonPortableClusterSizeAllowedฟังก์ชัน ซึ่งอาจต้องแลกมาด้วยจำนวนบล็อกที่ใช้งานอยู่ลดลง[ 6 ]ด้วยการมัลติแคสติ้ง L2 และหน่วยความจำที่ใช้ร่วมกันแบบกระจาย แบนด์วิดท์ที่จำเป็นสำหรับ การอ่านและเขียน หน่วยความจำเข้าถึงแบบสุ่มไดนามิกจะลดลง[ 7 ]

Hopper มีคุณสมบัติในการปรับปรุงประสิทธิภาพ การประมวลผล รูปแบบจุดลอยตัวความแม่นยำเดี่ยว (FP32) โดยมีจำนวนการดำเนินการ FP32 ต่อรอบต่อ SM มากกว่ารุ่นก่อนหน้าถึงสองเท่า นอกจากนี้ สถาปัตยกรรม Hopper ยังเพิ่มการรองรับคำสั่งใหม่ๆ รวมถึงอัลกอริทึม Smith–Waterman [ 6 ] เช่นเดียวกับ Ampere รองรับการคำนวณเลขคณิต TensorFloat-32 (TF-32) รูปแบบการแมปสำหรับสถาปัตยกรรมทั้งสองเหมือนกัน[ 8 ]

หน่วยความจำ

Nvidia Hopper H100 รองรับ หน่วยความจำ HBM3และHBM2eสูงสุด 80 GB; ระบบหน่วยความจำ HBM3 รองรับความเร็ว 3 TB/s ซึ่งเพิ่มขึ้น 50% จาก 2 TB/s ของ Nvidia Ampere A100 ความจุและแบนด์วิดท์ของแคช L2 เพิ่มขึ้นทั่วทั้งสถาปัตยกรรม[ 9 ]

Hopper อนุญาตให้เคอร์เนลการคำนวณCUDA ใช้การบีบอัดแบบอินไลน์อัตโนมัติ รวมถึงในการจัดสรรหน่วยความจำแต่ละรายการ ซึ่งช่วยให้เข้าถึงหน่วยความจำด้วยแบนด์วิดท์ที่สูงขึ้น คุณสมบัตินี้ไม่ได้เพิ่มปริมาณหน่วยความจำที่มีให้แอปพลิเคชัน เนื่องจากข้อมูล (และด้วยเหตุนี้ความสามารถในการบีบอัด ) อาจเปลี่ยนแปลงได้ตลอดเวลา ตัวบีบอัดจะเลือกอัลกอริทึมการบีบอัดหลายแบบโดยอัตโนมัติ[ 9 ]

Nvidia Hopper H100 เพิ่มความจุของแคช L1, แคชพื้นผิว และหน่วยความจำที่ใช้ร่วมกันรวมกันเป็น 256 KB เช่นเดียวกับรุ่นก่อนหน้า โดยจะรวมแคช L1 และแคชพื้นผิวเข้าไว้ในแคชเดียวที่ออกแบบมาเพื่อเป็นบัฟเฟอร์แบบรวม คุณสมบัตินี้cudaFuncAttributePreferredSharedMemoryCarveoutอาจใช้เพื่อกำหนดการแบ่งส่วนของแคช L1 Hopper นำเสนอการปรับปรุงNVLinkผ่านรุ่นใหม่ที่มีแบนด์วิดธ์การสื่อสารโดยรวมที่เร็วขึ้น[ 10 ]

โดเมนการซิงโครไนซ์หน่วยความจำ

แอปพลิเคชัน CUDA บางตัวอาจประสบปัญหาการรบกวนเมื่อทำการดำเนินการ fence หรือ flush เนื่องจากการเรียงลำดับหน่วยความจำ เนื่องจาก GPU ไม่สามารถทราบได้ว่าการเขียนใดรับประกันได้และการเขียนใดมองเห็นได้โดยบังเอิญ จึงอาจรอการดำเนินการหน่วยความจำที่ไม่จำเป็น ทำให้การดำเนินการ fence หรือ flush ช้าลง ตัวอย่างเช่น เมื่อเคอร์เนลทำการคำนวณในหน่วยความจำ GPU และเคอร์เนลแบบขนานทำการสื่อสารกับคู่ค้า เคอร์เนลภายในจะทำการ flush การเขียน ส่งผลให้การเขียน NVLink หรือPCIe ช้าลง ในสถาปัตยกรรม Hopper GPU สามารถลดปริมาณข้อมูลสุทธิผ่านการดำเนินการ fence ได้[ 11 ]

คำแนะนำ DPX

สถาปัตยกรรม Hopper อินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน ทางคณิตศาสตร์ (API) เปิดเผยฟังก์ชันใน SM เช่น__viaddmin_s16x2_reluซึ่งดำเนินการต่อครึ่งคำ ในอัลกอริทึม Smith–Waterman สามารถใช้ค่าต่ำสุดหรือสูงสุดสามทางตามด้วยการจำกัดให้เป็นศูนย์[ 12 ]ในทำนองเดียวกัน Hopper ช่วยเร่งความเร็วในการใช้ งาน อัลกอริทึม Needleman–Wunsch [ 13 ]__vimax3_s16x2_relu

เครื่องยนต์ทรานส์ฟอร์เมอร์

สถาปัตยกรรม Hopper เป็นสถาปัตยกรรม Nvidia แรกที่ใช้เอนจิน Transformer [ 14 ]เอนจิน Transformer ช่วยเร่งการคำนวณโดยการลดความแม่นยำเชิงตัวเลขที่สูงกว่า (เช่น FP16) ลงเป็นความแม่นยำที่ต่ำกว่าซึ่งทำงานได้เร็วกว่า (เช่น FP8) เมื่อการสูญเสียความแม่นยำนั้นถือว่ายอมรับได้[ 14 ]เอนจิน Transformer ยังสามารถจัดสรรบิตในความแม่นยำที่เลือกให้กับแมนทิสซาหรือเลขชี้กำลังได้แบบไดนามิกในระหว่างการทำงานเพื่อเพิ่มความแม่นยำสูงสุด[ 5 ]

ประสิทธิภาพการใช้พลังงาน

ฟอร์มแฟคเตอร์ SXM5 H100 มีกำลังการออกแบบความร้อน (TDP) 700 วัตต์ในส่วนของความไม่สอดคล้องกัน สถาปัตยกรรม Hopper อาจบรรลุระดับการใช้งานที่สูงขึ้น และอาจมีประสิทธิภาพต่อวัตต์ที่ดีกว่า[ 15 ]

เกรซ ฮอปเปอร์

เกรซ ฮอปเปอร์ GH200
ออกแบบโดยเอ็นดีวีดี
ผลิตโดย
กระบวนการผลิตทีเอสเอ็มซี4เอ็น
ชื่อรหัสเกรซ ฮอปเปอร์
ข้อกำหนด
คำนวณGPU: 132 Hopper SMs CPU: 72 แกนNeoverse V2
อัตราความเร็วสัญญาณนาฬิกาของเชเดอร์1980 เมกะเฮิร์ตซ์
การสนับสนุนหน่วยความจำGPU: 96 GB HBM3 หรือ 144 GB HBM3e CPU: 480 GB LPDDR5X

GH200 รวม GPU H100 ที่ใช้ Hopper เข้ากับ CPU 72 คอร์ที่ใช้ Grace ในโมดูลเดียว การใช้พลังงานรวมของโมดูลสูงถึง 1000 วัตต์ CPU และ GPU เชื่อมต่อกันผ่าน NVLink ซึ่งให้ความสอดคล้องของหน่วยความจำระหว่างหน่วยความจำ CPU และ GPU [ 16 ]

ประวัติศาสตร์

ในเดือนพฤศจิกายน พ.ศ. 2562 บัญชี ทวิตเตอร์ชื่อดังได้โพสต์ทวีตเปิดเผยว่าสถาปัตยกรรมรุ่นถัดไปหลังจากAmpereจะเรียกว่า Hopper ซึ่งตั้งชื่อตามนักวิทยาศาสตร์คอมพิวเตอร์และพลเรือตรีหญิง แห่ง กองทัพเรือสหรัฐฯเกรซ ฮอปเปอร์หนึ่งในโปรแกรมเมอร์คนแรกของHarvard Mark Iบัญชีดังกล่าวระบุว่า Hopper จะใช้ การออกแบบ โมดูลหลายชิปซึ่งจะส่งผลให้ผลผลิตเพิ่มขึ้นโดยมีการสูญเสียน้อยลง[ 17 ]

ในระหว่างงาน Nvidia GTCเดือนมีนาคม 2022 Nvidia ได้ประกาศเปิดตัว Hopper [ 18 ]

ในช่วงปลายปี 2022 เนื่องจากข้อกำหนดของสหรัฐฯที่จำกัดการส่งออกชิปไปยังสาธารณรัฐประชาชนจีน Nvidia จึงปรับชิป H100 ให้เข้ากับตลาดจีนด้วยรุ่น H800 ซึ่งมีแบนด์วิดท์ต่ำกว่ารุ่น H100 เดิม[ 19 ] [ 20 ]ในช่วงปลายปี 2023 รัฐบาลสหรัฐฯ ประกาศข้อจำกัดใหม่เกี่ยวกับการส่งออกชิป AI ไปยังจีน ซึ่งรวมถึง รุ่น A800และ H800 [ 21 ]ทำให้ Nvidia ต้องสร้างชิปอีกตัวหนึ่งโดยใช้สถาปัตยกรรมไมโคร Hopper คือ H20 ซึ่งเป็นรุ่นดัดแปลงของ H100 โดย H20 กลายเป็นชิปที่โดดเด่นที่สุดในตลาดจีนในปี 2025 [ 22 ]

ในปี 2023 ในช่วงที่AI กำลังเฟื่องฟู H100 เป็นที่ต้องการอย่างมากLarry EllisonจากOracle Corporationกล่าวในปีนั้นว่า ในงานเลี้ยงอาหารค่ำกับJensen Huang ซีอีโอของ Nvidia เขาและElon MuskจากTesla, Inc.และxAI "ต่างก็ขอร้อง" ให้ได้ H100 มา "ผมคิดว่านั่นเป็นวิธีที่ดีที่สุดที่จะอธิบายได้ การกินซูชิเป็นชั่วโมงแล้วก็ขอร้อง" [ 23 ]

ในเดือนมกราคม 2024 นักวิเคราะห์ ของ Raymond James Financialประเมินว่า Nvidia ขาย GPU H100 ในช่วงราคา 25,000 ถึง 30,000 ดอลลาร์ต่อชิ้น ในขณะที่บน eBay นั้น H100 แต่ละชิ้นมีราคาสูงกว่า 40,000 ดอลลาร์[ 24 ]ณ เดือนกุมภาพันธ์ 2024 มีรายงานว่า Nvidia กำลังจัดส่ง GPU H100 ไปยังศูนย์ข้อมูลโดยใช้รถหุ้มเกราะ[ 25 ]

ตัวเร่งปฏิกิริยา H100 และ DGX H100

เริ่มต้นจาก P100 [ 26 ] [ 27 ] [ 28 ]ไปจนถึง V100 [ 29 ]ไปจนถึง A100 [ 30 ]ไปจนถึง H100 [ 31 ]ไปจนถึง B200 [ 32 ] [ 33 ]และไปจนถึง R100 [ 34 ]การเปรียบเทียบเครื่องเร่งอนุภาคที่ใช้ใน DGX:

ทั่วไปและสถาปัตยกรรม

แบบอย่าง สถาปัตยกรรม ซ็อกเก็ต จีพี กระบวนการผลิต จำนวนทรานซิสเตอร์

(พันล้าน)

ขนาดแม่พิมพ์

(มม. ² )

เปิดตัว
พี100 ปาสคาลSXM/SXM2 จีพี100 TSMC 16FF+ 15.3 610 ไตรมาสที่ 2 ปี 2559
V100 16GB โวลต้าSXM2 จีวี100 ทีเอสเอ็มซี 12เอฟเอ็น 21.1 815 ไตรมาสที่ 3 ปี 2560
V100 32GB SXM3
A100 40GB แอมแปร์SXM4 GA100 ทีเอสเอ็มซีเอ็น7 54.2 826 ไตรมาสที่ 1 ปี 2020
A100 80GB ไตรมาสที่ 4 ปี 2020
เอช100 ฮอปเปอร์SXM5 GH100 ทีเอสเอ็มซี 4เอ็น 80 814 ไตรมาสที่ 3 ปี 2022
เอช200 ไตรมาสที่ 3 ปี 2023
บี100 แบล็กเวลล์SXM6 จีบี100 ทีเอสเอ็มซี 4เอ็นพี 208 ไม่มีข้อมูล ไตรมาสที่ 4 ปี 2024
บี200
100 แรนด์ รูบินSXM7ไม่มีข้อมูลทีเอสเอ็มซี 3เอ็น 338ไม่มีข้อมูลครึ่งหลังของปี 2026

คอร์, นาฬิกา และพลังงาน

แบบอย่าง นาฬิกาเร่งความเร็ว

(เมกะเฮิร์ตซ์)

#SM แกนกลาง

(FP32 CUDA)

แกนกลาง

(FP64 ไม่รวมเทนเซอร์)

แกนกลาง

(ผสม INT32/FP32)

แกนกลาง

(INT32)

ทีดีพี

(W)

พี100 1480 56 3584 ค.ศ. 1792ไม่มีข้อมูลไม่มีข้อมูล300
V100 16GB 1530 80 5120 2560 ไม่มีข้อมูล 5120 300
V100 32GB 350
A100 40GB 1410 108 6912 3456 6912 ไม่มีข้อมูล 400
A100 80GB
เอช100 1980 132 16896 4608 16896 ไม่มีข้อมูล 700
เอช200 1000
บี100 ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล700
บี200 ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล1000
100 แรนด์ ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล2300

หน่วยความจำและแคช

แบบอย่าง ประเภทหน่วยความจำ

(เอชบีเอ็ม)

ขนาด VRAM

(สหราชอาณาจักร)

ความเร็วหน่วยความจำ

(กิกะไบต์/วินาที)

ความกว้างของรถบัส

(บิต)

แบนด์วิดท์

(TB/s)

แคช L1

ต่อ SM (KB)

แคช L1

รวม (KB)

แคช L2

(KB)

พี100 เอชบีเอ็ม2 16 1.4 4096 0.72 24 1344 4096
V100 16GB เอชบีเอ็ม2 16 1.75 4096 0.9 128 10240 6144
V100 32GB 32
A100 40GB เอชบีเอ็ม2 40 2.4 5120 1.52 192 20736 40960
A100 80GB HBM2e 80 3.2
เอช100 เอชบีเอ็ม3 80 5.2 5120 3.35 192 25344 51200
เอช200 HBM3e 141 6.3 6144 4.8
บี100 HBM3e 192 8 8192 8 ไม่มีข้อมูล ไม่มีข้อมูล ไม่มีข้อมูล
บี200
100 แรนด์ เอชบีเอ็ม4ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล

ประสิทธิภาพการประมวลผล การเชื่อมต่อ และเครือข่าย

แบบอย่าง เอฟพี32

(TFLOPS)

เอฟพี64

(TFLOPS)

อินที8

เทนเซอร์หนาแน่น

FP16

เทนเซอร์หนาแน่น

บฟลัต16

เทนเซอร์หนาแน่น

เอฟเอฟ32

เทนเซอร์หนาแน่น

เอฟพี64

เทนเซอร์หนาแน่น

การเชื่อมต่อ

(NVLink; เทราไบต์/วินาที)

การสร้างเครือข่าย
พี100 10.6 5.3ไม่มีข้อมูล21.2ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล0.16 คอนเน็กต์เอ็กซ์-4

(100 กิกะไบต์/วินาที)

V100 16GB 15.7 7.8 ไม่มีข้อมูล 125 TFLOPS ไม่มีข้อมูล ไม่มีข้อมูล ไม่มีข้อมูล 0.3 คอนเน็กต์เอ็กซ์-5

(100 กิกะไบต์/วินาที)

V100 32GB
A100 40GB 19.5 9.7 624 ท็อปส์ 312 TFLOPS 312 TFLOPS 156 TFLOPS 19.5 TFLOPS 0.6 คอนเน็กต์เอ็กซ์-6

(200 กิกะไบต์/วินาที)

A100 80GB
เอช100 67 34 1.98 ป๊อปส์ 990 TFLOPS 990 TFLOPS 495 TFLOPS 67 TFLOPS 0.9 คอนเน็กต์เอ็กซ์-7

(400 กิกะไบต์/วินาที)

เอช200
บี100 ไม่มีข้อมูลไม่มีข้อมูล3.5 ป๊อปส์ 1.98 PFLOPS 1.98 PFLOPS 989 TFLOPS 30 TFLOPS 1.8 คอนเน็กต์เอ็กซ์-7

(400 กิกะไบต์/วินาที)

บี200 ไม่มีข้อมูลไม่มีข้อมูล4.5 ป๊อปส์ 2.25 ฟล็อปส์ 2.25 ฟล็อปส์ 1.2 พีแอลโอปส์ 40 ทฟล็อปส์
100 แรนด์ ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลคอนเน็กต์เอ็กซ์-9

(1600 กิกะไบต์/วินาที)

การควบคุมการส่งออกและประเด็นการค้าระหว่างประเทศ

ในช่วงต้นปี 2026 ตัวเร่งความเร็ว AI H200 ที่ใช้ชิป Hopper ของ Nvidia กลายเป็นประเด็นสำคัญในข้อพิพาททางการค้าระหว่างประเทศที่เกี่ยวข้องกับนโยบายการส่งออกของสหรัฐฯ และการควบคุมการนำเข้าของจีน แม้ว่ารัฐบาลสหรัฐฯ จะอนุมัติการส่งออกชิป H200 ไปยังจีนในวงจำกัดภายใต้เงื่อนไขด้านความปลอดภัยที่เฉพาะเจาะจง แต่รายงานระบุว่าเจ้าหน้าที่ศุลกากรจีนได้สกัดกั้นการขนส่งโปรเซสเซอร์เข้าประเทศ แม้ว่าจะได้รับการอนุมัติจากสหรัฐฯ แล้วก็ตาม ทำให้ซัพพลายเออร์ต้องหยุดการผลิตชิ้นส่วน H200 ท่ามกลางความไม่แน่นอนเกี่ยวกับการปิดกั้นการนำเข้า มีรายงานว่าทางการจีนได้สั่งให้บริษัทในประเทศงดการซื้อชิปเว้นแต่จำเป็น แม้ว่าจะไม่มีการประกาศห้ามอย่างเป็นทางการต่อสาธารณะ และสถานะระยะยาวของข้อจำกัดยังคงไม่ชัดเจน สถานการณ์ดังกล่าวเน้นย้ำถึงความอ่อนไหวทางภูมิรัฐศาสตร์ที่เกี่ยวข้องกับการส่งออกฮาร์ดแวร์ AI ขั้นสูง และการทำงานร่วมกันที่ซับซ้อนระหว่างกฎระเบียบการส่งออกของสหรัฐฯ และนโยบายการนำเข้าของจีน[ 35 ]

ในเดือนพฤษภาคม พ.ศ. 2569 การควบคุมการส่งออกโปรเซสเซอร์ Nvidia H200 ของรัฐบาลสหรัฐฯ กลายเป็นประเด็นสำคัญในการหารือระหว่างการเยือนจีนอย่างเป็นทางการของประธานาธิบดีโดนัลด์ ทรัมป์สหรัฐฯ อนุญาตให้บริษัทจีน 10 แห่ง รวมถึงAlibaba Group , Tencent , ByteDanceและJD.comและผู้จัดจำหน่าย เช่นLenovoและFoxconnซื้อชิป NVIDIA H200 ได้[ 36 ]

อ่านเพิ่มเติม

  • Choquette, Jack (พฤษภาคม 2023). "NVIDIA Hopper H100 GPU: การปรับขนาดประสิทธิภาพ" . IEEE Micro . 43 (3): 9– 17. doi : 10.1109/MM.2023.3256796 . S2CID  257544490 . สืบค้นเมื่อ29 พฤษภาคม 2023 .
  • มัวร์, ซามูเอล (8 เมษายน 2022). "GPU รุ่นต่อไปของ Nvidia แสดงให้เห็นว่า Transformer กำลังเปลี่ยนแปลง AI" . IEEE Spectrum . สืบค้นเมื่อ29 พฤษภาคม 2023 .
  • มอร์แกน, ทิโมธี (31 มีนาคม 2022). "เจาะลึกสถาปัตยกรรม GPU "Hopper" ของ Nvidia" . The Next Platform . สืบค้นเมื่อ29 พฤษภาคม 2023 .
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Hopper_(microarchitecture)&oldid=1360790032 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ฮอปเปอร์ (สถาปัตยกรรมระดับไมโคร)

Hopper เป็น สถาปัตยกรรมไมโคร ของหน่วยประมวลผลกราฟิก (GPU) ที่พัฒนาโดย Nvidia ออกแบบมาสำหรับศูนย์ข้อมูลและใช้งานควบคู่กับสถาปัตยกรรมไมโคร Lovelace

สถาปัตยกรรม

GPU Nvidia Hopper H100 ถูกสร้างขึ้นโดยใช้ กระบวนการ TSMC N4 ที่มีทรานซิสเตอร์ 80 พันล้านตัว ประกอบด้วย มัลติโปรเซสเซอร์แบบสตรีมมิ่ง สูงสุด 144 ตัว [ 1 ] เนื่องจากแบนด์วิดท์หน่วยความจำที่เพิ่มขึ้นจาก ซ็อกเก็ต SXM5 ทำให้ Nvidia Hopper H100...

สตรีมมิ่งมัลติโปรเซสเซอร์

มัลติโปรเซสเซอร์แบบสตรีมมิ่งสำหรับ Hopper ปรับปรุง สถาปัตยกรรมไมโคร Turing และ Ampere แม้ว่าจำนวน warps พร้อมกันสูงสุดต่อมัลติโปรเซสเซอร์แบบสตรีมมิ่ง (SM) จะยังคงเท่ากันระหว่างสถาปัตยกรรม Ampere และ Hopper คือ 64 [ 3 ] สถาปัตยกรรม Hopper มี Tensor Memory...

หน่วยความจำ

Nvidia Hopper H100 รองรับ หน่วยความจำ HBM3 และ HBM2e สูงสุด 80 GB; ระบบหน่วยความจำ HBM3 รองรับความเร็ว 3 TB/s ซึ่งเพิ่มขึ้น 50% จาก 2 TB/s ของ Nvidia Ampere A100 ความจุและแบนด์วิดท์ของแคช L2 เพิ่มขึ้นทั่วทั้งสถาปัตยกรรม [ 9 ]