อ่าน 4 นาที
SXM (ซ็อกเก็ต)
SXM (Server PCI Express Module) [ 1 ] เป็น โซลูชัน ซ็อก เก็ต แบนด์วิดท์สูง สำหรับเชื่อมต่อ Nvidia Compute Accelerators เข้ากับระบบ Nvidia Tesla แต่ละรุ่น ตั้งแต่รุ่น P100,...
SXM (ซ็อกเก็ต)


SXM (Server PCI Express Module) [ 1 ]เป็น โซลูชัน ซ็อก เก็ต แบนด์วิดท์สูง สำหรับเชื่อมต่อNvidia Compute Accelerators เข้ากับระบบNvidia Tesla แต่ละรุ่น ตั้งแต่รุ่น P100, ซีรี่ส์คอมพิวเตอร์ DGXและซีรี่ส์บอร์ด HGXมาพร้อมกับซ็อกเก็ต SXM ที่ให้แบนด์วิดท์สูงและการจ่ายพลังงานสำหรับ GPU daughter card [ 2 ] Nvidia นำเสนอชุดค่าผสมเหล่านี้เป็นผลิตภัณฑ์สำหรับผู้ใช้ปลายทาง เช่น ในรุ่นของซีรี่ส์ระบบ DGX ซ็อกเก็ตรุ่นปัจจุบัน ได้แก่ SXM สำหรับ GPU ที่ใช้สถาปัตยกรรม Pascal , SXM2 และ SXM3 สำหรับ GPU ที่ใช้สถาปัตยกรรม Volta , SXM4 สำหรับ GPU ที่ใช้สถาปัตยกรรม Ampereและ SXM5 สำหรับ GPU ที่ใช้สถาปัตยกรรม Hopperซ็อกเก็ตเหล่านี้ใช้สำหรับรุ่นเฉพาะของตัวเร่งความเร็วเหล่านี้ และให้ประสิทธิภาพต่อการ์ดสูงกว่าPCIeที่เทียบเท่ากัน[ 2 ]ระบบ DGX-1 เป็นระบบแรกที่ติดตั้งซ็อกเก็ต SXM-2 และเป็นระบบแรกที่รองรับโมดูล SXM ที่มีฟอร์มแฟคเตอร์ที่เข้ากันได้กับ GPU P100 และต่อมาได้มีการเปิดเผยว่าสามารถอัปเกรดเป็น (หรือติดตั้งไว้ล่วงหน้า) โมดูล SXM2 ที่มี GPU V100 ได้[ 3 ] [ 4 ]
รายละเอียดทางเทคนิค
โดยทั่วไปแล้วบอร์ด SXM จะถูกสร้างขึ้นโดยมีสล็อต GPU สี่หรือแปดสล็อต แม้ว่าบางโซลูชัน เช่น Nvidia DGX-2 จะเชื่อมต่อบอร์ดหลายบอร์ดเพื่อมอบประสิทธิภาพสูงก็ตาม แม้ว่าจะมีโซลูชันจากบริษัทภายนอกสำหรับบอร์ด SXM อยู่ แต่ผู้ประกอบระบบ ส่วนใหญ่ เช่นSupermicroจะใช้บอร์ด Nvidia HGX ที่สร้างไว้ล่วงหน้า ซึ่งมีให้เลือกทั้งแบบสี่หรือแปดซ็อกเก็ต[ 5 ]โซลูชันนี้ช่วยลดต้นทุนและความยากลำบากของเซิร์ฟเวอร์ GPU ที่ใช้ SXM ได้อย่างมาก และช่วยให้สามารถใช้งานร่วมกันและเชื่อถือได้ในทุกบอร์ดรุ่นเดียวกัน
โมดูล SXM บนบอร์ด HGX โดยเฉพาะรุ่นล่าสุด อาจมี สวิตช์ NVLinkเพื่อให้การสื่อสารระหว่าง GPU เร็วขึ้น ซึ่งจะช่วยลดปัญหาคอขวดที่ปกติจะเกิดจากข้อจำกัด ของ CPUและPCIe [ 2 ] [ 6 ] GPU บนการ์ดลูกใช้ NVLink เป็นโปรโตคอลการสื่อสารหลัก ตัวอย่างเช่น GPU ที่ใช้ Hopper-based H100 SXM5 สามารถใช้แบนด์วิดท์ได้สูงสุด 900 GB/s ผ่านช่อง NVLink 4 จำนวน 18 ช่อง โดยแต่ละช่องมีแบนด์วิดท์ 50 GB/s [ 7 ]ในทางตรงกันข้าม PCIe 5.0 สามารถรองรับแบนด์วิดท์ได้สูงสุด 64 GB/s ภายในสล็อต x16 [ 8 ]แบนด์วิดท์สูงนี้ยังหมายความว่า GPU สามารถแชร์หน่วยความจำผ่านบัส NVLink ทำให้บอร์ด HGX ทั้งหมดสามารถแสดงต่อระบบโฮสต์เป็น GPU ขนาดใหญ่ตัวเดียวได้[ 9 ]
การจ่ายพลังงานยังได้รับการจัดการโดยซ็อกเก็ต SXM ซึ่งช่วยลดความจำเป็นในการใช้สายไฟภายนอก เช่นเดียวกับที่จำเป็นในการ์ดที่เทียบเท่า PCIe สิ่งนี้ เมื่อรวมกับการติดตั้งในแนวนอน จะช่วยให้กลไกการระบายความร้อนมีประสิทธิภาพมากขึ้น ซึ่งส่งผลให้ GPU ที่ใช้ SXM สามารถทำงานได้ที่กำลังการออกแบบความร้อน (TDP) ที่สูงขึ้นมาก ตัวอย่างเช่น H100 ที่ใช้ Hopper สามารถดึงพลังงานได้ถึง 700 วัตต์จากซ็อกเก็ต SXM เพียงอย่างเดียว[ 10 ]การไม่มีสายเคเบิลยังทำให้การประกอบและการซ่อมแซมระบบขนาดใหญ่ทำได้ง่ายขึ้นมาก และยังช่วยลดจำนวนจุดที่อาจเกิดความล้มเหลวได้อีกด้วย[ 2 ]
เริ่มต้นจาก P100 [ 11 ] [ 12 ] [ 13 ]ไปจนถึง V100 [ 14 ]ไปจนถึง A100 [ 15 ]ไปจนถึง H100 [ 16 ]ไปจนถึง B200 [ 17 ] [ 18 ]และไปจนถึง R100 [ 19 ]การเปรียบเทียบเครื่องเร่งอนุภาคที่ใช้ใน DGX:
ทั่วไปและสถาปัตยกรรม
| แบบอย่าง | สถาปัตยกรรม | ซ็อกเก็ต | จีพี | กระบวนการผลิต | จำนวนทรานซิสเตอร์ (พันล้าน) | ขนาดแม่พิมพ์ (มม. ² ) | เปิดตัว |
|---|---|---|---|---|---|---|---|
| พี100 | ปาสคาล | SXM/SXM2 | จีพี100 | TSMC 16FF+ | 15.3 | 610 | ไตรมาสที่ 2 ปี 2559 |
| V100 16GB | โวลต้า | SXM2 | จีวี100 | ทีเอสเอ็มซี 12เอฟเอ็น | 21.1 | 815 | ไตรมาสที่ 3 ปี 2560 |
| V100 32GB | SXM3 | ||||||
| A100 40GB | แอมแปร์ | SXM4 | GA100 | ทีเอสเอ็มซีเอ็น7 | 54.2 | 826 | ไตรมาสที่ 1 ปี 2020 |
| A100 80GB | ไตรมาสที่ 4 ปี 2020 | ||||||
| เอช100 | ฮอปเปอร์ | SXM5 | GH100 | ทีเอสเอ็มซี 4เอ็น | 80 | 814 | ไตรมาสที่ 3 ปี 2022 |
| เอช200 | ไตรมาสที่ 3 ปี 2023 | ||||||
| บี100 | แบล็กเวลล์ | SXM6 | จีบี100 | ทีเอสเอ็มซี 4เอ็นพี | 208 | ไม่มีข้อมูล | ไตรมาสที่ 4 ปี 2024 |
| บี200 | |||||||
| 100 แรนด์ | รูบิน | SXM7 | ไม่มีข้อมูล | ทีเอสเอ็มซี 3เอ็น | 338 | ไม่มีข้อมูล | ครึ่งหลังของปี 2026 |
คอร์, นาฬิกา และพลังงาน
| แบบอย่าง | นาฬิกาเร่งความเร็ว (เมกะเฮิร์ตซ์) | #SM | แกนกลาง (FP32 CUDA) | แกนกลาง (FP64 ไม่รวมเทนเซอร์) | แกนกลาง (ผสม INT32/FP32) | แกนกลาง (INT32) | ทีดีพี (W) |
|---|---|---|---|---|---|---|---|
| พี100 | 1480 | 56 | 3584 | ค.ศ. 1792 | ไม่มีข้อมูล | ไม่มีข้อมูล | 300 |
| V100 16GB | 1530 | 80 | 5120 | 2560 | ไม่มีข้อมูล | 5120 | 300 |
| V100 32GB | 350 | ||||||
| A100 40GB | 1410 | 108 | 6912 | 3456 | 6912 | ไม่มีข้อมูล | 400 |
| A100 80GB | |||||||
| เอช100 | 1980 | 132 | 16896 | 4608 | 16896 | ไม่มีข้อมูล | 700 |
| เอช200 | 1000 | ||||||
| บี100 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 700 |
| บี200 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 1000 |
| 100 แรนด์ | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 2300 |
หน่วยความจำและแคช
| แบบอย่าง | ประเภทหน่วยความจำ (เอชบีเอ็ม) | ขนาด VRAM (สหราชอาณาจักร) | ความเร็วหน่วยความจำ (กิกะไบต์/วินาที) | ความกว้างของรถบัส (บิต) | แบนด์วิดท์ (TB/s) | แคช L1 ต่อ SM (KB) | แคช L1 รวม (KB) | แคช L2 (KB) |
|---|---|---|---|---|---|---|---|---|
| พี100 | เอชบีเอ็ม2 | 16 | 1.4 | 4096 | 0.72 | 24 | 1344 | 4096 |
| V100 16GB | เอชบีเอ็ม2 | 16 | 1.75 | 4096 | 0.9 | 128 | 10240 | 6144 |
| V100 32GB | 32 | |||||||
| A100 40GB | เอชบีเอ็ม2 | 40 | 2.4 | 5120 | 1.52 | 192 | 20736 | 40960 |
| A100 80GB | HBM2e | 80 | 3.2 | |||||
| เอช100 | เอชบีเอ็ม3 | 80 | 5.2 | 5120 | 3.35 | 192 | 25344 | 51200 |
| เอช200 | HBM3e | 141 | 6.3 | 6144 | 4.8 | |||
| บี100 | HBM3e | 192 | 8 | 8192 | 8 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล |
| บี200 | ||||||||
| 100 แรนด์ | เอชบีเอ็ม4 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล |
ประสิทธิภาพการประมวลผล การเชื่อมต่อ และเครือข่าย
| แบบอย่าง | เอฟพี32 (TFLOPS) | เอฟพี64 (TFLOPS) | อินที8 เทนเซอร์หนาแน่น | FP16 เทนเซอร์หนาแน่น | บฟลัต16 เทนเซอร์หนาแน่น | เอฟเอฟ32 เทนเซอร์หนาแน่น | เอฟพี64 เทนเซอร์หนาแน่น | การเชื่อมต่อ (NVLink; เทราไบต์/วินาที) | การสร้างเครือข่าย |
|---|---|---|---|---|---|---|---|---|---|
| พี100 | 10.6 | 5.3 | ไม่มีข้อมูล | 21.2 | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 0.16 | คอนเน็กต์เอ็กซ์-4 (100 กิกะไบต์/วินาที) |
| V100 16GB | 15.7 | 7.8 | ไม่มีข้อมูล | 125 TFLOPS | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | 0.3 | คอนเน็กต์เอ็กซ์-5 (100 กิกะไบต์/วินาที) |
| V100 32GB | |||||||||
| A100 40GB | 19.5 | 9.7 | 624 ท็อปส์ | 312 TFLOPS | 312 TFLOPS | 156 TFLOPS | 19.5 TFLOPS | 0.6 | คอนเน็กต์เอ็กซ์-6 (200 กิกะไบต์/วินาที) |
| A100 80GB | |||||||||
| เอช100 | 67 | 34 | 1.98 ป๊อปส์ | 990 TFLOPS | 990 TFLOPS | 495 TFLOPS | 67 TFLOPS | 0.9 | คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที) |
| เอช200 | |||||||||
| บี100 | ไม่มีข้อมูล | ไม่มีข้อมูล | 3.5 ป๊อปส์ | 1.98 PFLOPS | 1.98 PFLOPS | 989 TFLOPS | 30 TFLOPS | 1.8 | คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที) |
| บี200 | ไม่มีข้อมูล | ไม่มีข้อมูล | 4.5 ป๊อปส์ | 2.25 ฟล็อปส์ | 2.25 ฟล็อปส์ | 1.2 PFLOPS | 40 ทฟล็อปส์ | ||
| 100 แรนด์ | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | ไม่มีข้อมูล | คอนเน็กต์เอ็กซ์-9 (1600 กิกะไบต์/วินาที) |
ดูเพิ่มเติม
- Tegra – ระบบประมวลผลแบบรวมศูนย์ (System on a Chip) จาก Nvidia
ลิงก์ภายนอก
- หน้าเว็บของศูนย์ประมวลผลประสิทธิภาพสูงแห่งชาติเออร์ลังเงน เกี่ยวกับการประมวลผลประสิทธิภาพสูงด้วย A100 จำนวน 4 และ 8 ตัวต่อโหนดคอมพิวเตอร์รวมถึงแสดงข้อมูลการดัมพ์โทโพโลยีของสวิตช์ด้วย
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ SXM (ซ็อกเก็ต)
SXM (Server PCI Express Module) [ 1 ] เป็น โซลูชัน ซ็อก เก็ต แบนด์วิดท์สูง สำหรับเชื่อมต่อ Nvidia Compute Accelerators เข้ากับระบบ Nvidia Tesla แต่ละรุ่น ตั้งแต่รุ่น P100,...
รายละเอียดทางเทคนิค
โดยทั่วไปแล้วบอร์ด SXM จะถูกสร้างขึ้นโดยมีสล็อต GPU สี่หรือแปดสล็อต แม้ว่าบางโซลูชัน เช่น Nvidia DGX-2 จะเชื่อมต่อบอร์ดหลายบอร์ดเพื่อมอบประสิทธิภาพสูงก็ตาม แม้ว่าจะมีโซลูชันจากบริษัทภายนอกสำหรับบอร์ด SXM อยู่ แต่ ผู้ประกอบระบบ ส่วนใหญ่ เช่น Supermicro...
ดูเพิ่มเติม
Tegra – ระบบประมวลผลแบบรวมศูนย์ (System on a Chip) จาก Nvidia
ลิงก์ภายนอก
หน้าเว็บของศูนย์ประมวลผลประสิทธิภาพสูงแห่งชาติเออร์ลังเงน เกี่ยวกับการประมวลผลประสิทธิภาพสูงด้วย A100 จำนวน 4 และ 8 ตัวต่อโหนดคอมพิวเตอร์รวมถึงแสดงข้อมูลการดัมพ์โทโพโลยีของสวิตช์ด้วย ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?