SXM (ซ็อกเก็ต)

SXM (Server PCI Express Module) ^{[ 1 ]}เป็น โซลูชัน ซ็อก เก็ต แบนด์วิดท์สูง สำหรับเชื่อมต่อNvidia Compute Accelerators เข้ากับระบบNvidia Tesla แต่ละรุ่น ตั้งแต่รุ่น P100, ซีรี่ส์คอมพิวเตอร์ DGXและซีรี่ส์บอร์ด HGXมาพร้อมกับซ็อกเก็ต SXM ที่ให้แบนด์วิดท์สูงและการจ่ายพลังงานสำหรับ GPU daughter card ^[²^] Nvidia นำเสนอชุดค่าผสมเหล่านี้เป็นผลิตภัณฑ์สำหรับผู้ใช้ปลายทาง เช่น ในรุ่นของซีรี่ส์ระบบ DGX ซ็อกเก็ตรุ่นปัจจุบัน ได้แก่ SXM สำหรับ GPU ที่ใช้สถาปัตยกรรม Pascal , SXM2 และ SXM3 สำหรับ GPU ที่ใช้สถาปัตยกรรม Volta , SXM4 สำหรับ GPU ที่ใช้สถาปัตยกรรม Ampereและ SXM5 สำหรับ GPU ที่ใช้สถาปัตยกรรม Hopperซ็อกเก็ตเหล่านี้ใช้สำหรับรุ่นเฉพาะของตัวเร่งความเร็วเหล่านี้ และให้ประสิทธิภาพต่อการ์ดสูงกว่าPCIeที่เทียบเท่ากัน^[²^]ระบบ DGX-1 เป็นระบบแรกที่ติดตั้งซ็อกเก็ต SXM-2 และเป็นระบบแรกที่รองรับโมดูล SXM ที่มีฟอร์มแฟคเตอร์ที่เข้ากันได้กับ GPU P100 และต่อมาได้มีการเปิดเผยว่าสามารถอัปเกรดเป็น (หรือติดตั้งไว้ล่วงหน้า) โมดูล SXM2 ที่มี GPU V100 ได้^[³^]^[⁴^]

รายละเอียดทางเทคนิค

โดยทั่วไปแล้วบอร์ด SXM จะถูกสร้างขึ้นโดยมีสล็อต GPU สี่หรือแปดสล็อต แม้ว่าบางโซลูชัน เช่น Nvidia DGX-2 จะเชื่อมต่อบอร์ดหลายบอร์ดเพื่อมอบประสิทธิภาพสูงก็ตาม แม้ว่าจะมีโซลูชันจากบริษัทภายนอกสำหรับบอร์ด SXM อยู่ แต่ผู้ประกอบระบบ ส่วนใหญ่ เช่นSupermicroจะใช้บอร์ด Nvidia HGX ที่สร้างไว้ล่วงหน้า ซึ่งมีให้เลือกทั้งแบบสี่หรือแปดซ็อกเก็ต^{[ 5 ]}โซลูชันนี้ช่วยลดต้นทุนและความยากลำบากของเซิร์ฟเวอร์ GPU ที่ใช้ SXM ได้อย่างมาก และช่วยให้สามารถใช้งานร่วมกันและเชื่อถือได้ในทุกบอร์ดรุ่นเดียวกัน

โมดูล SXM บนบอร์ด HGX โดยเฉพาะรุ่นล่าสุด อาจมี สวิตช์ NVLinkเพื่อให้การสื่อสารระหว่าง GPU เร็วขึ้น ซึ่งจะช่วยลดปัญหาคอขวดที่ปกติจะเกิดจากข้อจำกัด ของ CPUและPCIe ^{[ 2 ]}^{[ 6 ]} GPU บนการ์ดลูกใช้ NVLink เป็นโปรโตคอลการสื่อสารหลัก ตัวอย่างเช่น GPU ที่ใช้ Hopper-based H100 SXM5 สามารถใช้แบนด์วิดท์ได้สูงสุด 900 GB/s ผ่านช่อง NVLink 4 จำนวน 18 ช่อง โดยแต่ละช่องมีแบนด์วิดท์ 50 GB/s ^{[ 7 ]}ในทางตรงกันข้าม PCIe 5.0 สามารถรองรับแบนด์วิดท์ได้สูงสุด 64 GB/s ภายในสล็อต x16 ^{[ 8 ]}แบนด์วิดท์สูงนี้ยังหมายความว่า GPU สามารถแชร์หน่วยความจำผ่านบัส NVLink ทำให้บอร์ด HGX ทั้งหมดสามารถแสดงต่อระบบโฮสต์เป็น GPU ขนาดใหญ่ตัวเดียวได้^{[ 9 ]}

การจ่ายพลังงานยังได้รับการจัดการโดยซ็อกเก็ต SXM ซึ่งช่วยลดความจำเป็นในการใช้สายไฟภายนอก เช่นเดียวกับที่จำเป็นในการ์ดที่เทียบเท่า PCIe สิ่งนี้ เมื่อรวมกับการติดตั้งในแนวนอน จะช่วยให้กลไกการระบายความร้อนมีประสิทธิภาพมากขึ้น ซึ่งส่งผลให้ GPU ที่ใช้ SXM สามารถทำงานได้ที่กำลังการออกแบบความร้อน (TDP) ที่สูงขึ้นมาก ตัวอย่างเช่น H100 ที่ใช้ Hopper สามารถดึงพลังงานได้ถึง 700 วัตต์จากซ็อกเก็ต SXM เพียงอย่างเดียว^{[ 10 ]}การไม่มีสายเคเบิลยังทำให้การประกอบและการซ่อมแซมระบบขนาดใหญ่ทำได้ง่ายขึ้นมาก และยังช่วยลดจำนวนจุดที่อาจเกิดความล้มเหลวได้อีกด้วย^{[ 2 ]}

เริ่มต้นจาก P100 ^{[ 11 ]}^{[ 12 ]}^{[ 13 ]}ไปจนถึง V100 ^{[ 14 ]}ไปจนถึง A100 ^{[ 15 ]}ไปจนถึง H100 ^{[ 16 ]}ไปจนถึง B200 ^{[ 17 ]}^{[ 18 ]}และไปจนถึง R100 ^{[ 19 ]}การเปรียบเทียบเครื่องเร่งอนุภาคที่ใช้ใน DGX:

ทั่วไปและสถาปัตยกรรม

แบบอย่าง	สถาปัตยกรรม	ซ็อกเก็ต	จีพี	กระบวนการผลิต	จำนวนทรานซิสเตอร์ (พันล้าน)	ขนาดแม่พิมพ์ (มม. ^² )	เปิดตัว
พี100	ปาสคาล	SXM/SXM2	จีพี100	TSMC 16FF+	15.3	610	ไตรมาสที่ 2 ปี 2559
V100 16GB	โวลต้า	SXM2	จีวี100	ทีเอสเอ็มซี 12เอฟเอ็น	21.1	815	ไตรมาสที่ 3 ปี 2560
V100 32GB	โวลต้า	SXM3	จีวี100	ทีเอสเอ็มซี 12เอฟเอ็น	21.1	815	ไตรมาสที่ 3 ปี 2560
A100 40GB	แอมแปร์	SXM4	GA100	ทีเอสเอ็มซีเอ็น7	54.2	826	ไตรมาสที่ 1 ปี 2020
A100 80GB	แอมแปร์	SXM4	GA100	ทีเอสเอ็มซีเอ็น7	54.2	826	ไตรมาสที่ 4 ปี 2020
เอช100	ฮอปเปอร์	SXM5	GH100	ทีเอสเอ็มซี 4เอ็น	80	814	ไตรมาสที่ 3 ปี 2022
เอช200	ฮอปเปอร์	SXM5	GH100	ทีเอสเอ็มซี 4เอ็น	80	814	ไตรมาสที่ 3 ปี 2023
บี100	แบล็กเวลล์	SXM6	จีบี100	ทีเอสเอ็มซี 4เอ็นพี	208	ไม่มีข้อมูล	ไตรมาสที่ 4 ปี 2024
บี200	แบล็กเวลล์	SXM6	จีบี100	ทีเอสเอ็มซี 4เอ็นพี	208	ไม่มีข้อมูล	ไตรมาสที่ 4 ปี 2024
100 แรนด์	รูบิน	SXM7	ไม่มีข้อมูล	ทีเอสเอ็มซี 3เอ็น	338	ไม่มีข้อมูล	ครึ่งหลังของปี 2026

คอร์, นาฬิกา และพลังงาน

แบบอย่าง	นาฬิกาเร่งความเร็ว (เมกะเฮิร์ตซ์)	#SM	แกนกลาง (FP32 CUDA)	แกนกลาง (FP64 ไม่รวมเทนเซอร์)	แกนกลาง (ผสม INT32/FP32)	แกนกลาง (INT32)	ทีดีพี (W)
พี100	1480	56	3584	ค.ศ. 1792	ไม่มีข้อมูล	ไม่มีข้อมูล	300
V100 16GB	1530	80	5120	2560	ไม่มีข้อมูล	5120	300
V100 32GB	1530	80	5120	2560	ไม่มีข้อมูล	5120	350
A100 40GB	1410	108	6912	3456	6912	ไม่มีข้อมูล	400
A100 80GB	1410	108	6912	3456	6912	ไม่มีข้อมูล	400
เอช100	1980	132	16896	4608	16896	ไม่มีข้อมูล	700
เอช200	1980	132	16896	4608	16896	ไม่มีข้อมูล	1000
บี100	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	700
บี200	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	1000
100 แรนด์	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	2300

หน่วยความจำและแคช

แบบอย่าง	ประเภทหน่วยความจำ (เอชบีเอ็ม)	ขนาด VRAM (สหราชอาณาจักร)	ความเร็วหน่วยความจำ (กิกะไบต์/วินาที)	ความกว้างของรถบัส (บิต)	แบนด์วิดท์ (TB/s)	แคช L1 ต่อ SM (KB)	แคช L1 รวม (KB)	แคช L2 (KB)
พี100	เอชบีเอ็ม2	16	1.4	4096	0.72	24	1344	4096
V100 16GB	เอชบีเอ็ม2	16	1.75	4096	0.9	128	10240	6144
V100 32GB	เอชบีเอ็ม2	32	1.75	4096	0.9	128	10240	6144
A100 40GB	เอชบีเอ็ม2	40	2.4	5120	1.52	192	20736	40960
A100 80GB	HBM2e	80	3.2	5120	1.52	192	20736	40960
เอช100	เอชบีเอ็ม3	80	5.2	5120	3.35	192	25344	51200
เอช200	HBM3e	141	6.3	6144	4.8	192	25344	51200
บี100	HBM3e	192	8	8192	8	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล
บี200	HBM3e	192	8	8192	8	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล
100 แรนด์	เอชบีเอ็ม4	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล

ประสิทธิภาพการประมวลผล การเชื่อมต่อ และเครือข่าย

แบบอย่าง	เอฟพี32 (TFLOPS)	เอฟพี64 (TFLOPS)	อินที8 เทนเซอร์หนาแน่น	FP16 เทนเซอร์หนาแน่น	บฟลัต16 เทนเซอร์หนาแน่น	เอฟเอฟ32 เทนเซอร์หนาแน่น	เอฟพี64 เทนเซอร์หนาแน่น	การเชื่อมต่อ (NVLink; เทราไบต์/วินาที)	การสร้างเครือข่าย
พี100	10.6	5.3	ไม่มีข้อมูล	21.2	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	0.16	คอนเน็กต์เอ็กซ์-4 (100 กิกะไบต์/วินาที)
V100 16GB	15.7	7.8	ไม่มีข้อมูล	125 TFLOPS	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	0.3	คอนเน็กต์เอ็กซ์-5 (100 กิกะไบต์/วินาที)
V100 32GB	15.7	7.8	ไม่มีข้อมูล	125 TFLOPS	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	0.3	คอนเน็กต์เอ็กซ์-5 (100 กิกะไบต์/วินาที)
A100 40GB	19.5	9.7	624 ท็อปส์	312 TFLOPS	312 TFLOPS	156 TFLOPS	19.5 TFLOPS	0.6	คอนเน็กต์เอ็กซ์-6 (200 กิกะไบต์/วินาที)
A100 80GB	19.5	9.7	624 ท็อปส์	312 TFLOPS	312 TFLOPS	156 TFLOPS	19.5 TFLOPS	0.6	คอนเน็กต์เอ็กซ์-6 (200 กิกะไบต์/วินาที)
เอช100	67	34	1.98 ป๊อปส์	990 TFLOPS	990 TFLOPS	495 TFLOPS	67 TFLOPS	0.9	คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที)
เอช200	67	34	1.98 ป๊อปส์	990 TFLOPS	990 TFLOPS	495 TFLOPS	67 TFLOPS	0.9	คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที)
บี100	ไม่มีข้อมูล	ไม่มีข้อมูล	3.5 ป๊อปส์	1.98 PFLOPS	1.98 PFLOPS	989 TFLOPS	30 TFLOPS	1.8	คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที)
บี200	ไม่มีข้อมูล	ไม่มีข้อมูล	4.5 ป๊อปส์	2.25 ฟล็อปส์	2.25 ฟล็อปส์	1.2 PFLOPS	40 ทฟล็อปส์	1.8	คอนเน็กต์เอ็กซ์-7 (400 กิกะไบต์/วินาที)
100 แรนด์	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	ไม่มีข้อมูล	คอนเน็กต์เอ็กซ์-9 (1600 กิกะไบต์/วินาที)

ดูเพิ่มเติม

Tegra – ระบบประมวลผลแบบรวมศูนย์ (System on a Chip) จาก Nvidia

ลิงก์ภายนอก

หน้าเว็บของศูนย์ประมวลผลประสิทธิภาพสูงแห่งชาติเออร์ลังเงน เกี่ยวกับการประมวลผลประสิทธิภาพสูงด้วย A100 จำนวน 4 และ 8 ตัวต่อโหนดคอมพิวเตอร์รวมถึงแสดงข้อมูลการดัมพ์โทโพโลยีของสวิตช์ด้วย

[ 1 ]

[

[

[

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 17 ]

[ 18 ]