กลับไปหน้าบทความ

อ่าน 4 นาที

SXM (ซ็อกเก็ต)

SXM (Server PCI Express Module) [ 1 ] เป็น โซลูชัน ซ็อก เก็ต แบนด์วิดท์สูง สำหรับเชื่อมต่อ Nvidia Compute Accelerators เข้ากับระบบ Nvidia Tesla แต่ละรุ่น ตั้งแต่รุ่น P100,...

SXM (ซ็อกเก็ต)

ภาพแสดงโหนดประมวลผลของซูเปอร์คอมพิวเตอร์ TSUBAME 3.0 ซึ่งแสดง โมดูล Nvidia Tesla P100 SXM จำนวนสี่โมดูล
ซ็อกเก็ต SXM เปล่าๆ ที่อยู่ติดกับซ็อกเก็ตที่มีการ์ดจอติดตั้งอยู่

SXM (Server PCI Express Module) [ 1 ]เป็น โซลูชัน ซ็อก เก็ต แบนด์วิดท์สูง สำหรับเชื่อมต่อNvidia Compute Accelerators เข้ากับระบบNvidia Tesla แต่ละรุ่น ตั้งแต่รุ่น P100, ซีรี่ส์คอมพิวเตอร์ DGXและซีรี่ส์บอร์ด HGXมาพร้อมกับซ็อกเก็ต SXM ที่ให้แบนด์วิดท์สูงและการจ่ายพลังงานสำหรับ GPU daughter card [ 2 ] Nvidia นำเสนอชุดค่าผสมเหล่านี้เป็นผลิตภัณฑ์สำหรับผู้ใช้ปลายทาง เช่น ในรุ่นของซีรี่ส์ระบบ DGX ซ็อกเก็ตรุ่นปัจจุบัน ได้แก่ SXM สำหรับ GPU ที่ใช้สถาปัตยกรรม Pascal , SXM2 และ SXM3 สำหรับ GPU ที่ใช้สถาปัตยกรรม Volta , SXM4 สำหรับ GPU ที่ใช้สถาปัตยกรรม Ampereและ SXM5 สำหรับ GPU ที่ใช้สถาปัตยกรรม Hopperซ็อกเก็ตเหล่านี้ใช้สำหรับรุ่นเฉพาะของตัวเร่งความเร็วเหล่านี้ และให้ประสิทธิภาพต่อการ์ดสูงกว่าPCIeที่เทียบเท่ากัน[ 2 ]ระบบ DGX-1 เป็นระบบแรกที่ติดตั้งซ็อกเก็ต SXM-2 และเป็นระบบแรกที่รองรับโมดูล SXM ที่มีฟอร์มแฟคเตอร์ที่เข้ากันได้กับ GPU P100 และต่อมาได้มีการเปิดเผยว่าสามารถอัปเกรดเป็น (หรือติดตั้งไว้ล่วงหน้า) โมดูล SXM2 ที่มี GPU V100 ได้[ 3 ] [ 4 ]

รายละเอียดทางเทคนิค

โดยทั่วไปแล้วบอร์ด SXM จะถูกสร้างขึ้นโดยมีสล็อต GPU สี่หรือแปดสล็อต แม้ว่าบางโซลูชัน เช่น Nvidia DGX-2 จะเชื่อมต่อบอร์ดหลายบอร์ดเพื่อมอบประสิทธิภาพสูงก็ตาม แม้ว่าจะมีโซลูชันจากบริษัทภายนอกสำหรับบอร์ด SXM อยู่ แต่ผู้ประกอบระบบ ส่วนใหญ่ เช่นSupermicroจะใช้บอร์ด Nvidia HGX ที่สร้างไว้ล่วงหน้า ซึ่งมีให้เลือกทั้งแบบสี่หรือแปดซ็อกเก็ต[ 5 ]โซลูชันนี้ช่วยลดต้นทุนและความยากลำบากของเซิร์ฟเวอร์ GPU ที่ใช้ SXM ได้อย่างมาก และช่วยให้สามารถใช้งานร่วมกันและเชื่อถือได้ในทุกบอร์ดรุ่นเดียวกัน

โมดูล SXM บนบอร์ด HGX โดยเฉพาะรุ่นล่าสุด อาจมี สวิตช์ NVLinkเพื่อให้การสื่อสารระหว่าง GPU เร็วขึ้น ซึ่งจะช่วยลดปัญหาคอขวดที่ปกติจะเกิดจากข้อจำกัด ของ CPUและPCIe [ 2 ] [ 6 ] GPU บนการ์ดลูกใช้ NVLink เป็นโปรโตคอลการสื่อสารหลัก ตัวอย่างเช่น GPU ที่ใช้ Hopper-based H100 SXM5 สามารถใช้แบนด์วิดท์ได้สูงสุด 900 GB/s ผ่านช่อง NVLink 4 จำนวน 18 ช่อง โดยแต่ละช่องมีแบนด์วิดท์ 50 GB/s [ 7 ]ในทางตรงกันข้าม PCIe 5.0 สามารถรองรับแบนด์วิดท์ได้สูงสุด 64 GB/s ภายในสล็อต x16 [ 8 ]แบนด์วิดท์สูงนี้ยังหมายความว่า GPU สามารถแชร์หน่วยความจำผ่านบัส NVLink ทำให้บอร์ด HGX ทั้งหมดสามารถแสดงต่อระบบโฮสต์เป็น GPU ขนาดใหญ่ตัวเดียวได้[ 9 ]

การจ่ายพลังงานยังได้รับการจัดการโดยซ็อกเก็ต SXM ซึ่งช่วยลดความจำเป็นในการใช้สายไฟภายนอก เช่นเดียวกับที่จำเป็นในการ์ดที่เทียบเท่า PCIe สิ่งนี้ เมื่อรวมกับการติดตั้งในแนวนอน จะช่วยให้กลไกการระบายความร้อนมีประสิทธิภาพมากขึ้น ซึ่งส่งผลให้ GPU ที่ใช้ SXM สามารถทำงานได้ที่กำลังการออกแบบความร้อน (TDP) ที่สูงขึ้นมาก ตัวอย่างเช่น H100 ที่ใช้ Hopper สามารถดึงพลังงานได้ถึง 700 วัตต์จากซ็อกเก็ต SXM เพียงอย่างเดียว[ 10 ]การไม่มีสายเคเบิลยังทำให้การประกอบและการซ่อมแซมระบบขนาดใหญ่ทำได้ง่ายขึ้นมาก และยังช่วยลดจำนวนจุดที่อาจเกิดความล้มเหลวได้อีกด้วย[ 2 ]

เริ่มต้นจาก P100 [ 11 ] [ 12 ] [ 13 ]ไปจนถึง V100 [ 14 ]ไปจนถึง A100 [ 15 ]ไปจนถึง H100 [ 16 ]ไปจนถึง B200 [ 17 ] [ 18 ]และไปจนถึง R100 [ 19 ]การเปรียบเทียบเครื่องเร่งอนุภาคที่ใช้ใน DGX:

ทั่วไปและสถาปัตยกรรม

แบบอย่าง สถาปัตยกรรม ซ็อกเก็ต จีพี กระบวนการผลิต จำนวนทรานซิสเตอร์

(พันล้าน)

ขนาดแม่พิมพ์

(มม. ² )

เปิดตัว
พี100 ปาสคาลSXM/SXM2 จีพี100 TSMC 16FF+ 15.3 610 ไตรมาสที่ 2 ปี 2559
V100 16GB โวลต้าSXM2 จีวี100 ทีเอสเอ็มซี 12เอฟเอ็น 21.1 815 ไตรมาสที่ 3 ปี 2560
V100 32GB SXM3
A100 40GB แอมแปร์SXM4 GA100 ทีเอสเอ็มซีเอ็น7 54.2 826 ไตรมาสที่ 1 ปี 2020
A100 80GB ไตรมาสที่ 4 ปี 2020
เอช100 ฮอปเปอร์SXM5 GH100 ทีเอสเอ็มซี 4เอ็น 80 814 ไตรมาสที่ 3 ปี 2022
เอช200 ไตรมาสที่ 3 ปี 2023
บี100 แบล็กเวลล์SXM6 จีบี100 ทีเอสเอ็มซี 4เอ็นพี 208 ไม่มีข้อมูล ไตรมาสที่ 4 ปี 2024
บี200
100 แรนด์ รูบินSXM7ไม่มีข้อมูลทีเอสเอ็มซี 3เอ็น 338ไม่มีข้อมูลครึ่งหลังของปี 2026

คอร์, นาฬิกา และพลังงาน

แบบอย่าง นาฬิกาเร่งความเร็ว

(เมกะเฮิร์ตซ์)

#SM แกนกลาง

(FP32 CUDA)

แกนกลาง

(FP64 ไม่รวมเทนเซอร์)

แกนกลาง

(ผสม INT32/FP32)

แกนกลาง

(INT32)

ทีดีพี

(W)

พี100 1480 56 3584 ค.ศ. 1792ไม่มีข้อมูลไม่มีข้อมูล300
V100 16GB 1530 80 5120 2560 ไม่มีข้อมูล 5120 300
V100 32GB 350
A100 40GB 1410 108 6912 3456 6912 ไม่มีข้อมูล 400
A100 80GB
เอช100 1980 132 16896 4608 16896 ไม่มีข้อมูล 700
เอช200 1000
บี100 ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล700
บี200 ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล1000
100 แรนด์ ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล2300

หน่วยความจำและแคช

แบบอย่าง ประเภทหน่วยความจำ

(เอชบีเอ็ม)

ขนาด VRAM

(สหราชอาณาจักร)

ความเร็วหน่วยความจำ

(กิกะไบต์/วินาที)

ความกว้างของรถบัส

(บิต)

แบนด์วิดท์

(TB/s)

แคช L1

ต่อ SM (KB)

แคช L1

รวม (KB)

แคช L2

(KB)

พี100 เอชบีเอ็ม2 16 1.4 4096 0.72 24 1344 4096
V100 16GB เอชบีเอ็ม2 16 1.75 4096 0.9 128 10240 6144
V100 32GB 32
A100 40GB เอชบีเอ็ม2 40 2.4 5120 1.52 192 20736 40960
A100 80GB HBM2e 80 3.2
เอช100 เอชบีเอ็ม3 80 5.2 5120 3.35 192 25344 51200
เอช200 HBM3e 141 6.3 6144 4.8
บี100 HBM3e 192 8 8192 8 ไม่มีข้อมูล ไม่มีข้อมูล ไม่มีข้อมูล
บี200
100 แรนด์ เอชบีเอ็ม4ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล

ประสิทธิภาพการประมวลผล การเชื่อมต่อ และเครือข่าย

แบบอย่าง เอฟพี32

(TFLOPS)

เอฟพี64

(TFLOPS)

อินที8

เทนเซอร์หนาแน่น

FP16

เทนเซอร์หนาแน่น

บฟลัต16

เทนเซอร์หนาแน่น

เอฟเอฟ32

เทนเซอร์หนาแน่น

เอฟพี64

เทนเซอร์หนาแน่น

การเชื่อมต่อ

(NVLink; เทราไบต์/วินาที)

การสร้างเครือข่าย
พี100 10.6 5.3ไม่มีข้อมูล21.2ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูล0.16 คอนเน็กต์เอ็กซ์-4

(100 กิกะไบต์/วินาที)

V100 16GB 15.7 7.8 ไม่มีข้อมูล 125 TFLOPS ไม่มีข้อมูล ไม่มีข้อมูล ไม่มีข้อมูล 0.3 คอนเน็กต์เอ็กซ์-5

(100 กิกะไบต์/วินาที)

V100 32GB
A100 40GB 19.5 9.7 624 ท็อปส์ 312 TFLOPS 312 TFLOPS 156 TFLOPS 19.5 TFLOPS 0.6 คอนเน็กต์เอ็กซ์-6

(200 กิกะไบต์/วินาที)

A100 80GB
เอช100 67 34 1.98 ป๊อปส์ 990 TFLOPS 990 TFLOPS 495 TFLOPS 67 TFLOPS 0.9 คอนเน็กต์เอ็กซ์-7

(400 กิกะไบต์/วินาที)

เอช200
บี100 ไม่มีข้อมูลไม่มีข้อมูล3.5 ป๊อปส์ 1.98 PFLOPS 1.98 PFLOPS 989 TFLOPS 30 TFLOPS 1.8 คอนเน็กต์เอ็กซ์-7

(400 กิกะไบต์/วินาที)

บี200 ไม่มีข้อมูลไม่มีข้อมูล4.5 ป๊อปส์ 2.25 ฟล็อปส์ 2.25 ฟล็อปส์ 1.2 PFLOPS 40 ทฟล็อปส์
100 แรนด์ ไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลไม่มีข้อมูลคอนเน็กต์เอ็กซ์-9

(1600 กิกะไบต์/วินาที)

ดูเพิ่มเติม

  • Tegra  – ระบบประมวลผลแบบรวมศูนย์ (System on a Chip) จาก Nvidia
  • หน้าเว็บของศูนย์ประมวลผลประสิทธิภาพสูงแห่งชาติเออร์ลังเงน เกี่ยวกับการประมวลผลประสิทธิภาพสูงด้วย A100 จำนวน 4 และ 8 ตัวต่อโหนดคอมพิวเตอร์รวมถึงแสดงข้อมูลการดัมพ์โทโพโลยีของสวิตช์ด้วย
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=SXM_(socket)&oldid=1353639545 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ SXM (ซ็อกเก็ต)

SXM (Server PCI Express Module) [ 1 ] เป็น โซลูชัน ซ็อก เก็ต แบนด์วิดท์สูง สำหรับเชื่อมต่อ Nvidia Compute Accelerators เข้ากับระบบ Nvidia Tesla แต่ละรุ่น ตั้งแต่รุ่น P100,...

รายละเอียดทางเทคนิค

โดยทั่วไปแล้วบอร์ด SXM จะถูกสร้างขึ้นโดยมีสล็อต GPU สี่หรือแปดสล็อต แม้ว่าบางโซลูชัน เช่น Nvidia DGX-2 จะเชื่อมต่อบอร์ดหลายบอร์ดเพื่อมอบประสิทธิภาพสูงก็ตาม แม้ว่าจะมีโซลูชันจากบริษัทภายนอกสำหรับบอร์ด SXM อยู่ แต่ ผู้ประกอบระบบ ส่วนใหญ่ เช่น Supermicro...

ดูเพิ่มเติม

Tegra – ระบบประมวลผลแบบรวมศูนย์ (System on a Chip) จาก Nvidia

ลิงก์ภายนอก

หน้าเว็บของศูนย์ประมวลผลประสิทธิภาพสูงแห่งชาติเออร์ลังเงน เกี่ยวกับการประมวลผลประสิทธิภาพสูงด้วย A100 จำนวน 4 และ 8 ตัวต่อโหนดคอมพิวเตอร์รวมถึงแสดงข้อมูลการดัมพ์โทโพโลยีของสวิตช์ด้วย ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?