กลับไปหน้าบทความ

อ่าน 6 นาที

สถาปัตยกรรมระบบที่หลากหลาย

สถาปัตยกรรมระบบเฮเทอโรจีนัส ( HSA ) คือชุดข้อกำหนดข้ามผู้จำหน่ายที่อนุญาตให้รวม หน่วยประมวลผลกลาง และ หน่วยประมวลผลกราฟิก บนบัสเดียวกัน โดยใช้ หน่วยความจำ และ งาน ร่วม กัน [ 1 ]...

สถาปัตยกรรมระบบที่หลากหลาย

สถาปัตยกรรมระบบเฮเทอโรจีนัส ( HSA ) คือชุดข้อกำหนดข้ามผู้จำหน่ายที่อนุญาตให้รวมหน่วยประมวลผลกลางและหน่วยประมวลผลกราฟิกบนบัสเดียวกัน โดยใช้หน่วยความจำและงาน ร่วม กัน[ 1 ] HSA กำลังได้รับการพัฒนาโดยมูลนิธิ HSAซึ่งรวมถึง (ในบรรดาบริษัทอื่นๆ อีกมากมาย) AMDและARMเป้าหมายที่ระบุไว้ของแพลตฟอร์มนี้คือการลดความหน่วงในการสื่อสารระหว่าง CPU, GPU และอุปกรณ์ประมวลผล อื่นๆ และทำให้อุปกรณ์ต่างๆ เหล่านี้เข้ากันได้มากขึ้นจากมุมมองของโปรแกรมเมอร์[ 2 ] : 3 [ 3 ]ช่วยลดภาระงานของโปรแกรมเมอร์ในการวางแผนการย้ายข้อมูลระหว่างหน่วยความจำที่ไม่ทับซ้อนกันของอุปกรณ์ (ดังที่ต้องทำในปัจจุบันด้วยOpenCLหรือCUDA ) [ 4 ]

CUDA และ OpenCL รวมถึงภาษาโปรแกรมขั้นสูงอื่นๆ ส่วนใหญ่สามารถใช้ HSA เพื่อเพิ่มประสิทธิภาพการทำงานได้[ 5 ]การประมวลผลแบบเฮเทอโรจีนัสถูกนำมาใช้กันอย่างแพร่หลายใน อุปกรณ์ ระบบบนชิปเช่นแท็บเล็สมาร์ทโฟนอุปกรณ์พกพาอื่นๆ และคอนโซลวิดีโอเกม [ 6 ] HSAช่วยให้โปรแกรมสามารถใช้โปรเซสเซอร์กราฟิกสำหรับ การคำนวณ จุดลอยตัวโดยไม่ต้องใช้หน่วยความจำหรือการจัดตารางเวลาแยกต่างหาก[ 7 ]

เหตุผล

แนวคิดเบื้องหลัง HSA คือการลดภาระของโปรแกรมเมอร์เมื่อทำการถ่ายโอนการคำนวณไปยัง GPU เดิมทีแนวคิดนี้ถูกพัฒนาโดย AMD เพียงอย่างเดียวและเรียกว่า FSA แต่ต่อมาได้ขยายไปครอบคลุมหน่วยประมวลผลอื่นๆ นอกเหนือจาก GPU เช่นDSP ของผู้ผลิตรายอื่นๆ ด้วยเช่นกัน

หน่วยประมวลผลกราฟิก (GPU) สมัยใหม่มีความเหมาะสมอย่างยิ่งสำหรับการประมวลผลคำสั่งเดียว ข้อมูลหลายชุด (SIMD) และคำสั่งเดียว เธรดหลายตัว (SIMT) ในขณะที่หน่วยประมวลผลกลาง (CPU) สมัยใหม่ยังคงอยู่ในช่วงการปรับปรุงประสิทธิภาพสำหรับการประมวลผลแบบแยกสาขา เป็นต้น

ภาพรวม

การแบ่งปันหน่วยความจำระบบโดยตรงระหว่างส่วนประกอบระบบหลายส่วน ทำให้การประมวลผลแบบไม่เป็นเนื้อเดียวกัน (Heterogeneous computing) กลายเป็นเรื่องปกติมากขึ้น โดยเริ่มแรกถูกนำมาใช้ในระบบฝังตัวเช่นCell Broadband Engine การประมวลผลแบบไม่เป็นเนื้อเดียวกันหมายถึงระบบที่มีหน่วยประมวลผลหลายหน่วย ได้แก่ หน่วยประมวลผลกลาง (CPU) หน่วยประมวลผลกราฟิก (GPU) หน่วยประมวลผลสัญญาณดิจิทัล (DSP) หรือวงจรรวมเฉพาะงาน (ASIC) ทุกประเภท สถาปัตยกรรมของระบบนี้ช่วยให้ตัวเร่งความเร็วใดๆ เช่นหน่วยประมวลผลกราฟิกสามารถทำงานในระดับการประมวลผลเดียวกันกับ CPU ของระบบได้

ในบรรดาคุณสมบัติหลัก HSA กำหนดพื้นที่แอดเดรสเสมือน แบบรวม สำหรับอุปกรณ์ประมวลผล: โดยทั่วไป GPU จะมีหน่วยความจำของตัวเองแยกต่างหากจากหน่วยความจำหลัก (CPU) HSA กำหนดให้อุปกรณ์เหล่านี้ใช้ตารางเพจ ร่วมกัน เพื่อให้อุปกรณ์สามารถแลกเปลี่ยนข้อมูลได้โดยการใช้พอยเตอร์ ร่วมกัน ซึ่งจะได้รับการสนับสนุนโดยหน่วยจัดการหน่วยความจำ แบบกำหนด เอง[ 2 ] : 6–7 เพื่อให้สามารถทำงานร่วมกันได้และเพื่ออำนวยความสะดวกในด้านต่างๆ ของการเขียนโปรแกรม HSA มีจุดประสงค์เพื่อให้ ไม่ขึ้นกับ ISAสำหรับทั้ง CPU และตัวเร่งความเร็ว และเพื่อรองรับภาษาการเขียนโปรแกรมระดับสูง

จนถึงปัจจุบัน ข้อกำหนดของ HSA ครอบคลุมถึง:

ชั้นกลาง HSA

HSAIL (Heterogeneous System Architecture Intermediate Language) คือชุดคำสั่งเสมือนสำหรับโปรแกรมแบบขนาน

  • คล้ายกับLLVM Intermediate RepresentationและSPIR (ที่ใช้โดยOpenCLและVulkan )
  • แปลงให้สมบูรณ์เป็นชุดคำสั่งเฉพาะโดยคอมไพเลอร์ JIT
  • ตัดสินใจล่าช้าว่าควรใช้คอร์ใดในการประมวลผลงาน
  • ขนานกันอย่างชัดเจน
  • รองรับข้อยกเว้น ฟังก์ชันเสมือน และคุณสมบัติระดับสูงอื่นๆ
  • การสนับสนุนการดีบัก

โมเดลหน่วยความจำ HSA

  • ใช้งานร่วมกับโมเดลหน่วยความจำของC++11 , OpenCL, Javaและ.NET ได้
  • ความสม่ำเสมอที่ผ่อนคลาย
  • ออกแบบมาเพื่อรองรับทั้งภาษาโปรแกรมแบบจัดการ (เช่น Java) และภาษาโปรแกรมแบบไม่จัดการ (เช่นC )
  • จะทำให้การพัฒนาคอมไพเลอร์จากภายนอกสำหรับผลิตภัณฑ์ที่หลากหลายซึ่งเขียนด้วยภาษาFortran , C++, C++ AMP , Java และอื่นๆ ทำได้ง่ายขึ้นมาก

ตัวจัดการและเวลาการทำงานของ HSA

  • ออกแบบมาเพื่อรองรับการจัดคิวงานที่หลากหลาย: คิวงานต่อคอร์ การกระจายงานไปยังคิว และการปรับสมดุลโหลดโดยการแย่งงาน
  • แกนประมวลผลใดๆ ก็สามารถกำหนดตารางงานให้กับแกนประมวลผลอื่นๆ ได้ รวมถึงตัวมันเองด้วย
  • ลดภาระงานด้านการวางแผนตารางงานสำหรับระบบหลักได้อย่างมาก

อุปกรณ์เคลื่อนที่เป็นหนึ่งในพื้นที่การใช้งานของ HSA ซึ่งส่งผลให้ประสิทธิภาพการใช้พลังงานดีขึ้น[ 6 ]

แผนภาพบล็อก

ภาพประกอบด้านล่างเปรียบเทียบการประสานงานระหว่าง CPU และ GPU ภายใต้สถาปัตยกรรม HSA กับสถาปัตยกรรมแบบดั้งเดิม

การสนับสนุนซอฟต์แวร์

GPU ของ AMD มีหน่วยการทำงานเพิ่มเติมบางส่วนที่ออกแบบมาเพื่อใช้เป็นส่วนหนึ่งของ HSA ใน Linux ไดรเวอร์เคอร์เนลamdkfdให้การสนับสนุนที่จำเป็น[ 9 ] [ 10 ]

คุณสมบัติเฉพาะของ HSA บางอย่างที่ใช้งานในฮาร์ดแวร์จำเป็นต้องได้รับการสนับสนุนจากเคอร์เนลระบบปฏิบัติการและไดรเวอร์อุปกรณ์เฉพาะ ตัวอย่างเช่น การสนับสนุนการ์ดกราฟิก AMD RadeonและAMD FireProและAPUที่ใช้Graphics Core Next (GCN) ได้ถูกรวมเข้าในเวอร์ชัน 3.19 ของเคอร์เนล Linux หลักซึ่งเผยแพร่เมื่อวันที่ 8 กุมภาพันธ์ 2015 [ 10 ] โปรแกรมจะไม่โต้ตอบโดยตรงกับamdkfdแต่จะจัดคิวงานโดยใช้รันไทม์ HSA [ 11 ] การใช้งานครั้งแรกนี้ ซึ่งรู้จักกันในชื่อamdkfdมุ่งเน้นไปที่ APU "Kaveri"หรือ "Berlin" และทำงานร่วมกับไดรเวอร์กราฟิกเคอร์เนล Radeon ที่มีอยู่

นอกจากนี้amdkfdยังรองรับการจัดคิวแบบไม่เป็นเนื้อเดียวกัน (HQ) ซึ่งมีจุดมุ่งหมายเพื่อลดความซับซ้อนของการกระจายงานคำนวณระหว่าง CPU และ GPU หลายตัวจากมุมมองของโปรแกรมเมอร์ การสนับสนุนการจัดการหน่วยความจำแบบไม่เป็นเนื้อเดียวกัน ( HMM ) ซึ่งเหมาะสำหรับฮาร์ดแวร์กราฟิกที่มี IOMMUเวอร์ชัน 2 ของ AMD เท่านั้นได้รับการยอมรับเข้าสู่เคอร์เนล Linux เวอร์ชันหลัก 4.14 [ 12 ]

มีการประกาศการสนับสนุนแบบบูรณาการสำหรับแพลตฟอร์ม HSA สำหรับ OpenJDKเวอร์ชัน "Sumatra" ซึ่งมีกำหนดวางจำหน่ายในปี 2015 [ 13 ]

AMD APP SDKเป็นชุดพัฒนาซอฟต์แวร์ที่เป็นกรรมสิทธิ์ของ AMD ที่มุ่งเน้นการประมวลผลแบบขนานมีให้ใช้งานสำหรับ Microsoft Windows และ Linux Bolt เป็นไลบรารีเทมเพลต C++ ที่ได้รับการปรับให้เหมาะสมสำหรับการประมวลผลแบบเฮเทอโรจีนัส[ 14 ]

GPUOpenเข้าใจเครื่องมือซอฟต์แวร์อื่นๆ ที่เกี่ยวข้องกับ HSA อีกหลายอย่างCodeXLเวอร์ชัน 2.0 มีโปรไฟล์ HSA [ 15 ]

การรองรับฮาร์ดแวร์

เอดีเอ็ม

ณ เดือนกุมภาพันธ์ 2558 มีเพียงหน่วยประมวลผลกราฟิก (APU) ตระกูล "Kaveri" A-series ของ AMD (เช่นหน่วยประมวลผลเดสก์ท็อป "Kaveri"และหน่วยประมวลผลมือถือ "Kaveri" ) และเครื่องเล่น เกม PlayStation 4ของ Sony เท่านั้น ที่อนุญาตให้GPU ในตัวเข้าถึงหน่วยความจำผ่านทาง IOMMU เวอร์ชัน 2 ของ AMD APU รุ่นก่อนหน้า (Trinity และ Richland) ก็มีฟังก์ชัน IOMMU เวอร์ชัน 2 เช่นกัน แต่ใช้ได้เฉพาะกับ GPU ภายนอกที่เชื่อมต่อผ่าน PCI Express เท่านั้น

APU รุ่น Carrizo และ Bristol Ridge ที่ผลิตหลังปี 2015 ยังมีฟังก์ชัน IOMMU เวอร์ชัน 2 สำหรับ GPU ในตัวอีกด้วย

ตารางต่อไปนี้แสดงคุณสมบัติของโปรเซสเซอร์ AMD ที่มีกราฟิก 3 มิติ รวมถึงAPU (ดูเพิ่มเติม: รายชื่อโปรเซสเซอร์ AMD ที่มีกราฟิก 3 มิติ )

แพลตฟอร์ม กำลังสูง กำลังมาตรฐาน และกำลังต่ำ พลังงานต่ำและต่ำมาก
ชื่อรหัสเซิร์ฟเวอร์ พื้นฐาน โตรอนโต
ไมโคร เกียวโต
เดสก์ท็อป ผลงาน ราฟาเอลฟีนิกซ์
กระแสหลัก ลลาโนทรีนิตี้ริชแลนด์กาเวรีกาเวรี รีเฟรช (โกดาวารี)คาร์ริโซ่บริสตอล ริดจ์เรเวน ริดจ์ปิกัสโซเรอนัวร์เซซานน์
รายการ
พื้นฐาน คาบินีดาลี
มือถือผลงาน เรอนัวร์เซซานน์เรมแบรนด์ดราก้อนเรนจ์
กระแสหลัก ลลาโนทรีนิตี้ริชแลนด์กาเวรีคาร์ริโซ่บริสตอล ริดจ์เรเวน ริดจ์ปิกัสโซเรอนัวร์ลูเซียนน์เซซานบาร์เซโลฟีนิกซ์
รายการ ดาลีเมนโดซิโน
พื้นฐาน เดสนา, ออนแทรีโอ, ซาคาเต้คาบินี เทมาชบีมา, มัลลินส์คาร์ริโซ่-แอลสโตนีย์ ริดจ์พอลล็อก
ฝังตัว ทรีนิตี้นกอินทรีหัวขาวเหยี่ยวเมอร์ลิน , เหยี่ยวสีน้ำตาลนกฮูกเขาใหญ่เกรย์ฮอว์กออนแทรีโอ, ซาคาเต้คาบินีนกอินทรีสเตปป์ , นกอินทรีมงกุฎ , ตระกูล LXเหยี่ยวทุ่งหญ้าเหยี่ยวลายแถบริเวอร์ฮอว์ก
ปล่อยแล้วสิงหาคม 2554ตุลาคม 2555มิถุนายน 2556มกราคม 2557 2015มิถุนายน 2558มิถุนายน 2559ตุลาคม 2560มกราคม 2562มีนาคม 2020 มกราคม 2564มกราคม 2565กันยายน 2022มกราคม 2566มกราคม 2554พฤษภาคม 2556เมษายน 2557พฤษภาคม 2558กุมภาพันธ์ 2559เมษายน 2562กรกฎาคม 2020มิถุนายน 2565พฤศจิกายน 2022
สถาปัตยกรรมไมโครของซีพียูเค10เครื่องตอกเสาเข็มรถบดถนนรถขุด" รถขุด+ " [ 16 ]เซนเซน+เซน 2เซน 3เซน 3+เซน 4บ็อบแคทจากัวร์พูม่าพูม่า+ [ 17 ]" รถขุด+ " เซนเซน+" เซน 2+ "
ISAx86-64 v1x86-64เวอร์ชัน 2x86-64 v3x86-64 v4x86-64 v1x86-64เวอร์ชัน 2x86-64 v3
ซ็อกเก็ตเดสก์ท็อป ผลงาน ไม่มีข้อมูลเอเอ็ม5ไม่มีข้อมูลไม่มีข้อมูล
กระแสหลัก ไม่มีข้อมูลเอเอ็ม4ไม่มีข้อมูลไม่มีข้อมูล
รายการ เอฟเอ็ม1เอฟเอ็ม2เอฟเอ็ม2+FM2+ [ a ] ​​, AM4เอเอ็ม4ไม่มีข้อมูล
พื้นฐาน ไม่มีข้อมูลไม่มีข้อมูลเอเอ็ม1ไม่มีข้อมูลFP5ไม่มีข้อมูล
อื่น เอฟเอส1FS1+ , FP2เอฟพี3เอฟพี4FP5เอฟพี6เอฟพี7เอฟแอล1 FP7 FP7r2 FP8 เอฟที1เอฟที3เอฟที3บีเอฟพี4FP5เอฟที5FP5เอฟที6
เวอร์ชัน PCI Express2.0 3.0 4.0 5.0 4.0 2.0 3.0
ซีเอ็กซ์แอลไม่มีข้อมูลไม่มีข้อมูล
แฟบ ( นาโนเมตร ) GF 32SHP ( HKMG SOI ) GF 28SHP (HKMG แบบขายส่ง) GF 14LPP ( FinFETแบบก้อน) GF 12LP (FinFET แบบก้อน) TSMC N7 (FinFET bulk) TSMC N6 (FinFET bulk) CCD: TSMC N5 (FinFET bulk) cIOD: TSMC N6 (FinFET bulk)TSMC 4nm (FinFET bulk) TSMC N40 (จำนวนมาก) TSMC N28 (HKMG แบบขายส่ง) GF 28SHP (HKMG แบบขายส่ง) GF 14LPP ( FinFETแบบก้อน) GF 12LP (FinFET แบบก้อน) TSMC N6 (FinFET bulk)
พื้นที่ แม่พิมพ์ (มม. ² )228246245245250210 [ 18 ]156 180210CCD: (2x) 70 cIOD: 122 17875 (+ 28 FCH )107?125149~100
TDPขั้นต่ำ(W)351712101565354.543.95106128
TDPสูงสุดของ APU (วัตต์)10095654517054182565415
ความเร็วสัญญาณนาฬิกาพื้นฐานสูงสุดของ APU (GHz)33.84.14.13.73.83.63.73.84.03.34.74.31.752.222.23.22.61.23.352.8
จำนวน APU สูงสุดต่อโหนด[ b ]11
จำนวนคอร์สูงสุดต่อซีพียู1211
จำนวน CCX สูงสุดต่อชิปหลัก1211
จำนวนคอร์สูงสุดต่อ CCX482424
จำนวนคอร์CPUสูงสุด[ c ] ต่อ APU481682424
จำนวน เธรดสูงสุดต่อคอร์ CPU1212
โครงสร้างไปป์ไลน์จำนวนเต็ม3+32+24+24+2+11+3+3+1+21+1+1+12+24+24+2+1
i386, i486, i586, CMOV, NOPL, i686, PAE , NX bit , CMPXCHG16B, AMD-V , RVI , ABMและ LAHF/SAHF 64 บิตใช่ใช่
IOMMU [ d ]ไม่มีข้อมูลเวอร์ชัน 2ว1เวอร์ชัน 2
BMI1 , AES-NI , CLMULและF16Cใช่ไม่มีข้อมูลใช่
มูฟบีไม่มีข้อมูลใช่
AVIC , BMI2 , RDRANDและ MWAITX/MONITORX ไม่มีข้อมูลใช่
SME [ e ] , TSME [ e ] , ADX , SHA , RDSEED , SMAP , SMEP , XSAVEC, XSAVES, XRSTORS, CLFLUSHOPT, CLZERO และ PTE Coalescingไม่มีข้อมูลใช่ไม่มีข้อมูลใช่
GMET , WBNOINVD, CLWB, QOS, PQE-BW, RDPID, RDPRU และ MCOMMITไม่มีข้อมูลใช่ไม่มีข้อมูลใช่
เอ็มพีเค , วีเอสไม่มีข้อมูลใช่ไม่มีข้อมูล
เอสจีเอ็กซ์ไม่มีข้อมูลไม่มีข้อมูล
หน่วยประมวลผลทศลบต่อคอร์10.5110.51
ท่อต่อ FPU22
ความกว้างท่อ FPU128 บิต256 บิต80 บิต128 บิต256 บิต
ชุดคำสั่ง CPU ระดับSIMDSSE4a [ f ]เอวีเอ็กซ์เอวีเอ็กซ์2เอวีเอ็กซ์-512เอสเอสเอสอี3เอวีเอ็กซ์เอวีเอ็กซ์2
3DNow!3DNow!+ไม่มีข้อมูลไม่มีข้อมูล
พรีเฟตช์/พรีเฟตช์ดับเบิลยูใช่ใช่
จีเอฟเอ็นไอไม่มีข้อมูลใช่ไม่มีข้อมูล
เอเอ็มเอ็กซ์ไม่มีข้อมูล
FMA4 , LWP, TBMและXOPไม่มีข้อมูลใช่ไม่มีข้อมูลไม่มีข้อมูลใช่ไม่มีข้อมูล
เอฟเอ็มเอ3ใช่ใช่
เอดีเอ็ม เอ็กซ์ดีเอ็นเอไม่มีข้อมูลใช่ไม่มีข้อมูล
แคชข้อมูลL1 ต่อคอร์ (กิโลไบต์)64163232
ความสัมพันธ์ของแคชข้อมูล L1 (วิธี)2488
แคชคำสั่ง L1 ต่อคอร์10.51 10.51
แคชคำสั่ง L1 รวมสูงสุดของ APU (กิโลไบต์)256128192256512256 64128 96 128
การเชื่อมโยงแคชคำสั่ง L1 (วิธี)2348 2 3 4 8
แคช L2ต่อคอร์10.5110.51
แคช L2 รวมสูงสุดของ APU (MiB)424161212
การเชื่อมโยงแคช L2 (วิธี)168168
แคช L3 on-die สูงสุดต่อ CCX (MiB)ไม่มีข้อมูล41632ไม่มีข้อมูล4
ขนาดแคช 3 มิติสูงสุดต่อ CCD (MiB)ไม่มีข้อมูล64ไม่มีข้อมูลไม่มีข้อมูล
ขนาด แคช L3ใน CCD สูงสุดต่อ APU (MiB)4816644
สูงสุด 3D V-Cache ทั้งหมดต่อ APU (MiB)ไม่มีข้อมูล64ไม่มีข้อมูลไม่มีข้อมูล
ขนาดแคช L3 สูงสุด ต่อ APU (MiB)ไม่มีข้อมูลไม่มีข้อมูล
ขนาด แคช L3รวมสูงสุดต่อ APU (MiB)48161284
ความสัมพันธ์ของแคช L3 ของ APU (จำนวนครั้ง)1616
รูปแบบแคช L3เหยื่อเหยื่อ
แคช L4สูงสุดไม่มีข้อมูลไม่มีข้อมูล
รองรับDRAMสูงสุดDDR3 -1866DDR3-2133DDR3-2133 , DDR4-2400DDR4-2400DDR4-2933DDR4-3200 , LPDDR4-4266DDR5 -4800, LPDDR5 -6400DDR5 -5200DDR5 -5600, LPDDR5x -7500DDR3L -1333DDR3L-1600DDR3L-1866DDR3-1866 , DDR4-2400DDR4-2400DDR4-1600DDR4-3200แอลพีดีอาร์5-5500
จำนวนช่อง DRAMสูงสุดต่อ APU21212
แบนด์วิดท์DRAM สูงสุด(GB/s) ต่อ APU29.86634.13238,400 บาท46.93268.256102.40083.200120,000 บาท 10.66612,800 บาท14.93319.20038,400 บาท12,800 บาท51.20088,000 บาท
สถาปัตยกรรมไมโครของ GPUเทราสเกล 2 (VLIW5)เทราสเกล 3 (VLIW4)GCN รุ่นที่ 2GCN เจนเนอเรชั่นที่ 3GCN เจนเนอเรชั่นที่ 5 [ 19 ]อาร์ดีเอ็นเอ 2อาร์ดีเอ็นเอ 3เทราสเกล 2 (VLIW5)GCN รุ่นที่ 2GCN เจนเนอเรชั่นที่ 3 [ 19 ]GCN เจนเนอเรชั่นที่ 5อาร์ดีเอ็นเอ 2
ชุดคำสั่ง GPUชุดคำสั่งTeraScaleชุดคำสั่ง GCNชุดคำสั่ง RDNAชุดคำสั่งTeraScaleชุดคำสั่ง GCNชุดคำสั่ง RDNA
ความเร็วสัญญาณนาฬิกาพื้นฐานสูงสุดของ GPU (MHz)60080084486611081250140021002400400538600?84790012006001300ปี ค.ศ. 1900
ประสิทธิภาพสูงสุดของ GPU พื้นฐาน(GFLOPS) [ g ]480614.4648.1886.71134.517601971.22150.43686.4102.486???345.6460.8230.41331.2486.4
เอ็นจิ้น 3 มิติ[ h ]สูงสุด 400:20:8สูงสุด 384:24:6สูงสุด 512:32:8จนถึง 704:44:16 [ 20 ]สูงสุด 512:32:8768:48:8128:8:480:8:4128:8:4สูงสุด 192:12:8สูงสุด 192:12:4192:12:4สูงสุด 512:?128:??
IOMMUv1ไอโอเอ็มเอ็มยูวี2IOMMUv1?ไอโอเอ็มเอ็มยูวี2
ตัวถอดรหัสวิดีโอยูวีดี 3.0ยูวีดี 4.2ยูวีดี 6.0VCN 1.0 [ 21 ]VCN 2.1 [ 22 ]VCN 2.2 [ 22 ]วีซีเอ็น 3.1?ยูวีดี 3.0ยูวีดี 4.0ยูวีดี 4.2ยูวีดี 6.2วีซีเอ็น 1.0วีซีเอ็น 3.1
ตัวเข้ารหัสวิดีโอไม่มีข้อมูลวีซีอี 1.0วีซีอี 2.0วีซีอี 3.1ไม่มีข้อมูลวีซีอี 2.0วีซีเอ 3.4
เอดีเอ็ม ฟลูอิด โมชั่น เลขที่ใช่เลขที่เลขที่ใช่เลขที่
การประหยัดพลังงาน GPUพาวเวอร์เพลย์พาวเวอร์จูนพาวเวอร์เพลย์พาวเวอร์จูน[ 23 ]
ทรูออดิโอไม่มีข้อมูลใช่[ 24 ]? ไม่มีข้อมูลใช่
ฟรีซิงค์1 2 1 2
HDCP [ i ]?1.42.22.3?1.42.22.3
PlayReady [ i ]ไม่มีข้อมูล3.0 ยังไม่พร้อมใช้งานไม่มีข้อมูล3.0 ยังไม่พร้อมใช้งาน
จอแสดงผลที่รองรับ[ j ]2–32–433 (เดสก์ท็อป) 4 (มือถือ, ฝังตัว)42344
/drm/radeon[ k ] [ 26 ] [ 27 ]ใช่ไม่มีข้อมูลใช่ไม่มีข้อมูล
/drm/amdgpu[ k ] [ 28 ]ไม่มีข้อมูลใช่[ 29 ]ไม่มีข้อมูลใช่[ 29 ]
  1. ^สำหรับรถขุดรุ่น FM2+: A8-7680, A6-7480 และ Athlon X4 845
  2. ^คอมพิวเตอร์ส่วนบุคคล (PC) จะนับเป็นหนึ่งโหนด
  3. ^ APU คือการรวม CPU และ GPU เข้าด้วยกัน โดยทั้งสองส่วนมีคอร์
  4. ^ต้องใช้เฟิร์มแวร์ที่รองรับ
  5. ^ a bต้องใช้เฟิร์มแวร์รองรับ
  6. ^ไม่มี SSE4 ไม่มี SSSE3
  7. ^ ประสิทธิภาพการ คำนวณแบบความแม่นยำเดี่ยวจะคำนวณจากความเร็วสัญญาณนาฬิกาหลักพื้นฐาน (หรือบูสต์) โดยอิงจากการดำเนินการ FMA
  8. ^เชเดอร์แบบรวม  :หน่วยการแมปพื้นผิว  :หน่วยเอาต์พุตการเรนเดอร์
  9. ^ a bในการเล่นเนื้อหาวิดีโอที่มีการป้องกัน จำเป็นต้องมีการ์ด ระบบปฏิบัติการ ไดรเวอร์ และแอปพลิเคชันที่รองรับ นอกจากนี้ยังต้องใช้จอแสดงผลที่เข้ากันได้กับ HDCP ด้วย HDCP เป็นข้อบังคับสำหรับการส่งออกรูปแบบเสียงบางรูปแบบ ซึ่งเป็นการเพิ่มข้อจำกัดเพิ่มเติมในการตั้งค่ามัลติมีเดีย
  10. ^หากต้องการจ่ายไฟให้กับจอแสดงผลมากกว่าสองจอ แผงเพิ่มเติมจะต้องรองรับ DisplayPort ในตัว [ 25 ]หรืออาจใช้ตัวแปลง DisplayPort เป็น DVI/HDMI/VGA แบบแอคทีฟก็ได้
  11. ^ a b DRM ( Direct Rendering Manager ) เป็นส่วนประกอบหนึ่งของเคอร์เนล Linux การสนับสนุนในตารางนี้หมายถึงเวอร์ชันล่าสุด

แขน

สถาปัตยกรรมไมโคร Bifrostของ ARM ซึ่งใช้งานใน Mali-G71 [ 30 ]เป็นไปตามข้อกำหนดฮาร์ดแวร์ HSA 1.1 อย่างสมบูรณ์ ณ เดือนมิถุนายน 2016 ARM ยังไม่ได้ประกาศการสนับสนุนซอฟต์แวร์ที่จะใช้คุณสมบัติฮาร์ดแวร์นี้

ดูเพิ่มเติม

  • วิดีโอ "ภาพรวมสถาปัตยกรรมระบบเฮเทอโรจีนัส (HSA)"โดย Vinod Tipparajuบน YouTube ใน งาน SC13เดือนพฤศจิกายน 2013
  • HSA และระบบนิเวศซอฟต์แวร์
  • 2012 – HSA โดย Michael Houston เก็บถาวรเมื่อวันที่ 5 มีนาคม 2016 ที่Wayback Machine

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Heterogeneous_System_Architecture&oldid=1353034404 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ สถาปัตยกรรมระบบที่หลากหลาย

สถาปัตยกรรมระบบเฮเทอโรจีนัส ( HSA ) คือชุดข้อกำหนดข้ามผู้จำหน่ายที่อนุญาตให้รวม หน่วยประมวลผลกลาง และ หน่วยประมวลผลกราฟิก บนบัสเดียวกัน โดยใช้ หน่วยความจำ และ งาน ร่วม กัน [ 1 ]...

เหตุผล

แนวคิดเบื้องหลัง HSA คือการลดภาระของโปรแกรมเมอร์เมื่อทำการถ่ายโอนการคำนวณไปยัง GPU เดิมทีแนวคิดนี้ถูกพัฒนาโดย AMD เพียงอย่างเดียวและเรียกว่า FSA แต่ต่อมาได้ขยายไปครอบคลุมหน่วยประมวลผลอื่นๆ นอกเหนือจาก GPU เช่น DSP ของผู้ผลิตรายอื่นๆ ด้วยเช่นกัน

ภาพรวม

การแบ่งปันหน่วยความจำระบบโดยตรงระหว่างส่วนประกอบระบบหลายส่วน ทำให้การประมวลผลแบบไม่เป็นเนื้อเดียวกัน (Heterogeneous computing) กลายเป็นเรื่องปกติมากขึ้น โดยเริ่มแรกถูกนำมาใช้ใน ระบบฝังตัว เช่น Cell Broadband Engine...

ชั้นกลาง HSA

HSAIL (Heterogeneous System Architecture Intermediate Language) คือ ชุดคำสั่งเสมือน สำหรับโปรแกรมแบบขนาน