หน่วยความจำภายนอกแบบขนาน

ในวิทยาการคอมพิวเตอร์โมเดลหน่วยความจำภายนอกแบบขนาน (PEM)เป็นเครื่องจักรนามธรรมหน่วยความจำภายนอกที่รับรู้แคช^[¹^]เป็นการเปรียบเทียบการประมวลผลแบบขนานกับ โมเดล หน่วยความจำภายนอกแบบ โปรเซสเซอร์เดี่ยว (EM) ในทำนองเดียวกัน เป็นการเปรียบเทียบที่รับรู้แคชกับเครื่องจักรเข้าถึงแบบสุ่มแบบขนาน (PRAM) โมเดล PEM ประกอบด้วยโปรเซสเซอร์จำนวนหนึ่ง พร้อมด้วยแคชส่วนตัวของแต่ละตัว และหน่วยความจำหลักที่ใช้ร่วมกัน

แบบอย่าง

คำนิยาม

แบบจำลอง PEM ^{[ 1 ]}เป็นการผสมผสานระหว่างแบบจำลอง EM และแบบจำลอง PRAM แบบจำลอง PEM เป็นแบบจำลองการคำนวณที่ประกอบด้วย โปรเซสเซอร์และ ลำดับชั้นหน่วยความจำสองระดับลำดับชั้นหน่วยความจำนี้ประกอบด้วยหน่วยความจำภายนอก ขนาดใหญ่ (หน่วยความจำหลัก) ที่มีขนาดและ หน่วยความจำภายใน ขนาดเล็ก(แคช)โปรเซสเซอร์ใช้หน่วยความจำหลักร่วมกัน แคชแต่ละอันเป็นของโปรเซสเซอร์ตัวเดียวเท่านั้น โปรเซสเซอร์ไม่สามารถเข้าถึงแคชของโปรเซสเซอร์อื่นได้ แคชมีขนาดซึ่งถูกแบ่งออกเป็นบล็อกที่มีขนาดโปรเซสเซอร์สามารถดำเนินการกับข้อมูลที่อยู่ในแคชของตนเท่านั้น ข้อมูลสามารถถ่ายโอนระหว่างหน่วยความจำหลักและแคชได้ในบล็อกที่มีขนาด $P$ $N$ $P$ $M$ $B$ $B$

ความซับซ้อนของอินพุต/เอาต์พุต

การวัดความซับซ้อนของโมเดล PEM คือความซับซ้อนของ I/O ^{[ 1 ]}ซึ่งกำหนดจำนวนการถ่ายโอนบล็อกแบบขนานระหว่างหน่วยความจำหลักและแคช ในระหว่างการถ่ายโอนบล็อกแบบขนาน โปรเซสเซอร์แต่ละตัวสามารถถ่ายโอนบล็อกได้ ดังนั้น หากโปรเซสเซอร์โหลดบล็อกข้อมูลขนาดจากหน่วยความจำหลักไปยังแคชแบบขนานจะถือว่ามีความซับซ้อนของ I/O เท่ากับโปรแกรมในโมเดล PEM ควรลดการถ่ายโอนข้อมูลระหว่างหน่วยความจำหลักและแคชให้น้อยที่สุด และดำเนินการกับข้อมูลในแคชให้มากที่สุดเท่าที่จะเป็นไปได้ $P$ $B$ $O(1)$ $O(P)$

ความขัดแย้งในการอ่าน/เขียน

ในโมเดล PEM ไม่มีเครือข่ายการสื่อสารโดยตรงระหว่างโปรเซสเซอร์ P โปรเซสเซอร์ต้องสื่อสารกันทางอ้อมผ่านหน่วยความจำหลัก หากโปรเซสเซอร์หลายตัวพยายามเข้าถึงบล็อกเดียวกันในหน่วยความจำหลักพร้อมกัน จะเกิดความขัดแย้งในการอ่าน/เขียน^{[ 1 ]}เช่นเดียวกับในโมเดล PRAM มีการพิจารณาปัญหาที่แตกต่างกันสามแบบดังนี้:

การอ่านและการเขียนพร้อมกัน (CRCW): บล็อกเดียวกันในหน่วยความจำหลักสามารถอ่านและเขียนได้โดยโปรเซสเซอร์หลายตัวพร้อมกัน
การอ่านพร้อมกันและการเขียนแบบพิเศษ (CREW): โปรเซสเซอร์หลายตัวสามารถอ่านบล็อกเดียวกันในหน่วยความจำหลักได้พร้อมกัน มีเพียงโปรเซสเซอร์เดียวเท่านั้นที่สามารถเขียนลงในบล็อกได้ในแต่ละครั้ง
การอ่านและการเขียนแบบผูกขาด (EREW): บล็อกเดียวกันในหน่วยความจำหลักไม่สามารถถูกอ่านหรือเขียนโดยโปรเซสเซอร์หลายตัวพร้อมกันได้ มีเพียงโปรเซสเซอร์เดียวเท่านั้นที่สามารถเข้าถึงบล็อกได้ในแต่ละครั้ง

อัลกอริทึมสองแบบต่อไปนี้^{[ 1 ]}แก้ปัญหา CREW และ EREW ได้หากโปรเซสเซอร์เขียนไปยังบล็อกเดียวกันพร้อมกัน วิธีแรกคือการเรียงลำดับการดำเนินการเขียน โปรเซสเซอร์จะเขียนไปยังบล็อกทีละตัวเท่านั้น ซึ่งส่งผลให้มีการถ่ายโอนบล็อกแบบขนานทั้งหมด วิธีที่สองต้องการการถ่ายโอนบล็อกแบบขนานและบล็อกเพิ่มเติมสำหรับแต่ละโปรเซสเซอร์ แนวคิดหลักคือการกำหนดตารางการดำเนินการเขียนในลักษณะต้นไม้ไบนารี และค่อยๆ รวมข้อมูลเข้าเป็นบล็อกเดียว ในรอบแรก โปรเซสเซอร์จะรวมบล็อกของตนเข้าเป็นบล็อก จากนั้นโปรเซสเซอร์จะรวมบล็อกเข้าเป็น ขั้นตอนนี้จะดำเนินต่อไปจนกว่าข้อมูลทั้งหมดจะถูกรวมเข้าเป็นบล็อกเดียว $P\leq B$ $P$ $O(\log(P))$ $P$ $P/2$ $P/2$ $P/2$ $P/4$

เมื่อเปรียบเทียบกับรุ่นอื่นๆ


แบบอย่าง	มัลติคอร์	รับรู้แคช
หน่วยความจำเข้าถึงแบบสุ่ม (RAM)	เลขที่	เลขที่
หน่วยความจำเข้าถึงแบบสุ่มขนาน (PRAM)	ใช่	เลขที่
หน่วยความจำภายนอก (EM)	เลขที่	ใช่
หน่วยความจำภายนอกแบบขนาน (PEM)	ใช่	ใช่

ตัวอย่าง

การแบ่งพาร์ติชั่นแบบหลายวิธี

ให้เป็นเวกเตอร์ของตัวหมุน d-1 ที่เรียงลำดับจากน้อยไปมาก ให้ $A$ เป็นเซตที่ไม่มีลำดับขององค์ประกอบ N ตัว การแบ่งพาร์ติชัน d ทาง^[¹^]ของ $A$ คือเซตโดยที่และสำหรับ เรียกว่าบัคเก็ต ที่i จำนวนองค์ประกอบในมากกว่าและน้อยกว่าในอัลกอริทึมต่อไปนี้^[¹^]อินพุตจะถูกแบ่งพาร์ติชันออกเป็นส่วนย่อยต่อเนื่องขนาด N/P ในหน่วยความจำหลัก โปรเซสเซอร์ i ทำงานหลักๆ กับส่วนย่อยอัลกอริทึมการแบ่งพาร์ติชันแบบหลายทาง ( ^[¹^] ) ใช้อัลกอริทึมผลรวมคำนำหน้า PEM ^[¹^]เพื่อคำนวณผลรวมคำนำหน้าด้วยความซับซ้อน I/O ที่เหมาะสมที่สุด อัลกอริทึมนี้จำลองอัลกอริทึมผลรวมคำนำหน้า PRAM ที่เหมาะสมที่สุด $M=\{m_{1},...,m_{d-1}\}$ $\Pi =\{A_{1},...,A_{d}\}$ $\cup _{i=1}^{d}A_{i}=A$ $A_{i}\cap A_{j}=\emptyset$ $1\leq i<j\leq d$ $A_{i}$ $A_{i}$ $m_{i-1}$ $m_{i}^{2}$ $S_{1},...,S_{P}$ $S_{i}$ PEM_DIST_SORT $O\left({\frac {N}{PB}}+\log P\right)$

// คำนวณพาร์ติชั่นแบบ d ทางบนเซ็กเมนต์ข้อมูลสำหรับแต่ละโปรเซสเซอร์ i แบบขนาน อ่านเวกเตอร์ของตัวแบ่ง $M$ ลงในแคช $S_{i}$  แบ่งข้อมูลออกเป็น d กลุ่ม และให้เวกเตอร์แทนจำนวนรายการในแต่ละกลุ่ม จบสำหรับ $S_{i}$  $M_{i}=\{j_{1}^{i},...,j_{d}^{i}\}$  เรียกใช้ฟังก์ชัน PEM prefix sum กับชุดเวกเตอร์พร้อมกัน $\{M_{1},...,M_{P}\}$  // ใช้เวกเตอร์ผลรวมคำนำหน้าเพื่อคำนวณพาร์ติชันสุดท้าย สำหรับโปรเซสเซอร์ i แต่ละ ตัวแบบขนาน ให้ เขียนองค์ประกอบลงในตำแหน่งหน่วยความจำโดยมีการชดเชยอย่างเหมาะสมด้วยและ. จบสำหรับ $S_{i}$  $M_{i-1}$  $M_{i}$  โดยใช้ผลรวมนำหน้าที่จัดเก็บไว้ในตัวประมวลผลสุดท้าย P จะคำนวณเวกเตอร์ $B$ ของขนาดบัคเก็ตและส่งคืนค่าดังกล่าว  $M_{P}$

ถ้าเวกเตอร์ของจุดหมุน M และชุดข้อมูลนำเข้า A อยู่ในหน่วยความจำที่ต่อเนื่องกัน ปัญหาการแบ่งพาร์ติชันแบบ d ทางสามารถแก้ไขได้ในแบบจำลอง PEM ด้วยความซับซ้อนของ I/O โดยที่เนื้อหาของบัคเก็ตสุดท้ายจะต้องอยู่ในหน่วยความจำที่ต่อเนื่องกันด้วย $d=O\left({\frac {M}{B}}\right)$ $O\left({\frac {N}{PB}}+\left\lceil {\frac {d}{B}}\right\rceil >\log(P)+d\log(B)\right)$

การคัดเลือก

ปัญหาการเลือกคือการค้นหารายการที่เล็กที่สุดลำดับที่ k ในรายการที่ไม่มีลำดับ $A$ ที่มีขนาด $N$ รหัสต่อไปนี้^{[ 1 ]}ใช้ประโยชน์จากPRAMSORTอัลกอริทึมการเรียงลำดับที่เหมาะสมที่สุดของ PRAM ซึ่งทำงานในและซึ่งเป็นอัลกอริทึมการเลือกแบบโปรเซสเซอร์เดี่ยวที่เหมาะสมที่สุดของแคช $O(\log N)$ SELECT

ถ้าเช่นนั้นให้ส่งคืนค่าสิ้นสุดของเงื่อนไข $N\leq P$  ${\texttt {PRAMSORT}}(A,P)$  $A[k]$  //หาค่ามัธยฐานของแต่ละโปรเซสเซอร์ $i$ ในแบบขนาน ทำซ้ำจนครบ $S_{i}$  $m_{i}={\texttt {SELECT}}(S_{i},{\frac {N}{2P}})$  // เรียงลำดับค่ามัธยฐาน  ${\texttt {PRAMSORT}}(\lbrace m_{1},\dots ,m_{2}\rbrace ,P)$  // การแบ่งกลุ่มตามค่ามัธยฐานของค่ามัธยฐาน  $t={\texttt {PEMPARTITION}}(A,m_{P/2},P)$ ถ้าเป็นเช่นนั้นให้ส่งคืนมิฉะนั้นให้ส่งคืนสิ้นสุดเงื่อนไข $k\leq t$  ${\texttt {PEMSELECT}}(A[1:t],P,k)$  ${\texttt {PEMSELECT}}(A[t+1:N],P,kt)$

ภายใต้สมมติฐานว่าข้อมูลนำเข้าถูกจัดเก็บไว้ในหน่วยความจำแบบต่อเนื่องPEMSELECTจะมีความซับซ้อนในการรับส่งข้อมูล (I/O complexity) ดังนี้:

O\left({\frac {N}{PB}}+\log(PB)\cdot \log({\frac {N}{P}})\right)

การเรียงลำดับการกระจาย

การเรียงลำดับ แบบกระจาย (Distribution sort)แบ่งรายการข้อมูลนำเข้า $A$ ที่มีขนาด $N$ ออกเป็น $d$ กลุ่มย่อยที่ไม่ซ้ำกัน โดยแต่ละกลุ่มย่อยจะมีขนาดใกล้เคียงกัน จากนั้นแต่ละกลุ่มย่อยจะถูกเรียงลำดับแบบเรียกซ้ำ และผลลัพธ์จะถูกรวมเข้าด้วยกันเป็นรายการที่เรียงลำดับอย่างสมบูรณ์

หากมอบหมายงานให้กับอัลกอริทึมการเรียงลำดับแบบโปรเซสเซอร์เดี่ยวที่เหมาะสมกับแคช $P=1$

มิเช่นนั้น จะใช้ อัลกอริทึมต่อไปนี้^{[ 1 ] :}

// สุ่มตัวอย่างองค์ประกอบจาก $A$ สำหรับแต่ละโปรเซสเซอร์ $i$ ในแบบขนาน ทำซ้ำถ้าเป็นเช่นนั้น ให้โหลดลงในหน้าขนาด  $M และเรียงลำดับแต่ละหน้า$ มิฉะนั้น ให้โหลดและเรียงลำดับเป็นหน้าเดียว จบเงื่อนไข เลือกองค์ประกอบที่ 'th จากแต่ละหน้าหน่วยความจำที่เรียงลำดับแล้วลงในเวกเตอร์ตัวอย่าง ที่ต่อเนื่องกัน จบเงื่อนไข ${\tfrac {4N}{\sqrt {d}}}$  $M<|S_{i}|$  $d=M/B$  $S_{i}$  $d=|S_{i}|$  $S_{i}$  ${\sqrt {d}}/4$  $R^{i}$ ทำแบบขนาน รวมเวกเตอร์เข้าเป็นเวกเตอร์เดียวที่ต่อเนื่องกัน สร้างสำเนาของ: จบการ ทำ $R^{1}\dots R^{P}$  ${\mathcal {R}}$  ${\sqrt {d}}$  ${\mathcal {R}}$  ${\mathcal {R}}_{1}\dots {\mathcal {R}}_{\sqrt {d}}$  // ค้นหาจุดหมุนสำหรับ to ใน parallel do end for ${\sqrt {d}}$  ${\mathcal {M}}[j]$  $j=1$  ${\sqrt {d}}$  ${\mathcal {M}}[j]={\texttt {PEMSELECT}}({\mathcal {R}__{i},{\tfrac {P}{\sqrt {d}}},{\tfrac {j\cdot 4N}{d}})$  จุดหมุนของแพ็คในอาร์เรย์ต่อเนื่อง ${\mathcal {M}}$  // แบ่งพาร์ติชัน $A$ รอบจุดหมุนออกเป็นกลุ่มๆ ${\mathcal {B}}$  ${\mathcal {B}}={\texttt {PEMMULTIPARTITION}}(A[1:N],{\mathcal {M}},{\sqrt {d}},P)$  // เรียงลำดับบัคเก็ตแบบเรียกซ้ำ เพื่อ ดำเนินการแบบขนาน โดยเรียกซ้ำบนบัคเก็ต $j$ ที่มีขนาด โดยใช้โปรเซสเซอร์ที่รับผิดชอบองค์ประกอบในบัคเก็ต $j$ สิ้นสุดสำหรับ $j=1$  ${\sqrt {d}}+1$  ${\texttt {PEMDISTSORT}}$  ${\mathcal {B}}[j]$  $O\left(\left\lceil {\tfrac {{\mathcal {B}}[j]}{N/P}}\right\rceil \right)$

ความซับซ้อนของการรับส่งข้อมูล (I/O complexity) PEMDISTSORTคือ:

O\left(\left\lceil {\frac {N}{PB}}\right\rceil \left(\log _{d}P+\log _{M/B}{\frac {N}{PB}}\right)+f(N,P,d)\cdot \log _{d}P\right)

ที่ไหน

f(N,P,d)=O\left(\log {\frac {PB}{\sqrt {d}}}\log {\frac {N}{P}}+\left\lceil {\frac {\sqrt {d}}{B}}\log P+{\sqrt {d}}\log B\right\rceil \right)

ถ้าเลือกจำนวนโปรเซสเซอร์แล้วและความซับซ้อนของการรับส่งข้อมูล (I/O complexity) เป็นดังนี้: $f(N,P,d)=O\left(\left\lceil {\tfrac {N}{PB}}\right\rceil \right)$ $M<B^{O(1)}$

$O\left({\frac {N}{PB}}\log _{M/B}{\frac {N}{B}}\right)$

อัลกอริทึม PEM อื่นๆ


อัลกอริทึม PEM	ความซับซ้อนของอินพุต/เอาต์พุต	ข้อจำกัด
เมอร์จซอร์ต^{[ 1 ]}	$O\left({\frac {N}{PB}}\log _{\frac {M}{B}}{\frac {N}{B}}\right)={\textrm {sort}}_{P}(N)$	$P\leq {\frac {N}{B^{2}}},M=B^{O(1)}$
การจัดอันดับรายการ^{[ 2 ]}	$O\left({\textrm {sort}}_{P}(N)\right)$	$P\leq {\frac {N/B^{2}}{\log B\cdot \log ^{O(1)}N}},M=B^{O(1)}$
ทัวร์ออยเลอร์^{[ 2 ]}	$O\left({\textrm {sort}}_{P}(N)\right)$	$P\leq {\frac {N}{B^{2}}},M=B^{O(1)}$
การประเมินแผนผังการแสดงออก^{[ 2 ]}	$O\left({\textrm {sort}}_{P}(N)\right)$	$P\leq {\frac {N}{B^{2}\log B\cdot \log ^{O(1)}N}},M=B^{O(1)}$
การค้นหาMST ^{[ 2 ]}	$O\left({\textrm {sort}}_{P}(\|V\|)+{\textrm {sort}}_{P}(\|E\|)\log {\tfrac {\|V\|}{pB}}\right)$	$p\leq {\frac {\|V\|+\|E\|}{B^{2}\log B\cdot \log ^{O(1)}N}},M=B^{O(1)}$