การรวมตัวของผู้เชี่ยวชาญ

การผสมผสานของผู้เชี่ยวชาญ ( MoE ) เป็น เทคนิค การเรียนรู้ของเครื่องจักร ที่ ใช้เครือข่ายผู้เชี่ยวชาญหลาย เครือข่าย (ผู้เรียน) เพื่อแบ่งพื้นที่ปัญหาออกเป็นภูมิภาคที่เป็นเนื้อเดียวกัน ^{[ 1 ]} MoE แสดงถึงรูปแบบหนึ่งของ การเรียนรู้ แบบกลุ่ม^{[ 2 ]}พวกมันยังถูกเรียกว่าเครื่องจักรคณะกรรมการ อีกด้วย ^{[ 3 ]}

ทฤษฎีพื้นฐาน

MoE ประกอบด้วยส่วนประกอบต่อไปนี้เสมอ แต่จะถูกนำไปใช้และผสมผสานกันแตกต่างกันไปตามปัญหาที่ต้องการแก้ไข:

ผู้เชี่ยวชาญแต่ละคนรับข้อมูลเข้าชุดกันและสร้างผลลัพธ์ออกมา $f_{1},...,f_{n}$ $x$ $f_{1}(x),...,f_{n}(x)$
ฟังก์ชันถ่วงน้ำหนัก (หรือที่เรียกว่าฟังก์ชันควบคุม) ซึ่งรับอินพุตและสร้างเวกเตอร์ของเอาต์พุต เวกเตอร์นี้อาจเป็นหรือไม่เป็นฟังก์ชันการแจกแจงความน่าจะเป็นก็ได้ แต่ในทั้งสองกรณี ค่าในเวกเตอร์จะเป็นค่าที่ไม่ติดลบ $w$ $x$ $(w(x)_{1},...,w(x)_{n})$
$\theta =(\theta _{0},\theta _{1},...,\theta _{n})$ คือชุดของพารามิเตอร์ พารามิเตอร์นี้ใช้สำหรับฟังก์ชันการถ่วงน้ำหนัก พารามิเตอร์เหล่านี้ใช้สำหรับผู้เชี่ยวชาญ $\theta _{0}$ $\theta _{1},\dots ,\theta _{n}$
เมื่อได้รับข้อมูลป้อนเข้ากลุ่มผู้เชี่ยวชาญจะสร้างผลลัพธ์เดียวโดยการรวมกันตามน้ำหนักในรูปแบบใดรูปแบบหนึ่ง ซึ่งโดยปกติแล้วจะเป็นวิธีการใดวิธีการหนึ่ง $x$ $f_{1}(x),...,f_{n}(x)$ $w(x)_{1},...,w(x)_{n}$ $f(x)=\sum _{i}w(x)_{i}f_{i}(x)$

ทั้งผู้เชี่ยวชาญและฟังก์ชันถ่วงน้ำหนักได้รับการฝึกฝนโดยการลดฟังก์ชันความสูญเสีย บางอย่างให้เหลือน้อยที่สุด โดยทั่วไปแล้วจะใช้การไล่ระดับความชัน (gradient descent ) มีอิสระอย่างมากในการเลือกรูปแบบที่แน่นอนของผู้เชี่ยวชาญ ฟังก์ชันถ่วงน้ำหนัก และฟังก์ชันความสูญเสีย

เครือข่ายเมตา-พาย

เครือข่าย meta-pi ที่รายงานโดย Hampshire และ Waibel ^{[ 4 ]}ใช้เป็นเอาต์พุต โมเดลได้รับการฝึกฝนโดยการดำเนินการไล่ระดับความชันบนการสูญเสียข้อผิดพลาดกำลังสองเฉลี่ยผู้เชี่ยวชาญอาจเป็นฟังก์ชันใดๆ ก็ได้ $f(x)=\sum _{i}w(x)_{i}f_{i}(x)$ $L:={\frac {1}{N}}\sum _{k}\|y_{k}-f(x_{k})\|^{2}$

ในการตีพิมพ์ครั้งแรก พวกเขาได้แก้ปัญหาการจำแนกหน่วยเสียงในสัญญาณเสียงพูดจากผู้พูดภาษาญี่ปุ่น 6 คนที่แตกต่างกัน โดยเป็นผู้หญิง 2 คนและผู้ชาย 4 คน พวกเขาฝึกผู้เชี่ยวชาญ 6 คน โดยแต่ละคนเป็น "เครือข่ายประสาทแบบหน่วงเวลา" ^{[ 5 ]} (โดยพื้นฐานแล้วคือเครือข่ายคอนโวลูชัน แบบหลายชั้น บนสเปกโตรแกรมเมล ) พวกเขาพบว่าการผสมผสานของผู้เชี่ยวชาญที่ได้นั้น มีผู้เชี่ยวชาญ 5 คนสำหรับผู้พูด 5 คน แต่ผู้พูดคนที่ 6 (ผู้ชาย) ไม่มีผู้เชี่ยวชาญเฉพาะเจาะจง แต่เสียงของเขาถูกจำแนกโดยการรวมกันเชิงเส้นของผู้เชี่ยวชาญสำหรับผู้พูดชายอีก 3 คน

การผสมผสานที่ลงตัวของผู้เชี่ยวชาญในท้องถิ่น

ส่วนผสมแบบปรับตัวของผู้เชี่ยวชาญท้องถิ่น^{[ 6 ]}^{[ 7 ]}ใช้โมเดลส่วนผสมแบบเกาส์เซียนผู้เชี่ยวชาญแต่ละคนทำนายการกระจายแบบเกาส์เซียน และไม่สนใจอินพุตโดยสิ้นเชิง โดยเฉพาะอย่างยิ่งผู้เชี่ยวชาญคนที่ -th ทำนายว่าเอาต์พุตคือโดยที่เป็นพารามิเตอร์ที่เรียนรู้ได้ ฟังก์ชันการถ่วงน้ำหนักคือฟังก์ชัน softmax เชิงเส้น: ส่วนผสมของผู้เชี่ยวชาญทำนายว่าเอาต์พุตมีการกระจายตามฟังก์ชันความหนาแน่นของความน่าจะเป็นแบบลอการิทึม: มันได้รับการฝึกฝนโดยการประมาณค่าความน่าจะเป็นสูงสุด นั่นคือ การเพิ่มระดับความชันบน ระดับความชันสำหรับผู้เชี่ยวชาญคนที่ -th คือ $i$ $y\sim N(\mu _{i},I)$ $\mu _{i}$ $w(x)_{i}={\frac {e^{k_{i}^{T}x+b_{i}}}{\sum _{j}e^{k_{j}^{T}x+b_{j}}}}$ $\ln f_{\theta }(y|x)=\ln \left[\sum _{i}{\frac {e^{k_{i}^{T}x+b_{i}}}{\sum _{j}e^{k_{j}^{T}x+b_{j}}}}N(y|\mu _{i},I)\right]=\ln \left[(2\pi )^{-d/2}\sum _{i}{\frac {e^{k_{i}^{T}x+b_{i}}}{\sum _{j}e^{k_{j}^{T}x+b_{j}}}}e^{-{\frac {1}{2}}\|y-\mu _{i}\|^{2}}\right]$ $f(y|x)$ $i$

$\nabla _{\mu _{i}}\ln f_{\theta }(y|x)={\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}\;(y-\mu _{i})$

และค่าความชันสำหรับฟังก์ชันถ่วงน้ำหนักคือ $\nabla _{[k_{i},b_{i}]}\ln f_{\theta }(y|x)={\begin{bmatrix}x\\1\end{bmatrix}}{\frac {w(x)_{i}}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}(f_{i}(x)-f_{\theta }(y|x))$

สำหรับแต่ละคู่ข้อมูลเข้า-ข้อมูลออกฟังก์ชันการถ่วงน้ำหนักจะถูกเปลี่ยนแปลงเพื่อเพิ่มน้ำหนักให้กับผู้เชี่ยวชาญทั้งหมดที่ทำได้ดีกว่าค่าเฉลี่ย และลดน้ำหนักให้กับผู้เชี่ยวชาญทั้งหมดที่ทำได้ต่ำกว่าค่าเฉลี่ย วิธีนี้จะช่วยกระตุ้นให้ฟังก์ชันการถ่วงน้ำหนักเรียนรู้ที่จะเลือกเฉพาะผู้เชี่ยวชาญที่ทำนายผลได้อย่างถูกต้องสำหรับแต่ละข้อมูลเข้าเท่านั้น $(x,y)$

ผู้เชี่ยวชาญ คนที่ i จะถูกปรับเปลี่ยนเพื่อให้การคาดการณ์ใกล้เคียงกับค่าเดิมมากขึ้นแต่ปริมาณการเปลี่ยนแปลงจะเป็นสัดส่วนกับค่าเดิมซึ่งมีการตีความแบบเบย์เซียน เมื่อกำหนดอินพุตความน่าจะเป็นก่อนหน้าว่าผู้เชี่ยวชาญคนนั้นถูกต้องคือและคือความน่าจะเป็นของหลักฐานดังนั้นคือความน่าจะเป็นภายหลังสำหรับผู้เชี่ยวชาญคน นั้น และอัตราการเปลี่ยนแปลงสำหรับผู้เชี่ยวชาญคนที่ i จะเป็นสัดส่วนกับความน่าจะเป็นภายหลังของเขา $i$ $y$ $w(x)_{i}N(y|\mu _{i},I)$ $x$ $i$ $w(x)_{i}$ $N(y|\mu _{i},I)$ $y$ ${\frac {w(x)_{i}N(y|\mu _{i},I)}{\sum _{j}w(x)_{j}N(y|\mu _{j},I)}}$ $i$ $i$

กล่าวโดยสรุป ผู้เชี่ยวชาญที่ในภายหลังดูเหมือนจะเป็นผู้เชี่ยวชาญที่ควรปรึกษา จะถูกขอให้เรียนรู้จากตัวอย่าง ส่วนผู้เชี่ยวชาญที่ในภายหลังดูเหมือนจะไม่ใช่ผู้เชี่ยวชาญที่เหมาะสม ก็จะถูกปล่อยทิ้งไว้ตามลำพัง

ผลรวมของปรากฏการณ์นี้คือ ผู้เชี่ยวชาญจะมีความเชี่ยวชาญเฉพาะด้านมากขึ้น: สมมติว่าผู้เชี่ยวชาญสองคนต่างก็เก่งในการทำนายข้อมูลประเภทหนึ่ง แต่คนหนึ่งเก่งกว่าเล็กน้อย ฟังก์ชันการถ่วงน้ำหนักก็จะเรียนรู้ที่จะให้ความสำคัญกับคนที่เก่งกว่าในที่สุด หลังจากนั้น ผู้เชี่ยวชาญที่ด้อยกว่าจะไม่สามารถรับสัญญาณที่มีความชันสูงได้ และจะยิ่งแย่ลงในการทำนายข้อมูลประเภทนั้น ในทางกลับกัน ผู้เชี่ยวชาญที่ด้อยกว่าอาจเก่งขึ้นในการทำนายข้อมูลประเภทอื่น และค่อยๆ ขยายขอบเขตไปสู่พื้นที่อื่นมากขึ้นเรื่อยๆ สิ่งนี้มีผลป้อนกลับเชิงบวก ทำให้ผู้เชี่ยวชาญแต่ละคนแยกตัวออกจากคนอื่นๆ และดูแลพื้นที่เฉพาะของตนเอง (จึงเป็นที่มาของชื่อ " ผู้เชี่ยวชาญ เฉพาะพื้นที่ ")

กระทรวงศึกษาธิการแบบลำดับชั้น

การผสมผสานผู้เชี่ยวชาญแบบลำดับชั้น^{[ 8 ]}^{[ 9 ]}ใช้การกำหนดระดับหลายระดับในต้นไม้ การกำหนดระดับแต่ละระดับเป็นการกระจายความน่าจะเป็นเหนือระดับการกำหนดระดับถัดไป และผู้เชี่ยวชาญจะอยู่ที่โหนดใบของต้นไม้ พวกมันคล้ายกับต้นไม้ ตัดสินใจ

ตัวอย่างเช่น MoE แบบลำดับชั้น 2 ระดับ จะมีฟังก์ชันการคัดกรองลำดับแรกและฟังก์ชันการคัดกรองลำดับที่สองรวมถึงผู้เชี่ยวชาญดังนั้นผลการทำนายโดยรวมจึงเป็นดังนี้ $w_{i}$ $w_{j|i}$ $f_{j|i}$ $\sum _{i}w_{i}(x)\sum _{j}w_{j|i}(x)f_{j|i}(x)$

ตัวแปร

การผสมผสานของผู้เชี่ยวชาญ ซึ่งคล้ายกับแบบจำลองส่วนผสมเกาส์เซียน สามารถฝึกฝนได้ด้วยอัลกอริทึมการคาดการณ์-การเพิ่มประสิทธิภาพ เช่นเดียวกับแบบจำลองส่วนผสมเกาส์เซียนโดยเฉพาะอย่างยิ่ง ในขั้นตอนการคาดการณ์ "ภาระ" ในการอธิบายแต่ละจุดข้อมูลจะถูกกำหนดให้กับผู้เชี่ยวชาญ และในขั้นตอนการเพิ่มประสิทธิภาพ ผู้เชี่ยวชาญจะได้รับการฝึกฝนเพื่อปรับปรุงคำอธิบายที่พวกเขาได้รับภาระสูง ในขณะที่เกตจะได้รับการฝึกฝนเพื่อปรับปรุงการกำหนดภาระ ซึ่งสามารถบรรลุการบรรจบกันได้เร็วกว่าการเพิ่มความชันบนลอการิทึมความน่าจะเป็น^{[ 9 ]}^{[ 10 ]}

โดยทั่วไปแล้ว ฟังก์ชันเกตติ้งมักจะเป็น softmax นอกจากนั้น เกตติ้งอาจใช้การแจกแจงแบบเกาส์เซียน^{[ 11 ]}และตระกูลเลขชี้กำลัง^{[ 10 ]}

แทนที่จะทำการรวมน้ำหนักของผู้เชี่ยวชาญทั้งหมด ใน MoE แบบแข็ง^{[ 12 ]}จะเลือกเฉพาะผู้เชี่ยวชาญที่มีอันดับสูงสุดเท่านั้น นั่นคือ. ซึ่งสามารถเร่งเวลาการฝึกอบรมและการอนุมานได้^[¹³^] $f(x)=f_{\arg \max _{i}w_{i}(x)}(x)$

ผู้เชี่ยวชาญสามารถใช้รูปแบบทั่วไปของการแจกแจงแบบเกาส์เซียนหลายตัวแปรได้ ตัวอย่างเช่น^{[ 8 ]}เสนอโดยที่เป็นพารามิเตอร์ที่เรียนรู้ได้ กล่าวคือ ผู้เชี่ยวชาญแต่ละคนเรียนรู้ที่จะทำการถดถอยเชิงเส้น โดยมีการประมาณค่าความไม่แน่นอนที่เรียนรู้ได้ $f_{i}(y|x)=N(y|A_{i}x+b_{i},\Sigma _{i})$ $A_{i},b_{i},\Sigma _{i}$

สามารถใช้ผู้เชี่ยวชาญที่แตกต่างจากการแจกแจงแบบเกาส์เซียนได้ ตัวอย่างเช่น สามารถใช้การแจกแจงแบบลาปลาส [ ^{14 ] หรือ}การแจกแจงแบบ t ของนักเรียน^{[ 15 ]}สำหรับการจำแนกแบบไบนารี ยังมีการเสนอ ผู้เชี่ยวชาญ การถดถอยโลจิสติกโดยที่เป็นพารามิเตอร์ที่เรียนรู้ได้ ต่อมาได้มีการขยายความสำหรับการจำแนกแบบหลายคลาส โดยใช้ผู้เชี่ยวชาญการถดถอยโลจิสติกแบบพหุนาม^[¹⁶^] $f_{i}(y|x)={\begin{cases}{\frac {1}{1+e^{\beta _{i}^{T}x+\beta _{i,0}}}},&y=0\\1-{\frac {1}{1+e^{\beta _{i}^{T}x+\beta _{i,0}}}},&y=1\end{cases}}$ $\beta _{i},\beta _{i,0}$

เอกสารฉบับหนึ่งเสนอให้ใช้การผสมผสานของ softmax สำหรับการสร้างแบบจำลองภาษาแบบอัตถารีเกรสซีฟ^{[ 17 ]}โดยเฉพาะอย่างยิ่ง ให้พิจารณาแบบจำลองภาษาที่เมื่อได้รับข้อความก่อนหน้าจะทำนายคำถัดไปเครือข่ายจะเข้ารหัสข้อความลงในเวกเตอร์และทำนายการกระจายความน่าจะเป็นของคำถัดไปเป็นสำหรับเมทริกซ์ฝังตัวในการผสมผสานของ softmax แบบจำลองจะส่งออกเวกเตอร์หลายตัวและทำนายคำถัดไปเป็น โดยที่เป็นการกระจายความน่าจะเป็นโดยการดำเนินการ softmax เชิงเส้นบนการกระตุ้นของนิวรอนที่ซ่อนอยู่ภายในแบบจำลอง เอกสารต้นฉบับแสดงให้เห็นถึงประสิทธิภาพสำหรับเครือข่ายประสาทแบบวนซ้ำต่อมาพบว่าใช้งานได้กับ Transformer เช่นกัน^[¹⁸^] $c$ $x$ $v_{c}$ $\mathrm {Softmax} (v_{c}W)$ $W$ $v_{c,1},\dots ,v_{c,n}$ $\sum _{i=1}^{n}p_{i}\;\mathrm {Softmax} (v_{c,i}W_{i})$ $p_{i}$

การเรียนรู้เชิงลึก

ส่วนก่อนหน้านี้ได้อธิบายถึง MoE ที่ใช้ก่อนยุคการเรียนรู้เชิงลึกหลังจากการเรียนรู้เชิงลึก MoE พบว่าสามารถนำไปประยุกต์ใช้ในการรันโมเดลขนาดใหญ่ที่สุดได้ เนื่องจากเป็นวิธีง่ายๆ ในการคำนวณแบบมีเงื่อนไขโดยใช้เพียงบางส่วนของโมเดลเท่านั้น โดยเลือกส่วนต่างๆ ตามอินพุต^{[ 19 ]}

เอกสารฉบับแรกที่นำ MoE มาใช้กับการเรียนรู้เชิงลึกย้อนกลับไปในปี 2013 ^{[ 20 ]}ซึ่งเสนอให้ใช้เครือข่ายเกตติ้งที่แตกต่างกันในแต่ละเลเยอร์ในเครือข่ายประสาทเชิงลึก โดยเฉพาะอย่างยิ่ง เกตติ้งแต่ละตัวเป็นเครือข่าย linear-ReLU-linear-softmax และผู้เชี่ยวชาญแต่ละคนเป็นเครือข่าย linear-ReLU เนื่องจากเอาต์พุตจากเกตติ้งไม่กระจัดกระจายจึงจำเป็นต้องใช้เอาต์พุตของผู้เชี่ยวชาญทั้งหมด และไม่มีการคำนวณแบบมีเงื่อนไข

เป้าหมายหลักของการใช้ MoE ในการเรียนรู้เชิงลึกคือการลดต้นทุนการคำนวณ ดังนั้น สำหรับแต่ละคำถาม ควรสอบถามผู้เชี่ยวชาญเพียงกลุ่มเล็กๆ เท่านั้น ซึ่งทำให้ MoE ในการเรียนรู้เชิงลึกแตกต่างจาก MoE แบบดั้งเดิม ใน MoE แบบดั้งเดิม ผลลัพธ์สำหรับแต่ละคำถามจะเป็นผลรวมถ่วงน้ำหนักของ ผลลัพธ์จากผู้เชี่ยวชาญ ทั้งหมดใน MoE การเรียนรู้เชิงลึก ผลลัพธ์สำหรับแต่ละคำถามจะเกี่ยวข้องกับผลลัพธ์จากผู้เชี่ยวชาญเพียงไม่กี่คนเท่านั้น ดังนั้น ทางเลือกในการออกแบบที่สำคัญใน MoE จึงอยู่ที่การกำหนดเส้นทาง: เมื่อได้รับชุดคำถามแล้ว จะกำหนดเส้นทางคำถามไปยังผู้เชี่ยวชาญที่ดีที่สุดได้อย่างไร

ชั้น MoE ที่มีเกตแบบเบาบาง

ชั้น MoE ที่มีการควบคุมแบบเบาบาง^{[ 21 ]}ซึ่งเผยแพร่โดยนักวิจัยจากGoogle Brainใช้เครือข่ายฟีดฟอร์เวิร์ดเป็นผู้เชี่ยวชาญ และการควบคุมแบบ softmax เชิงเส้น คล้ายกับ MoE แบบแข็งที่เสนอไว้ก่อนหน้านี้ พวกเขาบรรลุความเบาบางโดยการรวมน้ำหนักของผู้เชี่ยวชาญ k อันดับแรกเท่านั้น แทนที่จะเป็นการรวมน้ำหนักของผู้เชี่ยวชาญทั้งหมด โดยเฉพาะอย่างยิ่ง ในชั้น MoE จะมีเครือข่ายฟีดฟอร์เวิร์ด และเครือข่ายควบคุมเครือข่ายควบคุมถูกกำหนดโดย โดยที่เป็นฟังก์ชันที่รักษาค่า k อันดับแรกของเวกเตอร์ให้เหมือนเดิม แต่กำหนดค่าอื่นๆ ทั้งหมดเป็นการเพิ่มสัญญาณรบกวนช่วยในการกระจายภาระ $f_{1},...,f_{n}$ $w$ $w(x)=\mathrm {softmax} (\mathrm {top} _{k}(Wx+{\text{noise}}))$ $\mathrm {top} _{k}$ $-\infty$

การเลือกนั้นเป็นไฮเปอร์พารามิเตอร์ที่เลือกตามการใช้งาน ค่าทั่วไปคือ เวอร์ชัน นี้ยังเรียกว่า Switch Transformer Switch Transformer ดั้งเดิมถูกนำไปใช้กับโมเดลภาษา T5 ^[²²^] $k$ $k=1,2$ $k=1$

เพื่อเป็นการสาธิต พวกเขาได้ฝึกฝนโมเดลหลายชุดสำหรับการแปลด้วยเครื่องจักรโดยใช้เลเยอร์ MoE และLSTM สลับกัน และเปรียบเทียบกับโมเดล LSTM แบบลึก^{[ 23 ]}ตารางที่ 3 แสดงให้เห็นว่าโมเดล MoE ใช้เวลาในการประมวลผลการอนุมานน้อยกว่า แม้จะมีพารามิเตอร์มากกว่าถึง 30 เท่า

โมดูลสถาปัตยกรรมนี้ได้รับการเผยแพร่ในเดือนมกราคม พ.ศ. 2560 ภายในไม่กี่เดือนหลังจากการเผยแพร่สถาปัตยกรรม Transformer (12 มิถุนายน พ.ศ. 2560) และทั้งสองโมดูลถูกรวมเข้าด้วยกันเป็น สถาปัตยกรรม มัลติโมดอลที่เรียกว่า MultiModel ซึ่งเผยแพร่ในอีก 4 วันต่อมา (16 มิถุนายน พ.ศ. 2560) ^{[ 24 ]}

การปรับสมดุลภาระงาน

Vanilla MoE มักมีปัญหาเรื่องการกระจายภาระงาน: ผู้เชี่ยวชาญบางคนถูกปรึกษาบ่อย ในขณะที่ผู้เชี่ยวชาญคนอื่น ๆ แทบจะไม่ถูกปรึกษาเลย เพื่อกระตุ้นให้เกตเลือกผู้เชี่ยวชาญแต่ละคนด้วยความถี่ที่เท่ากัน (การกระจายภาระงานที่เหมาะสม) ภายในแต่ละชุดข้อมูล แต่ละเลเยอร์ของ MoE จึงมีฟังก์ชันการสูญเสียเสริมสองฟังก์ชัน ซึ่งได้รับการปรับปรุงโดย Switch Transformer ^{[ 22 ]}ให้เป็นฟังก์ชันการสูญเสียเสริมเพียงฟังก์ชันเดียว โดยเฉพาะอย่างยิ่ง ให้เป็นจำนวนผู้เชี่ยวชาญ จากนั้นสำหรับชุดคำถามที่กำหนดการสูญเสียเสริมสำหรับชุดข้อมูลคือโดยที่คือเศษส่วนของโทเค็นที่เลือกผู้เชี่ยวชาญและคือเศษส่วนของน้ำหนักบนผู้เชี่ยวชาญ การสูญ เสียนี้จะลดลงเหลือน้อยที่สุดที่ซึ่งก็คือเมื่อผู้เชี่ยวชาญแต่ละคนมีน้ำหนักเท่ากันในทุกสถานการณ์ $n$ $\{x_{1},x_{2},...,x_{T}\}$ $n\sum _{i=1}^{n}f_{i}P_{i}$ $f_{i}={\frac {1}{T}}\#({\text{queries sent to expert }}i)$ $i$ $P_{i}={\frac {1}{T}}\sum _{j=1}^{T}{\frac {w_{i}(x_{j})}{\sum _{i'\in {\text{experts}}}w_{i'}(x_{j})}}$ $i$ $1$ $1/n$

นักวิจัยที่DeepSeekออกแบบ MoE เวอร์ชันหนึ่ง โดยมี "ผู้เชี่ยวชาญร่วม" ที่จะถูกสอบถามอยู่เสมอ และ "ผู้เชี่ยวชาญที่ถูกกำหนดเส้นทาง" ที่อาจไม่ถูกสอบถาม พวกเขาพบว่าการกระจายโหลดมาตรฐานส่งเสริมให้ผู้เชี่ยวชาญได้รับการปรึกษาอย่างเท่าเทียมกัน แต่สิ่งนี้ทำให้ผู้เชี่ยวชาญทำซ้ำความสามารถหลักเดียวกัน เช่น ไวยากรณ์ภาษาอังกฤษ พวกเขาเสนอให้ผู้เชี่ยวชาญร่วมเรียนรู้ความสามารถหลักที่ใช้บ่อย และให้ผู้เชี่ยวชาญที่ถูกกำหนดเส้นทางเรียนรู้ความสามารถรอบข้างที่ใช้ไม่บ่อย^{[ 26 ]}

พวกเขายังเสนอ "กลยุทธ์การปรับสมดุลภาระแบบปราศจากการสูญเสียเสริม" ซึ่งไม่ใช้การสูญเสียเสริม แต่ผู้เชี่ยวชาญแต่ละคนจะมี "อคติของผู้เชี่ยวชาญ" เพิ่มเติมหากผู้เชี่ยวชาญถูกละเลย อคติของพวกเขาก็จะเพิ่มขึ้น และในทางกลับกัน ในระหว่างการกำหนดโทเค็น โทเค็นแต่ละตัวจะเลือกผู้เชี่ยวชาญ 10 อันดับแรก แต่เพิ่มอคติเข้าไปด้วย นั่นคือ: ^[²⁷^]โปรดทราบว่าอคติของผู้เชี่ยวชาญมีความสำคัญในการเลือกผู้เชี่ยวชาญ แต่ไม่สำคัญในการรวมคำตอบจากผู้เชี่ยวชาญ $i$ $b_{i}$ $f(x)=\sum _{i{\text{ is in the top-k of }}\{w(x)_{j}+b_{j}\}_{j}}w(x)_{i}f_{i}(x)$

ปัจจัยความจุ

สมมติว่ามีผู้เชี่ยวชาญอยู่ในเลเยอร์หนึ่ง สำหรับชุดคำสั่งค้นหาที่กำหนด คำสั่งค้นหาแต่ละคำสั่งจะถูกส่งไปยังผู้เชี่ยวชาญหนึ่งคนหรือมากกว่านั้น ตัวอย่างเช่น หากคำสั่งค้นหาแต่ละคำสั่งถูกส่งไปยังผู้เชี่ยวชาญหนึ่งคนดังเช่นใน Switch Transformers และหากผู้เชี่ยวชาญมีการกระจายภาระงานอย่างสมดุล ผู้เชี่ยวชาญแต่ละคนควรคาดหวังคำสั่งค้นหาโดยเฉลี่ยในแต่ละชุด ในทางปฏิบัติ ผู้เชี่ยวชาญไม่สามารถคาดหวังการกระจายภาระงานที่สมบูรณ์แบบได้ ในบางชุด ผู้เชี่ยวชาญคนหนึ่งอาจมีงานน้อยเกินไป ในขณะที่ในชุดอื่นๆ อาจมีงานมากเกินไป $n$ $\{x_{1},x_{2},...,x_{T}\}$ $T/n$

เนื่องจากข้อมูลนำเข้าไม่สามารถเคลื่อนผ่านเลเยอร์ได้จนกว่าผู้เชี่ยวชาญทุกคนในเลเยอร์จะเสร็จสิ้นการสอบถามที่ได้รับมอบหมาย การกระจายโหลดจึงมีความสำคัญ บางครั้งมีการใช้ปัจจัยความจุเพื่อบังคับใช้ข้อจำกัดที่เข้มงวดในการกระจายโหลด ผู้เชี่ยวชาญแต่ละคนได้รับอนุญาตให้ประมวลผลการสอบถามได้ไม่เกินจำนวนที่กำหนดในแต่ละชุด รายงาน ST-MoE พบว่าใช้งานได้ดีในทางปฏิบัติ^[²⁸^] $c\cdot T/n$ $c\in [1.25,2]$

การกำหนดเส้นทาง

ใน MoE ที่มีการคัดกรองแบบเบาบางดั้งเดิม จะมีการสอบถามเฉพาะผู้เชี่ยวชาญ 10 อันดับแรกเท่านั้น และผลลัพธ์ของพวกเขาจะถูกรวมเข้าด้วยกันแบบถ่วงน้ำหนัก มีวิธีการอื่น ๆ อีก^{[ 28 ]}โดยทั่วไป การกำหนดเส้นทางเป็นปัญหาการมอบหมาย : จะมอบหมายโทเค็นให้กับผู้เชี่ยวชาญอย่างไร เพื่อให้เป็นไปตามข้อจำกัดต่าง ๆ (เช่น ปริมาณงาน การกระจายโหลด ฯลฯ)? โดยทั่วไปมีอัลกอริทึมการกำหนดเส้นทาง 3 ประเภท ได้แก่ ผู้เชี่ยวชาญเลือกโทเค็น ("การเลือกของผู้เชี่ยวชาญ") ^{[ 29 ]}โทเค็นเลือกผู้เชี่ยวชาญ (MoE ที่มีการคัดกรองแบบเบาบางดั้งเดิม) และผู้มอบหมายระดับโลกที่จับคู่ผู้เชี่ยวชาญและโทเค็น^{[ 30 ]}

ระหว่างการอนุมาน MoE จะทำงานกับโทเค็นจำนวนมากในเวลาใดก็ได้ หากโทเค็นเป็นผู้เลือกผู้เชี่ยวชาญ ผู้เชี่ยวชาญบางคนอาจได้รับโทเค็นเพียงเล็กน้อย ในขณะที่ผู้เชี่ยวชาญบางคนได้รับโทเค็นจำนวนมากจนเกินขนาดชุดข้อมูลสูงสุด ดังนั้นพวกเขาจึงต้องละเลยโทเค็นบางส่วน ในทำนองเดียวกัน หากผู้เชี่ยวชาญเป็นผู้เลือกโทเค็น โทเค็นบางส่วนอาจไม่ถูกเลือกโดยผู้เชี่ยวชาญคนใดเลย นี่คือปัญหา "การทิ้งโทเค็น" การทิ้งโทเค็นไม่จำเป็นต้องเป็นปัญหาที่ร้ายแรง เนื่องจากใน Transformers เนื่องจากการเชื่อมต่อที่เหลืออยู่หากโทเค็น "ถูกทิ้ง" มันจะไม่หายไป แต่การแสดงเวกเตอร์ของมันจะผ่านเลเยอร์ฟีดฟอร์เวิร์ดโดยไม่มีการเปลี่ยนแปลง^{[ 30 ]}

แนวทางอื่นๆ ได้แก่ การแก้ปัญหาโดยใช้การเขียนโปรแกรมเชิงเส้นแบบมีข้อจำกัด^{[ 31 ]}โดยใช้การเรียนรู้แบบเสริมแรงเพื่อฝึกอัลกอริทึมการกำหนดเส้นทาง (เนื่องจากการเลือกผู้เชี่ยวชาญเป็นการกระทำแบบไม่ต่อเนื่อง เช่นเดียวกับใน RL) ^{[ 32 ]}การจับคู่โทเค็นกับผู้เชี่ยวชาญอาจไม่เกี่ยวข้องกับการเรียนรู้ ("การกำหนดเส้นทางแบบคงที่"): สามารถทำได้โดยใช้ฟังก์ชันแฮช แบบกำหนด ^{[ 33 ]}หรือตัวสร้างเลขสุ่ม^{[ 34 ]}

การประยุกต์ใช้กับแบบจำลองหม้อแปลงไฟฟ้า

เลเยอร์ MoE ถูกใช้ในโมเดล Transformer ขนาดใหญ่ที่สุด ซึ่งการเรียนรู้และการอนุมานบนโมเดลทั้งหมดมีค่าใช้จ่ายสูงเกินไป โดยทั่วไปแล้วเลเยอร์เหล่านี้จะมีเกตแบบเบาบาง โดยมีความเบาบาง 1 หรือ 2 ในโมเดล Transformer เลเยอร์ MoE มักใช้ในการเลือกเลเยอร์ฟีดฟอร์เวิร์ด (โดยทั่วไปคือเครือข่ายเชิงเส้น-ReLU-เชิงเส้น) ซึ่งปรากฏในแต่ละบล็อก Transformer หลังจากความสนใจแบบหลายหัว เนื่องจากเลเยอร์ฟีดฟอร์เวิร์ดใช้ต้นทุนการคำนวณเพิ่มขึ้นเมื่อโมเดลมีขนาดใหญ่ขึ้น ตัวอย่างเช่น ในโมเดล Palm-540B พารามิเตอร์ 90% อยู่ในเลเยอร์ฟีดฟอร์เวิร์ด^{[ 35 ]}

Transformer ที่ได้รับการฝึกฝนแล้วสามารถแปลงเป็น MoE ได้โดยการทำสำเนาเลเยอร์ฟีดฟอร์เวิร์ดด้วยเกตติ้งที่เริ่มต้นแบบสุ่ม จากนั้นจึงฝึกฝนเพิ่มเติม นี่คือเทคนิคที่เรียกว่า "sparse upcycling" ^{[ 36 ]}

มีตัวเลือกการออกแบบจำนวนมากที่เกี่ยวข้องกับ Transformer MoE ซึ่งส่งผลต่อความเสถียรในการฝึกอบรมและประสิทธิภาพขั้นสุดท้าย รายงาน OLMoE อธิบายสิ่งเหล่านี้โดยละเอียด^{[ 37 ]}

ณ ปี 2023 โมเดลที่มีขนาดใหญ่พอที่จะใช้ MoE มักจะเป็นโมเดลภาษาขนาดใหญ่ซึ่งแต่ละผู้เชี่ยวชาญมีพารามิเตอร์ประมาณ 10 พันล้านตัว นอกจากโมเดลภาษาแล้ว Vision MoE ^{[ 38 ]}ยังเป็นโมเดล Transformer ที่มีเลเยอร์ MoE พวกเขาสาธิตโดยการฝึกโมเดลที่มีพารามิเตอร์ 15 พันล้านตัว MoE Transformer ยังถูกนำไปใช้กับโมเดลการแพร่กระจาย อีก ด้วย^{[ 39 ]}

แบบจำลองภาษาขนาดใหญ่หลายชุดจากGoogleใช้ MoE GShard ^{[ 40 ]}ใช้ MoE โดยมีผู้เชี่ยวชาญสูงสุด 2 คนต่อเลเยอร์ โดยเฉพาะอย่างยิ่ง ผู้เชี่ยวชาญอันดับ 1 จะถูกเลือกเสมอ และผู้เชี่ยวชาญอันดับ 2 จะถูกเลือกด้วยความน่าจะเป็นตามสัดส่วนน้ำหนักของผู้เชี่ยวชาญตามฟังก์ชันเกตติ้ง ต่อมา GLaM ^{[ 41 ]}ได้สาธิตแบบจำลองภาษาที่มีพารามิเตอร์ 1.2 ล้านล้านตัว โดยแต่ละเลเยอร์ MoE ใช้ผู้เชี่ยวชาญ 2 คนจาก 64 คน Switch Transformers ^{[ 22 ]}ใช้ผู้เชี่ยวชาญอันดับ 1 ในทุกเลเยอร์ MoE

NLLB-200 โดยMeta AIเป็นโมเดลการแปลด้วยเครื่องสำหรับ 200 ภาษา^{[ 42 ]}แต่ละเลเยอร์ MoE ใช้ MoE แบบลำดับชั้นที่มีสองระดับ ในระดับแรก ฟังก์ชันเกตติ้งจะเลือกใช้เลเยอร์ฟีดฟอร์เวิร์ดแบบ "ร่วม" หรือใช้ผู้เชี่ยวชาญ หากใช้ผู้เชี่ยวชาญ ฟังก์ชันเกตติ้งอีกตัวจะคำนวณน้ำหนักและเลือกผู้เชี่ยวชาญ 2 อันดับแรก^{[ 43 ]}

โมเดลภาษาขนาดใหญ่ของ MoE สามารถปรับให้เข้ากับงานปลายทางได้โดยการ ปรับ แต่งคำสั่ง^{[ 44 ]}

ในเดือนธันวาคม พ.ศ. 2566 Mistral AIได้เผยแพร่ Mixtral 8x7B ภายใต้ใบอนุญาต Apache 2.0 ซึ่งเป็นแบบจำลองภาษา MoE ที่มีพารามิเตอร์ 46.7 พันล้านตัว ผู้เชี่ยวชาญ 8 คน และความเบาบาง 2 พวกเขายังได้เผยแพร่เวอร์ชันที่ปรับแต่งมาเป็นพิเศษสำหรับการทำตามคำสั่งอีกด้วย^{[ 45 ]}^{[ 46 ]}

ในเดือนมีนาคม พ.ศ. 2567 Databricks ได้เผยแพร่DBRXซึ่งเป็นแบบจำลองภาษา MoE ที่มีพารามิเตอร์ 132 พันล้านตัว ผู้เชี่ยวชาญ 16 คน และความเบาบาง 4 พวกเขายังเผยแพร่เวอร์ชันที่ปรับแต่งมาเป็นพิเศษเพื่อการติดตามคำสั่งอีกด้วย^{[ 47 ]}^{[ 48 ]}

ดูเพิ่มเติม

อ่านเพิ่มเติม

ก่อนยุคการเรียนรู้เชิงลึก
- McLachlan, Geoffrey J.; Peel, David (2000). แบบจำลองส่วนผสมจำกัด . ชุดหนังสือ Wiley ในสาขาความน่าจะเป็นและสถิติ ส่วนความน่าจะเป็นและสถิติประยุกต์. นิวยอร์ก ชิเชสเตอร์ ไวน์ไฮม์ บริสเบน สิงคโปร์ โตรอนโต: John Wiley & Sons, Inc. ISBN 978-0-471-00626-8.
- Yuksel, SE; Wilson, JN; Gader, PD (สิงหาคม 2012). "ยี่สิบปีแห่งการผสมผสานของผู้เชี่ยวชาญ". IEEE Transactions on Neural Networks and Learning Systems . 23 (8): 1177– 1193. Bibcode : 2012ITNNL..23.1177Y . doi : 10.1109/TNNLS.2012.2200299 . ISSN 2162-237X . PMID 24807516. S2CID 9922492 .
- Masoudnia, Saeed; Ebrahimpour, Reza (12 พฤษภาคม 2012). "การผสมผสานของผู้เชี่ยวชาญ: การสำรวจวรรณกรรม". Artificial Intelligence Review . 42 (2): 275– 293. doi : 10.1007/s10462-012-9338-y . S2CID 3185688 .
- Nguyen, Hien D.; Chamroukhi, Faicel (กรกฎาคม 2018). "แง่มุมเชิงปฏิบัติและเชิงทฤษฎีของการสร้างแบบจำลองแบบผสมผสานผู้เชี่ยวชาญ: ภาพรวม" . WIREs Data Mining and Knowledge Discovery . 8 (4) e1246. doi : 10.1002/widm.1246 . ISSN 1942-4787 . S2CID 49301452 .
เทคนิคเชิงปฏิบัติสำหรับการฝึกอบรมแบบจำลองหม้อแปลงไฟฟ้าของกระทรวงพลังงาน
- ซอฟ, บาร์เร็ต; เบลโล, ไอร์วาน; คูมาร์, ซาเมียร์; ดู่ น่าน; หวง เหยียนผิง; ดีน เจฟฟ์; ชาเซียร์, โนม; เฟดัส, วิลเลียม (2022) "ST-MoE: การออกแบบโมเดลผู้เชี่ยวชาญแบบกระจายที่มีความเสถียรและถ่ายโอนได้" arXiv : 2202.08906 [ cs.CL ].
- มึนนิฮอฟ, นิคลาส; โซลไดนี, ลูก้า; โกรเนเวลด์, เดิร์ค; แท้จริงแล้วไคล์; มอร์ริสัน, เจค็อบ; มิน, เซวอน; ชิ, เว่ยเจีย; วอลช์, พีท; ทาฟยอร์ด, ออยวินด์; แลมเบิร์ต, นาธาน; กู่ ยู่หลิง; อาโรรา, เชน; บาเจีย, อัคชิตะ; ชเวงค์, ดัสติน; วาดเดน, เดวิด; เวททิก, อเล็กซานเดอร์; ฮุ่ย ปินหยวน; เดตต์เมอร์ส, ทิม; คีล่า, ดูเว; ฟาร์ฮาดี, อาลี; สมิธ, โนอาห์ เอ.; ปางเว่ยเกาะ; ซิงห์, อมันปรีต; ฮาจิชิร์ซี, ฮันนาเนห์ (2024) OLMoE: เปิดโมเดลภาษาแบบผสมผสานของผู้เชี่ยวชาญarXiv : 2409.02060 [ cs.CL ].พร้อมการเผยแพร่ข้อมูลที่เกี่ยวข้องที่"allenai/OLMoE" Ai2. 2024-10-17 . สืบค้นเมื่อ2024-10-18 .
- ราชบันดาริ, สามยัม; หลี่ ฉงหลง; เหยา, เจ้อเหว่ย; จาง มินเจีย; เรซา ยาซดานี อมินาบาดี; อัมมาร์ อาหมัด อาวัน; แรสลีย์, เจฟฟ์; เหอ หยู่เซียง (2022) "DeepSpeed-MoE: การอนุมานแบบผสมผสานของผู้เชี่ยวชาญที่ล้ำหน้าและการฝึกอบรมเพื่อขับเคลื่อนมาตราส่วน AI ยุคใหม่" arXiv : 2201.05596 [ cs.LG ].
- DeepSeek-AI และคณะ (2024). "DeepSeek-V2: โมเดลภาษาแบบผสมผสานผู้เชี่ยวชาญที่แข็งแกร่ง ประหยัด และมีประสิทธิภาพ" arXiv : 2405.04434 [ cs.CL ]
- DeepSeek-AI; และคณะ (2024) "รายงานทางเทคนิค DeepSeek-V3" arXiv : 2412.19437 [ cs.CL ].
- จินเฉา; เจียง, ซีเหิง; ไป๋, จื้อห่าว; จง เจิ้ง; หลิว จุนไค; หลี่เซียง; เจิ้ง, หนิงซิน; วัง, ซี; เซี่ยคง; หวง ฉี; เฮง, เหวิน; หม่า อี้หยวน; เปา, เหวินเล่ย; เจิ้ง ขนาด; เป็ง, หยางหัว; หลิน, ไฮปิน; หลิว ซวนเจ๋อ; จิน, ซิน; หลิว ซิน (2025) "MegaScale-MoE: การฝึกอบรมการสื่อสารขนาดใหญ่ที่มีประสิทธิภาพสำหรับแบบจำลองแบบผสมผสานของผู้เชี่ยวชาญในการผลิต" arXiv : 2505.11432 [ cs.LG ].
การทบทวนวรรณกรรมสำหรับยุคการเรียนรู้เชิงลึก
- Fedus, William; Dean, Jeff; Zoph, Barret (2022). "บทวิจารณ์แบบจำลองผู้เชี่ยวชาญแบบเบาบางในการเรียนรู้เชิงลึก". arXiv : 2209.01667 [ cs.LG ].
- Fuzhao, Xue (2024-07-21). "XueFuzhao/awesome-mixture-of-experts" . GitHub . สืบค้นเมื่อ2024-07-21 .
- Vats, Arpita (2024-09-02). "arpita8/Awesome-Mixture-of-Experts-Papers" . GitHub . สืบค้นเมื่อ2024-09-06 .
- Cai, Weilin; Jiang, Juyong; Wang, Fan; Tang, Jing; Kim, Sunghun; Huang, Jiayi (2025). "การสำรวจเกี่ยวกับการผสมผสานผู้เชี่ยวชาญในแบบจำลองภาษาขนาดใหญ่" IEEE Transactions on Knowledge and Data Engineering . 37 (7): 3896. arXiv : 2407.06204 . Bibcode : 2025IDSO...37.3896C . doi : 10.1109/TKDE.2025.3554028 .

[ 1 ]

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 11 ]

[ 12 ]

[

14 ] หรือ

[ 15 ]

[

[ 17 ]

[

[ 19 ]

[ 20 ]

[ 21 ]

[ 23 ]

[ 24 ]

[

[ 29 ]

[ 31 ]

[ 32 ]

[ 33 ]

[ 34 ]

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 48 ]