กลับไปหน้าบทความ

อ่าน 17 นาที

การรวมตัวของผู้เชี่ยวชาญ

การผสมผสานของผู้เชี่ยวชาญ ( MoE ) เป็น เทคนิค การเรียนรู้ของเครื่องจักร ที่ ใช้เครือข่ายผู้เชี่ยวชาญหลาย เครือข่าย (ผู้เรียน)...

การรวมตัวของผู้เชี่ยวชาญ

การผสมผสานของผู้เชี่ยวชาญ ( MoE ) เป็น เทคนิค การเรียนรู้ของเครื่องจักร ที่ ใช้เครือข่ายผู้เชี่ยวชาญหลาย เครือข่าย (ผู้เรียน) เพื่อแบ่งพื้นที่ปัญหาออกเป็นภูมิภาคที่เป็นเนื้อเดียวกัน [ 1 ] MoE แสดงถึงรูปแบบหนึ่งของ การเรียนรู้ แบบกลุ่ม[ 2 ]พวกมันยังถูกเรียกว่าเครื่องจักรคณะกรรมการ อีกด้วย [ 3 ]

ทฤษฎีพื้นฐาน

MoE ประกอบด้วยส่วนประกอบต่อไปนี้เสมอ แต่จะถูกนำไปใช้และผสมผสานกันแตกต่างกันไปตามปัญหาที่ต้องการแก้ไข:

  • ผู้เชี่ยวชาญแต่ละคนรับข้อมูลเข้าชุดกันและสร้างผลลัพธ์ออกมา
  • ฟังก์ชันถ่วงน้ำหนัก (หรือที่เรียกว่าฟังก์ชันควบคุม) ซึ่งรับอินพุตและสร้างเวกเตอร์ของเอาต์พุต เวกเตอร์นี้อาจเป็นหรือไม่เป็นฟังก์ชันการแจกแจงความน่าจะเป็นก็ได้ แต่ในทั้งสองกรณี ค่าในเวกเตอร์จะเป็นค่าที่ไม่ติดลบ
  • คือชุดของพารามิเตอร์ พารามิเตอร์นี้ใช้สำหรับฟังก์ชันการถ่วงน้ำหนัก พารามิเตอร์เหล่านี้ใช้สำหรับผู้เชี่ยวชาญ
  • เมื่อได้รับข้อมูลป้อนเข้ากลุ่มผู้เชี่ยวชาญจะสร้างผลลัพธ์เดียวโดยการรวมกันตามน้ำหนักในรูปแบบใดรูปแบบหนึ่ง ซึ่งโดยปกติแล้วจะเป็นวิธีการใดวิธีการหนึ่ง

ทั้งผู้เชี่ยวชาญและฟังก์ชันถ่วงน้ำหนักได้รับการฝึกฝนโดยการลดฟังก์ชันความสูญเสีย บางอย่างให้เหลือน้อยที่สุด โดยทั่วไปแล้วจะใช้การไล่ระดับความชัน (gradient descent ) มีอิสระอย่างมากในการเลือกรูปแบบที่แน่นอนของผู้เชี่ยวชาญ ฟังก์ชันถ่วงน้ำหนัก และฟังก์ชันความสูญเสีย

เครือข่ายเมตา-พาย

เครือข่าย meta-pi ที่รายงานโดย Hampshire และ Waibel [ 4 ]ใช้เป็นเอาต์พุต โมเดลได้รับการฝึกฝนโดยการดำเนินการไล่ระดับความชันบนการสูญเสียข้อผิดพลาดกำลังสองเฉลี่ยผู้เชี่ยวชาญอาจเป็นฟังก์ชันใดๆ ก็ได้

ในการตีพิมพ์ครั้งแรก พวกเขาได้แก้ปัญหาการจำแนกหน่วยเสียงในสัญญาณเสียงพูดจากผู้พูดภาษาญี่ปุ่น 6 คนที่แตกต่างกัน โดยเป็นผู้หญิง 2 คนและผู้ชาย 4 คน พวกเขาฝึกผู้เชี่ยวชาญ 6 คน โดยแต่ละคนเป็น "เครือข่ายประสาทแบบหน่วงเวลา" [ 5 ] (โดยพื้นฐานแล้วคือเครือข่ายคอนโวลูชัน แบบหลายชั้น บนสเปกโตรแกรมเมล ) พวกเขาพบว่าการผสมผสานของผู้เชี่ยวชาญที่ได้นั้น มีผู้เชี่ยวชาญ 5 คนสำหรับผู้พูด 5 คน แต่ผู้พูดคนที่ 6 (ผู้ชาย) ไม่มีผู้เชี่ยวชาญเฉพาะเจาะจง แต่เสียงของเขาถูกจำแนกโดยการรวมกันเชิงเส้นของผู้เชี่ยวชาญสำหรับผู้พูดชายอีก 3 คน

การผสมผสานที่ลงตัวของผู้เชี่ยวชาญในท้องถิ่น

ส่วนผสมแบบปรับตัวของผู้เชี่ยวชาญท้องถิ่น[ 6 ] [ 7 ]ใช้โมเดลส่วนผสมแบบเกาส์เซียนผู้เชี่ยวชาญแต่ละคนทำนายการกระจายแบบเกาส์เซียน และไม่สนใจอินพุตโดยสิ้นเชิง โดยเฉพาะอย่างยิ่งผู้เชี่ยวชาญคนที่ -th ทำนายว่าเอาต์พุตคือโดยที่เป็นพารามิเตอร์ที่เรียนรู้ได้ ฟังก์ชันการถ่วงน้ำหนักคือฟังก์ชัน softmax เชิงเส้น: ส่วนผสมของผู้เชี่ยวชาญทำนายว่าเอาต์พุตมีการกระจายตามฟังก์ชันความหนาแน่นของความน่าจะเป็นแบบลอการิทึม: มันได้รับการฝึกฝนโดยการประมาณค่าความน่าจะเป็นสูงสุด นั่นคือ การเพิ่มระดับความชันบน ระดับความชันสำหรับผู้เชี่ยวชาญคนที่ -th คือ

และค่าความชันสำหรับฟังก์ชันถ่วงน้ำหนักคือ

สำหรับแต่ละคู่ข้อมูลเข้า-ข้อมูลออกฟังก์ชันการถ่วงน้ำหนักจะถูกเปลี่ยนแปลงเพื่อเพิ่มน้ำหนักให้กับผู้เชี่ยวชาญทั้งหมดที่ทำได้ดีกว่าค่าเฉลี่ย และลดน้ำหนักให้กับผู้เชี่ยวชาญทั้งหมดที่ทำได้ต่ำกว่าค่าเฉลี่ย วิธีนี้จะช่วยกระตุ้นให้ฟังก์ชันการถ่วงน้ำหนักเรียนรู้ที่จะเลือกเฉพาะผู้เชี่ยวชาญที่ทำนายผลได้อย่างถูกต้องสำหรับแต่ละข้อมูลเข้าเท่านั้น

ผู้เชี่ยวชาญ คนที่ i จะถูกปรับเปลี่ยนเพื่อให้การคาดการณ์ใกล้เคียงกับค่าเดิมมากขึ้นแต่ปริมาณการเปลี่ยนแปลงจะเป็นสัดส่วนกับค่าเดิมซึ่งมีการตีความแบบเบย์เซียน เมื่อกำหนดอินพุตความน่าจะเป็นก่อนหน้าว่าผู้เชี่ยวชาญคนนั้นถูกต้องคือและคือความน่าจะเป็นของหลักฐานดังนั้นคือความน่าจะเป็นภายหลังสำหรับผู้เชี่ยวชาญคน นั้น และอัตราการเปลี่ยนแปลงสำหรับผู้เชี่ยวชาญคนที่ i จะเป็นสัดส่วนกับความน่าจะเป็นภายหลังของเขา

กล่าวโดยสรุป ผู้เชี่ยวชาญที่ในภายหลังดูเหมือนจะเป็นผู้เชี่ยวชาญที่ควรปรึกษา จะถูกขอให้เรียนรู้จากตัวอย่าง ส่วนผู้เชี่ยวชาญที่ในภายหลังดูเหมือนจะไม่ใช่ผู้เชี่ยวชาญที่เหมาะสม ก็จะถูกปล่อยทิ้งไว้ตามลำพัง

ผลรวมของปรากฏการณ์นี้คือ ผู้เชี่ยวชาญจะมีความเชี่ยวชาญเฉพาะด้านมากขึ้น: สมมติว่าผู้เชี่ยวชาญสองคนต่างก็เก่งในการทำนายข้อมูลประเภทหนึ่ง แต่คนหนึ่งเก่งกว่าเล็กน้อย ฟังก์ชันการถ่วงน้ำหนักก็จะเรียนรู้ที่จะให้ความสำคัญกับคนที่เก่งกว่าในที่สุด หลังจากนั้น ผู้เชี่ยวชาญที่ด้อยกว่าจะไม่สามารถรับสัญญาณที่มีความชันสูงได้ และจะยิ่งแย่ลงในการทำนายข้อมูลประเภทนั้น ในทางกลับกัน ผู้เชี่ยวชาญที่ด้อยกว่าอาจเก่งขึ้นในการทำนายข้อมูลประเภทอื่น และค่อยๆ ขยายขอบเขตไปสู่พื้นที่อื่นมากขึ้นเรื่อยๆ สิ่งนี้มีผลป้อนกลับเชิงบวก ทำให้ผู้เชี่ยวชาญแต่ละคนแยกตัวออกจากคนอื่นๆ และดูแลพื้นที่เฉพาะของตนเอง (จึงเป็นที่มาของชื่อ " ผู้เชี่ยวชาญ เฉพาะพื้นที่ ")

กระทรวงศึกษาธิการแบบลำดับชั้น

การผสมผสานผู้เชี่ยวชาญแบบลำดับชั้น[ 8 ] [ 9 ]ใช้การกำหนดระดับหลายระดับในต้นไม้ การกำหนดระดับแต่ละระดับเป็นการกระจายความน่าจะเป็นเหนือระดับการกำหนดระดับถัดไป และผู้เชี่ยวชาญจะอยู่ที่โหนดใบของต้นไม้ พวกมันคล้ายกับต้นไม้ ตัดสินใจ

ตัวอย่างเช่น MoE แบบลำดับชั้น 2 ระดับ จะมีฟังก์ชันการคัดกรองลำดับแรกและฟังก์ชันการคัดกรองลำดับที่สองรวมถึงผู้เชี่ยวชาญดังนั้นผลการทำนายโดยรวมจึงเป็นดังนี้

ตัวแปร

การผสมผสานของผู้เชี่ยวชาญ ซึ่งคล้ายกับแบบจำลองส่วนผสมเกาส์เซียน สามารถฝึกฝนได้ด้วยอัลกอริทึมการคาดการณ์-การเพิ่มประสิทธิภาพ เช่นเดียวกับแบบจำลองส่วนผสมเกาส์เซียนโดยเฉพาะอย่างยิ่ง ในขั้นตอนการคาดการณ์ "ภาระ" ในการอธิบายแต่ละจุดข้อมูลจะถูกกำหนดให้กับผู้เชี่ยวชาญ และในขั้นตอนการเพิ่มประสิทธิภาพ ผู้เชี่ยวชาญจะได้รับการฝึกฝนเพื่อปรับปรุงคำอธิบายที่พวกเขาได้รับภาระสูง ในขณะที่เกตจะได้รับการฝึกฝนเพื่อปรับปรุงการกำหนดภาระ ซึ่งสามารถบรรลุการบรรจบกันได้เร็วกว่าการเพิ่มความชันบนลอการิทึมความน่าจะเป็น[ 9 ] [ 10 ]

โดยทั่วไปแล้ว ฟังก์ชันเกตติ้งมักจะเป็น softmax นอกจากนั้น เกตติ้งอาจใช้การแจกแจงแบบเกาส์เซียน[ 11 ]และตระกูลเลขชี้กำลัง[ 10 ]

แทนที่จะทำการรวมน้ำหนักของผู้เชี่ยวชาญทั้งหมด ใน MoE แบบแข็ง[ 12 ]จะเลือกเฉพาะผู้เชี่ยวชาญที่มีอันดับสูงสุดเท่านั้น นั่นคือ. ซึ่งสามารถเร่งเวลาการฝึกอบรมและการอนุมานได้[ 13 ]

ผู้เชี่ยวชาญสามารถใช้รูปแบบทั่วไปของการแจกแจงแบบเกาส์เซียนหลายตัวแปรได้ ตัวอย่างเช่น[ 8 ]เสนอโดยที่เป็นพารามิเตอร์ที่เรียนรู้ได้ กล่าวคือ ผู้เชี่ยวชาญแต่ละคนเรียนรู้ที่จะทำการถดถอยเชิงเส้น โดยมีการประมาณค่าความไม่แน่นอนที่เรียนรู้ได้

สามารถใช้ผู้เชี่ยวชาญที่แตกต่างจากการแจกแจงแบบเกาส์เซียนได้ ตัวอย่างเช่น สามารถใช้การแจกแจงแบบลาปลาส [ 14 ] หรือการแจกแจงแบบ t ของนักเรียน[ 15 ]สำหรับการจำแนกแบบไบนารี ยังมีการเสนอ ผู้เชี่ยวชาญ การถดถอยโลจิสติกโดยที่เป็นพารามิเตอร์ที่เรียนรู้ได้ ต่อมาได้มีการขยายความสำหรับการจำแนกแบบหลายคลาส โดยใช้ผู้เชี่ยวชาญการถดถอยโลจิสติกแบบพหุนาม[ 16 ]

เอกสารฉบับหนึ่งเสนอให้ใช้การผสมผสานของ softmax สำหรับการสร้างแบบจำลองภาษาแบบอัตถารีเกรสซีฟ[ 17 ]โดยเฉพาะอย่างยิ่ง ให้พิจารณาแบบจำลองภาษาที่เมื่อได้รับข้อความก่อนหน้าจะทำนายคำถัดไปเครือข่ายจะเข้ารหัสข้อความลงในเวกเตอร์และทำนายการกระจายความน่าจะเป็นของคำถัดไปเป็นสำหรับเมทริกซ์ฝังตัวในการผสมผสานของ softmax แบบจำลองจะส่งออกเวกเตอร์หลายตัวและทำนายคำถัดไปเป็น โดยที่เป็นการกระจายความน่าจะเป็นโดยการดำเนินการ softmax เชิงเส้นบนการกระตุ้นของนิวรอนที่ซ่อนอยู่ภายในแบบจำลอง เอกสารต้นฉบับแสดงให้เห็นถึงประสิทธิภาพสำหรับเครือข่ายประสาทแบบวนซ้ำต่อมาพบว่าใช้งานได้กับ Transformer เช่นกัน[ 18 ]

การเรียนรู้เชิงลึก

ส่วนก่อนหน้านี้ได้อธิบายถึง MoE ที่ใช้ก่อนยุคการเรียนรู้เชิงลึกหลังจากการเรียนรู้เชิงลึก MoE พบว่าสามารถนำไปประยุกต์ใช้ในการรันโมเดลขนาดใหญ่ที่สุดได้ เนื่องจากเป็นวิธีง่ายๆ ในการคำนวณแบบมีเงื่อนไขโดยใช้เพียงบางส่วนของโมเดลเท่านั้น โดยเลือกส่วนต่างๆ ตามอินพุต[ 19 ]

เอกสารฉบับแรกที่นำ MoE มาใช้กับการเรียนรู้เชิงลึกย้อนกลับไปในปี 2013 [ 20 ]ซึ่งเสนอให้ใช้เครือข่ายเกตติ้งที่แตกต่างกันในแต่ละเลเยอร์ในเครือข่ายประสาทเชิงลึก โดยเฉพาะอย่างยิ่ง เกตติ้งแต่ละตัวเป็นเครือข่าย linear-ReLU-linear-softmax และผู้เชี่ยวชาญแต่ละคนเป็นเครือข่าย linear-ReLU เนื่องจากเอาต์พุตจากเกตติ้งไม่กระจัดกระจายจึงจำเป็นต้องใช้เอาต์พุตของผู้เชี่ยวชาญทั้งหมด และไม่มีการคำนวณแบบมีเงื่อนไข

เป้าหมายหลักของการใช้ MoE ในการเรียนรู้เชิงลึกคือการลดต้นทุนการคำนวณ ดังนั้น สำหรับแต่ละคำถาม ควรสอบถามผู้เชี่ยวชาญเพียงกลุ่มเล็กๆ เท่านั้น ซึ่งทำให้ MoE ในการเรียนรู้เชิงลึกแตกต่างจาก MoE แบบดั้งเดิม ใน MoE แบบดั้งเดิม ผลลัพธ์สำหรับแต่ละคำถามจะเป็นผลรวมถ่วงน้ำหนักของ ผลลัพธ์จากผู้เชี่ยวชาญ ทั้งหมดใน MoE การเรียนรู้เชิงลึก ผลลัพธ์สำหรับแต่ละคำถามจะเกี่ยวข้องกับผลลัพธ์จากผู้เชี่ยวชาญเพียงไม่กี่คนเท่านั้น ดังนั้น ทางเลือกในการออกแบบที่สำคัญใน MoE จึงอยู่ที่การกำหนดเส้นทาง: เมื่อได้รับชุดคำถามแล้ว จะกำหนดเส้นทางคำถามไปยังผู้เชี่ยวชาญที่ดีที่สุดได้อย่างไร

ชั้น MoE ที่มีเกตแบบเบาบาง

ชั้น MoE ที่มีการควบคุมแบบเบาบาง[ 21 ]ซึ่งเผยแพร่โดยนักวิจัยจากGoogle Brainใช้เครือข่ายฟีดฟอร์เวิร์ดเป็นผู้เชี่ยวชาญ และการควบคุมแบบ softmax เชิงเส้น คล้ายกับ MoE แบบแข็งที่เสนอไว้ก่อนหน้านี้ พวกเขาบรรลุความเบาบางโดยการรวมน้ำหนักของผู้เชี่ยวชาญ k อันดับแรกเท่านั้น แทนที่จะเป็นการรวมน้ำหนักของผู้เชี่ยวชาญทั้งหมด โดยเฉพาะอย่างยิ่ง ในชั้น MoE จะมีเครือข่ายฟีดฟอร์เวิร์ด และเครือข่ายควบคุมเครือข่ายควบคุมถูกกำหนดโดย โดยที่เป็นฟังก์ชันที่รักษาค่า k อันดับแรกของเวกเตอร์ให้เหมือนเดิม แต่กำหนดค่าอื่นๆ ทั้งหมดเป็นการเพิ่มสัญญาณรบกวนช่วยในการกระจายภาระ

การเลือกนั้นเป็นไฮเปอร์พารามิเตอร์ที่เลือกตามการใช้งาน ค่าทั่วไปคือ เวอร์ชัน นี้ยังเรียกว่า Switch Transformer Switch Transformer ดั้งเดิมถูกนำไปใช้กับโมเดลภาษา T5 [ 22 ]

เพื่อเป็นการสาธิต พวกเขาได้ฝึกฝนโมเดลหลายชุดสำหรับการแปลด้วยเครื่องจักรโดยใช้เลเยอร์ MoE และLSTM สลับกัน และเปรียบเทียบกับโมเดล LSTM แบบลึก[ 23 ]ตารางที่ 3 แสดงให้เห็นว่าโมเดล MoE ใช้เวลาในการประมวลผลการอนุมานน้อยกว่า แม้จะมีพารามิเตอร์มากกว่าถึง 30 เท่า

โมดูลสถาปัตยกรรมนี้ได้รับการเผยแพร่ในเดือนมกราคม พ.ศ. 2560 ภายในไม่กี่เดือนหลังจากการเผยแพร่สถาปัตยกรรม Transformer (12 มิถุนายน พ.ศ. 2560) และทั้งสองโมดูลถูกรวมเข้าด้วยกันเป็น สถาปัตยกรรม มัลติโมดอลที่เรียกว่า MultiModel ซึ่งเผยแพร่ในอีก 4 วันต่อมา (16 มิถุนายน พ.ศ. 2560) [ 24 ]

การปรับสมดุลภาระงาน

Vanilla MoE มักมีปัญหาเรื่องการกระจายภาระงาน: ผู้เชี่ยวชาญบางคนถูกปรึกษาบ่อย ในขณะที่ผู้เชี่ยวชาญคนอื่น ๆ แทบจะไม่ถูกปรึกษาเลย เพื่อกระตุ้นให้เกตเลือกผู้เชี่ยวชาญแต่ละคนด้วยความถี่ที่เท่ากัน (การกระจายภาระงานที่เหมาะสม) ภายในแต่ละชุดข้อมูล แต่ละเลเยอร์ของ MoE จึงมีฟังก์ชันการสูญเสียเสริมสองฟังก์ชัน ซึ่งได้รับการปรับปรุงโดย Switch Transformer [ 22 ]ให้เป็นฟังก์ชันการสูญเสียเสริมเพียงฟังก์ชันเดียว โดยเฉพาะอย่างยิ่ง ให้เป็นจำนวนผู้เชี่ยวชาญ จากนั้นสำหรับชุดคำถามที่กำหนดการสูญเสียเสริมสำหรับชุดข้อมูลคือโดยที่คือเศษส่วนของโทเค็นที่เลือกผู้เชี่ยวชาญและคือเศษส่วนของน้ำหนักบนผู้เชี่ยวชาญ การสูญ เสียนี้จะลดลงเหลือน้อยที่สุดที่ซึ่งก็คือเมื่อผู้เชี่ยวชาญแต่ละคนมีน้ำหนักเท่ากันในทุกสถานการณ์

สถาปัตยกรรม DeepSeek MoE นอกจากนี้ยังแสดง MLA ซึ่งเป็นรูปแบบหนึ่งของกลไกความสนใจใน Transformer [ 25 ] : รูปที่ 2

นักวิจัยที่DeepSeekออกแบบ MoE เวอร์ชันหนึ่ง โดยมี "ผู้เชี่ยวชาญร่วม" ที่จะถูกสอบถามอยู่เสมอ และ "ผู้เชี่ยวชาญที่ถูกกำหนดเส้นทาง" ที่อาจไม่ถูกสอบถาม พวกเขาพบว่าการกระจายโหลดมาตรฐานส่งเสริมให้ผู้เชี่ยวชาญได้รับการปรึกษาอย่างเท่าเทียมกัน แต่สิ่งนี้ทำให้ผู้เชี่ยวชาญทำซ้ำความสามารถหลักเดียวกัน เช่น ไวยากรณ์ภาษาอังกฤษ พวกเขาเสนอให้ผู้เชี่ยวชาญร่วมเรียนรู้ความสามารถหลักที่ใช้บ่อย และให้ผู้เชี่ยวชาญที่ถูกกำหนดเส้นทางเรียนรู้ความสามารถรอบข้างที่ใช้ไม่บ่อย[ 26 ]

พวกเขายังเสนอ "กลยุทธ์การปรับสมดุลภาระแบบปราศจากการสูญเสียเสริม" ซึ่งไม่ใช้การสูญเสียเสริม แต่ผู้เชี่ยวชาญแต่ละคนจะมี "อคติของผู้เชี่ยวชาญ" เพิ่มเติมหากผู้เชี่ยวชาญถูกละเลย อคติของพวกเขาก็จะเพิ่มขึ้น และในทางกลับกัน ในระหว่างการกำหนดโทเค็น โทเค็นแต่ละตัวจะเลือกผู้เชี่ยวชาญ 10 อันดับแรก แต่เพิ่มอคติเข้าไปด้วย นั่นคือ: [ 27 ]โปรดทราบว่าอคติของผู้เชี่ยวชาญมีความสำคัญในการเลือกผู้เชี่ยวชาญ แต่ไม่สำคัญในการรวมคำตอบจากผู้เชี่ยวชาญ

ปัจจัยความจุ

สมมติว่ามีผู้เชี่ยวชาญอยู่ในเลเยอร์หนึ่ง สำหรับชุดคำสั่งค้นหาที่กำหนด คำสั่งค้นหาแต่ละคำสั่งจะถูกส่งไปยังผู้เชี่ยวชาญหนึ่งคนหรือมากกว่านั้น ตัวอย่างเช่น หากคำสั่งค้นหาแต่ละคำสั่งถูกส่งไปยังผู้เชี่ยวชาญหนึ่งคนดังเช่นใน Switch Transformers และหากผู้เชี่ยวชาญมีการกระจายภาระงานอย่างสมดุล ผู้เชี่ยวชาญแต่ละคนควรคาดหวังคำสั่งค้นหาโดยเฉลี่ยในแต่ละชุด ในทางปฏิบัติ ผู้เชี่ยวชาญไม่สามารถคาดหวังการกระจายภาระงานที่สมบูรณ์แบบได้ ในบางชุด ผู้เชี่ยวชาญคนหนึ่งอาจมีงานน้อยเกินไป ในขณะที่ในชุดอื่นๆ อาจมีงานมากเกินไป

เนื่องจากข้อมูลนำเข้าไม่สามารถเคลื่อนผ่านเลเยอร์ได้จนกว่าผู้เชี่ยวชาญทุกคนในเลเยอร์จะเสร็จสิ้นการสอบถามที่ได้รับมอบหมาย การกระจายโหลดจึงมีความสำคัญ บางครั้งมีการใช้ปัจจัยความจุเพื่อบังคับใช้ข้อจำกัดที่เข้มงวดในการกระจายโหลด ผู้เชี่ยวชาญแต่ละคนได้รับอนุญาตให้ประมวลผลการสอบถามได้ไม่เกินจำนวนที่กำหนดในแต่ละชุด รายงาน ST-MoE พบว่าใช้งานได้ดีในทางปฏิบัติ[ 28 ]

การกำหนดเส้นทาง

ใน MoE ที่มีการคัดกรองแบบเบาบางดั้งเดิม จะมีการสอบถามเฉพาะผู้เชี่ยวชาญ 10 อันดับแรกเท่านั้น และผลลัพธ์ของพวกเขาจะถูกรวมเข้าด้วยกันแบบถ่วงน้ำหนัก มีวิธีการอื่น ๆ อีก[ 28 ]โดยทั่วไป การกำหนดเส้นทางเป็นปัญหาการมอบหมาย : จะมอบหมายโทเค็นให้กับผู้เชี่ยวชาญอย่างไร เพื่อให้เป็นไปตามข้อจำกัดต่าง ๆ (เช่น ปริมาณงาน การกระจายโหลด ฯลฯ)? โดยทั่วไปมีอัลกอริทึมการกำหนดเส้นทาง 3 ประเภท ได้แก่ ผู้เชี่ยวชาญเลือกโทเค็น ("การเลือกของผู้เชี่ยวชาญ") [ 29 ]โทเค็นเลือกผู้เชี่ยวชาญ (MoE ที่มีการคัดกรองแบบเบาบางดั้งเดิม) และผู้มอบหมายระดับโลกที่จับคู่ผู้เชี่ยวชาญและโทเค็น[ 30 ]

ระหว่างการอนุมาน MoE จะทำงานกับโทเค็นจำนวนมากในเวลาใดก็ได้ หากโทเค็นเป็นผู้เลือกผู้เชี่ยวชาญ ผู้เชี่ยวชาญบางคนอาจได้รับโทเค็นเพียงเล็กน้อย ในขณะที่ผู้เชี่ยวชาญบางคนได้รับโทเค็นจำนวนมากจนเกินขนาดชุดข้อมูลสูงสุด ดังนั้นพวกเขาจึงต้องละเลยโทเค็นบางส่วน ในทำนองเดียวกัน หากผู้เชี่ยวชาญเป็นผู้เลือกโทเค็น โทเค็นบางส่วนอาจไม่ถูกเลือกโดยผู้เชี่ยวชาญคนใดเลย นี่คือปัญหา "การทิ้งโทเค็น" การทิ้งโทเค็นไม่จำเป็นต้องเป็นปัญหาที่ร้ายแรง เนื่องจากใน Transformers เนื่องจากการเชื่อมต่อที่เหลืออยู่หากโทเค็น "ถูกทิ้ง" มันจะไม่หายไป แต่การแสดงเวกเตอร์ของมันจะผ่านเลเยอร์ฟีดฟอร์เวิร์ดโดยไม่มีการเปลี่ยนแปลง[ 30 ]

แนวทางอื่นๆ ได้แก่ การแก้ปัญหาโดยใช้การเขียนโปรแกรมเชิงเส้นแบบมีข้อจำกัด[ 31 ]โดยใช้การเรียนรู้แบบเสริมแรงเพื่อฝึกอัลกอริทึมการกำหนดเส้นทาง (เนื่องจากการเลือกผู้เชี่ยวชาญเป็นการกระทำแบบไม่ต่อเนื่อง เช่นเดียวกับใน RL) [ 32 ]การจับคู่โทเค็นกับผู้เชี่ยวชาญอาจไม่เกี่ยวข้องกับการเรียนรู้ ("การกำหนดเส้นทางแบบคงที่"): สามารถทำได้โดยใช้ฟังก์ชันแฮช แบบกำหนด [ 33 ]หรือตัวสร้างเลขสุ่ม[ 34 ]

การประยุกต์ใช้กับแบบจำลองหม้อแปลงไฟฟ้า

เลเยอร์ MoE ถูกใช้ในโมเดล Transformer ขนาดใหญ่ที่สุด ซึ่งการเรียนรู้และการอนุมานบนโมเดลทั้งหมดมีค่าใช้จ่ายสูงเกินไป โดยทั่วไปแล้วเลเยอร์เหล่านี้จะมีเกตแบบเบาบาง โดยมีความเบาบาง 1 หรือ 2 ในโมเดล Transformer เลเยอร์ MoE มักใช้ในการเลือกเลเยอร์ฟีดฟอร์เวิร์ด (โดยทั่วไปคือเครือข่ายเชิงเส้น-ReLU-เชิงเส้น) ซึ่งปรากฏในแต่ละบล็อก Transformer หลังจากความสนใจแบบหลายหัว เนื่องจากเลเยอร์ฟีดฟอร์เวิร์ดใช้ต้นทุนการคำนวณเพิ่มขึ้นเมื่อโมเดลมีขนาดใหญ่ขึ้น ตัวอย่างเช่น ในโมเดล Palm-540B พารามิเตอร์ 90% อยู่ในเลเยอร์ฟีดฟอร์เวิร์ด[ 35 ]

Transformer ที่ได้รับการฝึกฝนแล้วสามารถแปลงเป็น MoE ได้โดยการทำสำเนาเลเยอร์ฟีดฟอร์เวิร์ดด้วยเกตติ้งที่เริ่มต้นแบบสุ่ม จากนั้นจึงฝึกฝนเพิ่มเติม นี่คือเทคนิคที่เรียกว่า "sparse upcycling" [ 36 ]

มีตัวเลือกการออกแบบจำนวนมากที่เกี่ยวข้องกับ Transformer MoE ซึ่งส่งผลต่อความเสถียรในการฝึกอบรมและประสิทธิภาพขั้นสุดท้าย รายงาน OLMoE อธิบายสิ่งเหล่านี้โดยละเอียด[ 37 ]

ณ ปี 2023 โมเดลที่มีขนาดใหญ่พอที่จะใช้ MoE มักจะเป็นโมเดลภาษาขนาดใหญ่ซึ่งแต่ละผู้เชี่ยวชาญมีพารามิเตอร์ประมาณ 10 พันล้านตัว นอกจากโมเดลภาษาแล้ว Vision MoE [ 38 ]ยังเป็นโมเดล Transformer ที่มีเลเยอร์ MoE พวกเขาสาธิตโดยการฝึกโมเดลที่มีพารามิเตอร์ 15 พันล้านตัว MoE Transformer ยังถูกนำไปใช้กับโมเดลการแพร่กระจาย อีก ด้วย[ 39 ]

แบบจำลองภาษาขนาดใหญ่หลายชุดจากGoogleใช้ MoE GShard [ 40 ]ใช้ MoE โดยมีผู้เชี่ยวชาญสูงสุด 2 คนต่อเลเยอร์ โดยเฉพาะอย่างยิ่ง ผู้เชี่ยวชาญอันดับ 1 จะถูกเลือกเสมอ และผู้เชี่ยวชาญอันดับ 2 จะถูกเลือกด้วยความน่าจะเป็นตามสัดส่วนน้ำหนักของผู้เชี่ยวชาญตามฟังก์ชันเกตติ้ง ต่อมา GLaM [ 41 ]ได้สาธิตแบบจำลองภาษาที่มีพารามิเตอร์ 1.2 ล้านล้านตัว โดยแต่ละเลเยอร์ MoE ใช้ผู้เชี่ยวชาญ 2 คนจาก 64 คน Switch Transformers [ 22 ]ใช้ผู้เชี่ยวชาญอันดับ 1 ในทุกเลเยอร์ MoE

NLLB-200 โดยMeta AIเป็นโมเดลการแปลด้วยเครื่องสำหรับ 200 ภาษา[ 42 ]แต่ละเลเยอร์ MoE ใช้ MoE แบบลำดับชั้นที่มีสองระดับ ในระดับแรก ฟังก์ชันเกตติ้งจะเลือกใช้เลเยอร์ฟีดฟอร์เวิร์ดแบบ "ร่วม" หรือใช้ผู้เชี่ยวชาญ หากใช้ผู้เชี่ยวชาญ ฟังก์ชันเกตติ้งอีกตัวจะคำนวณน้ำหนักและเลือกผู้เชี่ยวชาญ 2 อันดับแรก[ 43 ]

โมเดลภาษาขนาดใหญ่ของ MoE สามารถปรับให้เข้ากับงานปลายทางได้โดยการ ปรับ แต่งคำสั่ง[ 44 ]

ในเดือนธันวาคม พ.ศ. 2566 Mistral AIได้เผยแพร่ Mixtral 8x7B ภายใต้ใบอนุญาต Apache 2.0 ซึ่งเป็นแบบจำลองภาษา MoE ที่มีพารามิเตอร์ 46.7 พันล้านตัว ผู้เชี่ยวชาญ 8 คน และความเบาบาง 2 พวกเขายังได้เผยแพร่เวอร์ชันที่ปรับแต่งมาเป็นพิเศษสำหรับการทำตามคำสั่งอีกด้วย[ 45 ] [ 46 ]

ในเดือนมีนาคม พ.ศ. 2567 Databricks ได้เผยแพร่DBRXซึ่งเป็นแบบจำลองภาษา MoE ที่มีพารามิเตอร์ 132 พันล้านตัว ผู้เชี่ยวชาญ 16 คน และความเบาบาง 4 พวกเขายังเผยแพร่เวอร์ชันที่ปรับแต่งมาเป็นพิเศษเพื่อการติดตามคำสั่งอีกด้วย[ 47 ] [ 48 ]

ดูเพิ่มเติม

อ่านเพิ่มเติม

  • ก่อนยุคการเรียนรู้เชิงลึก
    • McLachlan, Geoffrey J.; Peel, David (2000). แบบจำลองส่วนผสมจำกัด . ชุดหนังสือ Wiley ในสาขาความน่าจะเป็นและสถิติ ส่วนความน่าจะเป็นและสถิติประยุกต์. นิวยอร์ก ชิเชสเตอร์ ไวน์ไฮม์ บริสเบน สิงคโปร์ โตรอนโต: John Wiley & Sons, Inc. ISBN 978-0-471-00626-8.
    • Yuksel, SE; Wilson, JN; Gader, PD (สิงหาคม 2012). "ยี่สิบปีแห่งการผสมผสานของผู้เชี่ยวชาญ". IEEE Transactions on Neural Networks and Learning Systems . 23 (8): 1177– 1193. Bibcode : 2012ITNNL..23.1177Y . doi : 10.1109/TNNLS.2012.2200299 . ISSN  2162-237X . PMID  24807516. S2CID  9922492 .
    • Masoudnia, Saeed; Ebrahimpour, Reza (12 พฤษภาคม 2012). "การผสมผสานของผู้เชี่ยวชาญ: การสำรวจวรรณกรรม". Artificial Intelligence Review . 42 (2): 275– 293. doi : 10.1007/s10462-012-9338-y . S2CID  3185688 .
    • Nguyen, Hien D.; Chamroukhi, Faicel (กรกฎาคม 2018). "แง่มุมเชิงปฏิบัติและเชิงทฤษฎีของการสร้างแบบจำลองแบบผสมผสานผู้เชี่ยวชาญ: ภาพรวม" . WIREs Data Mining and Knowledge Discovery . 8 (4) e1246. doi : 10.1002/widm.1246 . ISSN  1942-4787 . S2CID  49301452 .
  • เทคนิคเชิงปฏิบัติสำหรับการฝึกอบรมแบบจำลองหม้อแปลงไฟฟ้าของกระทรวงพลังงาน
    • ซอฟ, บาร์เร็ต; เบลโล, ไอร์วาน; คูมาร์, ซาเมียร์; ดู่ น่าน; หวง เหยียนผิง; ดีน เจฟฟ์; ชาเซียร์, โนม; เฟดัส, วิลเลียม (2022) "ST-MoE: การออกแบบโมเดลผู้เชี่ยวชาญแบบกระจายที่มีความเสถียรและถ่ายโอนได้" arXiv : 2202.08906 [ cs.CL ].
    • มึนนิฮอฟ, นิคลาส; โซลไดนี, ลูก้า; โกรเนเวลด์, เดิร์ค; แท้จริงแล้วไคล์; มอร์ริสัน, เจค็อบ; มิน, เซวอน; ชิ, เว่ยเจีย; วอลช์, พีท; ทาฟยอร์ด, ออยวินด์; แลมเบิร์ต, นาธาน; กู่ ยู่หลิง; อาโรรา, เชน; บาเจีย, อัคชิตะ; ชเวงค์, ดัสติน; วาดเดน, เดวิด; เวททิก, อเล็กซานเดอร์; ฮุ่ย ปินหยวน; เดตต์เมอร์ส, ทิม; คีล่า, ดูเว; ฟาร์ฮาดี, อาลี; สมิธ, โนอาห์ เอ.; ปางเว่ยเกาะ; ซิงห์, อมันปรีต; ฮาจิชิร์ซี, ฮันนาเนห์ (2024) OLMoE: เปิดโมเดลภาษาแบบผสมผสานของผู้เชี่ยวชาญarXiv : 2409.02060 [ cs.CL ].พร้อมการเผยแพร่ข้อมูลที่เกี่ยวข้องที่"allenai/OLMoE" Ai2. 2024-10-17 . สืบค้นเมื่อ2024-10-18 .
    • ราชบันดาริ, สามยัม; หลี่ ฉงหลง; เหยา, เจ้อเหว่ย; จาง มินเจีย; เรซา ยาซดานี อมินาบาดี; อัมมาร์ อาหมัด อาวัน; แรสลีย์, เจฟฟ์; เหอ หยู่เซียง (2022) "DeepSpeed-MoE: การอนุมานแบบผสมผสานของผู้เชี่ยวชาญที่ล้ำหน้าและการฝึกอบรมเพื่อขับเคลื่อนมาตราส่วน AI ยุคใหม่" arXiv : 2201.05596 [ cs.LG ].
    • DeepSeek-AI และคณะ (2024). "DeepSeek-V2: โมเดลภาษาแบบผสมผสานผู้เชี่ยวชาญที่แข็งแกร่ง ประหยัด และมีประสิทธิภาพ" arXiv : 2405.04434 [ cs.CL ]
    • DeepSeek-AI; และคณะ (2024) "รายงานทางเทคนิค DeepSeek-V3" arXiv : 2412.19437 [ cs.CL ].
    • จินเฉา; เจียง, ซีเหิง; ไป๋, จื้อห่าว; จง เจิ้ง; หลิว จุนไค; หลี่เซียง; เจิ้ง, หนิงซิน; วัง, ซี; เซี่ยคง; หวง ฉี; เฮง, เหวิน; หม่า อี้หยวน; เปา, เหวินเล่ย; เจิ้ง ขนาด; เป็ง, หยางหัว; หลิน, ไฮปิน; หลิว ซวนเจ๋อ; จิน, ซิน; หลิว ซิน (2025) "MegaScale-MoE: การฝึกอบรมการสื่อสารขนาดใหญ่ที่มีประสิทธิภาพสำหรับแบบจำลองแบบผสมผสานของผู้เชี่ยวชาญในการผลิต" arXiv : 2505.11432 [ cs.LG ].
  • การทบทวนวรรณกรรมสำหรับยุคการเรียนรู้เชิงลึก
    • Fedus, William; Dean, Jeff; Zoph, Barret (2022). "บทวิจารณ์แบบจำลองผู้เชี่ยวชาญแบบเบาบางในการเรียนรู้เชิงลึก". arXiv : 2209.01667 [ cs.LG ].
    • Fuzhao, Xue (2024-07-21). "XueFuzhao/awesome-mixture-of-experts" . GitHub . สืบค้นเมื่อ2024-07-21 .
    • Vats, Arpita (2024-09-02). "arpita8/Awesome-Mixture-of-Experts-Papers" . GitHub . สืบค้นเมื่อ2024-09-06 .
    • Cai, Weilin; Jiang, Juyong; Wang, Fan; Tang, Jing; Kim, Sunghun; Huang, Jiayi (2025). "การสำรวจเกี่ยวกับการผสมผสานผู้เชี่ยวชาญในแบบจำลองภาษาขนาดใหญ่" IEEE Transactions on Knowledge and Data Engineering . 37 (7): 3896. arXiv : 2407.06204 . Bibcode : 2025IDSO...37.3896C . doi : 10.1109/TKDE.2025.3554028 .
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Mixture_of_experts&oldid=1354462705 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การรวมตัวของผู้เชี่ยวชาญ

การผสมผสานของผู้เชี่ยวชาญ ( MoE ) เป็น เทคนิค การเรียนรู้ของเครื่องจักร ที่ ใช้เครือข่ายผู้เชี่ยวชาญหลาย เครือข่าย (ผู้เรียน)...

ทฤษฎีพื้นฐาน

MoE ประกอบด้วยส่วนประกอบต่อไปนี้เสมอ แต่จะถูกนำไปใช้และผสมผสานกันแตกต่างกันไปตามปัญหาที่ต้องการแก้ไข:

เครือข่ายเมตา-พาย

เครือข่าย meta-pi ที่รายงานโดย Hampshire และ Waibel [ 4 ] ใช้เป็นเอาต์พุต โมเดลได้รับการฝึกฝนโดยการดำเนินการไล่ระดับความชันบนการสูญเสียข้อผิดพลาดกำลังสองเฉลี่ยผู้เชี่ยวชาญอาจเป็นฟังก์ชันใดๆ ก็ได้ เอฟ ( x ) = ∑ ฉัน ว ( x ) ฉัน เอฟ ฉัน ( x ) {\displaystyle...

การผสมผสานที่ลงตัวของผู้เชี่ยวชาญในท้องถิ่น

ส่วนผสมแบบปรับตัวของผู้เชี่ยวชาญท้องถิ่น [ 6 ] [ 7 ] ใช้ โมเดลส่วนผสมแบบเกาส์เซียน ผู้เชี่ยวชาญแต่ละคนทำนายการกระจายแบบเกาส์เซียน และไม่สนใจอินพุตโดยสิ้นเชิง โดยเฉพาะอย่างยิ่งผู้เชี่ยวชาญคนที่ -th ทำนายว่าเอาต์พุตคือโดยที่เป็นพารามิเตอร์ที่เรียนรู้ได้...