การเรียนรู้เสริมแรงเชิงลึก

การเรียนรู้แบบเสริมแรงเชิงลึก ( Deep RL ) เป็นสาขาย่อยของการเรียนรู้ของเครื่องที่ผสมผสานการเรียนรู้แบบเสริมแรง (RL) และการเรียนรู้เชิงลึก RL พิจารณาปัญหาของตัวแทนการคำนวณที่เรียนรู้ที่จะตัดสินใจโดยการลองผิดลองถูก Deep RL ผสานรวมการเรียนรู้เชิงลึกเข้ากับวิธีการแก้ปัญหา ทำให้ตัวแทนสามารถตัดสินใจจากข้อมูลอินพุตที่ไม่มีโครงสร้างโดยไม่ต้องออกแบบพื้นที่สถานะ ด้วยตนเอง อัลกอริทึม Deep RL สามารถรับอินพุตขนาดใหญ่มาก (เช่น ทุกพิกเซลที่แสดงบนหน้าจอในวิดีโอเกม) และตัดสินใจว่าจะดำเนินการอย่างไรเพื่อเพิ่มประสิทธิภาพของวัตถุประสงค์ (เช่น การเพิ่มคะแนนเกมให้สูงสุด) การเรียนรู้แบบเสริมแรงเชิงลึกถูกนำไปใช้ในแอปพลิเคชันที่หลากหลาย รวมถึงแต่ไม่จำกัดเพียงหุ่นยนต์วิดีโอเกมการ^{ประมวล}ผลภาษาธรรมชาติคอมพิวเตอร์วิชั่น^{[ 1} ] การศึกษา การขนส่ง การเงิน และการดูแลสุขภาพ^[²^]

ภาพรวม

การเรียนรู้เชิงลึก

การเรียนรู้เชิงลึกเป็นรูปแบบหนึ่งของการเรียนรู้ของเครื่องที่แปลงชุดอินพุตเป็นชุดเอาต์พุตผ่านเครือข่ายประสาทเทียม วิธีการเรียนรู้เชิงลึก ซึ่งมักใช้การเรียนรู้แบบมีผู้กำกับดูแลด้วยชุดข้อมูลที่มีป้ายกำกับ ได้แสดงให้เห็นว่าสามารถแก้ปัญหาที่เกี่ยวข้องกับการจัดการข้อมูลอินพุตดิบที่มีความซับซ้อนและมีมิติสูง (เช่น รูปภาพ) โดยใช้การสร้างคุณลักษณะ ด้วยตนเองน้อย กว่าวิธีการก่อนหน้า ทำให้เกิดความก้าวหน้าอย่างมากในหลายสาขา รวมถึงคอมพิวเตอร์วิชั่นและการประมวลผลภาษาธรรมชาติในช่วงทศวรรษที่ผ่านมา การเรียนรู้แบบเสริมแรงเชิงลึกได้บรรลุผลลัพธ์ที่น่าทึ่งในปัญหาต่างๆ ตั้งแต่เกมเดี่ยวและเกมหลายผู้เล่น เช่นGo , Atari GamesและDota 2ไปจนถึงหุ่นยนต์^{[ 3 ]}

การเรียนรู้แบบเสริมแรง

การเรียนรู้แบบเสริมแรง (Reinforcement learning)คือกระบวนการที่ตัวแทนเรียนรู้ที่จะตัดสินใจผ่านการลองผิดลองถูก ปัญหานี้มักถูกจำลองทางคณิตศาสตร์เป็นกระบวนการตัดสินใจแบบมาร์คอฟ (Markov decision process: MDP) โดยที่ตัวแทนในแต่ละช่วงเวลาจะอยู่ในสถานะหนึ่งดำเนินการบางอย่าง ได้รับรางวัลเป็นค่าคงที่ และเปลี่ยนไปสู่สถานะถัดไปตามพลวัตของสภาพแวดล้อมตัวแทนพยายามเรียนรู้นโยบายหรือแผนที่จากการสังเกตไปสู่การกระทำ เพื่อเพิ่มผลตอบแทนสูงสุด (ผลรวมของรางวัลที่คาดหวัง) ในการเรียนรู้แบบเสริมแรง (ตรงข้ามกับการควบคุมที่เหมาะสมที่สุด ) อัลกอริทึมจะเข้าถึงพลวัตได้ผ่านการสุ่มตัวอย่าง เท่านั้น $s$ $a$ $s'$ $p(s'|s,a)$ $\pi (a|s)$ $p(s'|s,a)$

การเรียนรู้เสริมแรงเชิงลึก

ในปัญหาการตัดสินใจเชิงปฏิบัติหลายๆ ปัญหา สถานะของ MDP มีมิติสูง (เช่น ภาพจากกล้องหรือสตรีมข้อมูลดิบจากเซ็นเซอร์ของหุ่นยนต์) และไม่สามารถแก้ไขได้ด้วยอัลกอริธึม RL แบบดั้งเดิม อัลกอริธึมการเรียนรู้แบบเสริมแรงเชิงลึกจึงนำการเรียนรู้เชิงลึกมาใช้เพื่อแก้ปัญหา MDP ดังกล่าว โดยมักจะแทนนโยบายหรือฟังก์ชันการเรียนรู้อื่นๆ ด้วยโครงข่ายประสาทเทียม และพัฒนาอัลกอริธึมเฉพาะทางที่ทำงานได้ดีในบริบทนี้ $s$ $\pi (a|s)$

ประวัติศาสตร์

พร้อมกับความสนใจที่เพิ่มขึ้นในเครือข่ายประสาทเทียมตั้งแต่กลางทศวรรษ 1980 ความสนใจในการเรียนรู้แบบเสริมแรงเชิงลึกก็เพิ่มขึ้นเช่นกัน โดยที่เครือข่ายประสาทเทียมถูกนำมาใช้ในการเรียนรู้แบบเสริมแรงเพื่อแสดงนโยบายหรือฟังก์ชันค่า เนื่องจากในระบบดังกล่าว กระบวนการตัดสินใจทั้งหมดตั้งแต่เซ็นเซอร์ไปจนถึงมอเตอร์ในหุ่นยนต์หรือเอเจนต์เกี่ยวข้องกับเครือข่ายประสาทเทียม เพียงเครือข่ายเดียว จึงบางครั้งเรียกว่าการเรียนรู้แบบเสริมแรงแบบครบวงจร^{[ 4 ]}หนึ่งในแอปพลิเคชันแรกที่ประสบความสำเร็จของการเรียนรู้แบบเสริมแรงด้วยเครือข่ายประสาทเทียมคือTD-Gammonซึ่งเป็นโปรแกรมคอมพิวเตอร์ที่พัฒนาขึ้นในปี 1992 สำหรับเล่นแบ็กแกมมอน^{[ 5 ]}มีการใช้ข้อมูลป้อนเข้าสี่รายการสำหรับจำนวนชิ้นส่วนของสีที่กำหนด ณ ตำแหน่งที่กำหนดบนกระดาน รวมเป็นสัญญาณป้อนเข้าทั้งหมด 198 สัญญาณ ด้วยความรู้เป็นศูนย์ที่สร้างขึ้น เครือข่ายเรียนรู้ที่จะเล่นเกมในระดับกลางโดยการเล่นด้วยตนเองและTD $\lambda$ ( )

ตำราสำคัญโดยSuttonและBartoเกี่ยวกับการเรียนรู้แบบเสริมแรง^{[ 6 ]} BertsekasและTsitiklisเกี่ยวกับการเขียนโปรแกรมแบบไดนามิกประสาท^{[ 7 ]}และอื่นๆ^{[ 8 ]}ได้พัฒนาความรู้และความสนใจในสาขานี้

กลุ่มของ Katsunari Shibata แสดงให้เห็นว่ามีฟังก์ชันต่างๆ เกิดขึ้นในกรอบงานนี้^{[ 9 ]}^{[ 10 ]}^{[ 11 ]}รวมถึงการจดจำภาพ ความคงที่ของสี การเคลื่อนไหวของเซ็นเซอร์ (การจดจำแบบแอคทีฟ) การประสานงานระหว่างมือและตา และการเคลื่อนไหวของมือ การอธิบายกิจกรรมของสมอง การถ่ายโอนความรู้ ความจำ^{[ 12 ]}ความสนใจแบบเลือกสรร การคาดการณ์ และการสำรวจ^{[ 10 ]}^{[ 13 ]}

นับตั้งแต่ปี 2012 เป็นต้นมาการปฏิวัติการเรียนรู้เชิงลึก (deep learning ) ได้นำไปสู่ความสนใจที่เพิ่มขึ้นในการใช้โครงข่ายประสาทเทียมเชิงลึกเป็นตัวประมาณค่าฟังก์ชันในหลากหลายโดเมน ซึ่งนำไปสู่ความสนใจใหม่ในการวิจัยที่ใช้โครงข่ายประสาทเทียมเชิงลึกเพื่อเรียนรู้ฟังก์ชันนโยบาย ฟังก์ชันค่า และ/หรือฟังก์ชัน Q ที่มีอยู่ในอัลกอริธึมการเรียนรู้แบบเสริมแรงที่มีอยู่เดิม

เริ่มตั้งแต่ประมาณปี 2013 DeepMindได้แสดงผลลัพธ์การเรียนรู้ที่น่าประทับใจโดยใช้ deep RL ในการเล่นวิดีโอเกมAtari ^{[ 14 ]}^{[ 15 ]}ผู้เล่นคอมพิวเตอร์เป็นเครือข่ายประสาทเทียมที่ได้รับการฝึกฝนโดยใช้อัลกอริธึม deep RL ซึ่งเป็นเวอร์ชันเชิงลึกของQ-learningที่พวกเขาเรียกว่า deep Q-networks (DQN) โดยใช้คะแนนเกมเป็นรางวัล พวกเขาใช้เครือข่ายประสาทเทียมแบบ convolutional เชิง ลึก เพื่อประมวลผลพิกเซล RGB 4 เฟรม (84x84) เป็นอินพุต เกมทั้ง 49 เกมได้รับการเรียนรู้โดยใช้สถาปัตยกรรมเครือข่ายเดียวกันและด้วยความรู้เบื้องต้นเพียงเล็กน้อย ซึ่งมีประสิทธิภาพเหนือกว่าวิธีการแข่งขันในเกือบทุกเกม และมีประสิทธิภาพในระดับที่เทียบเท่าหรือเหนือกว่าผู้ทดสอบเกมมืออาชีพ^{[ 15 ]}

การเรียนรู้แบบเสริมแรงเชิงลึกได้บรรลุความสำเร็จครั้งสำคัญอีกครั้งในปี 2015 เมื่อAlphaGo [ ¹⁶^]^ซึ่งเป็นโปรแกรมคอมพิวเตอร์ที่ฝึกฝนด้วยการเรียนรู้แบบเสริมแรงเชิงลึกเพื่อเล่นโกะกลายเป็นโปรแกรมโกะคอมพิวเตอร์ตัวแรกที่เอาชนะผู้เล่นโกะมืออาชีพที่เป็นมนุษย์ได้โดยไม่มีแต้มต่อบนกระดานขนาดเต็ม 19×19 ในโครงการต่อมาในปี 2017 AlphaZeroได้ปรับปรุงประสิทธิภาพในการเล่นโกะ พร้อมทั้งแสดงให้เห็นว่าพวกเขาสามารถใช้อัลกอริทึมเดียวกันนี้ในการเรียนรู้การเล่นหมากรุกและโชงิในระดับที่แข่งขันได้หรือเหนือกว่าโปรแกรมคอมพิวเตอร์ที่มีอยู่สำหรับเกมเหล่านั้น และได้รับการปรับปรุงอีกครั้งในปี 2019 ด้วยMuZero [ ^{17 ] นอกจาก} นี้ นักวิจัยจาก มหาวิทยาลัย Carnegie Mellonยังประสบความสำเร็จครั้งสำคัญอีกครั้งในปี 2019 ในการพัฒนาPluribus ซึ่ง เป็นโปรแกรมคอมพิวเตอร์สำหรับเล่นโป๊กเกอร์และเป็นโปรแกรมแรกที่เอาชนะมืออาชีพในเกมโป๊กเกอร์เท็กซัสโฮลเอ็มแบบ ไม่จำกัดจำนวนผู้เล่นหลายคน OpenAI Five ซึ่งเป็นโปรแกรมสำหรับเล่น Dota 2แบบห้าต่อห้าเอาชนะแชมป์โลกคนก่อนๆ ในการแข่งขันสาธิตในปี 2019

การเรียนรู้แบบเสริมแรงเชิงลึกยังถูกนำไปประยุกต์ใช้ในหลายโดเมนนอกเหนือจากเกม ในด้านหุ่นยนต์ มีการใช้เพื่อให้หุ่นยนต์สามารถทำงานบ้านง่ายๆ^{[ 18 ]}และแก้ลูกบาศก์รูบิกด้วยมือหุ่นยนต์^{[ 19 ]}^{[ 20 ]}การเรียนรู้แบบเสริมแรงเชิงลึกยังพบการประยุกต์ใช้เพื่อความยั่งยืน โดยใช้เพื่อลดการใช้พลังงานในศูนย์ข้อมูล^{[ 21 ]}การเรียนรู้แบบเสริมแรงเชิงลึกสำหรับการขับขี่อัตโนมัติเป็นหัวข้อวิจัยที่กำลังได้รับความสนใจในแวดวงวิชาการและอุตสาหกรรม^{[ 22 ]} Loonได้สำรวจการเรียนรู้แบบเสริมแรงเชิงลึกเพื่อนำทางบอลลูนระดับสูงของพวกเขาโดยอัตโนมัติ^{[ 23 ]}

อัลกอริทึม

มีเทคนิคต่างๆ มากมายในการฝึกฝนนโยบายเพื่อแก้ปัญหาต่างๆ ด้วยอัลกอริธึมการเรียนรู้แบบเสริมแรงเชิงลึก โดยแต่ละเทคนิคมีข้อดีแตกต่างกันไป ในระดับสูงสุด จะมีการแบ่งแยกระหว่างการเรียนรู้แบบเสริมแรงโดยใช้แบบจำลองและการเรียนรู้แบบเสริมแรงโดยไม่ใช้แบบจำลอง ซึ่งหมายถึงว่าอัลกอริธึมพยายามเรียนรู้แบบจำลองล่วงหน้าของพลวัตของสภาพแวดล้อมหรือไม่

ในอัลกอริธึมการเรียนรู้แบบเสริมแรงเชิงลึกที่ใช้โมเดลนั้น จะมีการประมาณโมเดลจำลองของพลวัตของสภาพแวดล้อม โดยปกติ จะใช้ การเรียนรู้แบบมีผู้กำกับดูแลโดยใช้โครงข่ายประสาทเทียม จากนั้นจึงกำหนดการกระทำโดยใช้การควบคุมแบบทำนายโมเดลโดยใช้โมเดลที่เรียนรู้มา เนื่องจากพลวัตของสภาพแวดล้อมที่แท้จริงมักจะแตกต่างจากพลวัตที่เรียนรู้มา ตัวแทนจึงมักวางแผนใหม่เมื่อดำเนินการในสภาพแวดล้อม การกระทำที่เลือกอาจได้รับการปรับให้เหมาะสมที่สุดโดยใช้วิธีมอนเตคาร์โลเช่นวิธีเอนโทรปีไขว้หรือการผสมผสานระหว่างการเรียนรู้โมเดลกับวิธีการที่ไม่ใช้โมเดล

ในอัลกอริธึมการเรียนรู้แบบเสริมแรงเชิงลึกแบบไร้โมเดล จะมีการเรียนรู้นโยบาย โดยไม่ต้องสร้างแบบจำลองพลวัตไปข้างหน้าอย่างชัดเจน นโยบายสามารถปรับให้เหมาะสมเพื่อเพิ่มผลตอบแทนสูงสุดโดยการประมาณค่าเกรเดียนต์ของนโยบายโดยตรง ^[²⁴^]แต่ประสบปัญหาความแปรปรวนสูง ทำให้ไม่สามารถใช้งานร่วมกับการประมาณค่าฟังก์ชันในการเรียนรู้แบบเสริมแรงเชิงลึกได้ อัลกอริธึมที่ตามมาได้รับการพัฒนาขึ้นเพื่อการเรียนรู้ที่เสถียรยิ่งขึ้นและนำไปใช้อย่างกว้างขวาง^[²⁵^]^[²⁶^] อัลกอริธึ มการเรียนรู้แบบเสริมแรงเชิงลึกแบบไร้โมเดลอีกประเภทหนึ่งอาศัยการเขียนโปรแกรมแบบไดนามิกซึ่งได้รับแรงบันดาลใจจากการเรียนรู้ความแตกต่างเชิงเวลาและการเรียนรู้แบบ Qในพื้นที่การกระทำแบบไม่ต่อเนื่อง อัลกอริธึมเหล่านี้มักจะเรียนรู้ฟังก์ชัน Q ของเครือข่ายประสาทที่ประมาณผลตอบแทนในอนาคตโดยการกระทำจากสถานะ[ ¹⁴^]^ในพื้นที่แบบต่อเนื่อง อัลกอริธึมเหล่านี้มักจะเรียนรู้ทั้งการประมาณค่าและนโยบาย^[²⁷^]^[²⁸^]^[²⁹^] $\pi (a|s)$ $Q(s,a)$ $a$ $s$

วิจัย

การเรียนรู้แบบเสริมแรงเชิงลึกเป็นหัวข้อการวิจัยที่กำลังได้รับความสนใจอย่างมาก โดยมีแนวทางการศึกษาหลายด้าน

การสำรวจ

เอเจนต์ RL ต้องสร้างสมดุลระหว่างการสำรวจและการใช้ประโยชน์: ปัญหาของการตัดสินใจว่าจะดำเนินตามการกระทำที่ทราบอยู่แล้วว่าให้ผลตอบแทนสูง หรือสำรวจการกระทำอื่น ๆ เพื่อค้นหาผลตอบแทนที่สูงกว่า เอเจนต์ RL มักจะรวบรวมข้อมูลด้วยนโยบายสุ่มบางประเภท เช่นการกระจายแบบ Boltzmannในพื้นที่การกระทำแบบไม่ต่อเนื่อง หรือการกระจายแบบ Gaussianในพื้นที่การกระทำแบบต่อเนื่อง ซึ่งกระตุ้นพฤติกรรมการสำรวจขั้นพื้นฐาน แนวคิดเบื้องหลังการสำรวจตามความแปลกใหม่ หรือการสำรวจที่ขับเคลื่อนด้วยความอยากรู้อยากเห็น คือการให้แรงจูงใจแก่เอเจนต์ในการสำรวจผลลัพธ์ที่ไม่รู้จักเพื่อค้นหาวิธีแก้ปัญหาที่ดีที่สุด ซึ่งทำได้โดยการ "ปรับเปลี่ยนฟังก์ชันการสูญเสีย (หรือแม้แต่สถาปัตยกรรมเครือข่าย) โดยการเพิ่มเงื่อนไขเพื่อจูงใจให้เกิดการสำรวจ" ^{[ 30 ]}เอเจนต์อาจได้รับความช่วยเหลือในการสำรวจโดยการใช้การสาธิตเส้นทางที่ประสบความสำเร็จ หรือการปรับรูปร่างรางวัล โดยให้รางวัลระดับกลางแก่เอเจนต์ที่ปรับแต่งให้เหมาะสมกับงานที่เอเจนต์พยายามทำให้สำเร็จ^{[ 31 ]}

การเรียนรู้เสริมแรงนอกนโยบาย

ความแตกต่างที่สำคัญใน RL คือความแตกต่างระหว่างอัลกอริธึมแบบ on-policy ที่ต้องประเมินหรือปรับปรุงนโยบายที่ใช้รวบรวมข้อมูล และอัลกอริธึมแบบ off-policy ที่สามารถเรียนรู้นโยบายจากข้อมูลที่สร้างขึ้นโดยนโยบายใดๆ ก็ได้ โดยทั่วไปแล้ว วิธีการที่ใช้ฟังก์ชันค่า เช่นQ-learningจะเหมาะสมกว่าสำหรับการเรียนรู้แบบ off-policy และมีประสิทธิภาพในการใช้ข้อมูลที่ดีกว่า กล่าวคือ ปริมาณข้อมูลที่จำเป็นในการเรียนรู้จะลดลงเนื่องจากมีการนำข้อมูลกลับมาใช้ใหม่ในการเรียนรู้ ในกรณีสุดขั้ว RL แบบออฟไลน์ (หรือ "แบบแบตช์") จะพิจารณาการเรียนรู้นโยบายจากชุดข้อมูลคงที่โดยไม่ต้องมีการโต้ตอบเพิ่มเติมกับสภาพแวดล้อม

การเรียนรู้แบบเสริมแรงผกผัน

การเรียนรู้แบบเสริมแรงผกผัน (Inverse RL) หมายถึงการอนุมานฟังก์ชันรางวัลของตัวแทนโดยพิจารณาจากพฤติกรรมของตัวแทน การเรียนรู้แบบเสริมแรงผกผันสามารถใช้สำหรับการเรียนรู้จากการสาธิต (หรือการเรียนรู้แบบฝึกหัด ) โดยการอนุมานรางวัลของผู้สาธิตแล้วปรับนโยบายให้เหมาะสมเพื่อเพิ่มผลตอบแทนสูงสุดด้วย RL แนวทางการเรียนรู้เชิงลึกถูกนำมาใช้สำหรับรูปแบบต่างๆ ของการเรียนรู้แบบเลียนแบบและการเรียนรู้แบบเสริมแรงผกผัน^{[ 32 ]}

การเรียนรู้เสริมแรงแบบมีเงื่อนไขตามเป้าหมาย

อีกหนึ่งพื้นที่การวิจัยที่กำลังดำเนินการอยู่คือการเรียนรู้นโยบายที่กำหนดโดยเป้าหมาย หรือที่เรียกว่านโยบายตามบริบทหรือนโยบายสากลที่รับเป้าหมายเพิ่มเติมเป็นอินพุตเพื่อสื่อสารเป้าหมายที่ต้องการไปยังตัวแทน^[³³^]การเล่นซ้ำประสบการณ์ย้อนหลังเป็นวิธีการสำหรับ RL ที่กำหนดโดยเป้าหมายซึ่งเกี่ยวข้องกับการจัดเก็บและเรียนรู้จากความพยายามที่ล้มเหลวก่อนหน้านี้ในการทำงานให้สำเร็จ^[³⁴^]แม้ว่าความพยายามที่ล้มเหลวอาจไม่ได้บรรลุเป้าหมายที่ตั้งใจไว้ แต่ก็สามารถใช้เป็นบทเรียนสำหรับวิธีการบรรลุผลลัพธ์ที่ไม่ตั้งใจผ่านการติดป้ายใหม่ย้อนหลังได้ $\pi (a|s,g)$ $g$

การเรียนรู้เสริมแรงแบบหลายเอเจนต์

การประยุกต์ใช้การเรียนรู้แบบเสริมแรงจำนวนมากไม่ได้เกี่ยวข้องกับเอเจนต์เพียงตัวเดียว แต่เกี่ยวข้องกับกลุ่มของเอเจนต์ที่เรียนรู้ร่วมกันและปรับตัวร่วมกัน เอเจนต์เหล่านี้อาจแข่งขันกัน เช่นในเกมหลายๆ เกม หรืออาจร่วมมือกัน เช่นในระบบหลายเอเจนต์ในโลกแห่งความเป็นจริงการเรียนรู้แบบเสริมแรงหลายเอเจนต์ศึกษาปัญหาที่เกิดขึ้นในบริบทนี้

การสรุปทั่วไป

ข้อดีของการใช้เครื่องมือการเรียนรู้เชิงลึกในการเรียนรู้แบบเสริมแรงคือความสามารถในการสรุปผล: ความสามารถในการทำงานได้อย่างถูกต้องกับอินพุตที่ไม่เคยเห็นมาก่อน ตัวอย่างเช่น เครือข่ายประสาทเทียมที่ฝึกฝนสำหรับการจดจำภาพสามารถจดจำได้ว่าภาพนั้นมีนกอยู่ แม้ว่าจะไม่เคยเห็นภาพนั้นหรือแม้แต่นกตัวนั้นมาก่อนก็ตาม เนื่องจาก deep RL อนุญาตให้ใช้ข้อมูลดิบ (เช่น พิกเซล) เป็นอินพุต จึงลดความจำเป็นในการกำหนดสภาพแวดล้อมล่วงหน้า ทำให้โมเดลสามารถสรุปผลไปยังแอปพลิเคชันต่างๆ ได้ ด้วยชั้นของนามธรรมนี้ อัลกอริทึมการเรียนรู้แบบเสริมแรงเชิงลึกสามารถออกแบบได้ในลักษณะที่ทำให้สามารถใช้งานได้ทั่วไป และสามารถใช้โมเดลเดียวกันสำหรับงานต่างๆ ได้^{[ 35 ]} วิธีหนึ่งในการเพิ่มความสามารถของนโยบายที่ฝึกฝนด้วยนโยบาย deep RL ให้สรุป ผลได้คือการรวมการเรียนรู้การแสดงแทน^{[ 36 ]}

การเรียนรู้แบบเสริมแรงเชิงลึกสำหรับการตัดสินใจทางการเงิน

มีการวิจัยเพิ่มมากขึ้นเกี่ยวกับการใช้ การเรียน รู้แบบเสริมแรงเชิงลึก (Deep RL) สำหรับปัญหาทางการเงิน โดยเฉพาะอย่างยิ่งการเพิ่มประสิทธิภาพพอร์ตโฟลิโอแนวทางดั้งเดิม เช่นทฤษฎีพอร์ตโฟลิโอสมัยใหม่ (MPT)อาศัยการเพิ่มประสิทธิภาพค่าเฉลี่ย-ความแปรปรวนเพื่อสร้างสมดุลระหว่างความเสี่ยงและผลตอบแทน อย่างไรก็ตาม แนวทางเหล่านี้มักขาดความสามารถในการปรับตัวที่จำเป็นในตลาดที่มีความผันผวน ในทางกลับกัน Deep RL ปรับกรอบปัญหาใหม่ให้เป็นกระบวนการตัดสินใจแบบไดนามิกโดยใช้กรอบการทำงาน เช่นกระบวนการตัดสินใจแบบมาร์คอฟ (MDPs)หรือกระบวนการตัดสินใจแบบมาร์คอฟที่สังเกตได้บางส่วน (POMDPs )

แนวทางนี้ช่วยให้เอเจนต์ RL เชิงลึกสามารถโต้ตอบกับตลาดได้อย่างต่อเนื่อง โดยทำการตัดสินใจเพื่อเพิ่มผลตอบแทนระยะยาวให้สูงสุดโดยอาศัยข้อมูลที่เปลี่ยนแปลงไป องค์ประกอบสำคัญของโมเดล RL เชิงลึก เช่น พื้นที่สถานะและพื้นที่การกระทำ ฟังก์ชันรางวัล และเทคนิคการเพิ่มประสิทธิภาพนโยบาย มีบทบาทสำคัญในความสามารถในการปรับตัวนี้ โมเดลเช่นdeep deterministic policy gradient (DDPG)และproximal policy optimization (PPO)โดดเด่นในด้านการประยุกต์ใช้ในพื้นที่การกระทำแบบต่อเนื่องและศักยภาพในการจัดการกับความซับซ้อนของตลาดการเงิน^{[ 37 ]}^{[ 38 ]}^{[ 39 ]}

การนำ Reinforcement Learning (RL) เชิงลึกไปประยุกต์ใช้ในขอบเขตของปัญหาทางการเงินยังคงเป็นหัวข้อการวิจัยที่กำลังพัฒนาอย่างต่อเนื่อง

ประมวล

[ 1

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

[ 15 ]

16

17 ] นอกจาก

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[

[

[

[

[

[

[ 30 ]

[ 31 ]

[ 32 ]

[

[

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

การเรียนรู้เสริมแรงเชิงลึก

ภาพรวม

การเรียนรู้เชิงลึก

การเรียนรู้แบบเสริมแรง

การเรียนรู้เสริมแรงเชิงลึก

ประวัติศาสตร์

อัลกอริทึม

วิจัย

การสำรวจ

การเรียนรู้เสริมแรงนอกนโยบาย

การเรียนรู้แบบเสริมแรงผกผัน

การเรียนรู้เสริมแรงแบบมีเงื่อนไขตามเป้าหมาย

การเรียนรู้เสริมแรงแบบหลายเอเจนต์

การสรุปทั่วไป

ข้อมูลสำคัญจากบทความ