กลับไปหน้าบทความ

อ่าน 8 นาที

การเรียนรู้เสริมแรงเชิงลึก

การเรียนรู้แบบเสริมแรงเชิงลึก ( Deep RL ) เป็นสาขาย่อยของการเรียนรู้ของเครื่องที่ผสมผสานการเรียนรู้แบบเสริมแรง (RL) และการเรียนรู้เชิงลึก RL...

การเรียนรู้เสริมแรงเชิงลึก

การเรียนรู้แบบเสริมแรงเชิงลึก ( Deep RL ) เป็นสาขาย่อยของการเรียนรู้ของเครื่องที่ผสมผสานการเรียนรู้แบบเสริมแรง (RL) และการเรียนรู้เชิงลึก RL พิจารณาปัญหาของตัวแทนการคำนวณที่เรียนรู้ที่จะตัดสินใจโดยการลองผิดลองถูก Deep RL ผสานรวมการเรียนรู้เชิงลึกเข้ากับวิธีการแก้ปัญหา ทำให้ตัวแทนสามารถตัดสินใจจากข้อมูลอินพุตที่ไม่มีโครงสร้างโดยไม่ต้องออกแบบพื้นที่สถานะ ด้วยตนเอง อัลกอริทึม Deep RL สามารถรับอินพุตขนาดใหญ่มาก (เช่น ทุกพิกเซลที่แสดงบนหน้าจอในวิดีโอเกม) และตัดสินใจว่าจะดำเนินการอย่างไรเพื่อเพิ่มประสิทธิภาพของวัตถุประสงค์ (เช่น การเพิ่มคะแนนเกมให้สูงสุด) การเรียนรู้แบบเสริมแรงเชิงลึกถูกนำไปใช้ในแอปพลิเคชันที่หลากหลาย รวมถึงแต่ไม่จำกัดเพียงหุ่นยนต์วิดีโอเกมการประมวลผลภาษาธรรมชาติคอมพิวเตอร์วิชั่น[ 1 ] การศึกษา การขนส่ง การเงิน และการดูแลสุขภาพ[ 2 ]

ภาพรวม

การเรียนรู้เชิงลึก

ภาพแสดงโครงสร้างเครือข่ายประสาทเทียมพื้นฐาน

การเรียนรู้เชิงลึกเป็นรูปแบบหนึ่งของการเรียนรู้ของเครื่องที่แปลงชุดอินพุตเป็นชุดเอาต์พุตผ่านเครือข่ายประสาทเทียม วิธีการเรียนรู้เชิงลึก ซึ่งมักใช้การเรียนรู้แบบมีผู้กำกับดูแลด้วยชุดข้อมูลที่มีป้ายกำกับ ได้แสดงให้เห็นว่าสามารถแก้ปัญหาที่เกี่ยวข้องกับการจัดการข้อมูลอินพุตดิบที่มีความซับซ้อนและมีมิติสูง (เช่น รูปภาพ) โดยใช้การสร้างคุณลักษณะ ด้วยตนเองน้อย กว่าวิธีการก่อนหน้า ทำให้เกิดความก้าวหน้าอย่างมากในหลายสาขา รวมถึงคอมพิวเตอร์วิชั่นและการประมวลผลภาษาธรรมชาติในช่วงทศวรรษที่ผ่านมา การเรียนรู้แบบเสริมแรงเชิงลึกได้บรรลุผลลัพธ์ที่น่าทึ่งในปัญหาต่างๆ ตั้งแต่เกมเดี่ยวและเกมหลายผู้เล่น เช่นGo , Atari GamesและDota 2ไปจนถึงหุ่นยนต์[ 3 ]

การเรียนรู้แบบเสริมแรง

แผนภาพอธิบายการเกิดซ้ำของลูปในอัลกอริธึมการเรียนรู้แบบเสริมแรง
แผนภาพแสดงลูปที่เกิดขึ้นซ้ำในอัลกอริธึมการเรียนรู้แบบเสริมแรง

การเรียนรู้แบบเสริมแรง (Reinforcement learning)คือกระบวนการที่ตัวแทนเรียนรู้ที่จะตัดสินใจผ่านการลองผิดลองถูก ปัญหานี้มักถูกจำลองทางคณิตศาสตร์เป็นกระบวนการตัดสินใจแบบมาร์คอฟ (Markov decision process: MDP) โดยที่ตัวแทนในแต่ละช่วงเวลาจะอยู่ในสถานะหนึ่งดำเนินการบางอย่าง ได้รับรางวัลเป็นค่าคงที่ และเปลี่ยนไปสู่สถานะถัดไปตามพลวัตของสภาพแวดล้อมตัวแทนพยายามเรียนรู้นโยบายหรือแผนที่จากการสังเกตไปสู่การกระทำ เพื่อเพิ่มผลตอบแทนสูงสุด (ผลรวมของรางวัลที่คาดหวัง) ในการเรียนรู้แบบเสริมแรง (ตรงข้ามกับการควบคุมที่เหมาะสมที่สุด ) อัลกอริทึมจะเข้าถึงพลวัตได้ผ่านการสุ่มตัวอย่าง เท่านั้น

การเรียนรู้เสริมแรงเชิงลึก

ในปัญหาการตัดสินใจเชิงปฏิบัติหลายๆ ปัญหา สถานะของ MDP มีมิติสูง (เช่น ภาพจากกล้องหรือสตรีมข้อมูลดิบจากเซ็นเซอร์ของหุ่นยนต์) และไม่สามารถแก้ไขได้ด้วยอัลกอริธึม RL แบบดั้งเดิม อัลกอริธึมการเรียนรู้แบบเสริมแรงเชิงลึกจึงนำการเรียนรู้เชิงลึกมาใช้เพื่อแก้ปัญหา MDP ดังกล่าว โดยมักจะแทนนโยบายหรือฟังก์ชันการเรียนรู้อื่นๆ ด้วยโครงข่ายประสาทเทียม และพัฒนาอัลกอริธึมเฉพาะทางที่ทำงานได้ดีในบริบทนี้

ประวัติศาสตร์

พร้อมกับความสนใจที่เพิ่มขึ้นในเครือข่ายประสาทเทียมตั้งแต่กลางทศวรรษ 1980 ความสนใจในการเรียนรู้แบบเสริมแรงเชิงลึกก็เพิ่มขึ้นเช่นกัน โดยที่เครือข่ายประสาทเทียมถูกนำมาใช้ในการเรียนรู้แบบเสริมแรงเพื่อแสดงนโยบายหรือฟังก์ชันค่า เนื่องจากในระบบดังกล่าว กระบวนการตัดสินใจทั้งหมดตั้งแต่เซ็นเซอร์ไปจนถึงมอเตอร์ในหุ่นยนต์หรือเอเจนต์เกี่ยวข้องกับเครือข่ายประสาทเทียม เพียงเครือข่ายเดียว จึงบางครั้งเรียกว่าการเรียนรู้แบบเสริมแรงแบบครบวงจร[ 4 ]หนึ่งในแอปพลิเคชันแรกที่ประสบความสำเร็จของการเรียนรู้แบบเสริมแรงด้วยเครือข่ายประสาทเทียมคือTD-Gammonซึ่งเป็นโปรแกรมคอมพิวเตอร์ที่พัฒนาขึ้นในปี 1992 สำหรับเล่นแบ็กแกมมอน[ 5 ]มีการใช้ข้อมูลป้อนเข้าสี่รายการสำหรับจำนวนชิ้นส่วนของสีที่กำหนด ณ ตำแหน่งที่กำหนดบนกระดาน รวมเป็นสัญญาณป้อนเข้าทั้งหมด 198 สัญญาณ ด้วยความรู้เป็นศูนย์ที่สร้างขึ้น เครือข่ายเรียนรู้ที่จะเล่นเกมในระดับกลางโดยการเล่นด้วยตนเองและTD ( )

ตำราสำคัญโดยSuttonและBartoเกี่ยวกับการเรียนรู้แบบเสริมแรง[ 6 ] BertsekasและTsitiklisเกี่ยวกับการเขียนโปรแกรมแบบไดนามิกประสาท[ 7 ]และอื่นๆ[ 8 ]ได้พัฒนาความรู้และความสนใจในสาขานี้

กลุ่มของ Katsunari Shibata แสดงให้เห็นว่ามีฟังก์ชันต่างๆ เกิดขึ้นในกรอบงานนี้[ 9 ] [ 10 ] [ 11 ]รวมถึงการจดจำภาพ ความคงที่ของสี การเคลื่อนไหวของเซ็นเซอร์ (การจดจำแบบแอคทีฟ) การประสานงานระหว่างมือและตา และการเคลื่อนไหวของมือ การอธิบายกิจกรรมของสมอง การถ่ายโอนความรู้ ความจำ[ 12 ]ความสนใจแบบเลือกสรร การคาดการณ์ และการสำรวจ[ 10 ] [ 13 ]

นับตั้งแต่ปี 2012 เป็นต้นมาการปฏิวัติการเรียนรู้เชิงลึก (deep learning ) ได้นำไปสู่ความสนใจที่เพิ่มขึ้นในการใช้โครงข่ายประสาทเทียมเชิงลึกเป็นตัวประมาณค่าฟังก์ชันในหลากหลายโดเมน ซึ่งนำไปสู่ความสนใจใหม่ในการวิจัยที่ใช้โครงข่ายประสาทเทียมเชิงลึกเพื่อเรียนรู้ฟังก์ชันนโยบาย ฟังก์ชันค่า และ/หรือฟังก์ชัน Q ที่มีอยู่ในอัลกอริธึมการเรียนรู้แบบเสริมแรงที่มีอยู่เดิม

เริ่มตั้งแต่ประมาณปี 2013 DeepMindได้แสดงผลลัพธ์การเรียนรู้ที่น่าประทับใจโดยใช้ deep RL ในการเล่นวิดีโอเกมAtari [ 14 ] [ 15 ]ผู้เล่นคอมพิวเตอร์เป็นเครือข่ายประสาทเทียมที่ได้รับการฝึกฝนโดยใช้อัลกอริธึม deep RL ซึ่งเป็นเวอร์ชันเชิงลึกของQ-learningที่พวกเขาเรียกว่า deep Q-networks (DQN) โดยใช้คะแนนเกมเป็นรางวัล พวกเขาใช้เครือข่ายประสาทเทียมแบบ convolutional เชิง ลึก เพื่อประมวลผลพิกเซล RGB 4 เฟรม (84x84) เป็นอินพุต เกมทั้ง 49 เกมได้รับการเรียนรู้โดยใช้สถาปัตยกรรมเครือข่ายเดียวกันและด้วยความรู้เบื้องต้นเพียงเล็กน้อย ซึ่งมีประสิทธิภาพเหนือกว่าวิธีการแข่งขันในเกือบทุกเกม และมีประสิทธิภาพในระดับที่เทียบเท่าหรือเหนือกว่าผู้ทดสอบเกมมืออาชีพ[ 15 ]

การเรียนรู้แบบเสริมแรงเชิงลึกได้บรรลุความสำเร็จครั้งสำคัญอีกครั้งในปี 2015 เมื่อAlphaGo [ 16 ] ซึ่งเป็นโปรแกรมคอมพิวเตอร์ที่ฝึกฝนด้วยการเรียนรู้แบบเสริมแรงเชิงลึกเพื่อเล่นโกะกลายเป็นโปรแกรมโกะคอมพิวเตอร์ตัวแรกที่เอาชนะผู้เล่นโกะมืออาชีพที่เป็นมนุษย์ได้โดยไม่มีแต้มต่อบนกระดานขนาดเต็ม 19×19 ในโครงการต่อมาในปี 2017 AlphaZeroได้ปรับปรุงประสิทธิภาพในการเล่นโกะ พร้อมทั้งแสดงให้เห็นว่าพวกเขาสามารถใช้อัลกอริทึมเดียวกันนี้ในการเรียนรู้การเล่นหมากรุกและโชงิในระดับที่แข่งขันได้หรือเหนือกว่าโปรแกรมคอมพิวเตอร์ที่มีอยู่สำหรับเกมเหล่านั้น และได้รับการปรับปรุงอีกครั้งในปี 2019 ด้วยMuZero [ 17 ] นอกจาก นี้ นักวิจัยจาก มหาวิทยาลัย Carnegie Mellonยังประสบความสำเร็จครั้งสำคัญอีกครั้งในปี 2019 ในการพัฒนาPluribus ซึ่ง เป็นโปรแกรมคอมพิวเตอร์สำหรับเล่นโป๊กเกอร์และเป็นโปรแกรมแรกที่เอาชนะมืออาชีพในเกมโป๊กเกอร์เท็กซัสโฮลเอ็มแบบ ไม่จำกัดจำนวนผู้เล่นหลายคน OpenAI Five ซึ่งเป็นโปรแกรมสำหรับเล่น Dota 2แบบห้าต่อห้าเอาชนะแชมป์โลกคนก่อนๆ ในการแข่งขันสาธิตในปี 2019

การเรียนรู้แบบเสริมแรงเชิงลึกยังถูกนำไปประยุกต์ใช้ในหลายโดเมนนอกเหนือจากเกม ในด้านหุ่นยนต์ มีการใช้เพื่อให้หุ่นยนต์สามารถทำงานบ้านง่ายๆ[ 18 ]และแก้ลูกบาศก์รูบิกด้วยมือหุ่นยนต์[ 19 ] [ 20 ]การเรียนรู้แบบเสริมแรงเชิงลึกยังพบการประยุกต์ใช้เพื่อความยั่งยืน โดยใช้เพื่อลดการใช้พลังงานในศูนย์ข้อมูล[ 21 ]การเรียนรู้แบบเสริมแรงเชิงลึกสำหรับการขับขี่อัตโนมัติเป็นหัวข้อวิจัยที่กำลังได้รับความสนใจในแวดวงวิชาการและอุตสาหกรรม[ 22 ] Loonได้สำรวจการเรียนรู้แบบเสริมแรงเชิงลึกเพื่อนำทางบอลลูนระดับสูงของพวกเขาโดยอัตโนมัติ[ 23 ]

อัลกอริทึม

มีเทคนิคต่างๆ มากมายในการฝึกฝนนโยบายเพื่อแก้ปัญหาต่างๆ ด้วยอัลกอริธึมการเรียนรู้แบบเสริมแรงเชิงลึก โดยแต่ละเทคนิคมีข้อดีแตกต่างกันไป ในระดับสูงสุด จะมีการแบ่งแยกระหว่างการเรียนรู้แบบเสริมแรงโดยใช้แบบจำลองและการเรียนรู้แบบเสริมแรงโดยไม่ใช้แบบจำลอง ซึ่งหมายถึงว่าอัลกอริธึมพยายามเรียนรู้แบบจำลองล่วงหน้าของพลวัตของสภาพแวดล้อมหรือไม่

ในอัลกอริธึมการเรียนรู้แบบเสริมแรงเชิงลึกที่ใช้โมเดลนั้น จะมีการประมาณโมเดลจำลองของพลวัตของสภาพแวดล้อม โดยปกติ จะใช้ การเรียนรู้แบบมีผู้กำกับดูแลโดยใช้โครงข่ายประสาทเทียม จากนั้นจึงกำหนดการกระทำโดยใช้การควบคุมแบบทำนายโมเดลโดยใช้โมเดลที่เรียนรู้มา เนื่องจากพลวัตของสภาพแวดล้อมที่แท้จริงมักจะแตกต่างจากพลวัตที่เรียนรู้มา ตัวแทนจึงมักวางแผนใหม่เมื่อดำเนินการในสภาพแวดล้อม การกระทำที่เลือกอาจได้รับการปรับให้เหมาะสมที่สุดโดยใช้วิธีมอนเตคาร์โลเช่นวิธีเอนโทรปีไขว้หรือการผสมผสานระหว่างการเรียนรู้โมเดลกับวิธีการที่ไม่ใช้โมเดล

ในอัลกอริธึมการเรียนรู้แบบเสริมแรงเชิงลึกแบบไร้โมเดล จะมีการเรียนรู้นโยบาย โดยไม่ต้องสร้างแบบจำลองพลวัตไปข้างหน้าอย่างชัดเจน นโยบายสามารถปรับให้เหมาะสมเพื่อเพิ่มผลตอบแทนสูงสุดโดยการประมาณค่าเกรเดียนต์ของนโยบายโดยตรง [ 24 ]แต่ประสบปัญหาความแปรปรวนสูง ทำให้ไม่สามารถใช้งานร่วมกับการประมาณค่าฟังก์ชันในการเรียนรู้แบบเสริมแรงเชิงลึกได้ อัลกอริธึมที่ตามมาได้รับการพัฒนาขึ้นเพื่อการเรียนรู้ที่เสถียรยิ่งขึ้นและนำไปใช้อย่างกว้างขวาง[ 25 ] [ 26 ] อัลกอริธึ มการเรียนรู้แบบเสริมแรงเชิงลึกแบบไร้โมเดลอีกประเภทหนึ่งอาศัยการเขียนโปรแกรมแบบไดนามิกซึ่งได้รับแรงบันดาลใจจากการเรียนรู้ความแตกต่างเชิงเวลาและการเรียนรู้แบบ Qในพื้นที่การกระทำแบบไม่ต่อเนื่อง อัลกอริธึมเหล่านี้มักจะเรียนรู้ฟังก์ชัน Q ของเครือข่ายประสาทที่ประมาณผลตอบแทนในอนาคตโดยการกระทำจากสถานะ[ 14 ] ในพื้นที่แบบต่อเนื่อง อัลกอริธึมเหล่านี้มักจะเรียนรู้ทั้งการประมาณค่าและนโยบาย[ 27 ] [ 28 ] [ 29 ]

วิจัย

การเรียนรู้แบบเสริมแรงเชิงลึกเป็นหัวข้อการวิจัยที่กำลังได้รับความสนใจอย่างมาก โดยมีแนวทางการศึกษาหลายด้าน

การสำรวจ

เอเจนต์ RL ต้องสร้างสมดุลระหว่างการสำรวจและการใช้ประโยชน์: ปัญหาของการตัดสินใจว่าจะดำเนินตามการกระทำที่ทราบอยู่แล้วว่าให้ผลตอบแทนสูง หรือสำรวจการกระทำอื่น ๆ เพื่อค้นหาผลตอบแทนที่สูงกว่า เอเจนต์ RL มักจะรวบรวมข้อมูลด้วยนโยบายสุ่มบางประเภท เช่นการกระจายแบบ Boltzmannในพื้นที่การกระทำแบบไม่ต่อเนื่อง หรือการกระจายแบบ Gaussianในพื้นที่การกระทำแบบต่อเนื่อง ซึ่งกระตุ้นพฤติกรรมการสำรวจขั้นพื้นฐาน แนวคิดเบื้องหลังการสำรวจตามความแปลกใหม่ หรือการสำรวจที่ขับเคลื่อนด้วยความอยากรู้อยากเห็น คือการให้แรงจูงใจแก่เอเจนต์ในการสำรวจผลลัพธ์ที่ไม่รู้จักเพื่อค้นหาวิธีแก้ปัญหาที่ดีที่สุด ซึ่งทำได้โดยการ "ปรับเปลี่ยนฟังก์ชันการสูญเสีย (หรือแม้แต่สถาปัตยกรรมเครือข่าย) โดยการเพิ่มเงื่อนไขเพื่อจูงใจให้เกิดการสำรวจ" [ 30 ]เอเจนต์อาจได้รับความช่วยเหลือในการสำรวจโดยการใช้การสาธิตเส้นทางที่ประสบความสำเร็จ หรือการปรับรูปร่างรางวัล โดยให้รางวัลระดับกลางแก่เอเจนต์ที่ปรับแต่งให้เหมาะสมกับงานที่เอเจนต์พยายามทำให้สำเร็จ[ 31 ]

การเรียนรู้เสริมแรงนอกนโยบาย

ความแตกต่างที่สำคัญใน RL คือความแตกต่างระหว่างอัลกอริธึมแบบ on-policy ที่ต้องประเมินหรือปรับปรุงนโยบายที่ใช้รวบรวมข้อมูล และอัลกอริธึมแบบ off-policy ที่สามารถเรียนรู้นโยบายจากข้อมูลที่สร้างขึ้นโดยนโยบายใดๆ ก็ได้ โดยทั่วไปแล้ว วิธีการที่ใช้ฟังก์ชันค่า เช่นQ-learningจะเหมาะสมกว่าสำหรับการเรียนรู้แบบ off-policy และมีประสิทธิภาพในการใช้ข้อมูลที่ดีกว่า กล่าวคือ ปริมาณข้อมูลที่จำเป็นในการเรียนรู้จะลดลงเนื่องจากมีการนำข้อมูลกลับมาใช้ใหม่ในการเรียนรู้ ในกรณีสุดขั้ว RL แบบออฟไลน์ (หรือ "แบบแบตช์") จะพิจารณาการเรียนรู้นโยบายจากชุดข้อมูลคงที่โดยไม่ต้องมีการโต้ตอบเพิ่มเติมกับสภาพแวดล้อม

การเรียนรู้แบบเสริมแรงผกผัน

การเรียนรู้แบบเสริมแรงผกผัน (Inverse RL) หมายถึงการอนุมานฟังก์ชันรางวัลของตัวแทนโดยพิจารณาจากพฤติกรรมของตัวแทน การเรียนรู้แบบเสริมแรงผกผันสามารถใช้สำหรับการเรียนรู้จากการสาธิต (หรือการเรียนรู้แบบฝึกหัด ) โดยการอนุมานรางวัลของผู้สาธิตแล้วปรับนโยบายให้เหมาะสมเพื่อเพิ่มผลตอบแทนสูงสุดด้วย RL แนวทางการเรียนรู้เชิงลึกถูกนำมาใช้สำหรับรูปแบบต่างๆ ของการเรียนรู้แบบเลียนแบบและการเรียนรู้แบบเสริมแรงผกผัน[ 32 ]

การเรียนรู้เสริมแรงแบบมีเงื่อนไขตามเป้าหมาย

อีกหนึ่งพื้นที่การวิจัยที่กำลังดำเนินการอยู่คือการเรียนรู้นโยบายที่กำหนดโดยเป้าหมาย หรือที่เรียกว่านโยบายตามบริบทหรือนโยบายสากลที่รับเป้าหมายเพิ่มเติมเป็นอินพุตเพื่อสื่อสารเป้าหมายที่ต้องการไปยังตัวแทน[ 33 ]การเล่นซ้ำประสบการณ์ย้อนหลังเป็นวิธีการสำหรับ RL ที่กำหนดโดยเป้าหมายซึ่งเกี่ยวข้องกับการจัดเก็บและเรียนรู้จากความพยายามที่ล้มเหลวก่อนหน้านี้ในการทำงานให้สำเร็จ[ 34 ]แม้ว่าความพยายามที่ล้มเหลวอาจไม่ได้บรรลุเป้าหมายที่ตั้งใจไว้ แต่ก็สามารถใช้เป็นบทเรียนสำหรับวิธีการบรรลุผลลัพธ์ที่ไม่ตั้งใจผ่านการติดป้ายใหม่ย้อนหลังได้

การเรียนรู้เสริมแรงแบบหลายเอเจนต์

การประยุกต์ใช้การเรียนรู้แบบเสริมแรงจำนวนมากไม่ได้เกี่ยวข้องกับเอเจนต์เพียงตัวเดียว แต่เกี่ยวข้องกับกลุ่มของเอเจนต์ที่เรียนรู้ร่วมกันและปรับตัวร่วมกัน เอเจนต์เหล่านี้อาจแข่งขันกัน เช่นในเกมหลายๆ เกม หรืออาจร่วมมือกัน เช่นในระบบหลายเอเจนต์ในโลกแห่งความเป็นจริงการเรียนรู้แบบเสริมแรงหลายเอเจนต์ศึกษาปัญหาที่เกิดขึ้นในบริบทนี้

การสรุปทั่วไป

ข้อดีของการใช้เครื่องมือการเรียนรู้เชิงลึกในการเรียนรู้แบบเสริมแรงคือความสามารถในการสรุปผล: ความสามารถในการทำงานได้อย่างถูกต้องกับอินพุตที่ไม่เคยเห็นมาก่อน ตัวอย่างเช่น เครือข่ายประสาทเทียมที่ฝึกฝนสำหรับการจดจำภาพสามารถจดจำได้ว่าภาพนั้นมีนกอยู่ แม้ว่าจะไม่เคยเห็นภาพนั้นหรือแม้แต่นกตัวนั้นมาก่อนก็ตาม เนื่องจาก deep RL อนุญาตให้ใช้ข้อมูลดิบ (เช่น พิกเซล) เป็นอินพุต จึงลดความจำเป็นในการกำหนดสภาพแวดล้อมล่วงหน้า ทำให้โมเดลสามารถสรุปผลไปยังแอปพลิเคชันต่างๆ ได้ ด้วยชั้นของนามธรรมนี้ อัลกอริทึมการเรียนรู้แบบเสริมแรงเชิงลึกสามารถออกแบบได้ในลักษณะที่ทำให้สามารถใช้งานได้ทั่วไป และสามารถใช้โมเดลเดียวกันสำหรับงานต่างๆ ได้[ 35 ] วิธีหนึ่งในการเพิ่มความสามารถของนโยบายที่ฝึกฝนด้วยนโยบาย deep RL ให้สรุป ผลได้คือการรวมการเรียนรู้การแสดงแทน[ 36 ]

การเรียนรู้แบบเสริมแรงเชิงลึกสำหรับการตัดสินใจทางการเงิน

มีการวิจัยเพิ่มมากขึ้นเกี่ยวกับการใช้ การเรียน รู้แบบเสริมแรงเชิงลึก (Deep RL) สำหรับปัญหาทางการเงิน โดยเฉพาะอย่างยิ่งการเพิ่มประสิทธิภาพพอร์ตโฟลิโอแนวทางดั้งเดิม เช่นทฤษฎีพอร์ตโฟลิโอสมัยใหม่ (MPT)อาศัยการเพิ่มประสิทธิภาพค่าเฉลี่ย-ความแปรปรวนเพื่อสร้างสมดุลระหว่างความเสี่ยงและผลตอบแทน อย่างไรก็ตาม แนวทางเหล่านี้มักขาดความสามารถในการปรับตัวที่จำเป็นในตลาดที่มีความผันผวน ในทางกลับกัน Deep RL ปรับกรอบปัญหาใหม่ให้เป็นกระบวนการตัดสินใจแบบไดนามิกโดยใช้กรอบการทำงาน เช่นกระบวนการตัดสินใจแบบมาร์คอฟ (MDPs)หรือกระบวนการตัดสินใจแบบมาร์คอฟที่สังเกตได้บางส่วน (POMDPs )

แนวทางนี้ช่วยให้เอเจนต์ RL เชิงลึกสามารถโต้ตอบกับตลาดได้อย่างต่อเนื่อง โดยทำการตัดสินใจเพื่อเพิ่มผลตอบแทนระยะยาวให้สูงสุดโดยอาศัยข้อมูลที่เปลี่ยนแปลงไป องค์ประกอบสำคัญของโมเดล RL เชิงลึก เช่น พื้นที่สถานะและพื้นที่การกระทำ ฟังก์ชันรางวัล และเทคนิคการเพิ่มประสิทธิภาพนโยบาย มีบทบาทสำคัญในความสามารถในการปรับตัวนี้ โมเดลเช่นdeep deterministic policy gradient (DDPG)และproximal policy optimization (PPO)โดดเด่นในด้านการประยุกต์ใช้ในพื้นที่การกระทำแบบต่อเนื่องและศักยภาพในการจัดการกับความซับซ้อนของตลาดการเงิน[ 37 ] [ 38 ] [ 39 ]

การนำ Reinforcement Learning (RL) เชิงลึกไปประยุกต์ใช้ในขอบเขตของปัญหาทางการเงินยังคงเป็นหัวข้อการวิจัยที่กำลังพัฒนาอย่างต่อเนื่อง

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Deep_reinforcement_learning&oldid=1341224891 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การเรียนรู้เสริมแรงเชิงลึก

การเรียนรู้แบบเสริมแรงเชิงลึก ( Deep RL ) เป็นสาขาย่อยของการเรียนรู้ของเครื่องที่ผสมผสานการเรียนรู้แบบเสริมแรง (RL) และการเรียนรู้เชิงลึก RL...

การเรียนรู้เชิงลึก

การเรียนรู้เชิงลึก เป็นรูปแบบหนึ่งของ การเรียนรู้ของเครื่อง ที่แปลงชุดอินพุตเป็นชุดเอาต์พุตผ่าน เครือข่ายประสาท เทียม วิธีการเรียนรู้เชิงลึก ซึ่งมักใช้ การเรียนรู้แบบมีผู้กำกับดูแล ด้วยชุดข้อมูลที่มีป้ายกำกับ...

การเรียนรู้แบบเสริมแรง

การเรียนรู้แบบเสริมแรง (Reinforcement learning) คือกระบวนการที่ตัวแทนเรียนรู้ที่จะตัดสินใจผ่านการลองผิดลองถูก ปัญหานี้มักถูกจำลองทางคณิตศาสตร์เป็น กระบวนการตัดสินใจแบบมาร์คอฟ (Markov decision process: MDP)...

การเรียนรู้เสริมแรงเชิงลึก

ในปัญหาการตัดสินใจเชิงปฏิบัติหลายๆ ปัญหา สถานะของ MDP มีมิติสูง (เช่น ภาพจากกล้องหรือสตรีมข้อมูลดิบจากเซ็นเซอร์ของหุ่นยนต์) และไม่สามารถแก้ไขได้ด้วยอัลกอริธึม RL แบบดั้งเดิม อัลกอริธึมการเรียนรู้แบบเสริมแรงเชิงลึกจึงนำการเรียนรู้เชิงลึกมาใช้เพื่อแก้ปัญหา MDP...