กลับไปหน้าบทความ

อ่าน 5 นาที

การเรียนรู้ความแตกต่างเชิงเวลา

การเรียนรู้ความ แตกต่างเชิงเวลา ( TD ) หมายถึงคลาสของ วิธี การเรียนรู้แบบเสริมแรงที่ ไม่ต้องใช้แบบจำลอง ซึ่งเรียนรู้โดยการบูตสแตรปจากค่าประมาณปัจจุบันของฟังก์ชันค่า...

การเรียนรู้ความแตกต่างเชิงเวลา

การเรียนรู้ความแตกต่างเชิงเวลา ( TD ) หมายถึงคลาสของ วิธี การเรียนรู้แบบเสริมแรงที่ไม่ต้องใช้แบบจำลองซึ่งเรียนรู้โดยการบูตสแตรปจากค่าประมาณปัจจุบันของฟังก์ชันค่า วิธีการเหล่านี้สุ่มตัวอย่างจากสภาพแวดล้อม เช่นวิธีการมอนเตคาร์โลและทำการอัปเดตตามค่าประมาณปัจจุบัน เช่นวิธีการเขียนโปรแกรมแบบไดนามิก[ 1 ]

ในขณะที่วิธีการ Monte Carlo จะปรับการประมาณค่าก็ต่อเมื่อทราบผลลัพธ์แล้วเท่านั้น วิธีการ TD จะปรับการคาดการณ์ให้ตรงกับการคาดการณ์ที่แม่นยำกว่าในภายหลังเกี่ยวกับอนาคต ก่อนที่จะทราบผลลัพธ์[ 2 ]นี่เป็นรูปแบบหนึ่งของการบูตสแตรปปิ้งดังที่แสดงในตัวอย่างต่อไปนี้:

สมมติว่าคุณต้องการพยากรณ์อากาศสำหรับวันเสาร์ และคุณมีแบบจำลองบางอย่างที่พยากรณ์อากาศของวันเสาร์ได้ โดยพิจารณาจากสภาพอากาศของแต่ละวันในสัปดาห์ ในกรณีปกติ คุณจะต้องรอจนถึงวันเสาร์แล้วจึงปรับแบบจำลองทั้งหมดของคุณ อย่างไรก็ตาม เมื่อเป็นวันศุกร์ คุณควรจะมีแนวคิดที่ดีพอสมควรเกี่ยวกับสภาพอากาศในวันเสาร์ และด้วยเหตุนี้จึงสามารถเปลี่ยนแปลงแบบจำลองของวันเสาร์ได้ก่อนที่วันเสาร์จะมาถึง[ 2 ]

วิธีการความแตกต่างเชิงเวลาเกี่ยวข้องกับแบบจำลองความแตกต่างเชิงเวลาของ การเรียน รู้ของสัตว์[ 3 ] [ 4 ] [ 5 ] [ 6 ] [ 7 ]

การกำหนดสูตรทางคณิตศาสตร์

วิธีการ TD(0) แบบตารางเป็นหนึ่งในวิธีการ TD ที่ง่ายที่สุด เป็นกรณีพิเศษของวิธีการประมาณค่าแบบสุ่มทั่วไป โดยจะประมาณค่าฟังก์ชันค่าสถานะ ของ กระบวนการตัดสินใจแบบมาร์คอฟ (MDP) ที่มีสถานะจำกัดภายใต้นโยบายให้แทนฟังก์ชันค่าสถานะของ MDP ที่มีสถานะรางวัลและอัตราส่วนลด[ 8 ]ภายใต้นโยบาย: [ 9 ]

เราละเว้นการกระทำจากสัญลักษณ์เพื่อความสะดวกสอดคล้องกับสมการเบลล์แมน :

ดังนั้นจึงเป็นการประมาณค่าที่ไม่ลำเอียงสำหรับข้อสังเกตนี้เป็นแรงบันดาลใจให้เกิดอัลกอริทึมต่อไปนี้สำหรับการประมาณค่า

อัลกอริทึมเริ่มต้นด้วยการกำหนดค่าเริ่มต้นให้กับตารางโดยพลการ โดยแต่ละค่าแทนสถานะของ MDP และเลือก อัตราการเรียนรู้ เป็นค่าบวก

จากนั้นเราจะประเมินนโยบายซ้ำ ๆรับรางวัลและอัปเดตฟังก์ชันค่าสำหรับสถานะปัจจุบันโดยใช้กฎ: [ 10 ]

โดยที่และคือสถานะปัจจุบันและสถานะถัดไปตามลำดับ ค่าเรียกว่าค่าเป้าหมาย TD และเรียกว่าค่าความคลาดเคลื่อน TD

ทีดี-แลมบ์ดา

TD-Lambdaเป็นอัลกอริธึมการเรียนรู้ที่คิดค้นโดยRichard S. Suttonโดยอิงจากงานก่อนหน้านี้เกี่ยวกับการเรียนรู้ความแตกต่างเชิงเวลาโดยArthur Samuel [ 11 ] อัลกอริธึมนี้ถูกนำไปใช้โดยGerald Tesauro อย่างโด่งดัง เพื่อสร้างTD-Gammonซึ่งเป็นโปรแกรมที่เรียนรู้การเล่นเกมแบ็กแกมมอนในระดับเดียวกับผู้เล่นมนุษย์ผู้เชี่ยวชาญ[ 12 ]

พารามิเตอร์ แลมบ์ดา ( ) หมายถึงพารามิเตอร์การลดลงของร่องรอย โดยที่การตั้งค่าที่สูงขึ้นจะนำไปสู่ร่องรอยที่คงอยู่ยาวนานขึ้น กล่าวคือ สัดส่วนเครดิตที่มากขึ้นจากรางวัลสามารถมอบให้กับสถานะและการกระทำที่อยู่ห่างไกลออกไปได้เมื่อมีค่าสูงขึ้น ซึ่งทำให้เกิดการเรียนรู้แบบขนานกับอัลกอริธึม Monte Carlo RL [ 13 ]

ในสาขาวิทยาศาสตร์ประสาท

อัลกอริทึม TD ยังได้รับความสนใจในสาขาประสาทวิทยาศาสตร์ด้วย นักวิจัยค้นพบว่าอัตราการยิงของเซลล์ประสาทโดปามี น ในบริเวณเท็กเมนทัลด้านล่าง (VTA) และซับสแตนเชียไนกรา (SNc) ดูเหมือนจะเลียนแบบฟังก์ชันข้อผิดพลาดในอัลกอริทึม[ 3 ] [ 4 ] [ 5 ] [ 6 ] [ 7 ]ฟังก์ชันข้อผิดพลาดจะรายงานความแตกต่างระหว่างรางวัลที่คาดการณ์ไว้ในสถานะหรือขั้นตอนเวลาใดๆ กับรางวัลที่ได้รับจริง ยิ่งฟังก์ชันข้อผิดพลาดมีขนาดใหญ่เท่าใด ความแตกต่างระหว่างรางวัลที่คาดหวังและรางวัลที่ได้รับจริงก็จะยิ่งมากขึ้นเท่านั้น เมื่อจับคู่กับสิ่งเร้าที่สะท้อนถึงรางวัลในอนาคตได้อย่างแม่นยำ ข้อผิดพลาดนี้สามารถใช้เพื่อเชื่อมโยงสิ่งเร้ากับรางวัล ในอนาคต ได้

เซลล์ โดปามีนดูเหมือนจะมีพฤติกรรมในลักษณะที่คล้ายคลึงกัน ในการทดลองหนึ่ง มีการวัดเซลล์โดปามีนในขณะที่ฝึกลิงให้เชื่อมโยงสิ่งเร้ากับรางวัลที่เป็นน้ำผลไม้[ 14 ]ในตอนแรก เซลล์โดปามีนมีอัตราการยิงเพิ่มขึ้นเมื่อลิงได้รับน้ำผลไม้ ซึ่งบ่งชี้ถึงความแตกต่างระหว่างรางวัลที่คาดหวังและรางวัลจริง เมื่อเวลาผ่านไป การเพิ่มขึ้นของการยิงนี้จะแพร่กระจายไปยังสิ่งเร้าที่เชื่อถือได้เร็วที่สุดสำหรับรางวัล เมื่อลิงได้รับการฝึกฝนอย่างสมบูรณ์แล้ว อัตราการยิงจะไม่เพิ่มขึ้นเมื่อมีการนำเสนอรางวัลที่คาดการณ์ไว้ ต่อมา อัตราการยิงของเซลล์โดปามีนจะลดลงต่ำกว่าการกระตุ้นปกติเมื่อไม่ได้รับรางวัลที่คาดหวัง สิ่งนี้เลียนแบบวิธีการใช้ฟังก์ชันข้อผิดพลาดใน TD สำหรับการเรียนรู้แบบเสริมแรงอย่าง ใกล้ชิด

ความสัมพันธ์ระหว่างแบบจำลองและหน้าที่ทางระบบประสาทที่อาจเกิดขึ้นได้ก่อให้เกิดการวิจัยที่พยายามใช้ TD เพื่ออธิบายหลายแง่มุมของการวิจัยพฤติกรรม[ 15 ] [ 16 ]นอกจากนี้ยังถูกนำมาใช้เพื่อศึกษาเงื่อนไขต่างๆ เช่นโรคจิตเภทหรือผลที่ตามมาจากการจัดการทางเภสัชวิทยาของโดปามีนต่อการเรียนรู้[ 17 ]

ดูเพิ่มเติม

หมายเหตุ

  1. ^ Sutton & Barto (2018) , หน้า 133.
  2. ^ a b Sutton, Richard S. (1 สิงหาคม 1988). "การเรียนรู้การทำนายด้วยวิธีการของความแตกต่างเชิงเวลา" . Machine Learning . 3 (1): 9– 44. doi : 10.1007/BF00115009 . ISSN  1573-0565 . S2CID  207771194 .
  3. ^ a b Schultz, W, Dayan, P & Montague, PR. (1997). "โครงสร้างพื้นฐานทางประสาทของการทำนายและรางวัล" Science . 275 (5306): 1593– 1599. CiteSeerX 10.1.1.133.6176 . doi : 10.1126/science.275.5306.1593 . PMID 9054347 . S2CID 220093382 .   {{cite journal}}: CS1 maint: multiple names: authors list (link)
  4. ^ a b Montague, PR; Dayan, P.; Sejnowski, TJ (1996-03-01). "กรอบการทำงานสำหรับระบบโดปามีนในสมองส่วนกลางโดยอาศัยการเรียนรู้แบบ Hebbian ที่คาดการณ์ได้" (PDF)วารสารประสาทวิทยาศาสตร์ 16 ( 5): 1936– 1947. doi : 10.1523/JNEUROSCI.16-05-01936.1996 . ISSN 0270-6474 . PMC 6578666 . PMID 8774460 .   
  5. ^ a b Montague, PR; Dayan, P.; Nowlan, SJ; Pouget, A.; Sejnowski, TJ (1993). "การใช้การเสริมแรงแบบไม่เป็นคาบเพื่อการจัดระเบียบตนเองแบบมีทิศทาง" (PDF) . ความก้าวหน้าในระบบประมวลผลข้อมูลประสาท . 5 : 969– 976.
  6. ^ a b Montague, PR; Sejnowski, TJ (1994). "สมองที่ทำนายได้: ความสอดคล้องทางเวลาและลำดับเวลาในกลไกการเรียนรู้ของไซแนปส์"การเรียนรู้และความจำ 1 ( 1): 1– 33. doi : 10.1101/lm.1.1.1 . ISSN 1072-0502 . PMID 10467583 . S2CID 44560099 .   
  7. ^ a b Sejnowski, TJ; Dayan, P.; Montague, PR (1995). "การเรียนรู้แบบ Hebbian ที่ทำนายผลได้". รายงานการประชุมประจำปีครั้งที่ 8 ว่าด้วยทฤษฎีการเรียนรู้เชิงคำนวณ - COLT '95หน้า  15–18 . doi : 10.1145/225298.225300 . ISBN 0897917235. S2CID  1709691 .
  8. ^พารามิเตอร์อัตราส่วนลดช่วยให้สามารถกำหนดลำดับความสำคัญของเวลาไปยังรางวัลที่ได้รับในทันที และหลีกเลี่ยงรางวัลในอนาคตอันไกลโพ้น
  9. ^ Sutton & Barto (2018) , หน้า 134.
  10. ^ Sutton & Barto (2018) , หน้า 135.
  11. ^ Sutton & Barto (2018) , หน้า 130?
  12. ^เทซาอูโร (1995 )
  13. ^ Sutton & Barto (2018) , หน้า 175.
  14. ^ Schultz, W. (1998). " สัญญาณรางวัลที่คาดการณ์ได้ของเซลล์ประสาทโดปามีน". Journal of Neurophysiology . 80 (1): 1– 27. CiteSeerX 10.1.1.408.5994 . doi : 10.1152/jn.1998.80.1.1 . PMID 9658025. S2CID 52857162 .   
  15. ^ Dayan, P. (2001). "การเรียนรู้แบบเสริมแรงที่มีแรงจูงใจ" (PDF) . ความก้าวหน้าในระบบประมวลผลข้อมูลประสาท . 14 . สำนักพิมพ์ MIT: 11– 18. เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 25 พฤษภาคม 2012 . สืบค้น เมื่อ 3 มีนาคม 2009 .
  16. ^ Tobia, MJ, และคณะ (2016). "การเปลี่ยนแปลงการตอบสนองทางพฤติกรรมและระบบประสาทต่อผลประโยชน์เชิงสมมติในผู้สูงอายุ" . ประสาทวิทยาศาสตร์เชิงความรู้ความเข้าใจ อารมณ์ และพฤติกรรม . 16 (3): 457– 472. doi : 10.3758/s13415-016-0406-7 . PMID 26864879 . S2CID 11299945 .  {{cite journal}}: CS1 maint: multiple names: authors list (link)
  17. ^ Smith, A. , Li, M., Becker, S. และ Kapur, S. (2006). "โดปามีน ข้อผิดพลาดในการทำนาย และการเรียนรู้แบบเชื่อมโยง: คำอธิบายตามแบบจำลอง" เครือข่าย: การคำนวณในระบบประสาท17 (1): 61– 84. doi : 10.1080/09548980500361624 . PMID 16613795 . S2CID 991839 .  {{cite journal}}: CS1 maint: multiple names: authors list (link)

เอกสารอ้างอิง

  • Sutton, Richard S.; Barto, Andrew G. (2018). การเรียนรู้แบบเสริมแรง: บทนำ (ฉบับที่ 2). เคมบริดจ์, แมสซาชูเซตส์: สำนักพิมพ์ MIT.
  • Tesauro, Gerald (มีนาคม 1995). "การเรียนรู้ความแตกต่างเชิงเวลาและ TD-Gammon" . Communications of the ACM . 38 (3): 58– 68. doi : 10.1145/203330.203343 . S2CID  6023746 .

อ่านเพิ่มเติม

  • Meyn, SP (2007). เทคนิคการควบคุมสำหรับเครือข่ายที่ซับซ้อน . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-0521884419.โปรดดูบทสุดท้ายและภาคผนวก
  • Sutton, RS; Barto, AG (1990). "แบบจำลองอนุพันธ์เวลาของการเสริมแรงแบบพาฟลอฟ" (PDF)การเรียนรู้และประสาทวิทยาเชิงคำนวณ: รากฐานของเครือข่ายปรับตัว : 497– 537. เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2017-03-30 . สืบค้นเมื่อ2017-03-29 .
  • เกม Connect Four เวอร์ชัน TDGravity ถูกเก็บถาวรเมื่อวันที่ 24 กรกฎาคม 2012 ที่Wayback Machine (+ เวอร์ชันสำหรับโทรศัพท์มือถือ) – เรียนรู้ด้วยตนเองโดยใช้วิธี TD-Leaf (การผสมผสานระหว่าง TD-Lambda กับการค้นหาแบบต้นไม้ตื้น)
  • แอปพลิเคชันเว็บตัวอย่าง Self Learning Meta-Tic-Tac-Toe ที่เก็บถาวรไว้เมื่อวันที่ 19 มีนาคม 2014 บนWayback Machineแสดงให้เห็นว่าการเรียนรู้ความแตกต่างเชิงเวลาสามารถนำมาใช้เพื่อเรียนรู้ค่าคงที่การประเมินสถานะสำหรับ AI แบบ minimax ที่เล่นเกมกระดานง่ายๆ ได้อย่างไร
  • ปัญหาการเรียนรู้แบบเสริมแรงเอกสารอธิบายวิธีการใช้การเรียนรู้ความแตกต่างเชิงเวลาเพื่อเร่งความเร็วการเรียนรู้แบบ Q-learning
  • TD-Simulator คือโปรแกรมจำลองความแตกต่างเชิงเวลาสำหรับการเรียนรู้แบบคลาสสิก
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Temporal_difference_learning&oldid=1361436562 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การเรียนรู้ความแตกต่างเชิงเวลา

การเรียนรู้ความ แตกต่างเชิงเวลา ( TD ) หมายถึงคลาสของ วิธี การเรียนรู้แบบเสริมแรงที่ ไม่ต้องใช้แบบจำลอง ซึ่งเรียนรู้โดยการบูตสแตรปจากค่าประมาณปัจจุบันของฟังก์ชันค่า...

การกำหนดสูตรทางคณิตศาสตร์

วิธีการ TD(0) แบบตารางเป็นหนึ่งในวิธีการ TD ที่ง่ายที่สุด เป็นกรณีพิเศษของวิธีการประมาณค่าแบบสุ่มทั่วไป โดยจะประมาณค่า ฟังก์ชันค่าสถานะ ของ กระบวนการตัดสินใจแบบมาร์คอฟ (MDP) ที่มีสถานะจำกัดภายใต้นโยบายให้แทนฟังก์ชันค่าสถานะของ MDP...

ทีดี-แลมบ์ดา

TD-Lambda เป็นอัลกอริธึมการเรียนรู้ที่คิดค้นโดย Richard S. Sutton โดยอิงจากงานก่อนหน้านี้เกี่ยวกับการเรียนรู้ความแตกต่างเชิงเวลาโดย Arthur Samuel [ 11 ] อั ลกอริธึมนี้ถูกนำไปใช้โดย Gerald Tesauro อย่างโด่งดัง เพื่อสร้าง TD-Gammon...

ในสาขาวิทยาศาสตร์ประสาท

อัลกอริทึม TD ยังได้รับความสนใจในสาขา ประสาทวิทยาศาสตร์ ด้วย นักวิจัยค้นพบว่าอัตราการยิงของ เซลล์ประสาท โดปามี น ใน บริเวณเท็กเมนทัลด้านล่าง (VTA) และ ซับสแตนเชียไนกรา (SNc) ดูเหมือนจะเลียนแบบฟังก์ชันข้อผิดพลาดในอัลกอริทึม [ 3 ] [ 4 ] [ 5 ] [ 6 ] [ 7 ]...