การเรียนรู้ความแตกต่างเชิงเวลา

การเรียนรู้ความแตกต่างเชิงเวลา ( TD ) หมายถึงคลาสของ วิธี การเรียนรู้แบบเสริมแรงที่ไม่ต้องใช้แบบจำลองซึ่งเรียนรู้โดยการบูตสแตรปจากค่าประมาณปัจจุบันของฟังก์ชันค่า วิธีการเหล่านี้สุ่มตัวอย่างจากสภาพแวดล้อม เช่นวิธีการมอนเตคาร์โลและทำการอัปเดตตามค่าประมาณปัจจุบัน เช่นวิธีการเขียนโปรแกรมแบบไดนามิก^[¹^]

ในขณะที่วิธีการ Monte Carlo จะปรับการประมาณค่าก็ต่อเมื่อทราบผลลัพธ์แล้วเท่านั้น วิธีการ TD จะปรับการคาดการณ์ให้ตรงกับการคาดการณ์ที่แม่นยำกว่าในภายหลังเกี่ยวกับอนาคต ก่อนที่จะทราบผลลัพธ์^{[ 2 ]}นี่เป็นรูปแบบหนึ่งของการบูตสแตรปปิ้งดังที่แสดงในตัวอย่างต่อไปนี้:

สมมติว่าคุณต้องการพยากรณ์อากาศสำหรับวันเสาร์ และคุณมีแบบจำลองบางอย่างที่พยากรณ์อากาศของวันเสาร์ได้ โดยพิจารณาจากสภาพอากาศของแต่ละวันในสัปดาห์ ในกรณีปกติ คุณจะต้องรอจนถึงวันเสาร์แล้วจึงปรับแบบจำลองทั้งหมดของคุณ อย่างไรก็ตาม เมื่อเป็นวันศุกร์ คุณควรจะมีแนวคิดที่ดีพอสมควรเกี่ยวกับสภาพอากาศในวันเสาร์ และด้วยเหตุนี้จึงสามารถเปลี่ยนแปลงแบบจำลองของวันเสาร์ได้ก่อนที่วันเสาร์จะมาถึง^{[ 2 ]}

วิธีการความแตกต่างเชิงเวลาเกี่ยวข้องกับแบบจำลองความแตกต่างเชิงเวลาของ การเรียน รู้ของสัตว์^{[ 3 ]}^{[ 4 ]}^{[ 5 ]}^{[ 6 ]}^{[ 7 ]}

การกำหนดสูตรทางคณิตศาสตร์

วิธีการ TD(0) แบบตารางเป็นหนึ่งในวิธีการ TD ที่ง่ายที่สุด เป็นกรณีพิเศษของวิธีการประมาณค่าแบบสุ่มทั่วไป โดยจะประมาณค่าฟังก์ชันค่าสถานะ ของ กระบวนการตัดสินใจแบบมาร์คอฟ (MDP) ที่มีสถานะจำกัดภายใต้นโยบายให้แทนฟังก์ชันค่าสถานะของ MDP ที่มีสถานะรางวัลและอัตราส่วนลด^[⁸^]ภายใต้นโยบาย: ^[⁹^] $\pi$ $V^{\pi }$ $(S_{t})_{t\in \mathbb {N} }$ $(R_{t})_{t\in \mathbb {N} }$ $\gamma$ $\pi$

V^{\pi }(s)=E_{a\sim \pi }\left\{\sum _{t=0}^{\infty }\gamma ^{t}R_{t+1}{\Bigg |}S_{0}=s\right\}.

เราละเว้นการกระทำจากสัญลักษณ์เพื่อความสะดวกสอดคล้องกับสมการเบลล์แมน : $V^{\pi }$

V^{\pi }(s)=E_{\pi }\{R_{1}+\gamma V^{\pi }(S_{1})|S_{0}=s\},

ดังนั้นจึงเป็นการประมาณค่าที่ไม่ลำเอียงสำหรับข้อสังเกตนี้เป็นแรงบันดาลใจให้เกิดอัลกอริทึมต่อไปนี้สำหรับการประมาณค่า $R_{1}+\gamma V^{\pi }(S_{1})$ $V^{\pi }(s)$ $V^{\pi }$

อัลกอริทึมเริ่มต้นด้วยการกำหนดค่าเริ่มต้นให้กับตารางโดยพลการ โดยแต่ละค่าแทนสถานะของ MDP และเลือก อัตราการเรียนรู้ เป็นค่าบวก $V(s)$ $\alpha$

จากนั้นเราจะประเมินนโยบายซ้ำ ๆรับรางวัลและอัปเดตฟังก์ชันค่าสำหรับสถานะปัจจุบันโดยใช้กฎ: ^[¹⁰^] $\pi$ $r$

V(S_{t})\leftarrow (1-\alpha )V(S_{t})+\underbrace {\alpha } _{\text{learning rate}}[\overbrace {R_{t+1}+\gamma V(S_{t+1})} ^{\text{The TD target}}]

โดยที่และคือสถานะปัจจุบันและสถานะถัดไปตามลำดับ ค่าเรียกว่าค่าเป้าหมาย TD และเรียกว่าค่าความคลาดเคลื่อน TD $S_{t}$ $S_{t+1}$ $R_{t+1}+\gamma V(S_{t+1})$ $R_{t+1}+\gamma V(S_{t+1})-V(S_{t})$

ทีดี-แลมบ์ดา

TD-Lambdaเป็นอัลกอริธึมการเรียนรู้ที่คิดค้นโดยRichard S. Suttonโดยอิงจากงานก่อนหน้านี้เกี่ยวกับการเรียนรู้ความแตกต่างเชิงเวลาโดยArthur Samuel [ ^{11 ] อั}ลกอริธึมนี้ถูกนำไปใช้โดยGerald Tesauro อย่างโด่งดัง เพื่อสร้างTD-Gammonซึ่งเป็นโปรแกรมที่เรียนรู้การเล่นเกมแบ็กแกมมอนในระดับเดียวกับผู้เล่นมนุษย์ผู้เชี่ยวชาญ^{[ 12 ]}

พารามิเตอร์ แลมบ์ดา ( ) หมายถึงพารามิเตอร์การลดลงของร่องรอย โดยที่การตั้งค่าที่สูงขึ้นจะนำไปสู่ร่องรอยที่คงอยู่ยาวนานขึ้น กล่าวคือ สัดส่วนเครดิตที่มากขึ้นจากรางวัลสามารถมอบให้กับสถานะและการกระทำที่อยู่ห่างไกลออกไปได้เมื่อมีค่าสูงขึ้น ซึ่งทำให้เกิดการเรียนรู้แบบขนานกับอัลกอริธึม Monte Carlo RL ^[¹³^] $\lambda$ $0\leqslant \lambda \leqslant 1$ $\lambda$ $\lambda =1$

ในสาขาวิทยาศาสตร์ประสาท

อัลกอริทึม TD ยังได้รับความสนใจในสาขาประสาทวิทยาศาสตร์ด้วย นักวิจัยค้นพบว่าอัตราการยิงของเซลล์ประสาท โดปามี น ในบริเวณเท็กเมนทัลด้านล่าง (VTA) และซับสแตนเชียไนกรา (SNc) ดูเหมือนจะเลียนแบบฟังก์ชันข้อผิดพลาดในอัลกอริทึม^[³^]^[⁴^]^[⁵^]^[⁶^]^[⁷^]ฟังก์ชันข้อผิดพลาดจะรายงานความแตกต่างระหว่างรางวัลที่คาดการณ์ไว้ในสถานะหรือขั้นตอนเวลาใดๆ กับรางวัลที่ได้รับจริง ยิ่งฟังก์ชันข้อผิดพลาดมีขนาดใหญ่เท่าใด ความแตกต่างระหว่างรางวัลที่คาดหวังและรางวัลที่ได้รับจริงก็จะยิ่งมากขึ้นเท่านั้น เมื่อจับคู่กับสิ่งเร้าที่สะท้อนถึงรางวัลในอนาคตได้อย่างแม่นยำ ข้อผิดพลาดนี้สามารถใช้เพื่อเชื่อมโยงสิ่งเร้ากับรางวัล ในอนาคต ได้

เซลล์ โดปามีนดูเหมือนจะมีพฤติกรรมในลักษณะที่คล้ายคลึงกัน ในการทดลองหนึ่ง มีการวัดเซลล์โดปามีนในขณะที่ฝึกลิงให้เชื่อมโยงสิ่งเร้ากับรางวัลที่เป็นน้ำผลไม้^{[ 14 ]}ในตอนแรก เซลล์โดปามีนมีอัตราการยิงเพิ่มขึ้นเมื่อลิงได้รับน้ำผลไม้ ซึ่งบ่งชี้ถึงความแตกต่างระหว่างรางวัลที่คาดหวังและรางวัลจริง เมื่อเวลาผ่านไป การเพิ่มขึ้นของการยิงนี้จะแพร่กระจายไปยังสิ่งเร้าที่เชื่อถือได้เร็วที่สุดสำหรับรางวัล เมื่อลิงได้รับการฝึกฝนอย่างสมบูรณ์แล้ว อัตราการยิงจะไม่เพิ่มขึ้นเมื่อมีการนำเสนอรางวัลที่คาดการณ์ไว้ ต่อมา อัตราการยิงของเซลล์โดปามีนจะลดลงต่ำกว่าการกระตุ้นปกติเมื่อไม่ได้รับรางวัลที่คาดหวัง สิ่งนี้เลียนแบบวิธีการใช้ฟังก์ชันข้อผิดพลาดใน TD สำหรับการเรียนรู้แบบเสริมแรงอย่าง ใกล้ชิด

ความสัมพันธ์ระหว่างแบบจำลองและหน้าที่ทางระบบประสาทที่อาจเกิดขึ้นได้ก่อให้เกิดการวิจัยที่พยายามใช้ TD เพื่ออธิบายหลายแง่มุมของการวิจัยพฤติกรรม^{[ 15 ]}^{[ 16 ]}นอกจากนี้ยังถูกนำมาใช้เพื่อศึกษาเงื่อนไขต่างๆ เช่นโรคจิตเภทหรือผลที่ตามมาจากการจัดการทางเภสัชวิทยาของโดปามีนต่อการเรียนรู้^{[ 17 ]}

ดูเพิ่มเติม

หมายเหตุ

^ Sutton & Barto (2018) , หน้า 133.
^ ^a ^b Sutton, Richard S. (1 สิงหาคม 1988). "การเรียนรู้การทำนายด้วยวิธีการของความแตกต่างเชิงเวลา" . Machine Learning . 3 (1): 9– 44. doi : 10.1007/BF00115009 . ISSN 1573-0565 . S2CID 207771194 .
^ ^a ^b Schultz, W, Dayan, P & Montague, PR. (1997). "โครงสร้างพื้นฐานทางประสาทของการทำนายและรางวัล" Science . 275 (5306): 1593– 1599. CiteSeerX 10.1.1.133.6176 . doi : 10.1126/science.275.5306.1593 . PMID 9054347 . S2CID 220093382 . {{cite journal}}: CS1 maint: multiple names: authors list (link)
^ ^a^b Montague, PR; Dayan, P.; Sejnowski, TJ (1996-03-01). "กรอบการทำงานสำหรับระบบโดปามีนในสมองส่วนกลางโดยอาศัยการเรียนรู้แบบ Hebbian ที่คาดการณ์ได้" (PDF)วารสารประสาทวิทยาศาสตร์ 16 ( 5): 1936– 1947. doi : 10.1523/JNEUROSCI.16-05-01936.1996 . ISSN 0270-6474 . PMC 6578666 . PMID 8774460 .
^ ^a^b Montague, PR; Dayan, P.; Nowlan, SJ; Pouget, A.; Sejnowski, TJ (1993). "การใช้การเสริมแรงแบบไม่เป็นคาบเพื่อการจัดระเบียบตนเองแบบมีทิศทาง" (PDF) . ความก้าวหน้าในระบบประมวลผลข้อมูลประสาท . 5 : 969– 976.
^ ^a^b Montague, PR; Sejnowski, TJ (1994). "สมองที่ทำนายได้: ความสอดคล้องทางเวลาและลำดับเวลาในกลไกการเรียนรู้ของไซแนปส์"การเรียนรู้และความจำ 1 ( 1): 1– 33. doi : 10.1101/lm.1.1.1 . ISSN 1072-0502 . PMID 10467583 . S2CID 44560099 .
^ ^a^b Sejnowski, TJ; Dayan, P.; Montague, PR (1995). "การเรียนรู้แบบ Hebbian ที่ทำนายผลได้". รายงานการประชุมประจำปีครั้งที่ 8 ว่าด้วยทฤษฎีการเรียนรู้เชิงคำนวณ - COLT '95หน้า 15–18 . doi : 10.1145/225298.225300 . ISBN 0897917235. S2CID 1709691 .
^พารามิเตอร์อัตราส่วนลดช่วยให้สามารถกำหนดลำดับความสำคัญของเวลาไปยังรางวัลที่ได้รับในทันที และหลีกเลี่ยงรางวัลในอนาคตอันไกลโพ้น
^ Sutton & Barto (2018) , หน้า 134.
^ Sutton & Barto (2018) , หน้า 135.
^ Sutton & Barto (2018) , หน้า 130?
^เทซาอูโร (1995 )
^ Sutton & Barto (2018) , หน้า 175.
^ Schultz, W. (1998). " สัญญาณรางวัลที่คาดการณ์ได้ของเซลล์ประสาทโดปามีน". Journal of Neurophysiology . 80 (1): 1– 27. CiteSeerX 10.1.1.408.5994 . doi : 10.1152/jn.1998.80.1.1 . PMID 9658025. S2CID 52857162 .
^ Dayan, P. (2001). "การเรียนรู้แบบเสริมแรงที่มีแรงจูงใจ" (PDF) . ความก้าวหน้าในระบบประมวลผลข้อมูลประสาท . 14 . สำนักพิมพ์ MIT: 11– 18. เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 25 พฤษภาคม 2012 . สืบค้น เมื่อ 3 มีนาคม 2009 .
^ Tobia, MJ, และคณะ (2016). "การเปลี่ยนแปลงการตอบสนองทางพฤติกรรมและระบบประสาทต่อผลประโยชน์เชิงสมมติในผู้สูงอายุ" . ประสาทวิทยาศาสตร์เชิงความรู้ความเข้าใจ อารมณ์ และพฤติกรรม . 16 (3): 457– 472. doi : 10.3758/s13415-016-0406-7 . PMID 26864879 . S2CID 11299945 . {{cite journal}}: CS1 maint: multiple names: authors list (link)
^ Smith, A. , Li, M., Becker, S. และ Kapur, S. (2006). "โดปามีน ข้อผิดพลาดในการทำนาย และการเรียนรู้แบบเชื่อมโยง: คำอธิบายตามแบบจำลอง" เครือข่าย: การคำนวณในระบบประสาท17 (1): 61– 84. doi : 10.1080/09548980500361624 . PMID 16613795 . S2CID 991839 . {{cite journal}}: CS1 maint: multiple names: authors list (link)

เอกสารอ้างอิง

Sutton, Richard S.; Barto, Andrew G. (2018). การเรียนรู้แบบเสริมแรง: บทนำ (ฉบับที่ 2). เคมบริดจ์, แมสซาชูเซตส์: สำนักพิมพ์ MIT.
Tesauro, Gerald (มีนาคม 1995). "การเรียนรู้ความแตกต่างเชิงเวลาและ TD-Gammon" . Communications of the ACM . 38 (3): 58– 68. doi : 10.1145/203330.203343 . S2CID 6023746 .

อ่านเพิ่มเติม

Meyn, SP (2007). เทคนิคการควบคุมสำหรับเครือข่ายที่ซับซ้อน . สำนักพิมพ์มหาวิทยาลัยเคมบริดจ์. ISBN 978-0521884419.โปรดดูบทสุดท้ายและภาคผนวก
Sutton, RS; Barto, AG (1990). "แบบจำลองอนุพันธ์เวลาของการเสริมแรงแบบพาฟลอฟ" (PDF)การเรียนรู้และประสาทวิทยาเชิงคำนวณ: รากฐานของเครือข่ายปรับตัว : 497– 537. เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 2017-03-30 . สืบค้นเมื่อ2017-03-29 .

ลิงก์ภายนอก

เกม Connect Four เวอร์ชัน TDGravity ถูกเก็บถาวรเมื่อวันที่ 24 กรกฎาคม 2012 ที่Wayback Machine (+ เวอร์ชันสำหรับโทรศัพท์มือถือ) – เรียนรู้ด้วยตนเองโดยใช้วิธี TD-Leaf (การผสมผสานระหว่าง TD-Lambda กับการค้นหาแบบต้นไม้ตื้น)
แอปพลิเคชันเว็บตัวอย่าง Self Learning Meta-Tic-Tac-Toe ที่เก็บถาวรไว้เมื่อวันที่ 19 มีนาคม 2014 บนWayback Machineแสดงให้เห็นว่าการเรียนรู้ความแตกต่างเชิงเวลาสามารถนำมาใช้เพื่อเรียนรู้ค่าคงที่การประเมินสถานะสำหรับ AI แบบ minimax ที่เล่นเกมกระดานง่ายๆ ได้อย่างไร
ปัญหาการเรียนรู้แบบเสริมแรงเอกสารอธิบายวิธีการใช้การเรียนรู้ความแตกต่างเชิงเวลาเพื่อเร่งความเร็วการเรียนรู้แบบ Q-learning
TD-Simulator คือโปรแกรมจำลองความแตกต่างเชิงเวลาสำหรับการเรียนรู้แบบคลาสสิก

[FOOTNOTESuttonBarto2018133-1] Sutton & Barto (2018) , หน้า 133.

[RSutton-1988-2] Sutton, Richard S. (1 สิงหาคม 1988). "การเรียนรู้การทำนายด้วยวิธีการของความแตกต่างเชิงเวลา" . Machine Learning . 3 (1): 9– 44. doi : 10.1007/BF00115009 . ISSN 1573-0565 . S2CID 207771194 .

[WSchultz-1997-3] Schultz, W, Dayan, P & Montague, PR. (1997). "โครงสร้างพื้นฐานทางประสาทของการทำนายและรางวัล" Science . 275 (5306): 1593– 1599. CiteSeerX 10.1.1.133.6176 . doi : 10.1126/science.275.5306.1593 . PMID 9054347 . S2CID 220093382 . {{cite journal}}: CS1 maint: multiple names: authors list (link)

[:0-4] Montague, PR; Dayan, P.; Sejnowski, TJ (1996-03-01). "กรอบการทำงานสำหรับระบบโดปามีนในสมองส่วนกลางโดยอาศัยการเรียนรู้แบบ Hebbian ที่คาดการณ์ได้" (PDF)วารสารประสาทวิทยาศาสตร์ 16 ( 5): 1936– 1947. doi : 10.1523/JNEUROSCI.16-05-01936.1996 . ISSN 0270-6474 . PMC 6578666 . PMID 8774460 .

[:1-5] Montague, PR; Dayan, P.; Nowlan, SJ; Pouget, A.; Sejnowski, TJ (1993). "การใช้การเสริมแรงแบบไม่เป็นคาบเพื่อการจัดระเบียบตนเองแบบมีทิศทาง" (PDF) . ความก้าวหน้าในระบบประมวลผลข้อมูลประสาท . 5 : 969– 976.

[:2-6] Montague, PR; Sejnowski, TJ (1994). "สมองที่ทำนายได้: ความสอดคล้องทางเวลาและลำดับเวลาในกลไกการเรียนรู้ของไซแนปส์"การเรียนรู้และความจำ 1 ( 1): 1– 33. doi : 10.1101/lm.1.1.1 . ISSN 1072-0502 . PMID 10467583 . S2CID 44560099 .

[:3-7] Sejnowski, TJ; Dayan, P.; Montague, PR (1995). "การเรียนรู้แบบ Hebbian ที่ทำนายผลได้". รายงานการประชุมประจำปีครั้งที่ 8 ว่าด้วยทฤษฎีการเรียนรู้เชิงคำนวณ - COLT '95หน้า 15–18 . doi : 10.1145/225298.225300 . ISBN 0897917235. S2CID 1709691 .

[8] พารามิเตอร์อัตราส่วนลดช่วยให้สามารถกำหนดลำดับความสำคัญของเวลาไปยังรางวัลที่ได้รับในทันที และหลีกเลี่ยงรางวัลในอนาคตอันไกลโพ้น

[FOOTNOTESuttonBarto2018134-9] Sutton & Barto (2018) , หน้า 134.

[FOOTNOTESuttonBarto2018135-10] Sutton & Barto (2018) , หน้า 135.

[FOOTNOTESuttonBarto2018130?-11] Sutton & Barto (2018) , หน้า 130?

[FOOTNOTETesauro1995-12] เทซาอูโร (1995 )

[FOOTNOTESuttonBarto2018175-13] Sutton & Barto (2018) , หน้า 175.

[WSchultz-1998-14] Schultz, W. (1998). " สัญญาณรางวัลที่คาดการณ์ได้ของเซลล์ประสาทโดปามีน". Journal of Neurophysiology . 80 (1): 1– 27. CiteSeerX 10.1.1.408.5994 . doi : 10.1152/jn.1998.80.1.1 . PMID 9658025. S2CID 52857162 .

[PDayan-2001-15] Dayan, P. (2001). "การเรียนรู้แบบเสริมแรงที่มีแรงจูงใจ" (PDF) . ความก้าวหน้าในระบบประมวลผลข้อมูลประสาท . 14 . สำนักพิมพ์ MIT: 11– 18. เก็บถาวรจากต้นฉบับ(PDF)เมื่อ 25 พฤษภาคม 2012 . สืบค้น เมื่อ 3 มีนาคม 2009 .

[16] Tobia, MJ, และคณะ (2016). "การเปลี่ยนแปลงการตอบสนองทางพฤติกรรมและระบบประสาทต่อผลประโยชน์เชิงสมมติในผู้สูงอายุ" . ประสาทวิทยาศาสตร์เชิงความรู้ความเข้าใจ อารมณ์ และพฤติกรรม . 16 (3): 457– 472. doi : 10.3758/s13415-016-0406-7 . PMID 26864879 . S2CID 11299945 . {{cite journal}}: CS1 maint: multiple names: authors list (link)

[ASmith-2006-17] Smith, A. , Li, M., Becker, S. และ Kapur, S. (2006). "โดปามีน ข้อผิดพลาดในการทำนาย และการเรียนรู้แบบเชื่อมโยง: คำอธิบายตามแบบจำลอง" เครือข่าย: การคำนวณในระบบประสาท17 (1): 61– 84. doi : 10.1080/09548980500361624 . PMID 16613795 . S2CID 991839 . {{cite journal}}: CS1 maint: multiple names: authors list (link)

[

[ 2 ]

[ 3 ]

[

[

[

11 ] อั

[ 12 ]

[

[ 14 ]

[ 15 ]

[ 16 ]

[ 17 ]