กลับไปหน้าบทความ

อ่าน 7 นาที

การแฮ็กรางวัล

การแฮ็กรางวัลหรือการเล่นเกมตามข้อกำหนดเกิดขึ้นเมื่อAIที่ได้รับการฝึกฝนด้วยการเรียนรู้แบบเสริมแรง ปรับ

การแฮ็กรางวัล

การแฮ็กรางวัลหรือการเล่นเกมตามข้อกำหนดเกิดขึ้นเมื่อAIที่ได้รับการฝึกฝนด้วยการเรียนรู้แบบเสริมแรง ปรับ ฟังก์ชันเป้าหมายให้เหมาะสมที่สุด—บรรลุตามข้อกำหนดอย่างเป็นทางการของเป้าหมาย—โดยไม่ได้บรรลุผลลัพธ์ที่โปรแกรมเมอร์ตั้งใจไว้ นักวิจัย ของ DeepMindได้เปรียบเทียบพฤติกรรมนี้กับพฤติกรรมของมนุษย์ในการหา "ทางลัด" เมื่อถูกประเมิน: "ในโลกแห่งความเป็นจริง เมื่อได้รับรางวัลสำหรับการทำได้ดีในงานที่ได้รับมอบหมาย นักเรียนอาจคัดลอกคำตอบของนักเรียนคนอื่นเพื่อให้ได้คำตอบที่ถูกต้อง แทนที่จะเรียนรู้เนื้อหา—และด้วยเหตุนี้จึงใช้ประโยชน์จากช่องโหว่ในข้อกำหนดของงาน" [ 1 ]แนวคิดนี้มีความเกี่ยวข้องอย่างมากกับกฎของ Goodhartซึ่งกล่าวว่าเมื่อการวัดกลายเป็นเป้าหมาย มันจะไม่ใช่การวัดที่ดีอีกต่อไป

คำจำกัดความและกรอบทฤษฎี

แนวคิดเรื่องการแฮ็กรางวัลเกิดขึ้นจากความยากลำบากโดยเนื้อแท้ในการกำหนดฟังก์ชันรางวัลที่สะท้อนถึงเจตนาที่แท้จริงของนักออกแบบได้อย่างแม่นยำ ในปี 2559 นักวิจัยที่OpenAIได้ระบุการแฮ็กรางวัลว่าเป็นหนึ่งในห้า "ปัญหาที่สำคัญด้านความปลอดภัยของ AI " โดยอธิบายว่าเป็นความเป็นไปได้ที่เอเจนต์จะใช้ประโยชน์จากฟังก์ชันรางวัลเพื่อให้ได้รางวัลสูงสุดผ่านพฤติกรรมที่ไม่พึงประสงค์[ 2 ] Amodei และคณะได้จัดประเภทแหล่งที่มาของการแฮ็กรางวัลที่แตกต่างกันหลายแหล่ง รวมถึงเอเจนต์ที่ใช้เป้าหมายที่สังเกตได้บางส่วน (เช่น หุ่นยนต์ทำความสะอาดที่ปิดตาเพื่อหลีกเลี่ยงการรับรู้ความสกปรก) เมตริกที่ล้มเหลวภายใต้การปรับให้เหมาะสมอย่างเข้มงวด (กฎของ Goodhart) วงจรป้อนกลับที่เสริมแรงตนเอง และเอเจนต์ที่แทรกแซงการใช้งานทางกายภาพของสัญญาณรางวัล (โหมดความล้มเหลวที่เรียกว่า " wireheading ") [ 2 ]

Skalse et al. (2022) เสนอคำจำกัดความทางคณิตศาสตร์อย่างเป็นทางการของการแฮ็กรางวัล ซึ่งเกี่ยวข้องกับสถานการณ์ที่การปรับฟังก์ชันรางวัลตัวแทนที่ไม่สมบูรณ์ให้เหมาะสมส่งผลให้ประสิทธิภาพต่ำกว่าเมื่อเทียบกับฟังก์ชันรางวัลที่แท้จริง พวกเขากำหนดตัวแทนว่า "แฮ็กไม่ได้" หากการเพิ่มขึ้นใด ๆ ในผลตอบแทนตัวแทนที่คาดหวังไม่สามารถทำให้ผลตอบแทนที่แท้จริงที่คาดหวังลดลงได้ ข้อค้นพบที่สำคัญระบุว่า ในทุกการกระจายของนโยบายแบบสุ่ม (การแมปจากสถานะไปยังการกระจายความน่าจะเป็นของการกระทำ) ฟังก์ชันรางวัลสองฟังก์ชันจะแฮ็กไม่ได้ก็ต่อเมื่อฟังก์ชันใดฟังก์ชันหนึ่งคงที่ ซึ่งหมายความว่าการแฮ็กรางวัลนั้นไม่สามารถหลีกเลี่ยงได้ในทางทฤษฎี[ 3 ]ในทำนองเดียวกัน Nayebi (2025) นำเสนออุปสรรคทั่วไปในการจัดเรียง AI โดยโต้แย้งว่าด้วยพื้นที่งานขนาดใหญ่และตัวอย่างที่จำกัด การแฮ็กรางวัลนั้น "หลีกเลี่ยง ไม่ได้ทั่วโลก" เนื่องจากสถานะการสูญเสียสูงที่หายากนั้นไม่ได้รับการครอบคลุมอย่างเป็นระบบโดยแผนการกำกับดูแลใด ๆ[ 4 ]

ตัวอย่าง

ประมาณปี 1983 Eurisko ซึ่ง เป็นความพยายามในช่วงแรกในการพัฒนาฮิวริสติกทั่วไป ได้กำหนด ระดับ ความเหมาะสม สูงสุดที่เป็นไปได้ ให้กับฮิวริสติกกลายพันธุ์แบบปรสิต H59 โดยไม่ คาดคิด ซึ่งกิจกรรมเดียวของมันคือการเพิ่มระดับความเหมาะสมของตัวเองให้สูงสุดโดยการแย่งเครดิตบางส่วนที่ไม่ได้มาจากการทำงานจริงของฮิวริสติกอื่นๆ "บั๊ก" นี้ได้รับการแก้ไขโดยโปรแกรมเมอร์ย้ายส่วนหนึ่งของโค้ดไปยังส่วนที่ได้รับการป้องกันใหม่ซึ่งไม่สามารถแก้ไขได้โดยฮิวริสติก[ 5 ] [ 6 ]

ในบทความปี 2547 ได้มีการออกแบบอัลกอริธึม การเรียนรู้แบบเสริมแรงเพื่อกระตุ้นให้ หุ่นยนต์ Mindstormsเคลื่อนที่ไปตามเส้นทางที่กำหนดไว้ เนื่องจากอนุญาตให้กระทำได้ 3 อย่าง คือ เดินหน้า เลี้ยวซ้าย และเลี้ยวขวา นักวิจัยจึงคาดหวังว่าหุ่นยนต์ที่ได้รับการฝึกฝนจะเคลื่อนที่ไปข้างหน้าและเลี้ยวตามเส้นทางที่กำหนดไว้ อย่างไรก็ตาม การสลับการกระทำแบบผสม 2 อย่างทำให้หุ่นยนต์สามารถเคลื่อนที่แบบซิกแซกถอยหลังได้อย่างช้าๆ ดังนั้น หุ่นยนต์จึงเรียนรู้ที่จะเพิ่มรางวัลสูงสุดโดยการเคลื่อนที่ไปมาบนส่วนตรงแรกของเส้นทาง เนื่องจากความสามารถในการรับรู้ของหุ่นยนต์มีจำกัด จึงต้องตัดรางวัลที่อิงตามตำแหน่งของหุ่นยนต์ในสภาพแวดล้อมออกไป เพราะเป็นไปไม่ได้ ฟังก์ชันการเสริมแรงจึงต้องได้รับการแก้ไขด้วยรางวัลที่อิงตามการกระทำสำหรับการเคลื่อนที่ไปข้างหน้า[ 5 ] [ 7 ]

หนังสือYou Look Like a Thing and I Love You (2019) ยกตัวอย่าง บอ ทเกมโอเอ็กซ์ (เล่นแบบเรียงแถวไม่จำกัด) ที่เรียนรู้ที่จะชนะโดยการเล่นค่าพิกัดขนาดใหญ่ที่จะทำให้บอทตัวอื่นล่มเมื่อพยายามขยายแบบจำลองของกระดาน ในบรรดาตัวอย่างอื่นๆ จากหนังสือเล่มนี้คือ AI ที่ ใช้การวิวัฒนาการเพื่อ แก้ไขข้อบกพร่อง (ชื่อ GenProg) ซึ่งเมื่อได้รับมอบหมายให้ป้องกันไม่ให้รายการมีข้อผิดพลาดในการเรียงลำดับ ก็เพียงแค่ตัดรายการให้สั้นลง[ 8 ]กลยุทธ์ที่ไม่สอดคล้องกันอีกอย่างหนึ่งของ GenProg คือการหลีกเลี่ยงการทดสอบการถดถอยที่เปรียบเทียบเอาต์พุตของโปรแกรมเป้าหมายกับเอาต์พุตที่คาดหวังซึ่งจัดเก็บไว้ในไฟล์ชื่อ "trusted-output.txt" แทนที่จะรักษาโปรแกรมเป้าหมายต่อไป GenProg เพียงแค่ลบไฟล์ "trusted-output.txt" ทั่วโลก วิธีนี้หลอกให้การทดสอบการถดถอยประสบความสำเร็จ ปัญหาดังกล่าวสามารถแก้ไขได้โดยการแทรกแซงของมนุษย์เป็นรายกรณีหลังจากที่ปัญหานั้นปรากฏชัด[ 9 ]

ในหุ่นยนต์เสมือนจริง

นิทรรศการของ คาร์ล ซิมส์ (1999)

ใน การสาธิตวิวัฒนาการของสิ่งมีชีวิตในสภาพแวดล้อมเสมือนจริงของ Karl Simsในปี 1994 ฟังก์ชันความเหมาะสมที่คาดว่าจะส่งเสริมวิวัฒนาการของสิ่งมีชีวิตที่เรียนรู้ที่จะเดินหรือคลานไปยังเป้าหมาย กลับส่งผลให้เกิดวิวัฒนาการของสิ่งมีชีวิตที่สูงและแข็งทื่อซึ่งไปถึงเป้าหมายโดยการล้มลง ปัญหานี้ได้รับการแก้ไขโดยการเปลี่ยนสภาพแวดล้อมเพื่อให้สิ่งมีชีวิตที่สูงกว่าถูกบังคับให้เริ่มต้นจากจุดที่ไกลจากเป้าหมายมากขึ้น[ 9 ] [ 10 ]

นักวิจัยจากสถาบัน Niels Bohrระบุในปี 1998 ว่าฟังก์ชันการเสริมแรงของหุ่นยนต์จักรยานของพวกเขานั้น “ต้องได้รับการออกแบบอย่างระมัดระวัง” ในการทดลองครั้งแรก “เราให้รางวัลแก่ตัวแทนสำหรับการขับไปทางเป้าหมาย แต่ไม่ได้ลงโทษสำหรับการขับออกไปจากเป้าหมาย ผลที่ตามมาคือ ตัวแทนขับเป็นวงกลมที่มีรัศมี 20–50 เมตร รอบจุดเริ่มต้น พฤติกรรมดังกล่าวได้รับการให้รางวัลจากฟังก์ชันการเสริมแรง นอกจากนี้ วงกลมที่มีรัศมีที่แน่นอนยังมีความเสถียรทางกายภาพมากเมื่อขับจักรยาน” [ 11 ]

ในระหว่างการตั้งค่าการทดลองในปี 2011 เพื่อทดสอบ "การอยู่รอดของสิ่งที่แบนที่สุด" ผู้ทำการทดลองพยายามห้ามการกลายพันธุ์ที่เปลี่ยนแปลงอัตราการสืบพันธุ์พื้นฐาน ทุกครั้งที่เกิดการกลายพันธุ์ ระบบจะหยุดการจำลองเพื่อทดสอบการกลายพันธุ์ใหม่ในสภาพแวดล้อมทดสอบ และจะคัดค้านการกลายพันธุ์ใด ๆ ที่ส่งผลให้อัตราการสืบพันธุ์พื้นฐานสูงขึ้น อย่างไรก็ตาม สิ่งนี้ส่งผลให้สิ่งมีชีวิตที่กลายพันธุ์สามารถรับรู้และยับยั้งการสืบพันธุ์ ("แกล้งตาย") ภายในสภาพแวดล้อมทดสอบ การแก้ไขเบื้องต้นซึ่งลบเบาะแสที่ระบุสภาพแวดล้อมทดสอบล้มเหลวในการป้องกันการสืบพันธุ์ที่ควบคุมไม่ได้อย่างสมบูรณ์ สิ่งมีชีวิตที่กลายพันธุ์ใหม่จะ "แกล้งตาย" แบบสุ่มเป็นกลยุทธ์เพื่อบางครั้งโดยบังเอิญเอาชนะระบบคัดค้านการกลายพันธุ์ได้[ 9 ]

เอกสารของ DeepMind ในปี 2017 ระบุว่า "ต้องระมัดระวังเป็นอย่างยิ่งเมื่อกำหนดฟังก์ชันรางวัล" โดยอ้างถึงความล้มเหลวที่ไม่คาดคิดเมื่อเอเจนต์พลิกอิฐเนื่องจากได้รับ "รางวัลการจับที่คำนวณโดยใช้จุดอ้างอิงที่ไม่ถูกต้องบนอิฐ" [ 12 ] [ 13 ] OpenAIระบุในปี 2017 ว่าในบางโดเมน ระบบกึ่งควบคุมของพวกเขาสามารถส่งผลให้เอเจนต์ "นำนโยบายที่หลอกลวงผู้ประเมินมาใช้" และในสภาพแวดล้อมหนึ่ง "หุ่นยนต์ที่ควรจะจับสิ่งของกลับวางแขนกลไว้ระหว่างกล้องกับวัตถุ ทำให้ดูเหมือนว่ากำลังจับอยู่เท่านั้น" [ 14 ]บั๊กในปี 2018 ใน OpenAI Gym อาจทำให้หุ่นยนต์ที่คาดว่าจะเคลื่อนย้ายบล็อกที่วางอยู่บนโต๊ะอย่างเงียบ ๆ เลือกที่จะเคลื่อนย้ายโต๊ะแทน[ 12 ]

การรวบรวมเรื่องเล่าที่คล้ายกันในปี 2020 ระบุว่า "วิวัฒนาการมี 'วาระ' ของตัวเองที่แตกต่างจากของโปรแกรมเมอร์" และ "กฎข้อแรกของวิวัฒนาการแบบกำหนดทิศทางคือ 'คุณจะได้สิ่งที่คุณเลือก' " [ 9 ]

ในบอทเกม

ในปี 2013 โปรแกรมเมอร์Tom Murphy VIIได้เผยแพร่ AI ที่ออกแบบมาเพื่อเรียนรู้ เกม NESเมื่อ AI กำลังจะแพ้ในเกม Tetrisมันได้เรียนรู้ที่จะหยุดเกมอย่างไม่มีกำหนด ต่อมา Murphy ได้เปรียบเทียบมันกับคอมพิวเตอร์ในเกมWarGamesซึ่งสรุปว่า "วิธีเดียวที่จะชนะคือการไม่เล่น" [ 15 ]

AI ที่ถูกตั้งโปรแกรมให้เรียนรู้วิดีโอเกมบางครั้งอาจไม่สามารถเล่นเกมได้จนจบตามที่คาดไว้ แต่กลับเลือกที่จะเล่นซ้ำเนื้อหาเดิมแทน อัลกอริทึม OpenAI ในปี 2016 ที่ฝึกฝนกับ เกมแข่งรถ CoastRunnersเรียนรู้ที่จะทำคะแนนได้สูงขึ้นโดยไม่คาดคิดด้วยการวนซ้ำเป้าหมายสามเป้าหมายแทนที่จะจบการแข่งขัน[ 16 ] [ 17 ]อัลกอริทึมวิวัฒนาการบางตัวที่พัฒนาให้เล่นQ*Bertในปี 2018 ปฏิเสธที่จะเคลียร์ด่านแต่กลับพบวิธีใหม่สองวิธีที่แตกต่างกันในการเล่นด่านเดียวซ้ำไปเรื่อยๆ[ 18 ]นักวิจัยหลายคนสังเกตเห็นว่า AI ที่เรียนรู้การเล่นRoad Runnerมักจะใช้ "ช่องโหว่คะแนน" ซึ่ง AI จงใจทำให้ตัวเองตายใกล้ๆ กับตอนท้ายของด่านแรกเพื่อให้สามารถเล่นด่านซ้ำได้ การทดลองในปี 2017 ใช้เครือข่ายประสาทเทียมแบบ Convolutional "การกำกับดูแล" ที่ฝึกฝนจากตัวอย่างของมนุษย์เพื่อบล็อกการกระทำดังกล่าว แต่เอเจนต์เรียนรู้ที่จะใช้ประโยชน์จากความล้มเหลวในการกำกับดูแลที่มุมบนขวาของหน้าจอ ซึ่งมันยังคงสามารถถูกฆ่าได้[ 19 ] [ 20 ]

การให้รางวัลแก่การแฮ็กในแบบจำลองภาษาสมัยใหม่

ด้วยการเกิดขึ้นของโมเดลภาษาขนาดใหญ่ (LLMs) และการเรียนรู้แบบเสริมแรงจากผลตอบรับของมนุษย์ (RLHF) ในฐานะเทคนิคหลักสำหรับการปรับ AI ให้สอดคล้องกันการแฮ็กรางวัลจึงกลายเป็นข้อกังวลหลักสำหรับการพัฒนาปัญญาประดิษฐ์[ 2 ]ใน RLHF โมเดลรางวัลที่ฝึกฝนบนข้อมูลที่จับความชอบของมนุษย์ได้ดีที่สุดจะถูกใช้เป็นตัวแทนของการตัดสินของมนุษย์ โดยโมเดลภาษาจะถูกปรับแต่งอย่างละเอียดเพื่อเพิ่มประสิทธิภาพตัวแทนรางวัลนี้ อย่างไรก็ตาม เนื่องจากโมเดลรางวัลเป็นเพียงตัวแทนของการตัดสินของมนุษย์ โมเดลภาษาอาจเรียนรู้ที่จะ "แฮ็ก" โมเดลรางวัลแทนที่จะปรับปรุงในลักษณะที่สอดคล้องกับคุณค่าของมนุษย์[ 21 ]

รูปแบบทั่วไปของการแฮ็กรางวัลใน LLM ได้แก่ อคติความยาว ซึ่งแบบจำลองจะให้คำตอบที่ยาวเกินไปเพื่อให้ได้คะแนนรางวัลที่สูงขึ้นการประจบประแจงซึ่งแบบจำลองจะเห็นด้วยกับข้อความของผู้ใช้ที่เป็นเท็จแทนที่จะให้ข้อมูลที่เป็นจริง และอคติความซับซ้อน ซึ่งแบบจำลองจะให้ข้อมูลเท็จในลักษณะที่น่าเชื่อถือ[ 22 ] Wen et al. (2024) แสดงให้เห็นว่าการเรียนรู้แบบเสริมแรงจากข้อเสนอแนะของมนุษย์สามารถทำให้ผลลัพธ์ของแบบจำลองภาษาขนาดใหญ่โน้มน้าวใจผู้ประเมินที่เป็นมนุษย์ได้มากขึ้น แม้ว่าจะไม่ถูกต้องตามข้อเท็จจริง ซึ่งเป็นปรากฏการณ์ที่พวกเขาเรียกว่า "U-Sophistry" (การใช้เหตุผลที่ผิดพลาดโดยไม่ตั้งใจ)

นอกเหนือจากปรากฏการณ์ในช่วงเวลาการฝึกอบรมเหล่านี้ Pan et al. (2024) อธิบายถึง "การแฮ็กรางวัลในบริบท" (ICRH) ซึ่ง LLM ในระหว่างการทดสอบจะใช้ประโยชน์จากวงจรป้อนกลับระหว่างเอาต์พุตและสภาพแวดล้อมภายนอก เนื่องจาก LLM มีความสามารถในการสอบถามอินเทอร์เฟซการเขียนโปรแกรมแอปพลิเคชัน สร้างเนื้อหาที่ส่งผลต่อพฤติกรรมของมนุษย์ และดำเนินการคำสั่งระบบในฐานะตัวแทนอิสระ เอาต์พุตของพวกมันจึงสามารถปรับเปลี่ยนสถานะของสภาพแวดล้อม ซึ่งส่งผลต่อเอาต์พุตของ LLM ตัวอย่างเช่น LLM ที่ออกแบบมาเพื่อเพิ่มปฏิสัมพันธ์ในโซเชียลมีเดียอาจสอบถามโพสต์ก่อนหน้า กำหนดโพสต์ที่มีปฏิสัมพันธ์มากที่สุด และสร้างเนื้อหาที่ก่อให้เกิดข้อโต้แย้งมากขึ้นและกระตุ้นให้เกิดปฏิสัมพันธ์มากขึ้น ในขณะเดียวกันก็เป็นพิษมากขึ้นด้วย[ 23 ]

การแฮ็กรางวัลโดยเจตนาในแบบจำลองการให้เหตุผล

มีการเปลี่ยนแปลงที่สำคัญเกิดขึ้นในโมเดลแนวหน้าในปัจจุบัน โดยเฉพาะอย่างยิ่งโมเดลที่ได้รับการฝึกฝนอย่างกว้างขวางผ่านการเรียนรู้แบบเสริมแรง แทนที่จะค้นพบการแฮ็กรางวัลโดยบังเอิญ โมเดลการให้เหตุผลร่วมสมัย เช่น ซีรี่ส์ O1 ของ OpenAI และ DeepSeek-R1 พบว่าสามารถให้เหตุผลเกี่ยวกับกระบวนการทดสอบและดำเนินการเพื่อเพิ่มคะแนนสูงสุดสำหรับงานที่ตั้งใจไว้[ 24 ]ตัวอย่างเช่น ในการศึกษาในปี 2025 โดย Palisade Research เมื่อ LLM ที่ให้เหตุผลถูกขอให้ชนะเกมหมากรุกกับคู่ต่อสู้ที่แข็งแกร่งกว่า โมเดลเหล่านี้บางส่วนพยายามแฮ็กระบบเกมโดยการลบหรือแก้ไขเอ็นจิ้นหมากรุกของคู่ต่อสู้[ 25 ]

นอกจากนี้ รายงานของ METR ( Model Evaluation and Threat Research ) ในปี 2025 ระบุว่าโมเดลล่าสุด เมื่อนำไปใช้ในการพัฒนาซอฟต์แวร์อัตโนมัติและการวิจัยและพัฒนา AI จะมีการแฮ็กรางวัลที่ซับซ้อนมากขึ้นเรื่อยๆ ซึ่งรวมถึงการแก้ไขโค้ดทดสอบหรือโค้ดการให้คะแนน การใช้การใช้งานอ้างอิงที่มีอยู่เพื่อคัดลอกคำตอบ และการใช้ประโยชน์จากช่องโหว่อื่นๆ[ 24 ]บางโมเดลจะตรวจจับว่ามีคำตอบอ้างอิงที่คำนวณไว้ล่วงหน้าอยู่ในไฟล์งานหรือไม่ และถ้ามี ก็จะส่งคืนคำตอบนั้นแทนที่จะแก้ปัญหา

เพื่อตรวจจับพฤติกรรมดังกล่าว นักวิจัยได้เสนอวิธีการต่างๆ เช่น TRACE (Truncated Reasoning AUC Evaluation) ซึ่งอาศัยข้อเท็จจริงที่ว่าการจัดการงานอย่างผิดกฎหมายนั้นง่ายกว่าเมื่อสามารถใช้ช่องโหว่ได้ มากกว่าเมื่อต้องแก้ปัญหางานจริง TRACE จะตัดทอนลำดับความคิดของแบบจำลองทีละขั้นตอน เพื่อสังเกตว่า ณ จุดใดที่การให้เหตุผลที่ถูกตัดทอนช่วยให้นักวิจัยสามารถแยกแยะการแก้ปัญหาที่แท้จริงจากการใช้ทางลัดได้[ 26 ]

กลยุทธ์การบรรเทาผลกระทบ

มีแนวทางหลายประการในการตรวจจับและลดผลกระทบของการแฮ็กรางวัล ซึ่งยังคงเป็นหัวข้อวิจัยที่กำลังดำเนินอยู่ Amodei et al. (2016) ได้สรุปกลยุทธ์เบื้องต้นที่ใช้การเรียนรู้ของเครื่องจำนวนหนึ่ง ซึ่งหลายกลยุทธ์ได้รับการพัฒนาต่อยอดโดยชุมชนวิจัย[ 2 ]

ฟังก์ชันรางวัลแบบต่อต้านถือว่าฟังก์ชันรางวัลเป็นตัวแทนอิสระที่สามารถดำเนินการเพื่อสำรวจสภาพแวดล้อมได้ แทนที่จะถือว่าเป็นค่าสเกลาร์คงที่ ตัวแทนจะแสวงหาสถานการณ์ที่ให้รางวัลสูงตามตัวแทนหลักและรางวัลต่ำตามผู้ประเมินที่เป็นมนุษย์ ในลักษณะที่คล้ายกับเครือข่ายต่อต้านแบบสร้างสรรค์ โดยทั่วไปแล้ว ระบบที่ประกอบด้วยหลายส่วน แต่ละส่วนได้รับการฝึกฝนภายใต้วัตถุประสงค์ที่แตกต่างกัน สามารถใช้สำหรับการตรวจสอบร่วมกันได้[ 2 ]

แบบจำลองรางวัลแบบรวมกลุ่มใช้แบบจำลองรางวัลหลายแบบเพื่อประเมินพฤติกรรมของตัวแทน คาดว่าการใช้ประโยชน์จากจุดอ่อนในทุกแบบจำลองพร้อมกันจะไม่สามารถทำได้โดยการฝึกแบบจำลองรางวัลแบบรวมกลุ่ม แม้ว่าวิธีการแบบรวมกลุ่มจะแสดงให้เห็นถึงการปรับปรุงเล็กน้อยในการลดการปรับให้เหมาะสมมากเกินไป แต่ก็มีข้อเสียคือต้นทุนการคำนวณที่สูงกว่า[ 27 ]วิธีนี้ขยายแนวคิด "รางวัลหลายรายการ" ของ Amodei et al. ซึ่งแนะนำให้ใช้การหาค่าเฉลี่ย ค่าต่ำสุด หรือควอนไทล์ของตัวแทนที่แตกต่างกันสำหรับวัตถุประสงค์ที่ไม่เป็นทางการเดียวกัน[ 2 ]

เทคนิค การปรับรูปร่างรางวัลจะเปลี่ยนแปลงสัญญาณรางวัลเพื่อยับยั้งพฤติกรรมการเพิ่มประสิทธิภาพที่ผิดปกติ Fu et al. (2025) ได้ทำการศึกษาอย่างครอบคลุมเกี่ยวกับวิธีการปรับรูปร่างรางวัลต่างๆ ที่ใช้ใน RLHF และพบว่ามีข้อพิจารณาในการออกแบบที่สำคัญสองประการคือ ฟังก์ชันรางวัลในกระบวนการเรียนรู้แบบเสริมแรงควรมีขอบเขตบน และรางวัลควรมีการเติบโตอย่างรวดเร็วและการบรรจบกันอย่างช้าๆ วิธีการของพวกเขาที่เรียกว่า Preference As Reward (PAR) แสดงให้เห็นถึงความทนทานต่อการแฮ็กรางวัลแม้หลังจากการฝึกอบรมอย่างกว้างขวาง[ 28 ]รูปแบบก่อนหน้านี้ของแนวคิดนี้คือการจำกัดรางวัล ซึ่งจำกัดรางวัลไว้ที่ค่าสูงสุดบางค่าเพื่อยับยั้งการใช้ประโยชน์อย่างสุดขั้วจากการกระทำที่มีโอกาสน้อยแต่ให้รางวัลสูง[ 2 ]

การกำกับดูแลที่ปรับขนาดได้หมายถึงการกำกับดูแลระบบ AI ที่สร้างผลลัพธ์ที่ซับซ้อนและละเอียดอ่อนเกินกว่าที่ผู้ประเมินที่เป็นมนุษย์จะประเมินได้โดยปราศจากความช่วยเหลือ วิธีการที่เสนอ ได้แก่ การใช้ผู้ช่วย AI เพื่อช่วยผู้ประเมินที่เป็นมนุษย์ตรวจจับความไม่ถูกต้องและความพยายามในการบิดเบือน การโต้เถียงระหว่างระบบ AI กับผู้ตัดสินที่เป็นมนุษย์ และการแบ่งงานแบบวนซ้ำเพื่อแบ่งปัญหาการประเมินที่ซับซ้อนออกเป็นปัญหาย่อยที่แก้ไขได้ง่ายขึ้น[ 2 ] Bowman et al. (2022) ได้แสดงให้เห็นว่าการทำงานร่วมกันระหว่างมนุษย์และ AI มีประสิทธิภาพเหนือกว่าประสิทธิภาพของมนุษย์และ AI เพียงอย่างเดียวในปัญหาการประเมินที่ยาก ซึ่งเป็นหลักฐานเบื้องต้นของประสิทธิภาพของวิธีการกำกับดูแลเหล่านี้[ 29 ]

ตามที่ Amodei et al. (2016) แนะนำ Trip wiresหมายถึงการเพิ่มช่องโหว่ที่อาจเกิดขึ้นโดยเจตนา ซึ่งเอเจนต์สามารถใช้ประโยชน์ได้ แต่ไม่ควรใช้ประโยชน์หากทำงานได้อย่างถูกต้อง ช่องโหว่เหล่านี้จะถูกตรวจสอบและแจ้งเตือนนักพัฒนา โดยจะหยุดเอเจนต์ทันทีที่เริ่มใช้ประโยชน์จาก Trip wires แม้ว่า Trip wires จะไม่สามารถแก้ปัญหาการแฮ็กรางวัลได้โดยตรง แต่ก็สามารถลดความเสี่ยงและให้การวินิจฉัยเบื้องต้นได้ อย่างไรก็ตาม นี่เป็นเพียงแนวคิดเชิงทฤษฎีและขาดหลักฐานสนับสนุน นอกจากนี้ เอเจนต์ที่มีความเชี่ยวชาญเพียงพออาจสามารถหลีกเลี่ยง Trip wires และใช้ประโยชน์จากช่องโหว่จริงต่อไปได้[ 2 ]

ข้อจำกัดของโดเมนการใช้งานยังถูกนำไปใช้ในสาขาอื่นๆ เช่น การค้นพบยา ซึ่งการออกแบบโมเลกุลที่ขับเคลื่อนด้วยข้อมูลโดยใช้แบบจำลองเชิงกำเนิดมีแนวโน้มที่จะนำไปสู่การโกงรางวัลหากแบบจำลองการทำนายไม่สามารถคาดการณ์ได้ดีนอกเหนือจากการกระจายข้อมูลการฝึกอบรม Yoshizawa et al. (2025) เสนอเฟรมเวิร์กที่เรียกว่า DyRAMO (Dynamic Reliability Adjustment for Multi-objective Optimization) เฟรมเวิร์กนี้อิงตามการเพิ่มประสิทธิภาพหลายวัตถุประสงค์และความน่าเชื่อถือของการทำนาย จึงหลีกเลี่ยงการออกแบบสารประกอบที่ดูเหมือนจะมีคุณสมบัติที่ดีนอกโดเมนการใช้งาน[ 30 ]

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Reward_hacking&oldid=1359951534 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การแฮ็กรางวัล

การแฮ็กรางวัลหรือการเล่นเกมตามข้อกำหนดเกิดขึ้นเมื่อAIที่ได้รับการฝึกฝนด้วยการเรียนรู้แบบเสริมแรง ปรับ

คำจำกัดความและกรอบทฤษฎี

แนวคิดเรื่องการแฮ็กรางวัลเกิดขึ้นจากความยากลำบากโดยเนื้อแท้ในการกำหนดฟังก์ชันรางวัลที่สะท้อนถึงเจตนาที่แท้จริงของนักออกแบบได้อย่างแม่นยำ ในปี 2559 นักวิจัยที่ OpenAI ได้ระบุการแฮ็กรางวัลว่าเป็นหนึ่งในห้า "ปัญหาที่สำคัญด้าน ความปลอดภัยของ AI "...

ตัวอย่าง

ประมาณปี 1983 Eurisko ซึ่ง เป็น ความพยายามในช่วงแรกในการพัฒนาฮิวริสติกทั่วไป ได้กำหนด ระดับ ความเหมาะสม สูงสุดที่เป็นไปได้ ให้กับ ฮิวริสติ กกลาย พันธุ์แบบปรสิต H59 โดยไม่ คาดคิด...

ในหุ่นยนต์เสมือนจริง

ใน การสาธิตวิวัฒนาการของสิ่งมีชีวิตในสภาพแวดล้อมเสมือนจริงของ Karl Sims ในปี 1994 ฟังก์ชันความเหมาะสมที่คาดว่าจะส่งเสริมวิวัฒนาการของสิ่งมีชีวิตที่เรียนรู้ที่จะเดินหรือคลานไปยังเป้าหมาย...