อ่าน 4 นาที
คอมพิวเตอร์ประสาทที่สามารถหาอนุพันธ์ได้
ในปัญญาประดิษฐ์คอมพิวเตอร์ประสาทที่สามารถหาอนุพันธ์ได้ ( DNC ) คือ สถาปัตยกรรม เครือข่ายประสาท ที่เสริมหน่วยความจำ (MANN) ซึ่งโดยทั่วไป (แต่ไม่ใช่ตามคำจำกัดความ) เป็น...
คอมพิวเตอร์ประสาทที่สามารถหาอนุพันธ์ได้

ในปัญญาประดิษฐ์คอมพิวเตอร์ประสาทที่สามารถหาอนุพันธ์ได้ ( DNC ) คือ สถาปัตยกรรม เครือข่ายประสาท ที่เสริมหน่วยความจำ (MANN) ซึ่งโดยทั่วไป (แต่ไม่ใช่ตามคำจำกัดความ) เป็น แบบวนซ้ำในการใช้งาน โมเดลนี้ได้รับการเผยแพร่ในปี 2016 โดยAlex GravesและคณะจากDeepMind [ 1 ]
แอปพลิเคชัน
DNC ได้รับแรงบันดาลใจทางอ้อมจากสถาปัตยกรรม Von-Neumannทำให้มีแนวโน้มที่จะมีประสิทธิภาพเหนือกว่าสถาปัตยกรรมแบบดั้งเดิมในงานที่ต้องใช้ขั้นตอนวิธีเป็นพื้นฐาน ซึ่งไม่สามารถเรียนรู้ได้โดยการค้นหาขอบเขตการตัดสินใจ
จนถึงปัจจุบัน DNC ได้รับการพิสูจน์แล้วว่าสามารถจัดการกับงานที่ค่อนข้างง่ายเท่านั้น ซึ่งสามารถแก้ไขได้โดยใช้การเขียนโปรแกรมแบบดั้งเดิม แต่ DNC ไม่จำเป็นต้องได้รับการเขียนโปรแกรมสำหรับแต่ละปัญหา แต่สามารถฝึกฝนได้แทน ช่วงความสนใจนี้ช่วยให้ผู้ใช้สามารถป้อนโครงสร้างข้อมูล ที่ซับซ้อน เช่นกราฟตามลำดับ และเรียกใช้เพื่อใช้งานในภายหลัง นอกจากนี้ พวกมันยังสามารถเรียนรู้แง่มุมของการให้เหตุผลเชิงสัญลักษณ์และนำไปใช้กับหน่วยความจำในการทำงาน นักวิจัยที่เผยแพร่วิธีการนี้มองเห็นศักยภาพว่า DNC สามารถฝึกฝนให้ทำงานที่ซับซ้อนและมีโครงสร้างได้[ 1 ] [ 2 ]และจัดการกับแอปพลิเคชันข้อมูลขนาดใหญ่ที่ต้องการการให้เหตุผลบางอย่าง เช่น การสร้างคำบรรยายวิดีโอหรือการวิเคราะห์ข้อความเชิงความหมาย[ 3 ] [ 4 ]
DNC สามารถฝึกฝนให้นำทาง ระบบ ขนส่งด่วนและนำเครือข่ายนั้นไปใช้กับระบบอื่นได้ โดยทั่วไปแล้ว เครือข่ายประสาทเทียมที่ไม่มีหน่วยความจำจะต้องเรียนรู้เกี่ยวกับระบบขนส่งแต่ละระบบตั้งแต่เริ่มต้น ในงานการสำรวจกราฟและการประมวลผลลำดับด้วยการเรียนรู้แบบมีผู้กำกับดูแล DNC ทำงานได้ดีกว่าทางเลือกอื่น เช่น หน่วยความ จำระยะสั้นแบบยาวหรือเครื่องจักรทัวริงประสาท[ 5 ]ด้วย วิธี การเรียนรู้แบบเสริมแรงสำหรับปัญหาปริศนาบล็อกที่ได้รับแรงบันดาลใจจากSHRDLU DNC ได้รับการฝึกฝนผ่านการเรียนรู้หลักสูตร และเรียนรู้ที่จะสร้างแผนมันทำงานได้ดีกว่าเครือข่ายประสาทเทียมแบบวนซ้ำแบบ ดั้งเดิม [ 5 ]
สถาปัตยกรรม

เครือข่าย DNC ถูกนำมาใช้เป็นส่วนขยายของNeural Turing Machine (NTM) โดยมีการเพิ่มกลไกความสนใจของหน่วยความจำที่ควบคุมตำแหน่งที่จัดเก็บหน่วยความจำ และความสนใจเชิงเวลาที่บันทึกลำดับของเหตุการณ์ โครงสร้างนี้ทำให้ DNC มีความแข็งแกร่งและเป็นนามธรรมมากกว่า NTM และยังคงสามารถทำงานที่มีการพึ่งพาในระยะยาวได้ดีกว่ารุ่นก่อนหน้าบางรุ่น เช่น Long Short Term Memory ( LSTM ) หน่วยความจำซึ่งเป็นเพียงเมทริกซ์ สามารถจัดสรรแบบไดนามิกและเข้าถึงได้ไม่จำกัด DNC สามารถหาอนุพันธ์ได้ตั้งแต่ต้นจนจบ (แต่ละส่วนย่อยของแบบจำลองสามารถหาอนุพันธ์ได้ ดังนั้นแบบจำลองทั้งหมดจึงสามารถหาอนุพันธ์ได้เช่นกัน) ทำให้สามารถปรับให้เหมาะสมได้อย่างมีประสิทธิภาพโดยใช้การไล่ระดับลง[ 3 ] [ 6 ] [ 7 ]
โมเดล DNC คล้ายกับสถาปัตยกรรม Von Neumannและเนื่องจากหน่วยความจำสามารถปรับขนาดได้ จึงถือว่า สมบูรณ์ แบบTuring [ 8 ]
DNC แบบดั้งเดิม
DNC ตามที่เผยแพร่ครั้งแรก[ 1 ]
| ตัวแปรอิสระ | |
| เวกเตอร์อินพุต | |
| เวกเตอร์เป้าหมาย | |
| ตัวควบคุม | |
| เมทริกซ์อินพุตของตัวควบคุม | |
| LSTM แบบลึก (หลายชั้น) | |
| เวกเตอร์เกตอินพุต | |
| เวกเตอร์เกตเอาต์พุต | |
| ลืมเวกเตอร์เกต | |
| เวกเตอร์เกตสถานะ | |
| เวกเตอร์ประตูที่ซ่อนอยู่ | |
| เวกเตอร์เอาต์พุต DNC | |
| หัวอ่านและเขียน | |
| พารามิเตอร์อินเทอร์เฟซ | |
| อ่านหัว | |
| อ่านกุญแจ | |
| อ่านจุดแข็ง | |
| ประตูฟรี | |
| โหมดการอ่าน | |
| เขียนหัว | |
| เขียนกุญแจ | |
| เขียนความแข็งแกร่ง | |
| ลบเวกเตอร์ | |
| เขียนเวกเตอร์ | |
| ประตูการจัดสรร | |
| เขียนประตู | |
| หน่วยความจำ | |
| เมทริกซ์หน่วยความจำเมทริกซ์แห่งหนึ่ง | |
| เวกเตอร์การใช้งาน | |
| การถ่วงน้ำหนักลำดับความสำคัญ | |
| เมทริกซ์การเชื่อมโยงเชิงเวลา | |
| เขียนน้ำหนัก | |
| อ่านน้ำหนัก | |
| อ่านเวกเตอร์ | |
| การระบุที่อยู่ตามเนื้อหา , คีย์ค้นหา, ความแข็งแกร่งของคีย์ | |
| ดัชนีต่างๆเรียงลำดับตามการใช้งานจากน้อยไปมาก | |
| การถ่วงน้ำหนักการจัดสรร | |
| เขียนน้ำหนักเนื้อหา | |
| อ่านการถ่วงน้ำหนักเนื้อหา | |
| การถ่วงน้ำหนักไปข้างหน้า | |
| การถ่วงน้ำหนักแบบย้อนกลับ | |
| เวกเตอร์การเก็บรักษาความทรงจำ | |
| คำจำกัดความ | |
| เมทริกซ์น้ำหนักเวกเตอร์ไบแอส | |
| เมทริกซ์ศูนย์, เมทริกซ์หนึ่ง, เมทริกซ์เอกลักษณ์ | |
| การคูณแบบทีละองค์ประกอบ | |
| ความคล้ายคลึงโคไซน์ | |
| ฟังก์ชันซิกมอยด์ | |
| ฟังก์ชัน OnePlus | |
| สำหรับj = 1, ... , K | ฟังก์ชัน Softmax |
ส่วนขยาย
การปรับปรุงประกอบด้วยการกำหนดแอดเดรสหน่วยความจำแบบเบาบาง ซึ่งช่วยลดความซับซ้อนของเวลาและพื้นที่ลงหลายพันเท่า สามารถทำได้โดยใช้อัลกอริธึมเพื่อนบ้านที่ใกล้ที่สุดโดยประมาณ เช่นLocality-sensitive hashingหรือต้นไม้ kd แบบสุ่ม เช่น Fast Library for Approximate Nearest Neighbors จากUBC [ 9 ]การเพิ่ม Adaptive Computation Time (ACT) จะแยกเวลาการคำนวณออกจากเวลาข้อมูล ซึ่งใช้ข้อเท็จจริงที่ว่าความยาวของปัญหาและความยากของปัญหาไม่เหมือนกันเสมอไป[ 10 ]การฝึกอบรมโดยใช้เกรเดียนต์สังเคราะห์มีประสิทธิภาพดีกว่าBackpropagation through time (BPTT) อย่างมาก [ 11 ]ความทนทานสามารถปรับปรุงได้ด้วยการใช้ layer normalization และ Bypass Dropout เป็น regularization [ 12 ]
ดูเพิ่มเติม
ลิงก์ภายนอก
- คู่มือทีละบิตสำหรับสมการที่ควบคุมคอมพิวเตอร์ประสาทเทียมที่สามารถหาอนุพันธ์ได้
- โครงข่ายประสาทเทียมแบบหาอนุพันธ์ของ DeepMind คิดอย่างลึกซึ้ง
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ คอมพิวเตอร์ประสาทที่สามารถหาอนุพันธ์ได้
ในปัญญาประดิษฐ์คอมพิวเตอร์ประสาทที่สามารถหาอนุพันธ์ได้ ( DNC ) คือ สถาปัตยกรรม เครือข่ายประสาท ที่เสริมหน่วยความจำ (MANN) ซึ่งโดยทั่วไป (แต่ไม่ใช่ตามคำจำกัดความ) เป็น...
แอปพลิเคชัน
DNC ได้รับแรงบันดาลใจทางอ้อมจาก สถาปัตยกรรม Von-Neumann ทำให้มีแนวโน้มที่จะมีประสิทธิภาพเหนือกว่าสถาปัตยกรรมแบบดั้งเดิมในงานที่ต้องใช้ขั้นตอนวิธีเป็นพื้นฐาน ซึ่งไม่สามารถเรียนรู้ได้โดยการค้นหา ขอบเขตการ ตัดสินใจ
สถาปัตยกรรม
เครือข่าย DNC ถูกนำมาใช้เป็นส่วนขยายของ Neural Turing Machine (NTM) โดยมีการเพิ่มกลไกความสนใจของหน่วยความจำที่ควบคุมตำแหน่งที่จัดเก็บหน่วยความจำ และความสนใจเชิงเวลาที่บันทึกลำดับของเหตุการณ์ โครงสร้างนี้ทำให้ DNC มีความแข็งแกร่งและเป็นนามธรรมมากกว่า NTM...
ส่วนขยาย
การปรับปรุงประกอบด้วยการกำหนดแอดเดรสหน่วยความจำแบบเบาบาง ซึ่งช่วยลดความซับซ้อนของเวลาและพื้นที่ลงหลายพันเท่า สามารถทำได้โดยใช้อัลกอริธึมเพื่อนบ้านที่ใกล้ที่สุดโดยประมาณ เช่น Locality-sensitive hashing หรือ ต้นไม้ kd แบบสุ่ม เช่น Fast Library for Approximate...