เยอร์เกน ชมิดฮูเบอร์

เยอร์เกน ชมิดฮูเบอร์
เยอร์เกน ชมิดฮูเบอร์
	Schmidhuber กล่าวสุนทรพจน์ในการประชุมสุดยอดระดับโลก AI for GOOD ในปี 2017
เกิด	17 มกราคม พ.ศ. 2506 มิวนิก [ ตะวันตก
อัลมา มัธยฐาน	มหาวิทยาลัยเทคนิคแห่งมิวนิก
เป็นที่รู้จักในด้าน	โครงข่ายประสาทเทียม , การเรียนรู้เชิงลึก , หน่วยความจำระยะยาวและระยะสั้น , เครื่องจักรเกอเดล , ความอยากรู้อยากเห็นเทียม, เมตาเลิร์นนิง
	เส้นทางอาชีพด้านวิทยาศาสตร์
ฟิลด์	ปัญญาประดิษฐ์
สถาบันต่างๆ	สถาบันวิจัยปัญญาประดิษฐ์ Dalle Molle
วิทยานิพนธ์	หลักการวิวัฒนาการในการเรียนรู้แบบอ้างอิงตนเอง หรือการเรียนรู้วิธีการเรียนรู้: ตะขอเมตา-เมตา-... (1987)
เว็บไซต์	คน.idsia .ch /~juergen

Jürgen Schmidhuber (เกิด 17 มกราคม 1963) ^{[ 1 ]}เป็นนักวิทยาศาสตร์คอมพิวเตอร์ ชาวเยอรมัน ที่มีชื่อเสียงจากผลงานในสาขาปัญญาประดิษฐ์โดยเฉพาะเครือข่ายประสาทเทียมเขาได้รับการยกย่องจากสื่อต่างๆ ว่าเป็นผู้บุกเบิกชั้นนำของปัญญาประดิษฐ์สมัยใหม่^{[ 2 ]}เขาเป็นผู้อำนวยการด้านวิทยาศาสตร์ของสถาบัน Dalle Molle Institute for Artificial Intelligence Researchในประเทศสวิตเซอร์แลนด์ [ ^{3 ] นอกจาก}นี้ เขายังเป็นผู้อำนวยการของโครงการริเริ่มปัญญาประดิษฐ์และศาสตราจารย์ประจำหลักสูตรวิทยาการคอมพิวเตอร์ในสาขาวิทยาการคอมพิวเตอร์ ไฟฟ้า คณิตศาสตร์ และวิศวกรรมศาสตร์ (CEMSE) ที่มหาวิทยาลัยKing Abdullah University of Science and Technology (KAUST) ในประเทศซาอุดีอาระเบีย^{[ 4 ]}^{[ 5 ]}

เขาเป็นที่รู้จักดีที่สุดจากผลงานของเขาเกี่ยวกับหน่วยความจำระยะยาวแบบสั้น (LSTM) ซึ่งเป็นสถาปัตยกรรมเครือข่ายประสาทเทียมประเภทหนึ่งที่เป็นเทคนิคที่โดดเด่นสำหรับ งาน ประมวลผลภาษาธรรมชาติ ต่างๆ ในงานวิจัยและการใช้งานเชิงพาณิชย์ในช่วงทศวรรษ 2010 เขายังได้แนะนำหลักการของเครือข่ายประสาทเทียมแบบไดนามิกเมตาเลิร์ น นิ่งเครือข่ายปฏิปักษ์เชิงสร้างสรรค์^{[ 6 ]}^{[ 7 ]}^{[ 8 ]}และทรานส์ฟอร์เมอร์เชิง เส้น ^{[ 9 ]}^{[ 10 ]}^{[ 8 ]}ซึ่งทั้งหมดนี้แพร่หลายใน AI สมัยใหม่

อาชีพ

Schmidhuber สำเร็จการศึกษาระดับปริญญาตรี (1987) และปริญญาเอก (1991) จากมหาวิทยาลัยเทคนิคแห่งมิวนิกในมิวนิกประเทศเยอรมนี^{[ 1 ]}อาจารย์ที่ปรึกษาปริญญาเอกของเขาคือWilfried BrauerและKlaus Schulten [ ^{11 ] เขา}เป็นอาจารย์สอนที่นั่นตั้งแต่ปี 2004 ถึง 2009 ตั้งแต่ปี 2009 ถึง 2021 เขาเป็นศาสตราจารย์ด้านปัญญาประดิษฐ์ที่Università della Svizzera Italianaในเมืองลูกาโนประเทศสวิ ตเซอร์แลนด์ ^{[ 12 ]}^{[ 1 ]}เขาดำรงตำแหน่งผู้อำนวยการของDalle Molle Institute for Artificial Intelligence Research (IDSIA) ซึ่งเป็นห้องปฏิบัติการ AI ของสวิตเซอร์แลนด์มาตั้งแต่ปี 1995 ^{[ 1 ]}ตั้งแต่ปี 2021 เขายังดำรงตำแหน่งผู้อำนวยการของ AI Initiative ที่King Abdullah University of Science and Technology (KAUST) อีกด้วย ^{[ 4 ]}

ในปี 2014 Schmidhuber ได้ก่อตั้งบริษัท NNAISENSE เพื่อทำงานเกี่ยวกับการประยุกต์ใช้ปัญญาประดิษฐ์ในเชิงพาณิชย์ในด้านต่างๆ เช่น การเงิน อุตสาหกรรมหนัก และรถยนต์ขับเคลื่อนอัตโนมัติ Sepp Hochreiter , Jaan TallinnและMarcus Hutterเป็นที่ปรึกษาของบริษัท^{[ 3 ]}ยอดขายต่ำกว่า 11 ล้านดอลลาร์สหรัฐในปี 2016 อย่างไรก็ตาม Schmidhuber ระบุว่าปัจจุบันเน้นที่การวิจัยมากกว่ารายได้ NNAISENSE ระดมทุนรอบแรกในเดือนมกราคม 2017 เป้าหมายโดยรวมของ Schmidhuber คือการสร้างAI อเนกประสงค์โดยการฝึก AI ตัวเดียวตามลำดับในงานเฉพาะด้านต่างๆ^{[ 13 ]}แต่ในปี 2026 เขาได้กล่าวว่าจุดเน้นของ NNAISENSE ได้เปลี่ยนจากปัญญาประดิษฐ์ทั่วไปไปเป็นการจัดการสินทรัพย์^{[ 14 ]}

วิจัย

ในช่วงทศวรรษ 1980 การย้อนกลับ การแพร่กระจาย (backpropagation)ไม่ได้ผลดีนักสำหรับการเรียนรู้เชิงลึกที่มีเส้นทางการกำหนดเครดิตยาวในเครือข่ายประสาทเทียมเพื่อแก้ไขปัญหานี้ Schmidhuber (1991) ได้เสนอโครงสร้างลำดับชั้นของเครือข่ายประสาทแบบวนซ้ำ (RNN) ที่ได้รับการฝึกฝนล่วงหน้าทีละระดับโดยการเรียนรู้แบบกำกับตนเอง [ ¹⁵^]โดยใช้การเข้ารหัสแบบทำนายเพื่อเรียนรู้การแสดงแทนภายในที่ระดับเวลาการจัดระเบียบตนเองหลายระดับ ซึ่งอำนวยความสะดวกในการเรียนรู้เชิงลึกในขั้นตอนถัดไป โครงสร้างลำดับชั้นของ RNN สามารถ^ยุบรวมเป็น RNN เดียวได้ โดยการกลั่น เครือข่าย chunkerระดับสูง ให้เป็น เครือข่ายautomatizerระดับต่ำ^[¹⁵^]^[¹⁶^]ในปี 1993 chunker สามารถแก้ปัญหาการเรียนรู้เชิงลึกที่มีความลึกเกิน 1000 ได้^[¹⁷^]

ในปี 1991 Schmidhuber ได้ตีพิมพ์เครือข่ายประสาท เทียมแบบต่อต้าน ซึ่งแข่งขันกันในรูปแบบของเกมผลรวมเป็นศูนย์โดยที่กำไรของเครือข่ายหนึ่งคือการสูญเสียของอีกเครือข่ายหนึ่ง^{[ 6 ]}^{[ 18 ]}^{[ 7 ]}^{[ 8 ]}เครือข่ายแรกเป็นแบบจำลองเชิงกำเนิดที่จำลองการกระจายความน่าจะเป็นเหนือรูปแบบเอาต์พุต เครือข่ายที่สองเรียนรู้โดยการไล่ระดับลงเพื่อทำนายปฏิกิริยาของสภาพแวดล้อมต่อรูปแบบเหล่านี้ สิ่งนี้เรียกว่า "ความอยากรู้อยากเห็นเทียม" ในปี 2014 หลักการนี้ถูกนำมาใช้ในการสร้างเครือข่ายต่อต้านเชิงกำเนิดซึ่ง Schmidhuber อธิบายว่าเป็นกรณีพิเศษของความอยากรู้อยากเห็นเทียม โดยที่ปฏิกิริยาของสภาพแวดล้อมเป็น 1 หรือ 0 ขึ้นอยู่กับว่าเอาต์พุตของเครือข่ายแรกอยู่ในชุดที่กำหนดหรือไม่^{[ 7 ]}

Schmidhuber ดูแลวิทยานิพนธ์ระดับปริญญาตรีปี 1991 ของนักศึกษาSepp Hochreiter ^{[ 19 ]}ซึ่งเขาถือว่าเป็น "หนึ่งในเอกสารที่สำคัญที่สุดในประวัติศาสตร์ของการเรียนรู้ของเครื่อง" ^{[ 16 ]} วิทยานิพนธ์ นี้ศึกษา เกี่ยวกับ การบีบอัดประวัติประสาท^{[ 15 ]}และวิเคราะห์และเอาชนะปัญหาการลดลงของเกรเดียนต์ซึ่งนำไปสู่การสร้างหน่วยความจำระยะยาวแบบสั้น (LSTM) ซึ่งเป็น โครงข่ายประสาทแบบวนซ้ำชนิดหนึ่งชื่อ LSTM ถูกนำเสนอในรายงานทางเทคนิคในปี 1995 นำไปสู่บทความ LSTM ที่มีการอ้างอิงมากที่สุด ซึ่งตีพิมพ์ในปี 1997 และเขียนร่วมโดย Hochreiter และ Schmidhuber ^{[ 20 ]}สถาปัตยกรรม LSTM มาตรฐานถูกนำเสนอในปี 2000 โดยFelix Gers , Schmidhuber และ Fred Cummins ^{[ 21 ]} "LSTM แบบดั้งเดิม" ในปัจจุบันที่ใช้การแพร่กระจายย้อนกลับผ่านเวลาได้รับการตีพิมพ์ร่วมกับAlex Graves นักศึกษาของเขา ในปี 2548 ^{[ 22 ]}^{[ 23 ]}และ อัลกอริทึมการฝึกอบรม การจำแนกประเภทตามเวลาแบบเชื่อมโยง (CTC) ในปี 2549 ^{[ 24 ]} CTC ถูกนำไปใช้กับการรู้จำเสียงพูดแบบ end-to-end ด้วย LSTM

ในปี 2014 เทคโนโลยีล้ำสมัยคือการฝึก “เครือข่ายประสาทเทียมที่ลึกมาก” ที่มี 20 ถึง 30 ชั้น^{[ 25 ]}การซ้อนชั้นมากเกินไปทำให้ความแม่นยำ ใน การฝึก ลดลงอย่างมาก ^{[ 26 ]}ซึ่งเรียกว่าปัญหา “การเสื่อมสภาพ” ^{[ 27 ]}ในเดือนพฤษภาคม 2015 Rupesh Kumar Srivastava, Klaus Greff และ Schmidhuber ได้ใช้หลักการLSTM เพื่อสร้าง เครือข่ายไฮเวย์ซึ่งเป็นเครือข่ายประสาทเทียมแบบฟีดฟอร์เวิร์ดที่มีหลายร้อยชั้น ลึกกว่าเครือข่ายก่อนหน้านี้มาก^{[ 8 ]}^{[ 28 ]}^{[ 29 ]}ในเดือนธันวาคม 2015 เครือข่ายประสาทเทียมแบบตกค้าง (ResNet) ได้รับการเผยแพร่ ซึ่งเป็นรูปแบบหนึ่งของเครือข่ายไฮเวย์^{[ 27 ]}^{[ 30 ]}

ในปี พ.ศ. 2535 Schmidhuber ได้ตีพิมพ์fast weights programmerซึ่งเป็นทางเลือกแทนโครงข่ายประสาทแบบวนซ้ำ [ ^{9 ] มัน}มีโครงข่ายประสาทแบบฟีดฟอร์เวิร์ด ที่ช้า ซึ่งเรียนรู้โดยการไล่ระดับลงเพื่อควบคุมน้ำหนักเร็วของโครงข่ายประสาทอีกโครงข่ายหนึ่งผ่านผลคูณภายนอกของรูปแบบการกระตุ้นที่สร้างขึ้นเอง และโครงข่ายน้ำหนักเร็วเองก็ทำงานกับอินพุต^{[ 10 ]}ต่อมาได้แสดงให้เห็นว่าสิ่งนี้เทียบเท่ากับทรานส์ฟอร์เมอร์เชิง เส้นที่ไม่เป็นมาตรฐาน ^{[ 31 ]}^{[ 10 ]}^{[ 32 ]}

ในปี 2011 ทีมของ Schmidhuber ที่ IDSIA ร่วมกับDan Ciresan นักวิจัยหลังปริญญาเอก ของเขา ประสบความสำเร็จในการเพิ่มความเร็วของ โครงข่ายประสาทเทียมแบบ Convolutional Neural Networks (CNNs) อย่างมากโดยใช้หน่วยประมวลผลกราฟิก (GPUs) โดยอิงจากการออกแบบ CNN ที่ Kunihiko Fukushima นำเสนอไว้ก่อนหน้านี้[ 33 ^{] [ 34}^{] CNN บน} GPU รุ่นก่อนหน้าโดย Chellapilla et al. (2006) เร็วกว่าการใช้งานที่เทียบเท่ากันบน CPU ถึง 4 เท่า^{[ 35 ]} CNN แบบลึกของ Dan Ciresan et al. (2011) ที่ IDSIA เร็วกว่าถึง 60 เท่า^{[ 36 ]}และประสบความสำเร็จในการแสดงผลงานเหนือมนุษย์เป็นครั้งแรกในการแข่งขันด้านคอมพิวเตอร์วิชั่นในเดือนสิงหาคม 2011 ^{[ 37 ]}ระหว่างวันที่ 15 พฤษภาคม 2011 ถึง 10 กันยายน 2012 CNN เหล่านี้ชนะการแข่งขันภาพอีก 4 รายการ^{[ 38 ]}^{[ 34 ]}และปรับปรุงสถานะของศิลปะบนเกณฑ์มาตรฐานภาพหลายรายการ^{[ 39 ]}แนวทางนี้กลายเป็นหัวใจสำคัญของสาขาวิทยาการคอมพิวเตอร์^{[ 34 ]}

ข้อพิพาทด้านเครดิต

Schmidhuber ได้โต้แย้งอย่างเป็นที่ถกเถียงว่าเขาและนักวิจัยคนอื่นๆ ไม่ได้รับการยอมรับอย่างเพียงพอสำหรับผลงานของพวกเขาในสาขาการเรียนรู้เชิงลึกโดยGeoffrey Hinton , Yoshua BengioและYann LeCunได้รับรางวัล Turing Award ประจำปี 2018 ร่วมกัน จากผลงานของพวกเขาในด้านการเรียนรู้เชิงลึก^{[ 3 ]}^{[ 40 ]}^{[ 41 ]}เขาเขียนบทความที่ "รุนแรง" ในปี 2015 โดยโต้แย้งว่า Hinton, Bengio และ LeCun "อ้างอิงถึงกันและกันอย่างมาก" แต่ "ล้มเหลวในการให้เครดิตแก่ผู้บุกเบิกในสาขานี้" ^{[ 41 ]}ในแถลงการณ์ต่อNew York Times , Yann LeCun เขียนว่า "Jürgen หมกมุ่นอยู่กับการได้รับการยอมรับอย่างบ้าคลั่งและอ้างสิทธิ์ในสิ่งต่างๆ มากมายที่เขาไม่สมควรได้รับ... มันทำให้เขาลุกขึ้นยืนในตอนท้ายของการบรรยายทุกครั้งและอ้างสิทธิ์ในสิ่งที่เพิ่งนำเสนอ โดยทั่วไปแล้วไม่ใช่ในลักษณะที่สมเหตุสมผล" ^{[ 3 ]} Schmidhuber ตอบว่า LeCun ทำเช่นนี้ "โดยไม่มีเหตุผลใดๆ โดยไม่ยกตัวอย่างแม้แต่ตัวอย่างเดียว" ^{[ 42 ]}และเผยแพร่รายละเอียดข้อพิพาทลำดับความสำคัญจำนวนมากกับ Hinton, Bengio และ LeCun ^{[ 43 ]}^{[ 44 ]}

คำว่า "schmidhubered" ถูกใช้ในเชิงล้อเล่นในชุมชน AI เพื่ออธิบายนิสัยของ Schmidhuber ในการท้าทายความริเริ่มสร้างสรรค์ของงานวิจัยของนักวิจัยคนอื่นๆ อย่างเปิดเผย ซึ่งบางคนในชุมชน AI มองว่าเป็น "พิธีกรรม" สำหรับนักวิจัยรุ่นใหม่ บางคนเสนอว่าความสำเร็จที่สำคัญของ Schmidhuber ไม่ได้รับการประเมินค่าอย่างเหมาะสมเนื่องจากบุคลิกที่ชอบเผชิญหน้าของเขา^{[ 45 ]}^{[ 40 ]}

การยอมรับ

Schmidhuber ได้รับรางวัล Helmholtz จาก International Neural Network Society ในปี 2013 ^{[ 46 ]}และรางวัล Neural Networks Pioneer Award จากIEEE Computational Intelligence Societyในปี 2016 สำหรับ "ผลงานบุกเบิกด้านการเรียนรู้เชิงลึกและเครือข่ายประสาท" ^{[ 1 ]}^{[ 47 ]}เขาเป็นสมาชิกของEuropean Academy of Sciences and Arts ^{[ 48 ]}^{[ 12 ]}

เขาได้รับการขนานนามว่าเป็น "บิดาแห่ง AI สมัยใหม่" ^{[ 58 ]} "บิดาแห่งAI เชิงสร้างสรรค์ " ^{[ 59 ]}และ "บิดาแห่งการเรียนรู้เชิงลึก" ^{[ 60 ]}^{[ 53 ]}อย่างไรก็ตาม Schmidhuber เองเรียกAlexey Grigorevich Ivakhnenko ว่า เป็น "บิดาแห่งการเรียนรู้เชิงลึก" ^{[ 61 ]}^{[ 62 ]}และให้เครดิตแก่ผู้บุกเบิก AI รุ่นก่อนหน้าอีกหลายคน^{[ 16 ]}

นิวยอร์กไทมส์ลงบทความเกี่ยวกับเขาภายใต้หัวข้อข่าว "เมื่อ AI เติบโตเต็มที่ มันอาจเรียก Jürgen Schmidhuber ว่า 'พ่อ'" โดยเน้นถึงงานในช่วงแรกของเขาเกี่ยวกับการเรียนรู้เชิงลึกและวิสัยทัศน์ระยะยาวของเขาสำหรับ AI ที่พัฒนาตนเองได้^{[ 2 ]}

มุมมอง

Schmidhuber เป็นผู้สนับสนุนAI แบบโอเพนซอร์สและเชื่อว่า AI แบบโอเพนซอร์สจะสามารถแข่งขันกับAI แบบปิดซอร์ส เชิงพาณิชย์ได้ ^{[ 8 ]}

ตั้งแต่ทศวรรษ 1970 Schmidhuber ต้องการสร้าง "เครื่องจักรอัจฉริยะที่สามารถเรียนรู้และพัฒนาตนเองได้ และฉลาดกว่าเขาภายในช่วงชีวิตของเขา" ^{[ 8 ]}เขาแยกแยะ AI ออกเป็นสองประเภท ได้แก่ AI เครื่องมือ เช่น AI สำหรับการปรับปรุงการดูแลสุขภาพและAI อัตโนมัติที่ตั้งเป้าหมายของตนเอง ทำการวิจัยของตนเอง และสำรวจจักรวาล เขาทำงานเกี่ยวกับ AI ทั้งสองประเภทมานานหลายทศวรรษ^{[ 8 ]}เขาคาดหวังว่าวิวัฒนาการขั้นต่อไปจะเป็นAI ที่พัฒนาตนเองได้ซึ่งจะประสบความสำเร็จเหนืออารยธรรมมนุษย์ในฐานะขั้นต่อไปของการเพิ่มขึ้นของจักรวาลไปสู่ความซับซ้อนที่เพิ่มขึ้นเรื่อยๆ และเขาคาดหวังว่า AI จะเข้ายึดครองจักรวาลที่มองเห็นได้^{[ 8 ]}

[ 1 ]

3 ] นอกจาก

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

11 ] เขา

[ 12 ]

[ 13 ]

[ 14 ]

15

[

[

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

] [ 34

] CNN บน

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 58 ]

[ 59 ]

[ 60 ]

[ 53 ]

[ 61 ]

[ 62 ]

เยอร์เกน ชมิดฮูเบอร์
Schmidhuber กล่าวสุนทรพจน์ในการประชุมสุดยอดระดับโลก AI for GOOD ในปี 2017
เกิด	17 มกราคม พ.ศ. 2506 ^{[ 1 ]} มิวนิก [ ^{1 ] เยอรมนี}ตะวันตก
อัลมา มัธยฐาน	มหาวิทยาลัยเทคนิคแห่งมิวนิก
เป็นที่รู้จักในด้าน	โครงข่ายประสาทเทียม , การเรียนรู้เชิงลึก , หน่วยความจำระยะยาวและระยะสั้น , เครื่องจักรเกอเดล , ความอยากรู้อยากเห็นเทียม, เมตาเลิร์นนิง
เส้นทางอาชีพด้านวิทยาศาสตร์
ฟิลด์	ปัญญาประดิษฐ์
สถาบันต่างๆ	สถาบันวิจัยปัญญาประดิษฐ์ Dalle Molle
วิทยานิพนธ์	หลักการวิวัฒนาการในการเรียนรู้แบบอ้างอิงตนเอง หรือการเรียนรู้วิธีการเรียนรู้: ตะขอเมตา-เมตา-... (1987)

เว็บไซต์	คน.idsia .ch /~juergen