อ่าน 15 นาที
จีพีที-3
Generative Pre-trained Transformer 3 ( GPT-3 ) เป็น โมเดลภาษาขนาดใหญ่ ที่ OpenAI เปิดตัวในปี 2020
จีพีที-3
| Generative Pre-trained Transformer 3 (GPT-3) | |
|---|---|
| ผู้เขียนต้นฉบับ | OpenAI [ 1 ] |
| ปล่อย | 29 พฤษภาคม 2020 (เผยแพร่); 11 มิถุนายน 2020 (OA API รุ่นเบต้า) |
| ผู้มาก่อน | จีพีที-2 |
| ผู้สืบทอด | จีพีที-3.5 จีพีที-4 |
| พิมพ์ | |
| ใบอนุญาต | กรรมสิทธิ์ |
| เว็บไซต์ | openai.com/blog/openai-api |
| ที่เก็บข้อมูล |
|
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| โอเพ่นไอ |
|---|
| สินค้า |
| นางแบบ |
| ประชากร |
| แนวคิด |
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| การเรียนรู้ของเครื่องจักรและการขุดข้อมูล |
|---|
Generative Pre-trained Transformer 3 ( GPT-3 ) เป็นโมเดลภาษาขนาดใหญ่ ที่ OpenAIเปิดตัวในปี 2020
เช่นเดียวกับ GPT-2รุ่นก่อนหน้า GPT-3 เป็นโมเดลทรานส์ฟอร์เมอร์แบบ ถอดรหัสอย่างเดียว [ 2 ] ของโครงข่ายประสาทเทียมเชิงลึก ซึ่งแทนที่สถาปัตยกรรมแบบวนซ้ำและการแปลงด้วยเทคนิคที่เรียกว่า " ความสนใจ " [ 3 ]กลไกความสนใจนี้ช่วยให้โมเดลสามารถโฟกัสเฉพาะส่วนของข้อความอินพุตที่คาดการณ์ว่ามีความเกี่ยวข้องมากที่สุด[ 4 ] GPT-3 มีพารามิเตอร์ 175 พันล้าน ตัว[ 1 ]แต่ละตัวมีความแม่นยำ 16 บิต ต้องใช้พื้นที่จัดเก็บ 350GB เนื่องจากแต่ละพารามิเตอร์ใช้พื้นที่ 2 ไบต์ มี ขนาด หน้าต่างบริบท 2,048 โทเค็น [ 1 ] : 43 และแสดงให้เห็นถึงความสามารถในการเรียนรู้แบบ " zero-shot " และ " few-shot " ที่แข็งแกร่งในหลายงาน[ 2 ]
เมื่อวันที่ 22 กันยายน 2020 ไมโครซอฟต์ประกาศว่าได้อนุญาตให้ใช้ GPT-3 แต่เพียงผู้เดียว ผู้อื่นยังคงสามารถรับเอาต์พุตจาก API สาธารณะได้ แต่มีเพียงไมโครซอฟต์เท่านั้นที่สามารถเข้าถึงโมเดลพื้นฐานได้[ 5 ]
พื้นหลัง
จากข้อมูลของThe Economistอัลกอริทึมที่ได้รับการปรับปรุง คอมพิวเตอร์ที่มีประสิทธิภาพมากขึ้น และปริมาณข้อมูลดิจิทัลที่เพิ่มขึ้นเมื่อเร็ว ๆ นี้ได้กระตุ้นให้เกิดการปฏิวัติในด้านการเรียนรู้ของเครื่องจักรเทคนิคใหม่ ๆ ในช่วงทศวรรษ 2010 ส่งผลให้เกิด "การปรับปรุงอย่างรวดเร็วในงานต่าง ๆ" รวมถึงการจัดการภาษา[ 6 ]
โมเดลซอฟต์แวร์ได้รับการฝึกฝนให้เรียนรู้โดยใช้ตัวอย่างหลายพันหรือหลายล้านตัวอย่างใน "โครงสร้าง ... ที่อิงตามสถาปัตยกรรมประสาทของสมองอย่างหลวมๆ" [ 6 ]สถาปัตยกรรมหนึ่งที่ใช้ในการประมวลผลภาษาธรรมชาติ (NLP) คือเครือข่ายประสาทเทียมที่อิงตาม โมเดล การเรียนรู้เชิงลึกซึ่งเปิดตัวในปี 2017 นั่น คือ สถาปัตยกรรมทรานส์ฟอร์เมอร์[ 7 ]มีระบบ NLP จำนวนมากที่สามารถประมวลผล ขุดค้น จัดระเบียบ เชื่อมต่อ และเปรียบเทียบข้อมูลป้อนเข้าที่เป็นข้อความ ตลอดจนตอบคำถามได้อย่างถูกต้อง[ 8 ]
เมื่อวันที่ 11 มิถุนายน 2561 นักวิจัยและวิศวกรของ OpenAI ได้ตีพิมพ์บทความแนะนำโมเดล Transformer แบบฝึกฝนล่วงหน้า (GPT) ตัวแรก ซึ่งเป็นโมเดลภาษาขนาดใหญ่แบบ สร้างข้อมูล ( generative large language model) ที่ได้รับการฝึกฝนล่วงหน้าด้วยชุดข้อมูลข้อความขนาดใหญ่และหลากหลายจากนั้นจึงทำการปรับแต่งอย่างละเอียดเพื่อเน้นไปที่งานเฉพาะ โมเดล GPT เป็นสถาปัตยกรรมเครือข่ายประสาทเทียมแบบเรียนรู้เชิงลึกที่ใช้ Transformer ก่อนหน้านี้ โมเดล NLP แบบโครงข่ายประสาทเทียมที่มีประสิทธิภาพดีที่สุดมักใช้การเรียนรู้แบบมีผู้กำกับดูแลจากข้อมูลจำนวนมากที่ติดป้ายกำกับด้วยตนเอง ซึ่งทำให้การฝึกฝนโมเดลภาษาขนาดใหญ่มาก ๆ นั้นมีค่าใช้จ่ายสูงและใช้เวลานานมาก[ 2 ]โมเดล GPT ตัวแรกเรียกว่าGPT-1และตามมาด้วยGPT-2ในเดือนกุมภาพันธ์ 2019 GPT-2 ถูกสร้างขึ้นโดยการขยายขนาดโดยตรงจากรุ่นก่อนหน้า โดยมีจำนวนพารามิเตอร์และขนาดชุดข้อมูลเพิ่มขึ้นเป็น 10 เท่า มีพารามิเตอร์ 1.5 พันล้านตัว และได้รับการฝึกฝนบนชุดข้อมูลเว็บเพจ 8 ล้านหน้า[ 9 ]
ในเดือนกุมภาพันธ์ พ.ศ. 2563 ไมโครซอฟต์ได้เปิดตัว Turing Natural Language Generation (T-NLG) ซึ่งพวกเขาอ้างว่าเป็น "โมเดลภาษาที่ใหญ่ที่สุดเท่าที่เคยมีการเผยแพร่มา โดยมีพารามิเตอร์ถึง 17 พันล้านตัว" [ 10 ]โดยมีประสิทธิภาพดีกว่าโมเดลภาษาอื่นๆ ในงานต่างๆ รวมถึงการสรุปข้อความและการ ตอบคำถาม
การฝึกอบรมและความสามารถ
แนวคิดเรื่อง "รูปแบบการเรียนรู้" นั้นมีปัญหา เพราะมันไม่ได้คำนึงถึงกระบวนการที่ทำให้เกิดรูปแบบการเรียนรู้ขึ้นมา นักเรียนบางคนอาจพัฒนารูปแบบการเรียนรู้แบบใดแบบหนึ่งขึ้นมาเนื่องจากมีประสบการณ์เฉพาะบางอย่าง ในขณะที่บางคนอาจพัฒนารูปแบบการเรียนรู้แบบใดแบบหนึ่งขึ้นมาจากการพยายามปรับตัวให้เข้ากับสภาพแวดล้อมการเรียนรู้ที่ไม่เหมาะสมกับความต้องการในการเรียนรู้ของตนเอง ท้ายที่สุดแล้ว เราจำเป็นต้องเข้าใจปฏิสัมพันธ์ระหว่างรูปแบบการเรียนรู้ ปัจจัยด้านสิ่งแวดล้อม และปัจจัยส่วนบุคคล และว่าสิ่งเหล่านี้หล่อหลอมวิธีการเรียนรู้และประเภทของการเรียนรู้ที่เราได้รับอย่างไร
เมื่อวันที่ 28 พฤษภาคม 2020 เอกสารพรีพรินต์ arXivโดยกลุ่มวิศวกรและนักวิจัย 31 คนจาก OpenAI ได้อธิบายถึงความสำเร็จและการพัฒนา GPT-3 ซึ่งเป็น "แบบจำลองภาษาที่ทันสมัยที่สุด" รุ่นที่สาม[ 1 ] [ 12 ]ทีมงานได้เพิ่มความจุของ GPT-3 มากกว่าสองเท่าเมื่อเทียบกับ GPT-2 รุ่นก่อนหน้า[ 13 ]ทำให้ GPT-3 เป็นแบบจำลองภาษาที่ไม่ใช่แบบสปาร์สที่ใหญ่ที่สุดในขณะนั้น[ 1 ] : 14 [ 14 ]เนื่องจากโครงสร้างของ GPT-3 คล้ายกับรุ่นก่อนหน้า[ 1 ]ความแม่นยำที่มากขึ้นจึงเกิดจากความจุที่เพิ่มขึ้นและจำนวนพารามิเตอร์ที่มากขึ้น[ 15 ]ความจุของ GPT-3 ใหญ่กว่า Turing NLG ของ Microsoft ซึ่งเป็นแบบจำลอง NLP ที่ใหญ่ที่สุดถัดไปที่รู้จักในขณะนั้นถึงสิบเท่า[ 12 ]
Lambdalabs ประเมินต้นทุนสมมติฐานที่ประมาณ 4.6 ล้านดอลลาร์สหรัฐและ 355 ปีในการฝึก GPT-3 บนGPU ตัวเดียว ในปี 2020 [ 16 ]โดยมีเวลาฝึกจริงที่น้อยลงหากใช้ GPU หลายตัวแบบขนานกัน
ร้อยละหกสิบของชุดข้อมูลก่อนการฝึกแบบถ่วงน้ำหนักสำหรับ GPT-3 มาจากเวอร์ชันที่กรองแล้วของCommon Crawlซึ่งประกอบด้วย โทเค็น ที่เข้ารหัสแบบไบต์คู่ จำนวน 410 พันล้าน โทเค็น การลบข้อมูลซ้ำแบบฟัซซีใช้MinHash LSH ของApache Spark [ 1 ] : 9 แหล่งข้อมูลอื่นๆ ได้แก่ โทเค็นจำนวน 19 พันล้านโทเค็นจาก WebText2 คิดเป็นร้อยละ 22 ของข้อมูลถ่วงน้ำหนักทั้งหมด โทเค็นจำนวน 12 พันล้านโทเค็นจาก Books1 คิดเป็นร้อยละ 8 โทเค็นจำนวน 55 พันล้านโทเค็นจาก Books2 คิดเป็นร้อยละ 8 และโทเค็นจำนวน 3 พันล้านโทเค็นจาก Wikipedia คิดเป็นร้อยละ 3 [ 1 ] : 9 GPT-3 ได้รับการฝึกฝนด้วยคำศัพท์หลายแสนล้านคำ และยังสามารถเขียนโค้ดในCSS , JSXและPythonได้อีกด้วย
| ชุดข้อมูล | # โทเค็น | สัดส่วนภายในการฝึกอบรม |
|---|---|---|
| คลานธรรมดา | 410 พันล้าน | 60% |
| เว็บเท็กซ์2 | 19 พันล้าน | 22% |
| หนังสือ 1 | 12 พันล้าน | 8% |
| หนังสือ2 | 55 พันล้าน | 8% |
| วิกิพีเดีย | 3 พันล้าน | 3% |
เนื่องจากข้อมูลการฝึกอบรมของ GPT-3 ครอบคลุมทุกด้าน จึงไม่จำเป็นต้องฝึกอบรมเพิ่มเติมสำหรับงานภาษาที่แตกต่างกัน ข้อมูลการฝึกอบรมมีภาษาที่เป็นพิษเป็นครั้งคราว และ GPT-3 ก็สร้างภาษาที่เป็นพิษเป็นครั้งคราวอันเป็นผลมาจากการเลียนแบบข้อมูลการฝึกอบรม การศึกษาจากมหาวิทยาลัยวอชิงตันพบว่า GPT-3 สร้างภาษาที่เป็นพิษในระดับความเป็นพิษที่เทียบได้กับโมเดลการประมวลผลภาษาธรรมชาติที่คล้ายกันอย่างGPT-2และ CTRL OpenAI ได้นำกลยุทธ์หลายอย่างมาใช้เพื่อจำกัดปริมาณภาษาที่เป็นพิษที่สร้างโดย GPT-3 ส่งผลให้ GPT-3 สร้างภาษาที่เป็นพิษน้อยลงเมื่อเทียบกับโมเดลรุ่นก่อนหน้า GPT-1 แม้ว่าจะสร้างจำนวนรุ่นและระดับความเป็นพิษของภาษาที่เป็นพิษสูงกว่า CTRL Wiki ซึ่งเป็นโมเดลภาษาที่ฝึกฝนโดยใช้ข้อมูลจาก Wikipedia ทั้งหมดก็ตาม[ 17 ]
เมื่อวันที่ 11 มิถุนายน 2020 OpenAIประกาศว่าผู้ใช้สามารถขอเข้าถึง API GPT-3 ที่ใช้งานง่าย ซึ่งเป็น "ชุดเครื่องมือการเรียนรู้ของเครื่อง" เพื่อช่วยให้ OpenAI "สำรวจจุดแข็งและข้อจำกัด" ของเทคโนโลยีใหม่นี้ [ 18 ] [ 19 ] คำเชิญอธิบายว่า API นี้มีอินเทอร์เฟซ "ป้อนข้อความ ส่งข้อความออก" ที่ใช้งานได้ทั่วไป ซึ่งสามารถทำงานภาษาอังกฤษได้เกือบทุกอย่าง แทนที่จะเป็นกรณีการใช้งานเดียวตามปกติ[ 18 ]ตามคำกล่าวของผู้ใช้รายหนึ่งที่สามารถเข้าถึง API GPT-3 รุ่นทดลองใช้งานแบบส่วนตัวของ OpenAI พบว่า GPT-3 นั้น "ดีอย่างน่าประหลาดใจ" ในการเขียน "ข้อความที่สอดคล้องกันอย่างน่าทึ่ง" ด้วยคำแนะนำง่ายๆ เพียงไม่กี่ข้อ[ 20 ]ในการทดลองเบื้องต้น ผู้เข้าร่วมชาวอเมริกัน 80 คนถูกขอให้ตัดสินว่าบทความสั้นๆ ประมาณ 200 คำนั้นเขียนโดยมนุษย์หรือ GPT-3 ผู้เข้าร่วมตัดสินได้อย่างถูกต้อง 52% ซึ่งดีกว่าการเดาสุ่มเพียงเล็กน้อย[ 1 ]
เมื่อวันที่ 18 พฤศจิกายน 2021 OpenAI ประกาศว่าได้มีการนำมาตรการป้องกันมาใช้เพียงพอแล้ว ทำให้การเข้าถึง API ของตนจะไม่มีข้อจำกัด[ 21 ] OpenAI ได้จัดเตรียมเครื่องมือตรวจสอบเนื้อหาสำหรับนักพัฒนา ซึ่งช่วยให้พวกเขาสามารถปฏิบัติตามนโยบายเนื้อหาของ OpenAI ได้[ 22 ]เมื่อวันที่ 27 มกราคม 2022 OpenAI ประกาศว่าโมเดลภาษา GPT-3 รุ่นใหม่ล่าสุด (เรียกรวมกันว่า InstructGPT) เป็นโมเดลภาษาเริ่มต้นที่ใช้ในAPI ของตนแล้ว ตามที่ OpenAI ระบุ InstructGPT สร้างเนื้อหาที่สอดคล้องกับความตั้งใจของผู้ใช้ได้ดีขึ้น โดยทำตามคำแนะนำได้ดีขึ้น สร้างข้อเท็จจริงที่แต่งขึ้นน้อยลง และสร้างเนื้อหาที่เป็นพิษน้อยลง[ 23 ]
เนื่องจาก GPT-3 สามารถ "สร้างบทความข่าวที่ผู้ประเมินที่เป็นมนุษย์แยกแยะได้ยากจากบทความที่เขียนโดยมนุษย์" [ 12 ] GPT-3 จึงมี "ศักยภาพที่จะพัฒนาทั้งการใช้งานที่เป็นประโยชน์และเป็นอันตรายของแบบจำลองภาษา" [ 1 ] : 34 ในบทความเมื่อวันที่ 28 พฤษภาคม 2020 นักวิจัยได้อธิบายรายละเอียดเกี่ยวกับ "ผลกระทบที่เป็นอันตรายของ GPT-3" [ 12 ]ซึ่งรวมถึง "ข้อมูลที่ผิดพลาดสแปมฟิชชิ่งการละเมิดกระบวนการทางกฎหมายและของรัฐบาล การเขียน เรียงความทางวิชาการที่เป็นการฉ้อโกงและการหลอกลวงทางสังคม" [ 1 ]ผู้เขียนได้ดึงความสนใจไปที่อันตรายเหล่านี้เพื่อเรียกร้องให้มีการวิจัยเกี่ยวกับการลดความเสี่ยง [ 1 ] : 34
GPT-3 สามารถทำการเรียนรู้แบบ zero-shot และ few-shot (รวมถึง one-shot) ได้[ 1 ]
ในเดือนมิถุนายน พ.ศ. 2565 Almira Osmanovic Thunström เขียนว่า GPT-3 เป็นผู้เขียนหลักในบทความเกี่ยวกับตัวเอง โดยได้ส่งบทความดังกล่าวเพื่อตีพิมพ์[ 24 ]และบทความดังกล่าวได้รับการเผยแพร่ล่วงหน้าในระหว่างรอการตรวจสอบให้เสร็จสิ้น[ 25 ]
โมเดล GPT-3
ในตระกูล GPT-3 มีหลายรุ่น แต่ละรุ่นมีวัตถุประสงค์การใช้งานที่แตกต่างกัน ในเอกสารวิจัยฉบับแรกที่เผยแพร่โดย OpenAI ได้กล่าวถึง GPT-3 รุ่นหลักไว้ 8 ขนาดที่แตกต่างกัน (ตารางที่ 2.1):
| ชื่อรุ่น | ขนาดชุด | อัตราการเรียนรู้ | ชื่อ API | |||||
|---|---|---|---|---|---|---|---|---|
| จีพีที-3 ขนาดเล็ก | 125 ม. | 12 | 768 | 12 | 64 | 0.5 ม. | ||
| จีพีที-3 ขนาดกลาง | 350 เมตร | 24 | 1024 | 16 | 64 | 0.5 ม. | อาดา | |
| จีพีที-3 ขนาดใหญ่ | 760 ล้าน | 24 | 1536 | 16 | 96 | 0.5 ม. | ||
| จีพีที-3 เอ็กซ์แอล | 1.3 พันล้าน | 24 | 2048 | 24 | 128 | 1 ล้าน | แบ็บเบจ | |
| จีพีที-3 2.7บี | 2.7 พันล้าน | 32 | 2560 | 32 | 80 | 1 ล้าน | ||
| จีพีที-3 6.7บี | 6.7B | 32 | 4096 | 32 | 128 | 2M | คูรี | |
| จีพีที-3 13บี | 13.0B | 40 | 5140 | 40 | 128 | 2M | ||
| จีพีที-3 175บี | 175.0B | 96 | 12288 | 96 | 128 | 3.2 ล้าน | ดาวินชี |
ครึ่งหนึ่งของโมเดลสามารถเข้าถึงได้ผ่าน API ได้แก่ GPT-3-medium, GPT-3-xl, GPT-3-6.7B และ GPT-3-175b ซึ่งเรียกว่า ada, babbage, curie และ davinci ตามลำดับ แม้ว่าขนาดของโมเดล API จะไม่ได้เปิดเผยโดย OpenAI ในตอนแรก แต่EleutherAIได้ประกาศการจับคู่ระหว่างขนาดของโมเดลและชื่อ API ในเดือนพฤษภาคม 2021 [ 26 ] ขนาดของ โมเดลเหล่านี้ได้รับการยืนยันในภายหลังโดย OpenAI [ 27 ]แต่ขนาดของโมเดลที่ตามมายังไม่ได้รับการเปิดเผย
| แบบอย่าง | พารามิเตอร์ | คำอธิบาย | ชุด |
|---|---|---|---|
| อาดา | 350 ม. | สามารถทำงานพื้นฐานได้ดี มักเป็นรุ่นที่เร็วที่สุดในซีรีส์ GPT-3 และมีราคาต่ำที่สุด | ฐาน GPT-3 |
| แบ็บเบจ แบ็บเบจ-002 | 1.3 บ. | สามารถทำงานที่ไม่ซับซ้อนได้อย่างรวดเร็วและมีต้นทุนต่ำ | ฐาน GPT-3 |
| คูรี | 6.7B | มีประสิทธิภาพสูง แต่เร็วกว่าและต้นทุนต่ำกว่า Davinci | ฐาน GPT-3 |
| ดาวินชี ดาวินชี-002 | 175 บี | รุ่น GPT-3 ที่ทรงประสิทธิภาพที่สุด สามารถทำงานได้ทุกอย่างที่รุ่นอื่นๆ ทำได้ และมักจะได้คุณภาพที่ดีกว่าด้วย | ฐาน GPT-3 |
| ข้อความ-ada-001 | 350 ม. | สามารถทำงานพื้นฐานได้ดี มักเป็นรุ่นที่เร็วที่สุดในซีรีส์ GPT-3 และมีราคาต่ำที่สุด | สอนจีพีที |
| ข้อความ-บับเบจ-001 | 1.3 พันล้าน | สามารถทำงานที่ไม่ซับซ้อนได้อย่างรวดเร็วและมีต้นทุนต่ำ | สอนจีพีที |
| ข้อความ-คิวรี-001 | 6.7B | มีประสิทธิภาพสูง เร็วกว่า และต้นทุนต่ำกว่า Davinci | สอนจีพีที |
| ข้อความ-ดาวินชี-001 | 175บี | เป็นรุ่นเก่ากว่าของรุ่นที่มีประสิทธิภาพสูงสุดในซีรีส์ GPT-3 สามารถทำงานได้ทุกอย่างที่รุ่น GPT-3 อื่นๆ ทำได้ โดยส่วนใหญ่แล้วจะใช้บริบทน้อยกว่าด้วยซ้ำ | สอนจีพีที |
| ข้อความ-ดาวินชี-002 โค้ด-ดาวินชี-002 | ไม่เปิดเผยข้อมูล | มีความสามารถคล้ายคลึงกันtext-davinci-003แต่ได้รับการฝึกฝนด้วยการปรับแต่งอย่างละเอียดภายใต้การกำกับดูแล แทนที่จะใช้การเรียนรู้แบบเสริมแรง | จีพีที-3.5 |
| ข้อความ-ดาวินชี-003 | ไม่เปิดเผยข้อมูล | สามารถทำงานด้านภาษาได้ทุกประเภทด้วยคุณภาพที่ดีกว่า ผลลัพธ์ที่ยาวกว่า และการปฏิบัติตามคำสั่งที่สม่ำเสมอกว่าแบบจำลอง Curie, Babbage หรือ ADA นอกจากนี้ยังรองรับการแทรกคำแนะนำเพิ่มเติมลงในข้อความได้อีกด้วย | จีพีที-3.5 |
| จีพีที-3.5-เทอร์โบ gpt-3.5-turbo-instruct gpt-3.5-turbo-16k | ไม่เปิดเผยข้อมูล | รุ่น GPT-3.5 ที่มีประสิทธิภาพและคุ้มค่าที่สุด (เร็วที่สุด) และได้รับการปรับแต่งมาเพื่อการแชทโดยเฉพาะ ในราคาเพียง 1/10 ของรุ่นtext-davinci-003อื่น | จีพีที-3.5 |
จีพีที-3.5
| โมเดล Transformer 3.5 ที่ผ่านการฝึกฝนล่วงหน้าแบบสร้างสรรค์ (GPT-3.5) | |
|---|---|
| ผู้เขียนต้นฉบับ | OpenAI [ 1 ] |
| ปล่อย | 15 มีนาคม 2565 |
| รุ่นทดลองใช้งาน | gpt-3.5-turbo-0125 / 25 มกราคม 2024 |
| ผู้มาก่อน | จีพีที-3 |
| ผู้สืบทอด | GPT-4 GPT-4o มินิ |
| พิมพ์ | |
| ใบอนุญาต | กรรมสิทธิ์ |
| เว็บไซต์ | ไม่มีข้อมูล |
| ที่เก็บข้อมูล | ไม่มีข้อมูล |
Generative Pre-trained Transformer 3.5 ( GPT-3.5 ) เป็นคลาสย่อยของโมเดล GPT-3 ที่สร้างโดยOpenAIในปี 2022
เมื่อวันที่ 15 มีนาคม 2022 OpenAI ได้เปิดให้ใช้งาน GPT-3 และCodex เวอร์ชันใหม่ ใน API พร้อมความสามารถในการแก้ไขและแทรกภายใต้ชื่อ "text-davinci-002" และ "code-davinci-002" [ 28 ]โมเดลเหล่านี้ได้รับการอธิบายว่ามีความสามารถมากกว่าเวอร์ชันก่อนหน้าและได้รับการฝึกฝนด้วยข้อมูลจนถึงเดือนมิถุนายน 2021 [ 29 ]เมื่อวันที่ 28 พฤศจิกายน 2022 OpenAI ได้เปิดตัว text-davinci-003 [ 30 ]เมื่อวันที่ 30 พฤศจิกายน 2022 OpenAI เริ่มอ้างถึงโมเดลเหล่านี้ว่าเป็นของซีรี่ส์ "GPT-3.5" [ 29 ]และเปิดตัวChatGPTซึ่งได้รับการปรับแต่งจากโมเดลในซีรี่ส์ GPT-3.5 [ 31 ] OpenAI ไม่ได้รวม GPT-3.5 ไว้ใน GPT-3 [ 32 ]
นางแบบ
มีโมเดลสามแบบ: [ 33 ]
- แชท
- จีพีที-3.5-เทอร์โบ
- การเติมข้อความอัตโนมัติ
- ข้อความ-ดาวินชี-003
- ข้อความ-ดาวินชี-002
GPT-3.5 พร้อมระบบเรียกดูข้อมูล
เมื่อวันที่ 10 เมษายน 2566 OpenAIได้เปิดตัวโมเดล GPT-3.5 รุ่นใหม่ที่เรียกว่า GPT-3.5 with Browsing (ALPHA) โมเดลที่ได้รับการปรับปรุงนี้ได้รับการอธิบายว่าสร้างขึ้นจากความสามารถของรุ่นก่อนหน้าคือ "text-davinci-002" และ "code-davinci-002" [ 34 ]โมเดล GPT-3.5 with Browsing (ALPHA) ได้รวมความสามารถในการเข้าถึงและเรียกดูข้อมูลออนไลน์ ซึ่งส่งผลให้การตอบคำถามของผู้ใช้มีความแม่นยำและทันสมัยมากขึ้น
โมเดล GPT-3.5 with Browsing (ALPHA) ได้รับการฝึกฝนด้วยข้อมูลจนถึงเดือนกันยายน 2021 ทำให้มีข้อมูลมากกว่าโมเดล GPT-3.5 รุ่นก่อนหน้า ซึ่งได้รับการฝึกฝนด้วยข้อมูลจนถึงเดือนมิถุนายน 2021 โมเดลนี้พยายามมอบเครื่องมือประมวลผลภาษาธรรมชาติขั้นสูงให้แก่นักพัฒนาและผู้ใช้ ซึ่งสามารถดึงและสังเคราะห์ข้อมูลออนไลน์ได้อย่างมีประสิทธิภาพ
เพื่อเปิดใช้งานความสามารถในการเรียกดู OpenAI ได้นำAPI ใหม่มาใช้ ซึ่งอนุญาตให้โมเดล GPT-3.5 ที่มีการเรียกดู (ALPHA) สามารถเข้าถึงแหล่งข้อมูลออนไลน์ที่เลือกไว้ในระหว่างการทำงาน[ 35 ]คุณสมบัตินี้ช่วยให้ผู้ใช้สามารถถามคำถามหรือขอข้อมูลโดยคาดหวังว่าโมเดลจะให้คำตอบที่อัปเดต ถูกต้อง และเกี่ยวข้องตามแหล่งข้อมูลออนไลน์ล่าสุดที่มีอยู่
เมื่อวันที่ 27 เมษายน 2566 OpenAI ได้เปิดให้ใช้งานโมเดล GPT-3.5 พร้อมการเรียกดู (ALPHA) แก่ผู้ใช้ GPT Plus ซึ่งทำให้ผู้คนจำนวนมากขึ้นสามารถเข้าถึงคุณสมบัติใหม่ได้[ 35 ]
สอนจีพีที
InstructGPT เป็นเวอร์ชันที่ปรับแต่งแล้วของ GPT-3.5 ซึ่งได้รับการฝึกฝนบนชุดข้อมูลคำแนะนำที่เขียนโดยมนุษย์[ 36 ]
แผนกต้อนรับ
แอปพลิเคชัน
- GPT-3 โดยเฉพาะโมเดล Codexเป็นพื้นฐานสำหรับGitHub Copilotซึ่งเป็นซอฟต์แวร์เติมโค้ดและสร้างโค้ดที่สามารถใช้ในโปรแกรมแก้ไขโค้ดและ IDE ต่างๆ ได้[ 37 ] [ 38 ]
- GPT-3 ถูกใช้ใน ผลิตภัณฑ์ ของ Microsoft บางอย่าง เพื่อแปลงภาษาทั่วไปให้เป็นรหัสคอมพิวเตอร์ที่เป็นทางการ[ 39 ] [ 40 ]
- GPT-3 ถูกใช้ใน CodexDB [ 41 ]เพื่อสร้างโค้ดเฉพาะแบบสอบถามสำหรับการประมวลผลSQL
- GPT-3 ถูกใช้โดยJason Rohrerในโครงการแชทบอทธีมย้อนยุคชื่อ "Project December" ซึ่งสามารถเข้าถึงได้ทางออนไลน์และอนุญาตให้ผู้ใช้สนทนากับ AI หลายตัวโดยใช้เทคโนโลยี GPT-3 [ 42 ]
- GPT-3 ถูกใช้โดยThe Guardianเพื่อเขียนบทความเกี่ยวกับ AI ที่ไม่เป็นอันตรายต่อมนุษย์ โดยป้อนแนวคิดบางอย่างเข้าไปและสร้างบทความที่แตกต่างกันแปดบทความ ซึ่งในที่สุดก็ถูกรวมเข้าเป็นบทความเดียว[ 43 ]
- GPT-3 ถูกใช้ในAI Dungeonซึ่งสร้างเกมผจญภัยแบบข้อความ ต่อมาถูกแทนที่ด้วยโมเดลคู่แข่งหลังจากที่ OpenAI เปลี่ยนนโยบายเกี่ยวกับเนื้อหาที่สร้างขึ้น[ 44 ] [ 45 ]
- GPT-3 ใช้เพื่อช่วยในการเขียนเนื้อหาและสื่อการตลาดอื่นๆ[ 46 ]
- การศึกษาในปี 2022 จากมหาวิทยาลัยเดร็กเซลแนะนำว่าระบบที่ใช้ GPT-3 สามารถใช้คัดกรองสัญญาณเริ่มต้นของโรคอัลไซเมอร์ได้[ 47 ] [ 48 ]
รีวิว
- ในบทวิจารณ์ในThe New York Times เดือนกรกฎาคม 2020 Farhad Manjooกล่าวว่าความสามารถของ GPT-3 ในการสร้างรหัสคอมพิวเตอร์ บทกวี และร้อยแก้วนั้นไม่เพียงแต่ "น่าทึ่ง" "น่าขนลุก" และ "น่าเกรงขาม" เท่านั้น แต่ยัง "น่ากลัวมาก" อีกด้วย[ 49 ]
- Daily Nousนำเสนอชุดบทความโดยนักปรัชญาเก้าคนเกี่ยวกับ GPT-3 [ 50 ]เดวิด ชาลเมอร์ส นักปรัชญาชาวออสเตรเลียอธิบาย GPT-3 ว่าเป็น "หนึ่งในระบบ AI ที่น่าสนใจและสำคัญที่สุดเท่าที่เคยมีมา" [ 51 ]
- บทวิจารณ์ในWiredระบุว่า GPT-3 "กำลังสร้างความหวาดหวั่นไปทั่วซิลิคอนแวลลีย์ " [ 52 ]
- National Law Reviewกล่าวว่า GPT-3 เป็น "ก้าวที่น่าประทับใจในกระบวนการที่ใหญ่กว่า" โดย OpenAI และบริษัทอื่นๆ พบว่า "แอปพลิเคชันที่มีประโยชน์สำหรับพลังทั้งหมดนี้" ในขณะที่ยังคง "ทำงานเพื่อมุ่งสู่ปัญญาทั่วไป มากขึ้น " [ 53 ]
- บทความในMIT Technology Reviewซึ่งเขียนร่วมโดยGary Marcus นักวิจารณ์การเรียนรู้เชิงลึก [ 54 ]ระบุว่า "ความเข้าใจโลกของ GPT-3 มักจะผิดพลาดอย่างร้ายแรง ซึ่งหมายความว่าคุณไม่สามารถเชื่อถือสิ่งที่มันพูดได้จริง ๆ" [ 55 ] ตามที่ผู้เขียนระบุ GPT-3 จำลองความสัมพันธ์ระหว่างคำโดยไม่เข้าใจความหมายเบื้องหลังแต่ละคำ
- Jerome Pesenti หัวหน้าห้องปฏิบัติการ AI ของ Facebook กล่าวว่า GPT-3 นั้น "ไม่ปลอดภัย" โดยชี้ให้เห็นถึง ภาษาที่ เหยียดเพศเหยียดเชื้อชาติและอคติเชิงลบอื่นๆ ที่ระบบสร้างขึ้นเมื่อถูกขอให้พูดคุยเกี่ยวกับชาวยิว ผู้หญิง คนผิวดำ และเหตุการณ์ฆ่าล้างเผ่าพันธุ์[ 56 ]
- Nabla บริษัทสตาร์ทอัพสัญชาติฝรั่งเศสที่เชี่ยวชาญด้านเทคโนโลยีการดูแลสุขภาพ ได้ทดสอบ GPT-3 ในฐานะแชทบอท ทางการแพทย์ แม้ว่า OpenAI เองจะเตือนไม่ให้ใช้ในลักษณะดังกล่าวก็ตาม ตามที่คาดไว้ GPT-3 แสดงให้เห็นข้อจำกัดหลายประการ ตัวอย่างเช่น ในระหว่างการทดสอบการตอบสนองของ GPT-3 เกี่ยวกับปัญหาสุขภาพจิต AI ได้แนะนำผู้ป่วยจำลองให้ฆ่าตัวตาย[ 57 ]
- โนอัม ชอมสกีแสดงความสงสัยเกี่ยวกับคุณค่าทางวิทยาศาสตร์ของ GPT-3 โดยกล่าวว่า "มันไม่ใช่แบบจำลองภาษา มันใช้ได้ผลดีกับภาษาที่เป็นไปไม่ได้เช่นเดียวกับภาษาจริง ดังนั้น หากตั้งใจให้เป็นแบบจำลองภาษา มันจึงถูกหักล้างด้วยเกณฑ์ทางวิทยาศาสตร์ปกติ [...] บางทีมันอาจมีประโยชน์สำหรับบางวัตถุประสงค์ แต่ดูเหมือนว่าจะไม่ได้บอกอะไรเราเกี่ยวกับภาษาหรือการรับรู้โดยทั่วไปเลย" [ 58 ]
- Luciano FloridiและMassimo Chiriattiเน้นย้ำถึงความเสี่ยงของ "การผลิตสิ่งประดิษฐ์เชิงความหมายที่ดีในราคาถูก" [ 59 ]
- Sam Altman จาก OpenAI เองก็วิจารณ์สิ่งที่เขาเรียกว่า "การโฆษณาเกินจริงของ GPT-3" โดยยอมรับว่า GPT-3 "มีจุดอ่อนร้ายแรงและบางครั้งก็ทำผิดพลาดอย่างน่าขัน... AI จะเปลี่ยนโลก แต่ GPT-3 เป็นเพียงแค่การเริ่มต้นเท่านั้น" [ 60 ]
การวิจารณ์
OpenAIผู้สร้าง GPT-3 ก่อตั้งขึ้นครั้งแรกในฐานะองค์กรไม่แสวงหาผลกำไรในปี 2015 [ 61 ]ในปี 2019 OpenAI ได้ละทิ้งมาตรฐานโอเพนซอร์สตามปกติโดยไม่เปิดเผยGPT-2ซึ่งเป็นโมเดลรุ่นก่อนหน้าของ GPT-3 ต่อสาธารณะ โดยอ้างถึงความกังวลว่าโมเดลดังกล่าวอาจอำนวยความสะดวกในการเผยแพร่ข่าวปลอม ในที่สุด OpenAI ก็ได้ปล่อยเวอร์ชันที่มีขนาดเพียง 8% ของโมเดลเดิม[ 62 ]ในปีเดียวกันนั้น OpenAI ได้ปรับโครงสร้างใหม่ให้เป็นบริษัทแสวงหาผลกำไร[ 63 ]ในปี 2020 Microsoft ได้ประกาศว่าบริษัทได้รับสิทธิ์การใช้งาน GPT-3 แต่เพียงผู้เดียวสำหรับผลิตภัณฑ์และบริการของ Microsoft หลังจากการลงทุนหลายพันล้านดอลลาร์ใน OpenAI ข้อตกลงนี้อนุญาตให้ OpenAI นำเสนอ API ที่เปิดเผยต่อสาธารณะเพื่อให้ผู้ใช้สามารถส่งข้อความไปยัง GPT-3 เพื่อรับผลลัพธ์ของโมเดลได้ แต่มีเพียง Microsoft เท่านั้นที่จะสามารถเข้าถึงซอร์สโค้ดของ GPT-3 ได้[ 5 ]
โมเดลภาษาขนาดใหญ่ เช่น GPT-3 ได้รับการวิพากษ์วิจารณ์จากนักวิจัยด้านจริยธรรม AI ของ Google บางส่วนเกี่ยวกับผลกระทบต่อสิ่งแวดล้อมจากการฝึกอบรมและการจัดเก็บโมเดล ซึ่งมีรายละเอียดอยู่ในเอกสารที่เขียนร่วมกันโดยTimnit GebruและEmily M. Benderในปี 2021 [ 64 ]
การใช้งานเทคโนโลยีการเขียนอัตโนมัติที่เพิ่มมากขึ้นโดยอิงจาก GPT-3 และตัวสร้างภาษาอื่นๆ ได้ก่อให้เกิดความกังวลเกี่ยวกับความซื่อสัตย์ทางวิชาการ[ 65 ]และเพิ่มความเสี่ยงว่ามหาวิทยาลัยและโรงเรียนจะประเมินว่าสิ่งใดถือเป็นการประพฤติมิชอบทางวิชาการ เช่น การลอกเลียนแบบ[ 66 ]
ซีรีส์ GPT ของ OpenAI สร้างขึ้นโดยใช้ข้อมูลจาก ชุดข้อมูล Common Crawlซึ่งเป็นการรวบรวมบทความที่มีลิขสิทธิ์ โพสต์บนอินเทอร์เน็ต หน้าเว็บ และหนังสือที่รวบรวมจากโดเมนกว่า 60 ล้านโดเมนในช่วงระยะเวลา 12 ปีTechCrunchรายงานว่าข้อมูลการฝึกอบรมนี้รวมถึงเนื้อหาที่มีลิขสิทธิ์จาก BBC, The New York Times , Reddit , ข้อความเต็มของหนังสือออนไลน์ และอื่นๆ[ 67 ]ในการตอบสนองต่อคำขอความคิดเห็นเกี่ยวกับการคุ้มครองทรัพย์สินทางปัญญาสำหรับนวัตกรรมปัญญาประดิษฐ์จากสำนักงานสิทธิบัตรและเครื่องหมายการค้าแห่งสหรัฐอเมริกา (USPTO) ในปี 2019 OpenAI โต้แย้งว่า "ภายใต้กฎหมายปัจจุบัน การฝึกอบรมระบบ AI [เช่นโมเดล GPT ของตน] ถือเป็นการใช้งานที่เป็นธรรม " แต่ "เนื่องจากขาดกฎหมายคดีในประเด็นนี้ OpenAI และนักพัฒนา AI อื่นๆ เช่นเราต้องเผชิญกับความไม่แน่นอนทางกฎหมายและต้นทุนการปฏิบัติตามกฎหมายจำนวนมาก" [ 68 ]
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ จีพีที-3
Generative Pre-trained Transformer 3 ( GPT-3 ) เป็น โมเดลภาษาขนาดใหญ่ ที่ OpenAI เปิดตัวในปี 2020
พื้นหลัง
จากข้อมูลของ The Economist อัลกอริทึมที่ได้รับการปรับปรุง คอมพิวเตอร์ที่มีประสิทธิภาพมากขึ้น และปริมาณข้อมูลดิจิทัลที่เพิ่มขึ้นเมื่อเร็ว ๆ นี้ได้กระตุ้นให้เกิดการปฏิวัติในด้าน การเรียนรู้ของเครื่องจักร เทคนิคใหม่ ๆ ในช่วงทศวรรษ 2010 ส่งผลให้เกิด...
การฝึกอบรมและความสามารถ
แนวคิดเรื่อง "รูปแบบการเรียนรู้" นั้นมีปัญหา เพราะมันไม่ได้คำนึงถึงกระบวนการที่ทำให้เกิดรูปแบบการเรียนรู้ขึ้นมา นักเรียนบางคนอาจพัฒนารูปแบบการเรียนรู้แบบใดแบบหนึ่งขึ้นมาเนื่องจากมีประสบการณ์เฉพาะบางอย่าง...
โมเดล GPT-3
ในตระกูล GPT-3 มีหลายรุ่น แต่ละรุ่นมีวัตถุประสงค์การใช้งานที่แตกต่างกัน ในเอกสารวิจัยฉบับแรกที่เผยแพร่โดย OpenAI ได้กล่าวถึง GPT-3 รุ่นหลักไว้ 8 ขนาดที่แตกต่างกัน (ตารางที่ 2.1):