กลับไปหน้าบทความ

อ่าน 15 นาที

จีพีที-3

Generative Pre-trained Transformer 3 ( GPT-3 ) เป็น โมเดลภาษาขนาดใหญ่ ที่ OpenAI เปิดตัวในปี 2020

จีพีที-3

Generative Pre-trained Transformer 3 (GPT-3)
ผู้เขียนต้นฉบับOpenAI [ 1 ]
ปล่อย29 พฤษภาคม 2020 (เผยแพร่); 11 มิถุนายน 2020 (OA API รุ่นเบต้า)
ผู้มาก่อนจีพีที-2
ผู้สืบทอดจีพีที-3.5 จีพีที-4
พิมพ์
ใบอนุญาตกรรมสิทธิ์
เว็บไซต์openai.com/blog/openai-api
ที่เก็บข้อมูล
  • github.com/openai/gpt-3

Generative Pre-trained Transformer 3 ( GPT-3 ) เป็นโมเดลภาษาขนาดใหญ่ ที่ OpenAIเปิดตัวในปี 2020

เช่นเดียวกับ GPT-2รุ่นก่อนหน้า GPT-3 เป็นโมเดลทรานส์ฟอร์เมอร์แบบ ถอดรหัสอย่างเดียว [ 2 ] ของโครงข่ายประสาทเทียมเชิงลึก ซึ่งแทนที่สถาปัตยกรรมแบบวนซ้ำและการแปลงด้วยเทคนิคที่เรียกว่า " ความสนใจ " [ 3 ]กลไกความสนใจนี้ช่วยให้โมเดลสามารถโฟกัสเฉพาะส่วนของข้อความอินพุตที่คาดการณ์ว่ามีความเกี่ยวข้องมากที่สุด[ 4 ] GPT-3 มีพารามิเตอร์ 175 พันล้าน ตัว[ 1 ]แต่ละตัวมีความแม่นยำ 16 บิต ต้องใช้พื้นที่จัดเก็บ 350GB เนื่องจากแต่ละพารามิเตอร์ใช้พื้นที่ 2 ไบต์ มี ขนาด หน้าต่างบริบท 2,048 โทเค็น [ 1 ] : 43 และแสดงให้เห็นถึงความสามารถในการเรียนรู้แบบ " zero-shot " และ " few-shot " ที่แข็งแกร่งในหลายงาน[ 2 ]

เมื่อวันที่ 22 กันยายน 2020 ไมโครซอฟต์ประกาศว่าได้อนุญาตให้ใช้ GPT-3 แต่เพียงผู้เดียว ผู้อื่นยังคงสามารถรับเอาต์พุตจาก API สาธารณะได้ แต่มีเพียงไมโครซอฟต์เท่านั้นที่สามารถเข้าถึงโมเดลพื้นฐานได้[ 5 ]

พื้นหลัง

จากข้อมูลของThe Economistอัลกอริทึมที่ได้รับการปรับปรุง คอมพิวเตอร์ที่มีประสิทธิภาพมากขึ้น และปริมาณข้อมูลดิจิทัลที่เพิ่มขึ้นเมื่อเร็ว ๆ นี้ได้กระตุ้นให้เกิดการปฏิวัติในด้านการเรียนรู้ของเครื่องจักรเทคนิคใหม่ ๆ ในช่วงทศวรรษ 2010 ส่งผลให้เกิด "การปรับปรุงอย่างรวดเร็วในงานต่าง ๆ" รวมถึงการจัดการภาษา[ 6 ]

โมเดลซอฟต์แวร์ได้รับการฝึกฝนให้เรียนรู้โดยใช้ตัวอย่างหลายพันหรือหลายล้านตัวอย่างใน "โครงสร้าง ... ที่อิงตามสถาปัตยกรรมประสาทของสมองอย่างหลวมๆ" [ 6 ]สถาปัตยกรรมหนึ่งที่ใช้ในการประมวลผลภาษาธรรมชาติ (NLP) คือเครือข่ายประสาทเทียมที่อิงตาม โมเดล การเรียนรู้เชิงลึกซึ่งเปิดตัวในปี 2017 นั่น คือ สถาปัตยกรรมทรานส์ฟอร์เมอร์[ 7 ]มีระบบ NLP จำนวนมากที่สามารถประมวลผล ขุดค้น จัดระเบียบ เชื่อมต่อ และเปรียบเทียบข้อมูลป้อนเข้าที่เป็นข้อความ ตลอดจนตอบคำถามได้อย่างถูกต้อง[ 8 ]

เมื่อวันที่ 11 มิถุนายน 2561 นักวิจัยและวิศวกรของ OpenAI ได้ตีพิมพ์บทความแนะนำโมเดล Transformer แบบฝึกฝนล่วงหน้า (GPT) ตัวแรก ซึ่งเป็นโมเดลภาษาขนาดใหญ่แบบ สร้างข้อมูล ( generative large language model) ที่ได้รับการฝึกฝนล่วงหน้าด้วยชุดข้อมูลข้อความขนาดใหญ่และหลากหลายจากนั้นจึงทำการปรับแต่งอย่างละเอียดเพื่อเน้นไปที่งานเฉพาะ โมเดล GPT เป็นสถาปัตยกรรมเครือข่ายประสาทเทียมแบบเรียนรู้เชิงลึกที่ใช้ Transformer ก่อนหน้านี้ โมเดล NLP แบบโครงข่ายประสาทเทียมที่มีประสิทธิภาพดีที่สุดมักใช้การเรียนรู้แบบมีผู้กำกับดูแลจากข้อมูลจำนวนมากที่ติดป้ายกำกับด้วยตนเอง ซึ่งทำให้การฝึกฝนโมเดลภาษาขนาดใหญ่มาก ๆ นั้นมีค่าใช้จ่ายสูงและใช้เวลานานมาก[ 2 ]โมเดล GPT ตัวแรกเรียกว่าGPT-1และตามมาด้วยGPT-2ในเดือนกุมภาพันธ์ 2019 GPT-2 ถูกสร้างขึ้นโดยการขยายขนาดโดยตรงจากรุ่นก่อนหน้า โดยมีจำนวนพารามิเตอร์และขนาดชุดข้อมูลเพิ่มขึ้นเป็น 10 เท่า มีพารามิเตอร์ 1.5 พันล้านตัว และได้รับการฝึกฝนบนชุดข้อมูลเว็บเพจ 8 ล้านหน้า[ 9 ]

ในเดือนกุมภาพันธ์ พ.ศ. 2563 ไมโครซอฟต์ได้เปิดตัว Turing Natural Language Generation (T-NLG) ซึ่งพวกเขาอ้างว่าเป็น "โมเดลภาษาที่ใหญ่ที่สุดเท่าที่เคยมีการเผยแพร่มา โดยมีพารามิเตอร์ถึง 17 พันล้านตัว" [ 10 ]โดยมีประสิทธิภาพดีกว่าโมเดลภาษาอื่นๆ ในงานต่างๆ รวมถึงการสรุปข้อความและการ ตอบคำถาม

การฝึกอบรมและความสามารถ

ตัวอย่างเรียงความของนักเรียนเกี่ยวกับหลักการสอนเขียนโดยนักเรียนในหลักสูตร GPT-3

แนวคิดเรื่อง "รูปแบบการเรียนรู้" นั้นมีปัญหา เพราะมันไม่ได้คำนึงถึงกระบวนการที่ทำให้เกิดรูปแบบการเรียนรู้ขึ้นมา นักเรียนบางคนอาจพัฒนารูปแบบการเรียนรู้แบบใดแบบหนึ่งขึ้นมาเนื่องจากมีประสบการณ์เฉพาะบางอย่าง ในขณะที่บางคนอาจพัฒนารูปแบบการเรียนรู้แบบใดแบบหนึ่งขึ้นมาจากการพยายามปรับตัวให้เข้ากับสภาพแวดล้อมการเรียนรู้ที่ไม่เหมาะสมกับความต้องการในการเรียนรู้ของตนเอง ท้ายที่สุดแล้ว เราจำเป็นต้องเข้าใจปฏิสัมพันธ์ระหว่างรูปแบบการเรียนรู้ ปัจจัยด้านสิ่งแวดล้อม และปัจจัยส่วนบุคคล และว่าสิ่งเหล่านี้หล่อหลอมวิธีการเรียนรู้และประเภทของการเรียนรู้ที่เราได้รับอย่างไร

— ข้อความที่สร้างโดยMike Sharples [ 11 ]

เมื่อวันที่ 28 พฤษภาคม 2020 เอกสารพรีพรินต์ arXivโดยกลุ่มวิศวกรและนักวิจัย 31 คนจาก OpenAI ได้อธิบายถึงความสำเร็จและการพัฒนา GPT-3 ซึ่งเป็น "แบบจำลองภาษาที่ทันสมัยที่สุด" รุ่นที่สาม[ 1 ] [ 12 ]ทีมงานได้เพิ่มความจุของ GPT-3 มากกว่าสองเท่าเมื่อเทียบกับ GPT-2 รุ่นก่อนหน้า[ 13 ]ทำให้ GPT-3 เป็นแบบจำลองภาษาที่ไม่ใช่แบบสปาร์สที่ใหญ่ที่สุดในขณะนั้น[ 1 ] : 14 [ 14 ]เนื่องจากโครงสร้างของ GPT-3 คล้ายกับรุ่นก่อนหน้า[ 1 ]ความแม่นยำที่มากขึ้นจึงเกิดจากความจุที่เพิ่มขึ้นและจำนวนพารามิเตอร์ที่มากขึ้น[ 15 ]ความจุของ GPT-3 ใหญ่กว่า Turing NLG ของ Microsoft ซึ่งเป็นแบบจำลอง NLP ที่ใหญ่ที่สุดถัดไปที่รู้จักในขณะนั้นถึงสิบเท่า[ 12 ]

Lambdalabs ประเมินต้นทุนสมมติฐานที่ประมาณ 4.6 ล้านดอลลาร์สหรัฐและ 355 ปีในการฝึก GPT-3 บนGPU ตัวเดียว ในปี 2020 [ 16 ]โดยมีเวลาฝึกจริงที่น้อยลงหากใช้ GPU หลายตัวแบบขนานกัน

ร้อยละหกสิบของชุดข้อมูลก่อนการฝึกแบบถ่วงน้ำหนักสำหรับ GPT-3 มาจากเวอร์ชันที่กรองแล้วของCommon Crawlซึ่งประกอบด้วย โทเค็น ที่เข้ารหัสแบบไบต์คู่ จำนวน 410 พันล้าน โทเค็น การลบข้อมูลซ้ำแบบฟัซซีใช้MinHash LSH ของApache Spark [ 1 ] : 9 แหล่งข้อมูลอื่นๆ ได้แก่ โทเค็นจำนวน 19 พันล้านโทเค็นจาก WebText2 คิดเป็นร้อยละ 22 ของข้อมูลถ่วงน้ำหนักทั้งหมด โทเค็นจำนวน 12 พันล้านโทเค็นจาก Books1 คิดเป็นร้อยละ 8 โทเค็นจำนวน 55 พันล้านโทเค็นจาก Books2 คิดเป็นร้อยละ 8 และโทเค็นจำนวน 3 พันล้านโทเค็นจาก Wikipedia คิดเป็นร้อยละ 3 [ 1 ] : 9 GPT-3 ได้รับการฝึกฝนด้วยคำศัพท์หลายแสนล้านคำ และยังสามารถเขียนโค้ดในCSS , JSXและPythonได้อีกด้วย

ข้อมูลการฝึกอบรม GPT-3 [ 1 ] : 9
ชุดข้อมูล # โทเค็น สัดส่วนภายในการฝึกอบรม
คลานธรรมดา410 พันล้าน 60%
เว็บเท็กซ์2 19 พันล้าน 22%
หนังสือ 1 12 พันล้าน 8%
หนังสือ2 55 พันล้าน 8%
วิกิพีเดีย 3 พันล้าน 3%

เนื่องจากข้อมูลการฝึกอบรมของ GPT-3 ครอบคลุมทุกด้าน จึงไม่จำเป็นต้องฝึกอบรมเพิ่มเติมสำหรับงานภาษาที่แตกต่างกัน ข้อมูลการฝึกอบรมมีภาษาที่เป็นพิษเป็นครั้งคราว และ GPT-3 ก็สร้างภาษาที่เป็นพิษเป็นครั้งคราวอันเป็นผลมาจากการเลียนแบบข้อมูลการฝึกอบรม การศึกษาจากมหาวิทยาลัยวอชิงตันพบว่า GPT-3 สร้างภาษาที่เป็นพิษในระดับความเป็นพิษที่เทียบได้กับโมเดลการประมวลผลภาษาธรรมชาติที่คล้ายกันอย่างGPT-2และ CTRL OpenAI ได้นำกลยุทธ์หลายอย่างมาใช้เพื่อจำกัดปริมาณภาษาที่เป็นพิษที่สร้างโดย GPT-3 ส่งผลให้ GPT-3 สร้างภาษาที่เป็นพิษน้อยลงเมื่อเทียบกับโมเดลรุ่นก่อนหน้า GPT-1 แม้ว่าจะสร้างจำนวนรุ่นและระดับความเป็นพิษของภาษาที่เป็นพิษสูงกว่า CTRL Wiki ซึ่งเป็นโมเดลภาษาที่ฝึกฝนโดยใช้ข้อมูลจาก Wikipedia ทั้งหมดก็ตาม[ 17 ]

เมื่อวันที่ 11 มิถุนายน 2020 OpenAIประกาศว่าผู้ใช้สามารถขอเข้าถึง API GPT-3 ที่ใช้งานง่าย ซึ่งเป็น "ชุดเครื่องมือการเรียนรู้ของเครื่อง" เพื่อช่วยให้ OpenAI "สำรวจจุดแข็งและข้อจำกัด" ของเทคโนโลยีใหม่นี้ [ 18 ] [ 19 ] คำเชิญอธิบายว่า API นี้มีอินเทอร์เฟซ "ป้อนข้อความ ส่งข้อความออก" ที่ใช้งานได้ทั่วไป ซึ่งสามารถทำงานภาษาอังกฤษได้เกือบทุกอย่าง แทนที่จะเป็นกรณีการใช้งานเดียวตามปกติ[ 18 ]ตามคำกล่าวของผู้ใช้รายหนึ่งที่สามารถเข้าถึง API GPT-3 รุ่นทดลองใช้งานแบบส่วนตัวของ OpenAI พบว่า GPT-3 นั้น "ดีอย่างน่าประหลาดใจ" ในการเขียน "ข้อความที่สอดคล้องกันอย่างน่าทึ่ง" ด้วยคำแนะนำง่ายๆ เพียงไม่กี่ข้อ[ 20 ]ในการทดลองเบื้องต้น ผู้เข้าร่วมชาวอเมริกัน 80 คนถูกขอให้ตัดสินว่าบทความสั้นๆ ประมาณ 200 คำนั้นเขียนโดยมนุษย์หรือ GPT-3 ผู้เข้าร่วมตัดสินได้อย่างถูกต้อง 52% ซึ่งดีกว่าการเดาสุ่มเพียงเล็กน้อย[ 1 ]

เมื่อวันที่ 18 พฤศจิกายน 2021 OpenAI ประกาศว่าได้มีการนำมาตรการป้องกันมาใช้เพียงพอแล้ว ทำให้การเข้าถึง API ของตนจะไม่มีข้อจำกัด[ 21 ] OpenAI ได้จัดเตรียมเครื่องมือตรวจสอบเนื้อหาสำหรับนักพัฒนา ซึ่งช่วยให้พวกเขาสามารถปฏิบัติตามนโยบายเนื้อหาของ OpenAI ได้[ 22 ]เมื่อวันที่ 27 มกราคม 2022 OpenAI ประกาศว่าโมเดลภาษา GPT-3 รุ่นใหม่ล่าสุด (เรียกรวมกันว่า InstructGPT) เป็นโมเดลภาษาเริ่มต้นที่ใช้ในAPI ของตนแล้ว ตามที่ OpenAI ระบุ InstructGPT สร้างเนื้อหาที่สอดคล้องกับความตั้งใจของผู้ใช้ได้ดีขึ้น โดยทำตามคำแนะนำได้ดีขึ้น สร้างข้อเท็จจริงที่แต่งขึ้นน้อยลง และสร้างเนื้อหาที่เป็นพิษน้อยลง[ 23 ]

เนื่องจาก GPT-3 สามารถ "สร้างบทความข่าวที่ผู้ประเมินที่เป็นมนุษย์แยกแยะได้ยากจากบทความที่เขียนโดยมนุษย์" [ 12 ] GPT-3 จึงมี "ศักยภาพที่จะพัฒนาทั้งการใช้งานที่เป็นประโยชน์และเป็นอันตรายของแบบจำลองภาษา" [ 1 ] : 34 ในบทความเมื่อวันที่ 28 พฤษภาคม 2020 นักวิจัยได้อธิบายรายละเอียดเกี่ยวกับ "ผลกระทบที่เป็นอันตรายของ GPT-3" [ 12 ]ซึ่งรวมถึง "ข้อมูลที่ผิดพลาดสแปมฟิชิ่งการละเมิดกระบวนการทางกฎหมายและของรัฐบาล การเขียน เรียงความทางวิชาการที่เป็นการฉ้อโกงและการหลอกลวงทางสังคม" [ 1 ]ผู้เขียนได้ดึงความสนใจไปที่อันตรายเหล่านี้เพื่อเรียกร้องให้มีการวิจัยเกี่ยวกับการลดความเสี่ยง [ 1 ] : 34

GPT-3 สามารถทำการเรียนรู้แบบ zero-shot และ few-shot (รวมถึง one-shot) ได้[ 1 ]

ในเดือนมิถุนายน พ.ศ. 2565 Almira Osmanovic Thunström เขียนว่า GPT-3 เป็นผู้เขียนหลักในบทความเกี่ยวกับตัวเอง โดยได้ส่งบทความดังกล่าวเพื่อตีพิมพ์[ 24 ]และบทความดังกล่าวได้รับการเผยแพร่ล่วงหน้าในระหว่างรอการตรวจสอบให้เสร็จสิ้น[ 25 ]

โมเดล GPT-3

ในตระกูล GPT-3 มีหลายรุ่น แต่ละรุ่นมีวัตถุประสงค์การใช้งานที่แตกต่างกัน ในเอกสารวิจัยฉบับแรกที่เผยแพร่โดย OpenAI ได้กล่าวถึง GPT-3 รุ่นหลักไว้ 8 ขนาดที่แตกต่างกัน (ตารางที่ 2.1):

คุณสมบัติของ GPT-3
ชื่อรุ่นขนาดชุดอัตราการเรียนรู้ ชื่อ API
จีพีที-3 ขนาดเล็ก125 ม.1276812640.5 ม.
จีพีที-3 ขนาดกลาง350 เมตร24102416640.5 ม.อาดา
จีพีที-3 ขนาดใหญ่760 ล้าน24153616960.5 ม.
จีพีที-3 เอ็กซ์แอล1.3 พันล้าน242048241281 ล้านแบ็บเบจ
จีพีที-3 2.7บี2.7 พันล้าน32256032801 ล้าน
จีพีที-3 6.7บี6.7B324096321282Mคูรี
จีพีที-3 13บี13.0B405140401282M
จีพีที-3 175บี175.0B9612288961283.2 ล้านดาวินชี

ครึ่งหนึ่งของโมเดลสามารถเข้าถึงได้ผ่าน API ได้แก่ GPT-3-medium, GPT-3-xl, GPT-3-6.7B และ GPT-3-175b ซึ่งเรียกว่า ada, babbage, curie และ davinci ตามลำดับ แม้ว่าขนาดของโมเดล API จะไม่ได้เปิดเผยโดย OpenAI ในตอนแรก แต่EleutherAIได้ประกาศการจับคู่ระหว่างขนาดของโมเดลและชื่อ API ในเดือนพฤษภาคม 2021 [ 26 ] ขนาดของ โมเดลเหล่านี้ได้รับการยืนยันในภายหลังโดย OpenAI [ 27 ]แต่ขนาดของโมเดลที่ตามมายังไม่ได้รับการเปิดเผย

แบบอย่าง พารามิเตอร์ คำอธิบาย ชุด
อาดา 350 ม. สามารถทำงานพื้นฐานได้ดี มักเป็นรุ่นที่เร็วที่สุดในซีรีส์ GPT-3 และมีราคาต่ำที่สุด ฐาน GPT-3
แบ็บเบจ

แบ็บเบจ-002

1.3 บ. สามารถทำงานที่ไม่ซับซ้อนได้อย่างรวดเร็วและมีต้นทุนต่ำ ฐาน GPT-3
คูรี 6.7B มีประสิทธิภาพสูง แต่เร็วกว่าและต้นทุนต่ำกว่า Davinci ฐาน GPT-3
ดาวินชี

ดาวินชี-002

175 บี รุ่น GPT-3 ที่ทรงประสิทธิภาพที่สุด สามารถทำงานได้ทุกอย่างที่รุ่นอื่นๆ ทำได้ และมักจะได้คุณภาพที่ดีกว่าด้วย ฐาน GPT-3
ข้อความ-ada-001 350 ม. สามารถทำงานพื้นฐานได้ดี มักเป็นรุ่นที่เร็วที่สุดในซีรีส์ GPT-3 และมีราคาต่ำที่สุด สอนจีพีที
ข้อความ-บับเบจ-001 1.3 พันล้าน สามารถทำงานที่ไม่ซับซ้อนได้อย่างรวดเร็วและมีต้นทุนต่ำ สอนจีพีที
ข้อความ-คิวรี-001 6.7B มีประสิทธิภาพสูง เร็วกว่า และต้นทุนต่ำกว่า Davinci สอนจีพีที
ข้อความ-ดาวินชี-001 175บี เป็นรุ่นเก่ากว่าของรุ่นที่มีประสิทธิภาพสูงสุดในซีรีส์ GPT-3 สามารถทำงานได้ทุกอย่างที่รุ่น GPT-3 อื่นๆ ทำได้ โดยส่วนใหญ่แล้วจะใช้บริบทน้อยกว่าด้วยซ้ำ สอนจีพีที
ข้อความ-ดาวินชี-002

โค้ด-ดาวินชี-002

ไม่เปิดเผยข้อมูล มีความสามารถคล้ายคลึงกันtext-davinci-003แต่ได้รับการฝึกฝนด้วยการปรับแต่งอย่างละเอียดภายใต้การกำกับดูแล แทนที่จะใช้การเรียนรู้แบบเสริมแรง จีพีที-3.5
ข้อความ-ดาวินชี-003 ไม่เปิดเผยข้อมูล สามารถทำงานด้านภาษาได้ทุกประเภทด้วยคุณภาพที่ดีกว่า ผลลัพธ์ที่ยาวกว่า และการปฏิบัติตามคำสั่งที่สม่ำเสมอกว่าแบบจำลอง Curie, Babbage หรือ ADA นอกจากนี้ยังรองรับการแทรกคำแนะนำเพิ่มเติมลงในข้อความได้อีกด้วย จีพีที-3.5
จีพีที-3.5-เทอร์โบ

gpt-3.5-turbo-instruct gpt-3.5-turbo-16k

ไม่เปิดเผยข้อมูล รุ่น GPT-3.5 ที่มีประสิทธิภาพและคุ้มค่าที่สุด (เร็วที่สุด) และได้รับการปรับแต่งมาเพื่อการแชทโดยเฉพาะ ในราคาเพียง 1/10 ของรุ่นtext-davinci-003อื่น จีพีที-3.5

จีพีที-3.5

โมเดล Transformer 3.5 ที่ผ่านการฝึกฝนล่วงหน้าแบบสร้างสรรค์ (GPT-3.5)
ผู้เขียนต้นฉบับOpenAI [ 1 ]
ปล่อย15 มีนาคม 2565 ( 15 มีนาคม 2022 )
รุ่นทดลองใช้งาน
gpt-3.5-turbo-0125 / 25 มกราคม 2024 ( 25 มกราคม 2024 )
ผู้มาก่อนจีพีที-3
ผู้สืบทอดGPT-4 GPT-4o มินิ
พิมพ์
ใบอนุญาตกรรมสิทธิ์
เว็บไซต์ไม่มีข้อมูล
ที่เก็บข้อมูลไม่มีข้อมูล

Generative Pre-trained Transformer 3.5 ( GPT-3.5 ) เป็นคลาสย่อยของโมเดล GPT-3 ที่สร้างโดยOpenAIในปี 2022

เมื่อวันที่ 15 มีนาคม 2022 OpenAI ได้เปิดให้ใช้งาน GPT-3 และCodex เวอร์ชันใหม่ ใน API พร้อมความสามารถในการแก้ไขและแทรกภายใต้ชื่อ "text-davinci-002" และ "code-davinci-002" [ 28 ]โมเดลเหล่านี้ได้รับการอธิบายว่ามีความสามารถมากกว่าเวอร์ชันก่อนหน้าและได้รับการฝึกฝนด้วยข้อมูลจนถึงเดือนมิถุนายน 2021 [ 29 ]เมื่อวันที่ 28 พฤศจิกายน 2022 OpenAI ได้เปิดตัว text-davinci-003 [ 30 ]เมื่อวันที่ 30 พฤศจิกายน 2022 OpenAI เริ่มอ้างถึงโมเดลเหล่านี้ว่าเป็นของซีรี่ส์ "GPT-3.5" [ 29 ]และเปิดตัวChatGPTซึ่งได้รับการปรับแต่งจากโมเดลในซีรี่ส์ GPT-3.5 [ 31 ] OpenAI ไม่ได้รวม GPT-3.5 ไว้ใน GPT-3 [ 32 ]

นางแบบ

มีโมเดลสามแบบ: [ 33 ]

  • แชท
    • จีพีที-3.5-เทอร์โบ
  • การเติมข้อความอัตโนมัติ
    • ข้อความ-ดาวินชี-003
    • ข้อความ-ดาวินชี-002

GPT-3.5 พร้อมระบบเรียกดูข้อมูล

เมื่อวันที่ 10 เมษายน 2566 OpenAIได้เปิดตัวโมเดล GPT-3.5 รุ่นใหม่ที่เรียกว่า GPT-3.5 with Browsing (ALPHA) โมเดลที่ได้รับการปรับปรุงนี้ได้รับการอธิบายว่าสร้างขึ้นจากความสามารถของรุ่นก่อนหน้าคือ "text-davinci-002" และ "code-davinci-002" [ 34 ]โมเดล GPT-3.5 with Browsing (ALPHA) ได้รวมความสามารถในการเข้าถึงและเรียกดูข้อมูลออนไลน์ ซึ่งส่งผลให้การตอบคำถามของผู้ใช้มีความแม่นยำและทันสมัยมากขึ้น

โมเดล GPT-3.5 with Browsing (ALPHA) ได้รับการฝึกฝนด้วยข้อมูลจนถึงเดือนกันยายน 2021 ทำให้มีข้อมูลมากกว่าโมเดล GPT-3.5 รุ่นก่อนหน้า ซึ่งได้รับการฝึกฝนด้วยข้อมูลจนถึงเดือนมิถุนายน 2021 โมเดลนี้พยายามมอบเครื่องมือประมวลผลภาษาธรรมชาติขั้นสูงให้แก่นักพัฒนาและผู้ใช้ ซึ่งสามารถดึงและสังเคราะห์ข้อมูลออนไลน์ได้อย่างมีประสิทธิภาพ

เพื่อเปิดใช้งานความสามารถในการเรียกดู OpenAI ได้นำAPI ใหม่มาใช้ ซึ่งอนุญาตให้โมเดล GPT-3.5 ที่มีการเรียกดู (ALPHA) สามารถเข้าถึงแหล่งข้อมูลออนไลน์ที่เลือกไว้ในระหว่างการทำงาน[ 35 ]คุณสมบัตินี้ช่วยให้ผู้ใช้สามารถถามคำถามหรือขอข้อมูลโดยคาดหวังว่าโมเดลจะให้คำตอบที่อัปเดต ถูกต้อง และเกี่ยวข้องตามแหล่งข้อมูลออนไลน์ล่าสุดที่มีอยู่

เมื่อวันที่ 27 เมษายน 2566 OpenAI ได้เปิดให้ใช้งานโมเดล GPT-3.5 พร้อมการเรียกดู (ALPHA) แก่ผู้ใช้ GPT Plus ซึ่งทำให้ผู้คนจำนวนมากขึ้นสามารถเข้าถึงคุณสมบัติใหม่ได้[ 35 ]

สอนจีพีที

InstructGPT เป็นเวอร์ชันที่ปรับแต่งแล้วของ GPT-3.5 ซึ่งได้รับการฝึกฝนบนชุดข้อมูลคำแนะนำที่เขียนโดยมนุษย์[ 36 ]

แผนกต้อนรับ

แอปพลิเคชัน

  • GPT-3 โดยเฉพาะโมเดล Codexเป็นพื้นฐานสำหรับGitHub Copilotซึ่งเป็นซอฟต์แวร์เติมโค้ดและสร้างโค้ดที่สามารถใช้ในโปรแกรมแก้ไขโค้ดและ IDE ต่างๆ ได้[ 37 ] [ 38 ]
  • GPT-3 ถูกใช้ใน ผลิตภัณฑ์ ของ Microsoft บางอย่าง เพื่อแปลงภาษาทั่วไปให้เป็นรหัสคอมพิวเตอร์ที่เป็นทางการ[ 39 ] [ 40 ]
  • GPT-3 ถูกใช้ใน CodexDB [ 41 ]เพื่อสร้างโค้ดเฉพาะแบบสอบถามสำหรับการประมวลผลSQL
  • GPT-3 ถูกใช้โดยJason Rohrerในโครงการแชทบอทธีมย้อนยุคชื่อ "Project December" ซึ่งสามารถเข้าถึงได้ทางออนไลน์และอนุญาตให้ผู้ใช้สนทนากับ AI หลายตัวโดยใช้เทคโนโลยี GPT-3 [ 42 ]
  • GPT-3 ถูกใช้โดยThe Guardianเพื่อเขียนบทความเกี่ยวกับ AI ที่ไม่เป็นอันตรายต่อมนุษย์ โดยป้อนแนวคิดบางอย่างเข้าไปและสร้างบทความที่แตกต่างกันแปดบทความ ซึ่งในที่สุดก็ถูกรวมเข้าเป็นบทความเดียว[ 43 ]
  • GPT-3 ถูกใช้ในAI Dungeonซึ่งสร้างเกมผจญภัยแบบข้อความ ต่อมาถูกแทนที่ด้วยโมเดลคู่แข่งหลังจากที่ OpenAI เปลี่ยนนโยบายเกี่ยวกับเนื้อหาที่สร้างขึ้น[ 44 ] [ 45 ]
  • GPT-3 ใช้เพื่อช่วยในการเขียนเนื้อหาและสื่อการตลาดอื่นๆ[ 46 ]
  • การศึกษาในปี 2022 จากมหาวิทยาลัยเดร็กเซลแนะนำว่าระบบที่ใช้ GPT-3 สามารถใช้คัดกรองสัญญาณเริ่มต้นของโรคอัลไซเมอร์ได้[ 47 ] [ 48 ]

รีวิว

  • ในบทวิจารณ์ในThe New York Times เดือนกรกฎาคม 2020 Farhad Manjooกล่าวว่าความสามารถของ GPT-3 ในการสร้างรหัสคอมพิวเตอร์ บทกวี และร้อยแก้วนั้นไม่เพียงแต่ "น่าทึ่ง" "น่าขนลุก" และ "น่าเกรงขาม" เท่านั้น แต่ยัง "น่ากลัวมาก" อีกด้วย[ 49 ]
  • Daily Nousนำเสนอชุดบทความโดยนักปรัชญาเก้าคนเกี่ยวกับ GPT-3 [ 50 ]เดวิด ชาลเมอร์ส นักปรัชญาชาวออสเตรเลียอธิบาย GPT-3 ว่าเป็น "หนึ่งในระบบ AI ที่น่าสนใจและสำคัญที่สุดเท่าที่เคยมีมา" [ 51 ]
  • บทวิจารณ์ในWiredระบุว่า GPT-3 "กำลังสร้างความหวาดหวั่นไปทั่วซิลิคอนแวลลีย์ " [ 52 ]
  • National Law Reviewกล่าวว่า GPT-3 เป็น "ก้าวที่น่าประทับใจในกระบวนการที่ใหญ่กว่า" โดย OpenAI และบริษัทอื่นๆ พบว่า "แอปพลิเคชันที่มีประโยชน์สำหรับพลังทั้งหมดนี้" ในขณะที่ยังคง "ทำงานเพื่อมุ่งสู่ปัญญาทั่วไป มากขึ้น " [ 53 ]
  • บทความในMIT Technology Reviewซึ่งเขียนร่วมโดยGary Marcus นักวิจารณ์การเรียนรู้เชิงลึก [ 54 ]ระบุว่า "ความเข้าใจโลกของ GPT-3 มักจะผิดพลาดอย่างร้ายแรง ซึ่งหมายความว่าคุณไม่สามารถเชื่อถือสิ่งที่มันพูดได้จริง ๆ" [ 55 ] ตามที่ผู้เขียนระบุ GPT-3 จำลองความสัมพันธ์ระหว่างคำโดยไม่เข้าใจความหมายเบื้องหลังแต่ละคำ
  • Jerome Pesenti หัวหน้าห้องปฏิบัติการ AI ของ Facebook กล่าวว่า GPT-3 นั้น "ไม่ปลอดภัย" โดยชี้ให้เห็นถึง ภาษาที่ เหยียดเพศเหยียดเชื้อชาติและอคติเชิงลบอื่นๆ ที่ระบบสร้างขึ้นเมื่อถูกขอให้พูดคุยเกี่ยวกับชาวยิว ผู้หญิง คนผิวดำ และเหตุการณ์ฆ่าล้างเผ่าพันธุ์[ 56 ]
  • Nabla บริษัทสตาร์ทอัพสัญชาติฝรั่งเศสที่เชี่ยวชาญด้านเทคโนโลยีการดูแลสุขภาพ ได้ทดสอบ GPT-3 ในฐานะแชทบอท ทางการแพทย์ แม้ว่า OpenAI เองจะเตือนไม่ให้ใช้ในลักษณะดังกล่าวก็ตาม ตามที่คาดไว้ GPT-3 แสดงให้เห็นข้อจำกัดหลายประการ ตัวอย่างเช่น ในระหว่างการทดสอบการตอบสนองของ GPT-3 เกี่ยวกับปัญหาสุขภาพจิต AI ได้แนะนำผู้ป่วยจำลองให้ฆ่าตัวตาย[ 57 ]
  • โนอัม ชอมสกีแสดงความสงสัยเกี่ยวกับคุณค่าทางวิทยาศาสตร์ของ GPT-3 โดยกล่าวว่า "มันไม่ใช่แบบจำลองภาษา มันใช้ได้ผลดีกับภาษาที่เป็นไปไม่ได้เช่นเดียวกับภาษาจริง ดังนั้น หากตั้งใจให้เป็นแบบจำลองภาษา มันจึงถูกหักล้างด้วยเกณฑ์ทางวิทยาศาสตร์ปกติ [...] บางทีมันอาจมีประโยชน์สำหรับบางวัตถุประสงค์ แต่ดูเหมือนว่าจะไม่ได้บอกอะไรเราเกี่ยวกับภาษาหรือการรับรู้โดยทั่วไปเลย" [ 58 ]
  • Luciano FloridiและMassimo Chiriattiเน้นย้ำถึงความเสี่ยงของ "การผลิตสิ่งประดิษฐ์เชิงความหมายที่ดีในราคาถูก" [ 59 ]
  • Sam Altman จาก OpenAI เองก็วิจารณ์สิ่งที่เขาเรียกว่า "การโฆษณาเกินจริงของ GPT-3" โดยยอมรับว่า GPT-3 "มีจุดอ่อนร้ายแรงและบางครั้งก็ทำผิดพลาดอย่างน่าขัน... AI จะเปลี่ยนโลก แต่ GPT-3 เป็นเพียงแค่การเริ่มต้นเท่านั้น" [ 60 ]

การวิจารณ์

OpenAIผู้สร้าง GPT-3 ก่อตั้งขึ้นครั้งแรกในฐานะองค์กรไม่แสวงหาผลกำไรในปี 2015 [ 61 ]ในปี 2019 OpenAI ได้ละทิ้งมาตรฐานโอเพนซอร์สตามปกติโดยไม่เปิดเผยGPT-2ซึ่งเป็นโมเดลรุ่นก่อนหน้าของ GPT-3 ต่อสาธารณะ โดยอ้างถึงความกังวลว่าโมเดลดังกล่าวอาจอำนวยความสะดวกในการเผยแพร่ข่าวปลอม ในที่สุด OpenAI ก็ได้ปล่อยเวอร์ชันที่มีขนาดเพียง 8% ของโมเดลเดิม[ 62 ]ในปีเดียวกันนั้น OpenAI ได้ปรับโครงสร้างใหม่ให้เป็นบริษัทแสวงหาผลกำไร[ 63 ]ในปี 2020 Microsoft ได้ประกาศว่าบริษัทได้รับสิทธิ์การใช้งาน GPT-3 แต่เพียงผู้เดียวสำหรับผลิตภัณฑ์และบริการของ Microsoft หลังจากการลงทุนหลายพันล้านดอลลาร์ใน OpenAI ข้อตกลงนี้อนุญาตให้ OpenAI นำเสนอ API ที่เปิดเผยต่อสาธารณะเพื่อให้ผู้ใช้สามารถส่งข้อความไปยัง GPT-3 เพื่อรับผลลัพธ์ของโมเดลได้ แต่มีเพียง Microsoft เท่านั้นที่จะสามารถเข้าถึงซอร์สโค้ดของ GPT-3 ได้[ 5 ]

โมเดลภาษาขนาดใหญ่ เช่น GPT-3 ได้รับการวิพากษ์วิจารณ์จากนักวิจัยด้านจริยธรรม AI ของ Google บางส่วนเกี่ยวกับผลกระทบต่อสิ่งแวดล้อมจากการฝึกอบรมและการจัดเก็บโมเดล ซึ่งมีรายละเอียดอยู่ในเอกสารที่เขียนร่วมกันโดยTimnit GebruและEmily M. Benderในปี 2021 [ 64 ]

การใช้งานเทคโนโลยีการเขียนอัตโนมัติที่เพิ่มมากขึ้นโดยอิงจาก GPT-3 และตัวสร้างภาษาอื่นๆ ได้ก่อให้เกิดความกังวลเกี่ยวกับความซื่อสัตย์ทางวิชาการ[ 65 ]และเพิ่มความเสี่ยงว่ามหาวิทยาลัยและโรงเรียนจะประเมินว่าสิ่งใดถือเป็นการประพฤติมิชอบทางวิชาการ เช่น การลอกเลียนแบบ[ 66 ]

ซีรีส์ GPT ของ OpenAI สร้างขึ้นโดยใช้ข้อมูลจาก ชุดข้อมูล Common Crawlซึ่งเป็นการรวบรวมบทความที่มีลิขสิทธิ์ โพสต์บนอินเทอร์เน็ต หน้าเว็บ และหนังสือที่รวบรวมจากโดเมนกว่า 60 ล้านโดเมนในช่วงระยะเวลา 12 ปีTechCrunchรายงานว่าข้อมูลการฝึกอบรมนี้รวมถึงเนื้อหาที่มีลิขสิทธิ์จาก BBC, The New York Times , Reddit , ข้อความเต็มของหนังสือออนไลน์ และอื่นๆ[ 67 ]ในการตอบสนองต่อคำขอความคิดเห็นเกี่ยวกับการคุ้มครองทรัพย์สินทางปัญญาสำหรับนวัตกรรมปัญญาประดิษฐ์จากสำนักงานสิทธิบัตรและเครื่องหมายการค้าแห่งสหรัฐอเมริกา (USPTO) ในปี 2019 OpenAI โต้แย้งว่า "ภายใต้กฎหมายปัจจุบัน การฝึกอบรมระบบ AI [เช่นโมเดล GPT ของตน] ถือเป็นการใช้งานที่เป็นธรรม " แต่ "เนื่องจากขาดกฎหมายคดีในประเด็นนี้ OpenAI และนักพัฒนา AI อื่นๆ เช่นเราต้องเผชิญกับความไม่แน่นอนทางกฎหมายและต้นทุนการปฏิบัติตามกฎหมายจำนวนมาก" [ 68 ]

ดูเพิ่มเติม

ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=GPT-3&oldid=1350337009#InstructGPT "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ จีพีที-3

Generative Pre-trained Transformer 3 ( GPT-3 ) เป็น โมเดลภาษาขนาดใหญ่ ที่ OpenAI เปิดตัวในปี 2020

พื้นหลัง

จากข้อมูลของ The Economist อัลกอริทึมที่ได้รับการปรับปรุง คอมพิวเตอร์ที่มีประสิทธิภาพมากขึ้น และปริมาณข้อมูลดิจิทัลที่เพิ่มขึ้นเมื่อเร็ว ๆ นี้ได้กระตุ้นให้เกิดการปฏิวัติในด้าน การเรียนรู้ของเครื่องจักร เทคนิคใหม่ ๆ ในช่วงทศวรรษ 2010 ส่งผลให้เกิด...

การฝึกอบรมและความสามารถ

แนวคิดเรื่อง "รูปแบบการเรียนรู้" นั้นมีปัญหา เพราะมันไม่ได้คำนึงถึงกระบวนการที่ทำให้เกิดรูปแบบการเรียนรู้ขึ้นมา นักเรียนบางคนอาจพัฒนารูปแบบการเรียนรู้แบบใดแบบหนึ่งขึ้นมาเนื่องจากมีประสบการณ์เฉพาะบางอย่าง...

โมเดล GPT-3

ในตระกูล GPT-3 มีหลายรุ่น แต่ละรุ่นมีวัตถุประสงค์การใช้งานที่แตกต่างกัน ในเอกสารวิจัยฉบับแรกที่เผยแพร่โดย OpenAI ได้กล่าวถึง GPT-3 รุ่นหลักไว้ 8 ขนาดที่แตกต่างกัน (ตารางที่ 2.1):