อ่าน 15 นาที
ทรานส์ฟอร์เมอร์ที่ได้รับการฝึกฝนล่วงหน้าแบบสร้างภาพ
ท รานส์ฟอร์เมอร์แบบฝึกฝนล่วงหน้าเชิงกำเนิด ( GPT ) เป็น โมเดลภาษาขนาดใหญ่ (LLM) ประเภทหนึ่ง ซึ่งใช้กันอย่างแพร่หลายในแชทบอทปัญญาประดิษฐ์เชิงกำเนิด GPTs...
ทรานส์ฟอร์เมอร์ที่ได้รับการฝึกฝนล่วงหน้าแบบสร้างภาพ
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| การเรียนรู้ของเครื่องจักรและการขุดข้อมูล |
|---|

ท รานส์ฟอร์เมอร์แบบฝึกฝนล่วงหน้าเชิงกำเนิด ( GPT ) เป็น โมเดลภาษาขนาดใหญ่ (LLM) ประเภทหนึ่ง[ 1 ] [ 2 ] [ 3 ]ซึ่งใช้กันอย่างแพร่หลายในแชทบอทปัญญาประดิษฐ์เชิงกำเนิด[ 4 ] [ 5 ] GPTs มีพื้นฐานมาจากสถาปัตยกรรมการเรียนรู้เชิงลึก ที่เรียกว่า ทรานส์ฟอร์เมอร์พวกมันได้รับการฝึกฝนล่วงหน้าบนชุดข้อมูล ขนาดใหญ่ ของเนื้อหาที่ไม่มีป้ายกำกับ และสามารถสร้างเนื้อหาใหม่ได้[ 2 ] [ 3 ]
OpenAIเป็นบริษัทแรกที่นำการฝึกฝนล่วงหน้าแบบสร้างข้อมูลมาใช้กับสถาปัตยกรรม Transformer โดยเปิด ตัวโมเดล GPT-1ในปี 2018 [ 6 ]นับตั้งแต่นั้นมา บริษัทก็ได้ปล่อยโมเดล GPT ขนาดใหญ่ออกมาอีกมากมาย แชทบอทChatGPTที่เปิดตัวในช่วงปลายปี 2022 (โดยใช้GPT-3.5 ) ตามมาด้วยแชทบอทของคู่แข่งจำนวนมาก ที่ ใช้ Transformer ที่ได้รับการฝึกฝนล่วงหน้าแบบสร้างข้อมูลของตนเองเพื่อสร้างข้อความ เช่นGemini , DeepSeekและClaude
GPT ส่วนใหญ่ใช้ในการสร้างข้อความ แต่สามารถฝึกฝนให้สร้างข้อมูลประเภทอื่นได้ ตัวอย่างเช่นGPT-4oสามารถประมวลผลและสร้างข้อความ รูปภาพ และเสียงได้[ 7 ]เพื่อปรับปรุงประสิทธิภาพในงานที่ซับซ้อน GPT บางตัว เช่นOpenAI o3จะจัดสรรเวลาในการคำนวณมากขึ้นเพื่อวิเคราะห์ปัญหาก่อนที่จะสร้างเอาต์พุต และเรียกว่าโมเดลการให้เหตุผลในปี 2025 GPT-5ได้รับการเผยแพร่พร้อมกับเราเตอร์ที่เลือกโดยอัตโนมัติว่าจะใช้โมเดลที่เร็วกว่าหรือโมเดลการให้เหตุผลที่ช้ากว่าตามงานที่กำหนด
พื้นหลัง
ในช่วงทศวรรษ 2010 อัลกอริทึม การเรียนรู้ของเครื่อง ที่ดีขึ้น คอมพิวเตอร์ที่มีประสิทธิภาพมากขึ้น และปริมาณวัสดุดิจิทัลที่เพิ่มขึ้น ทำให้เกิด การเติบโตอย่างรวดเร็ว ของAI [ 8 ]
นอกจากนี้ แนวคิดของการฝึกอบรมล่วงหน้าแบบสร้าง (GP) ถือเป็นเทคนิคที่ได้รับการยอมรับมานานแล้วในด้านการเรียนรู้ของเครื่อง GP เป็นรูปแบบหนึ่งของการเรียนรู้แบบกำกับตนเองโดยที่แบบจำลองจะได้รับการฝึกอบรมก่อนบนชุดข้อมูลขนาดใหญ่ที่ไม่มีป้ายกำกับ (ขั้นตอน "การฝึกอบรมล่วงหน้า") เพื่อเรียนรู้ที่จะสร้างจุดข้อมูล จากนั้นแบบจำลองที่ได้รับการฝึกอบรมล่วงหน้านี้จะถูกปรับให้เข้ากับงานเฉพาะโดยใช้ชุดข้อมูลที่มีป้ายกำกับ (ขั้นตอน " การปรับแต่ง ") [ 9 ]
สถาปัตยกรรม Transformer สำหรับการเรียนรู้เชิงลึกเป็นเทคโนโลยีหลักของ GPT พัฒนาโดยนักวิจัยที่Googleและนำเสนอในบทความ " Attention Is All You Need " ซึ่งเผยแพร่ในปี 2017 สถาปัตยกรรม Transformer แก้ปัญหาประสิทธิภาพหลายอย่างที่เกี่ยวข้องกับ การออกแบบ โครงข่ายประสาทเทียมแบบวนซ้ำ (RNN) รุ่นเก่าสำหรับการประมวลผลภาษาธรรมชาติ (NLP) การใช้ กลไกความสนใจของสถาปัตยกรรมนี้ช่วยให้โมเดลสามารถประมวลผลลำดับข้อความทั้งหมดได้ในคราวเดียว ทำให้สามารถฝึกโมเดลขนาดใหญ่และซับซ้อนมากขึ้นได้[ 10 ]ตั้งแต่ปี 2017 ระบบ NLP ที่ใช้ Transformer ที่มีอยู่สามารถประมวลผล ขุดค้น จัดระเบียบ เชื่อมต่อ เปรียบเทียบ และสรุปข้อความรวมถึงตอบคำถามจากอินพุตข้อความได้
ประวัติศาสตร์
เมื่อวันที่ 11 มิถุนายน 2561 นักวิจัยและวิศวกรของ OpenAI ได้ตีพิมพ์บทความชื่อ "การปรับปรุงความเข้าใจภาษาด้วยการฝึกอบรมล่วงหน้าแบบสร้าง" ซึ่งแนะนำGPT-1ซึ่งเป็นโมเดล GPT ตัวแรก[ 11 ] โมเดลนี้ได้รับการออกแบบให้เป็น โมเดลภาษาขนาดใหญ่แบบ Transformer ที่ใช้การฝึกอบรมล่วงหน้าแบบสร้าง (GP) บนBookCorpus ซึ่งเป็น คลังข้อความที่หลากหลายตามด้วยการปรับแต่งแบบ แยกแยะ เพื่อเน้นไปที่งานภาษาเฉพาะ[ 12 ] แนวทาง แบบกึ่งกำกับดูแลนี้ถือเป็นความก้าวหน้า โมเดล GPT ใช้เฉพาะส่วนถอดรหัสของสถาปัตยกรรม Transformer ซึ่งได้รับการฝึกอบรมล่วงหน้าเพื่อทำนายโทเค็น ถัดไป ในลำดับ[ 13 ] [ 14 ]ก่อนหน้านี้ โมเดลโครงข่ายประสาทเทียมที่มีประสิทธิภาพดีที่สุดในการประมวลผลภาษาธรรมชาติ (NLP) มักใช้การเรียนรู้แบบกำกับดูแลจากข้อมูลจำนวนมากที่ติดป้ายกำกับด้วยตนเอง การฝึกอบรมโมเดลภาษาขนาดใหญ่ด้วยแนวทางนี้จะมีค่าใช้จ่ายสูงและใช้เวลานานมาก[ 11 ]
เมื่อวันที่ 14 กุมภาพันธ์ 2019 OpenAI ได้เปิดตัวGPT-2ซึ่งเป็นโมเดลขนาดใหญ่กว่าที่สามารถสร้างข้อความที่สอดคล้องกันได้ สร้างขึ้นโดยการขยายขนาดโดยตรงจากรุ่นก่อนหน้า โดยมีจำนวนพารามิเตอร์และขนาดชุดข้อมูลเพิ่มขึ้นถึง 10 เท่า GPT-2 มีพารามิเตอร์ 1.5 พันล้านตัวและได้รับการฝึกฝนบน WebText ซึ่งเป็นชุดข้อมูลขนาด 40 กิกะไบต์ที่มีเว็บเพจ 8 ล้านหน้า [ 15 ] [ 13 ] เนื่องจากความเสี่ยงจากการใช้งานในทางที่ผิด OpenAI จึงเลือกใช้ "การเผยแพร่แบบเป็นขั้นตอน" โดยเริ่มแรกเผยแพร่โมเดลเวอร์ชันขนาดเล็กกว่าก่อนที่จะเผยแพร่โมเดลขนาดเต็มที่มีพารามิเตอร์ 1.5 พันล้านตัวในเดือนพฤศจิกายน[ 16 ]
เมื่อวันที่ 10 กุมภาพันธ์ 2020 ไมโครซอฟต์ได้เปิดตัว Turing Natural Language Generation ซึ่งอ้างว่าเป็น "โมเดลภาษาที่ใหญ่ที่สุดเท่าที่เคยมีการเผยแพร่มา โดยมีพารามิเตอร์ถึง 17 พันล้านตัว" โมเดลนี้มีประสิทธิภาพเหนือกว่าโมเดลภาษารุ่นก่อนหน้าทั้งหมดในงานต่างๆ รวมถึงการสรุปข้อความและการตอบคำถาม[ 17 ]
เมื่อวันที่ 28 พฤษภาคม 2020 OpenAI ได้เปิดตัวGPT-3ซึ่งเป็นโมเดลที่มีพารามิเตอร์ 175 พันล้านตัวที่ได้รับการฝึกฝนบนชุดข้อมูลขนาดใหญ่กว่า GPT-2 นับเป็นความก้าวหน้าครั้งสำคัญในความสามารถในการเรียนรู้แบบ few-shot และ zero-shot โดยใช้ตัวอย่างเพียงเล็กน้อยก็สามารถทำงานต่างๆ ได้แม้ว่าจะไม่ได้ฝึกฝนมาโดยเฉพาะก็ตาม[ 18 ] [ 14 ]
หลังจากการเปิดตัว GPT-3 OpenAI เริ่มใช้การเรียนรู้แบบเสริมแรงจากข้อเสนอแนะของมนุษย์ (RLHF) เพื่อปรับพฤติกรรมของโมเดลให้สอดคล้องกับความชอบของมนุษย์มากขึ้น ซึ่งนำไปสู่การพัฒนาInstructGPTซึ่งเป็นเวอร์ชันที่ปรับแต่งแล้วของ GPT-3 OpenAI ได้ปรับปรุง InstructGPT ต่อไปเพื่อสร้างChatGPTซึ่งเป็นผลิตภัณฑ์แชทบอทหลักของ OpenAI ที่เปิดตัวเมื่อวันที่ 30 พฤศจิกายน 2022 [ 19 ] ChatGPT เดิมทีใช้GPT-3.5 เป็นพื้นฐาน แต่ต่อมาได้เปลี่ยนไปใช้ โมเดล GPT-4ซึ่งเปิดตัวเมื่อวันที่ 14 มีนาคม 2023 [ 20 ] [ 21 ] GPT-4 ยังถูกรวมเข้ากับส่วนต่างๆ ของแอปพลิเคชันหลายตัว รวมถึงMicrosoft Copilot , GitHub Copilot , Snapchat , Khan AcademyและDuolingo [ 22 ]
ความนิยมอย่างมหาศาลของ ChatGPT กระตุ้นให้เกิดการพัฒนาระบบที่ใช้ GPT แข่งขันกันอย่างแพร่หลายจากองค์กรอื่นๆEleutherAI ได้เปิด ตัวโมเดลแบบเปิดน้ำหนักหลายรุ่นรวมถึงGPT-J ในปี 2021 ต่อมาบริษัทเทคโนโลยีรายใหญ่อื่นๆ ก็ได้พัฒนา โมเดล GPT ของตนเอง เช่นPaLMและGeminiของGoogleรวมถึงLlamaของMeta AI [ 23 ]
โมเดล GPT รุ่นต่อมาจำนวนมากได้รับการฝึกฝนให้เป็นแบบมัลติโมดอล (สามารถประมวลผลหรือสร้างข้อมูลได้หลายประเภท) ตัวอย่างเช่นGPT-4oสามารถประมวลผลและสร้างทั้งข้อความ รูปภาพ และเสียงได้[ 24 ]นอกจากนี้ โมเดล GPT เช่นo3และDeepSeek R1ยังได้รับการฝึกฝนด้วยการเรียนรู้แบบเสริมแรง เพื่อสร้างการให้เหตุผล แบบลำดับขั้นความคิดหลายขั้นตอนก่อนที่จะได้คำตอบสุดท้าย ซึ่งช่วยแก้ปัญหาที่ซับซ้อนในโดเมนต่างๆ เช่น คณิตศาสตร์[ 25 ]
เมื่อวันที่ 7 สิงหาคม พ.ศ. 2568 OpenAI ได้เผยแพร่GPT-5ซึ่งมีเราเตอร์ที่เลือกโดยอัตโนมัติว่าจะใช้โมเดลที่เร็วกว่าหรือโมเดลการให้เหตุผลที่ช้ากว่าตามงาน[ 26 ] [ 27 ]
แบบจำลองพื้นฐาน
แบบจำลองพื้นฐานคือแบบจำลอง AI ที่ได้รับการฝึกฝนบนข้อมูลจำนวนมากในระดับขนาดใหญ่ เพื่อให้สามารถปรับใช้กับงานปลายทางที่หลากหลายได้[ 28 ] [ 29 ]
โมเดล GPT-n ซีรีส์ ล่าสุดของOpenAIคือGPT- 5 [ 30 ]
โมเดลอื่นๆ ที่คล้ายกัน ได้แก่PaLMของGoogle ซึ่ง เป็นโมเดลพื้นฐานขนาดใหญ่ที่ได้รับการเปรียบเทียบกับGPT-3และเปิดให้ผู้พัฒนาใช้งานได้ผ่านAPI [ 31 ] [ 32 ]และ GPT-JT ของ Together ซึ่งมีรายงานว่าเป็น ทางเลือก โอเพนซอร์สที่ มีประสิทธิภาพใกล้เคียง กับ GPT-3 มากที่สุด (และได้มาจากGPT โอเพนซอร์สรุ่นก่อนหน้า) [ 33 ] Meta AI (เดิมคือFacebook ) ยังมีโมเดลภาษาขนาดใหญ่พื้นฐานแบบทรานส์ฟอร์เมอร์เชิงกำเนิดที่เรียกว่าLLaMA [ 34 ]
GPT พื้นฐานยังสามารถใช้รูปแบบอื่นนอกเหนือจากข้อความสำหรับการป้อนข้อมูลและ/หรือการส่งออกGPT-4เป็น LLM แบบหลายโมดอลที่สามารถประมวลผลข้อความและรูปภาพเป็นอินพุตได้ (แม้ว่าเอาต์พุตจะจำกัดเฉพาะข้อความก็ตาม) [ 35 ]สำหรับเอาต์พุต แบบหลายโมด อล โมเดลที่ใช้ Transformer แบบสร้างบางโมเดลถูกนำมาใช้สำหรับ เทคโนโลยี ข้อความเป็นรูปภาพเช่นการแพร่กระจาย[ 36 ]และการถอดรหัสแบบขนาน[ 37 ]โมเดลประเภทนี้สามารถทำหน้าที่เป็นโมเดลพื้นฐานภาพ (VFM) สำหรับการพัฒนาระบบปลายทางที่สามารถทำงานกับรูปภาพได้[ 38 ]
สถาปัตยกรรมหม้อแปลงไฟฟ้าที่มีประสิทธิภาพ
ความต้องการด้านการคำนวณและหน่วยความจำของโมเดลที่ใช้ Transformerเพิ่มขึ้นอย่างมากเมื่อขยายขนาดให้ใหญ่ขึ้นและลำดับอินพุตยาวขึ้น กลไก Self-attention มาตรฐาน มีความซับซ้อนแบบกำลังสองเมื่อเทียบกับความยาวของลำดับอินพุต ดังที่อธิบายไว้ในAttention Is All You Need [ 39 ]
นักวิจัยเสนอการปรับปรุงประสิทธิภาพหลายประการ เช่น กลไกความสนใจแบบเบาบางและสถาปัตยกรรมที่มีประสิทธิภาพด้านหน่วยความจำ ซึ่งช่วยลดต้นทุนการคำนวณในขณะที่รองรับหน้าต่างบริบทที่ยาวขึ้น[ 40 ] โมเดลต่างๆ เช่น BigBird, Reformer และ FlashAttention แสดงให้เห็นถึงรูปแบบความสนใจที่มีโครงสร้างหรือการคำนวณที่ได้รับการปรับให้เหมาะสมเพื่อปรับปรุงความสามารถในการปรับขนาดและประสิทธิภาพ[ 41 ] [ 42 ] [ 43 ]
สิ่งนี้ช่วยให้โมเดลภาษาขนาดใหญ่สามารถประมวลผลลำดับอินพุตที่ยาวได้อย่างมีประสิทธิภาพ โดยใช้หน่วยความจำและการคำนวณลดลงทั้งในระหว่างการฝึกอบรมและการอนุมาน
กฎการปรับขนาด
กฎการปรับขนาดอธิบายความสัมพันธ์เชิงประจักษ์ระหว่างประสิทธิภาพของโมเดลภาษา ขนาดใหญ่ และปัจจัยต่างๆ เช่น ขนาดโมเดล ขนาดชุดข้อมูล และทรัพยากรการคำนวณ งานเชิงประจักษ์พบว่าประสิทธิภาพมักจะเป็นไปตามความสัมพันธ์แบบกำลังโดยประมาณเมื่อปัจจัยเหล่านี้เพิ่มขึ้น[ 44 ]
โดยทั่วไปแล้วโมเดลขนาดใหญ่ที่ฝึกฝนด้วยข้อมูลจำนวนมากจะมีการสูญเสียการฝึกฝนน้อยกว่าและมีการวางนัยทั่วไปที่ดีกว่า งานวิจัยในภายหลังชี้ให้เห็นว่าประสิทธิภาพไม่ได้ถูกกำหนดโดยจำนวนพารามิเตอร์เพียงอย่างเดียว แต่ขึ้นอยู่กับความสมดุลระหว่างขนาดของโมเดล ข้อมูล และการคำนวณในระหว่างการฝึกฝน[ 45 ]
ข้อสังเกตเหล่านี้มีอิทธิพลต่อการพัฒนาโมเดล GPT รุ่นต่อๆ มา โดยเฉพาะอย่างยิ่งในการตัดสินใจเกี่ยวกับการออกแบบสถาปัตยกรรม องค์ประกอบของชุดข้อมูล และกลยุทธ์การฝึกอบรม
ความสามารถที่เกิดขึ้นใหม่
ความสามารถที่เกิดขึ้นใหม่ หมายถึง ความสามารถที่ปรากฏในแบบจำลองภาษาขนาดใหญ่เท่านั้น เมื่อถึงขนาดที่กำหนด และไม่มีอยู่ในแบบจำลองเวอร์ชันที่เล็กกว่า ความสามารถเหล่านี้ถือว่า "เกิดขึ้นใหม่" เพราะเกิดขึ้นเมื่อขนาดของแบบจำลอง ข้อมูลการฝึกอบรม และการคำนวณเพิ่มขึ้น[ 46 ] [ 47 ]
ตัวอย่างของความสามารถที่เกิดขึ้นใหม่ ได้แก่ การให้เหตุผลแบบหลายขั้นตอน การเรียนรู้ตามบริบท (ความสามารถในการทำงานตามตัวอย่างที่ให้ไว้ในคำถามโดยไม่ต้องฝึกฝนเพิ่มเติม) และประสิทธิภาพที่ดีขึ้นในการทดสอบด้านภาษาและการให้เหตุผลที่ซับซ้อน
งานวิจัยชี้ให้เห็นว่าความสามารถเหล่านี้ไม่ได้เพิ่มขึ้นแบบเชิงเส้น แต่จะปรากฏขึ้นเมื่อโมเดลมีขนาดและระดับการฝึกอบรมเกินเกณฑ์ที่กำหนด[ 47 ]
ปรากฏการณ์นี้มีอิทธิพลต่อการพัฒนาโมเดล GPT ขนาดใหญ่ และมีส่วนช่วยเพิ่มประสิทธิภาพของโมเดลเหล่านั้นในงานหลากหลายประเภท
ประเด็นเกี่ยวกับแบรนด์

OpenAIซึ่งสร้างทรานส์ฟอร์เมอร์แบบฝึกฝนล่วงหน้า (GPT) ตัวแรกในปี 2018 ได้ยืนยันในปี 2023 ว่า "GPT" ควรได้รับการพิจารณาว่าเป็นแบรนด์ของ OpenAI [ 48 ]ในเดือนเมษายน 2023 OpenAI ได้แก้ไขแนวทางแบรนด์ในข้อกำหนดในการให้บริการเพื่อระบุว่าธุรกิจอื่น ๆ ที่ใช้API ของตน ในการให้บริการ AI จะไม่สามารถรวม "GPT" ไว้ในชื่อหรือแบรนด์ดังกล่าวได้อีกต่อไป[ 49 ]ในเดือนพฤษภาคม 2023 OpenAI ได้ว่าจ้างบริการจัดการแบรนด์เพื่อแจ้งให้ลูกค้า API ทราบถึงนโยบายนี้ แม้ว่าการแจ้งเตือนเหล่านี้จะไม่ได้ดำเนินการเรียกร้องทางกฎหมายอย่างชัดเจน (เช่น การกล่าวหาว่าละเมิดเครื่องหมายการค้าหรือการเรียกร้องให้ยุติการกระทำ ) [ 48 ]ณ เดือนพฤศจิกายน 2023 OpenAI ยังคงห้ามผู้ได้รับอนุญาต API ของตนตั้งชื่อผลิตภัณฑ์ของตนเองด้วยคำว่า "GPT" [ 50 ]แต่ได้เริ่มอนุญาตให้สมาชิก ChatGPT Plus สร้าง "เวอร์ชันที่กำหนดเองของ ChatGPT" ที่เรียกว่าGPTบนเว็บไซต์ OpenAI [ 51 ]ข้อกำหนดในการให้บริการของ OpenAI ระบุว่าสมาชิกสามารถใช้ "GPT" ในชื่อของผลิตภัณฑ์เหล่านี้ได้ แม้ว่าจะ "ไม่แนะนำ" ก็ตาม[ 50 ]
ในทำนองเดียวกัน OpenAI ได้ยื่นคำขอต่อสำนักงานสิทธิบัตรและเครื่องหมายการค้าแห่งสหรัฐอเมริกา (USPTO) เพื่อขอจดทะเบียนเครื่องหมายการค้า ภายในประเทศ สำหรับคำว่า "GPT" ในสาขา AI [ 48 ] OpenAI พยายามเร่งดำเนินการคำขอ แต่ USPTO ปฏิเสธคำขอนั้นในเดือนเมษายน 2023 [ 52 ]ในเดือนพฤษภาคม 2023 USPTO ตอบกลับคำขอโดยระบุว่า "GPT" เป็นทั้งคำอธิบายและคำทั่วไป[ 53 ]ณ เดือนพฤศจิกายน 2023 OpenAI ยังคงดำเนินการตามข้อโต้แย้งของตนต่อไป
สำหรับการคุ้มครองเครื่องหมายการค้าประเภทใดหรือขอบเขตใดในสหรัฐอเมริกา OpenAI จะต้องพิสูจน์ว่าคำดังกล่าวมีความ " โดดเด่น " อย่างแท้จริงสำหรับผลิตภัณฑ์เฉพาะของตน นอกเหนือจากการเป็นคำทางเทคนิคที่กว้างขึ้นสำหรับเทคโนโลยีประเภทนั้น รายงานข่าวบางฉบับในปี 2023 แนะนำว่า OpenAI อาจสามารถจดทะเบียนเครื่องหมายการค้าได้โดยอ้อมจากชื่อเสียงของผลิตภัณฑ์แชทบอท ที่ใช้ GPT ของตน ChatGPT [ 52 ] [ 54 ]ซึ่ง OpenAI ได้ ขอความคุ้มครอง แยกต่างหาก (และได้พยายามบังคับใช้ให้เข้มงวดมากขึ้น) [ 55 ] รายงานอื่นๆ ระบุว่าการจดทะเบียนคำว่า "GPT" เพียงอย่างเดียวดูเหมือนจะไม่ได้รับการอนุมัติ[ 48 ] [ 56 ]เนื่องจากมีการใช้บ่อยครั้งเป็นคำทั่วไปเพื่ออ้างถึงระบบ AI ที่เกี่ยวข้องกับทรานส์ฟอร์เมอร์ที่ได้รับการฝึกฝนล่วงหน้าแบบสร้างสรรค์[ 3 ] [ 57 ] [ 58 ] [ 59 ]ไม่ว่าในกรณีใด สิทธิพิเศษในคำดังกล่าวอาจเกิดขึ้นในสหรัฐอเมริกา ผู้อื่นจะต้องหลีกเลี่ยงการใช้คำดังกล่าวสำหรับผลิตภัณฑ์หรือบริการที่คล้ายคลึงกันในลักษณะที่อาจก่อให้เกิดความสับสน[ 56 ] [ 60 ]หากสิทธิ์ดังกล่าวขยายวงกว้างจนครอบคลุมการใช้งานอื่นๆ ที่ได้รับการยอมรับในสาขานี้ หลักการใช้เครื่องหมายการค้าที่เป็นธรรมเชิงพรรณนาก็ยังคงสามารถใช้งานที่ไม่เกี่ยวข้องกับแบรนด์ได้ต่อไป[ 61 ]
ในสหภาพยุโรปสำนักงานทรัพย์สินทางปัญญาแห่งสหภาพยุโรปได้จดทะเบียน "GPT" เป็นเครื่องหมายการค้าของ OpenAI ในฤดูใบไม้ผลิปี 2023 อย่างไรก็ตาม ตั้งแต่ฤดูใบไม้ผลิปี 2024 การจดทะเบียนดังกล่าวถูกท้าทายและอยู่ระหว่างรอการยกเลิก[ 62 ]
ในสวิตเซอร์แลนด์สถาบันทรัพย์สินทางปัญญาแห่งสหพันธรัฐสวิสได้จดทะเบียน "GPT" เป็นเครื่องหมายการค้าของ OpenAI ในฤดูใบไม้ผลิปี 2023 [ 63 ] [ 64 ]
การประเมินและการเปรียบเทียบมาตรฐาน
การประเมินโมเดล Transformer ที่ได้รับการฝึกฝนล่วงหน้าแบบสร้างนั้นดำเนินการโดยใช้เกณฑ์มาตรฐานและตัวชี้วัดต่างๆ ซึ่งมีจุดมุ่งหมายเพื่อประเมินประสิทธิภาพของโมเดลในงานต่างๆ แนวทางทั่วไป ได้แก่ ความแม่นยำบนชุดข้อมูลมาตรฐาน รวมถึงคุณลักษณะอื่นๆ เช่น ความทนทาน อคติ และความเป็นพิษ[ 65 ]
โดยทั่วไปแล้วโมเดลเหล่านี้จะถูกทดสอบกับงานต่างๆ เช่น การทำความเข้าใจภาษาธรรมชาติ การให้เหตุผล การตอบคำถาม และการสร้างโค้ด บางครั้งโมเดลเหล่านี้จะรวมงานหลายอย่างเข้าด้วยกันเพื่อประเมินประสิทธิภาพของโมเดลในวงกว้างขึ้นในหลายๆ ด้าน[ 66 ]
แนวทางล่าสุดขยายการประเมินเหล่านี้ให้ครอบคลุมคุณลักษณะอื่นๆ เช่น ความเป็นธรรม ประสิทธิภาพ และความโปร่งใส เพื่อให้ได้การประเมินโมเดลเหล่านี้ที่แม่นยำยิ่งขึ้น[ 65 ]
การประเมินยังคงเป็นหัวข้อการวิจัยที่สำคัญ เนื่องจากการทดสอบที่มีอยู่อาจไม่สะท้อนถึงประสิทธิภาพในโลกแห่งความเป็นจริงหรือความเสี่ยงที่เกี่ยวข้องกับแบบจำลองการสร้างขนาดใหญ่ได้อย่างแม่นยำ[ 65 ]
ข้อควรพิจารณาทางจริยธรรมและผลกระทบต่อสังคม
โมเดล Transformer ที่ได้รับการฝึกฝนล่วงหน้าแบบสร้างข้อมูลได้ก่อให้เกิดข้อกังวลด้านจริยธรรมและสังคมหลายประการ โดยเฉพาะอย่างยิ่งเกี่ยวกับอคติ ข้อมูลที่ผิดพลาด และผลกระทบต่อสิ่งแวดล้อม โมเดลภาษาขนาดใหญ่สามารถสร้างและขยายรูปแบบที่มีอยู่ในข้อมูลการฝึกอบรม รวมถึงอคติทางสังคม ซึ่งอาจนำไปสู่ผลลัพธ์ที่ไม่เป็นธรรมหรือทำให้เข้าใจผิดได้[ 67 ] [ 68 ]
โมเดลเหล่านี้ยังเกี่ยวข้องกับการสร้างข้อมูลที่ไม่ถูกต้องหรือทำให้เข้าใจผิด เนื่องจากได้รับการออกแบบมาเพื่อสร้างข้อความที่ลื่นไหลมากกว่าการตรวจสอบความถูกต้องของข้อเท็จจริง ซึ่งส่งผลกระทบต่อการใช้งานในแอปพลิเคชันต่างๆ เช่น การสร้างเนื้อหาอัตโนมัติและการเผยแพร่ข้อมูล[ 69 ]
การฝึกอบรมโมเดลขนาดใหญ่ยังต้องการทรัพยากรการคำนวณจำนวนมหาศาล ซึ่งส่งผลให้มีการใช้พลังงานและต้นทุนด้านสิ่งแวดล้อมเพิ่มขึ้น ความกังวลเกี่ยวกับผลกระทบต่อสิ่งแวดล้อมของระบบ AI ขนาดใหญ่ทำให้เกิดการเรียกร้องให้มีวิธีการฝึกอบรมที่มีประสิทธิภาพมากขึ้นและความโปร่งใสในการรายงานการใช้ทรัพยากรมากขึ้น[ 70 ] [ 71 ]
ดูเพิ่มเติม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ทรานส์ฟอร์เมอร์ที่ได้รับการฝึกฝนล่วงหน้าแบบสร้างภาพ
ท รานส์ฟอร์เมอร์แบบฝึกฝนล่วงหน้าเชิงกำเนิด ( GPT ) เป็น โมเดลภาษาขนาดใหญ่ (LLM) ประเภทหนึ่ง ซึ่งใช้กันอย่างแพร่หลายในแชทบอทปัญญาประดิษฐ์เชิงกำเนิด GPTs...
พื้นหลัง
ในช่วงทศวรรษ 2010 อัลกอริทึม การเรียนรู้ของเครื่อง ที่ดีขึ้น คอมพิวเตอร์ที่มีประสิทธิภาพมากขึ้น และปริมาณวัสดุดิจิทัลที่เพิ่มขึ้น ทำให้เกิด การเติบโตอย่างรวดเร็ว ของ AI [ 8 ]
ประวัติศาสตร์
เมื่อวันที่ 11 มิถุนายน 2561 นักวิจัยและวิศวกรของ OpenAI ได้ตีพิมพ์บทความชื่อ "การปรับปรุงความเข้าใจภาษาด้วยการฝึกอบรมล่วงหน้าแบบสร้าง" ซึ่งแนะนำ GPT-1 ซึ่งเป็นโมเดล GPT ตัวแรก [ 11 ] โมเดลนี้ได้รับการออกแบบให้เป็น โมเดลภาษาขนาดใหญ่ แบบ Transformer...
แบบจำลองพื้นฐาน
แบบ จำลองพื้นฐาน คือแบบจำลอง AI ที่ได้รับการฝึกฝนบนข้อมูลจำนวนมากในระดับขนาดใหญ่ เพื่อให้สามารถปรับใช้กับงานปลายทางที่หลากหลายได้ [ 28 ] [ 29 ]