ทรานส์ฟอร์เมอร์ที่ได้รับการฝึกฝนล่วงหน้าแบบสร้างภาพ

Q: แบบจำลองพื้นฐาน

แบบ จำลองพื้นฐาน คือแบบจำลอง AI ที่ได้รับการฝึกฝนบนข้อมูลจำนวนมากในระดับขนาดใหญ่ เพื่อให้สามารถปรับใช้กับงานปลายทางที่หลากหลายได้ [ 28 ] [ 29 ]

ท รานส์ฟอร์เมอร์แบบฝึกฝนล่วงหน้าเชิงกำเนิด ( GPT ) เป็น โมเดลภาษาขนาดใหญ่ (LLM) ประเภทหนึ่ง^{[ 1 ]}^{[ 2 ]}^{[ 3 ]}ซึ่งใช้กันอย่างแพร่หลายในแชทบอท ปัญญาประดิษฐ์เชิงกำเนิด^[⁴^]^[⁵^] GPTs มีพื้นฐานมาจากสถาปัตยกรรมการเรียนรู้เชิงลึก ที่เรียกว่า ทรานส์ฟอร์เมอร์พวกมันได้รับการฝึกฝนล่วงหน้าบนชุดข้อมูล ขนาดใหญ่ ของเนื้อหาที่ไม่มีป้ายกำกับ และสามารถสร้างเนื้อหาใหม่ได้^[²^]^[³^]

OpenAIเป็นบริษัทแรกที่นำการฝึกฝนล่วงหน้าแบบสร้างข้อมูลมาใช้กับสถาปัตยกรรม Transformer โดยเปิด ตัวโมเดล GPT-1ในปี 2018 ^{[ 6 ]}นับตั้งแต่นั้นมา บริษัทก็ได้ปล่อยโมเดล GPT ขนาดใหญ่ออกมาอีกมากมาย แชทบอทChatGPTที่เปิดตัวในช่วงปลายปี 2022 (โดยใช้GPT-3.5 ) ตามมาด้วยแชทบอทของคู่แข่งจำนวนมาก ที่ ใช้ Transformer ที่ได้รับการฝึกฝนล่วงหน้าแบบสร้างข้อมูลของตนเองเพื่อสร้างข้อความ เช่นGemini , DeepSeekและClaude

GPT ส่วนใหญ่ใช้ในการสร้างข้อความ แต่สามารถฝึกฝนให้สร้างข้อมูลประเภทอื่นได้ ตัวอย่างเช่นGPT-4oสามารถประมวลผลและสร้างข้อความ รูปภาพ และเสียงได้^{[ 7 ]}เพื่อปรับปรุงประสิทธิภาพในงานที่ซับซ้อน GPT บางตัว เช่นOpenAI o3จะจัดสรรเวลาในการคำนวณมากขึ้นเพื่อวิเคราะห์ปัญหาก่อนที่จะสร้างเอาต์พุต และเรียกว่าโมเดลการให้เหตุผลในปี 2025 GPT-5ได้รับการเผยแพร่พร้อมกับเราเตอร์ที่เลือกโดยอัตโนมัติว่าจะใช้โมเดลที่เร็วกว่าหรือโมเดลการให้เหตุผลที่ช้ากว่าตามงานที่กำหนด

พื้นหลัง

ในช่วงทศวรรษ 2010 อัลกอริทึม การเรียนรู้ของเครื่อง ที่ดีขึ้น คอมพิวเตอร์ที่มีประสิทธิภาพมากขึ้น และปริมาณวัสดุดิจิทัลที่เพิ่มขึ้น ทำให้เกิด การเติบโตอย่างรวดเร็ว ของAI ^{[ 8 ]}

นอกจากนี้ แนวคิดของการฝึกอบรมล่วงหน้าแบบสร้าง (GP) ถือเป็นเทคนิคที่ได้รับการยอมรับมานานแล้วในด้านการเรียนรู้ของเครื่อง GP เป็นรูปแบบหนึ่งของการเรียนรู้แบบกำกับตนเองโดยที่แบบจำลองจะได้รับการฝึกอบรมก่อนบนชุดข้อมูลขนาดใหญ่ที่ไม่มีป้ายกำกับ (ขั้นตอน "การฝึกอบรมล่วงหน้า") เพื่อเรียนรู้ที่จะสร้างจุดข้อมูล จากนั้นแบบจำลองที่ได้รับการฝึกอบรมล่วงหน้านี้จะถูกปรับให้เข้ากับงานเฉพาะโดยใช้ชุดข้อมูลที่มีป้ายกำกับ (ขั้นตอน " การปรับแต่ง ") ^{[ 9 ]}

สถาปัตยกรรม Transformer สำหรับการเรียนรู้เชิงลึกเป็นเทคโนโลยีหลักของ GPT พัฒนาโดยนักวิจัยที่Googleและนำเสนอในบทความ " Attention Is All You Need " ซึ่งเผยแพร่ในปี 2017 สถาปัตยกรรม Transformer แก้ปัญหาประสิทธิภาพหลายอย่างที่เกี่ยวข้องกับ การออกแบบ โครงข่ายประสาทเทียมแบบวนซ้ำ (RNN) รุ่นเก่าสำหรับการประมวลผลภาษาธรรมชาติ (NLP) การใช้ กลไกความสนใจของสถาปัตยกรรมนี้ช่วยให้โมเดลสามารถประมวลผลลำดับข้อความทั้งหมดได้ในคราวเดียว ทำให้สามารถฝึกโมเดลขนาดใหญ่และซับซ้อนมากขึ้นได้^{[ 10 ]}ตั้งแต่ปี 2017 ระบบ NLP ที่ใช้ Transformer ที่มีอยู่สามารถประมวลผล ขุดค้น จัดระเบียบ เชื่อมต่อ เปรียบเทียบ และสรุปข้อความรวมถึงตอบคำถามจากอินพุตข้อความได้

ประวัติศาสตร์

เมื่อวันที่ 11 มิถุนายน 2561 นักวิจัยและวิศวกรของ OpenAI ได้ตีพิมพ์บทความชื่อ "การปรับปรุงความเข้าใจภาษาด้วยการฝึกอบรมล่วงหน้าแบบสร้าง" ซึ่งแนะนำGPT-1ซึ่งเป็นโมเดล GPT ตัวแรก^{[ 11 ]} โมเดลนี้ได้รับการออกแบบให้เป็น โมเดลภาษาขนาดใหญ่แบบ Transformer ที่ใช้การฝึกอบรมล่วงหน้าแบบสร้าง (GP) บนBookCorpus ซึ่งเป็น คลังข้อความที่หลากหลายตามด้วยการปรับแต่งแบบ แยกแยะ เพื่อเน้นไปที่งานภาษาเฉพาะ^{[ 12 ]} แนวทาง แบบกึ่งกำกับดูแลนี้ถือเป็นความก้าวหน้า โมเดล GPT ใช้เฉพาะส่วนถอดรหัสของสถาปัตยกรรม Transformer ซึ่งได้รับการฝึกอบรมล่วงหน้าเพื่อทำนายโทเค็น ถัดไป ในลำดับ^{[ 13 ]}^{[ 14 ]}ก่อนหน้านี้ โมเดลโครงข่ายประสาทเทียมที่มีประสิทธิภาพดีที่สุดในการประมวลผลภาษาธรรมชาติ (NLP) มักใช้การเรียนรู้แบบกำกับดูแลจากข้อมูลจำนวนมากที่ติดป้ายกำกับด้วยตนเอง การฝึกอบรมโมเดลภาษาขนาดใหญ่ด้วยแนวทางนี้จะมีค่าใช้จ่ายสูงและใช้เวลานานมาก^{[ 11 ]}

เมื่อวันที่ 14 กุมภาพันธ์ 2019 OpenAI ได้เปิดตัวGPT-2ซึ่งเป็นโมเดลขนาดใหญ่กว่าที่สามารถสร้างข้อความที่สอดคล้องกันได้ สร้างขึ้นโดยการขยายขนาดโดยตรงจากรุ่นก่อนหน้า โดยมีจำนวนพารามิเตอร์และขนาดชุดข้อมูลเพิ่มขึ้นถึง 10 เท่า GPT-2 มีพารามิเตอร์ 1.5 พันล้านตัวและได้รับการฝึกฝนบน WebText ซึ่งเป็นชุดข้อมูลขนาด 40 กิกะไบต์ที่มีเว็บเพจ 8 ล้านหน้า [ ^{15 ] [}^{13 ] เนื่องจาก}ความเสี่ยงจากการใช้งานในทางที่ผิด OpenAI จึงเลือกใช้ "การเผยแพร่แบบเป็นขั้นตอน" โดยเริ่มแรกเผยแพร่โมเดลเวอร์ชันขนาดเล็กกว่าก่อนที่จะเผยแพร่โมเดลขนาดเต็มที่มีพารามิเตอร์ 1.5 พันล้านตัวในเดือนพฤศจิกายน^{[ 16 ]}

เมื่อวันที่ 10 กุมภาพันธ์ 2020 ไมโครซอฟต์ได้เปิดตัว Turing Natural Language Generation ซึ่งอ้างว่าเป็น "โมเดลภาษาที่ใหญ่ที่สุดเท่าที่เคยมีการเผยแพร่มา โดยมีพารามิเตอร์ถึง 17 พันล้านตัว" โมเดลนี้มีประสิทธิภาพเหนือกว่าโมเดลภาษารุ่นก่อนหน้าทั้งหมดในงานต่างๆ รวมถึงการสรุปข้อความและการตอบคำถาม^{[ 17 ]}

เมื่อวันที่ 28 พฤษภาคม 2020 OpenAI ได้เปิดตัวGPT-3ซึ่งเป็นโมเดลที่มีพารามิเตอร์ 175 พันล้านตัวที่ได้รับการฝึกฝนบนชุดข้อมูลขนาดใหญ่กว่า GPT-2 นับเป็นความก้าวหน้าครั้งสำคัญในความสามารถในการเรียนรู้แบบ few-shot และ zero-shot โดยใช้ตัวอย่างเพียงเล็กน้อยก็สามารถทำงานต่างๆ ได้แม้ว่าจะไม่ได้ฝึกฝนมาโดยเฉพาะก็ตาม^{[ 18 ]}^{[ 14 ]}

หลังจากการเปิดตัว GPT-3 OpenAI เริ่มใช้การเรียนรู้แบบเสริมแรงจากข้อเสนอแนะของมนุษย์ (RLHF) เพื่อปรับพฤติกรรมของโมเดลให้สอดคล้องกับความชอบของมนุษย์มากขึ้น ซึ่งนำไปสู่การพัฒนาInstructGPTซึ่งเป็นเวอร์ชันที่ปรับแต่งแล้วของ GPT-3 OpenAI ได้ปรับปรุง InstructGPT ต่อไปเพื่อสร้างChatGPTซึ่งเป็นผลิตภัณฑ์แชทบอทหลักของ OpenAI ที่เปิดตัวเมื่อวันที่ 30 พฤศจิกายน 2022 ^{[ 19 ]} ChatGPT เดิมทีใช้GPT-3.5 เป็นพื้นฐาน แต่ต่อมาได้เปลี่ยนไปใช้ โมเดล GPT-4ซึ่งเปิดตัวเมื่อวันที่ 14 มีนาคม 2023 ^{[ 20 ]}^{[ 21 ]} GPT-4 ยังถูกรวมเข้ากับส่วนต่างๆ ของแอปพลิเคชันหลายตัว รวมถึงMicrosoft Copilot , GitHub Copilot , Snapchat , Khan AcademyและDuolingo ^{[ 22 ]}

ความนิยมอย่างมหาศาลของ ChatGPT กระตุ้นให้เกิดการพัฒนาระบบที่ใช้ GPT แข่งขันกันอย่างแพร่หลายจากองค์กรอื่นๆEleutherAI ได้เปิด ตัวโมเดลแบบเปิดน้ำหนักหลายรุ่นรวมถึงGPT-J ในปี 2021 ต่อมาบริษัทเทคโนโลยีรายใหญ่อื่นๆ ก็ได้พัฒนา ^{โมเดล} GPT ของตนเอง เช่นPaLMและGeminiของGoogleรวมถึงLlamaของMeta AI [ ²³^]

โมเดล GPT รุ่นต่อมาจำนวนมากได้รับการฝึกฝนให้เป็นแบบมัลติโมดอล (สามารถประมวลผลหรือสร้างข้อมูลได้หลายประเภท) ตัวอย่างเช่นGPT-4oสามารถประมวลผลและสร้างทั้งข้อความ รูปภาพ และเสียงได้^{[ 24 ]}นอกจากนี้ โมเดล GPT เช่นo3และDeepSeek R1ยังได้รับการฝึกฝนด้วยการเรียนรู้แบบเสริมแรง เพื่อสร้างการให้เหตุผล แบบลำดับขั้นความคิดหลายขั้นตอนก่อนที่จะได้คำตอบสุดท้าย ซึ่งช่วยแก้ปัญหาที่ซับซ้อนในโดเมนต่างๆ เช่น คณิตศาสตร์^{[ 25 ]}

เมื่อวันที่ 7 สิงหาคม พ.ศ. 2568 OpenAI ได้เผยแพร่GPT-5ซึ่งมีเราเตอร์ที่เลือกโดยอัตโนมัติว่าจะใช้โมเดลที่เร็วกว่าหรือโมเดลการให้เหตุผลที่ช้ากว่าตามงาน^{[ 26 ]}^{[ 27 ]}

แบบจำลองพื้นฐาน

แบบจำลองพื้นฐานคือแบบจำลอง AI ที่ได้รับการฝึกฝนบนข้อมูลจำนวนมากในระดับขนาดใหญ่ เพื่อให้สามารถปรับใช้กับงานปลายทางที่หลากหลายได้^{[ 28 ]}^{[ 29 ]}

โมเดล GPT-n ซีรีส์ ล่าสุดของOpenAIคือGPT- 5 ^[³⁰^]

โมเดลอื่นๆ ที่คล้ายกัน ได้แก่PaLMของGoogle ซึ่ง ^เป็นโมเดลพื้นฐานขนาดใหญ่ที่ได้รับการเปรียบเทียบกับGPT-3และเปิดให้ผู้พัฒนาใช้งานได้ผ่านAPI [ ³¹^]^[³²^]และ GPT-JT ของ Together ซึ่งมีรายงานว่าเป็น ทางเลือก โอเพนซอร์สที่ มีประสิทธิภาพใกล้เคียง กับ GPT-3 มากที่สุด (และได้มาจากGPT โอเพนซอร์สรุ่นก่อนหน้า⁾ [ ³³^]^Meta AI (เดิมคือFacebook ) ยังมีโมเดลภาษาขนาดใหญ่พื้นฐานแบบทรานส์ฟอร์เมอร์เชิงกำเนิดที่เรียกว่าLLaMA [ ³⁴^]

GPT พื้นฐานยังสามารถใช้รูปแบบอื่นนอกเหนือจากข้อความสำหรับการป้อนข้อมูลและ/หรือการส่งออกGPT-4เป็น LLM แบบหลายโมดอลที่สามารถประมวลผลข้อความและรูปภาพเป็นอินพุตได้ (แม้ว่าเอาต์พุตจะจำกัดเฉพาะข้อความก็ตาม) ^{[ 35 ]}สำหรับเอาต์พุต แบบหลายโมด อล โมเดลที่ใช้ Transformer แบบสร้างบางโมเดลถูกนำมาใช้สำหรับ เทคโนโลยี ข้อความเป็นรูปภาพเช่นการแพร่กระจาย^{[ 36 ]}และการถอดรหัสแบบขนาน^{[ 37 ]}โมเดลประเภทนี้สามารถทำหน้าที่เป็นโมเดลพื้นฐานภาพ (VFM) สำหรับการพัฒนาระบบปลายทางที่สามารถทำงานกับรูปภาพได้^{[ 38 ]}

สถาปัตยกรรมหม้อแปลงไฟฟ้าที่มีประสิทธิภาพ

ความต้องการด้านการคำนวณและหน่วยความจำของโมเดลที่ใช้ Transformerเพิ่มขึ้นอย่างมากเมื่อขยายขนาดให้ใหญ่ขึ้นและลำดับอินพุตยาวขึ้น กลไก Self-attention มาตรฐาน มีความซับซ้อนแบบกำลังสองเมื่อเทียบกับความยาวของลำดับอินพุต ดังที่อธิบายไว้ในAttention Is All You Need ^{[ 39 ]}

นักวิจัยเสนอการปรับปรุงประสิทธิภาพหลายประการ เช่น กลไกความสนใจแบบเบาบางและสถาปัตยกรรมที่มีประสิทธิภาพด้านหน่วยความจำ ซึ่งช่วยลดต้นทุนการคำนวณในขณะที่รองรับหน้าต่างบริบทที่ยาวขึ้น^{[ 40 ]} โมเดลต่างๆ เช่น BigBird, Reformer และ FlashAttention แสดงให้เห็นถึงรูปแบบความสนใจที่มีโครงสร้างหรือการคำนวณที่ได้รับการปรับให้เหมาะสมเพื่อปรับปรุงความสามารถในการปรับขนาดและประสิทธิภาพ^{[ 41 ]}^{[ 42 ]}^{[ 43 ]}

สิ่งนี้ช่วยให้โมเดลภาษาขนาดใหญ่สามารถประมวลผลลำดับอินพุตที่ยาวได้อย่างมีประสิทธิภาพ โดยใช้หน่วยความจำและการคำนวณลดลงทั้งในระหว่างการฝึกอบรมและการอนุมาน

กฎการปรับขนาด

กฎการปรับขนาดอธิบายความสัมพันธ์เชิงประจักษ์ระหว่างประสิทธิภาพของโมเดลภาษา ขนาดใหญ่ และปัจจัยต่างๆ เช่น ขนาดโมเดล ขนาดชุดข้อมูล และทรัพยากรการคำนวณ งานเชิงประจักษ์พบว่าประสิทธิภาพมักจะเป็นไปตามความสัมพันธ์แบบกำลังโดยประมาณเมื่อปัจจัยเหล่านี้เพิ่มขึ้น^{[ 44 ]}

โดยทั่วไปแล้วโมเดลขนาดใหญ่ที่ฝึกฝนด้วยข้อมูลจำนวนมากจะมีการสูญเสียการฝึกฝนน้อยกว่าและมีการวางนัยทั่วไปที่ดีกว่า งานวิจัยในภายหลังชี้ให้เห็นว่าประสิทธิภาพไม่ได้ถูกกำหนดโดยจำนวนพารามิเตอร์เพียงอย่างเดียว แต่ขึ้นอยู่กับความสมดุลระหว่างขนาดของโมเดล ข้อมูล และการคำนวณในระหว่างการฝึกฝน^{[ 45 ]}

ข้อสังเกตเหล่านี้มีอิทธิพลต่อการพัฒนาโมเดล GPT รุ่นต่อๆ มา โดยเฉพาะอย่างยิ่งในการตัดสินใจเกี่ยวกับการออกแบบสถาปัตยกรรม องค์ประกอบของชุดข้อมูล และกลยุทธ์การฝึกอบรม

ความสามารถที่เกิดขึ้นใหม่

ความสามารถที่เกิดขึ้นใหม่ หมายถึง ความสามารถที่ปรากฏในแบบจำลองภาษาขนาดใหญ่เท่านั้น เมื่อถึงขนาดที่กำหนด และไม่มีอยู่ในแบบจำลองเวอร์ชันที่เล็กกว่า ความสามารถเหล่านี้ถือว่า "เกิดขึ้นใหม่" เพราะเกิดขึ้นเมื่อขนาดของแบบจำลอง ข้อมูลการฝึกอบรม และการคำนวณเพิ่มขึ้น^{[ 46 ]}^{[ 47 ]}

ตัวอย่างของความสามารถที่เกิดขึ้นใหม่ ได้แก่ การให้เหตุผลแบบหลายขั้นตอน การเรียนรู้ตามบริบท (ความสามารถในการทำงานตามตัวอย่างที่ให้ไว้ในคำถามโดยไม่ต้องฝึกฝนเพิ่มเติม) และประสิทธิภาพที่ดีขึ้นในการทดสอบด้านภาษาและการให้เหตุผลที่ซับซ้อน

งานวิจัยชี้ให้เห็นว่าความสามารถเหล่านี้ไม่ได้เพิ่มขึ้นแบบเชิงเส้น แต่จะปรากฏขึ้นเมื่อโมเดลมีขนาดและระดับการฝึกอบรมเกินเกณฑ์ที่กำหนด^{[ 47 ]}

ปรากฏการณ์นี้มีอิทธิพลต่อการพัฒนาโมเดล GPT ขนาดใหญ่ และมีส่วนช่วยเพิ่มประสิทธิภาพของโมเดลเหล่านั้นในงานหลากหลายประเภท

ประเด็นเกี่ยวกับแบรนด์

OpenAIซึ่งสร้างทรานส์ฟอร์เมอร์แบบฝึกฝนล่วงหน้า (GPT) ตัวแรกในปี 2018 ได้ยืนยันในปี 2023 ว่า "GPT" ควรได้รับการพิจารณาว่าเป็นแบรนด์ของ OpenAI ^{[ 48 ]}ในเดือนเมษายน 2023 OpenAI ได้แก้ไขแนวทางแบรนด์ในข้อกำหนดในการให้บริการเพื่อระบุว่าธุรกิจอื่น ๆ ที่ใช้API ของตน ในการให้บริการ AI จะไม่สามารถรวม "GPT" ไว้ในชื่อหรือแบรนด์ดังกล่าวได้อีกต่อไป^{[ 49 ]}ในเดือนพฤษภาคม 2023 OpenAI ได้ว่าจ้างบริการจัดการแบรนด์เพื่อแจ้งให้ลูกค้า API ทราบถึงนโยบายนี้ แม้ว่าการแจ้งเตือนเหล่านี้จะไม่ได้ดำเนินการเรียกร้องทางกฎหมายอย่างชัดเจน (เช่น การกล่าวหาว่าละเมิดเครื่องหมายการค้าหรือการเรียกร้องให้ยุติการกระทำ ) ^{[ 48 ]}ณ เดือนพฤศจิกายน 2023 OpenAI ยังคงห้ามผู้ได้รับอนุญาต API ของตนตั้งชื่อผลิตภัณฑ์ของตนเองด้วยคำว่า "GPT" ^{[ 50 ]}แต่ได้เริ่มอนุญาตให้สมาชิก ChatGPT Plus สร้าง "เวอร์ชันที่กำหนดเองของ ChatGPT" ที่เรียกว่าGPTบนเว็บไซต์ OpenAI ^{[ 51 ]}ข้อกำหนดในการให้บริการของ OpenAI ระบุว่าสมาชิกสามารถใช้ "GPT" ในชื่อของผลิตภัณฑ์เหล่านี้ได้ แม้ว่าจะ "ไม่แนะนำ" ก็ตาม^{[ 50 ]}

ในทำนองเดียวกัน OpenAI ได้ยื่นคำขอต่อสำนักงานสิทธิบัตรและเครื่องหมายการค้าแห่งสหรัฐอเมริกา (USPTO) เพื่อขอจดทะเบียนเครื่องหมายการค้า ภายในประเทศ สำหรับคำว่า "GPT" ในสาขา AI ^{[ 48 ]} OpenAI พยายามเร่งดำเนินการคำขอ แต่ USPTO ปฏิเสธคำขอนั้นในเดือนเมษายน 2023 ^{[ 52 ]}ในเดือนพฤษภาคม 2023 USPTO ตอบกลับคำขอโดยระบุว่า "GPT" เป็นทั้งคำอธิบายและคำทั่วไป^{[ 53 ]}ณ เดือนพฤศจิกายน 2023 OpenAI ยังคงดำเนินการตามข้อโต้แย้งของตนต่อไป

สำหรับการคุ้มครองเครื่องหมายการค้าประเภทใดหรือขอบเขตใดในสหรัฐอเมริกา OpenAI จะต้องพิสูจน์ว่าคำดังกล่าวมีความ " โดดเด่น " อย่างแท้จริงสำหรับผลิตภัณฑ์เฉพาะของตน นอกเหนือจากการเป็นคำทางเทคนิคที่กว้างขึ้นสำหรับเทคโนโลยีประเภทนั้น รายงานข่าวบางฉบับในปี 2023 แนะนำว่า OpenAI อาจสามารถจดทะเบียนเครื่องหมายการค้าได้โดยอ้อมจากชื่อเสียงของผลิตภัณฑ์แชทบอท ที่ใช้ GPT ของตน ChatGPT [ ⁵²^]^[⁵⁴^]ซึ่ง OpenAI ได้ ขอความคุ้มครอง แยกต่างหาก (และได้พยายามบังคับใช้ให้เข้มงวดมากขึ้น) ^[⁵⁵^]^{รายงาน}อื่นๆ ระบุว่าการจดทะเบียนคำว่า "GPT" เพียงอย่างเดียวดูเหมือนจะไม่ได้รับการอนุมัติ^[⁴⁸^]^[⁵⁶^]เนื่องจากมีการใช้บ่อยครั้งเป็นคำทั่วไปเพื่ออ้างถึงระบบ AI ที่เกี่ยวข้องกับทรานส์ฟอร์เมอร์ที่ได้รับการฝึกฝนล่วงหน้าแบบสร้างสรรค์^[³^]^[⁵⁷^]^[⁵⁸^]^[⁵⁹^]ไม่ว่าในกรณีใด สิทธิพิเศษในคำดังกล่าวอาจเกิดขึ้นในสหรัฐอเมริกา ผู้อื่นจะต้องหลีกเลี่ยงการใช้คำดังกล่าวสำหรับผลิตภัณฑ์หรือบริการที่คล้ายคลึงกันในลักษณะที่อาจก่อให้เกิดความสับสน^[⁵⁶^]^[⁶⁰^]หากสิทธิ์ดังกล่าวขยายวงกว้างจนครอบคลุมการใช้งานอื่นๆ ที่ได้รับการยอมรับในสาขานี้ หลักการใช้เครื่องหมายการค้าที่เป็นธรรมเชิงพรรณนาก็ยังคงสามารถใช้งานที่ไม่เกี่ยวข้องกับแบรนด์ได้ต่อไป^[⁶¹^]

ในสหภาพยุโรป สำนักงานทรัพย์สินทางปัญญาแห่งสหภาพยุโรปได้จดทะเบียน "GPT" เป็นเครื่องหมายการค้าของ OpenAI ในฤดูใบไม้ผลิปี 2023 อย่างไรก็ตาม ตั้งแต่ฤดูใบไม้ผลิปี 2024 การจดทะเบียนดังกล่าวถูกท้าทายและอยู่ระหว่างรอการยกเลิก^{[ 62 ]}

ในสวิตเซอร์แลนด์สถาบันทรัพย์สินทางปัญญาแห่งสหพันธรัฐสวิสได้จดทะเบียน "GPT" เป็นเครื่องหมายการค้าของ OpenAI ในฤดูใบไม้ผลิปี 2023 ^{[ 63 ]}^{[ 64 ]}

การประเมินและการเปรียบเทียบมาตรฐาน

การประเมินโมเดล Transformer ที่ได้รับการฝึกฝนล่วงหน้าแบบสร้างนั้นดำเนินการโดยใช้เกณฑ์มาตรฐานและตัวชี้วัดต่างๆ ซึ่งมีจุดมุ่งหมายเพื่อประเมินประสิทธิภาพของโมเดลในงานต่างๆ แนวทางทั่วไป ได้แก่ ความแม่นยำบนชุดข้อมูลมาตรฐาน รวมถึงคุณลักษณะอื่นๆ เช่น ความทนทาน อคติ และความเป็นพิษ^{[ 65 ]}

โดยทั่วไปแล้วโมเดลเหล่านี้จะถูกทดสอบกับงานต่างๆ เช่น การทำความเข้าใจภาษาธรรมชาติ การให้เหตุผล การตอบคำถาม และการสร้างโค้ด บางครั้งโมเดลเหล่านี้จะรวมงานหลายอย่างเข้าด้วยกันเพื่อประเมินประสิทธิภาพของโมเดลในวงกว้างขึ้นในหลายๆ ด้าน^{[ 66 ]}

แนวทางล่าสุดขยายการประเมินเหล่านี้ให้ครอบคลุมคุณลักษณะอื่นๆ เช่น ความเป็นธรรม ประสิทธิภาพ และความโปร่งใส เพื่อให้ได้การประเมินโมเดลเหล่านี้ที่แม่นยำยิ่งขึ้น^{[ 65 ]}

การประเมินยังคงเป็นหัวข้อการวิจัยที่สำคัญ เนื่องจากการทดสอบที่มีอยู่อาจไม่สะท้อนถึงประสิทธิภาพในโลกแห่งความเป็นจริงหรือความเสี่ยงที่เกี่ยวข้องกับแบบจำลองการสร้างขนาดใหญ่ได้อย่างแม่นยำ^{[ 65 ]}

ข้อควรพิจารณาทางจริยธรรมและผลกระทบต่อสังคม

โมเดล Transformer ที่ได้รับการฝึกฝนล่วงหน้าแบบสร้างข้อมูลได้ก่อให้เกิดข้อกังวลด้านจริยธรรมและสังคมหลายประการ โดยเฉพาะอย่างยิ่งเกี่ยวกับอคติ ข้อมูลที่ผิดพลาด และผลกระทบต่อสิ่งแวดล้อม โมเดลภาษาขนาดใหญ่สามารถสร้างและขยายรูปแบบที่มีอยู่ในข้อมูลการฝึกอบรม รวมถึงอคติทางสังคม ซึ่งอาจนำไปสู่ผลลัพธ์ที่ไม่เป็นธรรมหรือทำให้เข้าใจผิดได้^{[ 67 ]}^{[ 68 ]}

โมเดลเหล่านี้ยังเกี่ยวข้องกับการสร้างข้อมูลที่ไม่ถูกต้องหรือทำให้เข้าใจผิด เนื่องจากได้รับการออกแบบมาเพื่อสร้างข้อความที่ลื่นไหลมากกว่าการตรวจสอบความถูกต้องของข้อเท็จจริง ซึ่งส่งผลกระทบต่อการใช้งานในแอปพลิเคชันต่างๆ เช่น การสร้างเนื้อหาอัตโนมัติและการเผยแพร่ข้อมูล^{[ 69 ]}

การฝึกอบรมโมเดลขนาดใหญ่ยังต้องการทรัพยากรการคำนวณจำนวนมหาศาล ซึ่งส่งผลให้มีการใช้พลังงานและต้นทุนด้านสิ่งแวดล้อมเพิ่มขึ้น ความกังวลเกี่ยวกับผลกระทบต่อสิ่งแวดล้อมของระบบ AI ขนาดใหญ่ทำให้เกิดการเรียกร้องให้มีวิธีการฝึกอบรมที่มีประสิทธิภาพมากขึ้นและความโปร่งใสในการรายงานการใช้ทรัพยากรมากขึ้น^{[ 70 ]}^{[ 71 ]}

ดูเพิ่มเติม

การเปลี่ยนแปลงวิสัยทัศน์

[ 1 ]

[ 2 ]

[ 3 ]

[

[

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

[ 12 ]

[ 13 ]

[ 14 ]

15 ] [

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

โมเดล

[ 24 ]

[ 25 ]

[ 26 ]

[ 28 ]

[ 29 ]

[

เป็น

[

)

33

[ 35 ]

[ 36 ]

[ 37 ]

[ 38 ]

[ 39 ]

[ 40 ]

[ 41 ]

[ 42 ]

[ 43 ]

[ 44 ]

[ 45 ]

[ 46 ]

[ 47 ]

[ 48 ]

[ 49 ]

[ 50 ]

[ 51 ]

[ 52 ]

[ 53 ]

54

[

[

[

[

[

[

[

[ 62 ]

[ 63 ]

[ 64 ]

[ 65 ]

[ 66 ]

[ 67 ]

[ 68 ]

[ 69 ]

[ 70 ]

[ 71 ]