อ่าน 13 นาที
ปฏิสัมพันธ์หลายรูปแบบ
การโต้ตอบแบบหลายรูปแบบ ช่วยให้ผู้ใช้มี วิธีการโต้ตอบ กับระบบ ได้หลากหลายวิธี อินเทอร์เฟซ แบบหลายรูปแบบ มีเครื่องมือที่แตกต่างกันหลายอย่างสำหรับ การป้อนและแสดงผล ข้อมูล
ปฏิสัมพันธ์หลายรูปแบบ
การโต้ตอบแบบหลายรูปแบบช่วยให้ผู้ใช้มีวิธีการโต้ตอบกับระบบ ได้หลากหลายวิธี อินเทอร์เฟซ แบบหลายรูปแบบมีเครื่องมือที่แตกต่างกันหลายอย่างสำหรับการป้อนและแสดงผลข้อมูล
ปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์แบบหลายรูปแบบเกี่ยวข้องกับการสื่อสารที่เป็นธรรมชาติกับสภาพแวดล้อมเสมือนจริงและสภาพแวดล้อมทางกายภาพ ช่วยให้การสื่อสารระหว่างผู้ใช้และระบบอัตโนมัติเป็นไปอย่างอิสระและเป็นธรรมชาติ โดยอนุญาตให้มีการป้อนข้อมูลที่ยืดหยุ่น (เสียง การเขียนด้วยลายมือ ท่าทาง) และการแสดงผล ( การสังเคราะห์เสียงกราฟิก) การหลอมรวมหลายรูปแบบเป็นการผสมผสานข้อมูลจากรูปแบบต่างๆ เพื่อแก้ไขความกำกวม
อินเทอร์เฟซแบบมัลติโมดอลแบ่งออกเป็นสองกลุ่มหลัก ได้แก่ กลุ่มที่เน้นวิธีการป้อนข้อมูลทางเลือก และกลุ่มที่เน้นการป้อนข้อมูลและแสดงผลแบบผสมผสาน การป้อนข้อมูลหลายรูปแบบช่วยเพิ่มความสะดวกในการใช้งาน ซึ่งเป็นประโยชน์ต่อผู้ใช้ที่มีความบกพร่องทางร่างกาย อุปกรณ์เคลื่อนที่มักใช้XHTML+เสียงในการป้อนข้อมูลระบบไบโอเมตริกแบบมัลติโมดอลใช้ไบโอเมตริกหลายประเภทเพื่อเอาชนะข้อจำกัดต่างๆ การวิเคราะห์ ความรู้สึกแบบ มัลติโมดอ ลเกี่ยวข้องกับการวิเคราะห์ข้อมูลข้อความ เสียง และภาพ เพื่อจำแนกความรู้สึกGPT-4 ซึ่งเป็นแบบจำลองภาษาแบบมัลติโมดอล ผสานรวมรูปแบบต่างๆ เพื่อปรับปรุงความเข้าใจภาษา ระบบแสดงผลแบบมัลติโมดอลนำเสนอข้อมูลผ่านสัญญาณภาพและเสียง โดยใช้การสัมผัสและการดมกลิ่น การหลอมรวมแบบมัลติโมดอลผสานรวมข้อมูลจากรูปแบบต่างๆ โดยใช้การหลอมรวมแบบอิงการจดจำ แบบอิงการตัดสินใจ และแบบผสมผสานหลายระดับ
ความกำกวมในข้อมูลป้อนเข้าหลายรูปแบบได้รับการแก้ไขผ่านวิธีการป้องกัน การแก้ไขภายหลัง และการแก้ไขโดยประมาณ
การแนะนำ
ปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์แบบหลายโมดอล หมายถึง "การปฏิสัมพันธ์กับสภาพแวดล้อมเสมือนจริงและทางกายภาพผ่านรูปแบบการสื่อสารที่เป็นธรรมชาติ" [ 1 ]ซึ่งหมายความว่าปฏิสัมพันธ์แบบหลายโมดอลช่วยให้การสื่อสารมีความอิสระและเป็นธรรมชาติมากขึ้น โดยเชื่อมต่อผู้ใช้กับระบบอัตโนมัติทั้งในด้านการป้อนข้อมูลและการส่งออก ข้อมูล [ 2 ]โดยเฉพาะอย่างยิ่ง ระบบหลายโมดอลสามารถนำเสนอสภาพแวดล้อมที่ยืดหยุ่น มีประสิทธิภาพ และใช้งานได้จริง ทำให้ผู้ใช้สามารถโต้ตอบผ่านรูปแบบการป้อนข้อมูล เช่นการพูด การ เขียนด้วยลายมือท่าทางมือและการมองและรับข้อมูลจากระบบผ่านรูปแบบการส่งออกข้อมูล เช่น การสังเคราะห์เสียง กราฟิกอัจฉริยะ และรูปแบบอื่นๆ ที่ผสมผสานกันอย่างเหมาะสม จากนั้น ระบบหลายโมดอลจะต้องรับรู้ข้อมูลป้อนเข้าจากรูปแบบต่างๆ และรวมเข้าด้วยกันตามข้อจำกัดด้านเวลาและบริบท[ 3 ]เพื่อให้สามารถตีความได้ กระบวนการนี้เรียกว่าการหลอมรวมหลายโมดอล และเป็นหัวข้อของงานวิจัยหลายชิ้นตั้งแต่ทศวรรษที่ 1990 จนถึงปัจจุบัน[ 4 ] [ 5 ] [ 6 ] [ 7 ] [ 8 ] [ 9 ] [ 10 ] [ 11 ]อินพุตที่หลอมรวมจะถูกตีความโดยระบบ ความเป็นธรรมชาติและความยืดหยุ่นสามารถสร้างการตีความได้มากกว่าหนึ่งแบบสำหรับแต่ละโมดาลิตี้ (ช่องสัญญาณ) ที่แตกต่างกัน และสำหรับการใช้งานพร้อมกัน และด้วยเหตุนี้จึงสามารถสร้างความกำกวมแบบหลายโมดาลิตี้ได้[ 12 ]โดยทั่วไปเนื่องจากความไม่แม่นยำ เสียงรบกวน หรือปัจจัยอื่น ๆ ที่คล้ายคลึงกัน สำหรับการแก้ปัญหาความกำกวม ได้มีการเสนอวิธีการหลายวิธี[ 13 ] [ 14 ] [ 15 ] [ 16 ] [ 17 ] [ 18 ] ในที่สุดระบบจะส่งเอาต์พุตกลับไปยังผู้ใช้ผ่านช่องสัญญาณโมดาลิตี้ต่างๆ (แยกส่วน) ที่จัดเรียงตามการตอบรับที่สอดคล้องกัน (การแยกส่วน) [ 19 ] การใช้งานอุปกรณ์เคลื่อนที่ เซ็นเซอร์ และเทคโนโลยีเว็บอย่างแพร่หลายสามารถนำเสนอทรัพยากรการคำนวณที่เพียงพอเพื่อจัดการกับความซับซ้อนที่เกิดจากการโต้ตอบแบบหลายโมดา ลิตี้ “การใช้คลาวด์เพื่อนำทรัพยากรการคำนวณร่วมกันมาใช้ในการจัดการความซับซ้อนของการโต้ตอบแบบหลายรูปแบบถือเป็นโอกาส ในความเป็นจริง การประมวลผลแบบคลาวด์ช่วยให้สามารถส่งมอบทรัพยากรการคำนวณที่ปรับขนาดได้และกำหนดค่าได้ร่วมกัน ซึ่งสามารถจัดสรรและปล่อยได้แบบไดนามิกและอัตโนมัติ” [ 20 ]]
อินพุตหลายรูปแบบ
อินเทอร์เฟซมัลติโมดอลสองกลุ่มหลักได้รวมเข้าด้วยกัน กลุ่มหนึ่งเกี่ยวข้องกับวิธีการป้อนข้อมูลทางเลือก และอีกกลุ่มหนึ่งเกี่ยวข้องกับการป้อนข้อมูล/แสดงผลแบบผสมผสาน กลุ่มแรกของอินเทอร์เฟซได้รวมโหมดการป้อนข้อมูลของผู้ใช้ที่หลากหลายนอกเหนือจากการป้อนข้อมูล/แสดงผลด้วยแป้นพิมพ์และเมาส์แบบดั้งเดิมเช่นเสียงปากกาการสัมผัส ท่าทางมือ[ 21 ]การมอง และการเคลื่อนไหวของศีรษะและร่างกาย[ 22 ]อินเทอร์เฟซดังกล่าวที่พบได้บ่อยที่สุดคือการรวมโหมดภาพ (เช่น จอแสดงผล แป้นพิมพ์ และเมาส์) เข้ากับโหมดเสียง ( การรู้จำเสียงพูดสำหรับการป้อนข้อมูลการสังเคราะห์เสียงพูดและเสียงที่บันทึกไว้สำหรับการแสดงผล) อย่างไรก็ตาม อาจใช้โหมดอื่นๆ เช่น การป้อนข้อมูลด้วยปากกา หรือ การป้อน ข้อมูล /แสดงผลแบบสัมผัส อินเทอร์เฟซผู้ใช้มัลติโมดอลเป็นพื้นที่วิจัยในปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ (HCI)
ข้อดีของการมีช่องทางการป้อนข้อมูลหลายรูปแบบคือการใช้งาน ที่ง่ายขึ้น : จุดอ่อนของช่องทางหนึ่งจะถูกชดเชยด้วยจุดแข็งของอีกช่องทางหนึ่ง บนอุปกรณ์พกพาที่มีอินเทอร์เฟซภาพและแป้นพิมพ์ขนาดเล็ก คำบางคำอาจพิมพ์ยากแต่พูดง่ายมาก (เช่นPoughkeepsie ) ลองนึกภาพว่าคุณจะเข้าถึงและค้นหาข้อมูลใน แคตตาล็อก สื่อดิจิทัลจากอุปกรณ์หรือกล่องรับสัญญาณเหล่านี้ได้อย่างไร และในตัวอย่างจริง ตัวอย่างหนึ่งคือ ข้อมูลผู้ป่วยในห้องผ่าตัดจะถูกเข้าถึงด้วยวาจาโดยสมาชิกในทีมผ่าตัดเพื่อรักษาสภาพแวดล้อมที่ปลอดเชื้อ และนำเสนอในรูปแบบเสียงและภาพแบบเรียลไทม์เพื่อเพิ่มความเข้าใจให้มากที่สุด
อินเทอร์เฟซผู้ใช้แบบป้อนข้อมูลหลายรูปแบบมีผลกระทบต่อการเข้าถึง [ 23 ] แอปพลิเคชันหลายรูปแบบที่ออกแบบมาอย่างดีสามารถใช้งานได้โดยผู้ที่มีความบกพร่องหลากหลายประเภท ผู้ใช้ที่มีความบกพร่องทางการมองเห็นจะใช้โหมดเสียงร่วมกับการป้อนข้อมูลด้วยแป้นพิมพ์ ผู้ใช้ที่มีความบกพร่องทางการได้ยินจะใช้โหมดภาพร่วมกับการป้อนข้อมูลด้วยเสียงพูด ผู้ใช้รายอื่น ๆ จะมีความบกพร่องตามสถานการณ์ (เช่น สวมถุงมือในสภาพแวดล้อมที่มีเสียงดังมาก ขับรถ หรือต้องป้อนหมายเลขบัตรเครดิตในที่สาธารณะ) และจะใช้โหมดที่เหมาะสมตามต้องการ ในทางกลับกัน แอปพลิเคชันหลายรูปแบบที่ต้องการให้ผู้ใช้สามารถใช้งานทุกโหมดได้นั้นได้รับการออกแบบมาไม่ดีนัก
รูปแบบการป้อนข้อมูลหลายรูปแบบที่พบได้บ่อยที่สุดในตลาดคือการใช้ภาษามาร์กอัปเว็บXHTML+Voice (หรือที่รู้จักกันในชื่อ X+V) ซึ่งเป็น ข้อกำหนด แบบเปิด ที่พัฒนาโดยIBM , MotorolaและOpera SoftwareปัจจุบันX+Vอยู่ระหว่างการพิจารณาโดยW3Cและรวมเอาข้อแนะนำของ W3C หลายประการเข้าด้วยกัน รวมถึงXHTMLสำหรับการมาร์กอัปภาพVoiceXMLสำหรับการมาร์กอัปเสียง และXML Eventsซึ่งเป็นมาตรฐานสำหรับการรวมภาษา XML เข้าด้วยกัน เบราว์เซอร์หลายรูปแบบที่รองรับX+Vได้แก่ IBM WebSphere Everyplace Multimodal Environment, OperaสำหรับEmbedded LinuxและWindowsและACCESS Systems NetFrontสำหรับWindows Mobileในการพัฒนาแอปพลิเคชันหลายรูปแบบนักพัฒนาซอฟต์แวร์อาจใช้ชุดพัฒนาซอฟต์แวร์เช่น IBM WebSphere Multimodal Toolkit ซึ่งใช้เฟรมเวิร์กEclipse แบบ โอเพนซอร์ส ซึ่งรวมถึงดีบักเกอร์ตัวแก้ไขและตัว จำลองX+V
ไบโอเมตริกส์แบบหลายรูปแบบ
ระบบไบโอเมตริกแบบมัลติโมดอลใช้เซ็นเซอร์หรือไบโอเมตริกหลายตัวเพื่อเอาชนะข้อจำกัดของระบบไบโอเมตริกแบบยูนิโมดอล[ 24 ]ตัวอย่างเช่น ระบบการจดจำม่านตาอาจมีปัญหาเนื่องจากม่านตาเสื่อมสภาพตามวัย[ 25 ]และการจดจำลายนิ้วมือแบบอิเล็กทรอนิกส์อาจแย่ลงเนื่องจากลายนิ้วมือสึกหรอหรือถูกตัด ในขณะที่ระบบไบโอเมตริกแบบยูนิโมดอลมีข้อจำกัดในเรื่องความสมบูรณ์ของตัวระบุ แต่ก็ไม่น่าเป็นไปได้ที่ระบบยูนิโมดอลหลายระบบจะประสบปัญหาข้อจำกัดที่เหมือนกัน ระบบไบโอเมตริกแบบมัลติโมดอลสามารถรับชุดข้อมูลจากเครื่องหมายเดียวกัน (เช่น ภาพม่านตาหลายภาพ หรือการสแกนนิ้วเดียวกัน) หรือข้อมูลจากไบโอเมตริกที่แตกต่างกัน (ต้องใช้การสแกนลายนิ้วมือ และการใช้การจดจำเสียงรหัสผ่านที่พูด) [ 26 ] [ 27 ]
ระบบไบโอเมตริกแบบมัลติโมดอลสามารถผสานระบบแบบโมโนโมดอลเหล่านี้ได้แบบเรียงลำดับ พร้อมกัน ผสมผสานกัน หรือแบบอนุกรม ซึ่งหมายถึงโหมดการผสานรวมแบบลำดับ แบบขนาน แบบลำดับชั้น และแบบอนุกรม ตามลำดับ การผสานรวมข้อมูลไบโอเมตริกสามารถเกิดขึ้นได้ในขั้นตอนต่างๆ ของระบบการจดจำ ในกรณีของการผสานรวมระดับคุณลักษณะ ข้อมูลเองหรือคุณลักษณะที่สกัดจากไบโอเมตริกหลายรายการจะถูกผสานรวม การผสานรวมระดับคะแนนการจับคู่จะรวมคะแนนที่สร้างขึ้นโดยตัวจำแนก หลายตัว ที่เกี่ยวข้องกับโมดอลที่แตกต่างกัน สุดท้าย ในกรณีของการผสานรวมระดับการตัดสินใจ ผลลัพธ์สุดท้ายของตัวจำแนกหลายตัวจะถูกรวมเข้าด้วยกันผ่านเทคนิคต่างๆ เช่นการลงคะแนนเสียงข้างมากเชื่อกันว่าการผสานรวมระดับคุณลักษณะมีประสิทธิภาพมากกว่าระดับการผสานรวมอื่นๆ เนื่องจากชุดคุณลักษณะมีข้อมูลที่สมบูรณ์ยิ่งขึ้นเกี่ยวกับข้อมูลไบโอเมตริกขาเข้ามากกว่าคะแนนการจับคู่หรือการตัดสินใจเอาต์พุตของตัวจำแนก ดังนั้น การผสานรวมในระดับคุณลักษณะจึงคาดว่าจะให้ผลลัพธ์การจดจำที่ดีกว่า[ 24 ]
การโจมตีแบบปลอมแปลงประกอบด้วยการส่งคุณลักษณะไบโอเมตริกปลอมไปยังระบบไบโอเมตริก และเป็นภัยคุกคามสำคัญที่สามารถลดทอนความปลอดภัยของระบบได้ โดยทั่วไปเชื่อกันว่าระบบไบโอเมตริกแบบหลายโมดอลมีความทนทานต่อการโจมตีแบบปลอมแปลงมากกว่า แต่การศึกษาล่าสุด[ 28 ]แสดงให้เห็นว่าระบบเหล่านี้สามารถหลบเลี่ยงได้โดยการปลอมแปลงคุณลักษณะไบโอเมตริกเพียงอย่างเดียว
ระบบหนึ่งที่เสนอคือระบบการเข้ารหัสไบโอเมตริกแบบหลายโมดอลที่เกี่ยวข้องกับใบหน้า ลายนิ้วมือ และเส้นเลือดฝ่ามือ โดย Prasanalakshmi [ 29 ]การบูร ณา การระบบการเข้ารหัสนี้รวมไบโอเมตริกเข้ากับการเข้ารหัสโดยเส้นเลือดฝ่ามือทำหน้าที่เป็นกุญแจเข้ารหัส ซึ่งให้ความปลอดภัยในระดับสูง เนื่องจากเส้นเลือดฝ่ามือมีเอกลักษณ์เฉพาะตัวและยากต่อการปลอมแปลงลายนิ้วมือเกี่ยวข้องกับการสกัดจุดละเอียด (จุดสิ้นสุดและจุดแยก) และเทคนิคการจับคู่ ขั้นตอนต่างๆ ได้แก่ การปรับปรุงภาพ การแปลงเป็นภาพขาวดำ การสกัด ROIและการลดขนาดจุดละเอียด ระบบใบหน้าใช้เมทริกซ์กระจายตามคลาสเพื่อคำนวณคุณลักษณะสำหรับการจดจำ และเส้นเลือดฝ่ามือทำหน้าที่เป็นกุญแจเข้ารหัสที่ไม่สามารถถอดรหัสได้ทำให้มั่นใจได้ว่ามีเพียงผู้ใช้ที่ถูกต้องเท่านั้นที่สามารถเข้าถึงระบบได้ แนวคิดไบโอเมตริกที่สามารถยกเลิกได้ช่วยให้สามารถเปลี่ยนแปลงลักษณะไบโอเมตริกเล็กน้อยเพื่อให้มั่นใจในความเป็นส่วนตัวและหลีกเลี่ยงการโจรกรรม หากถูกบุกรุก สามารถออกข้อมูลไบโอเมตริกรูปแบบใหม่ได้ แม่แบบลายนิ้วมือสำหรับการเข้ารหัสจะถูกเข้ารหัสโดยใช้กุญแจเส้นเลือดฝ่ามือผ่านการดำเนินการXORลายนิ้วมือที่เข้ารหัสนี้ถูกซ่อนอยู่ภายในภาพใบหน้าโดยใช้เทคนิคการซ่อนข้อมูล (steganographic techniques) การลงทะเบียนและการตรวจสอบข้อมูลไบโอเมตริก (ลายนิ้วมือ เส้นเลือดฝ่ามือ ใบหน้า) จะถูกบันทึก เข้ารหัส และฝังลงในภาพใบหน้า ระบบจะดึงข้อมูลไบโอเมตริกออกมาและเปรียบเทียบกับค่าที่จัดเก็บไว้เพื่อตรวจสอบ ระบบได้รับการทดสอบกับฐานข้อมูลลายนิ้วมือ โดยได้ผลลัพธ์ความแม่นยำในการตรวจสอบ 75% ที่อัตราความผิดพลาด 25% และใช้เวลาประมวลผลประมาณ 50 วินาทีสำหรับการลงทะเบียน และ 22 วินาทีสำหรับการตรวจสอบ ความปลอดภัยสูงเนื่องจากการเข้ารหัสเส้นเลือดฝ่ามือ มีประสิทธิภาพในการป้องกันการปลอมแปลงไบโอเมตริก และวิธีการแบบหลายโหมดช่วยให้มั่นใจได้ถึงความน่าเชื่อถือหากไบโอเมตริกใดไบโอเมตริกหนึ่งล้มเหลว มีศักยภาพในการบูรณาการกับสมาร์ทการ์ดหรือระบบบนการ์ด เพื่อเพิ่มความปลอดภัยในระบบ ระบุตัวตนส่วนบุคคล
การวิเคราะห์ความรู้สึกแบบหลายมิติ
การวิเคราะห์ความรู้สึกแบบมัลติโมดอลเป็นเทคโนโลยีสำหรับการวิเคราะห์ความรู้สึก แบบดั้งเดิมที่ใช้ข้อความ ซึ่งรวมถึงโมดอลต่างๆเช่น ข้อมูลเสียงและภาพ[ 30 ]อาจเป็นแบบไบโมดอล ซึ่งรวมถึงการผสมผสานที่แตกต่างกันของสองโมดอล หรือแบบไตรโมดอล ซึ่งรวมสามโมดอล[ 31 ]ด้วยปริมาณ ข้อมูล โซเชียลมีเดีย จำนวนมาก ที่มีอยู่ทางออนไลน์ในรูปแบบต่างๆ เช่น วิดีโอและรูปภาพการวิเคราะห์ความรู้สึก แบบข้อความแบบดั้งเดิม จึงได้พัฒนาไปสู่รูปแบบที่ซับซ้อนมากขึ้นของการวิเคราะห์ความรู้สึกแบบมัลติโมดอล[ 32 ] [ 33 ] ซึ่งสามารถนำไปใช้ในการพัฒนา ผู้ช่วยเสมือน[ 34 ]การวิเคราะห์รีวิวภาพยนตร์ YouTube [ 35 ]การวิเคราะห์วิดีโอข่าว[ 36 ]และการจดจำอารมณ์ (บางครั้งเรียกว่า การตรวจจับ อารมณ์ ) เช่นการตรวจสอบภาวะซึมเศร้า[ 37 ]และอื่นๆ
เช่นเดียวกับการวิเคราะห์ความรู้สึก แบบดั้งเดิม หนึ่งในงานพื้นฐานที่สุดในการวิเคราะห์ความรู้สึกแบบหลายโมดอลคือ การจำแนก ความรู้สึกซึ่งจำแนกความรู้สึกที่แตกต่างกันออกเป็นหมวดหมู่ เช่น บวก ลบ หรือเป็นกลาง[ 38 ]ความซับซ้อนของการวิเคราะห์คุณลักษณะข้อความ เสียง และภาพเพื่อดำเนินการดังกล่าว จำเป็นต้องใช้เทคนิคการหลอมรวมที่แตกต่างกัน เช่น การหลอมรวมระดับคุณลักษณะ การหลอมรวมระดับการตัดสินใจ และการหลอมรวมแบบไฮบริด[ 32 ]ประสิทธิภาพของเทคนิคการหลอมรวมเหล่านี้และอัลกอริธึมการจำแนกประเภท ที่ใช้ จะได้รับอิทธิพลจากประเภทของคุณลักษณะข้อความ เสียง และภาพที่ใช้ในการวิเคราะห์[ 39 ]
แบบจำลองภาษาหลายรูปแบบ
| ส่วนหนึ่งของชุดบทความเกี่ยวกับ |
| โอเพ่นไอ |
|---|
| สินค้า |
| นางแบบ |
| ประชากร |
| แนวคิด |
Generative Pre-trained Transformer 4 ( GPT-4 ) เป็นโมเดลภาษาขนาดใหญ่ที่พัฒนาโดยOpenAIและเป็นโมเดลลำดับที่สี่ในซีรีส์โมเดลพื้นฐาน GPT [ 40 ]
GPT-4 เป็นรุ่นก่อนหน้าGPT-3.5และตามมาด้วยGPT-5 ซึ่งเป็นรุ่นต่อจากนั้น GPT-4V เป็นเวอร์ชันของ GPT-4 ที่สามารถประมวลผลภาพได้นอกเหนือจากข้อความ[ 41 ] OpenAI ยังไม่ได้เปิดเผยรายละเอียดทางเทคนิคและสถิติเกี่ยวกับ GPT-4 เช่น ขนาดที่แน่นอนของโมเดล[ 42 ]
เวอร์ชันแรกของ GPT-4 ถูกรวมเข้ากับBing Chat โดย Microsoft ซึ่งเปิดตัวในเดือนกุมภาพันธ์ 2023 GPT-4 ได้รับการเผยแพร่ในChatGPTในเดือนมีนาคม 2023 [ 43 ]และถูกลบออกในปี 2025 [ 44 ] GPT-4 ยังคงมีอยู่ในAPI ของ OpenAI [ 45 ]
เอาต์พุตหลายรูปแบบ
กลุ่มที่สองของระบบมัลติโมดอลนำเสนอจอแสดงผลมัลติมีเดียและเอาต์พุตมัลติโมดอลแก่ผู้ใช้ โดยส่วนใหญ่อยู่ในรูปแบบของสัญญาณภาพและเสียง นักออกแบบอินเทอร์เฟซยังเริ่มใช้โมดอลอื่นๆ เช่น การสัมผัสและการดมกลิ่น ประโยชน์ที่เสนอของระบบเอาต์พุตมัลติโมดอล ได้แก่ การทำงานร่วมกันและความซ้ำซ้อน ข้อมูลที่นำเสนอผ่านหลายโมดอลจะถูกรวมเข้าด้วยกันและอ้างอิงถึงแง่มุมต่างๆ ของกระบวนการเดียวกัน การใช้หลายโมดอลในการประมวลผลข้อมูลเดียวกันทำให้แบนด์วิดท์การถ่ายโอนข้อมูลเพิ่มขึ้น[ 46 ] [ 47 ] [ 48 ]ปัจจุบัน เอาต์พุตมัลติโมดอลส่วนใหญ่ใช้เพื่อปรับปรุงการจับคู่ระหว่างสื่อการสื่อสารและเนื้อหา และเพื่อสนับสนุนการจัดการความสนใจในสภาพแวดล้อมที่มีข้อมูลจำนวนมาก ซึ่งผู้ปฏิบัติงานต้องเผชิญกับความต้องการความสนใจทางสายตาอย่างมาก[ 49 ]
ขั้นตอนสำคัญในการออกแบบอินเทอร์เฟซแบบมัลติโมดอลคือการสร้างการแมปที่เป็นธรรมชาติระหว่างโมดอลและข้อมูลและงานต่างๆ ช่องทางการได้ยินแตกต่างจากการมองเห็นในหลายแง่มุม คือเป็นแบบรอบทิศทาง ชั่วคราว และสงวนไว้เสมอ[ 49 ]การส่งออกเสียง ซึ่งเป็นรูปแบบหนึ่งของข้อมูลเสียง ได้รับความสนใจอย่างมาก มีการพัฒนากฎเกณฑ์หลายประการสำหรับการใช้เสียง Michaelis และ Wiggins (1982) แนะนำว่าควรใช้การส่งออกเสียงสำหรับข้อความสั้นๆ ง่ายๆ ที่จะไม่ถูกอ้างถึงในภายหลัง นอกจากนี้ยังแนะนำว่าควรสร้างเสียงในเวลาที่เหมาะสมและต้องมีการตอบสนองทันที
ประสาทสัมผัสทางกายถูกนำมาใช้เป็นสื่อกลางในการสื่อสารเป็นครั้งแรกในช่วงปลายทศวรรษ 1950 [ 50 ]ไม่เพียงแต่เป็นช่องทางการสื่อสารที่มีศักยภาพ แต่ยังเป็นช่องทางการสื่อสารที่ไม่เหมือนใครอีกด้วย ในทางตรงกันข้ามกับประสาทสัมผัสทางสายตาและการได้ยิน ซึ่งเป็นประสาทสัมผัสแบบดั้งเดิมสองอย่างที่ใช้ใน HCI ประสาทสัมผัสทางกายเป็นประสาทสัมผัสระยะใกล้: มันรับรู้ถึงวัตถุที่สัมผัสกับร่างกาย และเป็นแบบสองทิศทาง กล่าวคือมันสนับสนุนทั้งการรับรู้และการกระทำต่อสิ่งแวดล้อม
ตัวอย่างของการตอบสนองด้วยเสียง ได้แก่ ไอคอนเสียงในระบบปฏิบัติการคอมพิวเตอร์ที่บ่งบอกถึงการกระทำของผู้ใช้ (เช่น การลบไฟล์ การเปิดโฟลเดอร์ ข้อผิดพลาด) เอาต์พุตเสียงสำหรับการนำเสนอคำแนะนำการนำทางในยานพาหนะ และเอาต์พุตเสียงเพื่อเตือนนักบินในห้องนักบินของเครื่องบินสมัยใหม่ ตัวอย่างของสัญญาณสัมผัส ได้แก่ การสั่นของคันโยกไฟเลี้ยวเพื่อเตือนผู้ขับขี่ถึงรถที่อยู่ในจุดบอด การสั่นของเบาะรถยนต์เพื่อเป็นการเตือนผู้ขับขี่ และเครื่องสั่นคันบังคับบนเครื่องบินสมัยใหม่เพื่อเตือนนักบินถึงการหยุดชะงักที่กำลังจะเกิดขึ้น[ 49 ]
พื้นที่อินเทอร์เฟซที่มองไม่เห็นสามารถใช้งานได้โดยใช้เทคโนโลยีเซ็นเซอร์ ปัจจุบันมีการใช้อินฟราเรด อัลตราซาวนด์ และกล้องกันอย่างแพร่หลาย[ 51 ]ความโปร่งใสของอินเทอร์เฟซกับเนื้อหาได้รับการปรับปรุงโดยการสร้างการเชื่อมโยงโดยตรงและทันทีผ่านการแมปที่มีความหมาย ดังนั้นผู้ใช้จึงได้รับผลตอบรับโดยตรงและทันทีต่อการป้อนข้อมูล และการตอบสนองต่อเนื้อหาจะกลายเป็นความสามารถในการใช้งานอินเทอร์เฟซ (Gibson 1979)
การหลอมรวมหลายรูปแบบ
กระบวนการบูรณาการข้อมูลจากรูปแบบอินพุตต่างๆ และการรวมเข้าเป็นคำสั่งที่สมบูรณ์เรียกว่าการหลอมรวมแบบหลายรูปแบบ[ 5 ]ในวรรณกรรม มีการเสนอแนวทางหลัก 3 แนวทางสำหรับกระบวนการหลอมรวม โดยพิจารณาจากระดับสถาปัตยกรรมหลัก (การรับรู้และการตัดสินใจ) ที่สามารถดำเนินการหลอมรวมสัญญาณอินพุตได้ ได้แก่ แบบอิงการรับรู้[ 9 ] [ 10 ] [ 52 ]แบบอิงการตัดสินใจ[ 7 ] [ 8 ] [ 11 ] [ 53 ] [ 54 ] [ 55 ] [ 56 ]และการหลอมรวมแบบไฮบริดหลายระดับ[ 4 ] [ 6 ] [ 57 ] [ 58 ] [ 59 ] [ 60 ] [ 61 ] [ 62 ]
การหลอมรวมตามการจดจำ (หรือที่เรียกว่าการหลอมรวมในระยะเริ่มต้น) ประกอบด้วยการรวมผลลัพธ์ของตัวจดจำโมดอลแต่ละตัวโดยใช้กลไกการบูรณาการ เช่น เทคนิคการบูรณาการทางสถิติ ทฤษฎีตัวแทน แบบจำลองมาร์คอฟที่ซ่อนอยู่ เครือข่ายประสาทเทียม เป็นต้น ตัวอย่างของกลยุทธ์การหลอมรวมตามการจดจำ ได้แก่ เฟรมการกระทำ[ 52 ]เวกเตอร์อินพุต[ 9 ] และช่อง[ 10 ]
การหลอมรวมตามการตัดสินใจ (หรือที่เรียกว่าการหลอมรวมแบบล่าช้า) จะผสานข้อมูลความหมายที่สกัดออกมาโดยใช้ขั้นตอนการหลอมรวมที่ขับเคลื่อนด้วยบทสนทนาเฉพาะเพื่อให้ได้การตีความที่สมบูรณ์ ตัวอย่างของกลยุทธ์การหลอมรวมตามการตัดสินใจ ได้แก่ โครงสร้างคุณลักษณะแบบมีประเภท[ 53 ] [ 58 ]หม้อหลอม[ 55 ] [ 56 ]กรอบความหมาย[ 7 ] [ 11 ]และแลตทิซที่มีการประทับเวลา[ 8 ]
การประยุกต์ใช้ที่เป็นไปได้สำหรับการหลอมรวมหลายรูปแบบ ได้แก่ สภาพแวดล้อมการเรียนรู้ ความสัมพันธ์กับผู้บริโภค ความปลอดภัย/การเฝ้าระวัง แอนิเมชั่นคอมพิวเตอร์ เป็นต้น แต่ละรูปแบบสามารถกำหนดได้ง่าย แต่ความยากลำบากเกิดขึ้นเมื่อเทคโนโลยีพิจารณารูปแบบเหล่านั้นเป็นการหลอมรวม[ 63 ] เป็นเรื่องยากสำหรับอัลกอริธึมที่จะคำนึงถึงมิติ เนื่องจากมีตัวแปรที่อยู่นอกเหนือความสามารถในการคำนวณในปัจจุบัน ตัวอย่างเช่น ความหมายเชิงความหมาย: สองประโยคอาจมีความหมายเชิงคำศัพท์เหมือนกัน แต่มีข้อมูลทางอารมณ์ที่แตกต่างกัน[ 63 ]
ในการหลอมรวมแบบไฮบริดหลายระดับ การบูรณาการของรูปแบบอินพุตจะกระจายอยู่ระหว่างระดับการรับรู้และการตัดสินใจ การหลอมรวมแบบไฮบริดหลายระดับประกอบด้วยวิธีการสามวิธีต่อไปนี้: ตัวแปลงสถานะจำกัด[ 58 ]ไวยากรณ์หลายรูปแบบ[ 6 ] [ 57 ] [ 59 ] [ 60 ] [ 61 ] [ 62 ] [ 64 ] และการเคลื่อนไหวของบทสนทนา[ 65 ]
ความคลุมเครือ
การกระทำหรือคำสั่งของผู้ใช้สร้างอินพุตแบบหลายโมดอล (ข้อความแบบหลายโมดอล[ 3 ] ) ซึ่งระบบต้องตีความ ข้อความแบบหลายโมดอลเป็นสื่อกลางที่ช่วยให้การสื่อสารระหว่างผู้ใช้และระบบแบบหลายโมดอลเป็นไปได้ โดยได้มาจากการรวมข้อมูลที่ส่งผ่านโมดอลหลายรูปแบบโดยพิจารณาถึงความร่วมมือประเภทต่างๆ ระหว่างโมดอลหลายรูปแบบ[ 66 ]ความสัมพันธ์เชิงเวลา[ 67 ]ระหว่างโมดอลที่เกี่ยวข้อง และความสัมพันธ์ระหว่างกลุ่มข้อมูลที่เชื่อมโยงกับโมดอลเหล่านี้[ 68 ]
การแมปตามธรรมชาติระหว่างอินพุตแบบหลายโมดอล ซึ่งจัดหาโดยโมดอลปฏิสัมพันธ์หลายรูปแบบ (ช่องทางภาพและเสียง และประสาทสัมผัส) และข้อมูลและงานต่างๆ บ่งชี้ถึงการจัดการปัญหาทั่วไปของการสื่อสารระหว่างมนุษย์ด้วยกัน เช่น ความกำกวม ความกำกวมเกิดขึ้นเมื่อมีการตีความอินพุตได้มากกว่าหนึ่งแบบ ความกำกวมแบบหลายโมดอล[ 12 ] เกิดขึ้นทั้งในกรณีที่องค์ประกอบซึ่งจัดหาโดยโมดอลหนึ่งมีการตีความได้มากกว่าหนึ่งแบบ (กล่าวคือ ความกำกวมแพร่กระจายในระดับหลายโมดอล) และ/หรือในกรณีที่องค์ประกอบที่เชื่อมต่อกับแต่ละโมดอลได้รับการตีความแบบเอกพจน์ แต่ข้อมูลที่อ้างอิงถึงโมดอลที่แตกต่างกันนั้นไม่สอดคล้องกันในระดับไวยากรณ์หรือความหมาย (กล่าวคือ ประโยคหลายโมดอลที่มีความหมายต่างกันหรือโครงสร้างไวยากรณ์ต่างกัน)
ใน "การจัดการความกำกวม" [ 14 ]วิธีการแก้ความกำกวมและการตีความข้อมูลป้อนเข้าของผู้ใช้ที่ถูกต้องจะถูกจัดกลุ่มเป็น 3 ประเภทหลัก ได้แก่ วิธีการป้องกัน การแก้ไขภายหลัง และวิธีการประมาณค่า[ 13 ] [ 15 ]
วิธีการป้องกันบังคับให้ผู้ใช้ปฏิบัติตามพฤติกรรมการโต้ตอบที่กำหนดไว้ล่วงหน้าตามชุดการเปลี่ยนผ่านระหว่างสถานะต่างๆ ที่อนุญาตในกระบวนการโต้ตอบ ตัวอย่างของวิธีการป้องกัน ได้แก่ วิธีการเชิงกระบวนการ[ 69 ]การลดพลังการแสดงออกของไวยากรณ์ภาษา[ 70 ] การปรับปรุงพลังการแสดงออกของไวยากรณ์ภาษา[ 71 ]
การแก้ไขความกำกวมภายหลังใช้แนวทางการไกล่เกลี่ย[ 16 ]ตัวอย่างของเทคนิคการไกล่เกลี่ย ได้แก่ การทำซ้ำ เช่น การทำซ้ำตามรูปแบบ[ 16 ]ความละเอียดของการซ่อมแซม[ 72 ]และการยกเลิก[ 17 ] และการเลือก[ 18 ]
วิธีการแก้ปัญหาโดยประมาณไม่จำเป็นต้องให้ผู้ใช้มีส่วนร่วมในกระบวนการแยกความกำกวม พวกมันทั้งหมดอาจต้องใช้ทฤษฎีบางอย่าง เช่นตรรกะคลุมเครือ ฟิลด์สุ่มมาร์คอฟเครือข่ายเบย์เซียนและ แบบจำลองมาร์คอ ฟที่ซ่อนอยู่[ 13 ] [ 15 ]
ดูเพิ่มเติม
- ความเป็นอิสระของอุปกรณ์
- ระบบไบโอเมตริกแบบหลายโหมด
- การค้นหาแบบหลายรูปแบบ
- การรู้จำเสียงพูด
- กิจกรรมการโต้ตอบแบบหลายรูปแบบของ W3C – โครงการริเริ่มจากW3Cที่มุ่งจัดหาวิธีการ (ส่วนใหญ่เป็นXML ) เพื่อสนับสนุนสถานการณ์การโต้ตอบแบบหลายรูปแบบบนเว็บ
- การเข้าถึงเว็บไซต์
- ถุงมือแบบมีสาย
- XHTML+Voice
ลิงก์ภายนอก
- กิจกรรมการปฏิสัมพันธ์แบบหลายรูปแบบของ W3C
- XHTML+Voice Profile 1.0 , W3C Note 21 ธันวาคม 2001
- Hoste, Lode, Dumas, Bruno และ Signer, Beat: Mudra: กรอบการทำงานปฏิสัมพันธ์แบบหลายรูปแบบที่เป็นหนึ่งเดียวในรายงานการประชุมนานาชาติว่าด้วยปฏิสัมพันธ์แบบหลายรูปแบบ ครั้งที่ 13 (ICMI 2011), อาลีกันเต, สเปน, พฤศจิกายน 2011
- Toselli, Alejandro Héctor, Vidal, Enrique, Casacuberta, Francisco: การรู้จำรูปแบบเชิงโต้ตอบแบบหลายโมดอลและการประยุกต์ใช้ , Springer, 2011