การวิเคราะห์ฉากการได้ยิน

ในสาขาการรับรู้และจิตฟิสิกส์การวิเคราะห์ฉากการได้ยิน ( ASA ) เป็นแบบจำลองที่นำเสนอสำหรับพื้นฐานของการรับรู้ทางการได้ยิน ซึ่งเข้าใจกันว่าเป็นกระบวนการที่ระบบการได้ยินของมนุษย์จัดระเบียบเสียงให้เป็นองค์ประกอบที่มีความหมายต่อการรับรู้ คำนี้บัญญัติขึ้นโดยนักจิตวิทยาอัลเบิร์ต เบรกแมน [ แนวคิดที่เกี่ยวข้องในการรับรู้ของเครื่องคือการวิเคราะห์ฉากการได้ยินเชิงคำนวณ (CASA) ซึ่งเกี่ยวข้องอย่างใกล้ชิดกับการ แยกแหล่งกำเนิดเสียงและการแยกสัญญาณแบบบอด

สามประเด็นหลักของโมเดล ASA ของ Bregman ได้แก่ การแบ่งส่วน การบูรณาการ และการแยกส่วน

พื้นหลัง

เสียงจะเข้าสู่หูและแก้วหูจะสั่นสะเทือนเป็นองค์รวม สัญญาณนี้จำเป็นต้องได้รับการวิเคราะห์ (ในทางใดทางหนึ่ง) แบบจำลอง ASA ของ Bregman เสนอว่าเสียงจะถูกได้ยินแบบ "ผสาน" (ได้ยินเป็นองค์รวม คล้ายกับเสียงประสานในดนตรี) หรือ "แยก" ออกเป็นส่วนประกอบแต่ละส่วน (ซึ่งนำไปสู่เสียงประสาน) [ ตัวอย่างเช่น เสียงระฆังสามารถได้ยินเป็นเสียง "เดี่ยว" (ผสาน) หรือบางคนสามารถได้ยินส่วนประกอบแต่ละส่วนได้ พวกเขาสามารถแยกเสียงออกจากกันได้ ซึ่งสามารถทำได้โดยใช้คอร์ดที่สามารถได้ยินเป็น "สี" หรือเป็นโน้ตแต่ละตัว เสียงธรรมชาติเช่น เสียงมนุษย์ เครื่องดนตรี หรือรถยนต์ที่วิ่งผ่านไปมาบนถนน ประกอบด้วยความถี่หลายความถี่ ซึ่งส่งผลต่อคุณภาพที่รับรู้ (เช่น ระดับเสียง) ของเสียง เมื่อเสียงธรรมชาติสองเสียงหรือมากกว่าเกิดขึ้นพร้อมกัน ส่วนประกอบทั้งหมดของเสียงที่ทำงานพร้อมกันจะถูกรับในเวลาเดียวกัน หรือซ้อนทับกันตามเวลา โดยหูของผู้ฟัง สิ่งนี้ทำให้ระบบการได้ยินของพวกเขามีปัญหา: ส่วนใดของเสียงที่ควรจัดกลุ่มเข้าด้วยกันและถือว่าเป็นส่วนหนึ่งของแหล่งกำเนิดเสียงหรือวัตถุเดียวกัน การจัดกลุ่มเสียงไม่ถูกต้องอาจทำให้ผู้ฟังได้ยินเสียงที่ไม่มีอยู่จริง ซึ่งสร้างขึ้นจากการผสมผสานองค์ประกอบดั้งเดิมที่ไม่ถูกต้อง

ในหลายสถานการณ์ องค์ประกอบที่แยกออกจากกันสามารถเชื่อมโยงเข้าด้วยกันตามเวลา ก่อให้เกิดกระแสเสียง ความสามารถในการไหลผ่านเสียงนี้สามารถแสดงให้เห็นได้จากสิ่งที่เรียกว่าปรากฏการณ์งานเลี้ยงค็อกเทลณ จุดหนึ่ง เมื่อเสียงหลายเสียงพูดพร้อมกันหรือด้วยเสียงพื้นหลัง บุคคลหนึ่งจะสามารถติดตามเสียงใดเสียงหนึ่งได้ แม้ว่าจะมีเสียงและเสียงพื้นหลังอื่นๆ อยู่ก็ตามในตัวอย่างนี้ หูจะแยกเสียงนี้ออกจากเสียงอื่นๆ (ซึ่งผสานรวมกัน) และจิตใจจะ "ถ่ายทอด" เสียงที่แยกออกจากกันเหล่านี้เข้าสู่กระแสเสียง นี่เป็นทักษะที่นักดนตรีพัฒนาอย่างสูง โดยเฉพาะวาทยกรที่สามารถฟังเครื่องดนตรีหนึ่ง สอง สามชิ้นหรือมากกว่าพร้อมกัน (โดยแยกเครื่องดนตรีเหล่านั้นออกจากกัน) และติดตามแต่ละชิ้นเป็นเส้นสายอิสระผ่านการไหลผ่านเสียง[

การจัดกลุ่มและสตรีม

หลักการจัดกลุ่มจำนวนหนึ่งดูเหมือนจะเป็นพื้นฐานของ ASA ซึ่งหลายหลักเกี่ยวข้องกับหลักการจัดระเบียบการรับรู้ที่ค้นพบโดยสำนักจิตวิทยาเกสตัลท์หลักการเหล่านี้สามารถแบ่งได้กว้างๆ เป็น กลไกการ จัดกลุ่มแบบลำดับ (ซึ่งทำงานข้ามช่วงเวลา) และ กลไก การจัดกลุ่มแบบพร้อมกัน (ซึ่งทำงานข้ามความถี่)

ข้อผิดพลาดในการจัดกลุ่มพร้อมกันอาจนำไปสู่การผสมเสียงที่ควรได้ยินแยกกัน โดยเสียงที่ผสมกันจะมีคุณสมบัติที่รับรู้ได้ (เช่น ระดับเสียงหรือโทนเสียง) แตกต่างจากเสียงที่ได้ยินจริง ตัวอย่างเช่น สระสองตัวที่ปรากฏพร้อมกันอาจไม่สามารถระบุได้หากแยกเสียงเหล่านั้นออกจากกัน
ข้อผิดพลาดในการจัดกลุ่มตามลำดับอาจนำไปสู่การได้ยินคำที่สร้างจากพยางค์ที่มีเสียงต่างกันสองเสียง

การแบ่งแยกอาจขึ้นอยู่กับสัญญาณการรับรู้เป็นหลักหรืออาศัยการจดจำรูปแบบที่เรียนรู้ ("ตามโครงร่าง")

หน้าที่ของ ASA คือการจัดกลุ่มข้อมูลทางประสาทสัมผัสที่เข้ามาเพื่อสร้างภาพแทนเสียงแต่ละเสียงในจิตใจที่ถูกต้องแม่นยำ เมื่อระบบการได้ยินจัดกลุ่มเสียงให้เป็นลำดับที่รับรู้ ซึ่งแตกต่างจากลำดับอื่นๆ ที่เกิดขึ้นพร้อมกัน ลำดับที่รับรู้เหล่านี้แต่ละลำดับจะเรียกว่า "กระแสเสียง" ในโลกแห่งความเป็นจริง หาก ASA ประสบความสำเร็จ กระแสเสียงจะสอดคล้องกับแหล่งกำเนิดเสียงแวดล้อมที่แตกต่างกัน ทำให้เกิดรูปแบบที่คงอยู่ต่อไปเมื่อเวลาผ่านไป เช่น เสียงคนพูด เสียงเปียโน หรือเสียงสุนัขเห่า อย่างไรก็ตาม ในห้องทดลอง การควบคุมพารามิเตอร์ทางเสียงของเสียง จะทำให้สามารถเหนี่ยวนำให้เกิดการรับรู้กระแสเสียงได้ตั้งแต่หนึ่งกระแสขึ้นไป

ตัวอย่างหนึ่งคือปรากฏการณ์การสตรีมหรือที่เรียกว่า "การแยกสตรีม" หากเสียงสองเสียง คือ A และ B สลับจังหวะกันอย่างรวดเร็ว หลังจากนั้นไม่กี่วินาที การรับรู้อาจดูเหมือน "แยก" ทำให้ผู้ฟังได้ยินเสียงสองเสียงแทนที่จะเป็นเสียงเดียว โดยแต่ละเสียงจะสอดคล้องกับการซ้ำของเสียงใดเสียงหนึ่งจากสองเสียง เช่น AAAA- เป็นต้น ประกอบกับ BBBB- เป็นต้น แนวโน้มที่จะแยกออกเป็นสตรีมแยกกันนั้นได้รับการสนับสนุนจากความแตกต่างในคุณสมบัติทางเสียงของเสียง A และ B ความแตกต่างที่แสดงให้เห็นโดยทั่วไปว่าส่งเสริมการแยก ได้แก่ ความถี่ (สำหรับเสียงบริสุทธิ์ ) ความถี่พื้นฐาน (สำหรับเสียงที่ซับซ้อน ) องค์ประกอบของความถี่ และตำแหน่งของแหล่งกำเนิดเสียง แต่มีข้อเสนอแนะว่าความแตกต่างทางการรับรู้เชิงระบบระหว่างสองลำดับสามารถทำให้เกิดการสตรีมได้หากความเร็วของลำดับนั้นเพียงพอ

สามารถดูหน้าเว็บแบบโต้ตอบที่แสดงการสตรีมและความสำคัญของการแยกความถี่และความเร็วได้ที่นี่

อันดรานิก แทนเจียนโต้แย้งว่าปรากฏการณ์การจัดกลุ่มไม่ได้สังเกตได้เฉพาะในพลวัตเท่านั้น แต่ยังรวมถึงสถิตด้วย ยกตัวอย่างเช่น ความรู้สึกต่อคอร์ดเป็นผลของการแสดงข้อมูลทางอะคูสติกมากกว่าเหตุปัจจัยทางกายภาพ (อันที่จริงแล้ว ตัววัตถุทางกายภาพตัวเดียว เช่น เยื่อลำโพง สามารถสร้างผลของเสียงได้หลายเสียง และตัววัตถุทางกายภาพหลายตัว เช่น ท่อออร์แกนที่จูนเป็นคอร์ด สามารถสร้างผลของเสียงเดียวได้) จากมุมมองของอะคูสติกทางดนตรีคอร์ดเป็นเสียงชนิดพิเศษที่มีสเปกตรัม — ชุดของเสียงบางส่วน (การสั่นแบบไซน์) — สามารถถือได้ว่าเกิดจากการเคลื่อนตัวของสเปกตรัมเสียงเดียวตามแกนความถี่ กล่าวอีกนัยหนึ่ง โครงสร้างช่วงของคอร์ดคือเส้นเสียงที่ลากโดยเสียง (ในพลวัต เสียงโพลีโฟนิกคือวิถีของสเปกตรัมเสียง) ทฤษฎีสารสนเทศให้เหตุผลสนับสนุนข้อนี้ หากโทนเสียงกำเนิดเป็นแบบฮาร์โมนิก (= มีความโดดเด่นของระดับเสียง) การนำเสนอเช่นนี้จะพิสูจน์ได้ว่าเป็นเอกลักษณ์เฉพาะตัวและต้องการหน่วยความจำน้อยที่สุด กล่าวคือ มีความซับซ้อนน้อยที่สุดตามความหมายของKolmogorovเนื่องจากการนำเสนออื่นๆ ทั้งหมดนั้นง่ายกว่า รวมถึงการนำเสนอที่คอร์ดถูกมองว่าเป็นเสียงเชิงซ้อนเพียงเสียงเดียว คอร์ดจึงถูกมองว่าเป็นเสียงประกอบ หากโทนเสียงกำเนิดไม่ฮาร์โมนิก เช่น เสียงระฆัง โครงสร้างช่วงเสียงจะยังคงสามารถรับรู้ได้ว่าเป็นการเคลื่อนที่ของสเปกตรัมเสียง ซึ่งระดับเสียงอาจไม่สามารถตรวจจับได้ นิยามของคอร์ดที่อิงจากการนำเสนอที่เหมาะสมที่สุดนี้ อธิบายถึงปัจจัยหลายประการ รวมถึงความโดดเด่นของการได้ยินช่วงเสียงมากกว่าการได้ยินระดับเสียงสัมบูรณ์

พื้นฐานเชิงทดลอง

การทดลองจำนวนมากได้ศึกษาการแยกรูปแบบเสียงที่ซับซ้อนมากขึ้น เช่น ลำดับของโน้ตสูงที่มีระดับเสียงต่างกัน สลับกับโน้ตต่ำ ในลำดับเช่นนี้ การแยกเสียงที่เกิดขึ้นพร้อมกันออกเป็นลำเสียงที่แตกต่างกันมีผลอย่างมากต่อวิธีที่ได้ยิน การรับรู้ทำนองจะเกิดขึ้นได้ง่ายขึ้นหากโน้ตทั้งหมดอยู่ในลำเสียงเดียวกัน เรามักจะได้ยินจังหวะระหว่างโน้ตที่อยู่ในลำเสียงเดียวกัน ยกเว้นโน้ตที่อยู่ในลำเสียงอื่น การตัดสินจังหวะระหว่างโน้ตในลำเสียงเดียวกันจะแม่นยำกว่าระหว่างโน้ตในลำเสียงที่แยกจากกัน แม้แต่ตำแหน่งเชิงพื้นที่ที่รับรู้และความดังที่รับรู้ก็อาจได้รับผลกระทบจากการจัดกลุ่มตามลำดับ แม้ว่าการวิจัยเบื้องต้นในหัวข้อนี้จะศึกษาในผู้ใหญ่ แต่การศึกษาเมื่อเร็วๆ นี้แสดงให้เห็นว่าความสามารถของ ASA บางอย่างมีอยู่ในทารกแรกเกิด ซึ่งแสดงให้เห็นว่าความสามารถนี้เป็นสิ่งที่ติดตัวมาแต่กำเนิด ไม่ใช่สิ่งที่เรียนรู้จากประสบการณ์ งานวิจัยอื่นๆ แสดงให้เห็นว่าสัตว์ที่ไม่ใช่มนุษย์ก็มี ASA เช่นกัน ปัจจุบันนักวิทยาศาสตร์กำลังศึกษาการทำงานของเซลล์ประสาทในบริเวณการได้ยินของเปลือกสมองเพื่อค้นหากลไกที่อยู่เบื้องหลัง ASA

การวิเคราะห์ฉากการได้ยิน

การวิเคราะห์ฉากการได้ยิน

คำถามที่พบบ่อยเกี่ยวกับ การวิเคราะห์ฉากการได้ยิน

ภาพรวม

พื้นหลัง

การจัดกลุ่มและสตรีม

พื้นฐานเชิงทดลอง

พื้นหลัง

การจัดกลุ่มและสตรีม

พื้นฐานเชิงทดลอง

ดูเพิ่มเติม

ข้อมูลสำคัญจากบทความ