เครือข่ายประสาทแบบหน่วงเวลา

Q: สถาปัตยกรรม

ในภาษาปัจจุบัน การออกแบบของ TDNN คือ โครงข่ายประสาทเทียมแบบคอนโวลูชัน 1 มิติ โดยทิศทางของคอนโวลูชันจะข้ามมิติของเวลา ในการออกแบบดั้งเดิมนั้นมีทั้งหมด 3 ชั้น

เครือข่ายประสาทหน่วงเวลา ( TDNN ) ^{[ 1 ]}เป็น สถาปัตยกรรม เครือข่ายประสาทเทียม แบบหลายชั้นที่มีวัตถุประสงค์เพื่อ 1) จำแนกรูปแบบที่มีความไม่แปรผันต่อการเลื่อน และ 2) จำลองบริบทในแต่ละชั้นของเครือข่าย โดยพื้นฐานแล้วเป็น เครือข่ายประสาทแบบคอนโวลูชัน 1 มิติ(CNN)

การจำแนกประเภทที่ไม่ขึ้นกับการเลื่อนตำแหน่ง หมายความว่าตัวจำแนกไม่จำเป็นต้องมีการแบ่งส่วนอย่างชัดเจนก่อนการจำแนกประเภท สำหรับการจำแนกรูปแบบตามเวลา (เช่น เสียงพูด) TDNN จึงหลีกเลี่ยงการต้องกำหนดจุดเริ่มต้นและจุดสิ้นสุดของเสียงก่อนที่จะจำแนกประเภท

สำหรับการสร้างแบบจำลองตามบริบทใน TDNN แต่ละหน่วยประสาทในแต่ละชั้นจะได้รับอินพุตไม่เพียงแต่จากค่าการกระตุ้น/คุณลักษณะในชั้นด้านล่างเท่านั้น แต่ยังรวมถึงรูปแบบของเอาต์พุตของหน่วยและบริบทของมันด้วย สำหรับสัญญาณเวลา แต่ละหน่วยจะได้รับรูปแบบการกระตุ้นตามเวลาจากหน่วยด้านล่างเป็นอินพุต เมื่อนำไปใช้กับการจำแนกประเภทสองมิติ (ภาพ รูปแบบเวลา-ความถี่) TDNN สามารถฝึกฝนได้โดยคงความคงที่เมื่อมีการเลื่อนในพื้นที่พิกัด และหลีกเลี่ยงการแบ่งส่วนที่แม่นยำในพื้นที่พิกัด

ประวัติศาสตร์

TDNN ได้รับการแนะนำในช่วงปลายทศวรรษ 1980 และนำไปใช้กับงาน การจำแนก หน่วยเสียงสำหรับการรู้จำเสียงพูด อัตโนมัติ ในสัญญาณเสียงพูด ซึ่งการกำหนดส่วนหรือขอบเขตคุณลักษณะที่แม่นยำโดยอัตโนมัตินั้นทำได้ยากหรือเป็นไปไม่ได้ เนื่องจาก TDNN สามารถจดจำหน่วยเสียงและคุณลักษณะทางเสียง/สัทศาสตร์พื้นฐานได้โดยไม่ขึ้นกับตำแหน่งในเวลา จึงช่วยปรับปรุงประสิทธิภาพเหนือการจำแนกแบบคงที่^{[ 1 ]}^{[ 2 ]}นอกจากนี้ยังถูกนำไปใช้กับสัญญาณสองมิติ (รูปแบบเวลา-ความถี่ในเสียงพูด^{[ 3 ]}และรูปแบบพื้นที่พิกัดใน OCR ^{[ 4 ]} )

Kunihiko Fukushimaได้ตีพิมพ์neocognitronในปี 1980 ^{[ 5 ]} Max poolingปรากฏในสิ่งพิมพ์ปี 1982 เกี่ยวกับ neocognitron ^{[ 6 ]}และอยู่ในสิ่งพิมพ์ปี 1989 ในLeNet- 5 ^{[ 7 ]}

ในปี พ.ศ. 2533 Yamaguchi และคณะได้ใช้ max pooling ใน TDNN เพื่อสร้างระบบการจดจำคำแยกอิสระจากผู้พูด^{[ 8 ]}

ภาพรวม

สถาปัตยกรรม

ในภาษาปัจจุบัน การออกแบบของ TDNN คือโครงข่ายประสาทเทียมแบบคอนโวลูชัน 1 มิติ โดยทิศทางของคอนโวลูชันจะข้ามมิติของเวลา ในการออกแบบดั้งเดิมนั้นมีทั้งหมด 3 ชั้น

อินพุตของเครือข่ายคือสัญญาณเสียงพูดต่อเนื่องที่ผ่านการประมวลผลล่วงหน้าเป็นอาร์เรย์ 2 มิติ ( สเปกโตรแกรม แบบเมลสเกล ) มิติหนึ่งคือเวลาที่ 10 มิลลิวินาทีต่อเฟรม และอีกมิติหนึ่งคือความถี่ มิติเวลาสามารถยาวได้ตามต้องการ แต่มิติความถี่มีความยาวเพียง 16 เฟรม ในการทดลองดั้งเดิม พวกเขาพิจารณาเฉพาะสัญญาณเสียงพูดสั้นๆ ที่ออกเสียงคำเดียว เช่น "baa", "daa", "gaa" เท่านั้น ด้วยเหตุนี้ สัญญาณเสียงพูดจึงสั้นมาก โดยมีความยาวเพียง 15 เฟรม (150 มิลลิวินาทีในเวลา)

โดยละเอียดแล้ว พวกเขาประมวลผลสัญญาณเสียงดังนี้:

สัญญาณเสียงที่ป้อนเข้าจะถูกสุ่มตัวอย่างที่ความถี่ 12 kHz โดยใช้หน้าต่างแฮมมิง (Hamming-windowed )
การคำนวณ FFTจะเกิดขึ้นทุกๆ 5 มิลลิวินาที
ค่าสัมประสิทธิ์มาตราส่วนเมลคำนวณได้จากสเปกตรัมกำลัง โดยการนำค่าลอการิทึมของพลังงานในแต่ละแถบพลังงานมาตราส่วนเมลมาใช้
ค่าสัมประสิทธิ์ที่อยู่ติดกันในเวลาจะถูกปรับให้เรียบ ส่งผลให้มีการแสดงผลหนึ่งเฟรมทุกๆ 10 มิลลิวินาที
สำหรับสัญญาณเสียงแต่ละสัญญาณ มนุษย์จะตรวจจับจุดเริ่มต้นของสระด้วยตนเอง และสัญญาณเสียงทั้งหมดจะถูกตัดออก ยกเว้น 7 เฟรมก่อนหน้าและ 7 เฟรมหลังจากนั้น เหลือเพียง 15 เฟรมโดยรวม ซึ่งอยู่ตรงกลางที่จุดเริ่มต้นของสระ
ค่าสัมประสิทธิ์จะถูกปรับให้เป็นค่ามาตรฐานโดยการลบค่าเฉลี่ยออก แล้วปรับขนาดเพื่อให้สัญญาณอยู่ระหว่าง -1 และ +1

ชั้นแรกของ TDNN คือชั้นการแปลงแบบคอนโวลูชัน 1 มิติ ชั้นนี้ประกอบด้วยเคอร์เนล 8 ตัวที่มีรูปร่าง และส่งออกเทนเซอร์ที่มีรูปร่าง $3\times 16$ $8\times 13$

ชั้นที่สองของ TDNN คือชั้นการแปลงแบบคอนโวลูชัน 1 มิติ ชั้นนี้ประกอบด้วยเคอร์เนล 3 ตัวที่มีรูปร่างและส่งออกเทนเซอร์ที่มีรูปร่าง $5\times 8$ $3\times 9$

ชั้นที่สามของ TDNN ไม่ใช่ชั้นคอนโวลูชัน แต่เป็นเพียงชั้นคงที่ที่มีนิวรอน 3 ตัว สมมติให้เอาต์พุตจากชั้นที่สองเป็นโดยที่ และ นิวรอน ตัวที่ ในชั้นที่สามจะคำนวณโดยที่คือฟังก์ชันซิกมอยด์โดยพื้นฐานแล้ว สามารถมองได้ว่าเป็นชั้นคอนโวลูชันที่มีเคอร์เนล 3 ตัวรูปร่าง $x_{i,j}$ $i\in 1:3$ $j\in 1:9$ $i$ $\sigma (\sum _{j\in 1:9}x_{i,j})$ $\sigma$ $1\times 9$

โมเดลนี้ได้รับการฝึกฝนโดยใช้ตัวอย่างประมาณ 800 ตัวอย่าง เป็นเวลา 20,000–50,000 ขั้นตอน การแพร่กระจายย้อนกลับ (backpropagation ) แต่ละขั้นตอนคำนวณเป็นชุด (batch)บนชุดข้อมูลฝึกฝนทั้งหมด กล่าวคือ ไม่ใช่การสุ่มจำเป็นต้องใช้ซูเปอร์คอมพิวเตอร์ Alliantที่มีโปรเซสเซอร์ 4 ตัว

ตัวอย่าง

ในกรณีของสัญญาณเสียงพูด ข้อมูลที่ป้อนเข้าคือสัมประสิทธิ์สเปกตรัมตามเวลา

เพื่อเรียนรู้คุณลักษณะทางเสียงและสัทศาสตร์ที่สำคัญ (เช่น การเปลี่ยนฟอร์แมนต์ เสียงระเบิด เสียงเสียดแทรก ฯลฯ) โดยไม่ต้องอาศัยการระบุตำแหน่งที่แม่นยำก่อน โครงข่ายประสาทเทียมแบบเลื่อนเวลา (TDNN) จึงได้รับการฝึกฝนให้คงความคงที่ต่อการเลื่อนเวลา การคงความคงที่ต่อการเลื่อนเวลาเกิดขึ้นได้จากการแบ่งปันน้ำหนักข้ามเวลาในระหว่างการฝึกฝน: สำเนาของ TDNN ที่เลื่อนเวลาจะถูกสร้างขึ้นในช่วงอินพุต (จากซ้ายไปขวาในรูปที่ 1) จากนั้นจะทำการย้อนกลับการแพร่กระจายจากเวกเตอร์เป้าหมายการจำแนกประเภทโดยรวม (ดูแผนภาพ TDNN เป้าหมายคลาสเสียงสามคลาส (/b/, /d/, /g/) แสดงอยู่ในชั้นเอาต์พุต) ส่งผลให้ได้ค่าความชันที่จะแตกต่างกันโดยทั่วไปสำหรับแต่ละสำเนาของเครือข่ายที่เลื่อนเวลา เนื่องจากเครือข่ายที่เลื่อนเวลาเหล่านี้เป็นเพียงสำเนาเท่านั้น การพึ่งพาตำแหน่งจึงถูกกำจัดออกไปโดยการแบ่งปันน้ำหนัก ในตัวอย่างนี้ ทำได้โดยการหาค่าเฉลี่ยของค่าความชันจากแต่ละสำเนาที่เลื่อนเวลาก่อนที่จะทำการอัปเดตน้ำหนัก ในการพูด การฝึกฝนที่คงความคงที่ต่อการเลื่อนเวลาแสดงให้เห็นว่าสามารถเรียนรู้เมทริกซ์น้ำหนักที่ไม่ขึ้นอยู่กับตำแหน่งที่แม่นยำของอินพุตได้ เมทริกซ์น้ำหนักยังสามารถแสดงให้เห็นการตรวจจับคุณลักษณะทางเสียงและสัทศาสตร์ที่สำคัญซึ่งเป็นที่ทราบกันดีว่ามีความสำคัญต่อการรับรู้เสียงพูดของมนุษย์ เช่น การเปลี่ยนฟอร์แมนต์ การระเบิด ฯลฯ^{[ 1 ]} TDNN ยังสามารถรวมหรือขยายได้โดยผ่านการฝึกก่อน^{[ 9 ]}

การดำเนินการ

สถาปัตยกรรมที่แม่นยำของ TDNN (การหน่วงเวลา จำนวนเลเยอร์) ส่วนใหญ่ถูกกำหนดโดยนักออกแบบโดยขึ้นอยู่กับปัญหาการจำแนกประเภทและขนาดบริบทที่มีประโยชน์ที่สุด การหน่วงเวลาหรือหน้าต่างบริบทจะถูกเลือกเฉพาะสำหรับแต่ละแอปพลิเคชัน นอกจากนี้ยังมีการทำงานเพื่อสร้าง TDNN ที่ปรับเปลี่ยนการหน่วงเวลาได้^{[ 10 ]}ซึ่งการปรับแต่งด้วยตนเองนี้ถูกกำจัดออกไป

ล้ำสมัย

ตัวรับรู้หน่วยเสียงแบบ TDNN เปรียบเทียบได้ดีในการเปรียบเทียบเบื้องต้นกับแบบจำลองหน่วยเสียงแบบ HMM ^{[ 1 ]}^{[ 9 ]} สถาปัตยกรรม TDNN เชิงลึกสมัยใหม่ประกอบด้วยเลเยอร์ที่ซ่อนอยู่จำนวนมากและสุ่มตัวอย่างย่อยหรือรวมการเชื่อมต่อในบริบทที่กว้างขึ้นในเลเยอร์ที่สูงขึ้น สามารถลดข้อผิดพลาดของคำได้ถึง 50% เมื่อเทียบกับแบบจำลองเสียงแบบGMM ^{[ 11 ]}^{[ 12 ]} ในขณะที่เลเยอร์ต่างๆ ของ TDNN มีจุดประสงค์เพื่อเรียนรู้คุณลักษณะของความกว้างของบริบทที่เพิ่มขึ้น แต่พวกมันก็สร้างแบบจำลองบริบทท้องถิ่น เมื่อต้องประมวลผลความสัมพันธ์ระยะไกลและลำดับรูปแบบ การเรียนรู้สถานะและลำดับสถานะจึงมีความสำคัญ และ TDNN สามารถรวมเข้ากับเทคนิคการสร้างแบบจำลองอื่นๆ ได้^{[ 13 ]}^{[ 3 ]}^{[ 4 ]}สถาปัตยกรรม TDNN ยังได้รับการปรับให้เข้ากับSpiking Neural Networksซึ่งนำไปสู่ผลลัพธ์ที่ล้ำสมัยในขณะที่เอื้อต่อการใช้งานฮาร์ดแวร์ที่ ประหยัดพลังงาน ^{[ 14 ]}

แอปพลิเคชัน

การรู้จำเสียงพูด

TDNN ถูกนำมาใช้เพื่อแก้ปัญหาในการรู้จำเสียงพูดซึ่งเปิดตัวในปี 1989 ^{[ 2 ]}และในตอนแรกเน้นไปที่การรู้จำหน่วยเสียงที่ไม่เปลี่ยนแปลงตามเวลา เสียงพูดนั้นเหมาะสมกับ TDNN เป็นอย่างดี เนื่องจากเสียงพูดมักมีความยาวไม่สม่ำเสมอ และการแบ่งส่วนที่แม่นยำนั้นทำได้ยากหรือเป็นไปไม่ได้ ด้วยการสแกนเสียงทั้งในอดีตและอนาคต TDNN สามารถสร้างแบบจำลองสำหรับองค์ประกอบสำคัญของเสียงนั้นในลักษณะที่ไม่เปลี่ยนแปลงตามเวลา ซึ่งมีประโยชน์อย่างยิ่งเมื่อเสียงถูกบิดเบือนผ่านการสะท้อน^{[ 11 ]}^{[ 12 ]} สามารถสร้าง TDNN สัทศาสตร์ขนาดใหญ่ได้แบบโมดูลาร์โดยการฝึกก่อนและรวมเครือข่ายขนาดเล็กเข้าด้วยกัน^{[ 9 ]}

การรู้จำเสียงพูดที่มีคำศัพท์จำนวนมาก

การรู้จำเสียงพูดที่มีคำศัพท์จำนวนมากจำเป็นต้องรู้จำลำดับของหน่วยเสียงที่ประกอบเป็นคำภายใต้ข้อจำกัดของคำศัพท์การออกเสียงจำนวนมาก การบูรณาการ TDNN เข้ากับระบบรู้จำเสียงพูดที่มีคำศัพท์จำนวนมากสามารถทำได้โดยการแนะนำการเปลี่ยนสถานะและการค้นหาระหว่างหน่วยเสียงที่ประกอบเป็นคำ เครือข่ายประสาทแบบหน่วงเวลาหลายสถานะ (MS-TDNN) ที่ได้สามารถฝึกฝนให้แยกแยะได้ตั้งแต่ระดับคำ ซึ่งจะช่วยเพิ่มประสิทธิภาพการจัดเรียงทั้งหมดไปสู่การรู้จำคำแทนที่จะเป็นการจำแนกหน่วยเสียง^{[ 13 ]}^{[ 15 ]}^{[ 4 ]}

ความเป็นอิสระของผู้พูด

มีการเสนอรูปแบบสองมิติของ TDNN เพื่อความเป็นอิสระของผู้พูด^{[ 3 ]}ในที่นี้ ความไม่แปรผันของการเลื่อนจะถูกนำไปใช้กับแกนเวลาและแกนความถี่ เพื่อเรียนรู้คุณลักษณะที่ซ่อนอยู่ซึ่งเป็นอิสระจากตำแหน่งที่แม่นยำในเวลาและความถี่ (ซึ่งเป็นผลมาจากความแปรปรวนของผู้พูด)

เสียงสะท้อน

ปัญหาหนึ่งที่ยังคงมีอยู่ในการรู้จำเสียงพูดคือการรู้จำเสียงพูดเมื่อเสียงพูดนั้นถูกรบกวนด้วยเสียงสะท้อนและเสียงก้อง (เช่นในห้องขนาดใหญ่และไมโครโฟนที่อยู่ไกล) เสียงก้องสามารถมองได้ว่าเป็นการรบกวนเสียงพูดด้วยเวอร์ชันที่ล่าช้าของตัวมันเอง โดยทั่วไปแล้ว การลดเสียงก้องของสัญญาณทำได้ยาก เนื่องจาก ฟังก์ชัน การตอบสนองแบบอิมพัลส์ (และดังนั้นเสียงรบกวนแบบคอนโวลูชันที่สัญญาณได้รับ) ไม่เป็นที่รู้จักสำหรับพื้นที่ใดๆ ก็ตาม TDNN ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพในการรู้จำเสียงพูดได้อย่างแข็งแกร่งแม้จะมีระดับเสียงก้องที่แตกต่างกัน^{[ 11 ]}^{[ 12 ]}

การอ่านริมฝีปาก – การพูดด้วยภาพและเสียง

นอกจากนี้ TDNN ยังถูกนำมาใช้ในการสาธิตการพูดแบบภาพและเสียงในระยะแรกได้อย่างประสบความสำเร็จ โดยที่เสียงพูดจะเสริมด้วยการอ่านการเคลื่อนไหวของริมฝีปาก^{[ 15 ]} ในที่นี้ ตัวรับรู้แบบ TDNN ใช้คุณลักษณะทางภาพและเสียงร่วมกันเพื่อให้ได้ความแม่นยำในการรับรู้ที่ดีขึ้น โดยเฉพาะอย่างยิ่งในกรณีที่มีเสียงรบกวน ซึ่งข้อมูลเสริมจากรูปแบบอื่นสามารถผสานรวมเข้ากับโครงข่ายประสาทได้อย่างดี

การจดจำลายมือ

TDNNs ถูกนำมาใช้อย่างมีประสิทธิภาพใน ระบบการจดจำลายมือขนาดกะทัดรัดและประสิทธิภาพสูง^{[ 16 ]}ความไม่แปรผันของการเลื่อนยังถูกปรับให้เข้ากับรูปแบบเชิงพื้นที่ (แกน x/y) ในการจดจำลายมือแบบออฟไลน์ของภาพ^{[ 4 ]}

การวิเคราะห์วิดีโอ

วิดีโอมีมิติเวลาที่ทำให้ TDNN เป็นโซลูชันที่เหมาะสมในการวิเคราะห์รูปแบบการเคลื่อนไหว ตัวอย่างของการวิเคราะห์นี้คือการผสมผสานระหว่างการตรวจจับยานพาหนะและการจดจำคนเดินเท้า^{[ 17 ]}เมื่อตรวจสอบวิดีโอ ภาพที่ตามมาจะถูกป้อนเข้าสู่ TDNN เป็นอินพุต โดยแต่ละภาพเป็นเฟรมถัดไปในวิดีโอ จุดแข็งของ TDNN มาจากความสามารถในการตรวจสอบวัตถุที่เลื่อนเวลาไปข้างหน้าและข้างหลังเพื่อกำหนดวัตถุที่ตรวจจับได้เมื่อเวลาเปลี่ยนไป หากสามารถจดจำวัตถุได้ด้วยวิธีนี้ แอปพลิเคชันสามารถวางแผนให้พบวัตถุนั้นในอนาคตและดำเนินการที่เหมาะสมที่สุดได้

การจดจำภาพ

ต่อมาโครงข่ายประสาทเทียมแบบ TDNN สองมิติถูกนำไปประยุกต์ใช้กับงานจดจำภาพอื่นๆ ภายใต้ชื่อ " โครงข่ายประสาทเทียมแบบคอนโวลูชัน " โดยใช้การฝึกฝนแบบไม่เปลี่ยนแปลงตามการเลื่อนตำแหน่งกับแกน x/y ของภาพ

ห้องสมุดทั่วไป

TDNN สามารถนำไปใช้ในเฟรมเวิร์กการเรียนรู้ของเครื่องเกือบทั้งหมดที่ใช้ โครงข่ายประสาทเทียมแบบคอนโวลูชันหนึ่งมิติได้เนื่องจากวิธีการทั้งสองมีความเทียบเท่ากัน
Matlab : กล่องเครื่องมือเครือข่ายประสาทมีฟังก์ชันการทำงานที่ออกแบบมาเพื่อสร้างเครือข่ายประสาทที่มีการหน่วงเวลาโดยเฉพาะ โดยกำหนดขนาดขั้นตอนของการหน่วงเวลาและฟังก์ชันการฝึกอบรมเพิ่มเติม อัลกอริทึมการฝึกอบรมเริ่มต้นคือ อัลกอริทึมการแพร่กระจายย้อนกลับแบบ การเรียนรู้ภายใต้การกำกับดูแล ซึ่งจะอัปเดตน้ำหนักตัวกรองตามการปรับให้เหมาะสมของ Levenberg-Marquardt ฟังก์ชันคือ timedelaynet(delays, hidden_layers, train_fnc) และส่งคืนสถาปัตยกรรมเครือข่ายประสาทที่มีการหน่วงเวลาที่ผู้ใช้สามารถฝึกฝนและป้อนข้อมูลได้^{[ 18 ]}
Kaldi ASR Toolkitมีการใช้งาน TDNN พร้อมการปรับแต่งหลายอย่างสำหรับการรู้จำเสียงพูด^{[ 19 ]}

ดูเพิ่มเติม

โครงข่ายประสาทเทียมแบบคอนโวลูชัน – โครงข่ายประสาทเทียมแบบคอนโวลูชันที่ทำการคอนโวลูชันตามแกนเวลาของข้อมูลนั้นคล้ายคลึงกับโครงข่ายประสาทเทียมแบบ TDNN มาก
โครงข่ายประสาทเทียมแบบวนซ้ำ (Recurrent Neural Networks : RNNs) – โครงข่ายประสาทเทียมแบบวนซ้ำก็สามารถจัดการกับข้อมูลเชิงเวลาได้เช่นกัน แต่ในลักษณะที่แตกต่างออกไป แทนที่จะใช้ข้อมูลป้อนเข้าที่เปลี่ยนแปลงตามเวลา RNNs จะรักษาเลเยอร์ที่ซ่อนอยู่ภายในเพื่อติดตามข้อมูลป้อนเข้าในอดีต (และในกรณีของ RNNs แบบสองทิศทาง ก็จะติดตามข้อมูลป้อนเข้าในอนาคตด้วย)

[ 1 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 10 ]

[ 14 ]

[ 16 ]

[ 17 ]

[ 18 ]

[ 19 ]