อ่าน 6 นาที
เครือข่ายประสาทแบบหน่วงเวลา
1987 in artificial intelligence/สถาปัตยกรรมโครงข่ายประสาทเทียม
เครือข่ายประสาทหน่วงเวลา ( TDNN ) เป็น สถาปัตยกรรม เครือข่ายประสาทเทียม แบบหลายชั้นที่มีวัตถุประสงค์เพื่อ 1) จำแนกรูปแบบที่มีความไม่แปรผันต่อการเลื่อน และ 2)...
เครือข่ายประสาทแบบหน่วงเวลา

เครือข่ายประสาทหน่วงเวลา ( TDNN ) [ 1 ]เป็น สถาปัตยกรรม เครือข่ายประสาทเทียม แบบหลายชั้นที่มีวัตถุประสงค์เพื่อ 1) จำแนกรูปแบบที่มีความไม่แปรผันต่อการเลื่อน และ 2) จำลองบริบทในแต่ละชั้นของเครือข่าย โดยพื้นฐานแล้วเป็น เครือข่ายประสาทแบบคอนโวลูชัน 1 มิติ(CNN)
การจำแนกประเภทที่ไม่ขึ้นกับการเลื่อนตำแหน่ง หมายความว่าตัวจำแนกไม่จำเป็นต้องมีการแบ่งส่วนอย่างชัดเจนก่อนการจำแนกประเภท สำหรับการจำแนกรูปแบบตามเวลา (เช่น เสียงพูด) TDNN จึงหลีกเลี่ยงการต้องกำหนดจุดเริ่มต้นและจุดสิ้นสุดของเสียงก่อนที่จะจำแนกประเภท
สำหรับการสร้างแบบจำลองตามบริบทใน TDNN แต่ละหน่วยประสาทในแต่ละชั้นจะได้รับอินพุตไม่เพียงแต่จากค่าการกระตุ้น/คุณลักษณะในชั้นด้านล่างเท่านั้น แต่ยังรวมถึงรูปแบบของเอาต์พุตของหน่วยและบริบทของมันด้วย สำหรับสัญญาณเวลา แต่ละหน่วยจะได้รับรูปแบบการกระตุ้นตามเวลาจากหน่วยด้านล่างเป็นอินพุต เมื่อนำไปใช้กับการจำแนกประเภทสองมิติ (ภาพ รูปแบบเวลา-ความถี่) TDNN สามารถฝึกฝนได้โดยคงความคงที่เมื่อมีการเลื่อนในพื้นที่พิกัด และหลีกเลี่ยงการแบ่งส่วนที่แม่นยำในพื้นที่พิกัด
ประวัติศาสตร์
TDNN ได้รับการแนะนำในช่วงปลายทศวรรษ 1980 และนำไปใช้กับงาน การจำแนก หน่วยเสียงสำหรับการรู้จำเสียงพูด อัตโนมัติ ในสัญญาณเสียงพูด ซึ่งการกำหนดส่วนหรือขอบเขตคุณลักษณะที่แม่นยำโดยอัตโนมัตินั้นทำได้ยากหรือเป็นไปไม่ได้ เนื่องจาก TDNN สามารถจดจำหน่วยเสียงและคุณลักษณะทางเสียง/สัทศาสตร์พื้นฐานได้โดยไม่ขึ้นกับตำแหน่งในเวลา จึงช่วยปรับปรุงประสิทธิภาพเหนือการจำแนกแบบคงที่[ 1 ] [ 2 ]นอกจากนี้ยังถูกนำไปใช้กับสัญญาณสองมิติ (รูปแบบเวลา-ความถี่ในเสียงพูด[ 3 ]และรูปแบบพื้นที่พิกัดใน OCR [ 4 ] )
Kunihiko Fukushimaได้ตีพิมพ์neocognitronในปี 1980 [ 5 ] Max poolingปรากฏในสิ่งพิมพ์ปี 1982 เกี่ยวกับ neocognitron [ 6 ]และอยู่ในสิ่งพิมพ์ปี 1989 ในLeNet- 5 [ 7 ]
ในปี พ.ศ. 2533 Yamaguchi และคณะได้ใช้ max pooling ใน TDNN เพื่อสร้างระบบการจดจำคำแยกอิสระจากผู้พูด[ 8 ]
ภาพรวม
สถาปัตยกรรม
ในภาษาปัจจุบัน การออกแบบของ TDNN คือโครงข่ายประสาทเทียมแบบคอนโวลูชัน 1 มิติ โดยทิศทางของคอนโวลูชันจะข้ามมิติของเวลา ในการออกแบบดั้งเดิมนั้นมีทั้งหมด 3 ชั้น
อินพุตของเครือข่ายคือสัญญาณเสียงพูดต่อเนื่องที่ผ่านการประมวลผลล่วงหน้าเป็นอาร์เรย์ 2 มิติ ( สเปกโตรแกรมแบบเมลสเกล ) มิติหนึ่งคือเวลาที่ 10 มิลลิวินาทีต่อเฟรม และอีกมิติหนึ่งคือความถี่ มิติเวลาสามารถยาวได้ตามต้องการ แต่มิติความถี่มีความยาวเพียง 16 เฟรม ในการทดลองดั้งเดิม พวกเขาพิจารณาเฉพาะสัญญาณเสียงพูดสั้นๆ ที่ออกเสียงคำเดียว เช่น "baa", "daa", "gaa" เท่านั้น ด้วยเหตุนี้ สัญญาณเสียงพูดจึงสั้นมาก โดยมีความยาวเพียง 15 เฟรม (150 มิลลิวินาทีในเวลา)
โดยละเอียดแล้ว พวกเขาประมวลผลสัญญาณเสียงดังนี้:
- สัญญาณเสียงที่ป้อนเข้าจะถูกสุ่มตัวอย่างที่ความถี่ 12 kHz โดยใช้หน้าต่างแฮมมิง (Hamming-windowed )
- การคำนวณ FFTจะเกิดขึ้นทุกๆ 5 มิลลิวินาที
- ค่าสัมประสิทธิ์มาตราส่วนเมลคำนวณได้จากสเปกตรัมกำลัง โดยการนำค่าลอการิทึมของพลังงานในแต่ละแถบพลังงานมาตราส่วนเมลมาใช้
- ค่าสัมประสิทธิ์ที่อยู่ติดกันในเวลาจะถูกปรับให้เรียบ ส่งผลให้มีการแสดงผลหนึ่งเฟรมทุกๆ 10 มิลลิวินาที
- สำหรับสัญญาณเสียงแต่ละสัญญาณ มนุษย์จะตรวจจับจุดเริ่มต้นของสระด้วยตนเอง และสัญญาณเสียงทั้งหมดจะถูกตัดออก ยกเว้น 7 เฟรมก่อนหน้าและ 7 เฟรมหลังจากนั้น เหลือเพียง 15 เฟรมโดยรวม ซึ่งอยู่ตรงกลางที่จุดเริ่มต้นของสระ
- ค่าสัมประสิทธิ์จะถูกปรับให้เป็นค่ามาตรฐานโดยการลบค่าเฉลี่ยออก แล้วปรับขนาดเพื่อให้สัญญาณอยู่ระหว่าง -1 และ +1
ชั้นแรกของ TDNN คือชั้นการแปลงแบบคอนโวลูชัน 1 มิติ ชั้นนี้ประกอบด้วยเคอร์เนล 8 ตัวที่มีรูปร่าง และส่งออกเทนเซอร์ที่มีรูปร่าง
ชั้นที่สองของ TDNN คือชั้นการแปลงแบบคอนโวลูชัน 1 มิติ ชั้นนี้ประกอบด้วยเคอร์เนล 3 ตัวที่มีรูปร่างและส่งออกเทนเซอร์ที่มีรูปร่าง
ชั้นที่สามของ TDNN ไม่ใช่ชั้นคอนโวลูชัน แต่เป็นเพียงชั้นคงที่ที่มีนิวรอน 3 ตัว สมมติให้เอาต์พุตจากชั้นที่สองเป็นโดยที่ และ นิวรอน ตัวที่ ในชั้นที่สามจะคำนวณโดยที่คือฟังก์ชันซิกมอยด์โดยพื้นฐานแล้ว สามารถมองได้ว่าเป็นชั้นคอนโวลูชันที่มีเคอร์เนล 3 ตัวรูปร่าง
โมเดลนี้ได้รับการฝึกฝนโดยใช้ตัวอย่างประมาณ 800 ตัวอย่าง เป็นเวลา 20,000–50,000 ขั้นตอน การแพร่กระจายย้อนกลับ (backpropagation ) แต่ละขั้นตอนคำนวณเป็นชุด (batch)บนชุดข้อมูลฝึกฝนทั้งหมด กล่าวคือ ไม่ใช่การสุ่มจำเป็นต้องใช้ซูเปอร์คอมพิวเตอร์ Alliantที่มีโปรเซสเซอร์ 4 ตัว
ตัวอย่าง
ในกรณีของสัญญาณเสียงพูด ข้อมูลที่ป้อนเข้าคือสัมประสิทธิ์สเปกตรัมตามเวลา
เพื่อเรียนรู้คุณลักษณะทางเสียงและสัทศาสตร์ที่สำคัญ (เช่น การเปลี่ยนฟอร์แมนต์ เสียงระเบิด เสียงเสียดแทรก ฯลฯ) โดยไม่ต้องอาศัยการระบุตำแหน่งที่แม่นยำก่อน โครงข่ายประสาทเทียมแบบเลื่อนเวลา (TDNN) จึงได้รับการฝึกฝนให้คงความคงที่ต่อการเลื่อนเวลา การคงความคงที่ต่อการเลื่อนเวลาเกิดขึ้นได้จากการแบ่งปันน้ำหนักข้ามเวลาในระหว่างการฝึกฝน: สำเนาของ TDNN ที่เลื่อนเวลาจะถูกสร้างขึ้นในช่วงอินพุต (จากซ้ายไปขวาในรูปที่ 1) จากนั้นจะทำการย้อนกลับการแพร่กระจายจากเวกเตอร์เป้าหมายการจำแนกประเภทโดยรวม (ดูแผนภาพ TDNN เป้าหมายคลาสเสียงสามคลาส (/b/, /d/, /g/) แสดงอยู่ในชั้นเอาต์พุต) ส่งผลให้ได้ค่าความชันที่จะแตกต่างกันโดยทั่วไปสำหรับแต่ละสำเนาของเครือข่ายที่เลื่อนเวลา เนื่องจากเครือข่ายที่เลื่อนเวลาเหล่านี้เป็นเพียงสำเนาเท่านั้น การพึ่งพาตำแหน่งจึงถูกกำจัดออกไปโดยการแบ่งปันน้ำหนัก ในตัวอย่างนี้ ทำได้โดยการหาค่าเฉลี่ยของค่าความชันจากแต่ละสำเนาที่เลื่อนเวลาก่อนที่จะทำการอัปเดตน้ำหนัก ในการพูด การฝึกฝนที่คงความคงที่ต่อการเลื่อนเวลาแสดงให้เห็นว่าสามารถเรียนรู้เมทริกซ์น้ำหนักที่ไม่ขึ้นอยู่กับตำแหน่งที่แม่นยำของอินพุตได้ เมทริกซ์น้ำหนักยังสามารถแสดงให้เห็นการตรวจจับคุณลักษณะทางเสียงและสัทศาสตร์ที่สำคัญซึ่งเป็นที่ทราบกันดีว่ามีความสำคัญต่อการรับรู้เสียงพูดของมนุษย์ เช่น การเปลี่ยนฟอร์แมนต์ การระเบิด ฯลฯ[ 1 ] TDNN ยังสามารถรวมหรือขยายได้โดยผ่านการฝึกก่อน[ 9 ]
การดำเนินการ
สถาปัตยกรรมที่แม่นยำของ TDNN (การหน่วงเวลา จำนวนเลเยอร์) ส่วนใหญ่ถูกกำหนดโดยนักออกแบบโดยขึ้นอยู่กับปัญหาการจำแนกประเภทและขนาดบริบทที่มีประโยชน์ที่สุด การหน่วงเวลาหรือหน้าต่างบริบทจะถูกเลือกเฉพาะสำหรับแต่ละแอปพลิเคชัน นอกจากนี้ยังมีการทำงานเพื่อสร้าง TDNN ที่ปรับเปลี่ยนการหน่วงเวลาได้[ 10 ]ซึ่งการปรับแต่งด้วยตนเองนี้ถูกกำจัดออกไป
ล้ำสมัย
ตัวรับรู้หน่วยเสียงแบบ TDNN เปรียบเทียบได้ดีในการเปรียบเทียบเบื้องต้นกับแบบจำลองหน่วยเสียงแบบ HMM [ 1 ] [ 9 ] สถาปัตยกรรม TDNN เชิงลึกสมัยใหม่ประกอบด้วยเลเยอร์ที่ซ่อนอยู่จำนวนมากและสุ่มตัวอย่างย่อยหรือรวมการเชื่อมต่อในบริบทที่กว้างขึ้นในเลเยอร์ที่สูงขึ้น สามารถลดข้อผิดพลาดของคำได้ถึง 50% เมื่อเทียบกับแบบจำลองเสียงแบบGMM [ 11 ] [ 12 ] ในขณะที่เลเยอร์ต่างๆ ของ TDNN มีจุดประสงค์เพื่อเรียนรู้คุณลักษณะของความกว้างของบริบทที่เพิ่มขึ้น แต่พวกมันก็สร้างแบบจำลองบริบทท้องถิ่น เมื่อต้องประมวลผลความสัมพันธ์ระยะไกลและลำดับรูปแบบ การเรียนรู้สถานะและลำดับสถานะจึงมีความสำคัญ และ TDNN สามารถรวมเข้ากับเทคนิคการสร้างแบบจำลองอื่นๆ ได้[ 13 ] [ 3 ] [ 4 ]สถาปัตยกรรม TDNN ยังได้รับการปรับให้เข้ากับSpiking Neural Networksซึ่งนำไปสู่ผลลัพธ์ที่ล้ำสมัยในขณะที่เอื้อต่อการใช้งานฮาร์ดแวร์ที่ ประหยัดพลังงาน [ 14 ]
แอปพลิเคชัน
การรู้จำเสียงพูด
TDNN ถูกนำมาใช้เพื่อแก้ปัญหาในการรู้จำเสียงพูดซึ่งเปิดตัวในปี 1989 [ 2 ]และในตอนแรกเน้นไปที่การรู้จำหน่วยเสียงที่ไม่เปลี่ยนแปลงตามเวลา เสียงพูดนั้นเหมาะสมกับ TDNN เป็นอย่างดี เนื่องจากเสียงพูดมักมีความยาวไม่สม่ำเสมอ และการแบ่งส่วนที่แม่นยำนั้นทำได้ยากหรือเป็นไปไม่ได้ ด้วยการสแกนเสียงทั้งในอดีตและอนาคต TDNN สามารถสร้างแบบจำลองสำหรับองค์ประกอบสำคัญของเสียงนั้นในลักษณะที่ไม่เปลี่ยนแปลงตามเวลา ซึ่งมีประโยชน์อย่างยิ่งเมื่อเสียงถูกบิดเบือนผ่านการสะท้อน[ 11 ] [ 12 ] สามารถสร้าง TDNN สัทศาสตร์ขนาดใหญ่ได้แบบโมดูลาร์โดยการฝึกก่อนและรวมเครือข่ายขนาดเล็กเข้าด้วยกัน[ 9 ]
การรู้จำเสียงพูดที่มีคำศัพท์จำนวนมาก
การรู้จำเสียงพูดที่มีคำศัพท์จำนวนมากจำเป็นต้องรู้จำลำดับของหน่วยเสียงที่ประกอบเป็นคำภายใต้ข้อจำกัดของคำศัพท์การออกเสียงจำนวนมาก การบูรณาการ TDNN เข้ากับระบบรู้จำเสียงพูดที่มีคำศัพท์จำนวนมากสามารถทำได้โดยการแนะนำการเปลี่ยนสถานะและการค้นหาระหว่างหน่วยเสียงที่ประกอบเป็นคำ เครือข่ายประสาทแบบหน่วงเวลาหลายสถานะ (MS-TDNN) ที่ได้สามารถฝึกฝนให้แยกแยะได้ตั้งแต่ระดับคำ ซึ่งจะช่วยเพิ่มประสิทธิภาพการจัดเรียงทั้งหมดไปสู่การรู้จำคำแทนที่จะเป็นการจำแนกหน่วยเสียง[ 13 ] [ 15 ] [ 4 ]
ความเป็นอิสระของผู้พูด
มีการเสนอรูปแบบสองมิติของ TDNN เพื่อความเป็นอิสระของผู้พูด[ 3 ]ในที่นี้ ความไม่แปรผันของการเลื่อนจะถูกนำไปใช้กับแกนเวลาและแกนความถี่ เพื่อเรียนรู้คุณลักษณะที่ซ่อนอยู่ซึ่งเป็นอิสระจากตำแหน่งที่แม่นยำในเวลาและความถี่ (ซึ่งเป็นผลมาจากความแปรปรวนของผู้พูด)
เสียงสะท้อน
ปัญหาหนึ่งที่ยังคงมีอยู่ในการรู้จำเสียงพูดคือการรู้จำเสียงพูดเมื่อเสียงพูดนั้นถูกรบกวนด้วยเสียงสะท้อนและเสียงก้อง (เช่นในห้องขนาดใหญ่และไมโครโฟนที่อยู่ไกล) เสียงก้องสามารถมองได้ว่าเป็นการรบกวนเสียงพูดด้วยเวอร์ชันที่ล่าช้าของตัวมันเอง โดยทั่วไปแล้ว การลดเสียงก้องของสัญญาณทำได้ยาก เนื่องจาก ฟังก์ชัน การตอบสนองแบบอิมพัลส์ (และดังนั้นเสียงรบกวนแบบคอนโวลูชันที่สัญญาณได้รับ) ไม่เป็นที่รู้จักสำหรับพื้นที่ใดๆ ก็ตาม TDNN ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพในการรู้จำเสียงพูดได้อย่างแข็งแกร่งแม้จะมีระดับเสียงก้องที่แตกต่างกัน[ 11 ] [ 12 ]
การอ่านริมฝีปาก – การพูดด้วยภาพและเสียง
นอกจากนี้ TDNN ยังถูกนำมาใช้ในการสาธิตการพูดแบบภาพและเสียงในระยะแรกได้อย่างประสบความสำเร็จ โดยที่เสียงพูดจะเสริมด้วยการอ่านการเคลื่อนไหวของริมฝีปาก[ 15 ] ในที่นี้ ตัวรับรู้แบบ TDNN ใช้คุณลักษณะทางภาพและเสียงร่วมกันเพื่อให้ได้ความแม่นยำในการรับรู้ที่ดีขึ้น โดยเฉพาะอย่างยิ่งในกรณีที่มีเสียงรบกวน ซึ่งข้อมูลเสริมจากรูปแบบอื่นสามารถผสานรวมเข้ากับโครงข่ายประสาทได้อย่างดี
การจดจำลายมือ
TDNNs ถูกนำมาใช้อย่างมีประสิทธิภาพใน ระบบการจดจำลายมือขนาดกะทัดรัดและประสิทธิภาพสูง[ 16 ]ความไม่แปรผันของการเลื่อนยังถูกปรับให้เข้ากับรูปแบบเชิงพื้นที่ (แกน x/y) ในการจดจำลายมือแบบออฟไลน์ของภาพ[ 4 ]
การวิเคราะห์วิดีโอ
วิดีโอมีมิติเวลาที่ทำให้ TDNN เป็นโซลูชันที่เหมาะสมในการวิเคราะห์รูปแบบการเคลื่อนไหว ตัวอย่างของการวิเคราะห์นี้คือการผสมผสานระหว่างการตรวจจับยานพาหนะและการจดจำคนเดินเท้า[ 17 ]เมื่อตรวจสอบวิดีโอ ภาพที่ตามมาจะถูกป้อนเข้าสู่ TDNN เป็นอินพุต โดยแต่ละภาพเป็นเฟรมถัดไปในวิดีโอ จุดแข็งของ TDNN มาจากความสามารถในการตรวจสอบวัตถุที่เลื่อนเวลาไปข้างหน้าและข้างหลังเพื่อกำหนดวัตถุที่ตรวจจับได้เมื่อเวลาเปลี่ยนไป หากสามารถจดจำวัตถุได้ด้วยวิธีนี้ แอปพลิเคชันสามารถวางแผนให้พบวัตถุนั้นในอนาคตและดำเนินการที่เหมาะสมที่สุดได้
การจดจำภาพ
ต่อมาโครงข่ายประสาทเทียมแบบ TDNN สองมิติถูกนำไปประยุกต์ใช้กับงานจดจำภาพอื่นๆ ภายใต้ชื่อ " โครงข่ายประสาทเทียมแบบคอนโวลูชัน " โดยใช้การฝึกฝนแบบไม่เปลี่ยนแปลงตามการเลื่อนตำแหน่งกับแกน x/y ของภาพ
ห้องสมุดทั่วไป
- TDNN สามารถนำไปใช้ในเฟรมเวิร์กการเรียนรู้ของเครื่องเกือบทั้งหมดที่ใช้ โครงข่ายประสาทเทียมแบบคอนโวลูชันหนึ่งมิติได้เนื่องจากวิธีการทั้งสองมีความเทียบเท่ากัน
- Matlab : กล่องเครื่องมือเครือข่ายประสาทมีฟังก์ชันการทำงานที่ออกแบบมาเพื่อสร้างเครือข่ายประสาทที่มีการหน่วงเวลาโดยเฉพาะ โดยกำหนดขนาดขั้นตอนของการหน่วงเวลาและฟังก์ชันการฝึกอบรมเพิ่มเติม อัลกอริทึมการฝึกอบรมเริ่มต้นคือ อัลกอริทึมการแพร่กระจายย้อนกลับแบบ การเรียนรู้ภายใต้การกำกับดูแล ซึ่งจะอัปเดตน้ำหนักตัวกรองตามการปรับให้เหมาะสมของ Levenberg-Marquardt ฟังก์ชันคือ timedelaynet(delays, hidden_layers, train_fnc) และส่งคืนสถาปัตยกรรมเครือข่ายประสาทที่มีการหน่วงเวลาที่ผู้ใช้สามารถฝึกฝนและป้อนข้อมูลได้[ 18 ]
- Kaldi ASR Toolkitมีการใช้งาน TDNN พร้อมการปรับแต่งหลายอย่างสำหรับการรู้จำเสียงพูด[ 19 ]
ดูเพิ่มเติม
- โครงข่ายประสาทเทียมแบบคอนโวลูชัน – โครงข่ายประสาทเทียมแบบคอนโวลูชันที่ทำการคอนโวลูชันตามแกนเวลาของข้อมูลนั้นคล้ายคลึงกับโครงข่ายประสาทเทียมแบบ TDNN มาก
- โครงข่ายประสาทเทียมแบบวนซ้ำ (Recurrent Neural Networks : RNNs) – โครงข่ายประสาทเทียมแบบวนซ้ำก็สามารถจัดการกับข้อมูลเชิงเวลาได้เช่นกัน แต่ในลักษณะที่แตกต่างออกไป แทนที่จะใช้ข้อมูลป้อนเข้าที่เปลี่ยนแปลงตามเวลา RNNs จะรักษาเลเยอร์ที่ซ่อนอยู่ภายในเพื่อติดตามข้อมูลป้อนเข้าในอดีต (และในกรณีของ RNNs แบบสองทิศทาง ก็จะติดตามข้อมูลป้อนเข้าในอนาคตด้วย)
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ เครือข่ายประสาทแบบหน่วงเวลา
เครือข่ายประสาทหน่วงเวลา ( TDNN ) เป็น สถาปัตยกรรม เครือข่ายประสาทเทียม แบบหลายชั้นที่มีวัตถุประสงค์เพื่อ 1) จำแนกรูปแบบที่มีความไม่แปรผันต่อการเลื่อน และ 2)...
ประวัติศาสตร์
TDNN ได้รับการแนะนำในช่วงปลายทศวรรษ 1980 และนำไปใช้กับงาน การจำแนก หน่วยเสียง สำหรับ การรู้จำเสียงพูด อัตโนมัติ ในสัญญาณเสียงพูด ซึ่งการกำหนดส่วนหรือขอบเขตคุณลักษณะที่แม่นยำโดยอัตโนมัตินั้นทำได้ยากหรือเป็นไปไม่ได้ เนื่องจาก TDNN...
สถาปัตยกรรม
ในภาษาปัจจุบัน การออกแบบของ TDNN คือ โครงข่ายประสาทเทียมแบบคอนโวลูชัน 1 มิติ โดยทิศทางของคอนโวลูชันจะข้ามมิติของเวลา ในการออกแบบดั้งเดิมนั้นมีทั้งหมด 3 ชั้น
ตัวอย่าง
ในกรณีของสัญญาณเสียงพูด ข้อมูลที่ป้อนเข้าคือสัมประสิทธิ์สเปกตรัมตามเวลา