อ่าน 5 นาที
สเปกโตรแกรม
สเปก โทรแกรม คือการแสดงภาพ สเปกตรัม ของ ความถี่ ของสัญญาณที่เปลี่ยนแปลงไปตามเวลา เมื่อนำไปใช้กับ สัญญาณเสียง สเปกโทรแกรมบางครั้งเรียกว่า โซโนกราฟ วอยซ์ พริ้นท์ หรือ วอยซ์แกรม...
สเปกโตรแกรม


สเปกโทรแกรมคือการแสดงภาพสเปกตรัม ของ ความถี่ของสัญญาณที่เปลี่ยนแปลงไปตามเวลา เมื่อนำไปใช้กับสัญญาณเสียงสเปกโทรแกรมบางครั้งเรียกว่าโซโนกราฟวอยซ์พริ้นท์หรือวอยซ์แกรมเมื่อข้อมูลถูกแสดงในกราฟ 3 มิติ อาจเรียกว่าจอแสดงผลแบบน้ำตก (waterfall displays )
สเปกโตรแกรมถูกนำมาใช้อย่างกว้างขวางในสาขาดนตรีภาษาศาสตร์โซนาร์เรดาร์การประมวลผลเสียงพูด [ 1 ] แผ่นดินไหววิทยาปักษีวิทยาและอื่น ๆ สเปกโตรแกรม ของเสียงสามารถใช้เพื่อระบุคำพูดตามหลักสัทศาสตร์และเพื่อวิเคราะห์เสียงร้องต่างๆ ของสัตว์
สเปกโตรแกรมสามารถสร้างได้โดยใช้สเปกโตรมิเตอร์แบบออปติคอลชุดตัวกรองแบบแบนด์พาสการแปลงฟูริเยร์หรือการแปลงเวฟเล็ต (ในกรณีนี้เรียกว่าสเกลโลแกรมหรือสเกลโลแกรม ) [ 2 ]

โดยทั่วไปแล้ว สเปกโทรแกรมจะแสดงในรูปแบบแผนที่ความร้อนกล่าวคือ เป็นภาพที่แสดงความเข้มโดยการเปลี่ยนแปลงสีหรือความสว่าง
รูปแบบ
รูปแบบทั่วไปคือ กราฟที่มีสองมิติทางเรขาคณิต โดยแกนหนึ่งแสดงถึงเวลาและอีกแกนหนึ่งแสดงความถี่ ส่วนมิติที่สามซึ่งบ่งชี้ถึงแอมพลิจูดของความถี่เฉพาะ ณ เวลาใดเวลาหนึ่ง จะแสดงด้วยความเข้มหรือสีของแต่ละจุดในภาพ
รูปแบบของกราฟมีหลายแบบ บางครั้งแกนแนวตั้งและแนวนอนจะสลับกัน ทำให้เวลาวิ่งขึ้นและลง บางครั้งอาจเป็นกราฟแบบน้ำตกโดยที่แอมพลิจูดแสดงด้วยความสูงของพื้นผิวสามมิติแทนที่จะใช้สีหรือความเข้ม แกนความถี่และแอมพลิจูดอาจเป็นแบบเชิงเส้นหรือแบบลอการิทึม ขึ้นอยู่กับว่ากราฟนั้นใช้เพื่ออะไร โดยปกติแล้วเสียงจะแสดงด้วยแกนแอมพลิจูดแบบลอการิทึม (อาจอยู่ในหน่วยเดซิเบลหรือ dB) และความถี่จะเป็นแบบเชิงเส้นเพื่อเน้นความสัมพันธ์ทางฮาร์มอนิก หรือแบบลอการิทึมเพื่อเน้นความสัมพันธ์ทางดนตรีและโทนเสียง
- สเปกโตรแกรมของการบันทึกเสียงไวโอลินนี้สังเกตฮาร์โมนิกที่เกิดขึ้นที่ความถี่ที่เป็นจำนวนเต็มเท่าของความถี่พื้นฐาน
- สเปกโตรแกรมพื้นผิวสามมิติของชิ้นส่วนจากบทเพลง
- สเปกโตรแกรมของเสียงผู้ชายที่พูดว่า 'ตา ตา ตา'
- สเปกโตรแกรมของเสียงร้องของโลมา; เสียงร้องแหลม เสียงคลิก และเสียงประสาน จะปรากฏให้เห็นเป็นรูปตัววีคว่ำ เส้นแนวตั้ง และเส้นริ้วแนวนอน ตามลำดับ
- ภาพด้านบนคือสเปกตรัม และภาพด้านล่างคือสเปกโตรแกรม (spectrogram) ของ สัญญาณโทรทัศน์PAL -I ที่มีความกว้าง 8MHz
- สเปกโตรแก รมของเสียงร้องของนกติ๊ดใหญ่
- สเปกโตรแกรม Constant-Qของคลื่นความโน้มถ่วง ( GW170817 )
- สเปกโทรแกรมและกราฟน้ำตกของเสียงผิวปาก 3 โน้ต
- สเปกโตรแกรมของระบบนิเวศเสียงในอุทยานแห่งชาติเมานต์เรนเนียร์โดยเน้นเสียงของสิ่งมีชีวิตและเครื่องบินชนิดต่างๆ
- สเปกโตรแกรม (สร้างด้วยโปรแกรมฟรีแวร์Sonogram visible Speech )
- สเปกโตร แกรมการแปลงค่า Q แปรผันของคอร์ดเปียโน (สร้างโดยใช้ฟิลเตอร์ showcqt ของFFmpeg )
รุ่น
สามารถสร้างสเปกโตรแกรมของแสงได้โดยตรงโดยใช้เครื่องสเปกโตรมิเตอร์แบบออปติคอลในช่วงเวลาต่างๆ
สเปกโตรแกรมสามารถสร้างขึ้นจาก สัญญาณ ในโดเมนเวลาได้สองวิธี: วิธีแรกคือการประมาณค่าโดยใช้ฟิลเตอร์แบงค์ที่ได้จากชุดของฟิลเตอร์แบบผ่านย่านความถี่ (ซึ่งเป็นวิธีเดียวที่มีอยู่ก่อนการพัฒนาการประมวลผลสัญญาณดิจิทัลสมัยใหม่) หรือวิธีที่สองคือการคำนวณจากสัญญาณเวลาโดยใช้การแปลงฟูริเยร์ทั้งสองวิธีนี้ให้ผลลัพธ์เป็นการแสดงความสัมพันธ์ระหว่างเวลาและความถี่ ที่แตกต่างกัน แต่มีความเทียบเท่ากันในบางเงื่อนไข
โดยทั่วไปแล้ว วิธีการกรองแบบแบนด์พาสจะใช้ การประมวลผล แบบอนาล็อกเพื่อแบ่งสัญญาณอินพุตออกเป็นแถบความถี่ ขนาดของเอาต์พุตของแต่ละตัวกรองจะควบคุมทรานสดิวเซอร์ที่บันทึกสเปกโตรแกรมเป็นภาพบนกระดาษ[ 3 ]
การสร้างสเปกโตรแกรมโดยใช้ FFT เป็นกระบวนการดิจิทัล ข้อมูล ที่สุ่มตัวอย่างแบบดิจิทัลในโดเมนเวลาจะถูกแบ่งออกเป็นส่วนๆ ซึ่งมักจะทับซ้อนกัน และแปลงฟูริเยร์เพื่อคำนวณขนาดของสเปกตรัมความถี่สำหรับแต่ละส่วน จากนั้นแต่ละส่วนจะสอดคล้องกับเส้นแนวตั้งในภาพ ซึ่งเป็นการวัดขนาดเทียบกับความถี่ในช่วงเวลาหนึ่ง (จุดกึ่งกลางของส่วน) จากนั้นสเปกตรัมหรือกราฟเวลาเหล่านี้จะถูก "วางเคียงข้างกัน" เพื่อสร้างภาพหรือพื้นผิวสามมิติ[ 4 ]หรือทับซ้อนกันเล็กน้อยในรูปแบบต่างๆ เช่นการใช้หน้าต่างกระบวนการนี้โดยพื้นฐานแล้วสอดคล้องกับการคำนวณขนาดกำลัง สอง ของการแปลงฟูริเยร์แบบช่วงเวลาสั้น (STFT) ของสัญญาณ นั่นคือ สำหรับความกว้าง ของหน้าต่าง[ 5 ]
ข้อจำกัดและการสังเคราะห์ใหม่
จากสูตรข้างต้น ดูเหมือนว่าสเปกโตรแกรมจะไม่มีข้อมูลเกี่ยวกับเฟสที่แน่นอน หรือแม้แต่เฟส โดยประมาณ ของสัญญาณที่แสดง ด้วยเหตุนี้ จึงไม่สามารถย้อนกระบวนการและสร้างสำเนาของสัญญาณดั้งเดิมจากสเปกโตรแกรมได้ แม้ว่าในสถานการณ์ที่เฟสเริ่มต้นที่แน่นอนไม่สำคัญ อาจสามารถสร้างค่าประมาณที่เป็นประโยชน์ของสัญญาณดั้งเดิมได้ โปรแกรม Analysis & Resynthesis Sound Spectrograph [ 6 ]เป็นตัวอย่างของโปรแกรมคอมพิวเตอร์ที่พยายามทำเช่นนี้การเล่นรูปแบบเป็นเครื่องสังเคราะห์เสียงพูดรุ่นแรกๆ ที่ออกแบบที่Haskins Laboratoriesในช่วงปลายทศวรรษ 1940 ซึ่งแปลงภาพของรูปแบบเสียงพูด (สเปกโตรแกรม) กลับเป็นเสียง
ในความเป็นจริง มีข้อมูลเฟสบางส่วนในสเปกโตรแกรม แต่ปรากฏในรูปแบบอื่น เช่น การหน่วงเวลา (หรือการหน่วงเวลากลุ่ม ) ซึ่งเป็นค่าคู่ของความถี่ทันที[ 7 ]
ขนาดและรูปร่างของหน้าต่างการวิเคราะห์สามารถเปลี่ยนแปลงได้ หน้าต่างที่เล็กกว่า (สั้นกว่า) จะให้ผลลัพธ์ที่แม่นยำกว่าในเรื่องการจับเวลา แต่จะลดความแม่นยำในการแสดงความถี่ลง หน้าต่างที่ใหญ่กว่า (ยาวกว่า) จะให้การแสดงความถี่ที่แม่นยำกว่า แต่จะลดความแม่นยำในการแสดงเวลาลง นี่เป็นตัวอย่างของหลักการความไม่แน่นอนของไฮเซนเบิร์กซึ่งผลคูณของความแม่นยำในตัวแปรคู่ควบ สองตัว มีค่ามากกว่าหรือเท่ากับค่าคงที่ (B*T>=1 ในสัญลักษณ์ปกติ) [ 8 ]
แอปพลิเคชัน
- สเปกโตรแกรมแบบอนาล็อกในยุคแรกถูกนำไปใช้ในหลากหลายสาขา รวมถึงการศึกษาเสียงร้องของนก (เช่น เสียงร้องของนกติ๊ดใหญ่ ) โดยงานวิจัยในปัจจุบันยังคงดำเนินต่อไปโดยใช้อุปกรณ์ดิจิทัลที่ทันสมัย[ 9 ]และนำไปใช้กับเสียงสัตว์ทุกชนิด การใช้สเปกโตรแกรมแบบดิจิทัลในปัจจุบันมีประโยชน์อย่างยิ่งสำหรับการศึกษาการมอดูเลชั่นความถี่ (FM) ในเสียงร้องของสัตว์ โดยเฉพาะอย่างยิ่ง ลักษณะเด่นของเสียงร้องแบบ FM เสียงคลิก แบบบรอดแบนด์ และการประสานเสียงทางสังคม สามารถมองเห็นได้ง่ายที่สุดด้วยสเปกโตรแกรม
- สเปกโตรแกรมมีประโยชน์ในการช่วยเอาชนะความบกพร่องในการพูดและการฝึกพูดสำหรับประชากรกลุ่มที่หูหนวกสนิท[ 10 ]
- การศึกษาด้านสัทศาสตร์และการสังเคราะห์เสียงมักได้รับการอำนวยความสะดวกโดยการใช้สเปกโตรแกรม[ 11 ] [ 12 ]
- ในการสังเคราะห์เสียงพูดโดยใช้การเรียนรู้เชิงลึก สเปกโทรแกรม (หรือสเปกโทรแกรมในมาตราส่วนเมล ) จะถูกทำนายโดยแบบจำลอง seq2seq ก่อน จากนั้นสเปกโทรแกรมจะถูกป้อนไปยังตัวเข้ารหัสเสียงแบบโครงข่ายประสาทเทียมเพื่อสร้างรูปคลื่นดิบที่สังเคราะห์ขึ้น
- โดยการย้อนกลับกระบวนการสร้างสเปกโตรแกรม สามารถสร้างสัญญาณที่มีสเปกโตรแกรมเป็นภาพใดๆ ก็ได้ เทคนิคนี้สามารถใช้เพื่อซ่อนภาพในไฟล์เสียง และศิลปินเพลงอิเล็กทรอนิกส์ หลายคนได้นำไปใช้ [ 13 ]ดูเพิ่มเติมที่ สเตกาโนกราฟี
- ดนตรีสมัยใหม่บางประเภทสร้างขึ้นโดยใช้สเปกโตรแกรมเป็นสื่อกลาง โดยการเปลี่ยนแปลงความเข้มของความถี่ต่างๆ ตามเวลา หรือแม้กระทั่งสร้างความถี่ใหม่ โดยการวาดสเปกโตรแกรมแล้วแปลงกลับ ดูตัวอย่างได้ที่การปรับเปลี่ยนระดับเสียงตามช่วงเวลาของเสียงและโวโคเดอร์เฟส
- สามารถใช้สเปกโตรแกรมเพื่อวิเคราะห์ผลลัพธ์ของการส่งสัญญาณทดสอบผ่านตัวประมวลผลสัญญาณ เช่น ตัวกรอง เพื่อตรวจสอบประสิทธิภาพ[ 14 ]
- สเปกโตรแกรมความละเอียดสูงใช้ในการพัฒนาระบบ RF และไมโครเวฟ[ 15 ]
- ขณะนี้มีการใช้สเปกโตรแกรมเพื่อแสดงพารามิเตอร์การกระเจิงที่วัดด้วยเครื่องวิเคราะห์เครือข่ายเวกเตอร์[ 16 ]
- สำนักงานสำรวจทางธรณีวิทยาแห่งสหรัฐอเมริกาและกลุ่ม IRISให้บริการแสดงสเปกโตรแกรมแบบเรียลไทม์สำหรับการตรวจสอบสถานีแผ่นดินไหว[ 17 ] [ 18 ]
- สามารถใช้สเปกโตรแกรมร่วมกับโครงข่ายประสาทแบบวนซ้ำเพื่อการจดจำเสียงพูดได้[ 19 ] [ 20 ]
- สำหรับสัญญาณการสั่นสะเทือน มาตราส่วนสีของสเปกโตรแกรมจะระบุความถี่ของยอดแอมพลิจูดของรูปคลื่นเมื่อเวลาผ่านไป แตกต่างจากกราฟเวลาหรือความถี่ สเปกโตรแกรมจะเชื่อมโยงค่าสูงสุดกับเวลาและความถี่ วิศวกรทดสอบการสั่นสะเทือนใช้สเปกโตรแกรมเพื่อวิเคราะห์เนื้อหาความถี่ของรูปคลื่นต่อเนื่อง ค้นหาสัญญาณที่แรง และพิจารณาว่าพฤติกรรมการสั่นสะเทือนเปลี่ยนแปลงไปอย่างไรเมื่อเวลาผ่านไป[ 21 ]
- สามารถใช้สเปกโตรแกรมในการวิเคราะห์คำพูดในสองแอปพลิเคชันที่แตกต่างกัน ได้แก่ การตรวจจับความบกพร่องในการพูดโดยอัตโนมัติในผู้ใช้ประสาทหูเทียม และการจดจำคลาสโฟนีมเพื่อแยกคุณลักษณะโฟนี[ 22 ]
- เพื่อให้ได้ลักษณะการออกเสียงของผู้พูด นักวิจัยบางคนเสนอวิธีการโดยอิงจากแนวคิดจากไบโอนิกส์ ซึ่งใช้สถิติสเปกโตรแกรมเพื่อให้ได้สเปกโตรแกรมลักษณะเฉพาะเพื่อให้ได้การแสดงการออกเสียงของผู้พูดที่เสถียรจากการซ้อนทับเชิงเส้นของสเปกโตรแกรมช่วงเวลาสั้นๆ[ 23 ]
- นักวิจัยสำรวจแนวทางใหม่ในการวิเคราะห์สัญญาณ ECG โดยใช้เทคนิคสเปกโตรแกรม ซึ่งอาจช่วยให้มองเห็นและเข้าใจได้ดียิ่งขึ้น การบูรณาการ MFCC สำหรับการสกัดคุณลักษณะชี้ให้เห็นถึงการประยุกต์ใช้ข้ามสาขาวิชา โดยยืมวิธีการจากการประมวลผลเสียงเพื่อสกัดข้อมูลที่เกี่ยวข้องจากสัญญาณชีวการแพทย์[ 24 ]
- การตีความสีแสดงอุณหภูมิ (TIP) ที่แม่นยำมีความสำคัญอย่างยิ่งในด้านการบินและการใช้งานทางอุตสาหกรรมอื่นๆ สามารถใช้สเปกโตรแกรม 2 มิติของ TIP ในการตีความอุณหภูมิได้[ 25 ]
- สเปกโตรแกรมสามารถใช้ประมวลผลสัญญาณอัตราการเปลี่ยนแปลงของทรวงอกมนุษย์ได้ โดยการแสดงภาพสัญญาณการหายใจโดยใช้สเปกโตรแกรม นักวิจัยได้เสนอแนวทางในการจำแนกสถานะการหายใจโดยใช้แบบจำลองเครือข่ายประสาท[ 26 ]
ดูเพิ่มเติม
- เอกลักษณ์ทางเสียง
- โครมาแกรม
- การวิเคราะห์ฟูริเยร์สำหรับการคำนวณความเป็นคาบในข้อมูลที่มีระยะห่างเท่ากัน
- สเปกโตรแกรมทั่วไป
- การวิเคราะห์สเปกตรัมแบบกำลังสองน้อยที่สุดสำหรับการคำนวณความเป็นคาบในข้อมูลที่มีระยะห่างไม่สม่ำเสมอ
- รายชื่อเสียงปริศนาที่ไม่สามารถอธิบายได้
- วิธีการจัดสรรใหม่
- ดนตรีสเปกตรัม
- สเปกโทรเมตร
- จูนเนอร์สโตรบ
- รูปคลื่น
ลิงก์ภายนอก
- ดูสเปกโตรแกรมออนไลน์ของเสียงพูดหรือเสียงอื่นๆ ที่บันทึกโดยไมโครโฟนของคอมพิวเตอร์ของคุณ
- การสร้างลำดับเสียงที่มีสเปกโทรแกรมตรงกับข้อความใดๆ ทางออนไลน์
- ข้อมูลเพิ่มเติมเกี่ยวกับการสร้างสัญญาณที่มีสเปกโตรแกรมเป็นภาพใดๆ ก็ได้
- บทความที่อธิบายถึงการพัฒนาซอฟต์แวร์สเปกโตรแกรม
- ประวัติความเป็นมาของสเปกโตรแกรมและการพัฒนาเครื่องมือวัด
- วิธีระบุคำในสเปกโตรแกรม จาก สิ่งพิมพ์Monthly Mystery Spectrogramของศาสตราจารย์ด้านภาษาศาสตร์
- Sonogram Visible Speech เป็นซอฟต์แวร์ฟรีที่ได้รับอนุญาตภายใต้ GPL สำหรับการสร้างไฟล์สัญญาณสเปกโตรแกรม
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ สเปกโตรแกรม
สเปก โทรแกรม คือการแสดงภาพ สเปกตรัม ของ ความถี่ ของสัญญาณที่เปลี่ยนแปลงไปตามเวลา เมื่อนำไปใช้กับ สัญญาณเสียง สเปกโทรแกรมบางครั้งเรียกว่า โซโนกราฟ วอยซ์ พริ้นท์ หรือ วอยซ์แกรม...
รูปแบบ
รูปแบบทั่วไปคือ กราฟที่มีสองมิติทางเรขาคณิต โดยแกนหนึ่งแสดงถึง เวลา และอีกแกนหนึ่งแสดง ความถี่ ส่วน มิติที่สามซึ่งบ่งชี้ถึง แอมพลิจูด ของความถี่เฉพาะ ณ เวลาใดเวลาหนึ่ง จะแสดงด้วย ความเข้ม หรือสีของแต่ละจุดในภาพ
รุ่น
สามารถสร้างสเปกโตรแกรมของแสงได้โดยตรงโดยใช้ เครื่องสเปกโตรมิเตอร์แบบออปติคอล ในช่วงเวลาต่างๆ
ข้อจำกัดและการสังเคราะห์ใหม่
จากสูตรข้างต้น ดูเหมือนว่าสเปกโตรแกรมจะไม่มีข้อมูลเกี่ยวกับเฟสที่แน่นอน หรือแม้แต่ เฟส โดยประมาณ ของสัญญาณที่แสดง ด้วยเหตุนี้ จึงไม่สามารถย้อนกระบวนการและสร้างสำเนาของสัญญาณดั้งเดิมจากสเปกโตรแกรมได้ แม้ว่าในสถานการณ์ที่เฟสเริ่มต้นที่แน่นอนไม่สำคัญ...
