อ่าน 10 นาที
ความลึกของบิตเสียง
ในระบบเสียงดิจิทัลที่ใช้การมอดูเลชั่นแบบพัลส์โค้ด (PCM) ความลึกของบิตคือจำนวนบิตของข้อมูลในแต่ละตัวอย่างและมีความสัมพันธ์โดยตรงกับความละเอียดของแต่ละตัวอย่าง...
ความลึกของบิตเสียง

ในระบบเสียงดิจิทัลที่ใช้การมอดูเลชั่นแบบพัลส์โค้ด (PCM) ความลึกของบิตคือจำนวนบิตของข้อมูลในแต่ละตัวอย่างและมีความสัมพันธ์โดยตรงกับความละเอียดของแต่ละตัวอย่าง ตัวอย่างของความลึกของบิต ได้แก่ ระบบเสียงดิจิทัลบนแผ่นซีดี (Compact Disc Digital Audio ) ซึ่งใช้ 16 บิตต่อตัวอย่าง และ ระบบเสียงดีวีดี (DVD-Audio)และบลูเรย์ (Blu-ray Disc ) ซึ่งรองรับได้ถึง 24 บิตต่อตัวอย่าง
ในการใช้งานพื้นฐาน การเปลี่ยนแปลงความลึกของบิตจะส่งผลต่อระดับสัญญาณรบกวนจากข้อผิดพลาดในการควอนไทเซชัน เป็นหลัก ซึ่ง ส่งผลต่อ อัตราส่วนสัญญาณต่อสัญญาณรบกวน (SNR) และช่วงไดนามิกอย่างไรก็ตาม เทคนิคต่างๆ เช่น การกระจายสัญญาณ ( dithering) การปรับรูปร่างสัญญาณรบกวน ( noise shaping ) และการสุ่มตัวอย่างเกิน (oversampling)สามารถลดผลกระทบเหล่านี้ได้โดยไม่ต้องเปลี่ยนความลึกของบิต ความลึกของบิตยังส่งผลต่ออัตราบิตและขนาดไฟล์ ด้วย
ความลึกของบิตมีประโยชน์สำหรับการอธิบายสัญญาณดิจิทัล PCM รูปแบบที่ไม่ใช่ PCM เช่น รูปแบบที่ใช้การบีบอัดแบบสูญเสียข้อมูลจะไม่มีความลึกของบิตที่เกี่ยวข้อง[ a ]
การแสดงผลแบบไบนารี
สัญญาณ PCM คือลำดับของตัวอย่างเสียงดิจิทัลที่บรรจุข้อมูลที่จำเป็นในการสร้างสัญญาณอนาล็อกดั้งเดิม ขึ้นมาใหม่ ตัวอย่างแต่ละตัวแสดงถึงแอมพลิจูดของสัญญาณ ณ จุดเวลาใดเวลาหนึ่ง และตัวอย่างเหล่านี้จะเว้นระยะห่างเท่าๆ กันตามเวลา แอมพลิจูดเป็นข้อมูลเดียวที่จัดเก็บไว้ในตัวอย่างอย่างชัดเจน และโดยทั่วไปจะจัดเก็บเป็นจำนวนเต็มหรือจำนวนทศนิยมที่เข้ารหัสเป็น เลข ฐานสอง ที่มีจำนวนหลักคงที่ ซึ่งเรียกว่าความ ลึกของบิตของตัวอย่างหรือความยาวคำหรือขนาดคำ
ความละเอียดบ่งชี้จำนวนค่าแยกที่สามารถแสดงได้ในช่วงของค่าอนาล็อก ความละเอียดของจำนวนเต็มไบนารีเพิ่มขึ้นแบบเลขชี้กำลังเมื่อความยาวของคำเพิ่มขึ้น: การเพิ่มหนึ่งบิตจะเพิ่มความละเอียดเป็นสองเท่า การเพิ่มสองบิตจะเพิ่มเป็นสี่เท่า และอื่นๆ จำนวนค่าที่เป็นไปได้ที่ความลึกของบิตจำนวนเต็มสามารถแสดงได้นั้นสามารถคำนวณได้โดยใช้2 nโดยที่nคือความลึกของบิต[ 1 ]ดังนั้น ระบบ 16 บิตจึงมีความละเอียดของค่าที่เป็นไปได้ 65,536 (2 16 ) ค่า
โดยทั่วไป ข้อมูลเสียง PCM จำนวนเต็มจะถูกจัดเก็บเป็น ตัวเลข ที่มีเครื่องหมายในรูปแบบส่วนเติมเต็มสอง[ 2 ]
ปัจจุบันรูปแบบไฟล์ เสียง และเวิร์กสเตชันเสียงดิจิทัล (DAW) ส่วนใหญ่รองรับรูปแบบ PCM ที่มีตัวอย่างแสดงด้วยตัวเลขทศนิยม[ 3 ] [ 4 ] [ 5 ] [ 6 ]ทั้งรูปแบบไฟล์WAV และรูปแบบไฟล์ AIFFรองรับการแสดงผลแบบทศนิยม[ 7 ] [ 8 ]ต่างจากจำนวนเต็มซึ่งมีรูปแบบบิตเป็นชุดบิตเดียว ตัวเลขทศนิยมประกอบด้วยฟิลด์แยกกันซึ่งความสัมพันธ์ทางคณิตศาสตร์ก่อให้เกิดตัวเลข มาตรฐานที่ใช้กันทั่วไปคือIEEE 754ซึ่งประกอบด้วยสามฟิลด์ ได้แก่บิตเครื่องหมายที่แสดงว่าตัวเลขเป็นบวกหรือลบแมนทิสซาและเลขชี้กำลังที่กำหนดตัวประกอบกำลังสองเพื่อปรับขนาดแมนทิสซา แมนทิสซาแสดงเป็นเศษส่วนไบนารีในรูปแบบทศนิยมฐานสองของ IEEE [ 9 ]
การหาปริมาณ
ความละเอียดของบิตจำกัดอัตราส่วนสัญญาณต่อสัญญาณรบกวน (SNR) ของสัญญาณที่สร้างขึ้นใหม่ไว้ที่ระดับสูงสุดซึ่งกำหนดโดยข้อผิดพลาดในการควอนไทเซ ชัน ความละเอียดของบิตไม่มีผลกระทบต่อการตอบสนองความถี่ซึ่งถูกจำกัดโดย อัตรา การ สุ่มตัวอย่าง
ข้อผิดพลาดในการแปลงสัญญาณอนาล็อกเป็นดิจิทัล (ADC) สามารถจำลองได้เป็นสัญญาณรบกวนจากการแปลงสัญญาณ (quantization noise) ซึ่งเป็นข้อผิดพลาดจากการปัดเศษระหว่างแรงดันไฟฟ้าอนาล็อกที่ป้อนเข้าสู่ ADC กับค่าดิจิทัลที่ได้ออกมา สัญญาณรบกวนนี้มีลักษณะไม่เป็นเชิงเส้นและขึ้นอยู่กับสัญญาณ

ใน ADC ในอุดมคติ ซึ่งข้อผิดพลาดในการควอนไทเซชันกระจายอย่างสม่ำเสมอระหว่างบิตที่มีนัยสำคัญน้อยที่สุด (LSB) และสัญญาณมีการกระจายอย่างสม่ำเสมอครอบคลุมทุกระดับการควอนไทเซชัน อัตราส่วนสัญญาณต่อสัญญาณรบกวนจากการควอนไทเซชัน (SQNR) สามารถคำนวณได้จาก
โดยที่bคือจำนวนบิตควอนไทเซชัน และผลลัพธ์จะวัดเป็นเดซิเบล (dB) [ 10 ] [ 11 ]
ดังนั้น เสียงดิจิทัล 16 บิตที่พบในซีดีจึงมีอัตราส่วนสัญญาณต่อเสียงรบกวน (SNR) สูงสุดตามทฤษฎีที่ 98 dB และเสียงดิจิทัล 24 บิตระดับมืออาชีพมีค่าสูงสุดที่ 146 dB ณ ปี 2011 เทคโนโลยีตัวแปลงเสียงดิจิทัลมีข้อจำกัดที่ SNR ประมาณ 123 dB [ 12 ] [ 13 ] [ 14 ] ( เทียบเท่า 21 บิต) เนื่องจากข้อจำกัดในโลกแห่งความเป็นจริงในการออกแบบวงจรรวม[ b ]อย่างไรก็ตาม ค่านี้ใกล้เคียงกับประสิทธิภาพของระบบการได้ยิน ของมนุษย์ [ 17 ] [ 18 ] สามารถใช้ตัวแปลงหลาย ตัวเพื่อครอบคลุมช่วงต่างๆ ของสัญญาณเดียวกัน โดยนำมารวมกันเพื่อบันทึกช่วงไดนามิกที่กว้างขึ้นในระยะยาว ในขณะที่ยังคงถูกจำกัดด้วยช่วงไดนามิกของตัวแปลงเดี่ยวในระยะสั้น ซึ่งเรียกว่าการขยายช่วงไดนามิก[ 19 ] [ 20 ]
| # บิต | อัตราส่วนสัญญาณต่อเสียง รบกวน( เสียง ) | อัตราส่วนสัญญาณต่อเสียงรบกวน( วิดีโอ ) | ความแตกต่างของขั้นเดซิเบลขั้นต่ำ( ข้อผิดพลาดจากการปัดเศษในการกำหนดปริมาณ) | จำนวนค่าที่เป็นไปได้(ต่อตัวอย่าง) | ช่วง (ต่อตัวอย่าง) สำหรับการแสดงค่าที่ทำเครื่องหมายไว้ |
|---|---|---|---|---|---|
| 4 | 25.84 เดซิเบล | 34.31 เดซิเบล | 1.723 เดซิเบล | 16 | -8 ถึง +7 |
| 8 | 49.93 เดซิเบล | 58.92 เดซิเบล | 0.1958 เดซิเบล | 256 | -128 ถึง +127 |
| 11 | 67.99 เดซิเบล | 77.01 เดซิเบล | 0.03321 เดซิเบล | 2,048 | −1,024 ถึง +1,023 |
| 12 | 74.01 เดซิเบล | 83.04 เดซิเบล | 0.01807 เดซิเบล | 4,096 | −2,048 ถึง +2,047 |
| 16 | 98.09 เดซิเบล | 107.12 เดซิเบล | 0.001497 เดซิเบล | 65,536 | −32,768 ถึง +32,767 |
| 18 | 110.13 เดซิเบล | 0.0004201 เดซิเบล | 262,144 | −131,072 ถึง +131,071 | |
| 20 | 122.17 เดซิเบล | 0.0001165 เดซิเบล | 1,048,576 | −524,288 ถึง +524,287 | |
| 24 | 146.26 เดซิเบล | 0.000008717 เดซิเบล | 16,777,216 | −8,388,608 ถึง +8,388,607 | |
| 32 | 194.42 เดซิเบล | 4.52669593 × 10 −8 dB | 4,294,967,296 | −2,147,483,648 ถึง+2,147,483,647 | |
| 48 | 290.75 เดซิเบล | 1.03295047 × 10 −12 dB | 281,474,976,710,656 | −140,737,488,355,328 ถึง+140,737,488,355,327 | |
| 64 | 387.08 เดซิเบล | 2.09836113 × 10 −17 dB | 18,446,744,073,709,551,616 | −9,223,372,036,854,775,808 ถึง+9,223,372,036,854,775,807 |
จุดลอยตัว
การประมวลผลค่าตัวอย่างแบบทศนิยมทำได้ยากกว่าการประมวลผลค่าตัวอย่างแบบจำนวนเต็ม เนื่องจากค่าทศนิยมไม่ได้มีระยะห่างเท่ากัน ในการแสดงผลแบบทศนิยม ระยะห่างระหว่างค่าที่อยู่ติดกันสองค่าใดๆ จะเป็นสัดส่วนกับค่าของค่านั้น
ข้อแลกเปลี่ยนระหว่างรูปแบบจุดลอยตัวและจำนวนเต็มคือ ช่องว่างระหว่างค่าจุดลอยตัวขนาดใหญ่จะมากกว่าช่องว่างระหว่างค่าจำนวนเต็มขนาดใหญ่ที่มีความลึกของบิตเท่ากัน การปัดเศษจำนวนจุดลอยตัวขนาดใหญ่จะทำให้เกิดข้อผิดพลาดมากกว่าการปัดเศษจำนวนจุดลอยตัวขนาดเล็ก ในขณะที่การปัดเศษจำนวนเต็มจะทำให้เกิดข้อผิดพลาดในระดับเดียวกันเสมอ กล่าวอีกนัยหนึ่ง จำนวนเต็มมีการปัดเศษที่สม่ำเสมอ โดยปัดเศษ LSB เป็น 0 หรือ 1 เสมอ และรูปแบบจุดลอยตัวมี SNR ที่สม่ำเสมอ ระดับสัญญาณรบกวนจากการควอนไทเซชันจะเป็นสัดส่วนที่แน่นอนกับระดับสัญญาณ[ 21 ]ระดับสัญญาณรบกวนของจุดลอยตัวจะเพิ่มขึ้นเมื่อสัญญาณเพิ่มขึ้นและลดลงเมื่อสัญญาณลดลง ส่งผลให้เกิดความแปรปรวนที่ได้ยินได้หากความลึกของบิตต่ำพอ[ 22 ]
การประมวลผลเสียง
การดำเนินการประมวลผลส่วนใหญ่บนเสียงดิจิทัลเกี่ยวข้องกับการกำหนดปริมาณใหม่ของตัวอย่างและทำให้เกิดข้อผิดพลาดในการปัดเศษเพิ่มเติมที่คล้ายกับข้อผิดพลาดในการกำหนดปริมาณดั้งเดิมที่เกิดขึ้นระหว่างการแปลงอนาล็อกเป็นดิจิทัล เพื่อป้องกันข้อผิดพลาดในการปัดเศษที่มากกว่าข้อผิดพลาดโดยปริยายระหว่าง ADC การคำนวณระหว่างการประมวลผลจะต้องดำเนินการด้วยความแม่นยำสูงกว่าตัวอย่างอินพุต[ 23 ]
การประมวลผลสัญญาณดิจิทัล (DSP) สามารถทำได้ทั้งแบบ ความแม่นยำ จุดคงที่หรือจุดลอยตัว ในทั้งสองกรณี ความแม่นยำของการดำเนินการแต่ละครั้งจะถูกกำหนดโดยความแม่นยำของการดำเนินการฮาร์ดแวร์ที่ใช้ในการดำเนินการแต่ละขั้นตอนของการประมวลผล ไม่ใช่ความละเอียดของข้อมูลอินพุต ตัวอย่างเช่น บน โปรเซสเซอร์ x86การดำเนินการจุดลอยตัวจะดำเนินการด้วย ความแม่นยำ เดี่ยวหรือคู่และการดำเนินการจุดคงที่ที่ความละเอียด 16, 32 หรือ 64 บิต ดังนั้น การประมวลผลทั้งหมดที่ดำเนินการบนฮาร์ดแวร์ที่ใช้ Intel จะดำเนินการภายใต้ข้อจำกัดเหล่านี้โดยไม่คำนึงถึงรูปแบบแหล่งที่มา[ c ]
ตัวประมวลผลสัญญาณดิจิทัลแบบจุดคงที่มักรองรับความยาวคำเฉพาะเพื่อรองรับความละเอียดสัญญาณเฉพาะ ตัวอย่างเช่น ชิป DSP Motorola 56000ใช้ตัวคูณ 24 บิตและตัวสะสม 56 บิตเพื่อดำเนินการคูณและสะสมบนตัวอย่าง 24 บิตสองตัวอย่างโดยไม่มีการล้นหรือการตัดทอน[ 24 ]บนอุปกรณ์ที่ไม่รองรับตัวสะสมขนาดใหญ่ ผลลัพธ์แบบจุดคงที่อาจถูกตัดทอน ทำให้ความแม่นยำลดลง ข้อผิดพลาดจะสะสมผ่านขั้นตอนต่างๆ ของ DSP ในอัตราที่ขึ้นอยู่กับการดำเนินการที่กำลังดำเนินการ สำหรับขั้นตอนการประมวลผลที่ไม่สัมพันธ์กันบนข้อมูลเสียงโดยไม่มีค่าชดเชย DC ข้อผิดพลาดจะถือว่าเป็นแบบสุ่มโดยมีค่าเฉลี่ยเป็นศูนย์ ภายใต้สมมติฐานนี้ ค่าเบี่ยงเบนมาตรฐานของการกระจายแสดงถึงสัญญาณข้อผิดพลาด และข้อผิดพลาดในการควอนไทเซชันจะแปรผันตามรากที่สองของจำนวนการดำเนินการ[ 25 ]ความแม่นยำสูงเป็นสิ่งจำเป็นสำหรับอัลกอริทึมที่เกี่ยวข้องกับการประมวลผลซ้ำๆ เช่น การคอนโว ลูชัน[ 23 ]ความแม่นยำสูงยังจำเป็นในอัลกอริธึมแบบเรียกซ้ำ เช่น ตัวกรอง การตอบสนองแบบอิมพัลส์อนันต์ (IIR) [ 26 ]ในกรณีเฉพาะของตัวกรอง IIR ข้อผิดพลาดจากการปัดเศษอาจทำให้การตอบสนองความถี่ลดลงและทำให้เกิดความไม่เสถียร[ 23 ]
ความลังเล

สัญญาณรบกวนที่เกิดจากข้อผิดพลาดในการแปลงสัญญาณดิจิทัลเป็นค่าคงที่ (quantization error) ซึ่งรวมถึงข้อผิดพลาดจากการปัดเศษและการสูญเสียความแม่นยำที่เกิดขึ้นระหว่างการประมวลผลเสียง สามารถลดลงได้โดยการเพิ่มสัญญาณรบกวนแบบสุ่มเล็กน้อยที่เรียกว่าditherเข้าไปในสัญญาณก่อนทำการแปลงเป็นค่าคงที่ การใช้ dither ช่วยขจัดพฤติกรรมที่ไม่เป็นเชิงเส้นของข้อผิดพลาดในการแปลงสัญญาณดิจิทัลเป็นค่าคงที่ ทำให้เกิดความผิดเพี้ยนต่ำมาก แต่ต้อง แลกมาด้วยระดับสัญญาณ รบกวนพื้นฐาน ที่สูงขึ้นเล็กน้อย ค่า dither ที่แนะนำสำหรับเสียงดิจิทัล 16 บิต ซึ่งวัดโดยใช้การถ่วงน้ำหนักสัญญาณรบกวน ITU-R 468นั้น อยู่ที่ประมาณ 66 dB ต่ำกว่าระดับการจัดเรียง (alignment level ) หรือ 84 dB ต่ำกว่าระดับเต็มสเกล ดิจิทัล (digital full scale ) ซึ่งเทียบได้กับระดับเสียงรบกวนของไมโครโฟนและห้อง และดังนั้นจึงมีผลกระทบเพียงเล็กน้อยต่อเสียง 16 บิต
เสียง 24 บิตและ 32 บิตไม่จำเป็นต้องใช้ dithering เนื่องจากระดับเสียงรบกวนของตัวแปลงดิจิทัลจะดังกว่าระดับที่ต้องการของ dither ใดๆ ที่อาจนำมาใช้ เสียง 24 บิตสามารถเข้ารหัสช่วงไดนามิกได้ถึง 144 dB ในทางทฤษฎี และเสียง 32 บิตสามารถทำได้ถึง 192 dB แต่ในทางปฏิบัติแทบเป็นไปไม่ได้เลย เพราะแม้แต่เซ็นเซอร์และไมโครโฟนที่ดีที่สุดก็แทบจะไม่เกิน 130 dB [ 27 ]
Dither ยังสามารถใช้เพื่อเพิ่มช่วงไดนามิกที่มีประสิทธิภาพได้อีกด้วย ช่วงไดนามิก ที่รับรู้ได้ของเสียง 16 บิตสามารถเป็น 120 dB หรือมากกว่านั้นด้วย dither ที่มีรูปร่างเสียงรบกวนโดยใช้ประโยชน์จากการตอบสนองความถี่ของหูมนุษย์[ 28 ] [ 29 ]
ช่วงไดนามิกและเฮดรูม
ช่วงไดนามิกคือความแตกต่างระหว่างสัญญาณที่ใหญ่ที่สุดและเล็กที่สุดที่ระบบสามารถบันทึกหรือสร้างขึ้นใหม่ได้ หากไม่มี dither ช่วงไดนามิกจะสัมพันธ์กับระดับสัญญาณรบกวนจากการควอนไทเซชัน ตัวอย่างเช่น ความละเอียดจำนวนเต็ม 16 บิตช่วยให้มีช่วงไดนามิกประมาณ 96 dB ด้วยการใช้ dither อย่างเหมาะสม ระบบดิจิทัลสามารถสร้างสัญญาณที่มีระดับต่ำกว่าความละเอียดปกติได้ ซึ่งเป็นการขยายช่วงไดนามิกที่มีประสิทธิภาพเกินขีดจำกัดที่กำหนดโดยความละเอียด[ 30 ]การใช้เทคนิคต่างๆ เช่นการสุ่มตัวอย่างเกินและการปรับรูปร่างสัญญาณรบกวนสามารถขยายช่วงไดนามิกของเสียงที่สุ่มตัวอย่างได้มากขึ้นโดยการย้ายข้อผิดพลาดในการควอนไทเซชันออกจากย่านความถี่ที่สนใจ
หากระดับสูงสุดของสัญญาณต่ำกว่าระดับที่อนุญาตโดยความละเอียดบิต การบันทึกจะมีเฮดรูมการใช้ความละเอียดบิตที่สูงขึ้นระหว่างการบันทึกในสตูดิโอสามารถทำให้มีเฮดรูมเพิ่มขึ้นได้ ในขณะที่ยังคงรักษาช่วงไดนามิกไว้ได้เท่าเดิม ซึ่งจะช่วยลดความเสี่ยงของการเกิดคลิปปิ้งโดยไม่เพิ่มข้อผิดพลาดในการแปลงสัญญาณดิจิทัลที่ระดับเสียงต่ำ
การสุ่มตัวอย่างเกิน
การสุ่มตัวอย่างเกิน (Oversampling) เป็นวิธีการทางเลือกในการเพิ่มช่วงไดนามิกของเสียง PCM โดยไม่ต้องเปลี่ยนจำนวนบิตต่อตัวอย่าง[ 31 ]ในการสุ่มตัวอย่างเกิน ตัวอย่างเสียงจะถูกเก็บรวบรวมที่อัตราสุ่มตัวอย่างที่ต้องการหลายเท่า เนื่องจากถือว่าข้อผิดพลาดในการควอนไทเซชันมีการกระจายอย่างสม่ำเสมอตามความถี่ ข้อผิดพลาดในการควอนไทเซชันส่วนใหญ่จึงถูกเลื่อนไปยังความถี่อัลตราโซนิกและสามารถกำจัดได้โดยตัวแปลงดิจิทัลเป็นอนาล็อกในระหว่างการเล่น
สำหรับการเพิ่มความละเอียดให้เทียบเท่ากับnบิตเพิ่มเติม จะต้องทำการสุ่มตัวอย่างสัญญาณเกิน (oversampled) โดย
ตัวอย่างเช่น ADC 14 บิต สามารถสร้างเสียง 16 บิต 48 kHz ได้ หากใช้งานที่การสุ่มตัวอย่างเกิน 16 เท่า หรือ 768 kHz ดังนั้น PCM ที่สุ่มตัวอย่างเกินจึงแลกเปลี่ยนบิตต่อตัวอย่างน้อยลงกับจำนวนตัวอย่างที่มากขึ้นเพื่อให้ได้ความละเอียดเท่าเดิม
ช่วงไดนามิกสามารถเพิ่มขึ้นได้ด้วยการสุ่มตัวอย่างเกิน (oversampling) ในขั้นตอนการสร้างสัญญาณใหม่ โดยไม่ต้องมีการสุ่มตัวอย่างเกินที่แหล่งกำเนิด ลองพิจารณาการสุ่มตัวอย่างเกิน 16 เท่าในขั้นตอนการสร้างสัญญาณใหม่ แต่ละตัวอย่างในการสร้างสัญญาณใหม่จะมีเอกลักษณ์เฉพาะตัว เนื่องจากสำหรับแต่ละจุดตัวอย่างดั้งเดิม จะมีการแทรกตัวอย่างใหม่ 16 จุด ซึ่งทั้งหมดคำนวณโดยตัวกรองการสร้างสัญญาณ ดิจิทัล กลไกของการเพิ่มความลึกของบิตที่มีประสิทธิภาพนั้นเป็นไปตามที่ได้กล่าวไว้ก่อนหน้านี้ นั่นคือ กำลังของสัญญาณรบกวนจากการควอนไทเซชันไม่ได้ลดลง แต่สเปกตรัมของสัญญาณรบกวนได้กระจายออกไปทั่วแบนด์วิดท์เสียงถึง 16 เท่า
หมายเหตุทางประวัติศาสตร์—มาตรฐานแผ่นซีดีได้รับการพัฒนาโดยความร่วมมือระหว่างโซนี่และฟิลิปส์ หน่วยผู้บริโภครุ่นแรกของโซนี่มี DAC 16 บิต ในขณะที่หน่วยแรกของฟิลิปส์มี DAC 14 บิตคู่ ซึ่งทำให้เกิดความสับสนในตลาดและแม้แต่ในแวดวงมืออาชีพ เนื่องจาก PCM 14 บิตให้ค่า SNR 84 dB ซึ่งน้อยกว่า PCM 16 บิต 12 dB ฟิลิปส์ได้นำการสุ่มตัวอย่างเกิน 4 เท่ามาใช้พร้อมกับการปรับรูปร่างสัญญาณรบกวน ลำดับแรก ซึ่งในทางทฤษฎีแล้วจะทำให้ได้ช่วงไดนามิกเต็ม 96 dB ของรูปแบบซีดี[ 32 ]ในทางปฏิบัติ ฟิลิปส์ CD100 ได้รับการจัดอันดับที่ SNR 90 dB ในย่านความถี่เสียง 20 Hz–20 kHz เท่ากับ CDP-101 ของโซนี่[ 33 ] [ 34 ]
การปรับแต่งสัญญาณรบกวน
การสุ่มตัวอย่างสัญญาณเกิน (Oversampling) ส่งผลให้มีสัญญาณรบกวนการควอนไทเซชันเท่ากันต่อหน่วยแบนด์วิดท์ที่ความถี่ทั้งหมด และช่วงไดนามิกจะดีขึ้นเพียงแค่รากที่สองของอัตราส่วนการสุ่มตัวอย่างเกินเท่านั้น การปรับรูปร่างสัญญาณรบกวน (Noise shaping) เป็นเทคนิคที่เพิ่มสัญญาณรบกวนเพิ่มเติมที่ความถี่สูงขึ้น ซึ่งจะหักล้างข้อผิดพลาดบางส่วนที่ความถี่ต่ำลง ส่งผลให้ช่วงไดนามิกเพิ่มขึ้นมากขึ้นเมื่อสุ่มตัวอย่างเกิน สำหรับการปรับรูปร่าง สัญญาณรบกวนลำดับที่ nช่วงไดนามิกของสัญญาณที่สุ่มตัวอย่างเกินจะดีขึ้นอีก 6n dB เมื่อเทียบกับการสุ่มตัวอย่างเกินโดยไม่มีการปรับรูปร่างสัญญาณรบกวน[ 35 ]ตัวอย่างเช่น สำหรับสัญญาณเสียงอนาล็อก 20 kHz ที่สุ่มตัวอย่างที่การสุ่มตัวอย่างเกิน 4 เท่าด้วยการปรับรูปร่างสัญญาณรบกวนลำดับที่สอง ช่วงไดนามิกจะเพิ่มขึ้น 30 dB ดังนั้น สัญญาณ 16 บิตที่สุ่มตัวอย่างที่ 176 kHz จะมีความลึกของบิตเท่ากับสัญญาณ 21 บิตที่สุ่มตัวอย่างที่ 44.1 kHz โดยไม่มีการปรับรูปร่างสัญญาณรบกวน
การปรับรูปสัญญาณรบกวนมักใช้การมอดูเลชั่นแบบเดลต้า-ซิกมาโดยใช้การมอดูเลชั่นแบบเดลต้า-ซิกมาDirect Stream Digitalสามารถทำอัตราส่วนสัญญาณต่อสัญญาณรบกวน (SNR) ได้ถึง 120 dB ในทางทฤษฎีที่ความถี่เสียง โดยใช้เสียง 1 บิตที่มีการสุ่มตัวอย่างเกิน 64 เท่า
แอปพลิเคชัน
ระดับบิตเป็นคุณสมบัติพื้นฐานของการใช้งานเสียงดิจิทัล โดยขึ้นอยู่กับข้อกำหนดของแอปพลิเคชันและความสามารถของอุปกรณ์ ระดับบิตที่แตกต่างกันจะถูกนำไปใช้ในแอปพลิเคชันต่างๆ
| แอปพลิเคชัน | คำอธิบาย | รูปแบบไฟล์เสียง |
|---|---|---|
| CD-DA (หนังสือสีแดง) [ 36 ] | สื่อดิจิทัล | LPCM 16 บิต |
| ดีวีดี-ออดิโอ[ 37 ] | สื่อดิจิทัล | LPCM 16 บิต, 20 บิต และ 24 บิต[ A ] |
| ซูเปอร์ออดิโอซีดี[ 38 ] | สื่อดิจิทัล | 1-บิตไดเร็กต์สตรีมดิจิทัล ( PDM ) |
| เสียงแผ่นบลูเรย์[ 39 ] | สื่อดิจิทัล | LPCM 16 บิต, 20 บิต และ 24 บิต และอื่นๆ[ B ] |
| เสียงDV [ 40 ] | สื่อดิจิทัล | PCM แบบไม่บีบอัด 12 บิตและ 16 บิต |
| ข้อแนะนำITU-T G.711 [ 41 ] | มาตรฐานการบีบอัดข้อมูลสำหรับระบบโทรศัพท์ | PCM 8 บิตพร้อมการบีบอัด[ C ] |
| NICAM -1, NICAM-2 และ NICAM-3 [ 42 ] | มาตรฐานการบีบอัดข้อมูลสำหรับการออกอากาศ | PCM 10 บิต, 11 บิต และ 10 บิต ตามลำดับ พร้อมการบีบอัด[ D ] |
| ความเร่าร้อน | DAWโดยPaul Davisและ Ardour Community | จุดลอยตัว 32 บิต[ 43 ] |
| โปรทูลส์ 11 | DAW โดยAvid Technology | เซสชันจุดลอยตัว 16 บิตและ 24 บิตหรือ 32 บิต และการผสม จุดลอยตัว 64 บิต [ 44 ] |
| ลอจิก โปรเอ็กซ์ | DAW โดยApple Inc. | โครงการ 16 บิตและ 24 บิต และ การผสมจุดลอยตัว 32 บิตหรือ 64 บิต[ 45 ] |
| คูเบส | DAW โดยSteinberg | อนุญาตให้ประมวลผลเสียงด้วยความแม่นยำถึง 32 บิต float หรือ 64 บิต float [ 46 ] |
| เอเบิลตันไลฟ์[ 6 ] | DAW โดยAbleton | ความลึกของบิตจุดลอยตัว 32 บิต และการรวมผล 64 บิต |
| เหตุผลที่ 7 | DAW โดยPropellerhead Software | อินพุต/เอาต์พุต 16 บิต, 20 บิต และ 24 บิต, การคำนวณเลขทศลอย 32 บิต และการรวม 64 บิต[ 47 ] |
| รีเพอร์ 5 | DAW โดยCockos Inc. | การแสดงผล PCM 8 บิต, PCM 16 บิต, PCM 24 บิต, PCM 32 บิต, FP 32 บิต, FP 64 บิต, IMA ADPCM 4 บิต และ cADPCM 2 บิต; การผสมจำนวนเต็ม 8 บิต, 16 บิต, 24 บิต, 32 บิต, เลขทศนิยม 32 บิต และเลขทศนิยม 64 บิต |
| GarageBand '11 (เวอร์ชัน 6) | DAW โดย Apple Inc. | ค่าเริ่มต้น 16 บิตพร้อมการบันทึกเครื่องดนตรีจริง 24 บิต[ 48 ] |
| ความกล้าหาญ | โปรแกรมแก้ไขเสียงแบบโอเพนซอร์ส | LPCM 16 บิตและ 24 บิต และจุดลอยตัว 32 บิต[ 49 ] |
| เอฟแอล สตูดิโอ | DAW โดยImage-Line | จำนวนเต็ม 16 บิตและ 24 บิต และจุดลอยตัว 32 บิต (ควบคุมโดยระบบปฏิบัติการ) [ 50 ] |
- ^ DVD-Audio ยังรองรับ Meridian Lossless Packingซึ่งเป็นรูปแบบการบีบอัดแบบไม่สูญเสียข้อมูล (lossless compression ) ซึ่งเป็นตัวเลือกเสริม
- ^แผ่น Blu-ray รองรับรูปแบบที่ไม่ใช่ LPCM หลายรูปแบบ แต่ทั้งหมดเป็นไปตามมาตรฐานที่มีความละเอียด 16, 20 หรือ 24 บิตต่อตัวอย่าง
- ^ ITU-T กำหนด อัลกอริธึมการบีบอัดแบบ A-lawและ μ-lawซึ่งบีบอัดจาก 13 และ 14 บิตตามลำดับ
- ^ระบบ NICAM 1, 2 และ 3 บีบอัดข้อมูลลงจาก 13, 14 และ 14 บิต ตามลำดับ
อัตราบิตและขนาดไฟล์
ความลึกของบิตส่งผลต่ออัตราบิตและขนาดไฟล์ บิตเป็นหน่วยข้อมูลพื้นฐานที่ใช้ในการคำนวณและการสื่อสารดิจิทัล อัตราบิตหมายถึงปริมาณข้อมูล โดยเฉพาะบิต ที่ส่งหรือรับต่อวินาที ในMP3และรูปแบบเสียงที่บีบอัดแบบสูญเสียข้อมูล อื่นๆ อัตราบิตจะอธิบายปริมาณข้อมูลที่ใช้ในการเข้ารหัสสัญญาณเสียง โดยปกติจะวัดเป็นกิโลบิตต่อวินาที[ 51 ]
ดูเพิ่มเติม
- การวัดระบบเสียง
- ความลึกของสีซึ่งเป็นแนวคิดที่เกี่ยวข้องกับภาพดิจิทัล
- จำนวนบิตที่มีประสิทธิภาพ
หมายเหตุ
- ^ตัวอย่างเช่น ในไฟล์ MP3การกำหนดปริมาณ (quantization) จะดำเนินการกับ ตัวแทนสัญญาณใน โดเมนความถี่ไม่ใช่กับตัวอย่างในโดเมนเวลา ที่เกี่ยวข้องกับความลึกของบิต
- ^แม้ว่าจะมีตัวแปลง 32 บิตอยู่ แต่ก็มีไว้เพื่อการตลาดเท่านั้น และไม่มีประโยชน์ในทางปฏิบัติเหนือกว่าตัวแปลง 24 บิต บิตพิเศษเหล่านั้นมีค่าเป็นศูนย์หรือเข้ารหัสเฉพาะสัญญาณรบกวนเท่านั้น [ 15 ] [ 16 ]
- ฮาร์ดแวร์ Intel และ AMD x86 สามารถรองรับความแม่นยำสูงกว่า 64 บิต หรือแม้แต่ตัวเลขทศนิยมหรือจำนวนเต็มขนาดใหญ่ได้ แต่การประมวลผลจะใช้เวลานานกว่าประเภทข้อมูลพื้นฐานมาก
สรุปเนื้อหา
ข้อมูลสำคัญจากบทความ
ข้อมูลสำคัญเกี่ยวกับ ความลึกของบิตเสียง
ในระบบเสียงดิจิทัลที่ใช้การมอดูเลชั่นแบบพัลส์โค้ด (PCM) ความลึกของบิตคือจำนวนบิตของข้อมูลในแต่ละตัวอย่างและมีความสัมพันธ์โดยตรงกับความละเอียดของแต่ละตัวอย่าง...
การแสดงผลแบบไบนารี
สัญญาณ PCM คือลำดับของตัวอย่างเสียงดิจิทัลที่บรรจุข้อมูลที่จำเป็นใน การสร้าง สัญญาณอนาล็อก ดั้งเดิม ขึ้นมาใหม่ ตัวอย่างแต่ละตัวแสดงถึง แอมพลิจูด ของสัญญาณ ณ จุดเวลาใดเวลาหนึ่ง และตัวอย่างเหล่านี้จะเว้นระยะห่างเท่าๆ กันตามเวลา...
การหาปริมาณ
ความละเอียดของบิตจำกัด อัตราส่วนสัญญาณต่อสัญญาณรบกวน (SNR) ของสัญญาณที่สร้างขึ้นใหม่ไว้ที่ระดับสูงสุดซึ่งกำหนดโดย ข้อผิดพลาดในการควอนไทเซ ชัน ความละเอียดของบิตไม่มีผลกระทบต่อ การตอบสนองความถี่ ซึ่งถูกจำกัดโดย อัตรา การ สุ่มตัวอย่าง
จุดลอยตัว
การประมวลผลค่าตัวอย่างแบบทศนิยมทำได้ยากกว่าการประมวลผลค่าตัวอย่างแบบจำนวนเต็ม เนื่องจากค่าทศนิยมไม่ได้มีระยะห่างเท่ากัน ในการแสดงผลแบบทศนิยม ระยะห่างระหว่างค่าที่อยู่ติดกันสองค่าใดๆ จะเป็นสัดส่วนกับค่าของค่านั้น