กลับไปหน้าบทความ

อ่าน 10 นาที

ความลึกของบิตเสียง

ในระบบเสียงดิจิทัลที่ใช้การมอดูเลชั่นแบบพัลส์โค้ด (PCM) ความลึกของบิตคือจำนวนบิตของข้อมูลในแต่ละตัวอย่างและมีความสัมพันธ์โดยตรงกับความละเอียดของแต่ละตัวอย่าง...

ความลึกของบิตเสียง

สัญญาณอนาล็อก (สีแดง) ถูกเข้ารหัสเป็นตัวอย่างดิจิทัล PCM 4 บิต (สีน้ำเงิน) โดยความลึกของบิตคือสี่บิต ดังนั้นแอมพลิจูดของแต่ละตัวอย่างจึงมีค่าที่เป็นไปได้ 1 ใน 16 ค่า (16 = 2⁴ )

ในระบบเสียงดิจิทัลที่ใช้การมอดูเลชั่นแบบพัลส์โค้ด (PCM) ความลึกของบิตคือจำนวนบิตของข้อมูลในแต่ละตัวอย่างและมีความสัมพันธ์โดยตรงกับความละเอียดของแต่ละตัวอย่าง ตัวอย่างของความลึกของบิต ได้แก่ ระบบเสียงดิจิทัลบนแผ่นซีดี (Compact Disc Digital Audio ) ซึ่งใช้ 16 บิตต่อตัวอย่าง และ ระบบเสียงดีวีดี (DVD-Audio)และบลูเรย์ (Blu-ray Disc ) ซึ่งรองรับได้ถึง 24 บิตต่อตัวอย่าง

ในการใช้งานพื้นฐาน การเปลี่ยนแปลงความลึกของบิตจะส่งผลต่อระดับสัญญาณรบกวนจากข้อผิดพลาดในการควอนไทเซชัน เป็นหลัก ซึ่ง ส่งผลต่อ อัตราส่วนสัญญาณต่อสัญญาณรบกวน (SNR) และช่วงไดนามิกอย่างไรก็ตาม เทคนิคต่างๆ เช่น การกระจายสัญญาณ ( dithering) การปรับรูปร่างสัญญาณรบกวน ( noise shaping ) และการสุ่มตัวอย่างเกิน (oversampling)สามารถลดผลกระทบเหล่านี้ได้โดยไม่ต้องเปลี่ยนความลึกของบิต ความลึกของบิตยังส่งผลต่ออัตราบิตและขนาดไฟล์ ด้วย

ความลึกของบิตมีประโยชน์สำหรับการอธิบายสัญญาณดิจิทัล PCM รูปแบบที่ไม่ใช่ PCM เช่น รูปแบบที่ใช้การบีบอัดแบบสูญเสียข้อมูลจะไม่มีความลึกของบิตที่เกี่ยวข้อง[ a ]

การแสดงผลแบบไบนารี

สัญญาณ PCM คือลำดับของตัวอย่างเสียงดิจิทัลที่บรรจุข้อมูลที่จำเป็นในการสร้างสัญญาณอนาล็อกดั้งเดิม ขึ้นมาใหม่ ตัวอย่างแต่ละตัวแสดงถึงแอมพลิจูดของสัญญาณ ณ จุดเวลาใดเวลาหนึ่ง และตัวอย่างเหล่านี้จะเว้นระยะห่างเท่าๆ กันตามเวลา แอมพลิจูดเป็นข้อมูลเดียวที่จัดเก็บไว้ในตัวอย่างอย่างชัดเจน และโดยทั่วไปจะจัดเก็บเป็นจำนวนเต็มหรือจำนวนทศนิยมที่เข้ารหัสเป็น เลข ฐานสอง ที่มีจำนวนหลักคงที่ ซึ่งเรียกว่าความ ลึกของบิตของตัวอย่างหรือความยาวคำหรือขนาดคำ

ความละเอียดบ่งชี้จำนวนค่าแยกที่สามารถแสดงได้ในช่วงของค่าอนาล็อก ความละเอียดของจำนวนเต็มไบนารีเพิ่มขึ้นแบบเลขชี้กำลังเมื่อความยาวของคำเพิ่มขึ้น: การเพิ่มหนึ่งบิตจะเพิ่มความละเอียดเป็นสองเท่า การเพิ่มสองบิตจะเพิ่มเป็นสี่เท่า และอื่นๆ จำนวนค่าที่เป็นไปได้ที่ความลึกของบิตจำนวนเต็มสามารถแสดงได้นั้นสามารถคำนวณได้โดยใช้2 nโดยที่nคือความลึกของบิต[ 1 ]ดังนั้น ระบบ 16 บิตจึงมีความละเอียดของค่าที่เป็นไปได้ 65,536 (2 16 ) ค่า

โดยทั่วไป ข้อมูลเสียง PCM จำนวนเต็มจะถูกจัดเก็บเป็น ตัวเลข ที่มีเครื่องหมายในรูปแบบส่วนเติมเต็มสอง[ 2 ]

ปัจจุบันรูปแบบไฟล์ เสียง และเวิร์กสเตชันเสียงดิจิทัล (DAW) ส่วนใหญ่รองรับรูปแบบ PCM ที่มีตัวอย่างแสดงด้วยตัวเลขทศนิยม[ 3 ] [ 4 ] [ 5 ] [ 6 ]ทั้งรูปแบบไฟล์WAV และรูปแบบไฟล์ AIFFรองรับการแสดงผลแบบทศนิยม[ 7 ] [ 8 ]ต่างจากจำนวนเต็มซึ่งมีรูปแบบบิตเป็นชุดบิตเดียว ตัวเลขทศนิยมประกอบด้วยฟิลด์แยกกันซึ่งความสัมพันธ์ทางคณิตศาสตร์ก่อให้เกิดตัวเลข มาตรฐานที่ใช้กันทั่วไปคือIEEE 754ซึ่งประกอบด้วยสามฟิลด์ ได้แก่บิตเครื่องหมายที่แสดงว่าตัวเลขเป็นบวกหรือลบแมนทิสซาและเลขชี้กำลังที่กำหนดตัวประกอบกำลังสองเพื่อปรับขนาดแมนทิสซา แมนทิสซาแสดงเป็นเศษส่วนไบนารีในรูปแบบทศนิยมฐานสองของ IEEE [ 9 ]

การหาปริมาณ

ความละเอียดของบิตจำกัดอัตราส่วนสัญญาณต่อสัญญาณรบกวน (SNR) ของสัญญาณที่สร้างขึ้นใหม่ไว้ที่ระดับสูงสุดซึ่งกำหนดโดยข้อผิดพลาดในการควอนไทเซ ชัน ความละเอียดของบิตไม่มีผลกระทบต่อการตอบสนองความถี่ซึ่งถูกจำกัดโดย อัตรา การ สุ่มตัวอย่าง

ข้อผิดพลาดในการแปลงสัญญาณอนาล็อกเป็นดิจิทัล (ADC) สามารถจำลองได้เป็นสัญญาณรบกวนจากการแปลงสัญญาณ (quantization noise) ซึ่งเป็นข้อผิดพลาดจากการปัดเศษระหว่างแรงดันไฟฟ้าอนาล็อกที่ป้อนเข้าสู่ ADC กับค่าดิจิทัลที่ได้ออกมา สัญญาณรบกวนนี้มีลักษณะไม่เป็นเชิงเส้นและขึ้นอยู่กับสัญญาณ

เลขฐานสอง 8 บิต (149 ในระบบเลขฐานสิบ ) โดยไฮไลต์บิตที่มีค่าน้อยที่สุด (LSB)

ใน ADC ในอุดมคติ ซึ่งข้อผิดพลาดในการควอนไทเซชันกระจายอย่างสม่ำเสมอระหว่างบิตที่มีนัยสำคัญน้อยที่สุด (LSB) และสัญญาณมีการกระจายอย่างสม่ำเสมอครอบคลุมทุกระดับการควอนไทเซชัน อัตราส่วนสัญญาณต่อสัญญาณรบกวนจากการควอนไทเซชัน (SQNR) สามารถคำนวณได้จาก

โดยที่bคือจำนวนบิตควอนไทเซชัน และผลลัพธ์จะวัดเป็นเดซิเบล (dB) [ 10 ] [ 11 ]

ดังนั้น เสียงดิจิทัล 16 บิตที่พบในซีดีจึงมีอัตราส่วนสัญญาณต่อเสียงรบกวน (SNR) สูงสุดตามทฤษฎีที่ 98 dB และเสียงดิจิทัล 24 บิตระดับมืออาชีพมีค่าสูงสุดที่ 146 dB ณ ปี 2011 เทคโนโลยีตัวแปลงเสียงดิจิทัลมีข้อจำกัดที่ SNR ประมาณ 123 dB [ 12 ] [ 13 ] [ 14 ] ( เทียบเท่า 21 บิต) เนื่องจากข้อจำกัดในโลกแห่งความเป็นจริงในการออกแบบวงจรรวม[ b ]อย่างไรก็ตาม ค่านี้ใกล้เคียงกับประสิทธิภาพของระบบการได้ยิน ของมนุษย์ [ 17 ] [ 18 ] สามารถใช้ตัวแปลงหลาย ตัวเพื่อครอบคลุมช่วงต่างๆ ของสัญญาณเดียวกัน โดยนำมารวมกันเพื่อบันทึกช่วงไดนามิกที่กว้างขึ้นในระยะยาว ในขณะที่ยังคงถูกจำกัดด้วยช่วงไดนามิกของตัวแปลงเดี่ยวในระยะสั้น ซึ่งเรียกว่าการขยายช่วงไดนามิก[ 19 ] [ 20 ]

อัตราส่วนสัญญาณต่อสัญญาณรบกวนและความละเอียดของความลึกบิต (ไม่ถ่วงน้ำหนัก)
# บิต อัตราส่วนสัญญาณต่อเสียง รบกวน( เสียง ) อัตราส่วนสัญญาณต่อเสียงรบกวน( วิดีโอ ) ความแตกต่างของขั้นเดซิเบลขั้นต่ำ( ข้อผิดพลาดจากการปัดเศษในการกำหนดปริมาณ) จำนวนค่าที่เป็นไปได้(ต่อตัวอย่าง) ช่วง (ต่อตัวอย่าง) สำหรับการแสดงค่าที่ทำเครื่องหมายไว้
4 25.84 เดซิเบล34.31 เดซิเบล1.723 เดซิเบล16-8 ถึง +7
8 49.93 เดซิเบล58.92 เดซิเบล0.1958 เดซิเบล256-128 ถึง +127
11 67.99 เดซิเบล77.01 เดซิเบล0.03321 เดซิเบล2,048−1,024 ถึง +1,023
12 74.01 เดซิเบล83.04 เดซิเบล0.01807 เดซิเบล4,096−2,048 ถึง +2,047
16 98.09 เดซิเบล107.12 เดซิเบล0.001497 เดซิเบล65,536−32,768 ถึง +32,767
18 110.13 เดซิเบล0.0004201 เดซิเบล262,144−131,072 ถึง +131,071
20 122.17 เดซิเบล0.0001165 เดซิเบล1,048,576−524,288 ถึง +524,287
24 146.26 เดซิเบล0.000008717 เดซิเบล16,777,216−8,388,608 ถึง +8,388,607
32 194.42 เดซิเบล4.52669593 × 10 −8  dB4,294,967,296−2,147,483,648 ถึง+2,147,483,647
48 290.75 เดซิเบล1.03295047 × 10 −12  dB281,474,976,710,656−140,737,488,355,328 ถึง+140,737,488,355,327
64 387.08 เดซิเบล2.09836113 × 10 −17  dB18,446,744,073,709,551,616−9,223,372,036,854,775,808 ถึง+9,223,372,036,854,775,807

จุดลอยตัว

การประมวลผลค่าตัวอย่างแบบทศนิยมทำได้ยากกว่าการประมวลผลค่าตัวอย่างแบบจำนวนเต็ม เนื่องจากค่าทศนิยมไม่ได้มีระยะห่างเท่ากัน ในการแสดงผลแบบทศนิยม ระยะห่างระหว่างค่าที่อยู่ติดกันสองค่าใดๆ จะเป็นสัดส่วนกับค่าของค่านั้น

ข้อแลกเปลี่ยนระหว่างรูปแบบจุดลอยตัวและจำนวนเต็มคือ ช่องว่างระหว่างค่าจุดลอยตัวขนาดใหญ่จะมากกว่าช่องว่างระหว่างค่าจำนวนเต็มขนาดใหญ่ที่มีความลึกของบิตเท่ากัน การปัดเศษจำนวนจุดลอยตัวขนาดใหญ่จะทำให้เกิดข้อผิดพลาดมากกว่าการปัดเศษจำนวนจุดลอยตัวขนาดเล็ก ในขณะที่การปัดเศษจำนวนเต็มจะทำให้เกิดข้อผิดพลาดในระดับเดียวกันเสมอ กล่าวอีกนัยหนึ่ง จำนวนเต็มมีการปัดเศษที่สม่ำเสมอ โดยปัดเศษ LSB เป็น 0 หรือ 1 เสมอ และรูปแบบจุดลอยตัวมี SNR ที่สม่ำเสมอ ระดับสัญญาณรบกวนจากการควอนไทเซชันจะเป็นสัดส่วนที่แน่นอนกับระดับสัญญาณ[ 21 ]ระดับสัญญาณรบกวนของจุดลอยตัวจะเพิ่มขึ้นเมื่อสัญญาณเพิ่มขึ้นและลดลงเมื่อสัญญาณลดลง ส่งผลให้เกิดความแปรปรวนที่ได้ยินได้หากความลึกของบิตต่ำพอ[ 22 ]

การประมวลผลเสียง

การดำเนินการประมวลผลส่วนใหญ่บนเสียงดิจิทัลเกี่ยวข้องกับการกำหนดปริมาณใหม่ของตัวอย่างและทำให้เกิดข้อผิดพลาดในการปัดเศษเพิ่มเติมที่คล้ายกับข้อผิดพลาดในการกำหนดปริมาณดั้งเดิมที่เกิดขึ้นระหว่างการแปลงอนาล็อกเป็นดิจิทัล เพื่อป้องกันข้อผิดพลาดในการปัดเศษที่มากกว่าข้อผิดพลาดโดยปริยายระหว่าง ADC การคำนวณระหว่างการประมวลผลจะต้องดำเนินการด้วยความแม่นยำสูงกว่าตัวอย่างอินพุต[ 23 ]

การประมวลผลสัญญาณดิจิทัล (DSP) สามารถทำได้ทั้งแบบ ความแม่นยำ จุดคงที่หรือจุดลอยตัว ในทั้งสองกรณี ความแม่นยำของการดำเนินการแต่ละครั้งจะถูกกำหนดโดยความแม่นยำของการดำเนินการฮาร์ดแวร์ที่ใช้ในการดำเนินการแต่ละขั้นตอนของการประมวลผล ไม่ใช่ความละเอียดของข้อมูลอินพุต ตัวอย่างเช่น บน โปรเซสเซอร์ x86การดำเนินการจุดลอยตัวจะดำเนินการด้วย ความแม่นยำ เดี่ยวหรือคู่และการดำเนินการจุดคงที่ที่ความละเอียด 16, 32 หรือ 64 บิต ดังนั้น การประมวลผลทั้งหมดที่ดำเนินการบนฮาร์ดแวร์ที่ใช้ Intel จะดำเนินการภายใต้ข้อจำกัดเหล่านี้โดยไม่คำนึงถึงรูปแบบแหล่งที่มา[ c ]

ตัวประมวลผลสัญญาณดิจิทัลแบบจุดคงที่มักรองรับความยาวคำเฉพาะเพื่อรองรับความละเอียดสัญญาณเฉพาะ ตัวอย่างเช่น ชิป DSP Motorola 56000ใช้ตัวคูณ 24 บิตและตัวสะสม 56 บิตเพื่อดำเนินการคูณและสะสมบนตัวอย่าง 24 บิตสองตัวอย่างโดยไม่มีการล้นหรือการตัดทอน[ 24 ]บนอุปกรณ์ที่ไม่รองรับตัวสะสมขนาดใหญ่ ผลลัพธ์แบบจุดคงที่อาจถูกตัดทอน ทำให้ความแม่นยำลดลง ข้อผิดพลาดจะสะสมผ่านขั้นตอนต่างๆ ของ DSP ในอัตราที่ขึ้นอยู่กับการดำเนินการที่กำลังดำเนินการ สำหรับขั้นตอนการประมวลผลที่ไม่สัมพันธ์กันบนข้อมูลเสียงโดยไม่มีค่าชดเชย DC ข้อผิดพลาดจะถือว่าเป็นแบบสุ่มโดยมีค่าเฉลี่ยเป็นศูนย์ ภายใต้สมมติฐานนี้ ค่าเบี่ยงเบนมาตรฐานของการกระจายแสดงถึงสัญญาณข้อผิดพลาด และข้อผิดพลาดในการควอนไทเซชันจะแปรผันตามรากที่สองของจำนวนการดำเนินการ[ 25 ]ความแม่นยำสูงเป็นสิ่งจำเป็นสำหรับอัลกอริทึมที่เกี่ยวข้องกับการประมวลผลซ้ำๆ เช่น การคอนโว ลูชัน[ 23 ]ความแม่นยำสูงยังจำเป็นในอัลกอริธึมแบบเรียกซ้ำ เช่น ตัวกรอง การตอบสนองแบบอิมพัลส์อนันต์ (IIR) [ 26 ]ในกรณีเฉพาะของตัวกรอง IIR ข้อผิดพลาดจากการปัดเศษอาจทำให้การตอบสนองความถี่ลดลงและทำให้เกิดความไม่เสถียร[ 23 ]

ความลังเล

ระดับเฮดรูมและระดับเสียงรบกวนพื้นฐานในขั้นตอนการประมวลผลเสียงเพื่อเปรียบเทียบกับระดับดิทเทอร์

สัญญาณรบกวนที่เกิดจากข้อผิดพลาดในการแปลงสัญญาณดิจิทัลเป็นค่าคงที่ (quantization error) ซึ่งรวมถึงข้อผิดพลาดจากการปัดเศษและการสูญเสียความแม่นยำที่เกิดขึ้นระหว่างการประมวลผลเสียง สามารถลดลงได้โดยการเพิ่มสัญญาณรบกวนแบบสุ่มเล็กน้อยที่เรียกว่าditherเข้าไปในสัญญาณก่อนทำการแปลงเป็นค่าคงที่ การใช้ dither ช่วยขจัดพฤติกรรมที่ไม่เป็นเชิงเส้นของข้อผิดพลาดในการแปลงสัญญาณดิจิทัลเป็นค่าคงที่ ทำให้เกิดความผิดเพี้ยนต่ำมาก แต่ต้อง แลกมาด้วยระดับสัญญาณ รบกวนพื้นฐาน ที่สูงขึ้นเล็กน้อย ค่า dither ที่แนะนำสำหรับเสียงดิจิทัล 16 บิต ซึ่งวัดโดยใช้การถ่วงน้ำหนักสัญญาณรบกวน ITU-R 468นั้น อยู่ที่ประมาณ 66 dB ต่ำกว่าระดับการจัดเรียง (alignment level ) หรือ 84 dB ต่ำกว่าระดับเต็มสเกล ดิจิทัล (digital full scale ) ซึ่งเทียบได้กับระดับเสียงรบกวนของไมโครโฟนและห้อง และดังนั้นจึงมีผลกระทบเพียงเล็กน้อยต่อเสียง 16 บิต

เสียง 24 บิตและ 32 บิตไม่จำเป็นต้องใช้ dithering เนื่องจากระดับเสียงรบกวนของตัวแปลงดิจิทัลจะดังกว่าระดับที่ต้องการของ dither ใดๆ ที่อาจนำมาใช้ เสียง 24 บิตสามารถเข้ารหัสช่วงไดนามิกได้ถึง 144 dB ในทางทฤษฎี และเสียง 32 บิตสามารถทำได้ถึง 192 dB แต่ในทางปฏิบัติแทบเป็นไปไม่ได้เลย เพราะแม้แต่เซ็นเซอร์และไมโครโฟนที่ดีที่สุดก็แทบจะไม่เกิน 130 dB [ 27 ]

Dither ยังสามารถใช้เพื่อเพิ่มช่วงไดนามิกที่มีประสิทธิภาพได้อีกด้วย ช่วงไดนามิก ที่รับรู้ได้ของเสียง 16 บิตสามารถเป็น 120 dB หรือมากกว่านั้นด้วย dither ที่มีรูปร่างเสียงรบกวนโดยใช้ประโยชน์จากการตอบสนองความถี่ของหูมนุษย์[ 28 ] [ 29 ]

ช่วงไดนามิกและเฮดรูม

ช่วงไดนามิกคือความแตกต่างระหว่างสัญญาณที่ใหญ่ที่สุดและเล็กที่สุดที่ระบบสามารถบันทึกหรือสร้างขึ้นใหม่ได้ หากไม่มี dither ช่วงไดนามิกจะสัมพันธ์กับระดับสัญญาณรบกวนจากการควอนไทเซชัน ตัวอย่างเช่น ความละเอียดจำนวนเต็ม 16 บิตช่วยให้มีช่วงไดนามิกประมาณ 96 dB ด้วยการใช้ dither อย่างเหมาะสม ระบบดิจิทัลสามารถสร้างสัญญาณที่มีระดับต่ำกว่าความละเอียดปกติได้ ซึ่งเป็นการขยายช่วงไดนามิกที่มีประสิทธิภาพเกินขีดจำกัดที่กำหนดโดยความละเอียด[ 30 ]การใช้เทคนิคต่างๆ เช่นการสุ่มตัวอย่างเกินและการปรับรูปร่างสัญญาณรบกวนสามารถขยายช่วงไดนามิกของเสียงที่สุ่มตัวอย่างได้มากขึ้นโดยการย้ายข้อผิดพลาดในการควอนไทเซชันออกจากย่านความถี่ที่สนใจ

หากระดับสูงสุดของสัญญาณต่ำกว่าระดับที่อนุญาตโดยความละเอียดบิต การบันทึกจะมีเฮดรูมการใช้ความละเอียดบิตที่สูงขึ้นระหว่างการบันทึกในสตูดิโอสามารถทำให้มีเฮดรูมเพิ่มขึ้นได้ ในขณะที่ยังคงรักษาช่วงไดนามิกไว้ได้เท่าเดิม ซึ่งจะช่วยลดความเสี่ยงของการเกิดคลิปปิ้งโดยไม่เพิ่มข้อผิดพลาดในการแปลงสัญญาณดิจิทัลที่ระดับเสียงต่ำ

การสุ่มตัวอย่างเกิน

การสุ่มตัวอย่างเกิน (Oversampling) เป็นวิธีการทางเลือกในการเพิ่มช่วงไดนามิกของเสียง PCM โดยไม่ต้องเปลี่ยนจำนวนบิตต่อตัวอย่าง[ 31 ]ในการสุ่มตัวอย่างเกิน ตัวอย่างเสียงจะถูกเก็บรวบรวมที่อัตราสุ่มตัวอย่างที่ต้องการหลายเท่า เนื่องจากถือว่าข้อผิดพลาดในการควอนไทเซชันมีการกระจายอย่างสม่ำเสมอตามความถี่ ข้อผิดพลาดในการควอนไทเซชันส่วนใหญ่จึงถูกเลื่อนไปยังความถี่อัลตราโซนิกและสามารถกำจัดได้โดยตัวแปลงดิจิทัลเป็นอนาล็อกในระหว่างการเล่น

สำหรับการเพิ่มความละเอียดให้เทียบเท่ากับnบิตเพิ่มเติม จะต้องทำการสุ่มตัวอย่างสัญญาณเกิน (oversampled) โดย

ตัวอย่างเช่น ADC 14 บิต สามารถสร้างเสียง 16 บิต 48 kHz ได้ หากใช้งานที่การสุ่มตัวอย่างเกิน 16 เท่า หรือ 768 kHz ดังนั้น PCM ที่สุ่มตัวอย่างเกินจึงแลกเปลี่ยนบิตต่อตัวอย่างน้อยลงกับจำนวนตัวอย่างที่มากขึ้นเพื่อให้ได้ความละเอียดเท่าเดิม

ช่วงไดนามิกสามารถเพิ่มขึ้นได้ด้วยการสุ่มตัวอย่างเกิน (oversampling) ในขั้นตอนการสร้างสัญญาณใหม่ โดยไม่ต้องมีการสุ่มตัวอย่างเกินที่แหล่งกำเนิด ลองพิจารณาการสุ่มตัวอย่างเกิน 16 เท่าในขั้นตอนการสร้างสัญญาณใหม่ แต่ละตัวอย่างในการสร้างสัญญาณใหม่จะมีเอกลักษณ์เฉพาะตัว เนื่องจากสำหรับแต่ละจุดตัวอย่างดั้งเดิม จะมีการแทรกตัวอย่างใหม่ 16 จุด ซึ่งทั้งหมดคำนวณโดยตัวกรองการสร้างสัญญาณ ดิจิทัล กลไกของการเพิ่มความลึกของบิตที่มีประสิทธิภาพนั้นเป็นไปตามที่ได้กล่าวไว้ก่อนหน้านี้ นั่นคือ กำลังของสัญญาณรบกวนจากการควอนไทเซชันไม่ได้ลดลง แต่สเปกตรัมของสัญญาณรบกวนได้กระจายออกไปทั่วแบนด์วิดท์เสียงถึง 16 เท่า

หมายเหตุทางประวัติศาสตร์—มาตรฐานแผ่นซีดีได้รับการพัฒนาโดยความร่วมมือระหว่างโซนี่และฟิลิปส์ หน่วยผู้บริโภครุ่นแรกของโซนี่มี DAC 16 บิต ในขณะที่หน่วยแรกของฟิลิปส์มี DAC 14 บิตคู่ ซึ่งทำให้เกิดความสับสนในตลาดและแม้แต่ในแวดวงมืออาชีพ เนื่องจาก PCM 14 บิตให้ค่า SNR 84 dB ซึ่งน้อยกว่า PCM 16 บิต 12 dB ฟิลิปส์ได้นำการสุ่มตัวอย่างเกิน 4 เท่ามาใช้พร้อมกับการปรับรูปร่างสัญญาณรบกวน ลำดับแรก ซึ่งในทางทฤษฎีแล้วจะทำให้ได้ช่วงไดนามิกเต็ม 96 dB ของรูปแบบซีดี[ 32 ]ในทางปฏิบัติ ฟิลิปส์ CD100 ได้รับการจัดอันดับที่ SNR 90 dB ในย่านความถี่เสียง 20 Hz–20 kHz เท่ากับ CDP-101 ของโซนี่[ 33 ] [ 34 ]

การปรับแต่งสัญญาณรบกวน

การสุ่มตัวอย่างสัญญาณเกิน (Oversampling) ส่งผลให้มีสัญญาณรบกวนการควอนไทเซชันเท่ากันต่อหน่วยแบนด์วิดท์ที่ความถี่ทั้งหมด และช่วงไดนามิกจะดีขึ้นเพียงแค่รากที่สองของอัตราส่วนการสุ่มตัวอย่างเกินเท่านั้น การปรับรูปร่างสัญญาณรบกวน (Noise shaping) เป็นเทคนิคที่เพิ่มสัญญาณรบกวนเพิ่มเติมที่ความถี่สูงขึ้น ซึ่งจะหักล้างข้อผิดพลาดบางส่วนที่ความถี่ต่ำลง ส่งผลให้ช่วงไดนามิกเพิ่มขึ้นมากขึ้นเมื่อสุ่มตัวอย่างเกิน สำหรับการปรับรูปร่าง สัญญาณรบกวนลำดับที่ nช่วงไดนามิกของสัญญาณที่สุ่มตัวอย่างเกินจะดีขึ้นอีก 6n dB  เมื่อเทียบกับการสุ่มตัวอย่างเกินโดยไม่มีการปรับรูปร่างสัญญาณรบกวน[ 35 ]ตัวอย่างเช่น สำหรับสัญญาณเสียงอนาล็อก 20 kHz ที่สุ่มตัวอย่างที่การสุ่มตัวอย่างเกิน 4 เท่าด้วยการปรับรูปร่างสัญญาณรบกวนลำดับที่สอง ช่วงไดนามิกจะเพิ่มขึ้น 30 dB ดังนั้น สัญญาณ 16 บิตที่สุ่มตัวอย่างที่ 176 kHz จะมีความลึกของบิตเท่ากับสัญญาณ 21 บิตที่สุ่มตัวอย่างที่ 44.1 kHz โดยไม่มีการปรับรูปร่างสัญญาณรบกวน

การปรับรูปสัญญาณรบกวนมักใช้การมอดูเลชั่นแบบเดลต้า-ซิกมาโดยใช้การมอดูเลชั่นแบบเดลต้า-ซิกมาDirect Stream Digitalสามารถทำอัตราส่วนสัญญาณต่อสัญญาณรบกวน (SNR) ได้ถึง 120 dB ในทางทฤษฎีที่ความถี่เสียง โดยใช้เสียง 1 บิตที่มีการสุ่มตัวอย่างเกิน 64 เท่า

แอปพลิเคชัน

ระดับบิตเป็นคุณสมบัติพื้นฐานของการใช้งานเสียงดิจิทัล โดยขึ้นอยู่กับข้อกำหนดของแอปพลิเคชันและความสามารถของอุปกรณ์ ระดับบิตที่แตกต่างกันจะถูกนำไปใช้ในแอปพลิเคชันต่างๆ

ตัวอย่างการใช้งานและระดับความลึกของบิตเสียงที่รองรับ
แอปพลิเคชัน คำอธิบาย รูปแบบไฟล์เสียง
CD-DA (หนังสือสีแดง) [ 36 ]สื่อดิจิทัล LPCM 16 บิต
ดีวีดี-ออดิโอ[ 37 ]สื่อดิจิทัลLPCM 16 บิต, 20 บิต และ 24 บิต[ A ]
ซูเปอร์ออดิโอซีดี[ 38 ]สื่อดิจิทัล1-บิตไดเร็กต์สตรีมดิจิทัล ( PDM )
เสียงแผ่นบลูเรย์[ 39 ]สื่อดิจิทัล LPCM 16 บิต, 20 บิต และ 24 บิต และอื่นๆ[ B ]
เสียงDV [ 40 ]สื่อดิจิทัล PCM แบบไม่บีบอัด 12 บิตและ 16 บิต
ข้อแนะนำITU-T G.711 [ 41 ]มาตรฐานการบีบอัดข้อมูลสำหรับระบบโทรศัพท์PCM 8 บิตพร้อมการบีบอัด[ C ]
NICAM -1, NICAM-2 และ NICAM-3 [ 42 ]มาตรฐานการบีบอัดข้อมูลสำหรับการออกอากาศPCM 10 บิต, 11 บิต และ 10 บิต ตามลำดับ พร้อมการบีบอัด[ D ]
ความเร่าร้อนDAWโดยPaul Davisและ Ardour Community จุดลอยตัว 32 บิต[ 43 ]
โปรทูลส์ 11 DAW โดยAvid Technologyเซสชันจุดลอยตัว 16 บิตและ 24 บิตหรือ 32 บิต และการผสม จุดลอยตัว 64 บิต [ 44 ]
ลอจิก โปรเอ็กซ์ DAW โดยApple Inc.โครงการ 16 บิตและ 24 บิต และ การผสมจุดลอยตัว 32 บิตหรือ 64 บิต[ 45 ]
คูเบสDAW โดยSteinbergอนุญาตให้ประมวลผลเสียงด้วยความแม่นยำถึง 32 บิต float หรือ 64 บิต float [ 46 ]
เอเบิลตันไลฟ์[ 6 ]DAW โดยAbletonความลึกของบิตจุดลอยตัว 32 บิต และการรวมผล 64 บิต
เหตุผลที่ 7 DAW โดยPropellerhead Softwareอินพุต/เอาต์พุต 16 บิต, 20 บิต และ 24 บิต, การคำนวณเลขทศลอย 32 บิต และการรวม 64 บิต[ 47 ]
รีเพอร์ 5DAW โดยCockos Inc. การแสดงผล PCM 8 บิต, PCM 16 บิต, PCM 24 บิต, PCM 32 บิต, FP 32 บิต, FP 64 บิต, IMA ADPCM 4 บิต และ cADPCM 2 บิต;

การผสมจำนวนเต็ม 8 บิต, 16 บิต, 24 บิต, 32 บิต, เลขทศนิยม 32 บิต และเลขทศนิยม 64 บิต

GarageBand '11 (เวอร์ชัน 6) DAW โดย Apple Inc. ค่าเริ่มต้น 16 บิตพร้อมการบันทึกเครื่องดนตรีจริง 24 บิต[ 48 ]
ความกล้าหาญโปรแกรมแก้ไขเสียงแบบโอเพนซอร์ส LPCM 16 บิตและ 24 บิต และจุดลอยตัว 32 บิต[ 49 ]
เอฟแอล สตูดิโอDAW โดยImage-Lineจำนวนเต็ม 16 บิตและ 24 บิต และจุดลอยตัว 32 บิต (ควบคุมโดยระบบปฏิบัติการ) [ 50 ]
  1. ^ DVD-Audio ยังรองรับ Meridian Lossless Packingซึ่งเป็นรูปแบบการบีบอัดแบบไม่สูญเสียข้อมูล (lossless compression ) ซึ่งเป็นตัวเลือกเสริม
  2. ^แผ่น Blu-ray รองรับรูปแบบที่ไม่ใช่ LPCM หลายรูปแบบ แต่ทั้งหมดเป็นไปตามมาตรฐานที่มีความละเอียด 16, 20 หรือ 24 บิตต่อตัวอย่าง
  3. ^ ITU-T กำหนด อัลกอริธึมการบีบอัดแบบ A-lawและ μ-lawซึ่งบีบอัดจาก 13 และ 14 บิตตามลำดับ
  4. ^ระบบ NICAM 1, 2 และ 3 บีบอัดข้อมูลลงจาก 13, 14 และ 14 บิต ตามลำดับ

อัตราบิตและขนาดไฟล์

ความลึกของบิตส่งผลต่ออัตราบิตและขนาดไฟล์ บิตเป็นหน่วยข้อมูลพื้นฐานที่ใช้ในการคำนวณและการสื่อสารดิจิทัล อัตราบิตหมายถึงปริมาณข้อมูล โดยเฉพาะบิต ที่ส่งหรือรับต่อวินาที ในMP3และรูปแบบเสียงที่บีบอัดแบบสูญเสียข้อมูล อื่นๆ อัตราบิตจะอธิบายปริมาณข้อมูลที่ใช้ในการเข้ารหัสสัญญาณเสียง โดยปกติจะวัดเป็นกิโลบิตต่อวินาที[ 51 ]

ดูเพิ่มเติม

หมายเหตุ

  1. ^ตัวอย่างเช่น ในไฟล์ MP3การกำหนดปริมาณ (quantization) จะดำเนินการกับ ตัวแทนสัญญาณใน โดเมนความถี่ไม่ใช่กับตัวอย่างในโดเมนเวลา ที่เกี่ยวข้องกับความลึกของบิต
  2. ^แม้ว่าจะมีตัวแปลง 32 บิตอยู่ แต่ก็มีไว้เพื่อการตลาดเท่านั้น และไม่มีประโยชน์ในทางปฏิบัติเหนือกว่าตัวแปลง 24 บิต บิตพิเศษเหล่านั้นมีค่าเป็นศูนย์หรือเข้ารหัสเฉพาะสัญญาณรบกวนเท่านั้น [ 15 ] [ 16 ]
  3. ฮาร์ดแวร์ Intel และ AMD x86 สามารถรองรับความแม่นยำสูงกว่า 64 บิต หรือแม้แต่ตัวเลขทศนิยมหรือจำนวนเต็มขนาดใหญ่ได้ แต่การประมวลผลจะใช้เวลานานกว่าประเภทข้อมูลพื้นฐานมาก
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Audio_bit_depth&oldid=1356549094 "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ ความลึกของบิตเสียง

ในระบบเสียงดิจิทัลที่ใช้การมอดูเลชั่นแบบพัลส์โค้ด (PCM) ความลึกของบิตคือจำนวนบิตของข้อมูลในแต่ละตัวอย่างและมีความสัมพันธ์โดยตรงกับความละเอียดของแต่ละตัวอย่าง...

การแสดงผลแบบไบนารี

สัญญาณ PCM คือลำดับของตัวอย่างเสียงดิจิทัลที่บรรจุข้อมูลที่จำเป็นใน การสร้าง สัญญาณอนาล็อก ดั้งเดิม ขึ้นมาใหม่ ตัวอย่างแต่ละตัวแสดงถึง แอมพลิจูด ของสัญญาณ ณ จุดเวลาใดเวลาหนึ่ง และตัวอย่างเหล่านี้จะเว้นระยะห่างเท่าๆ กันตามเวลา...

การหาปริมาณ

ความละเอียดของบิตจำกัด อัตราส่วนสัญญาณต่อสัญญาณรบกวน (SNR) ของสัญญาณที่สร้างขึ้นใหม่ไว้ที่ระดับสูงสุดซึ่งกำหนดโดย ข้อผิดพลาดในการควอนไทเซ ชัน ความละเอียดของบิตไม่มีผลกระทบต่อ การตอบสนองความถี่ ซึ่งถูกจำกัดโดย อัตรา การ สุ่มตัวอย่าง

จุดลอยตัว

การประมวลผลค่าตัวอย่างแบบทศนิยมทำได้ยากกว่าการประมวลผลค่าตัวอย่างแบบจำนวนเต็ม เนื่องจากค่าทศนิยมไม่ได้มีระยะห่างเท่ากัน ในการแสดงผลแบบทศนิยม ระยะห่างระหว่างค่าที่อยู่ติดกันสองค่าใดๆ จะเป็นสัดส่วนกับค่าของค่านั้น