รูปแบบการเข้ารหัสเสียง

Q: ประวัติศาสตร์

ในปี พ.ศ. 2493 Bell Labs ได้ยื่นจดสิทธิบัตรเกี่ยวกับ การปรับรหัสพัลส์แบบดิฟเฟอเรนเชียล (DPCM) [ 3 ] Adaptive DPCM (ADPCM) ได้รับการแนะนำโดย P. Cummiskey, Nikil S. Jayant และ James L. Flanagan ที่ Bell Labs ในปี พ.ศ. 2516 [ 4 ] [ 5 ]

รูปแบบการเข้ารหัสเสียง [ ¹^]หรือรูปแบบการบีบอัดเสียงคือรูปแบบการเข้ารหัส^{เสียง}ดิจิทัลเช่น ในโทรทัศน์ดิจิทัล วิทยุดิจิทัลและในไฟล์เสียงและวิดีโอ ตัวอย่างของรูปแบบการเข้ารหัสเสียง ได้แก่MP3 , AAC , Vorbis , FLACและOpusการใช้งานซอฟต์แวร์หรือฮาร์ดแวร์เฉพาะที่สามารถบีบอัดและคลายการบีบอัดเสียงไป/กลับจากรูปแบบการเข้ารหัสเสียงเฉพาะเรียกว่าตัวแปลง สัญญาณเสียง ตัวอย่างของตัวแปลงสัญญาณเสียงคือLAMEซึ่งเป็นหนึ่งในตัวแปลงสัญญาณหลายตัวที่ใช้ในการเข้ารหัสและถอดรหัสเสียงใน รูปแบบการเข้ารหัสเสียง MP3ในซอฟต์แวร์

รูปแบบการเข้ารหัสเสียงบางรูปแบบมีการบันทึกไว้ใน เอกสาร ข้อกำหนดทางเทคนิค โดยละเอียด ซึ่งเรียกว่าข้อกำหนดการเข้ารหัสเสียงข้อกำหนดดังกล่าวบางส่วนได้รับการเขียนและอนุมัติโดยองค์กรมาตรฐานในฐานะมาตรฐานทางเทคนิคและจึงเรียกว่ามาตรฐานการเข้ารหัสเสียงคำว่า "มาตรฐาน" บางครั้งก็ใช้สำหรับมาตรฐาน โดยพฤตินัยเช่นเดียวกับมาตรฐานที่เป็นทางการด้วย

เนื้อหาเสียงที่เข้ารหัสในรูปแบบการเข้ารหัสเสียงเฉพาะมักจะถูกห่อหุ้มไว้ภายในรูปแบบคอนเทนเนอร์ดังนั้นโดยปกติแล้วผู้ใช้จะไม่มี ไฟล์ AAC ดิบ แต่จะมีไฟล์เสียง . m4a แทน ซึ่งเป็น คอนเทนเนอร์ MPEG-4 Part 14ที่มีเสียงที่เข้ารหัส AAC คอนเทนเนอร์ยังประกอบด้วยเมตาเดตาเช่น ชื่อเรื่องและแท็กอื่นๆ และอาจมีดัชนีสำหรับการค้นหาอย่างรวดเร็ว^{[ 2 ]}ข้อยกเว้นที่สำคัญคือ ไฟล์ MP3ซึ่งเป็นการเข้ารหัสเสียงดิบโดยไม่มีรูปแบบคอนเทนเนอร์ มาตรฐานโดยพฤตินัยสำหรับการเพิ่มแท็กเมตาเดตา เช่น ชื่อเรื่องและศิลปินลงใน MP3 เช่นID3เป็นวิธีแก้ปัญหาชั่วคราวที่ทำงานโดยการเพิ่มแท็กเข้าไปใน MP3 จากนั้นอาศัยเครื่องเล่น MP3 ในการจดจำส่วนนั้นว่าเป็นการเข้ารหัสเสียงที่ผิดรูปแบบและข้ามไป ในไฟล์วิดีโอที่มีเสียง เนื้อหาเสียงที่เข้ารหัสจะถูกรวมเข้ากับวิดีโอ (ในรูปแบบการเข้ารหัสวิดีโอ ) ภายในรูปแบบคอนเทนเนอร์มัลติมีเดีย

รูปแบบการเข้ารหัสเสียงไม่ได้กำหนดอัลกอริธึม ทั้งหมด ที่ใช้โดยตัวแปลงสัญญาณที่ใช้รูปแบบนั้น ส่วนสำคัญของการบีบอัดเสียงแบบสูญเสียข้อมูลคือการกำจัดข้อมูลในลักษณะที่มนุษย์ไม่สามารถได้ยิน ตามแบบจำลองทางจิตวิทยาการได้ยิน ผู้พัฒนาตัวเข้ารหัสมีอิสระในการเลือกข้อมูลที่จะลบออก (ตามแบบจำลองทางจิตวิทยาการได้ยินของตน)

รูปแบบการเข้ารหัสเสียงแบบไม่สูญเสียข้อมูล แบบสูญเสียข้อมูล และไม่บีบอัด

รูป แบบการเข้ารหัสเสียง แบบไม่สูญเสียข้อมูล (Lossless audio coding format) ช่วยลดปริมาณข้อมูลทั้งหมดที่จำเป็นในการแสดงเสียง แต่สามารถถอดรหัสกลับไปเป็นรูปแบบดั้งเดิมที่ไม่ถูกบีบอัดได้ ส่วนรูป แบบการเข้ารหัสเสียงแบบสูญเสียข้อมูล (Lossy audio coding format) จะลดความละเอียดของบิตเสียงลงไปอีก นอกเหนือจากการบีบอัด ซึ่งส่งผลให้ได้ข้อมูลน้อยลงมาก แต่ต้องแลกมาด้วยการสูญเสียข้อมูลอย่างถาวร

โดยส่วนใหญ่แล้ว เสียงที่ส่งผ่าน (สตรีมมิ่ง) จะถูกบีบอัดโดยใช้ตัวแปลงสัญญาณเสียงแบบสูญเสียข้อมูล (lossy audio codecs) เนื่องจากขนาดไฟล์ที่เล็กลงนั้นสะดวกต่อการเผยแพร่มากกว่า รูปแบบการเข้ารหัสเสียงที่ใช้กันอย่างแพร่หลายที่สุดคือMP3และAdvanced Audio Coding (AAC) ซึ่งทั้งสองเป็นรูปแบบแบบสูญเสียข้อมูลที่ใช้การแปลงโคไซน์แบบไม่ต่อเนื่องที่ดัดแปลง (MDCT) และ อัลกอริธึม การเข้ารหัสแบบรับรู้ (perceptual coding )

รูปแบบการเข้ารหัสเสียงแบบไม่สูญเสียคุณภาพ เช่นFLACและApple Losslessอาจมีให้ใช้งานในบางครั้ง แต่จะทำให้ไฟล์มีขนาดใหญ่ขึ้น

รูปแบบ เสียงที่ไม่บีบอัดเช่นการเข้ารหัสแบบพัลส์ (PCM หรือ .wav) ก็ถูกนำมาใช้บ้างเช่นกัน โดย PCM เป็นรูปแบบมาตรฐานสำหรับแผ่นเสียงดิจิทัลแบบคอมแพค (CDDA)

ประวัติศาสตร์

Solidyne 922: การ์ดเสียงแบบบีบอัดบิตเสียงเชิงพาณิชย์ตัวแรกของโลกสำหรับพีซี ปี 1990

ในปี พ.ศ. 2493 Bell Labsได้ยื่นจดสิทธิบัตรเกี่ยวกับการปรับรหัสพัลส์แบบดิฟเฟอเรนเชียล (DPCM) ^{[ 3 ]} Adaptive DPCM (ADPCM) ได้รับการแนะนำโดย P. Cummiskey, Nikil S. JayantและJames L. Flanaganที่Bell Labsในปี พ.ศ. 2516 ^{[ 4 ]}^{[ 5 ]}

การเข้ารหัสการรับรู้ถูกนำมาใช้ครั้งแรกสำหรับ การบีบอัด การเข้ารหัสเสียงพูดโดยใช้การเข้ารหัสทำนายเชิงเส้น (LPC) ^{[ 6 ]}แนวคิดเริ่มต้นของ LPC ย้อนกลับไปถึงงานของFumitada Itakura ( มหาวิทยาลัยนาโกย่า ) และ Shuzo Saito ( บริษัทโทรศัพท์และโทรเลขญี่ปุ่น ) ในปี 1966 ^{[ 7 ]}ในช่วงทศวรรษ 1970 Bishnu S. AtalและManfred R. Schroederที่Bell Labsได้พัฒนา LPC รูปแบบหนึ่งที่เรียกว่าการเข้ารหัสทำนายแบบปรับตัว (APC) ซึ่งเป็นอัลกอริทึมการเข้ารหัสการรับรู้ที่ใช้ประโยชน์จากคุณสมบัติการบดบังของหูมนุษย์ ตามมาด้วย อัลกอริทึม การทำนายเชิงเส้นแบบกระตุ้นรหัส (CELP) ในช่วงต้นทศวรรษ 1980 ซึ่งบรรลุอัตราส่วนการบีบอัดที่สำคัญสำหรับยุคนั้น^{[ 6 ]} การเข้ารหัสการ รับ รู้ถูกใช้โดยรูปแบบการบีบอัดเสียงสมัยใหม่ เช่นMP3 ^{[ 6 ]}และAAC

การแปลงโคไซน์แบบไม่ต่อเนื่อง (DCT) ซึ่งพัฒนาโดยNasir Ahmed , T. Natarajan และKR Raoในปี 1974 ^{[ 8 ]}เป็นพื้นฐานสำหรับการแปลงโคไซน์แบบไม่ต่อเนื่องที่ดัดแปลง (MDCT) ที่ใช้โดยรูปแบบการบีบอัดเสียงสมัยใหม่ เช่น MP3 ^{[ 9 ]}และ AAC MDCT ได้รับการเสนอโดย JP Princen, AW Johnson และ AB Bradley ในปี 1987 ^{[ 10 ]}ตามผลงานก่อนหน้านี้ของ Princen และ Bradley ในปี 1986 ^{[ 11 ]}^{MDCT ถูกใช้โดยรูปแบบการ บีบ}อัดเสียงสมัยใหม่ เช่นDolby Digital [ ¹²^]^[¹³^] MP3 [ ⁹^]และAdvanced Audio Coding ⁽ AAC) ^[¹⁴^]

รายการรูปแบบข้อมูลแบบสูญเสีย

ทั่วไป

อัลกอริทึมการบีบอัดพื้นฐาน	มาตรฐานการเข้ารหัสเสียง	คำย่อ	การแนะนำ	ส่วนแบ่งการตลาด(2023) ^{[ 15 ]}		อ้างอิง
อัลกอริทึมการบีบอัดพื้นฐาน	มาตรฐานการเข้ารหัสเสียง	คำย่อ	การแนะนำ	การผลิต	การสตรีมมิ่ง
การแปลงโคไซน์แบบไม่ต่อเนื่องที่ปรับปรุงแล้ว (MDCT)	ดอลบี้ ดิจิตอล (เอซี-3)	เอซี3	1991	36–54% ^{[ n 1 ]}	37–61% ^{[ n 1 ]}	^{[ 12 ]}^{[ 18 ]}
	ดอลบี้ ดิจิตอล พลัส (อี-เอซี-3)	อีเอซี3	2004	36–54% ^{[ n 1 ]}	37–61% ^{[ n 1 ]}	^{[ 19 ]}^{[ 20 ]}
	การเข้ารหัสเสียงแบบแปลงปรับตัวได้	เอทราค	1992	ไม่ทราบ	ไม่ทราบ	^{[ 12 ]}
	MPEG เลเยอร์ III	เอ็มพี3	พ.ศ. 2536	15%	19%	^{[ 9 ]}^{[ 21 ]}
	การเข้ารหัสเสียงขั้นสูง ( MPEG-2 / MPEG-4 )	เอเอซี	พ.ศ. 2540	83%	87%	^{[ 14 ]}^{[ 12 ]}
	วินโดวส์ มีเดีย ออยล์	ดับเบิลยูเอ็มเอ	1999	ไม่ทราบ	ไม่ทราบ	^{[ 12 ]}
	อ็อกก์วอร์บิส	อ็อกก์	2000	6%	4%	^{[ 22 ]}^{[ 12 ]}
	การแปลงพลังงานที่ถูกจำกัดแบบซ้อนทับ	เซลท์	2011	ไม่มีข้อมูล	ไม่มีข้อมูล	^{[ 23 ]}
	โอปุส	โอปุส	2012	12%	9%	^{[ 24 ]}
	ดอลบี้ เอซี-4	เอซี4	2014	ไม่ทราบ	ไม่ทราบ	^{[ 25 ]}
	แอลดีเอซี	แอลดีเอซี	2015	ไม่ทราบ	ไม่ทราบ	^{[ 26 ]}^{[ 27 ]}
การมอดูเลชั่นรหัสพัลส์เชิงอนุพันธ์แบบปรับได้ (ADPCM)	aptX / aptX-HD	เอพีทีเอ็กซ์	1989	ไม่ทราบ	ไม่ทราบ	^{[ 28 ]}
	ระบบโรงภาพยนตร์ดิจิทัล	ดีทีเอส	1990	8%	6%	^{[ 29 ]}^{[ 30 ]}
	รับรองคุณภาพระดับมาสเตอร์	เอ็มคิวเอ	2014	ไม่ทราบ	ไม่ทราบ
การเข้ารหัสแบบซับแบนด์ (SBC)	MPEG-1 เลเยอร์เสียง II	เอ็มพี2	พ.ศ. 2536	ไม่ทราบ	ไม่ทราบ	^{[ 31 ]}
	มิวส์แพ็ค	เอ็มพีซี	พ.ศ. 2540	ไม่ทราบ	ไม่ทราบ
	เอสบีซี	เอสบีซี	2003	ไม่ทราบ	ไม่ทราบ	^{[ 32 ]}

คำพูด

การเข้ารหัสทำนายเชิงเส้น (LPC)
- การเข้ารหัสทำนายแบบปรับตัว (APC)
- การทำนายเชิงเส้นแบบกระตุ้นด้วยรหัส (CELP)
- การทำนายเชิงเส้นที่กระตุ้นด้วยรหัสพีชคณิต (ACELP)
- การทำนายเชิงเส้นแบบผ่อนคลายที่กระตุ้นด้วยรหัส (RCELP)
- CELP ที่มีความล่าช้าต่ำ (LD-CELP)
- อัตราความเร็วหลายระดับแบบปรับได้ (ใช้ในระบบ GSMและ3GPP )
- โคเดค 2 (โดดเด่นในเรื่องไม่มีข้อจำกัดด้านสิทธิบัตร)
- Speex (ซึ่งขึ้นชื่อเรื่องไม่มีข้อจำกัดด้านสิทธิบัตร)
การแปลงโคไซน์แบบไม่ต่อเนื่องที่ปรับปรุงแล้ว (MDCT)
- เอเอซี-แอลดี
- การแปลงพลังงานแบบซ้อนทับที่มีข้อจำกัด (CELT)
- Opus (ส่วนใหญ่ใช้สำหรับแอปพลิเคชันแบบเรียลไทม์)

รายชื่อรูปแบบไฟล์ที่ไม่สูญเสียคุณภาพ

Apple Lossless (ALAC – Apple Lossless Audio Codec)
การเข้ารหัสเสียงแบบปรับเปลี่ยนได้ (ATRAC)
การเข้ารหัสเสียงแบบไม่สูญเสียคุณภาพ (หรือที่รู้จักกันในชื่อ MPEG-4 ALS)
การถ่ายโอนสตรีมโดยตรง (DST)
ดอลบี้ ทรูเอช
ดีทีเอสเอช มาสเตอร์ ออดิโอ
ตัวแปลงสัญญาณเสียงแบบไม่สูญเสียคุณภาพ (FLAC) ฟรี
การแปลงโคไซน์แบบไม่สูญเสียข้อมูล (LDCT)
เมริเดียน แอลแอลพี (MLP)
Monkey's Audio (Monkey's Audio APE)
MPEG-4 SLS (หรือที่รู้จักกันในชื่อ HD-AAC)
OptimFROG
คุณภาพเสียงต้นฉบับ (OSQ)
RealPlayer (RealAudio Lossless)
ย่อ (SHN)
TTA (True Audio Lossless)
WavPack (WavPack lossless)
WMA Lossless (Windows Media Lossless)

ดูเพิ่มเติม

หมายเหตุ

^ ^a ^bรายงานนี้รวม AC-3 และ E-AC-3 เข้าด้วยกัน และแยกDolby Atmosออกจากการคำนวณส่วนแบ่งตลาด Dolby Atmos สามารถเข้ารหัสได้ทั้งแบบสูญเสียข้อมูลด้วย E-AC-3/ AC-4 ^{[ 16 ]}หรือแบบไม่สูญเสียข้อมูลด้วยDolby TrueHDผู้ ให้บริการสตรีมมิ่ง เพลงและวิดีโอมักใช้ Dolby Digital Plus ที่เสริมด้วย Dolby Atmos ในขณะที่การดาวน์โหลดดิจิทัลและแผ่น Blu-rayมักใช้ Dolby TrueHD ที่เสริมด้วย Dolby Atmos ^{[ 17 ]}

[MarketShareNote-18] รายงานนี้รวม AC-3 และ E-AC-3 เข้าด้วยกัน และแยกDolby Atmosออกจากการคำนวณส่วนแบ่งตลาด Dolby Atmos สามารถเข้ารหัสได้ทั้งแบบสูญเสียข้อมูลด้วย E-AC-3/ AC-4 ^{[ 16 ]}หรือแบบไม่สูญเสียข้อมูลด้วยDolby TrueHDผู้ ให้บริการสตรีมมิ่ง เพลงและวิดีโอมักใช้ Dolby Digital Plus ที่เสริมด้วย Dolby Atmos ในขณะที่การดาวน์โหลดดิจิทัลและแผ่น Blu-rayมักใช้ Dolby TrueHD ที่เสริมด้วย Dolby Atmos ^{[ 17 ]}

1

[ 2 ]

[ 3 ]

[ 4 ]

[ 5 ]

[ 6 ]

[ 7 ]

[ 8 ]

[ 9 ]

[ 10 ]

[ 11 ]

MDCT ถูกใช้โดยรูปแบบการ บีบ

12

13

[ 15 ]

[ n 1 ]

[ 18 ]

[ 19 ]

[ 20 ]

[ 21 ]

[ 22 ]

[ 23 ]

[ 24 ]

[ 25 ]

[ 26 ]

[ 27 ]

[ 28 ]

[ 29 ]

[ 30 ]

[ 31 ]

[ 32 ]

[ 16 ]

[ 17 ]