กลับไปหน้าบทความ

อ่าน 24 นาที

การเข้ารหัสเสียงขั้นสูง

Advanced Audio Coding ( AAC ) เป็น มาตรฐานการเข้ารหัสเสียง สำหรับ การบีบ อัดเสียงดิจิทัล แบบสูญเสียข้อมูล ได้รับการพัฒนาโดย Dolby , AT&T , Fraunhofer และ Sony [ 3 ] [ 4 ] [ 5 ]...

การเข้ารหัสเสียงขั้นสูง

การเข้ารหัสเสียงขั้นสูง
นามสกุลไฟล์.3gp, .aac, .adif, .adts, .m4a, .m4b, .m4p, .m4r,.mp4
สื่อประเภทอินเทอร์เน็ต
เสียง/aac เสียง/aacp เสียง/3gpp เสียง/3gpp2 เสียง/mp4 เสียง/mp4a-latm เสียง/mpeg4-generic
พัฒนาโดยAT&T Labs , Dolby Laboratories , Fraunhofer Society , Sony
การเผยแพร่ครั้งแรกธันวาคม พ.ศ. 2540 [ 1 ] ( 1997-12 )
รุ่นล่าสุด
ISO/IEC 14496-3:2019 ธันวาคม 2019 ( 2019-12 )
ประเภทของรูปแบบไฟล์เสียงแบบบีบอัด
บรรจุโดยMPEG-4 Part 14 , 3GP และ 3G2 , รูปแบบไฟล์มีเดียพื้นฐาน ISOและรูปแบบการแลกเปลี่ยนข้อมูลเสียง (ADIF)
มาตรฐานISO/IEC 13818-7 , ISO/IEC 14496-3
รูปแบบเปิด ?ใช่
รูปแบบฟรีใช่ไหม?ไม่[ 2 ]

Advanced Audio Coding ( AAC ) เป็นมาตรฐานการเข้ารหัสเสียงสำหรับการบีบอัดเสียงดิจิทัลแบบสูญเสียข้อมูล ได้รับการพัฒนาโดยDolby , AT&T , FraunhoferและSony [ 3 ] [ 4 ] [ 5 ]เดิมทีเป็นส่วนหนึ่งของ ข้อกำหนด MPEG-2แต่ได้รับการปรับปรุงในภายหลังภายใต้MPEG-4 [ 6 ] [ 7 ] AACถูกออกแบบมาเพื่อทดแทน รูปแบบ MP3 (MPEG-2 Audio Layer III) และโดยทั่วไปแล้วจะให้คุณภาพเสียงที่สูงกว่า MP3 ที่อัตราบิตเดียวกัน[ 8 ]ไฟล์เสียงที่เข้ารหัส AAC มักจะถูกบรรจุในคอนเทนเนอร์MP4โดยส่วนใหญ่จะใช้ส่วนขยายชื่อไฟล์[ 9 ] [ 10 ].m4a

โปรไฟล์พื้นฐานของ AAC (ทั้ง MPEG-4 และ MPEG-2) เรียกว่าAAC-LC ( ความซับซ้อนต่ำ ) ซึ่งได้รับการสนับสนุนอย่างกว้างขวางในอุตสาหกรรมและถูกนำมาใช้เป็นรูปแบบเสียงเริ่มต้นหรือมาตรฐานในผลิตภัณฑ์ต่างๆ รวมถึงiTunes StoreของApple , WiiของNintendo , [ 11 ] DSiและ3DSและPlayStation 3ของSony [ 12 ] นอกจากนี้ยังได้รับการสนับสนุนในอุปกรณ์และซอฟต์แวร์อื่นๆ อีกมากมาย เช่นiPhone , iPod , PlayStation PortableและVita , PlayStation 5 , Androidและโทรศัพท์มือถือรุ่นเก่า[ 13 ]เครื่องเล่นเสียงดิจิทัล เช่นSony WalkmanและSanDisk Clip , เครื่องเล่นมีเดีย เช่นVLC , WinampและWindows Media Player , ระบบเสียงในรถยนต์ต่างๆ[ 14 ]และบริการสตรีมมิ่ง เช่นSpotify [ 15 ] [ a ] Apple Music , YouTubeและYouTube Music [ 16 ] AACได้รับการพัฒนาเพิ่มเติมเป็นHE-AAC ( ประสิทธิภาพสูง หรือ AAC+ )ซึ่งปรับปรุงประสิทธิภาพให้ดีขึ้นกว่า AAC-LC [ 17 ]อีกรูปแบบหนึ่งคือAAC-LD ( ความล่าช้าต่ำ ) [ 18 ]

AAC รองรับการรวมช่องสัญญาณเสียง แบบเต็ม แบนด์วิดท์ (สูงสุด 96 kHz) จำนวน 48 ช่อง ในสตรีมเดียว บวกกับช่องสัญญาณเอฟเฟกต์ความถี่ต่ำ ( LFEจำกัดที่ 120 Hz) จำนวน 16 ช่อง ช่องสัญญาณ "การเชื่อมต่อ" หรือช่องสัญญาณบทสนทนาสูงสุด 16 ช่อง และสตรีมข้อมูลสูงสุด 16 สตรีม คุณภาพเสียงสเตอริโอเป็นที่น่าพอใจตามข้อกำหนดที่ไม่สูงมากนักที่ 96 kbit/s ใน โหมด สเตอริโอร่วมอย่างไรก็ตามความโปร่งใสระดับไฮไฟต้องการอัตราข้อมูลอย่างน้อย 128 kbit/s ( VBR ) การทดสอบเสียง MPEG-4 แสดงให้เห็นว่า AAC ตรงตามข้อกำหนดที่เรียกว่า "โปร่งใส" สำหรับITUที่ 128 kbit/s สำหรับสเตอริโอ และ 384 kbit/s สำหรับเสียง5.1 [ 19 ] AAC ใช้เฉพาะ อัลกอริ ทึมการแปลงโคไซน์แบบไม่ต่อเนื่องที่ดัดแปลง (MDCT) ทำให้มีประสิทธิภาพการบีบอัดสูงกว่า MP3 ซึ่งใช้อัลกอริทึมการเข้ารหัสแบบไฮบริดที่เป็นส่วนหนึ่งของ MDCT และส่วนหนึ่งของFFT [ 8 ]

ประวัติศาสตร์

พื้นหลัง

การแปลงโคไซน์แบบไม่ต่อเนื่อง (DCT) ซึ่งเป็นรูปแบบหนึ่งของการเข้ารหัสแบบแปลงสำหรับการบีบอัดแบบสูญเสียข้อมูลได้รับการเสนอโดยNasir Ahmedในปี 1972 และได้รับการพัฒนาโดย Ahmed ร่วมกับ T. Natarajan และKR Raoในปี 1973 โดยเผยแพร่ผลลัพธ์ของพวกเขาในปี 1974 [ 20 ] [ 21 ] [ 22 ]ซึ่งนำไปสู่การพัฒนาการแปลงโคไซน์แบบไม่ต่อเนื่องที่ดัดแปลง (MDCT) ซึ่งเสนอโดย JP Princen, AW Johnson และ AB Bradley ในปี 1987 [ 23 ]ตามงานก่อนหน้านี้ของ Princen และ Bradley ในปี 1986 [ 24 ]มาตรฐานการเข้ารหัสเสียงMP3 ที่เปิดตัวในปี 1992 ใช้อัลกอริทึมการเข้ารหัสแบบไฮบริดซึ่งเป็นส่วนหนึ่งของ MDCT และส่วนหนึ่งของFFT [ 25 ] AACใช้อัลกอริทึม MDCT อย่างเดียว ทำให้มีประสิทธิภาพการบีบอัดสูงกว่า MP3 [ 8 ]การพัฒนาก้าวหน้าไปอีกขั้นเมื่อLars Liljerydนำเสนอวิธีการที่ลดปริมาณข้อมูลที่จำเป็นในการจัดเก็บรูปแบบดิจิทัลของเพลงหรือคำพูดลงอย่างมาก[ 26 ]

AAC ได้รับการพัฒนาโดยความร่วมมือระหว่างAT&T Labs , Dolby , Fraunhofer IIS (ผู้พัฒนา MP3) และSony Corporation [ 3 ] AACได้รับการประกาศอย่างเป็นทางการให้เป็นมาตรฐานสากลโดยMoving Picture Experts Groupในเดือนเมษายน พ.ศ. 2540 โดยระบุไว้ทั้งในส่วนที่ 7 ของมาตรฐาน MPEG-2และส่วนย่อยที่ 4 ในส่วนที่ 3 ของมาตรฐาน MPEG-4 [ 27 ] บริษัท อื่นๆ ได้มีส่วน ร่วมในการพัฒนาในภายหลัง ได้แก่Bell Labs , LG Electronics , NEC , Nokia , Panasonic , ETRI , JVC Kenwood , Philips , MicrosoftและNTT [ 28 ] [ 29 ]

การกำหนดมาตรฐาน

ในปี พ.ศ. 2540 AAC ได้ถูกนำมาใช้ครั้งแรกในชื่อMPEG-2 Part 7ซึ่งมีชื่ออย่างเป็นทางการว่าISO / IEC 13818-7:1997ส่วนนี้ของ MPEG-2 เป็นส่วนใหม่ เนื่องจาก MPEG-2 ได้รวมMPEG-2 Part 3 ไว้แล้ว ซึ่งมีชื่ออย่างเป็นทางการว่าISO/IEC 13818-3: MPEG-2 BC (Backwards Compatible) [ 30 ] [ 31 ]ดังนั้น MPEG-2 Part 7 จึงเป็นที่รู้จักกันในชื่อMPEG-2 NBC (Non-Backward Compatible) เนื่องจากไม่สามารถใช้งานร่วมกับรูปแบบเสียงMPEG-1 ( MP1 , MP2และMP3 ) ได้[ 30 ] [ 32 ] [ 33 ] [ 34 ]

MPEG-2 Part 7 กำหนดโปรไฟล์ไว้ 3 แบบ ได้แก่ โปรไฟล์ ความซับซ้อนต่ำ (AAC-LC / LC-AAC), โปรไฟล์ หลัก (AAC Main) และ โปรไฟล์ อัตราการสุ่มตัวอย่างที่ปรับขนาดได้ (AAC-SSR) โปรไฟล์ AAC-LC ประกอบด้วยรูปแบบพื้นฐานที่คล้ายกับรูปแบบการเข้ารหัส Perceptual Audio Coding (PAC) ของ AT&T มาก[ 35 ] [ 36 ] [ 37 ]โดยมีการเพิ่มการปรับรูปร่างสัญญาณรบกวนชั่วคราว (TNS) [ 38 ]หน้าต่างKaiser (อธิบายไว้ด้านล่าง) ตัว ควอนไทเซอร์ แบบไม่สม่ำเสมอ และการปรับปรุงรูปแบบบิตสตรีมเพื่อรองรับช่องสัญญาณสเตอริโอได้สูงสุด 16 ช่อง ช่องสัญญาณโมโน 16 ช่อง ช่องสัญญาณเอฟเฟกต์ความถี่ต่ำ (LFE) 16 ช่อง และช่องสัญญาณคำบรรยาย 16 ช่องในบิตสตรีมเดียว โปรไฟล์หลักจะเพิ่มชุดตัวทำนายแบบวนซ้ำที่คำนวณในแต่ละแท็ปของฟิลเตอร์แบงค์ SSR ใช้ฟิลเตอร์แบงค์ PQMF 4 แบนด์ตามด้วยฟิลเตอร์แบงค์ที่สั้นกว่าอีก 4 ชุด เพื่อให้สามารถปรับขนาดอัตราการสุ่มตัวอย่าง ได้

ในปี 1999 มาตรฐาน MPEG-2 Part 7 ได้รับการปรับปรุงและรวมอยู่ในตระกูลมาตรฐาน MPEG-4 และกลายเป็นที่รู้จักในชื่อMPEG-4 Part 3 , MPEG-4 AudioหรือISO/IEC 14496-3:1999การปรับปรุงครั้งนี้รวมถึงการปรับปรุงหลายประการ หนึ่งในนั้นคือการเพิ่มประเภทออบเจ็กต์เสียง (Audio Object Types ) ซึ่งใช้เพื่อให้สามารถทำงานร่วมกันได้กับรูปแบบเสียงอื่นๆ ที่หลากหลาย เช่นTwinVQ , CELP , HVXC , การสังเคราะห์เสียงพูดและMPEG-4 Structured Audioอีกหนึ่งสิ่งที่เพิ่มเข้ามาที่น่าสนใจในมาตรฐาน AAC เวอร์ชันนี้คือ การแทนที่เสียงรบกวนเชิงรับรู้ ( Perceptual Noise Substitutionหรือ PNS) ในส่วนนี้ โปรไฟล์ AAC (AAC-LC, AAC Main และ AAC-SSR) จะถูกรวมเข้ากับการแทนที่เสียงรบกวนเชิงรับรู้และถูกกำหนดไว้ในมาตรฐานเสียง MPEG-4 ในฐานะประเภทออบเจ็กต์เสียง[ 39 ]ประเภทออบเจ็กต์เสียง MPEG-4 ถูกรวมเข้าด้วยกันในโปรไฟล์เสียง MPEG-4 สี่โปรไฟล์ ได้แก่ หลัก (ซึ่งรวมถึงประเภทออบเจ็กต์เสียง MPEG-4 ส่วนใหญ่), ปรับขนาดได้ (AAC LC, AAC LTP, CELP, HVXC, TwinVQ, Wavetable Synthesis, TTSI), เสียงพูด (CELP, HVXC, TTSI) และการสังเคราะห์อัตราต่ำ (Wavetable Synthesis, TTSI) [ 39 ] [ 40 ]

ซอฟต์แวร์อ้างอิงสำหรับ MPEG-4 ส่วนที่ 3 ได้รับการกำหนดไว้ใน MPEG-4 ส่วนที่ 5 และบิตสตรีมที่สอดคล้องกันได้รับการกำหนดไว้ใน MPEG-4 ส่วนที่ 4 MPEG-4 Audio ยังคงเข้ากันได้กับ MPEG-2 ส่วนที่ 7 [ 41 ]

MPEG-4 Audio เวอร์ชัน 2 (ISO/IEC 14496-3:1999/Amd 1:2000) ได้กำหนดประเภทวัตถุเสียงใหม่ ได้แก่ ประเภทวัตถุ AAC ที่มีความล่าช้าต่ำ ( AAC-LD ) ประเภทวัตถุการเข้ารหัสเลขคณิตแบบแบ่งบิต (BSAC) การเข้ารหัสเสียงแบบพาราเมตริกโดยใช้ฮาร์มอนิกและแต่ละบรรทัด รวมถึงเวอร์ชันวัตถุที่ทนต่อสัญญาณรบกวนและข้อผิดพลาด (ER) [ 42 ] [ 43 ] [ 44 ]นอกจากนี้ยังได้กำหนดโปรไฟล์เสียงใหม่สี่โปรไฟล์ ได้แก่ โปรไฟล์เสียงคุณภาพสูง โปรไฟล์เสียงที่มีความล่าช้าต่ำ โปรไฟล์เสียงธรรมชาติ และโปรไฟล์การเชื่อมต่อเครือข่ายเสียงเคลื่อนที่[ 45 ]

โปรไฟล์HE-AAC (AAC LC พร้อมSBR ) และโปรไฟล์ AAC (AAC LC) ได้รับการกำหนดมาตรฐานครั้งแรกใน ISO/IEC 14496-3:2001/Amd 1:2003 [ 46 ]โปรไฟล์ HE-AAC v2 (AAC LC พร้อม SBR และ Parametric Stereo) ได้รับการกำหนดครั้งแรกใน ISO/IEC 14496-3:2005/Amd 2:2006 [ 47 ] [ 48 ] [ 49 ]ประเภทออบเจ็กต์เสียง Parametric Stereo ที่ใช้ใน HE-AAC v2 ได้รับการกำหนดครั้งแรกใน ISO/IEC 14496-3:2001/Amd 2:2004 [ 50 ] [ 51 ] [ 52 ]

มาตรฐาน AAC เวอร์ชันปัจจุบันได้รับการกำหนดไว้ใน ISO/IEC 14496-3:2019 [ 53 ]

AAC+ v2 ยังได้รับการกำหนดมาตรฐานโดยETSI ( European Telecommunications Standards Institute ) เป็น TS 102005 อีก ด้วย [ 50 ]

มาตรฐาน MPEG -4 Part 3ยังมีวิธีการบีบอัดเสียงแบบอื่น ๆ อีกด้วย ซึ่งรวมถึงรูปแบบการบีบอัดแบบไม่สูญเสียข้อมูล (lossless compression formats) เสียงสังเคราะห์ (synthetic audio) และรูปแบบการบีบอัดอัตราบิตต่ำ (low bit-rate compression formats) ที่โดยทั่วไปใช้สำหรับเสียงพูด

ข้อดีของ AAC เมื่อเทียบกับ MP3

การเข้ารหัสเสียงขั้นสูง (Advanced Audio Coding) ถูกออกแบบมาเพื่อทดแทนเลเยอร์เสียง MPEG-1 ระดับ 3หรือที่รู้จักกันในชื่อรูปแบบ MP3 ซึ่งกำหนดโดยISO / IECในมาตรฐาน 11172-3 ( MPEG-1 Audio) และ 13818-3 ( MPEG-2 Audio)

การปรับปรุงต่างๆ ได้แก่:

  • มีอัตราการสุ่มตัวอย่างที่หลากหลายกว่า(ตั้งแต่ 8 ถึง 96 kHz ) เมื่อเทียบกับ MP3 (16 ถึง 48 kHz)
  • สูงสุด 48 ช่องสัญญาณ (MP3 รองรับได้สูงสุด 2 ช่องสัญญาณในโหมด MPEG-1 และสูงสุด5.1ช่องสัญญาณในโหมด MPEG-2)
  • รองรับความละเอียดเสียงสูงสุด 24 บิต
  • อัตราบิตที่ไม่แน่นอนและความยาวเฟรมที่แปรผันได้ อัตราบิตคงที่แบบมาตรฐานพร้อมบิตรีซอร์ส;
  • อัตราบิตที่สูงขึ้น (สูงสุด 512 Kbps ในสองช่องสัญญาณ); [ 54 ]
  • ประสิทธิภาพสูงกว่าและฟิลเตอร์แบงค์ ที่เรียบง่ายกว่า AAC ใช้MDCT (modified discrete cosine transform) บริสุทธิ์ แทนที่จะใช้การเข้ารหัสแบบไฮบริดของ MP3 (ซึ่งเป็นการผสมผสานระหว่าง MDCT และFFT )
  • ประสิทธิภาพการเข้ารหัสที่สูงขึ้นสำหรับสัญญาณคงที่ (AAC ใช้ขนาดบล็อก 1024 หรือ 960 ตัวอย่าง ทำให้การเข้ารหัสมีประสิทธิภาพมากกว่าบล็อก 576 ตัวอย่างของ MP3)
  • ความแม่นยำในการเข้ารหัสที่สูงขึ้นสำหรับสัญญาณชั่วคราว (AAC ใช้ขนาดบล็อก 128 หรือ 120 ตัวอย่าง ทำให้การเข้ารหัสแม่นยำกว่าบล็อก 192 ตัวอย่างของ MP3)
  • ความเป็นไปได้ในการใช้ฟังก์ชันหน้าต่างที่ได้มาจาก Kaiser-Bessel เพื่อกำจัด การรั่วไหลของสเปกตรัมโดยแลกกับการขยายความกว้างของส่วนหลัก
  • สามารถจัดการกับความถี่เสียงที่สูงกว่า 16 kHz ได้ดีขึ้นมาก
  • ระบบเสียงสเตอริโอแบบข้อต่อที่ยืดหยุ่นกว่า(สามารถใช้วิธีการที่แตกต่างกันในช่วงความถี่ต่างๆ ได้)
  • โมดูลเพิ่มเติม (เครื่องมือ) ที่เพิ่มเข้ามาเพื่อเพิ่มประสิทธิภาพการบีบอัด ได้แก่TNS , การทำนายย้อนกลับ, การแทนที่สัญญาณรบกวนเชิงรับรู้ (PNS) เป็นต้น โมดูลเหล่านี้สามารถนำมาผสมผสานกันเพื่อสร้างรูปแบบการเข้ารหัสที่แตกต่างกันได้

โดยรวมแล้ว รูปแบบ AAC ช่วยให้นักพัฒนาออกแบบตัวแปลงสัญญาณได้ยืดหยุ่นกว่า MP3 และแก้ไขข้อผิดพลาดในการออกแบบหลายอย่างที่เกิดขึ้นในข้อกำหนดเสียง MPEG-1 ดั้งเดิม ความยืดหยุ่นที่เพิ่มขึ้นนี้มักนำไปสู่กลยุทธ์การเข้ารหัสพร้อมกันที่มากขึ้น และส่งผลให้การบีบอัดมีประสิทธิภาพมากขึ้น โดยเฉพาะอย่างยิ่งในอัตราบิตต่ำมาก ซึ่งการเข้ารหัสสเตอริโอที่เหนือกว่า การเข้ารหัส MDCT บริสุทธิ์ และขนาดหน้าต่างการแปลงที่ดีกว่า ทำให้ MP3 ไม่สามารถแข่งขันได้

การรับเลี้ยงบุตรบุญธรรม

แม้ว่ารูปแบบ MP3 จะได้รับการสนับสนุนจากฮาร์ดแวร์และซอฟต์แวร์เกือบทุกระบบ โดยส่วนใหญ่เป็นเพราะ MP3 เป็นรูปแบบที่ได้รับความนิยมในช่วงไม่กี่ปีแรกของการแบ่งปัน /เผยแพร่ไฟล์เพลงอย่างแพร่หลายผ่านทางอินเทอร์เน็ต แต่ AAC ก็ยังคงเป็นคู่แข่งที่แข็งแกร่งเนื่องจากได้รับการสนับสนุนจากอุตสาหกรรมอย่างแน่วแน่[ 55 ]เนื่องจากการครอบงำของ MP3 การนำ AAC มาใช้จึงค่อนข้างช้าในตอนแรก การนำไปใช้ในเชิงพาณิชย์ครั้งแรกเกิดขึ้นในปี 1997 เมื่อAT&T Labs (ผู้ร่วมเป็นเจ้าของสิทธิบัตร AAC) เปิดตัวร้านขายเพลงดิจิทัลที่มีเพลงที่เข้ารหัสในรูปแบบ MPEG-2 AAC [ 56 ] HomeBoy สำหรับ Windows เป็นหนึ่งในโปรแกรมเข้ารหัสและถอดรหัส AAC รุ่นแรกๆ ที่มีให้บริการ[ 57 ]

Dolby Laboratoriesเข้ามาดูแลการออกใบอนุญาต AAC ในปี 2000 [ 56 ] Dolby เปิดตัวโมเดลการออกใบอนุญาตใหม่ในปี 2002 ในขณะที่Nokiaกลายเป็นผู้ร่วมออกใบอนุญาตรายที่ห้าของรูปแบบนี้[ 58 ] Dolby เองก็ทำการตลาดรูปแบบการเข้ารหัสของตนเองเช่นกัน คือDolby AC- 3

Nokia เริ่มรองรับการเล่น AAC บนอุปกรณ์ต่างๆ ตั้งแต่ปี 2001 [ 59 ]แต่การที่ Apple Computer ใช้ AAC แต่เพียงผู้เดียวสำหรับiTunes Store ของพวกเขานั้น ทำให้ AAC ได้รับความสนใจอย่างรวดเร็ว ในไม่ช้า รูปแบบนี้ก็ได้รับการสนับสนุนจาก Sony สำหรับPlayStation Portable ของพวกเขา (แม้ว่า Sony จะยังคงส่งเสริมATRAC ที่เป็นกรรมสิทธิ์ของตนต่อไป ) และโทรศัพท์มือถือที่เน้นด้านดนตรีจากSony Ericssonเริ่มต้นด้วยSony Ericsson W800 [ 60 ] รูปแบบWindows Media Audio (WMA) จาก Microsoft ถือเป็นคู่แข่งหลักของ AAC [ 61 ]

ภายในปี 2017 AAC ถือเป็น มาตรฐานอุตสาหกรรม โดยพฤตินัยสำหรับเสียงที่มีการสูญเสียข้อมูล[ 62 ]

ฟังก์ชันการทำงาน

AAC เป็น อัลกอริธึมการเข้ารหัส เสียงแบบบรอดแบนด์ที่ใช้กลยุทธ์การเข้ารหัสหลักสองประการเพื่อลดปริมาณข้อมูลที่จำเป็นในการแสดงเสียงดิจิทัลคุณภาพสูงได้อย่างมาก ได้แก่ การกำจัดส่วนประกอบสัญญาณที่ไม่มีความสำคัญต่อการรับรู้ และการกำจัดส่วนที่ซ้ำซ้อนในสัญญาณเสียงที่เข้ารหัส

กระบวนการเข้ารหัสเริ่มต้นด้วยการแปลงสัญญาณจากโดเมนเวลาเป็นโดเมนความถี่โดยใช้การแปลงโคไซน์แบบไม่ต่อเนื่องที่แก้ไขแล้วไปข้างหน้า (MDCT) ซึ่งทำได้โดยใช้ฟิลเตอร์แบงค์ที่รับตัวอย่างเวลาจำนวนที่เหมาะสมและแปลงเป็นตัวอย่างความถี่ จากนั้นสัญญาณในโดเมนความถี่จะถูกควอนไทซ์ตาม แบบจำลอง ทางจิตวิทยาเสียงและเข้ารหัส รหัสแก้ไขข้อผิดพลาดภายในจะถูกเพิ่มเข้าไปในภายหลังก่อนที่จะจัดเก็บหรือส่งสัญญาณ เพื่อป้องกันตัวอย่างที่เสียหาย จะมีการใช้การใช้งานที่ทันสมัยของอัลกอริธึม Luhn mod Nกับแต่ละเฟรม[ 63 ]

มาตรฐานเสียง MPEG -4ไม่ได้กำหนดรูปแบบการบีบอัดที่มีประสิทธิภาพสูงเพียงรูปแบบเดียวหรือเพียงไม่กี่รูปแบบ แต่เป็นชุดเครื่องมือที่ซับซ้อนเพื่อดำเนินการต่างๆ มากมาย ตั้งแต่การเข้ารหัสเสียงพูดอัตราบิตต่ำไปจนถึงการเข้ารหัสเสียงคุณภาพสูงและการสังเคราะห์ดนตรี

  • ตระกูลอัลกอริธึมการเข้ารหัสเสียง MPEG -4ครอบคลุมตั้งแต่การเข้ารหัสเสียงพูดอัตราบิตต่ำ (ต่ำสุดที่ 2 กิโลบิต/วินาที) ไปจนถึงการเข้ารหัสเสียงคุณภาพสูง (ที่ 64 กิโลบิต/วินาทีต่อช่องสัญญาณขึ้นไป)
  • AAC รองรับความถี่ในการสุ่มตัวอย่างระหว่าง 8 kHz ถึง 96 kHz และจำนวนช่องสัญญาณใดก็ได้ระหว่าง 1 ถึง 48 ช่อง
  • แตกต่างจาก MP3 ที่ใช้ฟิลเตอร์แบบไฮบริด AAC ใช้การแปลงโคไซน์แบบไม่ต่อเนื่องที่ปรับปรุงแล้ว ( MDCT ) ร่วมกับความยาวหน้าต่างที่เพิ่มขึ้นเป็น 1024 หรือ 960 จุด

ตัวเข้ารหัส AAC สามารถสลับระหว่างบล็อก MDCT เดียวที่มีความยาว 1024 จุด หรือ 8 บล็อกที่มี 128 จุด (หรือระหว่าง 960 จุดและ 120 จุด ตามลำดับ) ได้อย่างไดนามิก

  • หากเกิดการเปลี่ยนแปลงของสัญญาณหรือปรากฏการณ์ชั่วคราว จะเลือกช่วงเวลาสั้นๆ 8 ช่วง โดยแต่ละช่วงมีจุดข้อมูล 128/120 จุด เพื่อให้ได้ความละเอียดเชิงเวลาที่ดีกว่า
  • โดยปกติแล้วจะใช้หน้าต่างขนาด 1024 จุด/960 จุดที่ยาวกว่า เนื่องจากความละเอียดความถี่ที่เพิ่มขึ้นช่วยให้สามารถสร้างแบบจำลองทางจิตวิทยาการได้ยินที่ซับซ้อนยิ่งขึ้น ส่งผลให้ประสิทธิภาพการเข้ารหัสดีขึ้น

การเข้ารหัสแบบโมดูลาร์

AAC ใช้แนวทางแบบแยกส่วนในการเข้ารหัส โดยขึ้นอยู่กับความซับซ้อนของบิตสตรีมที่จะเข้ารหัส ประสิทธิภาพที่ต้องการ และผลลัพธ์ที่ยอมรับได้ ผู้พัฒนาอาจสร้างโปรไฟล์เพื่อกำหนดว่าต้องการใช้เครื่องมือใดในชุดเครื่องมือเฉพาะสำหรับแอปพลิเคชันนั้นๆ

มาตรฐาน MPEG-2 Part 7 (การเข้ารหัสเสียงขั้นสูง) ได้รับการเผยแพร่ครั้งแรกในปี พ.ศ. 2540 และมีโปรไฟล์เริ่มต้นสามแบบ: [ 1 ] [ 64 ]

  • ความซับซ้อนต่ำ (LC)  – รูปแบบที่ง่ายที่สุดและเป็นที่นิยมใช้และได้รับการสนับสนุนอย่างกว้างขวางที่สุด
  • โปรไฟล์หลัก (Main)  – เหมือนกับโปรไฟล์ LC แต่เพิ่มการทำนายย้อนหลังเข้ามา
  • อัตราการสุ่มตัวอย่างที่ปรับขนาดได้ (Scalable Sample Rate หรือ SSR)หรือเรียกอีกอย่างว่า อัตราการสุ่มตัวอย่างที่ปรับขนาดได้ (Sample-Rate Scalable หรือ SRS)

มาตรฐาน MPEG-4 Part 3 (MPEG-4 Audio) ได้กำหนดเครื่องมือการบีบอัดใหม่ต่างๆ (หรือที่เรียกว่าAudio Object Types ) และการใช้งานในโปรไฟล์ใหม่เอี่ยม AAC ไม่ได้ถูกใช้ในโปรไฟล์ MPEG-4 Audio บางโปรไฟล์ โปรไฟล์ MPEG-2 Part 7 AAC LC, โปรไฟล์ AAC Main และโปรไฟล์ AAC SSR ถูกรวมเข้ากับการแทนที่เสียงรบกวนเชิงรับรู้ (Perceptual Noise Substitution) และถูกกำหนดไว้ในมาตรฐาน MPEG-4 Audio เป็น Audio Object Types (ภายใต้ชื่อ AAC LC, AAC Main และ AAC SSR) สิ่งเหล่านี้ถูกรวมเข้ากับ Object Types อื่นๆ ในโปรไฟล์ MPEG-4 Audio [ 39 ]นี่คือรายการของโปรไฟล์เสียงบางส่วนที่กำหนดไว้ในมาตรฐาน MPEG-4: [ 47 ] [ 65 ]

  • โปรไฟล์เสียงหลัก (Main Audio Profile  ) – กำหนดขึ้นในปี 1999 โดยใช้ประเภทออบเจ็กต์เสียง MPEG-4 ส่วนใหญ่ (AAC Main, AAC-LC, AAC-SSR, AAC-LTP, AAC Scalable, TwinVQ, CELP, HVXC, TTSI, Main synthesis)
  • โปรไฟล์เสียงแบบปรับขนาดได้ (Scalable Audio Profile)  – กำหนดขึ้นในปี 1999 ใช้มาตรฐาน AAC-LC, AAC-LTP, AAC Scalable, TwinVQ, CELP, HVXC และ TTSI
  • โปรไฟล์เสียงพูด  – กำหนดขึ้นในปี 1999 โดยใช้ CELP, HVXC, TTSI
  • โปรไฟล์เสียงสังเคราะห์  – กำหนดขึ้นในปี 1999, TTSI, การสังเคราะห์หลัก
  • โปรไฟล์เสียงคุณภาพสูง  – กำหนดขึ้นในปี 2000 ใช้มาตรฐาน AAC-LC, AAC-LTP, AAC Scalable, CELP, ER-AAC-LC, ER-AAC-LTP, ER-AAC Scalable และ ER-CELP
  • โปรไฟล์เสียงดีเลย์ต่ำ  – กำหนดไว้ในปี 2000 ใช้ CELP, HVXC, TTSI, ER-AAC-LD, ER-CELP, ER-HVXC
  • AAC v2 ที่มีความล่าช้าต่ำ  – กำหนดไว้ในปี 2012 ใช้ AAC-LD, AAC-ELD และ AAC-ELDv2 [ 66 ]
  • โปรไฟล์การทำงานทางอินเทอร์เน็ตด้วยเสียงบนมือถือ – กำหนดไว้ในปี 2000 ใช้ ER-AAC-LC, ER-AAC-Scalable, ER-TwinVQ, ER-BSAC, ER-AAC-LD
  • โปรไฟล์ AAC  – กำหนดขึ้นในปี 2546 โดยใช้ AAC-LC
  • โปรไฟล์ AAC ประสิทธิภาพสูง  – กำหนดขึ้นในปี 2546 โดยใช้ AAC-LC และ SBR
  • โปรไฟล์ AAC v2 ประสิทธิภาพสูง  – กำหนดขึ้นในปี 2549 โดยใช้ AAC-LC, SBR และ PS
  • AAC ประสิทธิภาพสูงแบบขยาย xHE-AAC  – กำหนดนิยามในปี 2012 ใช้USAC

หนึ่งในการปรับปรุงมากมายใน MPEG-4 Audio คือประเภทวัตถุที่เรียกว่าการทำนายระยะยาว (LTP) ซึ่งเป็นการปรับปรุงโปรไฟล์หลักโดยใช้ตัวทำนายล่วงหน้าที่มีความซับซ้อนในการคำนวณต่ำกว่า[ 41 ]

ชุดเครื่องมือป้องกันข้อผิดพลาด AAC

การใช้ระบบป้องกันข้อผิดพลาดช่วยให้สามารถแก้ไขข้อผิดพลาดได้ในระดับหนึ่ง โดยปกติแล้วรหัสแก้ไขข้อผิดพลาดจะถูกนำไปใช้กับข้อมูลทั้งหมดอย่างเท่าเทียมกัน อย่างไรก็ตาม เนื่องจากส่วนต่างๆ ของข้อมูล AAC มีความไวต่อข้อผิดพลาดในการส่งแตกต่างกัน วิธีนี้จึงไม่ใช่แนวทางที่มีประสิทธิภาพมากนัก

ข้อมูล AAC สามารถแบ่งย่อยออกเป็นส่วนๆ ที่มีความไวต่อข้อผิดพลาดแตกต่างกันได้

  • สามารถใช้รหัสแก้ไขข้อผิดพลาดอิสระกับส่วนใดส่วนหนึ่งเหล่านี้ได้โดยใช้เครื่องมือป้องกันข้อผิดพลาด (EP) ที่กำหนดไว้ในมาตรฐานเสียง MPEG-4
  • ชุดเครื่องมือนี้มีฟังก์ชันแก้ไขข้อผิดพลาดสำหรับส่วนที่สำคัญที่สุดของข้อมูล เพื่อลดภาระการทำงานเพิ่มเติมให้น้อยที่สุด
  • ชุดเครื่องมือนี้สามารถใช้งานร่วมกับตัวถอดรหัส AAC รุ่นเก่าและรุ่นที่มีอยู่แล้วได้ ฟังก์ชันการแก้ไขข้อผิดพลาดส่วนใหญ่ของชุดเครื่องมือนี้ใช้หลักการกระจายข้อมูลเกี่ยวกับสัญญาณเสียงให้สม่ำเสมอมากขึ้นในกระแสข้อมูล

AAC ที่ทนต่อข้อผิดพลาด (ER)

เทคนิคความทนทานต่อข้อผิดพลาด (Error Resilience: ER) สามารถนำมาใช้เพื่อทำให้โครงสร้างการเข้ารหัสมีความแข็งแกร่งต่อข้อผิดพลาดมากขึ้น

สำหรับ AAC นั้น ได้มีการพัฒนาและกำหนดวิธีการที่ปรับแต่งมาโดยเฉพาะ 3 วิธีในมาตรฐาน MPEG-4 Audio

  • การเรียงลำดับรหัสคำฮัฟฟ์แมนใหม่ (HCR)เพื่อหลีกเลี่ยงการแพร่กระจายข้อผิดพลาดภายในข้อมูลสเปกตรัม
  • สมุดรหัสเสมือน (VCB11)สำหรับตรวจจับข้อผิดพลาดร้ายแรงในข้อมูลสเปกตรัม
  • รหัสความยาวแปรผันแบบย้อนกลับได้ (RVLC)เพื่อลดการแพร่กระจายของข้อผิดพลาดภายในข้อมูลตัวประกอบมาตราส่วน

AAC ความล่าช้าต่ำ

มาตรฐานการเข้ารหัสเสียงMPEG-4 Low Delay ( AAC-LD ), Enhanced Low Delay (AAC-ELD) และEnhanced Low Delay v2 (AAC-ELDv2) ตามที่กำหนดไว้ใน ISO/IEC 14496-3:2009 และ ISO/IEC 14496-3:2009/Amd 3 ได้รับการออกแบบมาเพื่อรวมข้อดีของการเข้ารหัสเสียงแบบรับรู้เข้ากับความล่าช้าต่ำที่จำเป็นสำหรับการสื่อสารสองทาง โดยได้มาจากรูปแบบ MPEG-2 Advanced Audio Coding (AAC) อย่างใกล้ชิด[ 67 ] [ 68 ] [ 69 ] GSMAแนะนำ AAC-ELD เป็นตัวแปลงสัญญาณเสียงแบบซูเปอร์ไวด์แบนด์ในโปรไฟล์ IMS สำหรับบริการการประชุมทางวิดีโอความละเอียดสูง (HDVC) [ 70 ]

การอนุญาตและการจดสิทธิบัตร

ผู้ใช้ไม่จำเป็นต้องมีใบอนุญาตหรือชำระเงินใดๆ เพื่อสตรีมหรือเผยแพร่เสียงในรูปแบบ AAC [ 71 ]เหตุผลนี้เพียงอย่างเดียวอาจทำให้ AAC เป็นรูปแบบที่น่าสนใจกว่าในการเผยแพร่เสียงมากกว่า MP3 ซึ่งเป็นรูปแบบก่อนหน้า โดยเฉพาะอย่างยิ่งสำหรับการสตรีมเสียง (เช่น วิทยุอินเทอร์เน็ต) ขึ้นอยู่กับกรณีการใช้งาน

อย่างไรก็ตาม จำเป็นต้องมีใบอนุญาตสิทธิบัตรสำหรับผู้ผลิตหรือผู้พัฒนาตัว แปลงสัญญาณ AAC "สำหรับผู้ใช้ปลายทาง" ทุกราย[ 72 ]เงื่อนไข (ตามที่เปิดเผยต่อ SEC) ใช้การกำหนดราคาต่อหน่วย ในกรณีของซอฟต์แวร์ คอมพิวเตอร์แต่ละเครื่องที่ใช้งานซอฟต์แวร์จะถือเป็น "หน่วย" แยกต่างหาก[ 73 ]

ในอดีต การใช้งาน ซอฟต์แวร์โอเพนซอร์สและฟรีเช่นFFmpegและFAACมักจะแจกจ่ายใน รูป แบบซอร์สโค้ด เท่านั้น เพื่อไม่ให้ "จัดหา" โคเดก AAC ในรูปแบบอื่น อย่างไรก็ตาม FFmpeg ได้ผ่อนปรนเรื่องสิทธิบัตรมากขึ้นแล้ว โดยเวอร์ชัน "gyan.dev" ที่แนะนำโดยเว็บไซต์อย่างเป็นทางการนั้นมีโคเดก AAC อยู่ด้วย และหน้ากฎหมายของ FFmpeg ระบุว่าการปฏิบัติตามกฎหมายสิทธิบัตรเป็นความรับผิดชอบของผู้ใช้[ 74 ] (ดูด้านล่างในหัวข้อ ผลิตภัณฑ์ที่รองรับ AAC, ซอฟต์แวร์) โครงการ Fedoraซึ่งเป็นชุมชนที่ได้รับการสนับสนุนจากRed Hatได้นำเข้า "ไลบรารีโคเดก AAC Fraunhofer FDK เวอร์ชันที่แก้ไขโดยบุคคลที่สามสำหรับ Android" ไปยังที่เก็บข้อมูลเมื่อวันที่ 25 กันยายน 2018 [ 75 ]และได้เปิดใช้งานตัวเข้ารหัสและถอดรหัส AAC ดั้งเดิมของ FFmpeg สำหรับแพ็คเกจ ffmpeg-free เมื่อวันที่ 31 มกราคม 2023 [ 76 ]

ผู้ถือสิทธิบัตร AAC ได้แก่Bell Labs , Dolby , ETRI , Fraunhofer , JVC Kenwood , LG Electronics , Microsoft , NEC , NTT (และบริษัทในเครือNTT Docomo ), Panasonic , PhilipsและSony [ 28 ] [ 29 ] จากรายการสิทธิบัตรจากข้อกำหนดของ SEC สิทธิบัตร AAC พื้นฐานฉบับสุดท้ายจะหมดอายุในปี 2028 และสิทธิบัตรฉบับสุดท้ายสำหรับส่วนขยาย AAC ทั้งหมดที่กล่าวถึงจะหมดอายุในปี 2031 [ 77 ]

การต่อเติมและปรับปรุง

มีการเพิ่มส่วนขยายบางอย่างเข้าไปในมาตรฐาน AAC ฉบับแรก (ซึ่งกำหนดไว้ใน MPEG-2 Part 7 ในปี 1997):

  • การแทนที่สัญญาณรบกวนเชิงรับรู้ (Perceptual Noise Substitution หรือ PNS)ถูกเพิ่มเข้ามาในMPEG-4ในปี 1999 โดยอนุญาตให้เข้ารหัสสัญญาณรบกวนเป็นข้อมูลสุ่มเทียม
  • ตัวทำนายระยะยาว (LTP)เพิ่มเข้ามาใน MPEG-4 ในปี 1999 เป็นตัวทำนายล่วงหน้าที่มีความซับซ้อนในการคำนวณต่ำกว่า[ 41 ]
  • ความสามารถในการทนต่อข้อผิดพลาด (ER)ซึ่งเพิ่มเข้ามาใน MPEG-4 Audio เวอร์ชัน 2 ในปี 2000 ใช้สำหรับการขนส่งผ่านช่องสัญญาณที่มีข้อผิดพลาด[ 78 ]
  • AAC-LD (Low Delay) ซึ่งกำหนดขึ้นในปี 2000 ใช้สำหรับแอปพลิเคชันการสนทนาแบบเรียลไทม์
  • AAC ประสิทธิภาพสูง (HE-AAC)หรือที่รู้จักกันในชื่อ aacPlus v1 หรือ AAC+ คือการผสมผสานระหว่าง SBR (Spectral Band Replication)และ AAC LC ใช้สำหรับอัตราการส่งข้อมูลต่ำ กำหนดขึ้นในปี 2546
  • HE-AAC v2หรือที่รู้จักกันในชื่อ aacPlus v2, eAAC+ หรือ Enhanced aacPlus คือการผสมผสานระหว่าง Parametric Stereo (PS)และ HE-AAC ใช้สำหรับอัตราบิตที่ต่ำกว่าเดิม กำหนดขึ้นในปี 2004 และ 2006
  • xHE-AACขยายช่วงการทำงานของตัวแปลงสัญญาณจาก 12 เป็น 300 กิโลบิต/วินาที [ 79 ] [ 80 ]
  • MPEG-4 Scalable to Lossless (SLS)ยังไม่ได้เผยแพร่ [ 81 ]สามารถเสริมสตรีม AAC เพื่อให้มีตัวเลือกการถอดรหัสแบบไม่สูญเสียข้อมูล เช่น ในผลิตภัณฑ์ "HD-AAC" ของ Fraunhofer IIS
  • การเข้ารหัสเสียงแบบไม่สูญเสียคุณภาพ MPEG-4 (ALC)

รูปแบบคอนเทนเนอร์

นอกเหนือจากMP4 , 3GPและรูปแบบคอนเทนเนอร์อื่นๆ ที่ใช้รูปแบบไฟล์มีเดียพื้นฐาน ISOสำหรับการจัดเก็บไฟล์แล้ว ข้อมูลเสียง AAC ยังถูกบรรจุในไฟล์สำหรับมาตรฐาน MPEG-2 โดยใช้รูปแบบการแลกเปลี่ยนข้อมูลเสียง (ADIF) [ 82 ]ซึ่งประกอบด้วยส่วนหัวเดียวตามด้วยบล็อกข้อมูลเสียง AAC ดิบ[ 83 ]อย่างไรก็ตาม หากข้อมูลจะถูกสตรีมภายในสตรีมการขนส่ง MPEG-2 จะใช้รูปแบบการซิงโครไนซ์ตัวเองที่เรียกว่าสตรีมการขนส่งข้อมูลเสียง ( ADTS ) ซึ่งประกอบด้วยเฟรมหลายเฟรม โดยแต่ละเฟรมจะมีส่วนหัวตามด้วยข้อมูลเสียง AAC [ 82 ]รูปแบบไฟล์และแบบสตรีมมิ่งนี้ถูกกำหนดไว้ในMPEG-2 ส่วนที่ 7แต่ MPEG-4 ถือว่าเป็นเพียงข้อมูลเท่านั้น ดังนั้นตัวถอดรหัส MPEG-4 จึงไม่จำเป็นต้องรองรับรูปแบบใดรูปแบบหนึ่ง[ 82 ]คอนเทนเนอร์เหล่านี้ รวมถึงสตรีม AAC ดิบ อาจมีนามสกุลไฟล์ .aac MPEG-4 Part 3ยังกำหนดรูปแบบการซิงโครไนซ์ตัวเองที่เรียกว่า Low Overhead Audio Stream (LOAS) ซึ่งไม่เพียงแต่รวม AAC เท่านั้น แต่ยังรวมถึงรูปแบบการบีบอัดเสียง MPEG-4 ใดๆ เช่นTwinVQและALSด้วย รูปแบบนี้ถูกกำหนดไว้สำหรับการใช้งานในสตรีมการขนส่ง DVB เมื่อตัวเข้ารหัสใช้ส่วนขยาย AAC แบบSBRหรือแบบสเตอริโอพาราเมตริกอย่างไรก็ตาม รูปแบบนี้ถูกจำกัดไว้ที่สตรีม AAC เดียวที่ไม่มัลติเพล็กซ์เท่านั้น รูปแบบนี้ยังถูกเรียกว่า Low Overhead Audio Transport Multiplex (LATM) ซึ่งเป็นเพียงเวอร์ชันสตรีมหลายแบบสลับกันของ LOAS [ 82 ]

ตัวเข้ารหัสและตัวถอดรหัส

เครื่องมือ

แอปเปิล AAC

ตัวเข้ารหัส AAC ของApple เดิมเป็นส่วนหนึ่งของเฟรมเวิร์กสื่อ QuickTimeแต่ปัจจุบันเป็นส่วนหนึ่งของ Audio Toolbox แล้ว

FAAC และ FAAD2

FAAC และ FAAD2 ย่อมาจาก Freeware Advanced Audio Coder และ Decoder 2 ตามลำดับ FAAC รองรับประเภทออบเจ็กต์เสียง LC, Main และ LTP [ 84 ] FAAD2 รองรับประเภทออบเจ็กต์เสียง LC, Main, LTP, SBR และ PS [ 85 ]แม้ว่า FAAD2 จะเป็นซอฟต์แวร์ฟรีแต่ FAAC ไม่ใช่ซอฟต์แวร์ฟรี

Fraunhofer FDK AAC

ตัวเข้ารหัส/ถอดรหัสแบบโอเพนซอร์สที่พัฒนาโดยFraunhofer ซึ่งรวมอยู่ใน Androidได้ถูกพอร์ตไปยังแพลตฟอร์มอื่นแล้ว ตัวเข้ารหัส AAC ดั้งเดิมของ FFmpeg ไม่รองรับ HE-AAC และ HE-AACv2 แต่ GPL 2.0+ ของ ffmpeg ไม่เข้ากันกับ FDK AAC ดังนั้น ffmpeg ที่ใช้ libfdk-aac จึงไม่สามารถแจกจ่ายต่อได้ ตัวเข้ารหัส QAAC ที่ใช้ Core Media Audio ของ Apple ยังคงมีคุณภาพสูงกว่า FDK

FFmpeg และ Libav

ตัวเข้ารหัส AAC ดั้งเดิมที่สร้างขึ้นในlibavcodecของFFmpegและแยกออกมาด้วยLibavถือว่าเป็นแบบทดลองและไม่ดีนัก มีการทำงานอย่างมากสำหรับการเปิดตัว FFmpeg เวอร์ชัน 3.0 (กุมภาพันธ์ 2016) เพื่อทำให้เวอร์ชันนี้ใช้งานได้และแข่งขันได้กับตัวเข้ารหัส AAC อื่นๆ[ 86 ] Libav ไม่ได้รวมงานนี้และยังคงใช้ตัวเข้ารหัส AAC เวอร์ชันเก่า ตัวเข้ารหัสเหล่านี้เป็น โอเพนซอร์สที่ได้รับอนุญาตภายใต้ LGPLและสามารถสร้างได้สำหรับแพลตฟอร์มใดๆ ที่เฟรมเวิร์ก FFmpeg หรือ Libav สามารถสร้างได้

ทั้ง FFmpeg และ Libav สามารถใช้ ไลบรารี Fraunhofer FDK AACผ่านทาง libfdk-aac ได้ และถึงแม้ว่าตัวเข้ารหัสแบบเนทีฟของ FFmpeg จะมีความเสถียรและดีพอสำหรับการใช้งานทั่วไปแล้ว แต่ FDK ก็ยังคงถือเป็นตัวเข้ารหัสคุณภาพสูงสุดที่มีให้ใช้งานกับ FFmpeg [ 87 ] Libav ยังแนะนำให้ใช้ FDK AAC หากมีให้ใช้งาน[ 88 ] FFmpeg เวอร์ชัน 4.4 ขึ้นไปยังสามารถใช้ตัวเข้ารหัส Apple audiotoolbox ได้อีกด้วย[ 87 ]

แม้ว่าตัวเข้ารหัส AAC ดั้งเดิมจะสร้างได้เฉพาะ AAC-LC เท่านั้น แต่ตัวถอดรหัสดั้งเดิมของ ffmpeg สามารถจัดการกับรูปแบบอินพุตได้หลากหลาย

เนโร ดิจิตอล ออดิโอ

ในเดือนพฤษภาคม พ.ศ. 2549 Nero AGได้ปล่อยเครื่องมือเข้ารหัส AAC ฟรีNero Digital Audio (ส่วนของตัวแปลงสัญญาณ AAC ได้กลายเป็นNero AAC Codec ) [ 89 ]ซึ่งสามารถเข้ารหัสสตรีม LC-AAC, HE-AAC และ HE-AAC v2 ได้ เครื่องมือนี้เป็นเครื่องมืออินเทอร์เฟซบรรทัดคำสั่งเท่านั้น นอกจากนี้ยังมียูทิลิตี้แยกต่างหากสำหรับถอดรหัสเป็น PCM WAVด้วย

เครื่องมือต่างๆ รวมถึง โปรแกรมเล่นเสียง foobar2000และMediaCoderสามารถให้GUIสำหรับตัวเข้ารหัสนี้ได้

เครื่องเล่นสื่อ

โปรแกรมเล่นสื่อคอมพิวเตอร์ในปัจจุบันเกือบทั้งหมดมีตัวถอดรหัส AAC ในตัว หรือสามารถใช้ไลบรารีเพื่อถอดรหัสได้ บนMicrosoft Windowsสามารถใช้DirectShow ด้วยวิธีนี้ร่วมกับตัวกรองที่เกี่ยวข้องเพื่อเปิดใช้งานการเล่น AAC ใน โปรแกรมเล่นที่ใช้DirectShow ใดๆ ก็ได้ Mac OS Xรองรับ AAC ผ่านไลบรารีQuickTime Adobe Flash Playerตั้งแต่เวอร์ชัน 9 อัปเดต 3 ก็สามารถเล่นสตรีม AAC ได้เช่นกัน[ 90 ] [ 91 ]เนื่องจาก Flash Player เป็นปลั๊กอินของเบราว์เซอร์ จึงสามารถเล่นไฟล์ AAC ผ่านเบราว์เซอร์ได้เช่นกัน

เฟิร์มแวร์โอเพนซอร์สของ Rockbox ( มีให้ใช้งานสำหรับเครื่องเล่นพกพาหลายรุ่น) ยังรองรับ AAC ในระดับที่แตกต่างกันไป ขึ้นอยู่กับรุ่นของเครื่องเล่นและโปรไฟล์ AAC ด้วย

การรองรับ iPod (การเล่นไฟล์ AAC ที่ไม่ได้รับการป้องกัน) สำหรับXbox 360สามารถดาวน์โหลดได้ฟรีจากXbox Live [ 92 ]

ต่อไปนี้เป็นรายชื่อแอปพลิเคชันโปรแกรมเล่นไฟล์เสียงอื่นๆ (แต่ไม่ใช่ทั้งหมด):

โปรแกรมเล่นไฟล์เสียงบางโปรแกรม (เช่น foobar2000, Winamp และ VLC) ยังรองรับการถอดรหัส ADTS (Audio Data Transport Stream) โดยใช้ โปรโตคอล SHOUTcastด้วย ปลั๊กอินสำหรับ Winamp และ foobar2000 ช่วยให้สามารถสร้างสตรีมดังกล่าวได้

ใช้ในการออกอากาศ HDTV

ISDB-T ของญี่ปุ่น

ในเดือนธันวาคม พ.ศ. 2546 ประเทศญี่ปุ่นเริ่มออกอากาศโทรทัศน์ระบบดิจิทัลภาคพื้นดิน มาตรฐาน ISDB-Tซึ่งใช้รูปแบบวิดีโอ MPEG-2 และเสียง MPEG-2 AAC ต่อมาในเดือนเมษายน พ.ศ. 2549 ประเทศญี่ปุ่นเริ่มออกอากาศโปรแกรมย่อย ISDB-T สำหรับโทรศัพท์มือถือที่เรียกว่า 1seg ซึ่งเป็นการใช้งานวิดีโอ H.264/AVC และเสียง HE-AAC ครั้งแรกในบริการออกอากาศโทรทัศน์ความละเอียดสูงภาคพื้นดินของโลก

ISDB-Tb ระหว่างประเทศ

ในเดือนธันวาคม พ.ศ. 2550 ประเทศบราซิลเริ่มออกอากาศโทรทัศน์ดิจิทัลภาคพื้นดินตามมาตรฐานที่เรียกว่า International ISDB-Tbซึ่งใช้การเข้ารหัสวิดีโอ H.264/AVC พร้อมเสียง AAC-LC สำหรับรายการหลัก (รายการเดียวหรือหลายรายการ) และวิดีโอ H.264/AVC พร้อมเสียง HE-AACv2 ในรายการย่อยสำหรับอุปกรณ์เคลื่อนที่แบบ 1 วินาที

ดีบีวี

ETSI ซึ่ง เป็นหน่วยงานกำกับดูแลมาตรฐานสำหรับชุด DVBสนับสนุนการเข้ารหัสเสียง AAC, HE-AAC และ HE-AAC v2 ในแอปพลิเคชัน DVB มาตั้งแต่ปี 2004 เป็นอย่างน้อย[ 93 ]การออกอากาศ DVB ที่ใช้ การบีบอัด H.264สำหรับวิดีโอโดยปกติจะใช้ HE-AAC สำหรับเสียง

ฮาร์ดแวร์

iTunes และ iPod

ในเดือนเมษายน ปี 2003 แอปเปิลได้ดึงความสนใจหลักมาสู่ AAC โดยประกาศว่าผลิตภัณฑ์iTunesและiPod ของตนจะรองรับเพลงในรูปแบบ MPEG-4 AAC (ผ่านการอัป เดตเฟิร์มแวร์สำหรับ iPod รุ่นเก่า) ลูกค้าสามารถดาวน์โหลดเพลงใน รูปแบบ AAC 128 kbit/s ที่มีการจำกัด สิทธิ์การเข้าถึงด้วยระบบ DRM (ดูFairPlay ) ผ่านทางiTunes Storeหรือสร้างไฟล์ที่ไม่มี DRM จากซีดีของตนเองโดยใช้ iTunes ในปีต่อมา แอปเปิลเริ่มนำเสนอวิดีโอเพลงและภาพยนตร์ ซึ่งใช้ AAC สำหรับการเข้ารหัสเสียงเช่นกัน

เมื่อวันที่ 29 พฤษภาคม 2550 Apple เริ่มจำหน่ายเพลงและมิวสิกวิดีโอจากค่ายเพลงที่เข้าร่วมโครงการด้วยอัตราบิตที่สูงขึ้น (256 kbit/s cVBR) และไม่มี DRM ซึ่งเป็นรูปแบบที่เรียกว่า "iTunes Plus" ไฟล์เหล่านี้ส่วนใหญ่เป็นไปตามมาตรฐาน AAC และสามารถเล่นได้บนผลิตภัณฑ์ที่ไม่ใช่ของ Apple หลายผลิตภัณฑ์ แต่ไฟล์เหล่านี้จะมีข้อมูล iTunes ที่กำหนดเอง เช่นภาพปกอัลบั้มและใบเสร็จรับเงิน เพื่อระบุตัวตนลูกค้าในกรณีที่ไฟล์รั่วไหลไปยัง เครือข่าย แบบ peer-to-peerอย่างไรก็ตาม สามารถลบแท็กที่กำหนดเองเหล่านี้เพื่อกู้คืนความสามารถในการทำงานร่วมกับเครื่องเล่นที่สอดคล้องกับข้อกำหนด AAC อย่างเคร่งครัดได้ ตั้งแต่วันที่ 6 มกราคม 2552 เพลงเกือบทั้งหมดใน iTunes Store ในภูมิภาคสหรัฐอเมริกาได้กลายเป็นแบบไม่มี DRM และส่วนที่เหลือจะกลายเป็นแบบไม่มี DRM ภายในสิ้นเดือนมีนาคม 2552 [ 94 ]

iTunes มีตัวเลือกการเข้ารหัส "อัตราบิตแปรผัน" ซึ่งเข้ารหัสแทร็ก AAC ใน รูปแบบ อัตราบิตแปรผันแบบจำกัด (รูปแบบการเข้ารหัส ABR ที่เข้มงวดน้อยกว่า) อย่างไรก็ตาม API ของ QuickTime นั้นมีโปรไฟล์การเข้ารหัส VBR ที่แท้จริง[ 95 ]

ณ เดือนกันยายน 2552 แอปเปิลได้เพิ่มการรองรับHE-AAC (ซึ่งเป็นส่วนหนึ่งของมาตรฐาน MP4 อย่างสมบูรณ์) สำหรับการสตรีมวิทยุเท่านั้น ไม่ใช่สำหรับการเล่นไฟล์ และ iTunes ยังคงขาดการรองรับการเข้ารหัส VBR อย่างแท้จริง

เครื่องเล่นพกพาอื่นๆ

โทรศัพท์มือถือ

เป็นเวลาหลายปีแล้วที่โทรศัพท์มือถือหลายรุ่นจากผู้ผลิต เช่นNokia , Motorola , Samsung , Sony Ericsson , BenQ-SiemensและPhilipsรองรับการเล่นไฟล์เสียง AAC โทรศัพท์รุ่นแรกที่รองรับการเล่นไฟล์เสียง AAC คือNokia 5510ที่วางจำหน่ายในปี 2545 ซึ่งสามารถเล่นไฟล์ MP3 ได้ด้วย อย่างไรก็ตาม โทรศัพท์รุ่นนี้ล้มเหลวในเชิงพาณิชย์ และโทรศัพท์ที่มีเครื่องเล่นเพลงในตัวก็ไม่ได้รับความนิยมในวงกว้างจนกระทั่งปี 2548 เมื่อกระแสการรองรับทั้ง AAC และ MP3 เริ่มแพร่หลาย โทรศัพท์สมาร์ทโฟนและโทรศัพท์ที่เน้นด้านดนตรีรุ่นใหม่ส่วนใหญ่รองรับการเล่นไฟล์เสียงเหล่านี้

  • โทรศัพท์ Sony Ericssonรองรับรูปแบบ AAC ต่างๆ ในคอนเทนเนอร์ MP4 โดยรองรับ AAC-LC ในโทรศัพท์ทุกรุ่นตั้งแต่ K700 ขึ้นไป โทรศัพท์ตั้งแต่ W550 ขึ้นไป รองรับ HE-AAC ส่วนอุปกรณ์รุ่นล่าสุด เช่น P990 , K610 , W890iและรุ่นที่ใหม่กว่านั้นรองรับ HE-AAC v2
  • Nokia XpressMusicและโทรศัพท์มัลติมีเดีย Nokia รุ่นใหม่ๆ เช่น N-Series และ E-Series รองรับไฟล์เสียง AAC ในโปรไฟล์ LC, HE, M4A และ HEv2 นอกจากนี้ยังรองรับการเล่นไฟล์เสียง AAC ที่เข้ารหัสแบบ LTP ด้วย
  • โทรศัพท์ BlackBerry ที่ใช้ระบบปฏิบัติการ BlackBerry 10รองรับการเล่นไฟล์ AAC โดยตรง อุปกรณ์ BlackBerry OS รุ่นก่อนหน้าบางรุ่น ก็รองรับ AAC เช่นกัน
  • ระบบปฏิบัติการบาดา
  • iPhoneของAppleรองรับไฟล์ AAC และไฟล์ AAC ที่ได้รับการป้องกันด้วย FairPlay ซึ่งเคยใช้เป็นรูปแบบการเข้ารหัสเริ่มต้นใน iTunes Store จนกระทั่งมีการยกเลิกข้อจำกัด DRM ในเดือนมีนาคม 2552
  • Android 2.3 [ 96 ]และเวอร์ชันที่ใหม่กว่ารองรับ AAC-LC, HE-AAC และ HE-AAC v2 ในคอนเทนเนอร์ MP4 หรือ M4A พร้อมกับรูปแบบเสียงอื่นๆ อีกหลายรูปแบบ Android 3.1 และเวอร์ชันที่ใหม่กว่ารองรับไฟล์ ADTS แบบดิบ Android 4.1 สามารถเข้ารหัส AAC ได้ [ 97 ]
  • WebOSของ HP/Palm รองรับคอนเทนเนอร์ AAC, AAC+, eAAC+ และ .m4a ในโปรแกรมเล่นเพลงดั้งเดิม รวมถึงโปรแกรมเล่นเพลงของบุคคลที่สามอีกหลายโปรแกรม อย่างไรก็ตาม ไม่รองรับไฟล์ DRM FairPlay ของ Apple ที่ดาวน์โหลดจาก iTunes [ 98 ]
  • ระบบรันไทม์ Silverlightของ Windows Phoneรองรับการถอดรหัส AAC-LC, HE-AAC และ HE-AAC v2

อุปกรณ์อื่นๆ

  • iPadของApple : รองรับไฟล์ AAC และไฟล์ AAC ที่ได้รับการป้องกันด้วย FairPlay ซึ่งใช้เป็นรูปแบบการเข้ารหัสเริ่มต้นใน iTunes Store
  • อุปกรณ์ PDA ที่ ใช้ ระบบปฏิบัติการ Palm OS : อุปกรณ์ PDA และสมาร์ทโฟนหลายรุ่นที่ใช้ Palm OS สามารถเล่นไฟล์เสียง AAC และ HE-AAC ได้ด้วยซอฟต์แวร์ Pocket Tunes จากผู้พัฒนาภายนอก เวอร์ชัน 4.0 ที่วางจำหน่ายในเดือนธันวาคม 2549 ได้เพิ่มการรองรับไฟล์ AAC และ HE-AAC แบบดั้งเดิม ตัวแปลงสัญญาณ AAC สำหรับ TCPMPซึ่งเป็นโปรแกรมเล่นวิดีโอที่ได้รับความนิยม ถูกถอนออกหลังจากเวอร์ชัน 0.66 เนื่องจากปัญหาด้านสิทธิบัตร แต่ยังคงสามารถดาวน์โหลดได้จากเว็บไซต์อื่นที่ไม่ใช่ corecodec.org CorePlayer ซึ่งเป็นโปรแกรมเชิงพาณิชย์ที่พัฒนาต่อยอดจาก TCPMP ก็รองรับ AAC ด้วยเช่นกัน โปรแกรมอื่นๆ บน Palm OS ที่รองรับ AAC ได้แก่ Kinoma Player และ AeroPlayer
  • Windows Mobile : รองรับ AAC ทั้งผ่านโปรแกรมเล่นมีเดียของ Windowsหรือผ่านโปรแกรมของบริษัทอื่น (TCPMP, CorePlayer)
  • Epson : รองรับการเล่นไฟล์ AAC ในเครื่องดูมัลติมีเดีย/ภาพถ่าย P-2000และ P-4000
  • Sony Reader : สามารถเล่นไฟล์ M4A ที่มี AAC และแสดงข้อมูลเมตาที่สร้างโดย iTunes ผลิตภัณฑ์อื่นๆ ของ Sony รวมถึงเครื่องเล่น Walkman รุ่น A และ E รองรับ AAC ผ่านการอัปเดตเฟิร์มแวร์ (เผยแพร่ในเดือนพฤษภาคม 2549) ในขณะที่รุ่น S รองรับ AAC ได้ทันทีโดยไม่ต้องอัปเดตเฟิร์มแวร์
  • เครื่องเล่นมีเดียแบบดิจิทัลSonos : รองรับการเล่นไฟล์ AAC
  • Barnes & Noble Nook Color : รองรับการเล่นไฟล์ที่เข้ารหัส AAC
  • Roku SoundBridge : เครื่องเล่นเสียงผ่านเครือข่าย รองรับการเล่นไฟล์เสียงที่เข้ารหัสแบบ AAC
  • Squeezebox : โปรแกรมเล่นเสียงผ่านเครือข่าย (ผลิตโดย Slim Devices บริษัท ในเครือ Logitech ) ที่รองรับการเล่นไฟล์ AAC
  • PlayStation 3 : รองรับการเข้ารหัสและถอดรหัสไฟล์ AAC
  • Xbox 360 : รองรับการสตรีม AAC ผ่านซอฟต์แวร์ Zune และ iPod ที่รองรับซึ่งเชื่อมต่อผ่านพอร์ต USB
  • Wii : รองรับไฟล์ AAC ผ่าน Photo Channel เวอร์ชัน 1.1 ณ วันที่ 11 ธันวาคม พ.ศ. 2550 รองรับโปรไฟล์และบิตเรต AAC ทั้งหมด ตราบใดที่ไฟล์มีนามสกุล .m4a การอัปเดตเวอร์ชัน 1.1 ได้ลบความเข้ากันได้กับ MP3 ออกไป แต่ตามที่ Nintendo ระบุ ผู้ใช้ที่ติดตั้งเวอร์ชันนี้สามารถดาวน์เกรดกลับไปใช้เวอร์ชันเก่าได้หากต้องการ [ 99 ]
  • ปากกาอัจฉริยะ Livescribe Pulse และ Echo : บันทึกและจัดเก็บไฟล์เสียงในรูปแบบ AAC ไฟล์เสียงสามารถเล่นซ้ำได้โดยใช้ลำโพงในตัวปากกา หูฟังที่เชื่อมต่อ หรือบนคอมพิวเตอร์โดยใช้ซอฟต์แวร์ Livescribe Desktop ไฟล์ AAC จะถูกจัดเก็บไว้ในโฟลเดอร์ "เอกสารของฉัน" ในระบบปฏิบัติการ Windows และสามารถแจกจ่ายและเล่นได้โดยไม่ต้องใช้ฮาร์ดแวร์หรือซอฟต์แวร์พิเศษจาก Livescribe
  • Google Chromecast : รองรับการเล่นไฟล์เสียง LC-AAC และ HE-AAC [ 100 ]

ดูเพิ่มเติม

หมายเหตุ

  1. ^ใช้ได้เฉพาะในเว็บเพลเยอร์เท่านั้น
  • ตัวแปลงสัญญาณเสียง Fraunhofer
  • AudioCoding.com ถูกเก็บถาวรเมื่อวันที่ 25 สิงหาคม 2549 ที่Wayback Machine – แหล่งรวม FAAC และ FAAD2
  • เว็บไซต์อย่างเป็นทางการของ MPEG
  • การปรับปรุงและขยายขีดความสามารถของ AAC (2004)
  • RFC  3016  – รูปแบบเพย์โหลด RTP สำหรับสตรีมเสียง/ภาพ MPEG-4
  • RFC  3640  – รูปแบบเพย์โหลด RTP สำหรับการส่งสตรีมพื้นฐาน MPEG-4
  • RFC  4281  – พารามิเตอร์ Codecs สำหรับประเภทสื่อ "Bucket"
  • RFC  4337  – การลงทะเบียนประเภท MIME สำหรับ MPEG-4
ดึงข้อมูลมาจาก " https://en.wikipedia.org/w/index.php?title=Advanced_Audio_Coding&oldid=1360834606#Container_formats "

สรุปเนื้อหา

ข้อมูลสำคัญจากบทความ

ข้อมูลสำคัญเกี่ยวกับ การเข้ารหัสเสียงขั้นสูง

Advanced Audio Coding ( AAC ) เป็น มาตรฐานการเข้ารหัสเสียง สำหรับ การบีบ อัดเสียงดิจิทัล แบบสูญเสียข้อมูล ได้รับการพัฒนาโดย Dolby , AT&T , Fraunhofer และ Sony [ 3 ] [ 4 ] [ 5 ]...

พื้นหลัง

การ แปลงโคไซน์แบบไม่ต่อเนื่อง (DCT) ซึ่งเป็นรูปแบบหนึ่งของ การเข้ารหัสแบบแปลง สำหรับ การบีบอัดแบบสูญเสียข้อมูล ได้รับการเสนอโดย Nasir Ahmed ในปี 1972 และได้รับการพัฒนาโดย Ahmed ร่วมกับ T.

การกำหนดมาตรฐาน

ในปี พ.ศ. 2540 AAC ได้ถูกนำมาใช้ครั้งแรกในชื่อ MPEG-2 Part 7 ซึ่งมีชื่ออย่างเป็นทางการว่า ISO / IEC 13818-7:1997 ส่วนนี้ของ MPEG-2 เป็นส่วนใหม่ เนื่องจาก MPEG-2 ได้รวม MPEG-2 Part 3 ไว้แล้ว ซึ่งมีชื่ออย่างเป็นทางการว่า ISO/IEC 13818-3: MPEG-2 BC (Backwards...

ข้อดีของ AAC เมื่อเทียบกับ MP3

การเข้ารหัสเสียงขั้นสูง (Advanced Audio Coding) ถูกออกแบบมาเพื่อทดแทนเลเยอร์ เสียง MPEG-1 ระดับ 3 หรือที่รู้จักกันในชื่อรูปแบบ MP3 ซึ่งกำหนดโดย ISO / IEC ในมาตรฐาน 11172-3 ( MPEG-1 Audio) และ 13818-3 ( MPEG-2 Audio)