常见的音频编码标准
在自然界中人类能够听到的所有声音都称之为音频,它可能包括噪音、声音被录制下来以后,无论是说话声、歌声、乐器都可以通过数字音乐软件处理。把它制作成CD,这时候所有的声音没有改变,因为CD本来就是音频文件的一种类型。而音频只是储存在计算机里的声音。演讲和音乐,如果有计算机加上相应的音频卡,我们可以把所有的声音录制下来,声音的声学特性,音的高低都可以用计算机硬盘文件的方式储存下来。反过来,我们也可以把储存下来的音频文件通过一定的音频程序播放,还原以前录下的声音。自然界中的声音非常复杂,波形极其复杂,通常我们采用的是脉冲代码调制编码,即PCM编码。PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码。然而,3G网络带来了移动多媒体业务的蓬勃发展,视频、音频编解码标准是多媒体应用的基础性标准,但其种类较多,有繁花渐欲迷人眼之感。那么常见的编码技术就是我们必须知道的,下面我们介绍一下最常见的编码技术。
1.PCM
PCM 脉冲编码调制是Pulse Code Modulation的缩写。PCM编码的最大的优点就是音质好,最大的缺点就是体积大。我们常见的Audio CD就采用了PCM编码,一张光盘的容量只能容纳72分钟的音乐信息。
2.W A V
WA V是Microsoft Windows本身提供的音频格式,由于Windows本身的影响力,这个格式已经成为了事实上的通用音频格式。实际上是Apple电脑的AIFF格式的克隆。通常我们使用W A V格式都是用来保存一些没有压缩的音频,但实际上W A V格式的设计是非常灵活(非常复杂)的,该格式本身与任何媒体数据都不冲突,换句话说,只要有软件支持,你甚至可以在W A V格式里面存放图像。之所以能这样,是因为W A V文件里面存放的每一块数据都有自己独立的标识,通过这些标识可以告诉用户究竟这是什么数据。在WINDOWS 平台上通过ACM(Audio Compression Manager)结构及相应的驱动程序(通常称为CODEC,编码/解码器),可以在W A V文件中存放超过20种的压缩格式,比如ADPCM、GSM、CCITT G.711、G.723等等,当然也包括MP3格式。
虽然W A V文件可以存放压缩音频甚至MP3,但由于它本身的结构注定了它的用途是存放音频数据并用作进一步的处理,而不是像MP3那样用于聆听。目前所有的音频播放软件和编辑软件都支持这一格式,并将该格式作为默认文件保存格式之一。这些软件包括:Sound Forge, Cool Edit Pro, 等等。
3.MP3
MP3它的全称是MPEG(MPEG:Moving Picture Experts Group) Audio Layer-3,1993年由德国夫朗和费研究院和法国汤姆生公司合作发展成功。刚出现时它的编码技术并不完善,它更像一个编码标准框架,留待人们去完善。这个比喻相信大家都会同意。MP3是Fraunhofer-IIS研究的研究成果。MP3是第
一个实用的有损音频压缩编码。在MP3出现之前,一般的音频编码即使以有损方式进行压缩能达到4:1的压缩比例已经非常不错了。但是,MP3可以实现12:1的压缩比例,这使得MP3迅速地流行起来。MP3之所以能够达到如此高的压缩比例同时又能保持相当不错的音质是因为利用了知觉音频编码技术,也就是利用了人耳的特性,削减音乐中人耳听不到的成分,同时尝试尽可能地维持原来的声音质量。
由于MP3是世界上第一个有损压缩的编码方案,所以可以说所有的播放软件都支持它,否则就根本没有生命力。在制作方面,也曾经产生了许多第三方的编码工具。不过随着后来Fraunhofer-IIS宣布对编码器征收版税之后很多都消失了。目前属于开放源代码并且免费的
编码器是LAME (Lame Ain't MP3 Encoder,)。这个工具蔥x] 系难顾跻糁首詈玫腗P3压缩工具。另外,几乎所有的音频编辑工具都支持打开和保存MP3文件。
5.Real Media
互联网大行其道之后,Real Media 出现了。这种文件格式几乎成了网络流媒体的代名词。RA、RMA这两个文件类型就是Real Media里面向音频方面的。它是由Real Networks 公司发明的,特点是可以在非常低的带宽下(低达28.8kbps)提供足够好的音质让用户能在线聆听。
网络流媒体的道理其实非常简单,简单说就是将原来连续不断的音频分割成一个一个带有顺序标记的小
数据包,将这些小数据包通过网络进行传递,在接收的时候再将这些数据包重新按顺序组织起来播放。如果网络质量太差,有些数据包收不到或者延缓了到达,它就跳过这些数据包不播放,以保证用户在聆听的内容是基本连续的。就是这么简单的道理,促成了网络上的又一个传奇。
由于Real Media是从极差的网络环境下发展过来的,所以Real Media的音质并不怎样,包括在高比特率的时候,甚至差于MP3。特别是有相当长的一段时间Real Networks公司只顾着往Real Media里面加入各种各样的新特性比如广告插播什么的,而忽略了随着网络速度的提升和宽带网的普及,用户对质量的要求也不断提高。后来Real Networks通过与SONY 公司合作,利用SONY的ATRAC技术,也就是MD的压缩技术)实现高比特率的高保真压缩,但这些举措始终都带给用户一个姗姗来迟的感觉。由于Real Media的用途是在线聆听,并不适于编辑,所以相应的处理软件并不多。一些主流软件可以支持Real Media的读/写,可以实现直接剪辑的软件是Real Networks自己提供的捆绑在Real Media Encoder编码器中的Real Media Editor。但功能非常有限。这一点与现在的Windows Media相比是两个世界。
6.WMA
即Windows Media Audio,任何事情都少不了Microsoft的份。在意识到网络流媒体之于互联网的重要性之后,Microsoft立马就推出了Windows Media与Real Media相抗衡,同时开始对其他音频压缩技术说不:一律不提供直接支持。到了Windows XP版本还把原来提供的MP3压缩功能都拿掉了。
Windows Media Audio(www.microsoft/windows/windowsmedia)也是一种网络流媒体技术,本质上跟Real Media是相同的。但Real Media是有限开放的技术,比如rtsp(Real Time Stream Protocol实时流协议)这样的网络传输协议是提交到网络工作组RFC网络协议集的其中一个(编号RFC2326),而Windows Media则没有公开任何技术细节,据称是为了更好地进行版权保护,因此要完全封闭,还创造出一种名为mms(Multi-Media Stream多媒体流)的传输协议。
7.MIDI
MIDI技术本来不是为了电脑发明的。该技术最初应用在电子乐器上用来记录乐手的弹奏,以便以后重播。不过随着在电脑里面引入了支持MIDI合成的声音卡之后MIDI才正式地成为了一种音频格式。有很多人都误以为MIDI是用来记谱的,这是错的。MIDI的内容除了乐谱之外还记录了每个音符的弹奏方法,所以有些MIDI文件播放起来不好听,而某些则有良好的效果。MIDI本身也有两个版本,General MIDI和General MIDI 2。在MIDI上还衍生了许多第三方的非标准技术,比如非常著名的:X-MIDI(或者叫XG),这是由日本YAMAHA公司(www.yamaha/)发明的,在原有的MIDI具有128种乐器的基础上扩充到了512种,并增加了更多的演奏控制,配合Y AMAHA自己的波表播放软件或支持X-MIDI的硬件可以还原出非常动听和接近真实乐器效果的音乐。另外就是为了弥补MIDI 中通过声音合成得到的乐器声音始终比不上真实乐器声音这一缺点而由General MIDI
Association(MIDI规范的国际组织,/)推出的DLS(Downloadable Sound)技术,该技术通过给MIDI文件附带上真实乐器的录音(采样)而使MIDI文件能营造出接近真实乐器效果的声音,不过该技术的主要问题是带上乐器采样之后的MIDI文件实在是太大了,通常情况下都有4兆字节以上(这样的大小用户当然是去MP3了),影响了该技术的普及。
由于MIDI具有的优点和特殊性,因此可以相信这是一种在相当长的时间里都会继续存在的技术。普通的MIDI文件许多播放器都支持,但要达到好的效果就必须安装软波表,比如曾经很出名的WinGroove、Roland Virtual Sound Canvas和Y AMAHA S-YXG Player。随着Microsoft与Roland(land/)合作在DirectX里面增加了DirectMusic之后软波表就变成了Windows系统的标准配置了。需要注意的是对于X-MIDI格式来说必须使用Y AMAHA自己推出的播放器才能得到良好的播放效果。比如当年曾经卖得很火的使用YAMAHA YMF724/740做芯片的声音卡便带有X-MIDI的播放器S-YXG100。
如果要对MIDI文件进行编辑,可以使用的比较出名的软件是Cake Walk Pro和Sonar8.OGG V orbis
开放源代码的OGG V orbis(/ 或www.vorbis/),作为开放源码向专利技术下的第一封战书出现在世人的面前。在经历了一些变故之后,OGG V orbis 终于在2002年7月释出了1.0版本。由于开放源码的东西向来都缺少[x]手为其摇旗呐喊,所以国内并不是有很多的人了解OGG Vo
rbis。OGG V orbis 是一种音频压缩格式,类似于MP3等现有的通过有损压缩算法进行音频压缩的音乐格式。但有一点不同的是,OGG V orbis 格式是完全免费、开放源码且没有专利限制的。V orbis 是这种音频压缩机制的名字,而OGG 则是一个计划的名字,该计划意图设计一个完全开放源码的多媒体系统。开放源代码能为用户在经济上带来收益,这一点很多人都知道了,但不能忘记的是OGG Vorbis的技术也不是盖的。OGG Vorbis文件的扩展名是.OGG。这种文件的设计格式是非常灵活的。它的最大特点是在文件格式已经固定下来后还能对音质进行明显的调节和新算法。现在创建的OGG文件可以在未来的任何播放器上播放,因此,这种文件格式可以不断地进行大小和音质的改良,而不影响旧有的编码器或播放器。在压缩技术上,OGG Vorbis的最主要特点是使用了VBR (可变比特率)和ABR(平均比特率)方式进行编码。与MP3的CBR(固定比特率)相比可以达到更好的音质。OGG V orbis其他技术特性还包括:支持类似于MP3的ID3信息,但比MP3要灵活而又完整得多,实际上可以填写随意多的信息。V orbis还具有比特率缩放功能,可以不用重新编码便可调节文件的比特率。V orbis文件可以被分成小块并以样本粒度(granularity,专业术语,指数据可以被分割的最小尺寸)进行编辑;V orbis支持多通道(大于2)音频流并使用了独创性的处理技术;Vorbis文件可以以逻辑方式相连接等。
9.VQF
VQF实际指的是TwinVQ(Transform-domain Weighted INterleave Vector Quantization)技术,是日本Nippon Telegraph and Telephone集团属下的NTT Human Interface Laboratories (sound.splab.e
虽然说质量相同,但由于VQF使用的是不同的技术,从这个图上大家应该可以感受到两者的差别。
APE是Monkey's Audio提供的一种无损压缩格式。Monkey's Audio提供了Winamp的插件支持,因此这就意味着压缩后的文件不再是单纯的压缩格式,而是和MP3一样可以播放的音频文件格式。这种格式的压缩比远低于其他格式,但能够做到真正无损,因此获得了不少发烧用户的青睐。在现有不少无损压缩方案种,APE是一种有着突出性能的格式,令人
满意的压缩比以及飞快的压缩速度,成为了不少朋友私下交流发烧音乐的唯一选择。
11.CDDA
CDDA是Compact Disc Digital Audio的简称,这就是大家最熟悉的“CD”格式的全称。说到CD,种类有不少。最为常见的有“HDCD”(微软)“SACD”(索尼)“XRCD”(JVC),不要被这些字母搞晕了。总的说来就是“CD”,只是运用的技术不同。有些需要专用的解码器才能达到最优质的效果,这里就不多说到底这些格式之间有哪些差异了。
CD是大家最容易获取到的音质最好的音频文件之一。通常CD采样都是“44100HZ”而速率是“1411Kbps”。
由于CD的精度已经非常高,所以,我们称这种格式为“无损音频格式”。CD是由荷兰“飞利普”和日本“索尼”共同制定的格式。
12.FLAC
FLAC即是Free Lossless Audio Codec的缩写,中文可解为无损音频压缩编码。FLAC 是一套著名的自由音频压缩编码,其特点是无损压缩。不同于其他有损压缩编码如MP3 及AAC,它不会破任何原有的音频资讯,所以可以还原音乐光盘音质。现在它已被很多软件及硬件音频产品所支持。
简而言之,FLAC与MP3相仿,但是是无损压缩的,也就是说音频以FLAC方式压缩不会丢失任何信息。这种压缩与Zip的方式类似,但是FLAC将给你更大的压缩比率,因为FLAC是专门针对音频的特点设计的压缩方式,并且你可以使用播放器播放FLAC压缩的文件,就象通常播放你的MP3文件一样(现在已经有许多汽车播放器和家用音响设备支持FLAC,在FLAC的网站上你可以到这些设备厂家的连接)。
FLAC是免费的并且支持大多数的操作系统,包括Windows,“unix”(Linux,*BSD,Solaris,OS X,IRIX),BeOS,OS/2,和Amiga。并且FLAC提供了在开发工具autotools,MSVC,Watcom C,和Project Builder上的build系统。
13.TTA
True Audio(缩写TTA)是一种免费又简单的实时无损音频编解码器。TTA是一种基於自适应预测过滤的无损音频压缩,与目前主要的其他各式相比,能有相同或更好的压缩效果。TTA压缩器,可将数据压缩至30%的无损音频数据压缩,实时编码/解码演算法;
操作快捷、对系统要求低,支持多平台,免费和开放源码,硬体支持,TTA是用於对多声道8、16、24 bits整型和32bitsIEEE浮点型的音频W A V格式的无损压缩,压缩的大小范围是原文件大小的30%—70%。TTA格式主要目标不是追求最大的压缩率,而是对於硬体执行的编码演算法最优化,同时支持ID3v1和ID3v2两种标签信息。
使用True Audio编码,您可以将20张收藏的音频CD存储到一张DVD-R盘上并播放。还能用流行的ID3标签存储所有曲目的信息。
14.SACD
Super Audio CD的缩写,是索尼和飞利浦在它们联合开发的MMCD(单面双层结构的高密度光碟)基础上研制推出的新数字音频格式。
SACD采用了名为DSD(Direct Stream Digital,直接数字流编码)的新编码方式,信息储存量为普通CD的6倍。SACD以高达2.8224MHz的采样频率(为CD44.1Khz的6倍)把原始的模拟音频信号量化为1
bit的数字音频信号,当还原为模拟音频信号重播时,所还原的波型与原先音乐的模拟波型几乎毫无二致,比CD(44.1KHz/16bit)或DVD Audio (96KHz/24bit)的波型更为完整。因此其声音的清晰度和信噪比都很高,在20-20KHz频率范围内的动态范围达120dB。SACD容量与DVD-Audio相同,均为4.7GB。
15.A TRAC
MD的压缩格式,即Adaptive Transform Acoustic Coding,自适应声学转换编码技术。是一种有损压缩格式。是一项基于听觉心理学领域的研究和不损伤可闻声质量的数码音频译
码压缩技术,对音乐资讯有效的进行压缩,压缩的比率为原来的五分之一,因为MD使用了ATRAC压缩技术,这样的压缩大大节省了许多空间,所以CD的碟片要120mm大小,而MD只需64mm就可以录下74分钟的音乐。
它是根据心理声学原理,把人耳所不能分辨的声音信号的强度、方位、音调、音舍去,从而在一张容量不大的MD空白碟片上存储高品质的音乐。
ATRAC将16比特44.1KHz的数字信号以频率响应轴分成52个区段(在低频时分割较细而在高频时分割较粗),根据声音心理学的原理,将声音信号中人耳听不到和对人的听力影响不大的信息给剔除出去而达
到缩小声音文件的目的。利用这种原理,ATRAC可以将录音的资料量压缩为原来的五分之一(即压缩比为1:5)。
ATRAC压缩技术主要是利用了人耳的蔽遮效应,在心理声学原理上,在进行音频录入的同时,有许多外部的频段同时也会被录入,当人耳同时听到两个不同频率、不同音量的声音时,音量较小的低频及音量较小的高频连同不为人耳所察觉的频段信号都会被自动减弱或忽略不予记录,因此又可以称为适应性变换声码技术,由于近年来编码压缩技术(A TRAC 的版本)越来越成熟,所以经过编码解码过程后的声音仍直逼CD。
ATRAC格式虽然在算法上比MP3更优秀,但自身非常封闭,兼容性较差,导致市场接受度一直很低。
16.AU
Audio(AU) ,Audio文件是Sun微系统公司推出的一种经过压缩的数字声音格式。AU 文件原先是UNIX操作系统下的数字声音文件。由于早期Internet上的Web服务器主要是基于UNIX的,所以.AU格式的文件在如今的Internet中也是常用的声音文件格式,Netscape Navigator浏览器中的LiveAudio也支持Audio格式的声音文件。
17.AIFF
开放源代码意味着什么AIFF是音频交换文件格式(Audio Interchange File Format)的英文缩写,是Apple公司开发的一种声音文件格式,被Macintosh平台及其应用程序所支持,Netscape Navigator浏览器中的LiveAudio也支持AIFF格式,SGI及其它专业音频软件包也同样支持AIFF格式。AIFF支持ACE2、ACE8、MAC3和MAC6压缩,支持16位44.1kHz立体声。
18.AAC
Adpative audio coding。一种专为声音数据设计的文件压缩格式,与Mp3类似。利用AAC 格式,可使声音文件明显减小,而不会让人感觉声音质量有所降低。早在1987年,Fraunhofer IIS就开始了“EUREKA project EU147,Digital Audio Broadcasting(DAB)”的研发,而这就是MP3的前身。通过和Dieter Seitzer教授的合作,他们开发出了著名的ISO-MPEG Audio Layer-3压缩算法。1993年这个算法被整合到MPEG-1标准中,从此MP3被投入使用。1996年底Fraunhofer IIS在美国获得MP3的专利,并在1998年对外声明将收取MP3的专利使用费。而从1999年初开始,MP3格式广泛流行起来。
既然我们了解了音频的编码技术,那么为了方便我们自己的运用音频的压缩技术也是非常重要。现在是数码时代,为了追求优良的音质很多人不懈地努力。随着数码时代的来临,谁都承认数码音频比模拟信号优越。什么是模拟信号?其实任何我们可以听见的声音经过音频线或话筒的传输都是一系列的模拟信号。模拟信号是我们可以听见的。而数字信号就是用一堆数字记号来记录声音,而不是用物理手段来保存信号。(用普通磁带录音就是一种物理方式)数字信号我们实际上是听不到的。
这样我们可以简略地比较一下模拟时代的录音制作与数码时代的区别:模拟时代是把原始信号以物理方式录制到磁带上(当然在录音棚里完成了),然后加工,剪接,修改,最后录制到磁带,LP等广大听众可以欣赏的载体上。这一系列过程全是模拟的,每一步都要损失一些信号,到了听众手里自然是差了好远,更不用说什么HI-FI了。数码时代是第一步就

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。