第二讲音频处理技术--688IT编程网

第二章、音频处理技术

声音是多媒体信息的一个重要组成部分。也是表达思想和情感的一种必不可少的媒体，随着多媒体信息处理技术的发展，音频处理技术得到了广泛的应用。如：视频图像的配音、配乐；静态图像的解说、背景音乐；可视电话、电视会议中的话音；游戏中的音响效果：虚拟现实中的声音模拟；电子读物的有声输出等。声音的合理使用可以使多媒体系统变得更加丰富多彩。

一、声音信号的形式和特征

任何声音都是物体振动产生的现象，物体受到敲打或激发就能产生振动，通过一定介质(如空气、水等)传播形成的连续波，在物理学中称为声波。这种波就像在平静的池塘中投入石子，涟漪从中心向四面扩散，当它到达人的耳膜是，耳膜就会感觉到这种压力的变化，或者感觉到振动，这就是声音。声波有各种不同的强度和频率，许多声波混合在一起可能构成交响乐，也可能是一片噪音。

在物理上，声音可以用一条连续的曲线来表示，它是随时间连续变化的模拟量。

声波信号有两个重要的参数：频率和幅度。声波幅度大小体现声音的强弱，声音的频率体现音调的高低。

免费网站制作全集信号的幅度是从信号的基线到当前波峰的距离。幅度决定了信号音量的强弱程度。幅度越大，声音越强。对音频信号．它的强度用分贝(dB)表示。分贝的幅度就是音量。

一个声源每秒钟可产生成百上千个波峰，把每秒钟波峰所发生的数目称之为信号的频率，用赫兹(HZ比)或千赫兹(kHZ)表示。例如一个声波信号在一秒钟内有5000个波峰，则可将它的频率表示为5000hz或5khz。人们在日常说话时的语音信号频率范围在300hz—3000hz之间，人所能辨别的频率范围在20hz—20khz之间，频率小于20hz的信号成为次声波（subsonic），频率高于20khz的称为超声波。

音箱和耳机的频响范围

所谓频响范围，指的是频率响应范围。在音箱、耳机等音频回放设备中一般会有标注20Hz-20KHz类似这样的一个数字范围的指标，此即是指该设备可以回放的有效频率范围。当然，与之相对应的是，人耳理论上可听到的声波范围也是20Hz-20KHz。

作为频响范围，规范的标注方法必须在这个频率范围后有声强度大小的条件范围，例如60Hz-20KHz （±3dB），否则该频率响应曲线是没有意义的。目前的情况是，大家很少会在音箱或者耳机产品后面看到这样与声音强度相关的标注。普通功放的频率响应为20Hz-20000Hz约( /-)l-3dB；优质功放的频率响应为20Hz-20kHz约 /-0.1dB。

在许多人认识到20Hz-20KHz的频响范围是完全不可信之后，有些“聪明”的音箱厂商从另一个角度来解决这个问题，他们开始把这个频响范围刻意的调整一下。例如，把低频调整到30Hz或者40Hz，把高频调整到18KHz，想通过这样的数字游戏来赢得大家的信任。但是，对于一款普通的2.1产品来说，20Hz和40Hz对它们来说有什么不同，同样是无法实现的一个频率。

耳机是一个比音箱更加夸张标注“频响范围”的产品。一款产品动不动就可以超过20Hz-20KHz。例如某品牌耳机频响范围标注的是5Hz-30KHz，这有些夸张了。如果两个耳机的频响上限分别是16kHz和20kHz，听感上是不一样的。过高的频率虽然听不到，但宽泛的频响参数中还包含有一些其它的含义，比如频响曲线的平直、瞬态响应能力等等。它也是耳机素质的一种参考。但是，由于标称的参数没有统一标准，所以厂家标称的这类参数对比较两个不同的耳机的品质并不具有实际意义

与频率相关的另一个参数是信号的周期。它是指信号在两个峰点或谷底之间的相对时间。周期是频率的倒数。如果每隔一定时间波形就重复相同的形状，这个时间就称为周期。

二、模拟音频的数字化

声音信号是振幅随时间连续变化的模拟信号。而计算机只能处理和存储二进制的数字信号，因此，计算机要获取与处理音频，必须先对模拟信号进行数字化处理，转换为计算机所能识别的二进制表示的数字信号，然后才能对其进行各类编辑处理。对模拟音频数字化的过程涉及音频的采样、量化和编码。其过程的实质是将连续的模拟音频信号转换为离散的一系列数字音频编码信号。

1、采样

采样就是每隔一段时间在模拟声音的波形上取一个幅度值，把时间上的连续信号变成时间上的离散信号，这个间隔时间称为采样周期．其倒数为采样频率。采样频率是采样最主要的参数。

采样频率是指计算机每秒钟采集多少个样本。采集频率越高，即采样的时间间隔越短．则在

单位时间内得到的声音样本数据就越多、对波形的描述也越精确。较高的采样频率固然可以得到比较精确的对象描述，但是同时也会带来大量的数据，因此在实际应用中，不能无限制的增加采样频率。为了用较少的数据来尽可能的描述对象的主要内容，我们常常规定一个与声音频率之间有一定关系的最低采样频率。根据内奎斯持理论．只有采样频率高于声音信号最高频率的2倍时，才能得到基本反映原信号主要特征的数字音频信号。例如人耳可以听到最高声音频率为20kHz，因此在采集数字音乐信号时，如果将采样频率设置为44kHz，就能够得到高保真的音乐(考虑到滤波器的衰减，提高了10％增益)，因此标准激光CD唱片的采样频率被规定为44．1kHz。

2、量化

量化就是把采样得到的声音信号幅度转化为数字值，使声音信号在幅度上被离散化。量化的过程是先将采样后的信号按整个声波的最大(或有效最大)振幅划分成有限个区段的集合，把落入同一个区间的采样值归为一类，井赋予相同的近似取值(量化值)，这样，原来无限的取值可能性被限制简化为有限的取值数列。在同样采样频率下，量化等级越多，数字音频相于原声音源的记录也就越准确，但数据量也就会更大。

由于通用计算机一般采用二进制编码的方法来记录数据，为了方便使用和节省编码空间，我们一般使用量化位数(也称量化精度)这个量来描述量化等级的多少。例如，8位量化是指用28个量化等级，即有256个量化取值区间，而16位量化则表示216个量化等级，有65536个量化取值区间。

声音数字化过程

失真在采样过程中是不可避免的，如何减少失真呢？可以把波形划分成更为细小的区间，即

采用更高的采样频率。同时，增加量化精度，以得到更高的量化等级，即可减少失真的程度。

3、声道

反映音频数字化质量的另一个因素是声道个数。记录声音时，如果每次生成一个声波的数据，称为单声道；每次生成两个声波数据，称为双声道（立体声）；每次生成两个以上的声波数据，称为多声道（环绕立体声）。

未经压缩的数字化声音的数据量是由采样频率、量化精度、声道数和声音持续时间所决定的，它们与声音的数据星是成比例关系的，其数据量计算方式为：

数据量(Byte)=采样频率(hz)×(量化位数(bit)／8)×声道数×声音持续时间(s)，公式中(量化位数／8)是为了把计量单位bit(位)转化为Byte(字节)。

例：对于调频广播级立体声，采样频率为44.1khz，量化等级为16位(即2字节)，声道形式为双声道，则转换后每秒数据量为：

44100（hz)×(16／8)(B)×2＝176400B／s，约等于172KB／S

4、编码与压缩

所谓编码，就是按照—定的格式把经过采样和量化得到的离散数据记录下来，并在有效的数据中加入一些用于识别、纠错和进行控制的数据。编码后的数据就可以以文件的方式存入计算机中，或进行处理和输出。

将量化后的数字声音信息直接存人计算机将会占用大量的存储空间、在多媒体系统中般是对数字化声音信息进行压缩和编码后再存人计算机，以减少音频的数据量。便于存储和传输，这一过程称为压缩编码，为了区别，我们将未经过压缩处理的编码文件成为原始编码。

三、音频文件的格式

1、WAV文件

WAV是微软公司开发的一种音频文件格式，是使用最广，兼容性最好的一种数字音频格式。WAV来源于对声音模拟波形的采样，它记录的是数字化的波形数据。该格式直接记录声音的波形，不作任何压缩。虽然文件巨大，但可以达到较高的音质要求，它是音乐编辑和创作的首选格式，适合保存音乐素材。

由于Windows操作系统的影响力，WAV格式已经成为事实上的通用音频格式，目前所有的音频播放软件、编辑软件和多媒体软件都支持这一格式，并将其作为首选的音频文件格式。

作为最原始、最基本的波形声音文件，WAV文件格式几乎可以转换为所有类型的数字音频文件格式。

WAV文件囊括各种精度的音频，支持多种音频位数、采样频率和声道。

采用44．1kHz的采样频率、16位量化位数时，WAV音频质量与CD唱片的声音相差无几。

每存放1秒声音WAV文件占用空间：1秒×44100次采样／秒×16位/8位×2(左右两个通道)＝176．4KB(KB即千字节)。以此计算，存储每分钟WAV音频数据占用约10MB(即10 584MB)空间；存储1个小时WAV音频数据占用大约620MB(635040MB)空间，几乎占满整整一张CD盘。如此巨大的音频数据量，非常不易保存。WAV格式对存储空间需求过大，传播起来难度较大。

优点：

音质高

兼容性好

缺点：

文件过大，不利于存储和传输

2、MP3（MP3PRP）文件

MP3是MPEG格式组中的专用于音频压缩的一种格式。它能在对音质影响较小的前提下，将音频文件压缩为原来大小的1/12到1/14。因此成为目前最为流行的一种的音频压缩格式。一分钟CD音质的音乐，未经压缩需要10M存储空间，而经过MP3压缩编码后只有lMB左右，同时其音质基本保持不失真。原来的一张标准CD—ROM，刻录成音乐CD只能存放几首乐曲；但是，使用MP3格式却能容纳几百个曲日。在有限的存储空间内，能够存储大量的音频数据，极大地方便了数字音频的存储、交流、传输。

MP3格式开始于1980年中期，在德国Erlangen 的Fraunhofer 研究所开始的，研究致力于高质量、低数据率的声音编码。在Dieter Seitzer—个德国大学教授的帮助下，1989年，Fraunhofer在德国被获准取得了MP3的专利权，几年后这项技术被提交到国际标准组织(ISO)

,整合进入了MPEG-1标准。

最早的播放器是Frauenhofer 在1990年早期开发的, 但它只是一个非常不知名的小程序，没有引起大家的重视。而被大家公认的第一个Mp3播放器是在1997年, 由一个叫做Tomislav Uzelac 的开发者开发的。他开发了AMP MP3 播放引擎。当AMP引擎进入网络以后不久, 几个大学生Justin Frankel 和Dmitry Boldyrev拿到了Amp引擎，并且为它添加了一个Windows界面，最后他们把这个程序命名为"Winamp." 在1998年,当Winamp作为免费的音乐播放器在网络上传播的时候，Mp3的狂潮开始了。许许多多的爱好者在网络上交换有版权的音乐mp3。 MP3编码器，制作器，播放器铺天盖地。我们周围更是出现了各种歌手的MP3全集，甚至有MP3搜索引擎帮助搜索各种MP3。Napster的出现更是让MP3的风暴到达的顶峰。当然音乐界对这些“侵权”行为岂能座视不理？于是运用法律进行了围剿，今年IT界最有名的事件之一恐怕就是Napster 侵权案的败诉了。

688IT编程网

第二讲音频处理技术

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

688IT编程网

第二讲 音频处理技术

发表评论

推荐文章

应用程序的安全检测方法、装置、电子设备和存储介质

nginx map用法 正则

VBA之正则表达式(1)--基础篇

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

热门文章

一种任意人头与任意人体的3D结合方法

正则匹配c语言中8进制

fortran数据格式

python中文本转数字用的公式

gh 文本变数值

js判断输入是否为正整数、浮点数等数字的函数代码

qt浮点数正则表达式

QT正则表达式限制输入值

手机号码和电话号码的正则表达式

str转浮点-概述说明以及解释

英豪结尾的诗句

Java正则表达式:符合以特定字符串开头,以特定字符串结尾的所有结果

machinebuilder使用手册

ASP.NET网站建设基本常用代码

LCD显示实时时钟

经纬度正则表达式解析

前端科学计数法转数字

python正则表达式re之compile函数解析

pythonunittest之断言及示例

[lua]lua中匹配字符串小数

最新文章

nginx map用法 正则

Prometheus监控学习笔记之初识PromQL

关于PHP中的webshell

python中re.findall函数实例用法

nginx url表达式

nginx 正则匹配参数

标签列表

第二讲音频处理技术

nginx map用法正则

nginx map用法正则