DOI:10.19551/jki.issn1672-9129.2020.24.043
基于4G 通信的语音格式转换系统的设计与实现
王㊀枫(南京高达软件有限公司㊀江苏㊀210012)
摘要:由于传统转换技术受到不同声音格式影响,导致转换结果与实际音频通信结果不一致,针对该问题,提出了基于4G 通信的语音格式转换系统的设计与实现㊂依据系统总体结构,从主控模块㊁格式转换模块㊁读写模块㊁打开输入㊁输出模块㊁数据处理模块完成硬件结构设计;依据转换原理,预处理语音信号,并提取AMR 基音频㊁频谱特征参数㊂通过GMM 的EM 算法获取训练函数,将参数对齐㊂设计语音格式转换流程,完成AMR 到PCM 的语音格式转换,该转换方式对语音分析合成及增强等方面具有促进作用㊂
关键词:4G 通信;语音格式;转换系统;训练
中图分类号:TN929.3㊀㊀㊀文献标识码:A㊀㊀㊀文章编号:1672-9129(2020)24-0044-02
㊀㊀引言:当前,我国4G 移动通信发展迅速,4G 移动通信服务逐渐向4G 移动通信平台延伸,一些传统的通信服务逐渐被4G 通信模式的快速物理网技术所取代㊂基于当前的通信技术,各种语音㊁视频应用模式层出不穷,移动电视㊁视频监控㊁用户电波定向传输的视频等以充足的带宽成为4G 通信业务的典型代表,
4G 通信不仅为用户提供高清视频,而且为网络用户提供充足的带宽㊂由于传统视频传输使用的是流媒体技术,其容易受到外界环境及噪声干扰影响,存在带宽不足㊁稳定性差㊁延迟大的缺点,导致通信效果较差㊂4G 通信具有通信效率高㊁通信灵活㊁兼容性好㊁频率利用率高㊁成本低等特点[2]㊂它给语音视频带来优势的同时,也存在一定缺点㊂原始语音较大,需要压缩处理才能上传,并且上传过程需要匹配相关关键词,为此,4G 移动音视频领域的高效率设备研发显得尤为重要㊂因此,设计并实现了一种基于4G 通信的语音格式转换系统㊂
1㊀系统硬件结构设计
系统硬件结构包括主控模块㊁工作模块㊁转换模块㊁读写模块㊁打开输入输出模块㊁数据处理模块和信息输出模块,其结构如图1所示
由图1可知,主控模块负责控制整个系统的工作程序,为系统核心模块;工作模块负责执行系统各项功能;转换模块包括格式转换模块和频率转换模块,其中格式转换模块是通过调用相关函数实现语音文件格式转换,而频率转换模块负责频率转换;读写模块负责语音文件读写;打开输入输出模块负责负责控制文件的输入与读取;数据处理模块负责数据实时处理;信息输出模块负责语音格式转换结果输出[3]㊂
1.1主控模块㊂主模块内部有独立的运行环境,基本不涉及程序的功能实现㊂其功能是建立流程运行环境,并调用工作模块以完成整个过程㊂主片是主机板或硬盘的核心部件,是连接各种设备和控制设备运行的大脑的桥梁[4]㊂其中以两片芯片最为重要,一片为南桥芯片,通过使用USB 接口,实现数据快速传输;另一个芯片主要负责连接系统内部CPU 和外部接口㊂主片的功能是装入并运行操作系统(通
常称为固件),对各种文件进行解码,第一步是音频解码,通过主控芯片采用硬件解码技术,将压缩后的音频通过主控芯片解压缩;第二步是信号转换,使用DAC,即数字模数转换器,大多数播放器的DAC 不单独工作,而是嵌入在主片中,所以,需要把数字解压信号转换成模拟信号㊂所述程序输入的参数有:VOX 语音待转换文件的文件名,转换RA 语音文件的文件名,覆盖现有语音文件名㊂及时检查输入模块是否完全转换成功,如果转换成功,则说明没有错误信息,即可进行下一步语音文件转换㊂
1.2格式转换模块㊂格式转换模块主要包括数据库㊁上位机和下位机,其中上位机负责将接收到的语音信
号进行传输,下位机负责将传输接收到的信号进行格式转换,最后将转换后的信号存储于数据库中㊂格式转换具体流程为:首先通过调用DLL 中的函数,读出DLL 模块;然后衡量其他模块是否正常调用㊂如果衡量结果为所有模块都能正常调用,那么需将所有DLL 结构的函数指针指向适当的位置;最后通过两种格式转换和一种频率转换,实现了语音文件格式的转换㊂
1.3读写模块㊂
(1)读模块㊂正确调用DLL 函数,在格式转换模块中的函数指针指向适当位置支持下,读取函数中的相关数据,完成数据读取㊂
(2)写模块㊂通过调用客户端对象的DistributedFileSys-tem,可远程在文件系统命名空间中创建一个新的文件,并添加文件信息,完成数据写入㊂
1.4打开输入㊁输出模块㊂
(1)输入模块㊂通过文件句柄打开语音输入模块,使系统直接读取输入文件内容㊂
(2)输出模块㊂通过文件句柄打开语音输出模块,使系统直接写入输入文件内容㊂
1.5数据处理模块㊂数据处理模块主要负责完成语音文件不同频率的数据转换与处理,将内插函数引入数
据处理过程中,能够准确获取数据处理量㊁处理速度和时间的关系,解决以往传统方法人工处理过程中处理时间长的问题,由此快速实现语音格式转换㊂
2㊀系统软件部分设计
Delphi6.0是语音转换系统开发环境,操作系统平台选择Linux 平台,在该平台下开发系统软件㊂
2.1转换原理㊂AMR /PCM 类型语音间转换过程主要分为三个阶段,即学习阶段㊁训练阶段和转化阶段㊂这些阶段中,学习阶段以倒谱参数形式转换谐波幅度,用正弦谐波分析该参数是否有噪声数据,如果有,则重新转换,以避免噪声数据所带来的干扰;训练阶段以DTW 算法校正目标语音的倒谱参数,用联合概率密度函数法训练学习阶段的数据,再用EM 算法提取函数;转换阶段主要是以倒谱函数的形式转换所求的函数,根据训练阶段的结果提取所转换的谐波
44㊃
参数㊂
2.2语音信号预处理㊂在AMR/PCM类型语音间转换信号预处理过程中,需先对信号进行去噪处理,剔除
噪声信号,然后添加延迟窗,对后续的参数训练㊂由于在语音信号采集周期中,采集频率越高,所对应的成分就越小,不利于高频特征提取,因此,对语音信号预处理是具有必要性的,以便对其参数进行估计和分析㊂其原因在于提高了语音信号中高频成分的比例,提高了信号信噪比,实现了信号频谱平滑㊂为改善高频特性,一般采用6dB/倍频度强化梳状滤波来过滤多余信号,使处理结果更加可靠,然后再进行数字处理和参数估计㊂
使用码激励线性预测模型,AMR作为语音编码标准,其输入语音采样速率为15kHz,属于窄带语音编码,由于采样速率不同,编码技术存在较大差异,因此,使用16阶线性预测可得到合成信号㊂
2.3特征参数提取㊂
(1)提取AMR基音频率㊂AMR基音频率能够实时反映AMR格式内容的韵律,该韵律特征占整个语音特征的70%,而剩下的30%特征,是由LPC基频语音转换方法,将剩余的语音信号转换成语音片段形式㊂在分析和综合正弦谐波模型时,其核心内容是准确获取基频参数,采用简化的反滤波方法估计基音周期㊂
简化的反滤波方法提取原理为:先对采集的语音信号进行线性预测分析,得到所需的预测信号,再使用反滤波方法,选取若干个质量较好的波形事件,构成多道信号,以垂直分量为输入,径向分量为输出,依据最小二乘法,出波峰位置,计算语音信号的基音周期㊂
(2)提取AMR频谱㊂以往使用幅度谱提取频谱,该方法是一个频域参数,通过使用快速傅立叶变换技术测定频域分布情况,不符合人类听觉频率波动特性㊂其次,各帧基频不一致,导致各帧谐波幅值大小不同㊂而使用离散的MFCC 方法是以人的听觉感知机制为基础的,即依据提取AMR基音频率,再次使用简化的反滤波方法提取频谱㊂为了获取更好的频谱提取结果,需从正弦谐波模型中提取谐波幅值参数,将其转换为离散的MFCC参数,使提取数据更具有可靠性㊂手机文件格式转换器
2.4训练模块㊂训练模块的设置目的就是为了获取一个有效数据集,该数据集包括不同说话者之间的高效转换数据㊂在该阶段,首先提取语音特征参数,即为基音频率和谐波幅度;然后使用一种改进的MFCC特征参数将小波分析和MEL倒谱分析结果,提高AMR基音频率和AMR频谱特征参数提取的鲁棒性,使其能够更好模拟AMR语音内容;最后,通过构造基因频率的一维高斯函数,直接将特征参数转化为均值方差的线性变换参数,从而获取训练后的PCM类型语音形式㊂
2.5转换合成㊂根据训练结果,可将转换期设置为三个部分:基音频率转换㊁频谱包络转换和正弦谐波模型合成㊂将转换后的音质加入合成模块中,并将谐波幅值转换为离散的MFCC,再利用DTW对相应的参数进行对准,之后使用高斯混合模型GMM的EM算法获得转换函数㊂最终映射函数是GMM的权值㊁均值和方差集,组合该模型中的不同数据,可得到n组数据,形成文本内容特征参数对,由此完成语音转换合成㊂各个部分详细步骤为:
(1)基音频率转换㊂使用均值方差处理方式,预处理基音频率,根据该频率线性原理设计基音频率转换步骤:首先使用SIFT法求取基因频率的高斯均值和方差,在自相关曲线上寻基因峰值,有效去除峰值中的 野点 ㊂基因频率经过时间归一化处理后,得到转换后的基因频数㊂根据该频数,确定源语音激励特性,由此完成基音频率转换㊂
(2)频谱包络转换㊂预处理源语音,通过正弦谐波分析,估计谐波幅度倒谱参数,依据动态转换规则,获取转换后倒谱参数,由此完成频谱包络转换㊂
(3)正弦谐波模型合成㊂在上述两个部分支持下,结合正弦谐波特性,将转换的参数通过谐波正弦表达式,合成转换为基础语音模式㊂在整个合成过程中,对参数进行进一步处理,通过使用线性插值法代替语音文件,根据电子数字计算机特点,对用折线近似函数的差值方法进行简化处理,确定基础音段,以此提高语音合成质量㊂
2.6语音格式转换流程设计㊂根据上述转换结果,将AMR格式下的5000Hz语音文件转换为PCM格式下的7000Hz语音文件,输入文件名包含语音转换系统㊂AMR到PCM的语音格式转换思路为:先解码AMR语音格式线性预测LP系数,然后推导PCM自相关系数,该系数是网络延迟后的结果,因此在转换过程中应去掉延迟窗影响㊂接着由PCM自相关系数按照请浊音分类内插,获取PCM自相关系数,并加上延迟窗,利用递推式求解线性预测LP系数,并加重,得到PCM线性预测LP系数,完成AMR到PCM的语音格式转换㊂调用信息输出模块,输出转换成功信息和错误信息㊂图2中显示了语音格式转换流程
由图2可知,语音转换的实质是在改变原说话者的性格参数的同时,保持AMR格式下的5000Hz语音文件内容不变,从而使转换的语音具有原始语音特征㊂通过改变源语音信号的激励特性和信道频谱特性,获取PCM7000Hz语音文件㊂
3㊀结束语
基于语音合成的语音转换技术是当前语音信号处理的核心部分,其发展促进语音分析㊁合成和增强技术的快速发展㊂语言转换系统包括语言训练和语言转换两部分,采用正弦谐波模型进行参数分析㊁估计和综合,采用GMM方法提取语音激励和信道特征,通过GMM方法训练参数,获得参数变换准则,实现不同语音格式间的高效转换㊂
参考文献:
[1]王磊,何勇,张宇,等.基于便携式语音的智能家居系统的设计与实现[J].计算机工程与设计,2018,39 (05):98-103.
[2]曹春香.语音特征和情感特征的翻译系统与实现[J].现代电子技术,2018,v.41;No.516(13):123-127.
[3]刘蕾.智能播种机嵌入式英语语音识别控制系统设计与研究[J].农机化研究,2018,40(012):240-244.
[4]李豪,侯文军,陈筱琳.基于因子分析的智能手机
语音系统设计评估体系[J].包装工程,2018,039(016):42 -49.
作者简介:王枫,19810613,男,汉,江苏省南京市,硕士,中级工程师,目前4GLTE㊁5GC专网集通信核心网研发工作㊂
㊃54㊃

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。