数字语音信号处理的应用价值及发展趋势
姓名:宁闯 学号: 201005107 众所周知,
语音在人类社会中起了非常重要的作用。 在现代信息社会中, 小至人们的日
常生活,大到国家大事、世界新闻、社会和各种重要会议,都离不开语言和文字。近年 来,普通电话、
移动电话和互联网已经普及到家庭。在这些先进的工具中, 语音信号处理中
的语音编码和语音合成就有很大贡献。再进一步,可以预料到的口呼打字机 (
又称听写机, 它能把语音转换为文字 ) 、 语音翻译机 (
例如输入为汉语,输出为英语, 或者相反 )
,已经不是
梦想而是提到日程上的研究工作了。 20 世纪 60
年代中期形成的一系列数字信号处理方法和算法 ,
如数字滤波器、快速傅 里叶变换 (FFT)
是语音数字信号处理的理论和技术基础。而 70
年代初期产生的线性预测编. 码 (LPC) 算法 ,
为语音信号的数字处理提供了一个强有力的工具。语音信号的编码和压缩是 语音信号处理的主要内容。语音信号处理在通信、 语音识别与合成、自然语言理解、多媒体 数据库以及互联网等多个领域有广泛的应用 ,
同时它对于理解音频类等一般的声音媒体的 特点也有很大的帮助。对于移动通信来说 ,
最多的信息是语音信号 ,
语音编码的技术在数字 移动通信中具有相当关键的作用 ,
高质量低速率的语音编码技术是数字移动网的永远的追 求。所谓语音编码是信源编码 ,
它是将模拟语音信号变成数字信号以便在信道中传输。除了 通信带宽的要求外 ,
计算机存储容量的也要求对语音信号进行压缩 ,
以满足海量数据情
况下进行实时或准实时计算机处理的目的。 1
语音信号处理的关键技术
语音信号处理的理论基础就是一般的数字信号处理理论 ,
它的主要研究内容是语音编 码和语音压缩技术。
考虑到人对听觉媒体的感应特点 ,
研究语音信号处理必须与声音心理学
联系起来。因此这里我们把声音心理学也列为语音信号处理的关键技术之一。 (1) 声音心理学
声音的物理属性和心理属性既有联系也有区别。 声音有两个最明显的量纲 ,
即响度和音 调 ,
其它还有音色、谐和、不谐和和乐音等等。物理属性主要有强度和频率。声音的正弦波 的强度增加 ,
声的响度也增加 ; 频率增加 ,
音调则增高。 但这些关系不是线性的 ,
且是耦合的 ,
如频率的变化既影响响度也影响音调。其数量上的关系可以用等响曲线
等来描述。但更精 确。关系复杂 ,
难以建立量化模型。如即使想从客观上给出声音失真度的度量都很困难。
人的大脑处理听觉信息还有一些特性 ,
产生了一些客观存在的效应 ,
如屏蔽效应。 声的响
度不仅取决于自身的强度和频率 ,
而且也依同时出现的其它声音而定。 各种声音可以互相掩 蔽 ,
一种声音的出现可能使得另一种声音难于听清。 它分为听觉屏蔽、 频谱屏蔽和瞬态屏蔽。
频谱屏蔽是高电平音调使附近频率的低电平声音不能被人耳听到。 声音的屏蔽特性可以用于 声音特别是语音信号的压缩。
(2) 语音编码
语音编码分为三类 :
波形编码、参量编码和混合编码。
波形编码是将时域信号直接变换为数字代码 ,
其目的是尽可能精确地再现原来的话音波形。 自适应量化、自适应比特分配和矢量量化等等。 2
在语音识别与合成中的应用
语音识别的研究是从 20 世纪 50 年代开始的 , 但直到 60
年代中期才取得了实质性进 展 ,
其重要标志就是日本学者 Itakura
将动态规划算法用于解决语音识别中语速多变的难题 ,
提出了动态时间收缩算法 (DTW:Dy2nam ic TimeW arping) 。其基本思想是 : 在训练阶段
, 从
词汇表中通过语音信号处理技术提出每个词的特征向量 (
时域特征、频域特征、尺度特征及 联合分布特征 ),
作为标准模板存入模板库中。 在识别阶段 ,
将输入语音的特征向量依次与模 板库中的各个标准模板进行比较 ,
计算类似度 ,
将类似度最高的标准模板所对应的词汇输 出。在这里和一般的模式识别不一样 ,
存在几个问题 :
说话者语速不一致的问题 ; 大词汇表
的问题导致计算量大的问题 ;
协同发音的问题 (
即同一音素的发音随上下文不同而变化 ); 对
于非特定人语音识别 ,
还有一个语音多变性的困难。
语音识别的这些问题 ,
除了在优化算法上应有所突破外 ,
一个最根本的问题是语音特征 量的提取问题。
目前能够用于模板匹配的特征向量还不能达到少而精的要求。. 能够反映特定
人和非特定人在语速变化下的不变特征量、 在连续语音识别中的协同发音不变量等特征量还
有待进一步的研究。这些工作的进展依赖于语音信号处理技术及一般的信号处理技术的突 破。语音合成技术就是所谓“会说话的机器” 。它可分为三类 :
波形编码合成、参数式合成
和规则合成。波形编码合成以语句、 短语、词或音节为合成单元。 合成单元的语音信号被录 取后直接进行数字编码 ,
经数据压缩组成一个合成语音库。重放时根据待输出的信息 , 在语
音库中取出相应的合成单元的波形数据 ,
将它们连接在一起 ,
经解码还原成语音。参数式合
成以音节或音素为合成单元。首先对所有待合成单元的语音进行分析 ,
提取有关语音参数 ,
将其编码后组成合成语音库。
输出时根据待合成的语音信息从语音库中取出相应的合成参数 ,
经编辑和连接 ,
顺序送入语音合成器。 语音合成器在合成参数的控制下 ,
重新还原语音波形。
规则合成则是通过语音学规则产生语音。 3
多媒体数据库中的语音数据检索
所谓基于内容检索就是从语音媒体数据中提取出特定的信息线索 ,
然后根据这些线索
从大量存储在数据库中的语音媒体中进行查找 ,
检索出具有相似特征的语音数据。 语音的音
调、含义等是难以用符号化方法描述的信息线索。人能够理解语音的含义 ,
但要利用这些语
义线索对语音数据库进行检索就不得不在建立数据库时就事先输入并与媒体数据一起存储 对应的字符信息 ,
对这些语音的语义进行描述。在检索时 ,
由人把这些语义再转换为相应的 字符 ,
根据字符的匹配查找相应的媒体息。很显然 ,
这个转换过程妨碍了有效地交互 , 被称
为“转换障碍” ,
很难满足用户的各种需求。对设计者来说 ,
给语音数据赋予能够表示全部 语义特征的关键词也非常困难 ,
这与个人的经验、知识和对语音信息的理解程度相关 , 而且
也并不是所有对象的所有特征都能用字符来描述。 基于内容检索就是要从媒体中直接地提取 媒体的语义线索 ,
根据这些语义线索进行检索。
这就把检索过程与语义的提取直接地联系到 了一起 ,
使得检索过程更加有效和适应性更强。
基于内容的语音检索是一种集成综合技术 ,
不仅要确定是否能够找到 ,
而且还要确定相 应的输入输出方法、 存储方法、
媒体间的组织方法等。
它建立新的媒体数据表示方法和数据 模型 ,
采用有效和可靠的查询处理算法 ,
使用户可以在智能化的查询接口的辅助下完成查询 检索工作。
基于内容的语音检索技术一般用于多媒体数据库中 ,
也可以单独的建立应用系统 ,
如语音库系统。 该检索系统一般包括 : 插入系统 ,
特征提取子系统 , 数据库 ,
查询子系统。 其
中特征提取子系统其基本原理在时间轴上对模拟话音按一定的速率抽样 ,
然后将幅度样本
分层量化并用代码表示。 对于比特速率较高的编码信号 ,
波形编码技术能够提供相当好的话 音质量 ,
但对于低速率语音编码信号
,
波形编码的话音质量显著下降。
参量编码是将信源信号在频率域或其它正交变换域提取特征参量 ,
并将其变换为数字 代码进行传输。
它是以发音机制的模型作为基础 ,
用一套模拟声带频谱特性的滤波器系数和 若干声源参数来描述这个编码。 这种编码技术能实现低速率语音编码。 下面将要重点介绍的 线性预测编码 (LPC)
和它的各种改进型都属于参量编码。混合编码是近年来提出的 , 它将波
形编码和参量编码结合起来 ,
力图保持波形编码的高质量和参量编码的低速率的优点。 它既
包括若干语音特征参量又包括部分波形编码信息。 LPCC 如果声道特性 H(Z) 用式 (14)
所示的全极点模型表示,有 1 1
1 p n n n S z H z I z a z 式中, S(z) 和 I(z)
分别为语音信号 n s 和激励源 n i 的 Z 变换。
对人的听觉来说,浊音是最重要的语音信号。对于浊音,模型的激励信号源 e(n) 是以基音周
期重复的单位脉冲,此时有 1 I z
。可得. n s 的 Z 变换 S(z) 为 1 1 1 p n n n S z a z
( 17 ) 式中, 1,2, , i
a i p 为 P
阶线性预测系数。根据倒谱的定义,对具有最小相位特征的语音 信号 n s ,有 1 ln n n n S z C z c z
( 18 ) 式中, n c
为语音信号的倒谱。将式 (16) 代入式 (17) ,并对两边 1 z 求导,得 1
1 1 1 1 ,1 n n n k n k k c a k c a a c n p n
( 19 )
根据上式即可由线性预测系数通过递推得到倒谱系数, 将这样得到的倒谱称为线性预测倒谱 系数 (2)
语音数据压缩技术
要实现低速率、高质量和少容量的语音编码 ,
必须采用信息压缩技术。语音信息压缩技
术可分为两类 :
波形处理技术和量化技术。波形处理技术的目标是削减语音波形的冗余度 ,
包括线性预测分析、 频带分割、
正交变换和分析合成等。
量化技术的目标是在幅度量化上实
现优化。媒体的内容语义是基于内容检索的基础 ,
与任务有关也与领域有关。基于内容的检 索应该阶段完成 ,
第一阶段先用无领域知识的方法缩小检索空间 ,
第二阶段再逐步利用领域 知识进行更细致的查找和匹配。
声音的内容检索包括特定模式的查找 ,
特定词、短语、音乐旋律和特定声音的查找等。 早期的研究更多的是致力于语音内容的识别。 但对数据库来说查找非语音信号可能会更有效 ,
例如讲话人的性别 ,
声音的间隔 ,
特殊的背景于前景声的组合等。 由于声音常常伴随其它媒体 存在 ,
寻找这些特征有利于对其它媒体的检索。例如 ,
在足球比赛时 ,
一阵大声的喧哗可能 意味着进了球 ,
只要能够检索出这段声音
,
对视频的索引也就可以基本确定。特征匹配是基 于内容检索最关键的部分。 预加重 DFT 、 FFT Log MEL 频率滤 波器组 DCT 求倒谱
从上述论述可以知道 ,
基于内容的语音检索中的关键技术是语音特征的提取。 建立分层
的语音特征表示将有利于特征提取 ,
同时也便于不同层次的语音信息的检索与新的信息发 现。
现代数字信号处理的进步都能在语音信号处理技术中得到应用。 语音信号是最能体现信 号非线性的一个领域。
现代数字信号处理的一个主要发展趋势是对非线性、 非平稳信号的研 究。 因此 ,
循环平稳信号分析、
多谱分析和时频尺度理论对于语音信号的表示 ,
关键特征的捕.
捉有很重要的应用前景。在此基础上 ,
结合语音语义理论的研究 ,
开展多层次的语音信号的
表示将对语音信号的应用有重要价值。
目前,语音理解技术开始使计算机丢掉了键盘和鼠标,人们对语音理解的研究重点正 拓展到特定应用领域的自然语音理解上。 一些基于口语识别、
语音合成和机器翻译的专用性 系统开始出现,
如信息发布系统、语音应答系统、 会议同声翻译系统、 多语种口语互译系统 等等,
正受到各方面越来越多的关注。
这些系统可以按照人类的自然语音指令完成有关的任 务,提供必要的信息服务,实现交互式语音反馈。
语音是语言的声学表现形式,
是最符合人类自然习惯的一种人际信息传播方式, 具有便
捷性、高效性、随机性、交互性等显著特点,是实现人机交互的一种重要通信方式。可以预 见,
随着计算机技术、
数字信号处理技术和大规模集成电路的迅速发展, 语音信号数字处理
技术将成为信息化战争不可或缺的重要组成部分,并直接进入到信息化战争的前沿。