语音信号短时能量,什么是语音信号短时分析

语音识别技术原理，语音识别是如何实现的？

语音识别是什么

感谢您的提问。文中缺失公式，由于这里编辑不方便，后面补充完整回答截图。一. 语音识别原理语音识别，以目前的主流ASR-自动语音/语言识别技术为例，实现的功能是把音频波形（模拟信号）转换为文字（符号）。其原理可以理解为一个计算机系统，输入语音，并分解为词、字、音节等元素，通过与软件内部存储好的特征元素（模型）进行模式匹配，找到最可能接近的文字、词语或语句并输出。

ASR方法是建立在概率论与统计学科上。这与人类对话交流的过程有异同：区别在于人类对话时，声音是通过耳朵进入大脑直接处理，不需要转变成文字，否则文盲就不能与他人沟通，事实并非如此；相同点是都需要一个学习的过程，幼儿学说话是个反复强化记忆的过程，ASR的模型也需要语料的训练，得到一个合适参数的模型结构用来推理。

二. 语音识别技术的工程实现1.一种主流典型的ASR框架特征提取：经典的MFCC梅尔频率倒谱系数法——对输入端的经过增强、去噪等预处理后的音频波形文件进行特征提取，主要是滤波、截断（分帧）、加窗、快速傅立叶变换FFT等信号处理操作，得到短时语音信号的功率谱，再经过三角窗滤波、log对数、离散预选DCT、谱加权、倒谱均值减CMS、一二阶差分等操作，得到特征矢量，即可观测的词条序列；假设最终期望识别得到的词条序列是。

需要成立一个语音词典或参考模型库，其中存放的是可能的词条序列（人为设置），作为独立于语音特征矢量，即词条序列在相应语言库中出现的概率；声学模型：对声学单元建模，每个声学元素由连续的多个状态和状态之间的转移组成，用概率密度函数状态转移概率。可近似理解为一套数据结构和数学操作，实现的是进来一个声音单元（可以是音素、字、词、句），输出一组二进制序列/向量。

这里以经典的隐马尔可夫-高斯HMM-GMM统计模型为例（现在许多用DNN替代GMM）。声学模型输出条件概率序列标记为；语言模型：声学模型智能识别某段音素序列，不能识别词语。语言模型描述词语之间语法规则，通过概率密度分布函数来识别词条。语言模型有基于文法规则和统计类型的，后者是目前的主流，例如N元文法N-gram模型，就是根据前面n个音素预测第n 1音素。

实际中需要用到平滑和剪枝算法，不详述。语言模型的输出是先验概率；解码器：对矢量序列按照统计准则（贝叶斯等）计算条件概率，通常用Viterbi算法实现，动态规划的最优化选择，原理是搜索最大概率状态序列进行求解，具体不详述。2.上述框架的完整识别过程：声学模型输出条件概率序列标记为，输出语言模型输出先验概率，语音词典可能的词条序列，有了这三个数组，我们就可以得到语音识别结果。

用数学公式表达如下：由最大后验准则MAP和贝叶斯公式：根据假设独立性和搜索过程不变，上式简化为：对于连续语音识别的过程，可以理解为：经过MFCC得到的特征序列进入声学模型；声学模型中，每个字词都有对应的HMM等参数，通过声学特征对字词进行搜素得到特征序列的待定字词；候选字词进入语言模型，通过词法规则和语言模型得到待定词句；再由句法等语言模型搜索得到完整的识别语句。

三. 语音识别技术其他关键点：语料准备：人工智能，是用人工的数据“喂”出的智能。模型的训练需要提前准备大量的语音语料和文本语料，类型包括通用领域和特定领域。语料处理：语料需要清洗和标注，包括元文本标准、重音标注、词法标注、句法标注、语义标注等。训练：声学模型需要大量语音语料训练；语言模型需要大量文本语料训练；ASR的难点包括：非特定人、非孤立词、词汇量大、长时间不间断语音。

语音信号短时能量,什么是语音信号短时分析

最近更新

相关文章

教育知识最新文章

问答排行榜推荐

教育知识排行榜精选

教育知识文章排行榜

热门标签