来自大型多样的无序语音数据集的个性化,语音特征参数有哪些

来源：整理时间：2022-04-24 18:49:57 编辑：科技知识手机版

因此，共振峰是语音信号处理中一个非常重要的特征参数，作为语音识别的主要特征和语音编码传输的基本信息，已经得到了广泛的应用。先说语音识别的典型应用。一、语音识别原理语音识别，以目前主流的ASR-自动语音/语言识别技术为例，实现将音频波形(模拟信号)转换为文字(符号)的功能。

语音识别是什么？

语音识别是什么

所谓的语音识别技术，简单的说就可以用一句话来概括：将语音转化成文字的技术。当然如果要展开说的话，可能说三天三夜都说不完。先说一说语音识别的典型应用都有什么。第一个最典型也是最常见的应用就是输入法，所谓的语音输入法。现在几乎所有的主流输入法都支持语音输入。比如说搜狗输入法，讯飞输入法，百度输入法等等。你在使用这些输入法的时候按住空格键，然后对着麦克风说话，输入法就会自动的把你说的每一句话，每一个词每一个字都转化成文字。

如果你的普通话说的非常标准的话，你会发现你在手机上的打字效率变得非常之高，甚至超越了你在电脑上的打字速度。第二个比较典型的应用，但是普通人平时见得比较少的，是在司法机构的速记，当然凡是需要速记的地方应该都会需要这种应用。过去有一种工作叫速记员，他们在有需要将谈话内容，会议内容记录下来的场合，发挥自己超强的打字天赋，将语音的内容通通的记录成文字。

当然这对人的打字速度要求非常之高，于是语音识别技术就非常顺理成章地应用在了这个领域。有了这个技术，速记员只需要将已经被机器转化成的文字进行校对即可。当然语音识别技术还有很多很多其他的更不太常见的应用，只要需要将语音转化成文字的地方都会用到。有的人会问，为什么需要将语音转化成文字呢？因为在计算机领域，语音是一种模拟信号，既不利于保存，也不利于进行分析，尤其是不利于进行分析。

如果能够将语音这种模拟信号转化成文字，那么利用已经非常成熟的大数据技术，就可以进行更深度的挖掘和分析，甚至于进行下一步的相关的人工智能应用，比如自然语言理解方面的应用。最后再说一下，现在的语音识别技术已经发展到什么程度了。建议每一个人都使用自己手机上的语音输入法试一下，看看精度如何。作为人工智能领域最成功的商业化案例之一，语音识别技术正在被却来越多的应用在日常生活当中的方方面面。

元音的共振峰与舌位有什么关系？

语音识别是什么

共振峰是指在声音的频谱中能量相对集中的一些区域，共振峰不但是音质的决定因素，而且反映了声道（共振腔）的物理特征。元音和响辅音声谱包络曲线上的峰巅位置。共振峰的本义是指声腔的共鸣频率。在元音和响辅音的产生中，声源谱经过声腔的调制，原来谐波振幅不再随频率的升高而依次递减，而是有的加强，有的减弱，形成有起伏的新的包络曲线，曲线峰巅位置的频率值和声腔共鸣频率是一致的。

就元音来说，头三个共振峰对其音色有质的规定性；其中头两个共振峰对舌位的高低前后特别敏感，声学元音图就是根据这两个共振峰的频率值绘制的。共振峰三维语图上表现为能量集中的横杠。共振峰是反映声道谐振特性的重要特征，它代表了发音信息的最直接的来源，而且人在语音感知中利用了共振峰信息。所以共振峰是语音信号处理中非常重要的特征参数，已经广泛地用作语音识别的主要特征和语音编码传输的基本信息。

共振峰信息包含在频率包络之中，因此共振峰参数提取的关键是估计自然语音频谱包络，一般认为谱包络中的最大值就是共振峰。共振峰产生的原理及其在音质上的体现共振峰的分布位置是建立在声音产生媒介的共鸣物理结构基础上的（Resonant Physical Structure）。无论是人声还是乐器，它们的声音特性都源自两个因素，一个是发声系统，如人的声带或乐器的振动簧片，另一个是共鸣系统。

乐器不同的共鸣系统使其在一定频域中的分音的振幅得以突出，这样，这些区域就产生了这个乐器所特有的共振峰值，这些共振峰值同共鸣体的大小、形状的材料密切相关。由于一件乐器的结构是稳定的，因此在一件乐器发出的所有音调中，不论基频如何，都会表现出相同的共振峰值，只不过其显著性有强有弱罢了。这就可以帮助我们解释为什么在很多的乐器中，同一乐器所发出的不同音调具有相同的音质。

语音识别技术原理，语音识别是如何实现的？

语音识别技术原理，语音识别是如何实现的

感谢您的提问。文中缺失公式，由于这里编辑不方便，后面补充完整回答截图。一. 语音识别原理语音识别，以目前的主流ASR-自动语音/语言识别技术为例，实现的功能是把音频波形（模拟信号）转换为文字（符号）。其原理可以理解为一个计算机系统，输入语音，并分解为词、字、音节等元素，通过与软件内部存储好的特征元素（模型）进行模式匹配，找到最可能接近的文字、词语或语句并输出。

ASR方法是建立在概率论与统计学科上。这与人类对话交流的过程有异同：区别在于人类对话时，声音是通过耳朵进入大脑直接处理，不需要转变成文字，否则文盲就不能与他人沟通，事实并非如此；相同点是都需要一个学习的过程，幼儿学说话是个反复强化记忆的过程，ASR的模型也需要语料的训练，得到一个合适参数的模型结构用来推理。

二. 语音识别技术的工程实现1.一种主流典型的ASR框架特征提取：经典的MFCC梅尔频率倒谱系数法——对输入端的经过增强、去噪等预处理后的音频波形文件进行特征提取，主要是滤波、截断（分帧）、加窗、快速傅立叶变换FFT等信号处理操作，得到短时语音信号的功率谱，再经过三角窗滤波、log对数、离散预选DCT、谱加权、倒谱均值减CMS、一二阶差分等操作，得到特征矢量，即可观测的词条序列；假设最终期望识别得到的词条序列是。

需要成立一个语音词典或参考模型库，其中存放的是可能的词条序列（人为设置），作为独立于语音特征矢量，即词条序列在相应语言库中出现的概率；声学模型：对声学单元建模，每个声学元素由连续的多个状态和状态之间的转移组成，用概率密度函数状态转移概率。可近似理解为一套数据结构和数学操作，实现的是进来一个声音单元（可以是音素、字、词、句），输出一组二进制序列/向量。

这里以经典的隐马尔可夫-高斯HMM-GMM统计模型为例（现在许多用DNN替代GMM）。声学模型输出条件概率序列标记为；语言模型：声学模型智能识别某段音素序列，不能识别词语。语言模型描述词语之间语法规则，通过概率密度分布函数来识别词条。语言模型有基于文法规则和统计类型的，后者是目前的主流，例如N元文法N-gram模型，就是根据前面n个音素预测第n 1音素。

实际中需要用到平滑和剪枝算法，不详述。语言模型的输出是先验概率；解码器：对矢量序列按照统计准则（贝叶斯等）计算条件概率，通常用Viterbi算法实现，动态规划的最优化选择，原理是搜索最大概率状态序列进行求解，具体不详述。2.上述框架的完整识别过程：声学模型输出条件概率序列标记为，输出语言模型输出先验概率，语音词典可能的词条序列，有了这三个数组，我们就可以得到语音识别结果。

用数学公式表达如下：由最大后验准则MAP和贝叶斯公式：根据假设独立性和搜索过程不变，上式简化为：对于连续语音识别的过程，可以理解为：经过MFCC得到的特征序列进入声学模型；声学模型中，每个字词都有对应的HMM等参数，通过声学特征对字词进行搜素得到特征序列的待定字词；候选字词进入语言模型，通过词法规则和语言模型得到待定词句；再由句法等语言模型搜索得到完整的识别语句。

3.语音识别技术的其他重点:语料准备:人工智能，也就是人工数据“喂”出来的智能。模型的训练需要事先准备大量的语音语料库和文本语料库，类型包括一般领域和特定领域。语料处理:需要对语料进行清洗和标注，包括元文本标准、重音标注、词汇标注、句法标注、语义标注等。训练:声学模型需要大量的语音语料库训练；语言模型需要大量的文本语料库训练；ASR的难点包括:非特定人、非孤立词、词汇量大、长时间不间断发音。