首页 > 科技 > 问答 > 科技经验 > 语音识别技术有哪些,一文读懂语音识别技术

语音识别技术有哪些,一文读懂语音识别技术

来源:整理 时间:2022-04-23 15:34:07 编辑:科技知识 手机版

语音识别技术原理,语音识别是如何实现的?

感谢您的提问。文中缺失公式,由于这里编辑不方便,后面补充完整回答截图。一. 语音识别原理语音识别,以目前的主流ASR-自动语音/语言识别技术为例,实现的功能是把音频波形(模拟信号)转换为文字(符号)。其原理可以理解为一个计算机系统,输入语音,并分解为词、字、音节等元素,通过与软件内部存储好的特征元素(模型)进行模式匹配,找到最可能接近的文字、词语或语句并输出。

ASR方法是建立在概率论与统计学科上。这与人类对话交流的过程有异同:区别在于人类对话时,声音是通过耳朵进入大脑直接处理,不需要转变成文字,否则文盲就不能与他人沟通,事实并非如此;相同点是都需要一个学习的过程,幼儿学说话是个反复强化记忆的过程,ASR的模型也需要语料的训练,得到一个合适参数的模型结构用来推理。

二. 语音识别技术的工程实现1.一种主流典型的ASR框架特征提取:经典的MFCC梅尔频率倒谱系数法——对输入端的经过增强、去噪等预处理后的音频波形文件进行特征提取,主要是滤波、截断(分帧)、加窗、快速傅立叶变换FFT等信号处理操作,得到短时语音信号的功率谱,再经过三角窗滤波、log对数、离散预选DCT、谱加权、倒谱均值减CMS、一二阶差分等操作,得到特征矢量,即可观测的词条序列;假设最终期望识别得到的词条序列是。

需要成立一个语音词典或参考模型库,其中存放的是可能的词条序列(人为设置),作为独立于语音特征矢量,即词条序列在相应语言库中出现的概率;声学模型:对声学单元建模,每个声学元素由连续的多个状态和状态之间的转移组成,用概率密度函数状态转移概率。可近似理解为一套数据结构和数学操作,实现的是进来一个声音单元(可以是音素、字、词、句),输出一组二进制序列/向量。

这里以经典的隐马尔可夫-高斯HMM-GMM统计模型为例(现在许多用DNN替代GMM)。声学模型输出条件概率序列标记为;语言模型:声学模型智能识别某段音素序列,不能识别词语。语言模型描述词语之间语法规则,通过概率密度分布函数来识别词条。语言模型有基于文法规则和统计类型的,后者是目前的主流,例如N元文法N-gram模型,就是根据前面n个音素预测第n 1音素。

实际中需要用到平滑和剪枝算法,不详述。语言模型的输出是先验概率;解码器:对矢量序列按照统计准则(贝叶斯等)计算条件概率,通常用Viterbi算法实现,动态规划的最优化选择,原理是搜索最大概率状态序列进行求解,具体不详述。2.上述框架的完整识别过程:声学模型输出条件概率序列标记为,输出语言模型输出先验概率,语音词典可能的词条序列,有了这三个数组,我们就可以得到语音识别结果。

用数学公式表达如下:由最大后验准则MAP和贝叶斯公式:根据假设独立性和搜索过程不变,上式简化为:对于连续语音识别的过程,可以理解为:经过MFCC得到的特征序列进入声学模型;声学模型中,每个字词都有对应的HMM等参数,通过声学特征对字词进行搜素得到特征序列的待定字词;候选字词进入语言模型,通过词法规则和语言模型得到待定词句;再由句法等语言模型搜索得到完整的识别语句。

三. 语音识别技术其他关键点:语料准备:人工智能,是用人工的数据“喂”出的智能。模型的训练需要提前准备大量的语音语料和文本语料,类型包括通用领域和特定领域。语料处理:语料需要清洗和标注,包括元文本标准、重音标注、词法标注、句法标注、语义标注等。训练:声学模型需要大量语音语料训练;语言模型需要大量文本语料训练;ASR的难点包括:非特定人、非孤立词、词汇量大、长时间不间断语音。

语音识别和人脸识别,这种技术有什么意义?

首先确认一点,人脸识别和声音识别,对于现在的云数据时代,都属于一种输入渠道,包括我们现在已经离不开的智能手机。 从某种意义上来讲,和智能设备的信息输入来源的进步,决定着当前智能时代或者说大数据时代的发展。智能时代,从某种意义上说,就是用最简单的方式,和智能设备交互。我们在用尽一切办法来让交互变得更简单。

比如我们之前用电脑,现在用手机,更方便的就是现在去超市结账不用手机,可以直接刷脸。这种意义在之前是很大的变革。 这些都是在解决我们和智能设备交互的繁琐过程。让我们能更直接更原始更方便的给智能设备传递我们要表达的信息,从而让它们为我们服务。 所以要判断某些功能是否有必要,只要判断这个功能是否让我们更方便的让智能设备按照我们的意识去执行某种操作而为我们带来某种程度上的便捷即可。

百度语音识别技术那么牛,那么有没有能力窃取用户通话?

这个应该是不会的,如果担心窃取通话的话,可以试试“录音转文字助手”来帮助将语音识别成文字,非常的简单好用。轻松就能够帮助将语音转换成文字的需要。 {!-- PGC_VIDEO:{"thumb_height": 360, "file_sign": "a9e5e6f409d00e1578f7db75ed27b6e2。

文章TAG:语音识别读懂技术一文

最近更新

  • 有的商家发顺丰为什么可以发带电池的电子产品,商家竟然发的顺丰快递

    当时我们有一个食品分类组,里面很多商家,直接是厂家,占了店铺的一半。因为马云要动快递、三通一达的奶酪,无法独立生存。只是他被马云牵着鼻子走,结局肯定不好,最惨的是换成马云自建物流。 ......

    科技经验 日期:2022-06-08

  • 安卓系统为什么臃肿,安卓系统每年都说更流畅

    说实话,安卓这几年在系统流畅的线条上下了不少功夫。安卓不会自动清理后台。有的安卓手机厂商优化不了,或者用的人不知道怎么用好。久而久之,手机开始卡顿。熟悉Android系统开发的R ......

    科技经验 日期:2022-06-08

  • 苹果为什么嚣张,美国如此嚣张从哪儿来的底气

    卖猪肉的梁屠夫,告诉我为什么宇宙不是上帝主宰的。为什么现在科学在发展?反而有人认为宇宙是上帝主宰的。普朗克常数h定义的量子是宇宙中最小的粒子,是宇宙中最基本的变化载体。对宇宙真理的 ......

    科技经验 日期:2022-06-08

  • rx480 为什么没有了,rx480都8g显存了

    想象一下,一个花粉进华为手机专卖店,预算4000元买一部手机。推荐荣耀30Pro还是华为P40?华为和荣耀是同级还是上下级,华为和荣耀是什么关系,兄弟还是父子。买华为意味着产品力比 ......

    科技经验 日期:2022-06-08

  • 太阳为什么温度最高,为什么不会融化

    这也是不对的。如果时间拖得足够长,随着太阳物质核聚变的继续,物质元素融合成铁元素,基本停止反应。重的铁元素会落到太阳表面,或者形成一个固体的太阳球体。随着越来越多的铁落下,对底层的 ......

    科技经验 日期:2022-06-08

  • 流量卡为什么好卡,为什么移动的无限流量这么卡

    无线流量限速问题运营商提出的无线流量卡并不是真正的无限流量。你以为便宜的是垃圾物联网卡。这是惯例。我觉得12流量卡都是正规卡,去过无数坑,所以知道这个月租49块钱很贵,但是100g ......

    科技经验 日期:2022-06-08

  • 为什么火星叫火星,那么金星为什么不叫火星

    他实际上是苏联的二号人物。斯大林死后,他一度有可能成为苏联的领袖,但在他春风得意之时,却被昔日的战友处决了。苏联只用了20多年就赶上了美国。那么,你认为苏联的科技是先进还是落后?我 ......

    科技经验 日期:2022-06-08

  • 为什么摩拜单车变少了,摩拜单车为什么这么难骑

    没办法,穷成这样。买二手的,打折的就行。喜欢苹果手机的人有以下几种可能:全新的6800元左右,二手的4000元左右,没有五官的才2000多点。价格差别还是很大的,所以有些人喜欢便宜 ......

    科技经验 日期:2022-06-08