一.语音识别原理语音识别,以目前的主流ASR-自动语音/语言识别技术为例,实现的功能是把音频波形(模拟信号)转换为文字(符号)。先说一说语音识别的典型应用都有什么。所谓的语音识别技术,简单的说就可以用一句话来概括:将语音转化成文字的技术。
语音识别是什么?
所谓的语音识别技术,简单的说就可以用一句话来概括:将语音转化成文字的技术。当然如果要展开说的话,可能说三天三夜都说不完。先说一说语音识别的典型应用都有什么。第一个最典型也是最常见的应用就是输入法,所谓的语音输入法。现在几乎所有的主流输入法都支持语音输入。比如说搜狗输入法,讯飞输入法,百度输入法等等。你在使用这些输入法的时候按住空格键,然后对着麦克风说话,输入法就会自动的把你说的每一句话,每一个词每一个字都转化成文字。
如果你的普通话说的非常标准的话,你会发现你在手机上的打字效率变得非常之高,甚至超越了你在电脑上的打字速度。第二个比较典型的应用,但是普通人平时见得比较少的,是在司法机构的速记,当然凡是需要速记的地方应该都会需要这种应用。过去有一种工作叫速记员,他们在有需要将谈话内容,会议内容记录下来的场合,发挥自己超强的打字天赋,将语音的内容通通的记录成文字。
当然这对人的打字速度要求非常之高,于是语音识别技术就非常顺理成章地应用在了这个领域。有了这个技术,速记员只需要将已经被机器转化成的文字进行校对即可。当然语音识别技术还有很多很多其他的更不太常见的应用,只要需要将语音转化成文字的地方都会用到。有的人会问,为什么需要将语音转化成文字呢?因为在计算机领域,语音是一种模拟信号,既不利于保存,也不利于进行分析,尤其是不利于进行分析。
如果能够将语音这种模拟信号转化成文字,那么利用已经非常成熟的大数据技术,就可以进行更深度的挖掘和分析,甚至于进行下一步的相关的人工智能应用,比如自然语言理解方面的应用。最后再说一下,现在的语音识别技术已经发展到什么程度了。建议每一个人都使用自己手机上的语音输入法试一下,看看精度如何。作为人工智能领域最成功的商业化案例之一,语音识别技术正在被却来越多的应用在日常生活当中的方方面面。
语音识别的技术原理是什么?
看图编码:把语音变成向量频域信息:人类是通过振动频率来判断声音的,所以要用傅里叶变换来完成时域频域之间的转换;特征:如,MFCC是依照人耳的听声特点提出的filter。然后我们有了语音向量。训练:从数据中学习对语音的判断,而不是用人工的规则。声学模型(acoustic model):用于识别语音向量;可用GMM或DNN等方法来识别向量,用DTW或HMM或CTC来对齐(alignment)识别结果的输出(单词从何时开始,何时结束)字典(dictionary):多数模型并不是以单词,而是以音素为识别单位。
当识别出æ p l这三个音素时,利用字典,就可以判断出所说的词是apple。语言模型(language model):我们在听老外说错误的中文时依然能够识别内容是因为我们有关于语法的知识,可以调整声学模型所识别出的不合逻辑的词语。这就是语言模型的作用解码:用训练好的模型组合起来就可以通过判断新的语音向量,来识别语音了。
目前国内的语音识别技术是什么水准?
现在的语音识别技术已经很成熟了,平常使用微信的时候,也可以直接语音转文字,非常方便,不想打字,直接语音录入音频,然后转化成文本的形式!当然,这仅仅局限于微信上使用,如果是超过60秒的会议录音,上课录音,采访录音呢,可以找个专业一点的提词软件,比如“黑狐提词”APP,它可以自动将录音转文字,或者视频转文字,帮助你将文字提取出来!省去了人工花时间去一点点打字,大大提升了工作效率!另外,如果是文字转语音,或者视频变声的话,可以借助“百宝音”APP(安卓搜索“百宝音”,苹果端搜索“百宝音文字转语音”),它的语音合成技术很6,集合了阿里,百度,微软,搜狗等语音技术强大的大厂,上百种发音人任选,而且还有开心,悲伤,忧愁,深情,温和等情绪可选,让你制作出来的声音媲美真人,不管是制作电影解说,故事旁白,课程干货配音等,都可以用它来一键搞定!输入文字即可自动转换成一段声音非常好听的音频,不管是MP3还是MP4的都支持!。