手机录音杂音消除app推荐 语音处理技术( 二 )


四、语音识别(STT)技术思想及原理分析
语音识别就是对发出的语音进行一系列的转换,从波形图最终翻译成对应的文字信息,这个过程中有一个中间的特征来对应两边的语音和文本 。简单来说就是先把语音转成某种特征图,然后让特征图对应到文本信息上 。由于是从声音转换成文本,也称为STT(speech to text) 。语音转文本的具体技术和语音唤醒使用的技术一样,先要把波形图转成频谱图,然后根据梅尔频率倒谱系数进行特征提取,有了特征就可以对应指定的文本信息了 。
应用场景及商业价值
语音识别的好处是,可以代替键盘快速输入文本信息 。比如在某些聊天软件上和对方沟通时,想要发送给对方的是文字信息,但是又不方便键盘输入,这个时候就可以使用语音识别技术来自动将语音转换成文字后再发送 。此外,广义的语音识别包括了所有的语音操作技术,包括语音唤醒、语音命令等一系列和语音相关的技术 。
五、语音合成(TTS)技术思想及原理分析
语音合成与语音识别的应用方向刚好相反,语音识别是STT(speech to text),而语音合成是TTS(text to speech),从二者的名称中就可以看出,语音合成的输入是文本信息,输出是声音信息 。在技术上可以看成是STT的逆向操作 。目前的语音合成方法主要有拼接合成语音和参数合成语音两种 。
应用场景及商业价值
虽然目前的语音合成技术还不是非常成熟,但是在一些要求不太高的应用中已经开始应用了 。目前语音合成的应用主要在新闻广播行业较为广泛,比如搜狗AI合成主播,有了AI合成主播,就可以帮助新闻机构做一些简单的广播了 。当然国外有人拿这个技术配合上图像合成技术,造了一段总统讲话的视频,表情和声音还都挺像的,不仔细甄别,还真看不出来 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: