语音识别基础,总有一天你会用到 今天语音搜索了吗( 三 )


语音识别基础,总有一天你会用到 今天语音搜索了吗

文章插图

  • :在汉语里 , 最小的语音单位是音素 , 是从音色的角度分出来的 。
  • :一个音素单独存在或几个音素结合起来 , 叫做音节 。可以从听觉上区分 , 汉语一般是一字一音节 , 少数的有两字一音节(如“花儿”)和两音节一字 。

语音识别基础,总有一天你会用到 今天语音搜索了吗

文章插图

2.2 信号的数字化和预处理 接下来就要将收集到的语音转化为一系列的数值 , 这样机器才可以理解 。a)数字化 声音是作为波的形式传播的 。将声波转换成数字包括两个步骤:采样和量化 。
语音识别基础,总有一天你会用到 今天语音搜索了吗

文章插图

为了将声波转换成数字 , 我们只记录声波在等距点的高度 , 这被称为采样(sampling) 。采样定理(Nyquist theorem)规定 , 从间隔的采样中完美重建原始声波——只要我们的采样频率比期望得到的最高频率快至少两倍就行 。
语音识别基础,总有一天你会用到 今天语音搜索了吗

文章插图

经过采样 , 我们获取了一系列的数字 , 这些数字才可以在机器上进行建模或计算 。我们每秒读取数千次 , 并把声波在该时间点的高度用一个数字记录下来 。把每一秒钟所采样的数目称为采样频率或采率 , 单位为HZ(赫兹) 。「CD 音质」的音频是以 44.1khz(每秒 44100 个读数)进行采样的 。但对于语音识别 , 16khz(每秒 16000 个采样)的采样率就足以覆盖人类语音的频率范围了 。b)采样信号预处理 这里的预处理主要指 , 分帧处理 。因为语音信号是不平稳的、时长变化的 , 如下图:
语音识别基础,总有一天你会用到 今天语音搜索了吗

文章插图

我们把它分隔为一小段一小段(10毫秒-40毫秒)的短语音 , 我们认为这样的小片段是平稳的 , 称之为 。在每个帧上进行信号分析 , 称为语音的短时分析 。
语音识别基础,总有一天你会用到 今天语音搜索了吗

文章插图

图中 , 每帧的长度为25毫秒 , 每两帧之间有25-10=15毫秒的交叠 。我们称为帧长25ms、帧移10ms的分帧 。帧移的事情就不详细解释了 , 它是为了保证语音信息的完整性 。感兴趣的同学可以查一下 , 加窗/窗函数 。那为什么需要平缓的分帧呢?因为我们需要做傅里叶变化 , 它适用于分析平稳的信号 。(想弄明白傅里叶变换的 , 之后可以参考文章末尾的链接) 人类是根据振动频率判断声音的 , 而以时间为横轴(时域)的波形图没有振幅描述 , 我们需要做傅里叶变换 , 将它变成以频率为横轴(频域)的振幅描述 。2.3 特征提取 特征提取就是从语音波形中提取出能反映语音特征的重要信息 , 去掉相对无关的信息(如背景噪声) , 并把这些信息转换为一组离散的参数矢量。a)特征提取 如何提取呢?我们经过采样 , 预处理 , 将这些数字绘制为简单的折线图 , 如下所示 , 我们得到了 20 毫秒内原始声波的大致形状:


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: