How to do Speech Recognition with Deep Learning

2019/03/22 机器学习深度学习 NLP

本文译自：https://medium.com/@ageitgey/machine-learning-is-fun-part-6-how-to-do-speech-recognition-with-deep-learning-28293c162f7a

如何用深度学习做语音识别

Andrew Ng 说语音识别从让人恼怒的不可靠到令人难以置信的有用中间只有4%的距离，是深度学习让这一切成为可能。

机器学习的过程不总是黑盒，我们将语音记录喂给神经网络，就可以得到纯文本输出。其过程如下如所示：

但问题是，每个人发音的习惯不同，同样说‘Hello’，有人语速极快，有人说的很慢。因此建立可靠的识别模型就需要一些小技巧。

一、将声音转换成比特

我们可以记录声波，然后将其用数字形式表示，并形成二维数组。

但声音被采集的原始形式是声波，比如下图就是‘Hello’的声音片段。

‘Hello’的声音片段比较复杂，先看一个简单的声音片段：

虽然声音是一维的，但加上时间属性后，我们可以将它转为二维图像。

这就是“采样”。我们对样本进行每秒千次的阅读便可以准确的记录它的数据。下图是“Hello”的前100个采样数据：

但又有一个问题，采样的数据就一定等于原数据吗？

理论上来说，只要以我们所需采集的数据最高频的两倍来采集数据，就可以完美呈现近似原音的效果。很多人以为采集数据次数越多，数据点越紧密效果越高，其实这是错误的。

二、预处理声音数据

拿到数据后，我们要对其进行预处理，这个过程会面临很多问题。比如，声音片段并不都是纯粹的标准样本，现实环境复杂多变，说话者可能是在嘈杂的环境下讲话，并且伴有严重的连读和口音，这都给语音识别增加了困难。

首先来看看我们以1/16,000次每秒为间隔采集到的数据：

在坐标系里绘制这些点集，可以得到近似原声波的图：

这个声音片段是由不同频率的声音复杂组合而成。为了使它更容易被神经网络处理，我们将其分离出低音部分，再分离出下一个低音部分，以此类推。然后将（从低到高）每个频段（frequency band）中的能量相加，我们就为各个类别的音频片段创建了一个指纹（fingerprint）。就像把一段音乐分离成一个个单独的音符一般。

这时需要借助傅里叶变换，它将复杂的声波分解为简单的声波，每一份频段所包含的能量不同，将能量相加，就能得到从低音到高音，每个频率范围的重要程度。以每 50hz 为一个频段的话，我们这 20 毫秒的音频所含有的能量从低频到高频就可以表示为下面的列表：