关于
深度学习在语音识别中的应用。参考文献
- Hinton G E, Deng L, Yu D, et al. Deep Neural Networks for Acoustic Modeling in Speech Recognition[J]. IEEE Signal Processing Magazine, 2012, 29(6).
语音识别现状
- GMM-HMM
- GMM 表达 HMM 态之间的关系;
- 输入的表达:MFCC(Mel-frequency cepstral coefficients),PLPs(perceptual linear predictive coefficients);
以及一阶和二阶时域差分;
- 每一个音节(?)用一个态 s 表示,输入特征 x 到态s的建模 P(x|s) 采用高斯混合模型 GMM,这是一个生成模型。(利用EM算法,很容易拟合数据)
- 用隐马尔科夫模型建模态转移
- DNN 替换 GMM:GMM不能很好的建模低维非线性流形。DNN直接建模条件概率 P(s|x),然后通过贝叶斯法则得到 $(P(x|s) = P(s|x) * P(x) / P(s))。态的标注通过基本的 HMM-GMM 得到?
-
TIMIT database; LVCSR
-
逐层的训练 RBM,第一层隐层保持二进制(硬判决的noise可以作为正则防止过拟合),其他层隐层都用实值的概率值。
- 实值数据(MFCC)建模:高斯贝努力 RBM(Gaussian–Bernoulli RBM (GRBM)),能量函数为:
E(v,h)=∑i∈vis(vi−ai)22σ2i−∑j∈hidbjhj−∑i,jviσihjwij
两个条件分布为:
p(hj|v)=logistic(bj+∑iviσiwij)p(vi|h)=N(ai+σi∑jhjwij;σ2i)