shartoo +

merlin语音合成讲义一:技术路线概览

本文总阅读量
欢迎star我的博客

一 概览

经典的统计参数语音合成方法的三步

TTS merlin技术路线

单独看前端和后端

TTS merlin技术路线

那么统计模型的任务是

TTS merlin技术路线

可以看到其实统计模型的任务就是做一个sequence-to-sequence的回归

TTS merlin技术路线

即:输入序列(语义特征)回归到输出序列的声学特征。但是由于二者之间不同的声学始终频率而导致长度不一。

TTS merlin技术路线

三 TTS的三个方向

4 术语

  1. 前端 即text$\rightarrow$ linguistic specification
  2. 统计模型回归 linguistic specification$\rightarrow$acoustic features
  3. waveform geneator(波形语音生成) acoustic features$\rightarrow$waveform 4.语言规范(Linguistic specification) 完整的事物

TTS merlin技术路线

  1. 语言特征 独立的元素。

TTS merlin技术路线

  1. 声学特征 帧序列 TTS merlin技术路线

4 从文本到语音

4.1 语言规范

TTS merlin技术路线

使用前端工具从文本中抽取特征

TTS merlin技术路线

4.2 文本预处理

对应的文本处理pipeline为 TTS merlin技术路线

而前端之中的文本预处理详细的划分为: TTS merlin技术路线

需要注意的是,tokenize,POS tag,LTS,Phrase breaks,intonation等都是从标记数据中独立学习得到的。

4.2.1 Tokenize & Normalize

TTS merlin技术路线

  1. 第一步:将输入流划分为token,即潜在的单词

TTS merlin技术路线

  1. 第三步: 对每一类非标准词(NSW),使用一些特殊模块来处理。 TTS merlin技术路线

4.2.2 POS tagging 词性标注

TTS merlin技术路线

TTS merlin技术路线

4.2.3 Pronuncication /LTS

TTS merlin技术路线

发音词典示例

TTS merlin技术路线

4.2.4 语言规范

得到语言规范如下

TTS merlin技术路线

5 语言特征工程

TTS merlin技术路线

5.1 术语

5.2 Flatten & encode:将语言规范转换为向量序列

TTS merlin技术路线

5.3 Upsample:添加时域信息

TTS merlin技术路线

6 统计模型

6.1 声学模型:一个简单的前馈神经网络

TTS merlin技术路线

有向权重连接

这些网络层的不同作用:

TTS merlin技术路线

6.2 用神经网络来合成

TTS merlin技术路线

7 波形生成(waveform generator)

7.1 声学特征是什么

TTS merlin技术路线

8 使用神经网络的TTS系统

如果我们把所有的这一切综合起来的示意图如下:

第一步: TTS merlin技术路线

第二步: TTS merlin技术路线 第三步: TTS merlin技术路线 第四步 TTS merlin技术路线 第五步 TTS merlin技术路线

我的博客

观点

源码