11# 神经网络机器翻译模型  
2- ## 背景介绍  
32
4- 机器翻译利用计算机将源语言的表达转换成目标语言的同义表达,是自然语言处理中非常重要的研究方向。机器翻译有着广泛的应用需求,其实现方式也经历了不断的演化。传统的机器翻译方法主要基于规则或统计模型,需要人为地指定翻译规则或设计语言特征,效果依赖于人对源语言与目标语言的理解程度。近些年来,深度学习的提出与迅速发展使得特征的自动学习成为了可能。深度学习首先在图像识别和语音识别中取得成功,进而在机器翻译等自然语言处理领域中掀起了研究热潮。机器翻译中的深度学习模型直接学习源语言到目标语言的映射,大为减少了学习过程中人的介入,同时显著地提高了翻译质量。本教程主要介绍的就是在PaddlePaddle中如何利用循环神经网络(RNN),构建一个端到端(End-to-End)的神经网络机器翻译(Neural Machine Translation)模型。
3+ ## 背景介绍  
4+ 机器翻译利用计算机将源语言的表达转换成目标语言的同义表达,是自然语言处理中重要的研究方向。机器翻译有着广泛的应用需求,其实现方式也经历了不断地演化。传统机器翻译方法主要基于规则或统计模型,需要人为地指定翻译规则或设计语言特征,效果依赖于人对源语言与目标语言的理解程度。近些年来,深度学习的提出与迅速发展使得特征的自动学习成为可能。深度学习首先在图像识别和语音识别中取得成功,进而在机器翻译等自然语言处理领域中掀起了研究热潮。机器翻译中的深度学习模型直接学习源语言到目标语言的映射,大为减少了学习过程中人的介入,同时显著地提高了翻译质量。本例介绍在PaddlePaddle中如何利用循环神经网络(Recurrent Neural Network, RNN)构建一个端到端(End-to-End)的神经网络机器翻译(Neural Machine Translation, NMT)模型。
55
66## 模型概览  
7- 
8- 
9- 基于RNN的机器翻译模型常见的是一个编码器-解码器(Encoder-Decoder)结构,其中的编码器和解码器均是一个循环神经网络。如果将构成编码器和解码器的两个 RNN 在时间上展开,可以得到如下的模型结构图
7+ 基于 RNN 的神经网络机器翻译模型遵循编码器-解码器结构,其中的编码器和解码器均是一个循环神经网络。将构成编码器和解码器的两个 RNN 沿时间步展开,得到如下的模型结构图:
108
119<p  align =" center " ><img  src =" images/Encoder-Decoder.png "  width  = " 90% "  align =" center " /><br />图 1. 编码器-解码器框架 </p >
1210
13- 该翻译模型输入输出的基本单位可以是字符 ,也可以是词或者短语。不失一般性,下面以基于词的模型为例说明编码器 /解码器的工作机制:
11+ 神经机器翻译模型的输入输出可以是字符 ,也可以是词或者短语。不失一般性,本例以基于词的模型为例说明编码器 /解码器的工作机制:
1412
15- -  ** 编码器** :将源语言句子编码成一个向量,作为解码器的输入。解码器的原始输入是表示词的 ` id `  序列 $w = {w_1, w_2, ..., w_T}$,用独热码 (One-hot encoding)表示 。为了对输入进行降维,同时建立词语之间的语义关联,模型为热独码表示的单词学习一个词嵌入(Word Embedding)表示,也就是常说的词向量,关于词向量的详细介绍请参考 PaddleBook 的[ 词向量] ( https://github.com/PaddlePaddle/book/tree /develop/04.word2vec ) 一章。最后 RNN 单元逐个词地处理输入,得到完整句子的编码向量。
13+ -  ** 编码器** :将源语言句子编码成一个向量,作为解码器的输入。解码器的原始输入是表示词的 ` id `  序列 $w = {w_1, w_2, ..., w_T}$,用独热 (One-hot)码表示 。为了对输入进行降维,同时建立词语之间的语义关联,模型为热独码表示的单词学习一个词嵌入(Word Embedding)表示,也就是常说的词向量,关于词向量的详细介绍请参考 PaddleBook 的[ 词向量] ( https://github.com/PaddlePaddle/book/blob /develop/04.word2vec/README.cn.md  ) 一章。最后 RNN 单元逐个词地处理输入,得到完整句子的编码向量。
1614
17- -  ** 解码器** :接受编码器的输入,逐个词地解码出目标语言序列 $u = {u_1, u_2, ..., u_ {T'}}$。每个时间步,  RNN 单元输出一个隐藏向量,之后经 ` Softmax `  归一化计算出下一个目标词的条件概率,即 $P(u_i | w, u_1, u_2, ..., u_ {t-1})$。因此,给定输入 $w$,其对应的翻译结果为 $u$ 的概率则为
15+ -  ** 解码器** :接受编码器的输入,逐个词地解码出目标语言序列 $u = {u_1, u_2, ..., u_ {T'}}$。每个时间步,RNN 单元输出一个隐藏向量,之后经 ` Softmax `  归一化计算出下一个目标词的条件概率,即 $P(u_i | w, u_1, u_2, ..., u_ {t-1})$。因此,给定输入 $w$,其对应的翻译结果为 $u$ 的概率则为
1816
19- < center > $$ P(u_1,u_2,...,u_{T'} | w) = \prod_{t=1}^{t={T'}}p(u_t|w, u_1, u_2, u_{t-1})$$</ center > 
17+ $$  P(u_1,u_2,...,u_{T'} | w) = \prod_{t=1}^{t={T'}}p(u_t|w, u_1, u_2, u_{t-1}) $$ 
2018
21- 以中文到英文的翻译为例,对于如下分词后的句子 
19+ 以中文到英文的翻译为例,源语言是中文,目标语言是英文。下面是一句源语言分词后的句子 
2220
2321``` 
2422祝愿 祖国 繁荣 昌盛 
2523``` 
2624
27- 其对应的英文翻译正确结果应该是 
25+ 对应的目标语言英文翻译结果为: 
2826
2927``` 
3028Wish motherland rich and powerful 
3129``` 
3230
33- 在预处理阶段,准备源语言与目标语言之间互译的平行语料数据 ,并分别构建源语言和目标语言的词典;在训练阶段,用这样成对的语料训练模型;而在模型测试阶段,如上的英文句子则是期望看到的翻译结果 。
31+ 在预处理阶段,准备源语言与目标语言互译的平行语料数据 ,并分别构建源语言和目标语言的词典;在训练阶段,用这样成对的平行语料训练模型;在模型测试阶段,输入中文句子,模型自动生成对应的英语翻译,然后将生成结果与标准翻译对比进行评估。在机器翻译领域,BLEU 是最流行的自动评估指标之一 。
3432
3533### RNN 单元  
36- RNN 的原始结构用一个向量来存储隐状态,然而这种结构的 RNN 在训练时容易发生梯度弥散(gradient vanishing),对于长时间的依赖关系难以建模。因此人们对 RNN 单元进行了改进,提出了常用的  LSTM\[ [ 1] ( #参考文献 )]  和 GRU\[ [ 2] ( #参考文献 )] ,这两种单元以门限来控制应该记住的和遗忘的信息,较好地解决了序列数据的的长时依赖问题。以本教程所用的  GRU 为例,其基本结构如下
34+ RNN 的原始结构用一个向量来存储隐状态,然而这种结构的 RNN 在训练时容易发生梯度弥散(gradient vanishing),对于长时间的依赖关系难以建模。因此人们对 RNN 单元进行了改进,提出了  LSTM\[ [ 1] ( #参考文献 )]  和 GRU\[ [ 2] ( #参考文献 )] ,这两种单元以门来控制应该记住的和遗忘的信息,较好地解决了序列数据的长时依赖问题。以本例所用的  GRU 为例,其基本结构如下: 
3735
3836<p  align =" center " >
3937<img  src =" images/gru.png "  width  = " 90% "  align =" center " /><br />
4038图 2. GRU 单元
4139 </p >
4240
43- 可以看到除了隐含状态以外,GRU内部还包含了两个门限 :更新门(Update Gate)、重置门(Reset Gate)。在每一个时间步,门限和隐状态的更新由图2右侧的公式决定 。这两个门限决定了状态以何种方式更新。
41+ 可以看到除了隐含状态以外,GRU 内部还包含了两个门 :更新门(Update Gate)、重置门(Reset Gate)。在每一个时间步,门限和隐状态的更新由图 2 右侧的公式决定 。这两个门限决定了状态以何种方式更新。
4442
4543### 双向编码器  
46- 在上述的基本模型中,编码器在顺序处理输入句子序列时,当前时刻的状态只包含了历史输入信息,而没有未来时刻的序列信息。而对于序列建模,未来时刻的上下文同样包含了重要的信息。因此我们可以采用一个双向的编码器来同时获取当前时刻输入的上下文,其结构如下图所示 
44+ 在上述的基本模型中,编码器在顺序处理输入句子序列时,当前时刻的状态只包含了历史输入信息,而没有未来时刻的序列信息。而对于序列建模,未来时刻的上下文同样包含了重要的信息。可以使用如图 3 所示的这种双向编码器来同时获取当前时刻输入的上下文: 
4745<p  align =" center " >
4846<img  src =" images/bidirectional-encoder.png "  width  = " 90% "  align =" center " /><br />
49- 图 3. 双向编码器 
47+ 图 3. 双向编码器结构示意图 
5048 </p >
5149
52- 该双向编码器 \[ [ 3] ( #参考文献 ) \] 由两个独立的编码器构成 ,分别从前向和后向对输入序列进行编码,然后将两个编码器的输出合并在一起 ,作为最终的编码输出。
53- 在PaddlePaddle中 ,双向编码器可以很方便地调用相关 APIs 实现:
50+ 图 3 所示的双向编码器 \[ [ 3] ( #参考文献 ) \] 由两个独立的 RNN 构成 ,分别从前向和后向对输入序列进行编码,然后将两个 RNN 的输出合并在一起 ,作为最终的编码输出。
51+ 在 PaddlePaddle 中 ,双向编码器可以很方便地调用相关 APIs 实现:
5452
5553``` python 
5654# ### Encoder
@@ -70,25 +68,25 @@ encoded_vector = paddle.networks.bidirectional_gru(
7068 bwd_gate_act = paddle.activation.Sigmoid(),
7169 return_seq = True )
7270``` 
73- 
71+   
7472### 柱搜索(Beam Search) 算法  
75- 在完成训练后的测试阶段,模型根据输入的不同,输出对应的翻译结果 。解码时,一个直接的方式是取每一步条件概率最大的词,作为当前时刻的输出。但局部最优并不一定能得到全局最优,即这种做法并不能保证最后得到的完整句子出现的概率最大。如果对解的全空间进行搜索,其代价又过大。为了解决这个问题,通常采用柱搜索(Beam Search)算法。柱搜索是一种启发式的图搜索算法,用一个参数` k ` 控制搜索宽度,其要点如下:
73+ 训练完成后的生成阶段,模型根据源语言输入,解码生成对应的目标语言翻译结果 。解码时,一个直接的方式是取每一步条件概率最大的词,作为当前时刻的输出。但局部最优并不一定能得到全局最优,即这种做法并不能保证最后得到的完整句子出现的概率最大。如果对解的全空间进行搜索,其代价又过大。为了解决这个问题,通常采用柱搜索(Beam Search)算法。柱搜索是一种启发式的图搜索算法,用一个参数 $k$  控制搜索宽度,其要点如下:
7674
77- ** 1** . 在解码的过程中,始终维护` k ` 个已解码出的子序列;
75+ ** 1** . 在解码的过程中,始终维护 $k$  个已解码出的子序列;
7876
79- ** 2** . 在中间时刻` t ` , 对于` k ` 个子序列中的每个序列,计算下一个词出现的概率并取概率最大的前` k ` 个词,组合得到 $k^2$ 个新子序列;
77+ ** 2** . 在中间时刻 $t$ , 对于 $k$  个子序列中的每个序列,计算下一个词出现的概率并取概率最大的前 $k$  个词,组合得到 $k^2$ 个新子序列;
8078
81- ** 3** . 取 ** 2**  中这些组合序列中概率最大的前` k ` 个以更新原来的子序列;
79+ ** 3** . 取 ** 2**  中这些组合序列中概率最大的前 $k$  个以更新原来的子序列;
8280
83- ** 4** . 不断迭代下去,直至得到` k ` 个完整的句子,作为翻译结果的候选。
81+ ** 4** . 不断迭代下去,直至得到 $k$  个完整的句子,作为翻译结果的候选。
8482
85- 关于柱搜索的更多介绍,可以参考 PaddleBook 中[ 机器翻译] ( https://github.com/PaddlePaddle/book/tree /develop/08.machine_translation ) 一章中[ 柱搜索] ( https://github.com/PaddlePaddle/book/tree /develop/08.machine_translation#柱搜索算法 ) 一节。
83+ 关于柱搜索的更多介绍,可以参考 PaddleBook 中[ 机器翻译] ( https://github.com/PaddlePaddle/book/blob /develop/08.machine_translation/README.cn.md  ) 一章中[ 柱搜索] ( https://github.com/PaddlePaddle/book/blob /develop/08.machine_translation/README.cn.md #柱搜索算法 ) 一节。
8684
8785
8886### 无注意力机制的解码器  
89- PaddleBook中[ 机器翻译] ( https://github.com/PaddlePaddle/book/tree /develop/08.machine_translation ) 的相关章节中,已介绍了带注意力机制(Attention Mechanism)的 Encoder-Decoder 结构,本教程则介绍的是不带注意力机制的  Encoder-Decoder 结构。关于注意力机制,读者可进一步参考 PaddleBook 和参考文献\[ [ 3] ( #参考文献 )] 。
87+ PaddleBook中[ 机器翻译] ( https://github.com/PaddlePaddle/book/blob /develop/08.machine_translation/README.cn.md  ) 的相关章节中,已介绍了带注意力机制(Attention Mechanism)的 Encoder-Decoder 结构,本例则介绍的是不带注意力机制的  Encoder-Decoder 结构。关于注意力机制,读者可进一步参考 PaddleBook 和参考文献\[ [ 3] ( #参考文献 )] 。
9088
91- 对于各种可以标准化的  RNN 结构,在  PaddlePaddle 中已有很好的实现,可以像前面的双向编码器那样直接调用。而如果希望在 RNN 的每一个时间步实现某些自定义操作,则可以自定义单步逻辑函数 ,再利用函数 ` recurrent_group() `  循环调用单步逻辑函数处理完整个序列。 此处无注意力机制的的解码器,就用了单步逻辑函数加 ` recurrent_group() ` 的方式予以实现,其中单步逻辑函数 ` gru_decoder_without_attention() ` 的相关代码如下 :
89+ 对于流行的RNN单元,PaddlePaddle 已有很好的实现均可直接调用。如果希望在  RNN 每一个时间步实现某些自定义操作,可使用  PaddlePaddle 中的 ` recurrent_layer_group ` 。首先,自定义单步逻辑函数 ,再利用函数 ` recurrent_group() `  循环调用单步逻辑函数处理整个序列。本例中的无注意力机制的解码器便是使用 ` recurrent_layer_group ` 来实现,其中,单步逻辑函数 ` gru_decoder_without_attention() ` 相关代码如下 :
9290
9391``` python 
9492# ### Decoder
@@ -100,7 +98,7 @@ with paddle.layer.mixed(
10098 input = encoder_last)
10199#  gru step
102100def  gru_decoder_without_attention (enc_vec , current_word ):
103-   ''' 
101+ ''' 
104102 Step function for gru decoder 
105103 :param enc_vec: encoded vector of source language 
106104 :type enc_vec: layer object 
@@ -138,9 +136,9 @@ def gru_decoder_without_attention(enc_vec, current_word):
138136在模型训练和测试阶段,解码器的行为有很大的不同:
139137
140138-  ** 训练阶段** :目标翻译结果的词向量` trg_embedding ` 作为参数传递给单步逻辑` gru_decoder_without_attention() ` ,函数` recurrent_group() ` 循环调用单步逻辑执行,最后计算目标翻译与实际解码的差异cost并返回;
141- -  ** 测试阶段** :解码器根据最后一个生成的词预测下一个词,` GeneratedInputV2() ` 自动生成最后一个词的词嵌入并传递给单步逻辑 ,` beam_search() ` 函数调用单步逻辑函数` gru_decoder_without_attention() ` 完成柱搜索并作为结果返回。
139+ -  ** 测试阶段** :解码器根据最后一个生成的词预测下一个词,` GeneratedInputV2() ` 自动取出模型预测出的概率最高的$k$个词的词向量传递给单步逻辑 ,` beam_search() ` 函数调用单步逻辑函数` gru_decoder_without_attention() ` 完成柱搜索并作为结果返回。
142140
143- 这两部分的逻辑分别实现在如下的 ` if-else ` 条件分支中:
141+ 训练和生成的逻辑分别实现在如下的 ` if-else ` 条件分支中:
144142
145143``` python 
146144decoder_group_name =  " decoder_group" 
@@ -187,11 +185,11 @@ else:
187185``` 
188186
189187## 数据准备  
190- 本教程所用到的数据来自 [ WMT14] ( http://www-lium.univ-lemans.fr/~schwenk/cslm_joint_paper/ ) ,该数据集是法文到英文互译的平行语料数据 。用[ bitexts] ( http://www-lium.univ-lemans.fr/~schwenk/cslm_joint_paper/data/bitexts.tgz ) 作为训练数据,[ dev+test data] ( http://www-lium.univ-lemans.fr/~schwenk/cslm_joint_paper/data/dev+test.tgz ) 作为验证与测试数据。在PaddlePaddle中已经封装好了该数据集的读取接口,在首次运行的时候,程序会自动完成下载,用户无需手动完成相关的数据准备。
188+ 本例所用到的数据来自 [ WMT14] ( http://www-lium.univ-lemans.fr/~schwenk/cslm_joint_paper/ ) ,该数据集是法文到英文互译的平行语料 。用[ bitexts] ( http://www-lium.univ-lemans.fr/~schwenk/cslm_joint_paper/data/bitexts.tgz ) 作为训练数据,[ dev+test data] ( http://www-lium.univ-lemans.fr/~schwenk/cslm_joint_paper/data/dev+test.tgz ) 作为验证与测试数据。在PaddlePaddle中已经封装好了该数据集的读取接口,在首次运行的时候,程序会自动完成下载,用户无需手动完成相关的数据准备。
191189
192190## 模型的训练与测试  
193191
194- 在定义好网络结构后,就可以进行模型训练与测试了。根据用户输入命令的不同,模型的训练与测试分别由 ` main() ` 函数调用 ` train() ` 和` generate() ` 完成 。
192+ 在定义好网络结构后,就可以进行模型训练与测试了。根据用户运行时传递的参数是 ` --train `  还是  ` --generate ` ,Python 脚本的  ` main() `  函数分别调用函数 ` train() ` 和` generate() ` 来完成模型的训练与测试 。
195193
196194### 模型训练  
197195模型训练阶段,函数 ` train() `  依次完成了如下的逻辑:
@@ -247,7 +245,7 @@ def event_handler(event):
247245trainer.train( 
248246 reader=wmt14_reader, event_handler=event_handler, num_passes=2) 
249247``` 
250- 
248+   
251249启动模型训练的十分简单,只需在命令行窗口中执行
252250
253251``` 
@@ -288,7 +286,7 @@ for item in gen_creator():
288286beam_gen = seq2seq_net(source_dict_dim, target_dict_dim, True) 
289287with gzip.open(init_models_path) as f: 
290288 parameters = paddle.parameters.Parameters.from_tar(f) 
291- # prob is the prediction probabilities, and id is the prediction word. 
289+ # prob is the prediction probabilities, and id is the prediction word.   
292290beam_result = paddle.infer( 
293291 output_layer=beam_gen, 
294292 parameters=parameters, 
@@ -344,12 +342,13 @@ prob = -5.026885: They know their business better than anybody . <e>
344342*  ` prob ` 表示生成句子的得分,随之其后则是翻译生成的句子;
345343*  ` <s> `  表示句子的开始,` <e> ` 表示一个句子的结束,如果出现了在词典中未包含的词,则用` <unk> ` 替代。
346344
347- 至此,我们在PaddlePaddle上实现了一个初步的机器翻译模型 。我们可以看到,PaddlePaddle提供了灵活丰富的API供选择和使用 ,使得我们能够很方便完成各种复杂网络的配置。机器翻译本身也是个快速发展的领域,各种新方法新思想在不断涌现。在学习完本教程后 ,读者若有兴趣和余力,可基于PaddlePaddle平台实现更为复杂 、性能更优的机器翻译模型。
345+ 至此,我们在 PaddlePaddle 上实现了一个初步的机器翻译模型 。我们可以看到,PaddlePaddle 提供了灵活丰富的API供大家选择和使用 ,使得我们能够很方便完成各种复杂网络的配置。机器翻译本身也是个快速发展的领域,各种新方法新思想在不断涌现。在学习完本例后 ,读者若有兴趣和余力,可基于 PaddlePaddle 平台实现更为复杂 、性能更优的机器翻译模型。
348346
349347
350348## 参考文献  
351349[ 1]  Sutskever I, Vinyals O, Le Q V. [ Sequence to Sequence Learning with Neural Networks] ( https://arxiv.org/abs/1409.3215 ) [ J] . 2014, 4:3104-3112.
352- 
350+   
353351[ 2] Cho K, Van Merriënboer B, Gulcehre C, et al. [ Learning phrase representations using RNN encoder-decoder for statistical machine translation] ( http://www.aclweb.org/anthology/D/D14/D14-1179.pdf ) [ C] . Proceedings of the 2014 Conference on Empirical Methods in Natural Language Processing (EMNLP), 2014: 1724-1734.
354352
355353[ 3]  Bahdanau D, Cho K, Bengio Y. [ Neural machine translation by jointly learning to align and translate] ( https://arxiv.org/abs/1409.0473 ) [ C] . Proceedings of ICLR 2015, 2015
354+ 
0 commit comments