您现在的位置:主页 > 金融新闻 >
0语料下如何通过“贴标签”获得更好的多语言翻译效果

发布日期:2021-07-10 01:09   来源:未知   阅读:

  来自火山翻译团队的研究者通过研究发现,不同语言标签对多语言 Zero-shot 翻译的巨大影响,并在数据相差很大的三个不同的数据集上进行了实验,验证了不同语言标签对多语言 Zero-shot 翻译确实存在巨大影响,并且表明 T-ENC 在 Zero-shot 上优于其他语言标签。

  现今的多语言翻译模型,大多是在一个以英语为中心的数据集上训练一个统一的模型,并通过添加语言标签的方式来告诉模型应该翻译到哪一种语言。这种模型在预测的时候能够直接在一个非英语的句子上添加另一个非英语的语言标签来直接翻译,从而达到即使在训练时没有见过源语言和目标语言的情况下,也能实现模型翻译,这就是所谓的 zero-shot 多语言翻译。

  添加语言标签的方式有很多种,来自火山翻译团队的研究者通过实验研究发现,虽然不同的语言标签对监督方向的效果几乎没有影响,但是对 zero-shot 的效果却有着非常大的影响。这个现象在多个数据集上得到了验证,其中 IWSLT17 上相差 14.02 个 BLEU,Euporal 上相差 24.24 个 BLEU,TED talks 上相差 8.78 个 BLEU。目前该研究已被 the findings of ACL 2021 接收。论文地址:

  在多语言翻译中,有许多添加语言标签的方法,并且一般都认为不同的语言标签的添加方法对模型的性能没有影响,然而之前没有研究者系统性地研究语言标签对翻译模型是否有影响。这篇文章比较了四种常见的语言标签的添加方法。香港陆和彩开码网站,表 1 四种不同的的语言标签

  如表 1 所示,这四种方法会将源语言标签和目标语言标签按照不同的方法加到源句首或者目标句首。表 2 数据集详情

  如表 2 所示,这篇文章选择了 IWSLT17,Euporal 和 TED talks 三个数据集,这三个数据集在语言数量和数据集大小上都有比较大的差异。这篇文章在这三个数据集上基于上述四种不同的语言标签训练了配置完全一样的多语言翻译模型。

  1. 对于不同的语言标签,不同的数据集,在有监督的方向上,模型的表现基本一致。

  b. 不同语言标签导致的 off-target 的比例也不相同(off-target 是指翻译到语言 X 时,却翻译成另一个语言的情况),基本上 T-ENC 的 off-target 的比例都要比别的小,这一点和模型在 zero-shot 上的性能基本一致。

  那么是什么原因导致了这种现象?这篇文章试图从三个方面解释这个现象并在 TED 数据集上做了实验:

  1. 在目标语言相同的情况下,语言标签的添加方式是否影响了不同语言的句子经过 Encoder 之后的表示的一致性?

  2. T-ENC 可以获得相对于其他方法更小的 off-target 比例,是不是由于在预测的时候,它的 attention 注意力机制能够更好地注意到语言标签?

  Encoder 的表示的一致性上图是通过对 Encoder 的输出使用 t-SNE 降维,之后使用 kde 画出来的分布图,展示了不同语言的句子在目标语言相同的情况下的分布,可以发现 T-ENC 不同语言之间的 Encoder 表示分布更加一致。这表明,码王高手论坛T-ENC 能够帮助模型学习到语言无关的 Encoder 表示。

  缓解 off-target 的问题上图通过一个 case study 展示了从一个俄语句子翻译到意大利语句子时,不同的语言标签下,模型的 attention 对意大利语标签的 “关注” 程度,显然使用 T-ENC 时,模型对意大利语标签的关注程度最高,这可以一定程度上解释为什么 T-ENC 拥有最小的 off-target 比例。

  不同层的相似性上图的子图 a 展示了,从除了英语和俄语外的 18 个语言翻译到俄语的时候,意思相同的句子在不同语言之间的表示的相似性,可以看到 T-ENC 的相似性曲线一直在其他的语言标签之上,这表明在目标语言相同的时候,T-ENC 各层的表示相比于其他的方法都有更好的一致性。

  上图的子图 b 展示了,从俄语翻译到除了英语和俄语外的 18 个语言翻译的时候,同一个俄语句子在不同目标语言下的相似性,可以看到 T-ENC 的相似性曲线几乎一直在其他的语言标签下方,这表明,当目标语言不同的时候,T-ENC 能够更好的生成目标语言相关的表示。

  该研究发现了不同语言标签对多语言 Zero-shot 翻译的巨大影响,并在数据相差很大的三个不同的数据集上进行了实验,验证了不同语言标签对多语言 Zero-shot 翻译确实存在巨大影响,并且表明 T-ENC 在 Zero-shot 上优于其他语言标签。同时该研究还分析了不同语言标签对模型在预测时表示的影响,发现 T-ENC 能够更好地得到与目标语言相关而与源语言无关的表示:

最热文章
岳阳市一人民医院 致敬白衣勇士, ... 05-20 
如果有球员能打破方丹13球单届世界... 07-16 
就比如一些老脱口秀演员这对于王勉... 12-26 
高企政策添动力,推动肥西创新发展... 05-22 
银边翠种子几月成熟... 06-24 
经期按摩3穴位 缓解乳房胀痛还丰胸... 08-02 
确保一切防疫工作都做到位新冠病毒... 01-13 
美媒:特朗普任内最后一天将发布约... 01-27 
学习曲艺艺术 传承闽南文化... 05-22 
北京鼓楼西大街升级亮相 呈现元明... 01-28 
为全面总结2020年上半年全市疾控工... 09-05 
12名旅客确诊感染新冠病毒 希腊暂... 06-05 
有个“双标”的至亲,是怎样的体验... 07-26 
个个都是顶尖带货主播啊她带货都能... 10-02 
当时他说30万太少了br 白晓:... 04-18 
最新发布
《巧虎大飞船历险记》口碑爆棚 带... 07-11 
0语料下如何通过“贴标签”获得更... 07-10 
中华文字博大精深为让《哪吒》走出... 07-09 
打一场“硬仗” 架一座“金桥”—... 07-09 
将数字娱乐进行到底 迅雷游戏门户... 07-04 
迅雷广告被指内容不健康 且有虚假... 07-04 
华为Mate 7 mini再次曝光 47英寸屏... 07-04 
预计银边翠种子价格现在是要多少钱... 07-03 
2020-23年中国银边翠种子行业投资... 07-03 
海南五指山都喜天丽度假酒店将于20... 07-03 
海南钧达汽车饰件股份有限公司 关... 07-02 
东海基金管理有限责任公司... 07-02 
一年或亏掉上两年利润、游戏研发能... 07-01 
海峡两岸专家喜看海南科技发展... 06-30 
辽宁广天食品公司草莓罐头检出禁用... 06-30