语言翻译准确度分析 chatgpt翻译准确吗( 二 )


腾讯AI Lab选择了四种语言来评估ChatGPT在多语言翻译中的能力,包括德语(De)、英语(En)、罗马尼亚语(Ro)和中文(Zh),这些语言在研究和竞赛中都被普遍采用 。前三种语言同来自拉丁语系 , 而后一种则来自中文语系 。研究人员测试了任意两种语言间的翻译表现,共涉及12次翻译 。
资源差异
通过实验发现,在同语系中不同语言也存在资源差异 。在机器翻译中,德英互译通常被认为是一个高资源任务,有超过1000万条语料 。而罗马尼亚语与英语间互译语料要少得多 。
如图4所示 , ChatGPT在德译英和英译德上,与谷歌翻译和DeepL可以分庭抗礼;而在罗马尼亚语译英,和英译罗马尼亚语方面,则要明显落后 。具体来说,ChatGPT在英译罗马尼亚语上获得的BLEU分数比谷歌翻译低了46.4% 。

语言翻译准确度分析 chatgpt翻译准确吗

文章插图
图4:ChatGPT在多语言翻译中的表现
研究者认为,英语和罗马尼亚语之间的单一语言数据的巨大资源差异,限制了罗马尼亚语的语言建模能力,这部分解释了将英语翻译成罗马尼亚语表现差的原因 。
相反,罗马尼亚语译成英语可以受益于强大的英语建模能力,使平行数据的资源缺口可以得到一定程度的补偿 。
语系
同时 , 研究人员也考虑了语系的影响 。
通常认为,对于机器翻译,不同语系之间的翻译通常比同一语系间翻译更难 。研究人员发现 , 德英互译、汉英互译,或者德汉互译在文化和书写方式上存在差异 。
另外可以发现,在这几种翻译中 , ChatGPT和几款商业翻译软件间差距较大,研究者认为,这是因为在同一语系中知识转移比在不同语系间要好,对于既是低资源又来自不同语系的语言来说(如罗马尼亚语和汉语的互译),这种差距会进一步扩大 。
由于ChatGPT在一个模型中处理不同的任务,低资源的翻译任务不仅与高资源的翻译任务竞争,而且还与其他NLP任务竞争模型容量,这说明其性能表现欠佳 。
翻译鲁棒性
腾讯AI Lab进一步评估了ChatGPT在WMT19 Bio和WMT20Rob2和Rob3测试集上的翻译鲁棒性,这些测试集引入了领域偏见和潜在的噪声数据 。
例如WMT19 Bio测试集是由Medline摘要组成的 , 这需要特定领域的知识处理,WMT20Rob2是来自Reddit的评论,可能包含各种错误,如拼写错误、单词遗漏、插入重复、语法错误、破坏性语言,和网络俚语等 。图5列出了BLEU分数,显然ChatGPT在WMT19 Bio和WMT20Rob2测试集上的表现不如谷歌翻译和DeepL Translate 。
语言翻译准确度分析 chatgpt翻译准确吗

文章插图
图5:ChatGPT在翻译鲁棒性方面的表现
原因可能在于,像谷歌翻译这样的商业翻译产品往往需要不断提高其翻译特定领域(如生物医学)或噪音句子的能力,因为它们是现实世界的应用 , 需要对分布之外的数据有更好地概括性,ChatGPT不太能够完成这一点 。
不过,一个有趣的发现是,ChatGPT在包含众包语音识别语料的WMT20Rob3测试集上大大超过了谷歌翻译和DeepL Translate 。这表明,ChatGPT本质上是一个人工智能对话工具 , 能够比商业翻译软件生成更自然的口语(见图6) 。
语言翻译准确度分析 chatgpt翻译准确吗

文章插图
图6:来自WMT20鲁棒集set3的例子
2ChatGPT应如何扬长避短?
从该研究可知,高举高打的ChatGPT每训练一次就耗费大量算力资源,但也不能在全领域尽善尽美 。所以,一些人开始思考,是否应该“摒弃”大模型思路 , 转而去做“精耕细作”的小模型 。


以上关于本文的内容,仅作参考!温馨提示:如遇健康、疾病相关的问题,请您及时就医或请专业人士给予相关指导!

「四川龙网」www.sichuanlong.com小编还为您精选了以下内容,希望对您有所帮助: