蛮力与美学:解密前AI时代的机器翻译

统计机器翻译如何通过海量数据和概率计算,让翻译质量实现质的飞跃。揭秘谷歌翻译早期核心技术的运作原理。

在今天这个 AI 无处不在的时代,我们已经习惯了神经网络带来的流畅翻译。但在此之前,机器翻译领域曾发生过一场深刻的革命,它没有依赖复杂的语法规则,而是用一种近乎“蛮力”的智慧,让翻译质量实现了质的飞跃。这就是统计机器翻译的时代,也是早期谷歌翻译背后的核心技术。

它的核心思想颠覆了过去:我们别再费劲教计算机语法了,直接给它海量的翻译数据,让它自己从数据中找出概率最高的翻译方式。

我们要训练一个不懂任何语言学,但记忆力超群、精通概率计算的机器人。我们要给它装备两大“法宝”:

翻译模型(一本基于概率的超级对应词典)

这个法宝的修炼方式,是让机器人“阅读”数百万份由人类专家翻译好的中英对照文件,比如联合国的会议记录、双语新闻稿等。

机器人的任务不是理解,而是进行海量的统计。它会像玩连连看一样,找出中英文里哪些词或短语最经常成对出现。

  • 通过反复观察,它发现中文的“计算机”,在 98%的情况下都对应着英文“computer”。
  • 它还发现,把“机器学习”当作一个整体来翻译,几乎总是对应“machine learning”,这远比单独翻译“机器”和“学习”要准确得多。
  • 它甚至能学到,“银行”这个词,在金融文章里更可能对应“bank”,而在地理描述中则可能对应“river bank”。

通过这种方式,机器人建立了一本巨大的、基于概率的对应词典。这本词典不提供绝对的答案,而是告诉我们:“这个中文词/词组,有多大的可能性对应那个英文词/词组”。它为翻译提供了所有可能的“零件”。

语言模型(一位精通英语的“语感大师”)

有了翻译的“零件”还远远不够,因为直接拼接起来可能会得到像“bad guy chase police”这样语序混乱的结果。因此,机器人还需要第二个法宝——一位只懂英文,但读过所有英文书籍、新闻和网页的“语感大师”。

这位大师的任务只有一个:为任何一个英文句子的“通顺度”打分。

它通过海量阅读,知道了英文单词应该如何自然地排列组合。

  • 它知道,“The cat sits on the mat” 这个句子非常通顺,应该得高分。
  • 而“mat the on sits cat” 这种组合在现实中从未出现过,得分应该为零。

这位“语感大师”就像一个语法警察,它不懂中文,但它能精准地判断出哪个句子更像地道的“人话”,确保翻译结果流畅自然。

两大法宝如何联手翻译?

当一句中文,比如“警察正在追捕坏人”被输入时,翻译过程就像一次合作破案:

  1. 生成候选方案:首先,翻译模型(超级词典)会立刻启动,生成成百上千种可能的英文词组组合。例如 police chasing bad guy, cop pursue villain, the bad guy is pursued by the police 等等,每一种组合都有一个基于词汇对应概率的“忠实度”分数。

  2. 评估流畅度:接着,所有这些候选句子都被提交给语言模型(语感大师),由它来为每个句子的“通顺度”打分。

  3. 最终决策:最后,系统会进行一次加权计算,选出那个**既能忠实于原文(忠实度得分高),又听起来最通顺流畅(通顺度得分高)**的句子。在这个例子中,The police are chasing the bad guy 很可能就是那个综合得分最高的胜利者,并被呈现给用户。


统计机器翻译的本质,就是将语言问题转化成一个数学问题。它不追求理解,而是追求概率上的最优解。这种数据驱动的思路,让机器翻译的质量第一次达到了“基本可用”的水平,也为后来神经网络的兴起奠定了坚实的基础,是机器翻译发展史上不可或缺的、充满智慧的一步。

Licensed under CC BY-NC-SA 4.0