今年是黄学东加入微软的第25年,但这位微软老将至今仍活跃在人工智能领域科学研究的前线。
2018年3月份,他带领的团队在机器翻译领域拿下一项里程碑式的成就:其研发的机器翻译系统在通用新闻报道的newstest2017中译英测试集上,达到了人工翻译水平。这是首个在新闻报道的翻译质量和准确率上媲美人工翻译的翻译系统。在去年8月,也是在黄学东的带领下,其团队在产业标准Switchboard语音识别基准测试中实现了对话语音识别词错率(word error rate,简称WER),低至5.1%,创造了当时该领域内错误率最低纪录,首次达成与专业速记员持平而优于绝大多数人的表现。
在两年不到的时间里,黄学东的团队接二连三地取得突破。他的成绩也获得了微软的认可。2017年,他被评选为微软技术院士(Technical Fellow),这代表着微软技术人员的最高荣誉,获得这一荣誉的人还包括图灵奖得主Butler W Lampson、Charles P. Thacker等。
近日,在北京微软亚洲研究院里,这位国际电子电气工程师学会(IEEE)和美国计算机学会(ACM)的双科院士,微软认知工具包CNTK的缔造者之一,用一口带着湖南乡音的普通话接受了记者的采访。
从大学时代到加入微软,踏上25年的技术征程,再到带领团队屡创佳绩,黄学东谈到了自己为什么能坚持这么久的原因:就是想让语言交流能够更美好,人与人之间的语言障碍可以消除。目前,黄学东的团队已经在语音识别的词错率上达到了专业速记员的水平,并且在机器翻译上比肩人类专业译者。在采访中,除了谈到最新的机器翻译突破背后的故事外,黄学东还谈到了人工智能技术发展最终是否会取代人的问题,以及中美之间的人工智能之争。
以人为师:微软机器翻译提前7年超越人类译者
在2017年,牛津大学曾向机器学习(Machine Learning)的研究人员做过一项调查,调查的内容是对人工智能未来发展的预测。根据这些研究人员的预测,未来10年的人工智能会在很多方面超过人类。其中,他们预测机器翻译想要超过人类业余译者需要8年时间。
根据这项预测,微软今年3月份研发出的机器翻译系统,实际上将机器翻译中译英方面超越人类业余译者的时间提前了7年,并达到了比肩人类专业译者的水平。
“这是一个历史性的突破,因为语言一直是我们人类交流最重要的东西,尤其中国要走向世界,中翻英现在可以达到专业的水平,这是一个历史性的突破。这对中国走向世界,对人工智能的推进都有正面意义,非常鼓舞人心。”黄学东告诉澎湃新闻(www.thepaper.cn)。
据黄学东介绍,这个项目由来自微软亚洲研究院和微软雷德蒙研究院的三个研究组,进行了跨越中美时区、跨越研究领域的联合创新。
自1954年开始,机器翻译一直是人类想要攻坚的领域。无奈在过去的几十年中,由于技术方法,计算力和训练数据等原因,研究人员一直未能找到有效的突破口。直到进入21世纪,研究人员引入深度学习的神经网络,构建了神经机器翻译(Neural Machine Translation)才有了突破。
神经机器翻译,简要的说,就是对源语言的句子进行编码,即转化为计算机可以“理解”的形式,编码的结果会形成很多隐含变量,每个隐含变量代表从句首到当前词汇为止的语义信息。然后通过一个解码的过程,一个词、一个词输出译文。
这一次微软的突破可谓是既站在了巨人的肩膀上,又用到了自己的创新:微软的机器翻译系统不仅用了最新的神经网络技术,还用了微软自己研发的一些独到的技术,做到了集大成者。
在微软这次的创新中,微软的研究团队借鉴了人类在翻译时的一些思维方式。第一个是对偶学习(Dual Learning)。这有点像人类在学习英语时,当把中文翻译成英文后,通常还需要检查,即将英文再翻译回中文,看是否正确,做到翻译的一致性。这样做的目的是能在中翻英、英翻中的过程中做到联合优化。微软就将这一方法“教”给了机器。
第二个是推敲网络(Deliberation Networks)。在中文诗词里“僧敲月下门”中的“敲”就是一个作者在写诗时反复推敲,将语言表达到极致的结果。在微软的机器翻译系统中,就借鉴了这样的方式。机器翻译完成翻译后,为了让其做的更好,研究人员使用推敲网络让机器不断推敲,不断修改,把翻译完的结果再输入,再全盘考虑,做到不断优化。
第三个是一致性规范(Agreement Regularization)。一致性规范让翻译可以从左到右进行,也可以从右到左进行,最终让两个过程生成一致的翻译结果。
黄学东解释说,这一点就像人类在翻译的过程中,我们通常会左看右看,两边都看顺眼了,才觉得放心。
除此之外,此次机器翻译系统还使用了联合训练(Joint Training),这个方法可以认为是从源语言到目标语言翻译(Source to Target)的学习与从目标语言到源语言翻译(Target to Source)的学习的结合。中英翻译和英中翻译都使用初始并行数据来训练,在每次训练的迭代过程中,中英翻译系统将中文句子翻译成英文句子,从而获得新的句对,而该句对又可以反过来补充到英中翻译系统的数据集中。同理,这个过程也可以反向进行。这样双向融合不仅使得两个系统的训练数据集大大增加,而且准确率也大幅提高。
值得一提的还有,微软研究团队这次还为整个翻译研究找了双语的语言顾问,对机器翻译的结果进行评测。就人们像学习英语时,通常需要有专业的老师对我们的学习成果进行评测一样,对于机器翻译而言,专业老师给出的结果也非常重要。“机器翻译其实相当于一题有多个答案,答案好坏跟老师的水准有关系,所以用机器自动评分很难评判,我们现在用专业的人员来评,就是要把好质量关。”黄学东说。
在上述几个技术的加持下,微软的研究团队将原本设定为两年的研究周期,提前一年完成了机器翻译达到人类专业水平的研究成果。
三所不同大学的熏陶和近30年的坚持
黄学东加入微软已经25年了,算上大学时期的研究,他在人工智能领域里已经坚持了30多年时间。从最初的默默无闻到最近几年,自己带领的团队接二连三的完成突破,黄学东说这是坚持不懈的成果,也是自己的幸运。
黄学东祖籍湖南,在现场接受澎湃新闻采访时,仍可以听出他普通话里的湘音。15岁时,他便参加了高考,考上了湖南大学计算机专业。回忆起自己的本科时光,黄学东说印象最深的是湖南大学岳麓书院门前的对联:“惟楚有才,于斯为盛” 。
“岳麓书院有一千余年历史,同样在岳麓书院这个地址,湖南大学一直保持了教育的连续性。我每天从宿舍经过岳麓书院,都要看岳麓书院门前的对联,它为自信心,有情怀的追求打下了基础。因为很多事情,以及你在追求事业的过程中一定要有耐力,要有内力,这是湖南大学给我最好的训练。”黄学东说。
湖南大学的本科学习结束后,黄学东北上来到了清华大学念硕士和博士。在清华,黄学东学习了5年时间,完成了硕士学业,但博士没有读完就“跑”了。原因是,当时在自己导师的鼓励下,黄学东提前到了英国的爱丁堡大学学习。
但正是学习环境的改变,让黄学东找到了自己想要研究的方向。
“30年前,我在清华学的都是美式英语,留学去了英国,而且去的是苏格兰的爱丁堡,尽管学校非常漂亮,也是出大牛的地方。可是上课,我听不懂,因为我的英文不好,再加上苏格兰口音。所以我当时就想要是一边讲一边有字幕多好。”黄学东笑着说,“当时英国还是很厉害的,1987年,BBC的所有电视节目都有字幕,我当时就调到苏格兰的当地频道看字幕学苏格兰式英语,讲的我现在英文都带苏格兰口音。”
深切体会到自己学习过程中的痛点后,黄学东希望能帮助其他人也解决这个问题。他在微软后来所做的许多工作和研究也跟这些经历相关。例如,微软的语音翻译,它们拥有Skype translator、Microsoft translator两个落地产品。目前,Microsoft translator不管是iPhone还是Android设备都可以使用,还和微软Office整合起来了。这款应用可以在有语言障碍的面对面沟通时,同时支持100个人用60多种不同语言自由的交流。
坚持了30年后,黄学东说他的最终梦想是能让机器理解人类的语言,并让机器能够像人一样说话、交流。目前,他的团队在语音识别、机器翻译上已经取得成功,下一个目标是能在语音合成上取得突破。
中美人工智能竞争格局
从中国的大学出发,黄学东在英国、美国都有过学习、工作的经历。微软作为全球科技巨头,在人工智能领域已经有了深入的布局。设在北京的微软亚洲研究院,更是被外界称为是人工智能人才培养的“黄埔军校”。
对于中美两国之间,在人工智能领域里,越来越明显的竞争火药味,黄学东有自己的看法。
在他看来,人工智能想要获得成功,离不开三个要素:计算力、数据和算法。 从这三个维度出发,中国用户量大、数据丰富,在数据上有优势,这是中国一大亮点。但是仅有数据,没有计算力和算法还远远不够。
“目前,大的格局是这样,从计算力来讲,美国公司还是占优势,像英伟达的GPU,他们刚出的芯片很厉害,但中国目前还没有。从算法来看,比如深度学习也是谷歌的TensorFlow、微软的CNTK,这也是西方的工具。所以从计算力和算法来看,西方现在还是绝对占优势。中国的优势是数据丰富,这三个里面至少中国有一个优势。”黄学东说。
在采访最后,回顾自己25年的职业生涯,看到目前中国掀起的人工智能浪潮,黄学东感慨颇多。对于当下想投身于人工智能的青年研究人员,黄学东说最好的建议是坚韧不拔。
“不要动不动就想着一炮打红,一夜成名,哪有那么好的事。任何成绩的获得,不仅仅是个人的成果,是从好几代人的研发基础上一步步往前走的。这是事实,整个社区不是微软一个公司,是大学研究机构和各个公司一起的努力才做到今天这个结果的。”黄学东说。
来源:澎湃新闻