来源:大数据文摘
大数据文摘出品
来源:venturebeat
翻译:徐玲、曹培信
学一门外语需要多长时间?
如果说大部分中国人的一外是英语,已经学了十几年甚至几十年了,那么学一门二外需要多久呢?你能同时学好几门外语吗?
文摘菌反正是做不到的,但是亚马逊的Alexa就一次性学习了三门外语,至此Alexa学会的语言已经达到了10种。
最近,亚马逊高级科研经理Janet Slifka在Alexa博客上的一篇文章中表示,Alexa又学会了新的全球性语言:印地语、美国西班牙语和巴西葡萄牙语,合成数据(Synthetic data)在这方面起到了很大的帮助,但这不是最终的万能解决方案,这些语言需要新的引导工具。
其中一个工具是由亚马逊的Alexa AI应用建模和数据科学小组开发的,它使用一种名为“语法归纳(Grammar Induction)”的技术来分析“黄金例句(Golden Utterances)”(即Alexa功能团队提出的典型用户请求示例)并产生一系列可以生成相似句子的表达式。
另一种是“引导重采样(Guided Resampling)”,它通过从现有数据中的例子中重组单词和短语来创造新句子,重点是优化句子类型的数量和分布。
Slifka指出,当Alexa的新语言版本处于积极开发阶段时,团队会为系统编译训练数据,以了解用户的意图,Alexa的一部分训练数据来自人工智能模型翻译的现有语言,其余部分通常来自工作人员和一款向用户提供提示性信息的Alexa语音应用Cleo。
该语法系统使用一种称为贝叶斯模型的技术来合成一种代表性语法,或者通过插入、删除和替换单词来改变基本模板句的一组重写规则。通常情况下,一个计算语言学家一天可能要处理50个例句,但该工具通过识别话语列表中的模式并使用它们为数千个模板生成100多个候选规则,将处理过程缩短到几秒钟。例如,如果两个词(如“pop”和“rock”)出现在相似的句法位置上,但围绕它们的短语却各不相同,它可能会提出一个候选规则,即“pop”和“rock”在某些上下文中可以互换。
并且,语法系统可以自动确定哪些规则在样本数据中造成了最大的差异(而不会以偏概全),这些规则在流程的进一步迭代中成为合格的变量。还有另外一个好处是它能够利用现有的Alexa目录中频繁出现的术语或短语。例如,如果例句是与体育相关的,并且它确定“凯尔特人”和“湖人”这两个词是可以互换的,那么它就会得出这样的结论:它们也可以与“勇士”、“马刺”、“尼克斯”和其他所有Alexa知道的NBA球队的名字互换。
至于引导重采样工具,它同样使用目录和现有的示例来扩充自然语言理解训练数据。具体来说,它通过替换话语中的元素来生成额外的训练样本,例如:“play Justin Bieber” 和 “can you play a song by Camila Cabello?” 使用所谓的Jaccard指数来评估内容之间的两两相似(Jaccard指数度量两个集合之间的重叠-在这个例子中,是不同类型请求中的内容。)其结果是,该系统为更复杂的话语数据模式生成比例更大的训练集,Slifka指出,这有助于人工智能模型实现更高的性能。
Slifka写道:“Alexa一直在变聪明,AMDS研究人员的这些创新,将有助于确保Alexa在新的语言领域发布时获得尽可能好的体验。”
相关报道:
https://venturebeat.com/2019/10/11/amazon-explains-how-alexa-learns-new-languages/
来源:BigDataDigest 大数据文摘
原文链接:http://mp.weixin.qq.com/s?__biz=MjM5MTQzNzU2NA==&mid=2651674931&idx=2&sn=c231b0b0d96dda201083b0138bc3b813&chksm=bd4c7ea08a3bf7b6da7a50b3c163d8c6fcbafaabd3118fa9ea8eeb248f24819bf6c99b0346a5&scene=27#wechat_redirect
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn