英伟达Faster Transformer:作者带你揭秘BERT优化

中科科界(北京)科技有限公司  |   2019-09-18 14:02

来源:机器之心

2017 年 12 月 Google 在论文「Attention is All You Need」中首次提出了 Transformer,将其作为一种通用高效的特征抽取器。至今,Transformer 已经被多种 NLP 模型采用,比如 BERT 和 XLNet,这些模型在多项 NLP 任务中都有突出表现。


在 NLP 之外,TTS,ASR 等领域也在逐步采用 Transformer。可以预见,Transformer 这个简洁有效的网络结构会像 CNN 和 RNN 一样被广泛采用。虽然 Transformer 在多种场景下都有优秀的表现,但是在推理部署阶段,其计算性能却受到了巨大的挑战:以 BERT 为原型的多层 Transformer 模型,其性能常常难以满足在线业务对于低延迟(保证服务质量)和高吞吐(考虑成本)的要求。因此,一个高效的 Transformer 前向计算方案,既可以为在线业务带来降本增效的作用,也有利于以 Transformer 结构为核心的各类网络在更多实际工业场景中落地。


NVIDIA GPU 计算专家团队针对 Transformer 推理提出了性能优化方案:Faster Transformer


据介绍,Faster Transformer 是一个 BERT Transformer 单层前向计算的高效实现,其代码简洁明了,后续可以通过简单修改支持多种 Transformer 结构。目前,Faster Transformer的优化集中在编码器(encoder)的前向计算(解码器 decoder 开发在后续特性规划中)。底层由 CUDA 和 cuBLAS 实现,支持 FP16 和 FP32 两种计算模式,其中 FP16 可以充分利用 Volta 和 Turing 架构 GPU 上的 Tensor Core 计算单元。


不久之前,机器之心曾发文对英伟达开源的 Faster Transformer 进行了简要介绍。为向读者更细致的解读Faster Transformer背后的优化原理与细节, 9 月 26 日,NVIDIA 中国区 GPU 计算专家团队高级工程师将来带一场线上分享,详解 Faster Transformer。


Faster Transformer 综述


直播时间:2019 年 9月26 日 20:00—21:30

分享主题:Faster Transformer 综述

分享嘉宾:贾晓莹,NVIDIA 中国区 GPU 计算专家团队高级工程师



贾晓莹2017 年博士毕业于香港科技大学,随后加入 NVIDIA GPU 计算专家团队,从事 NLP,CTR 以及 ASR 的模型在 GPU 上的高效推理实现及优化。


在本次直播中,你将了解到以下内容:


Faster Transformer 背后的优化原理及细节;

如何通过CUDA和cuBLAS在最新架构的GPU上实现高性能的Transformer Encoder。


点击阅读原文,注册后即可预约直播。


NVIDIA GPU计算专家团队致力于为中国客户提供基于GPU系统的最快解决方案,工作内容涉及视频图像处理、语音识别和合成、自然语言处理、推荐系统等各个方面,通过代码优化、模型优化和Pipeline优化,提供端到端的解决方案。本团队开源了若干原型项目,帮助用户评估GPU可以带来的业务收益,并通过进一步开发集成,利用GPU为用户降低成本,提高效率。

来源:almosthuman2014 机器之心

原文链接:https://mp.weixin.qq.com/s?__biz=MzA3MzI4MjgzMw==&mid=2650770295&idx=5&sn=f6e8a4861a3adbff896eb8e26434cc7f&chksm=871a4f09b06dc61ff102344be1b2ee1cc6189808bd7539903c227bbc4d5b3d2fb1b8e88f8ab2&scene=27#wechat_redirect

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

相关推荐 换一换

  • 刘浩
    0
    科界是个很好的APP,使我学习,使我进步,感谢科界是个很好的APP,使我学习,使我进步,感谢
没有更多了