来源:CAA混合智能专委会
邓成,男,西安电子科技大学教授、博士生导师,分别在西安电子科技大学取得学士、硕士和博士学位。2012年入选教育部新世纪优秀人才,2017年入选陕西省中青年科技创新领军人才,2018年获得陕西省青年科技奖。中国图象图形学会高级会员、中国计算机学会高级会员。
主要研究多模态数据智能分析与推理。主持包括国家自然科学基金面上基金、科技部“863”计划、陕西省重点研发计划等科研课题近30项。近5年,在国际SCI一区/二区刊物IEEE T-NNLS、T-CYB、T-IP、T-MM、T-CSVT等发表论文40余篇,在CCF A类会议ICML、NeurIPS、ICCV、CVPR、KDD、AAAI、IJCAI等发表论文50余篇。现担任国际知名期刊Pattern Recognition、Neurocomputing、Pattern Recognition Letters的副编辑;担任多个国际学术会议的领域主席、高级程序委员等,如CVPR2021、IJCAI2020、IJCAI2019、ICME2020、ICPR2018等,以及近20余个国际刊物的审稿人,如IEEE T-PAMI、T-IP、T-CYB、T-NNLS、IJCV等。
研究成果获2019年陕西省自然科学奖一等奖(第1)、2016年国家自然科学奖二等奖1项(第3)。
2. 委员亮点工作推介
海量数据中90%以上是语音、文本、图像、视频等多模态数据。受启发于人类大脑通过视觉、听觉、语言等感知通道获得对世界的统一感知,更高层次的人工智能任务往往涉及更加复杂的、跨越多个模态的信息处理问题,因此,海量多模态数据的智能化处理水平越来越成为人工智能技术发展的重要标志。邓成教授团队重点研究跨模态智能分析及应用,主要涉及两个方面:(1)跨模态紧致表示;(2)跨模态语义推理。
· 跨模态紧致表示
跨模态紧致表示其核心问题是如何有效建立模态之间的互补关联机制,学习跨模态数据的统一紧致表示,进而实现不同模态的语义互通和交叉检索。为此,我们系统研究了跨模态模型设计、跨模态统一表示、跨模态快速检索,重点研究了自监督、无监督模式下的深度跨模态哈希方法。为了克服大规模数据存在的标注数量不足、标注质量有噪等问题,解决常规监督模式下跨模态学习面临的模型训练效率低、学习能力差等弊端,我们首先提出了一种自监督深度哈希方法SSAH,从不同模态之间的标注信息出发,通过构造可靠的辅助知识支路,挖掘跨模态数据之间潜在的共享语义知识,并利用对抗学习将挖掘到的知识嵌入到跨模态哈希学习任务中,大大降低了常规跨模态学习模型对数据标注质量的依赖,提高了学习效率。面对更复杂的无标注跨模态学习问题,我们提出一种无监督深度哈希方法UADH,该方法利用联合对抗学习的思想,构建原始模态数据与哈希码之间双向交互式生成模型,通过自主挖掘数据相似性语义结构,有效保持了模态数据的语义一致性关系。
针对异构模态产生的语义鸿沟问题,我们首先提出了一种语义共享深度跨模态哈希方法。该方法率先提出了模态空间解构的思想,将不同模态数据分别投影到共有空间和私有空间,探讨空间解构对语义一致性的影响,进而实现了跨模态数据的共享语义表达。基于此,我们提出了多任务一致性保持的深度跨模态哈希方法,重点研究跨模态多任务协同学习机制,通过向共有和私有空间嵌入语义分类辅助任务,协助跨模态学习模型获得高层语义一致性表示,从而提高语义判别性。
深度模型的鲁棒性问题近来引起广泛关注。针对现有深度跨模态哈希学习模型鲁棒性差、易受攻击等问题,我们主要研究了对抗样本的产生机理、高效的攻击样本学习模型,以提高检索模型对攻击样本的防御能力。为此,我们提出了一种通用的对抗样本学习方法HAG,通过最大化对抗样本与原始样本在汉明空间中的差异性,并设计哈希掩码矩阵来度量不同哈希维度在优化过程中的重要性,实现了哈希检索中对抗样本的高效学习。进一步,我们提出了一种高效的跨模态对抗样本学习方法CMLA,通过设计模态内语义一致性、模态间语义差异性两种约束,在维持模态内检索性能不变的前提下,成功攻击了跨模态检索模型,获得了更具有攻击性的对抗样本。
图1. 跨模态对抗样本学习(NeurIPS2019)
· 跨模态语义推理
跨模态语义推理核心问题是如何高效完成不同模态(以语言-视觉为主)语义关系的对齐和匹配,强化模态间未知知识的挖掘与利用、目标关系的表达与理解。为此,我们系统研究了跨模态关系度量、跨模态语义理解、跨模态知识推理,重点研究了自然语言引导下的视频分割及零投学习问题。首先,针对跨模态数据的语义相关性和视觉连续性问题,我们设计了一组特定形状的卷积核,对不同模态数据进行整合并生成多个关系向量,成功捕获跨模态数据间的非线性连续关系,全面刻画已知甚至未知数据之间的语义相似关系。其次,针对现有方法大多缺乏对模态间及模态内语义关系的联合考虑,难以对模态语义关系进行有效建模,我们构建了上下文调制动态卷积网络,设计了不对称交叉引导注意机制,使语义信息在模态内和模态间得到进一步匹配与增强,实现跨模态语义挖掘与理解,并在基于自然语言引导的动作视频分割任务上取得了最佳性能。针对现有方法缺乏对模态深层次语义属性的充分挖掘问题,我们构建了零样本知识学习模型,设计了自适应跨模态语义概念学习机制,精确刻画不同模态间语义知识的关联关系,实现从已知概念到未知概念的知识推理,并在零样本未知概念识别任务上取得最佳性能。
图2. 基于自然语言引导的动作视频分割任务(ICCV2019)
3. 委员寄语
“心向往之,行者将至”。跨模态智能的研究尚处于初级阶段,如何利用不同模态数据之间的潜在联系提升智能体对外部世界的感知、认知能力的研究还任重道远,但可以预见,其必将为混合智能的基础研究和应用落地提供智能支撑。祝愿混合智能专委会为我国人工智能与脑认知科学综合交叉研究提供更广阔的舞台。
来源:HAI-CAA2017 CAA混合智能专委会
原文链接:http://mp.weixin.qq.com/s?__biz=MzI4NjcwODgyOA==&mid=2247484972&idx=1&sn=0f44ff67b238bbefc18c7405312fdcd3&chksm=ebd9831fdcae0a093b047e74028645b00cadf889eb76f71a867475e7060150dd16bc12865bca&scene=27#wechat_redirect
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn