Program

Brief Program Keynote Invitation Keynote PRCV & DICTA 2022 Joint Session Thematic Forum Women in Science Forum Tutorial Doctoral Consortium The current and future machine imaging for medical robots Papers
点击论坛跳转到相应位置
面向多模态理解的模型预训练及应用

01

论坛简介、目的与意义

简介
近年来,为了让机器能听会说、能看会认、能理解会思考,从而实现真正的人工智能,研究者们提出了一系列多模态理解任务,如文字识别、语音分析、视觉感知等来训练并评价机器在认知方面的智能程度。一般来说,领域专家通常会人工构造标准的多模态数据集,然后通过有监督的方式在其上训练并评价相关模型及方法。但是,这一过程往往面临标注成本过高、模型/算法泛化能力不强等问题。近期,预训练方法的出现在一定程度上缓解了以上问题。具体来说,研究者们通过挖掘不同模态数据之间关系来设计预训练任务,例如,利用大规模的无标注或弱标注样本让模型理解懂得不同模态数据之间的关联(举例:文字的“马”与图片中的“马”),由此成功将预训练方法应用到多模态任务上,完成模型的初步优化。更进一步地,在利用多模态数据得到预训练模型之后,研究人员又通过微调的方式,将鲁棒性、泛化性优越的预训练模型迁移到不同的下游实际应用当中,极大推动了智能数字新经济的发展。本次讲习班将围绕“面向多模态理解的模型预训练及应用”为核心展开讨论,介绍国内外一线的优秀学者在相关方面的研究进展和成果。
目的
讲者希望通过该讲习班使听众能够了解:1)面向多模态理解的模型预训练问题的定义及其背景介绍;2)经典多模态理解的主要学习范式;3)有关多模态理解模型预训练的重要技术进展;4)基于多模态理解模型预训练的成功应用案例。
意义
在学术上,该讲习班可进一步增强听众对多模态理解及模型预训练领域的关注度及其技术理解;在应用上,该讲习班可普及多模态理解及模型预训练的研究进展,并在一定程度加速相应技术的落地应用。

02

论坛日程

03

论坛嘉宾

周文罡 组织者、主持人

中国科学技术大学信息学院教授、博士生导师

嘉宾简介:周文罡,中国科学技术大学信息学院教授、博士生导师。于2006年与2011年分别在武汉大学与中国科学技术大学获得学士与博士学位。主要研究方向包括图像识别与检测、跨模态检索与机器博弈。在TPAMI、IJCV、TIP、TMM、CVPR、ICCV、ECCV、NeurIPS、AAAI等本领域内国际主要期刊与会议上发表学术论文超过100篇,谷歌学术引用8000余次。获2022年华为“AI名师” 奖、第十一届(2021年)吴文俊人工智能科技进步奖一等奖(排名3)、2013年中科院百篇优秀博士学位论文奖、ICIMCS 2012最佳论文奖,担任IEEE ICME 2021 宣传与出版主席,担任IEEE TMM编委。主持与参与多项国家自然基金与国家重点研发计划,入选2019年优秀青年基金。

代季峰  报告嘉宾、组织者

清华大学电子系副教授

嘉宾简介:代季峰,清华大学电子系副教授。他在清华大学自动化系于2009年和2014年分别获得学士和博士学位,博士导师周杰教授。2012年至2013年间,他在加州大学洛杉矶分校访学,指导教师为朱松纯教授和吴英年教授。2014年至2019年间,他在微软亚洲研究院(MSRA)视觉组工作,曾担任首席研究员、研究经理。2019年至2022年,他在商汤科技研究院工作,担任基础视觉、通用智能两个二级部门负责人,执行研究总监。代季峰的研究兴趣为计算机视觉中的通用物体识别算法和跨模态通用感知算法。他在领域顶级会议和期刊上发表了30多篇论文,根据谷歌学术统计获得了20000多次引用。他的一些工作,如区域全卷积网络R-FCN、可变形卷积网络Deformable ConvNets,被编入顶尖大学计算机视觉课程的讲义中。他于2015、2016年获得领域权威的COCO物体识别竞赛一等奖,后续历届冠军系统也均使用了他提出的可变形卷积模块。代季峰在商汤科技工作期间,曾经担任本田-商汤自动驾驶研发项目的技术负责人。他是IJCV的编委,CVPR 2021和ECCV 2020的领域主席,ICCV 2019的公共事务主席,AAAI 2018的高级PC成员,北京智源人工智能研究院的青年科学家。

报告题目:通用感知模型研究

报告摘要:构建一个如人脑一样能同时处理多模态多任务的通用感知模型一直是AI研究领域的重要追求目标。近来已有多个通用感知模型被相继提出,如商汤提出的Uni-Perceiver、阿里提出的OFA、Deepmind提出的Gato等。通用感知模型将各式任务建模成一个统一的范式,并在多模态多任务上进行大规模预训练,使其不但可以使用同一套模型权重完成各式不同任务,还能不引入任何新参数在全新任务上进行零样本推理。尽管通用感知模型在任务通用性方面已经取得了长足进步,但是相比于专注特定任务而训练的模型,通用感知模型往往在一些任务上有着性能下降的现象。这是由于通用感知模型在不同任务之间共享参数,而不同任务在优化过程中会存在梯度不一致性,这将会导致模型权重更新的最优方向不确定,从而使得网络最终性能的下降。本次报告将介绍我们在这个方向的探索,既Uni-Perceiver系列工作,我们首次将多专家模型MoE应用到了通用感知模型中。实验结果表明MoE能够在引入较小的计算成本时有效去除通用感知模型中的任务干扰,在从未见过的新任务上面仍然保持着不错的zero-shot推理能力。

潘滢炜  报告嘉宾

京东科技资深研究员

嘉宾简介:潘滢炜,京东科技资深研究员。于2013年和2018年在中国科学技术大学获得学士和博士学位,主要研究方向为多媒体内容理解和计算机视觉。在顶级会议/期刊上发表论文50余篇,谷歌学术引用率4500余次,创新成果多次成功转化到京东的产品和服务中(例如拍照购),也多次在视觉内容分析和理解的国际学术竞赛中获得冠军。2015年获得微软学者奖学金,2018年获中国科学院院长优秀奖,2019年被授予ACM SIGMM China最佳博士论文奖和ACM中国优秀博士论文提名奖。其在多媒体内容理解方向的成果获ACM Multimedia 2019最佳演示系统奖和ACM Multimedia 2021最佳开源项目奖。

报告题目:“视觉与语言”跨模态智能及应用

报告摘要:本次演讲简要回顾近几年视觉与语言这一跨模态智能的技术发展和创新,将以不同模态间从自洽、交互到共生的发展脉络来进行介绍。同时受自然语言处理领域大规模预训练模型的启发,视觉与语言如今也已经迈入了基于跨模态预训练模型的共生阶段。因此本次演讲也将重点介绍如何在视觉-语言智能中高效的利用跨模态预训练模型,以及它们在零售、物流等真实场景下的一系列落地应用。

史佳欣  报告嘉宾、组织者

华为云高级研究员

嘉宾简介:史佳欣,华为云高级研究员,于2016年与2021年于清华大学分别获得学士与博士学位。主要研究方向包括自然语言处理、视觉语言推理、大规模神经网络模型预训练等。在CVPR、ACL、EMNLP、AAAI等计算机视觉、计算语言学顶会上发表多篇论文,谷歌学术引用500余次。2019年获得清华大学博士研究生国家奖学金,2021年获得中国中文信息学会优秀博士论文提名奖。

报告题目:预训练语言模型进展及应用

报告摘要:近年来,以BERT、GPT为代表的预训练语言模型快速发展,大幅提升了NLP领域各个任务的效果,特别是在生成任务上的巨大进步,使得多轮对话、文学创作等应用成为可能。本次报告将分享预训练语言模型的关键技术,针对不同的模型结构与训练方法进行分析对比,总结现有方法的优缺点,并从实际应用的角度出发,分享预训练语言模型的使用经验,并思考未来的技术演进方向。

金鑫  报告嘉宾、组织者

东方理工高等研究院助理教授

嘉宾简介:金鑫,东方理工高等研究院信息学部助理教授、博士生导师,中国科学技术大学博士,新加坡国立大学LV Lab访问学者,曾获ACM SIGAI China(国际计算机学会中国人工智能分会)优博奖、中国科学院院长特别奖、微软亚洲研究院MSRA明日之星。主要研究方向为大规模行人识别、跨模态视频编码、模型泛化与迁移等前沿应用型研究,与微软亚洲研究院MSRA、阿里达摩院等合作紧密。在计算机视觉及深度学习领域发表论文30余篇,一作论文涵盖CVPR、ICCV、ECCV、ACMMM、NeurIPS、AAAI、TIP、TMM、TCSVT、Pattern Recognition等顶会顶刊,谷歌学术引用超1000次,且长期担任这些顶会顶刊的审稿人/PC。获得授权专利6项,同时积极参与图像/视频压缩编码相关的国际/国内标准化工作。

报告题目:预训练模型在下游任务上的定制化迁移与应用

报告摘要:近年来,基于多模态数据的大规模预训练模型(如,CLIP)在表征学习方面展现出了巨大的潜力,并且利用该类模型学习到的深度特征具有极强的可泛化性,在多个下游任务上表现出了极强的普适性。与一般基于自监督(如,对比学习、Masked Image Modeling (MIM))的表征学习不同,基于多模态(以Vision-Language Model为例)的预训练方法通常结合跨模态数据之间的关联(Relationship),在公共特征空间对齐图像和文本,以此作为监督约束完成最终的预训练。为了将上述多模态预训练模型更加高效地迁移到更多、更广的下游任务上,参数高效的迁移学习(Parameter-efficient Transfer Learning)应运而生(如,Prompt Learning提示学习),其借鉴自NLP领域,能够实现仅调整模型输入空间中的少量参数而达到令人满意的效果,目前已成为视觉社区的一种趋势,为大模型落地起到了积极的推动作用。本报告首先回顾了近年来预训练框架的发展历史,其次又回顾了“微调”方法近年来的演变趋势,最后以“定制化迁移”为切入点,以本课题组在行人重识别、面向视频编码等具体任务上的研究为实例,深度探索如何高效快速地利用好预训练模型,推动大模型的实际应用,走好AI落地的最后一公里。

Official account