历经6年 AI终于在“读图会意”上超越人类
前不久,在中文语言理解权威评测基准CLUE中,阿里巴巴的AI模型在新闻文本上超越了人类识别精确度。现在“读图会意”上,阿里巴巴达摩院在VQA上也超越了人类,这是榜单设立6年来的首次。8月12日,国际权威机器视觉问答榜单VQALeaderboard出现关键突破:阿里巴巴达
前不久,在中文语言理解权威评测基准 CLUE 中,阿里巴巴的 AI 模型在新闻文本上超越了人类识别精确度。现在“读图会意”上,阿里巴巴达摩院在 VQA 上也超越了人类,这是榜单设立 6 年来的首次。
8 月 12 日,国际权威机器视觉问答榜单 VQA Leaderboard 出现关键突破:阿里巴巴达摩院以 81.26% 的准确率创造了新纪录,让 AI 在“读图会意”上首次超越人类基准。
继 2015 年、2018 年 AI 分别在视觉识别及文本理解领域超越人类分数后,人工智能在多模态技术领域也迎来一大进展。
达摩院 AliceMind 在 VQA Leaderboard 上创造首次超越人类的纪录
“诗是无形画,画是有形诗。”宋代诗人张舜民曾描绘语言与视觉的相通之处。“读图会意”,即通过视觉理解信息,是人类的一项基础能力,但对 AI 来说却是要求极高的认知任务。
解决该挑战,对研发通用人工智能有重要意义。近 10 年来,AI 在下棋、视觉、文本理解等单模态技能上突飞猛进,但在涉及视觉-文本跨模态理解的高阶认知任务上,AI 过去始终未达到人类水平。
为攻克这一难题而设立的挑战赛 VQA Challenge,自 2015 年起先后于全球计算机视觉顶会 ICCV 及 CVPR 举办,吸引了包括微软、Facebook、斯坦福大学、阿里巴巴、百度等众多顶尖机构踊跃参与,并形成了国际上规模最大、认可度最高的 VQA(Visual Question Answering)数据集,其包含超 20 万张真实照片、110 万道考题。
VQA 是 AI 领域难度最高的挑战之一。在测试中,AI 需根据给定图片及自然语言问题生成正确的自然语言回答。
这意味着单个 AI 模型需融合复杂的计算机视觉及自然语言技术:首先对所有图像信息进行扫描,再结合对文本问题的理解,利用多模态技术学习图文的关联性、精准定位相关图像信息,最后根据常识及推理回答问题。
VQA 技术自 2015 年的进展
今年 6 月,阿里达摩院在 VQA 2021 Challenge 的 55 支提交队伍中夺冠,成绩领先第二名约 1 个百分点、去年冠军 3.4 个百分点。两个月后,达摩院再次以 81.26% 的准确率创造 VQA Leaderboard 全球纪录,首次超越人类基准线 80.83%。
VQA 的核心难点在于对多模态信息进行联合推理认知,即在统一模型里做不同模态的语义映射和对齐。
据了解,达摩院 NLP 及视觉团队对 AI 视觉-文本推理体系进行了系统性的设计,融合了大量算法创新,包括多样性的视觉特征表示、多模态预训练模型、自适应的跨模态语义融合和对齐技术、知识驱动的多技能 AI 集成等,让 AI“读图会意”水平上了一个新台阶。
VQA 技术拥有广阔的应用场景,可用于图文阅读、跨模态搜索、盲人视觉问答、医疗问诊、智能驾驶等领域,或将变革人机交互方式。
报道显示,这不是阿里达摩院第一次在 AI 关键领域超越人类基准。2018 年,达摩院曾在斯坦福 SQuAD 挑战赛中历史性地让机器阅读理解首次超越人类,引发海外媒体关注。
今年以来,达摩院在 AI 底层技术领域动作频频,先后发布了中国科技公司中首个超大规模多模态预训练模型 M6 及首个超大规模中文语言模型 PLUG,并开源了历经 3 年打造的深度语言模型体系 AliceMind(https://github.com/alibaba/AliceMind),其曾登顶 GLUE 等六大国际权威 NLP 榜单。
VQA 考题列举,根据有礼服装饰的小熊玩具照片及问题“这些玩具用来做什么的?”达摩院 AliceMind 成功推理出一个可能的答案“婚礼”。
相关文章:
- 信用卡 PIN 码很容易猜测
- 神经元簇发能模拟 AI 学习策略
- 蜘蛛丝可能根本不具有抗菌性质
- 佳能因禁止无墨水打印机扫描被起诉
- DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
- 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
- 格芯提交上市申请IPO,筹资约26亿美元
- 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
- 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
- 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
- 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
- DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
- 多位游戏巨头联合希望美国政府监管盗版和作弊网站
- Google Play Data Safety开始接受开发者申请:2022年将强制执行
- 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
发表回复