国漫手机壁纸

不用调参,不用改模型!CLUE社区发布国内首个Data-centric竞赛,白给数据分析服务

新智元报道来源:GitHub编辑:LRS好困【新智元导读】模型为中心的竞赛见得太多了,最近国内上新了一个中文NLP竞赛DataCLUE。与以往不同的是,它是以数据为中心的竞赛!不用调参,不用改模型,只需要修改输入数据即可,还有能白嫖的数据分析服务。机器学习的进步是模型带来的还是数据带

NetSmell 出品

  新智元报道

  来源:GitHub

  编辑:LRS 好困

  【新智元导读】模型为中心的竞赛见得太多了,最近国内上新了一个中文 NLP 竞赛 DataCLUE。与以往不同的是,它是以数据为中心的竞赛!不用调参,不用改模型,只需要修改输入数据即可,还有能白嫖的数据分析服务。

  机器学习的进步是模型带来的还是数据带来的,这可能是一个世纪辩题。

  以往的 AI 都是以模型为中心(Model-centric)的,主要考虑的问题是如何通过改造或优化模型来提高最终效果,它通常建立在一个比较固定的数据集上。

  有数据显示超过 90% 的论文都是以模型为中心的,通过模型创新或学习方法改进提高效果,即使不少改进影响可能效果并不是特别明显。

  模型的获取在今天也是相当容易的,在当前的人工智能领域, 无论是自然语言处理(如 BERT) 或计算机视觉(ResNet), 已经存在很多成熟高效模型,并且模型可以很容易从开源网站如 GitHub 获得。

  在如今这个动不动上千亿参数模型的年代,模型不存在表达能力不足的情况,给模型更多的数据,就会取得更高的性能。让模型参与到更多的任务类型,模型也会更强!

  吴恩达对此的想法是,一个机器学习团队 80% 的工作应该放在数据准备上,确保数据质量是最重要的工作,每个人都知道应该如此做,但没人在乎。如果更多地强调以数据为中心而不是以模型为中心,那么机器学习的发展会更快。

  正是看到了这种巨大的差别,在吴恩达等人的推动下这种以数据为中心 (Data-centric)的 AI 进一步的系统化,并成为一个有具有巨大实用价值方法论。

  以数据为中心(Data-centric)的 AI,是一种新型的 AI 探索方向。它的核心问题是如何通过系统化的改造你的数据(无论是输入或者标签)来提高最终效果。

  DataCLUE 是一个以数据为中心的 AI 测评。它基于 CLUE benchmark,结合 Data-centric 的 AI 的典型特征,进一步将 Data-centric 的 AI 应用于 NLP 领域,融入文本领域的特定并创造性丰富和发展了 Data-centric 的 AI。

  在原始数据集外,它通过提供额外的高价值的数据和数据和模型分析报告(增值服务)的形式, 使得融入人类的 AI 迭代过程(Human-in-the-loop AI pipeline)变得更加高效,并能较大幅度的提升最终效果。

  项目地址: https://github.com/CLUEbenchmark/DataCLUE

  官网: www.CLUEbenchmarks.com/dataclue.html

  任务描述

  在固定模型的情况下,参与测评的人需要想办法改进数据的质量来提升任务的最终效果。

  1、 可以对训练集、验证集进行修改(输入文本或标签),或者任意移动训练集和验证集的数据;

  2、 可以通过「非爬虫类」手段增加数据来完善训练和验证集。增加的数据方式包括但不限于:数据增强、文本生成、结合分析定向生成或添加;

  3、 可以通过算法或程序,或者结合人工的方式来改进数据集;但纯人工方式的数据改进,评审环节将不得分。

  任务特点

  DataClue 是一个全新的、与以往不同的竞赛,测评者不上传结果、不修改模型,DataCLUE 的目标是改进数据集,而非模型。

  它也是国内首个以数据为中心的 AI 测评,除了常规的训练、验证和测试集外,它还额外提供了标签的定义、训练集中进一步标注后的高质量数据。结合这些额外的信息,使得融入人类的 AI 迭代闭环(Human-in-the-loop AI pipeline)可以变得更加高效,并且在发挥算法模型在数据迭代过程中可以有更多空间和潜力。

  最重要的是,举办方还免费提供了一项「增值服务」,额外提供模型训练和预测过程中的分析报告,让测评者能够更好地把握数据质量,使得以数据为中心的 AI 的迭代过程变得更有方向和系统化。

  数据和模型分析报告,是基于用户提交的数据集基础上,在实验(运行和预测模型)过程中,结合 AI 技术产出的报告。把模型容易混淆或者预测错误的标签(y)、数据(x)、可疑的数据和数据集中薄弱的部分展示给测评人。

  测评时间

  报名开始与截止:2021 年 9 月 12 日–2021 年 10 月 25 日

  初赛:2021 年 9 月 12 日–2021 年 10 月 30 日。前 80 名并超过 Data-centric 的 baseline 进入到复赛。初始选手,也将获得数据和模型的分析报告(简称增值服务)

  训练集 & 验证集提供:2021 年 9 月 12;提交入口开放:2021 年 9 月 15 日;每天 22 点更新一次在线成绩。

  复赛:2021 年 11 月 1 日–2021 年 12 月 5 日。复赛时,将提供额外高质量标注数据。前 15 名进入到线上评审,进行在线答辩。

  线上评审:2021 年 12 月 12 日(下午 2 点-5 点)

  线上方案评审:方案评审通过考察参赛队伍提交方案的新颖性、实用性和解释答辩表现力来打分,由 5 位评审老师打分;每只队伍有 10 分钟的时间讲解方案,5 分钟来回答问题。方案评审将以直播方法进行。

  最终成绩:线上得分* 0.65 + 线上方案评审 * 0.35

  数据集

  IFLYTEK 长文本分类数据集(Long Text classification),该数据集关于 app 应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共 119 个类别,如打车、地图导航、免费 WIFI、租车、女性、经营、收款等类别。

  训练集包含 12133 条样本,验证集包含 2599 条样本。

  每一条数据有三个属性,分别是类别 ID,类别名称,文本内容。

  {“label”: “110”, “label_des”: “社区超市”, “sentence”: “朴朴快送超市创立于 2016 年,专注于打造移动端 30 分钟即时配送一站式购物平台,商品品类包含水果、蔬菜、肉禽蛋奶、海鲜水产、粮油调味、酒水饮料、休闲食品、日用品、外卖等。朴朴公司希望能以全新的商业模式,更高效快捷的仓储配送模式,致力于成为更快、更好、更多、更省的在线零售平台,带给消费者更好的消费体验,同时推动中国食品安全进程,成为一家让社会尊敬的互联网公司。,朴朴一下,又好又快,1.配送时间提示更加清晰友好 2. 保障用户隐私的一些优化 3. 其他提高使用体验的调整 4. 修复了一些已知 bug”}

  学习资料

  吴恩达:《从以模型为中心到以数据为中心的 AI》

  系统化方式、通过迭代形式改进数据集主要包括:

  1、训练模型;

  2、错误分析:

  发现算法模型在哪些类型的数据上表现不佳(如:数据过短导致语义没有表达完全、一些类别间概念容易混淆导致标签可能不正确)

  3、改进数据:

  1)更多数据:数据增强、数据生成或搜集更多数据,从而获得更多的输入数据。

  2)更一致的标签定义:当有些类别容易混淆的时候,改进标签的定义。基于清晰的标签定义,纠正部分数据的标签。

  4、重复1-3 步。

  其中一个重要的概念是 MLOps,即 Machine Learning 和 Operations 的组合,是 ModelOps 的子集,是数据科学家与操作专业人员之间进行协作和交流以帮助管理机器学习任务生命周期的一种实践。

  与 DevOps 或 DataOps 方法类似,MLOps 希望提高自动化程度并提高生产 ML 的质量,同时还要关注业务和法规要求。MLOps 的最重要任务是提供高质量数据;其次要保证标签的一致性,检验标签是否有自己所管辖的明确界限。

  Know Your Data,KYD

  KYD 是 Google 推出的一个标注工具,其目标是提高数据质量,从而缓解公平性和偏见问题。KYD 还提供了一系列特性,包括允许用户探索和检查数据集,用户可以基于给定数据集中已经存在的注释进行过滤、分组和相关性研究。

  还可以看到数据内部的相关性等指标。

  PClean

  https://arxiv.org/abs/2007.11838

  PClean 的系统是概率计算项目(Probabilistic Computing Project) 研究人员编写的针对特定领域的概率编程语言,旨在简化人工智能应用程序的开发并实现自动化,例如时间序列和数据库进行建模)。

  PClean 可以对商业数据,例如关系数据库和电子表格中的条目进行清洗优化。PClean 使用基于知识的方法来自动化数据清洗的过程: 即用户在定义数据的时候,已经隐含包括了数据库的背景知识以及可能出现的各种问题。

  参考资料:

  https://www.cluebenchmarks.com/dataclue.html

  https://github.com/CLUEbenchmark/DataCLUE

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。