国漫手机壁纸

谷歌研究院最新发现:训练结果不准确,超大数据规模要背锅!

新智元报道来源:uniteai编辑:霜叶【新智元导读】目前AI领域的一大趋势是什么?没错,就是扩大数据集规模。然而最近Geoglereserach的一篇论文,却认为对超大规模数据集进行整理的趋势,反而会阻碍有效开发人工智能系统。数据规模真的越大越好?算力和数据是人工智能两大主要驱

NetSmell 出品

  新智元报道

  来源:uniteai

  编辑:霜叶

  【新智元导读】目前 AI 领域的一大趋势是什么?没错,就是扩大数据集规模。然而最近 Geogle reserach 的一篇论文,却认为对超大规模数据集进行整理的趋势,反而会阻碍有效开发人工智能系统。

  数据规模真的越大越好?

  算力和数据是人工智能两大主要驱动力。无论是计算机视觉,还是自然语言处理等 AI 系统似乎都离不开数据集。

  在超大规模数据时代,数据和学习结果是这样的关系:

  数据规模越大,AI 模型越精准、高效。在大部分人眼里,这似乎是个不争的事实。

  数据规模和模型精确度难道真的是呈现正相关关系吗?

  最近,Geogle Research 上发布的一篇论文,对这一普遍持有的观点,提出了质疑的呼声。

  规模一大, “饱和”就无处不在!

  这篇名为 Expolring the limits of pre-training model 挑战了机器学习效果和数据关系的既有假设。经过试验得出的结论是:无论是通过扩大数据规模还是超参数来改进上游性能,下游可能会出现“饱和”现象。

  所谓饱和就是…..你懂的哈,就是没有梯度信号传入神经元,也无法到权重和数据,这样网络就很难以进行学习了。

  为了证明饱和效应的观点,作者对视觉变形器、ResNets 和 MLP-混合器进行了 4800 次实验,每个实验都有不同数量的参数,从 1000 万到 100 亿,都在各自领域现有的最高容量数据集进行训练,包括 ImageNet21K 和谷歌自己的 JFT-300M。

  文中还提到了一种极端的情况,上游和下游的性能是互相矛盾的 ,也就是说:要想获得更好的下游性能,可能得牺牲掉上游任务的精确度。

  这一假设一旦得到验证,就意味着 “超大规模 “数据集,如最近发布的 LAION-400M(包含 4 亿个文本/图像对),以及 GPT-3 神经语言引擎背后的数据(包含 1750 亿个参数),有可能受限于传统机器学习的架构和方法。庞大的数据量可能会使得下游任务饱和,降低了其泛化的能力。

  其实呢,之前的假设也不是完全在“胡言乱语”,只是要加上一个条件即:既定数据规模的超参数要在一个较为简单的线性函数关系中 , 且是一个固定的值。

  考虑到有限的计算资源和经济成本等问题,先前的研究范围较小,让人们对数据集和有效 AI 系统间的关系产生了不全面的认知。原来以偏概全是通病!

  事实上怎么可能有这么简单呢?

  文章又反驳道“先前关于论证数据规模有效性的研究,仅是在有限的范围进行的。 因而不能妄下定论。“

  唱反调也得有依据!文章为什么会得出这样的结论呢?原来真相就在眼前!

  上下游的关系不简单!

  先前的研究是在线性函数的假设基础上,呈现出了对数关系。

  然而经过研究发现,情况是这样的

  从图中可以发现,下游任务在某些点,会发生饱和。但这些“饱和点”并不固定。因而文章推论,上下游之间的关系是非线性的。

  数据、模型规模的扩大,倒是能提高上游性能。但是由于这种非线性关系的存在,提高上游的准确度的同时,下游准确度就不能够保证了。

  预训练模型不能让人们”一劳永逸“!

  本文讨论了 “预训练 “的做法,这种措施旨在节省计算资源,减少从零开始训练大规模数据所需的时间。

  预训练可以明显提高模型的鲁棒性和准确性。但新的论文表明,即使在相对较短的预训练模板中,但是考虑到特征的复杂性,预训练模型不适合于所有情况。如果研究人员继续依赖预训练模型,可能影响到最终结果的准确性。

  论文最后提到,”我们不能期望找到适用于所有下游任务的预训练模型。”

  规模有多大,就有多准确?

  Geogle research 的研究结果对这一定论,勇敢说出了”不“,的确让人们眼前一亮!是否会对整个 AI 研究领域,带来突破性的进展呢?也许会由此带动更多的相关研究,会不知不觉掀起另一波”浪潮“?咱们走着瞧!

  参考资料:

  https://www.unite.ai/google-research-identifies-a-bottleneck-in-hyperscale-approaches-to-ai/

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。