国漫手机壁纸

LSTM之父再称ResNet、GAN等五大网络都有他的功劳,网友却说:自负大于引用数

“现在引用最多的几个神经网络都是建立在我的实验室成果之上的!”能说出此话的不是别人,正是在深度学习领域作出了巨大贡献的LSTM之父——JürgenSchmidhube。但这也不是他第一次为“自己的开创性工作没得到足够的尊重”而公开发声。在这篇“直抒胸臆”的推文里,他还专门链出了个博客,里

NetSmell 出品

  “现在引用最多的几个神经网络都是建立在我的实验室成果之上的!”

  能说出此话的不是别人,正是在深度学习领域作出了巨大贡献的 LSTM 之父——Jürgen Schmidhube。

  但这也不是他第一次为“自己的开创性工作没得到足够的尊重”而公开发声。

  在这篇“直抒胸臆”的推文里,他还专门链出了个博客,里面历数了他和他的团队在 LSTM、ResNet、AlexNet 和 VGG、GAN 以及 Transformer 变体——这五个赫赫有名的神经网络上的早期贡献。

  来看看他是怎么说的。

  “五大神经网络都是建立在我的实验室成果之上”

  首先是 LSTM(Long Short-Term Memory)。这是Jürgen 和他的学生们在 1997 年提出的一种新的 RNN,解决了神经网络长短期记忆的难题。

  根据谷歌学术,这是 20 世纪被引用次数最多的神经网络。

  现在已经“渗透”进医疗保健、学习机器人(learning robot)、游戏、语音处理、机器翻译等领域,每天被无数人使用数十亿次。

  其厉害之处不用多说,大家对Jürgen 的这项成就也没啥异议。主要看另外四个:

  ResNet

  作为 21 世纪被引用次数最多的神经网络,Jürgen 说它引用了他们的 Highway Net、然后把它做成了另一个版本。

  Highway Net,是他的学生们发明的第一个具有 100 多层的真正的深度前馈神经网络。

  它用跳层连接解决了非常深度的神经网络的训练,其性能也与 ImageNet 上的 ResNet 差不多。

  这俩的争议很多人都有分析过,虽然两者都用了跳层连接技术,但选择的机制不同;多数人认为 ResNet 应该只是受到了 Highway Net 的启发。

  但Jürgen 不这么认为,他还专门强调了一下,Highway Net 也是基于 LSTM 的思想才得以解决深度训练的问题的。意思是 ResNet“一脉相承”了他两个成果。

  AlexNet 和 VGGNet

  对于这俩在引用次数排第二、第三的神经网络,Jürgen 表示:都类似 DanNet——他们在 2011 年提出的第一个赢得图像识别比赛的深度卷积神经网络,并且 DanNet 在 AlexNet 出现之前赢了 4 场。

  因为 2012 年出生的 AlexNet 论文中引用了 DanNet,用到了Jürgen 团队提出的摒弃无监督预训练为纯监督学习的 DNN 思想。

  而 VGG 则是同样采用了 DanNet 使用小卷积滤波器增加神经网络深度的 track。

  GAN

  博文中写道,大名鼎鼎的 GAN 也是Jürgen 本人在 1990 年提出的 Adversarial Curiosity 原则的应用,它们都由两个神经网络进行“对抗”(Adversarial Curiosity 则是一个叫生成器,一个叫预测器)。

  “炮轰”GAN 可不是第一次了,Jürgen 甚至还公开和 GAN 的提出者 battle 过,但很多学者分析,GAN 并不能视为 Adversarial Curiosity 的一个简单变种。

  Transformer

  最后一个是 Transformer,如今风靡的 Transformer 又和Jürgen 有什么关系呢?

  Jürgen 说,Transformer 的变体-线性 Transformer,在形式上相当与他于 1991 年提出的快速权重存储系统(Fast Weight Programmers)的延伸(除了标准化部分)。

  真的是这样的吗?

  不得不说,Jürgen 的某些思想非常超前,但其实上面的这些内容都不是Jürgen 第一次公开说明了。

  一如既往,网友们的回应褒贬不一。

  追捧他的表示:

  “这是 Schmidhuber 的世界,我们凡人只是居住在其中!”

  “Schmidhuberisallyouneed.”

  但更多的人都是在承认他巨大贡献的同时,指出他过于美化自己的贡献,想把这二三十年所有相关的进步都归功于他。

  就像博文中提到的 ResNets,许多人的观点认为它只是 HighwayNets 中一个非常微不足道的延伸;

  而 Transformer 则是在发展壮大了三年之后才被Jürgen 联系到了 Fast Weight Programmers 身上;(如果真的那么相关,怎么一开始不指出来)

  上面提到的种种几乎和他的团队成就没啥关系,没有他的那些论文,那些模型照样会被提出来。

  而他最重要的两个贡献是:用 LSTM 思想解决 RNN 训练难题以及梯度消失难题的理论分析。但这都还主要是他的学生 Hochreiter 领导的。

  因此有人觉得Jürgen 这种行为简直就像个孩子一直在说“看我,我是最棒的”一样:

  甚有直言:“他的自负大于他的引用次数”。

  你觉得呢?

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。