国漫手机壁纸

不用1750亿!OpenAI CEO放话:GPT-4参数量不增反减

新智元报道来源:AIM编辑:好困【新智元导读】不要100万亿!也不要10万亿!更不要1750亿!GPT-4参数量竟然比GPT-3还少!GPT-4官宣?近日,OpenAI的首席执行官SamAltman出席了「theAC10onlinemeetup」的线上Q

NetSmell 出品

  新智元报道

  来源:AIM

  编辑:好困

  【新智元导读】不要 100 万亿!也不要 10 万亿!更不要 1750 亿!GPT-4 参数量竟然比 GPT-3 还少!

  GPT-4 官宣?

  近日,OpenAI 的首席执行官 Sam Altman 出席了「the AC10 online meetup」的线上 QA,并透露了关于 GPT-4 的最新消息。

  去年,OpenAI 在一篇题为「语言模型是小样本学习者」的论文中介绍了当时最大的神经网络 GPT-3。

  作为最先进的语言模型,GPT-3 包括 1750 亿个参数,而其前身 GPT-2 的参数为 15 亿,并且击败了之前保持「有史以来最大」记录的图灵 NLG 模型(170 亿)。

  由于 OpenAI 几乎是每间隔一年就发布一个 GPT 模型:2018 年发布了 GPT-1,2019 年发布了 GPT-2,2020 年发布了 GPT-3。

  到了 2021 年,网络上对于测 GPT-4 的猜测就如雨后春笋一般层出不穷。

  也有文章表示 GPT-4 的参数量将与大脑的突触一样多,达到 100 万亿个。

  甚至连 OpenAI 的「自己人」也觉得这怎么也得有个 100 亿吧。

  然而,谁也没有想到,GPT-4 的参数竟然比 GPT-3 还少!

  GPT-4 的期待

  Altman 在采访中表示: 「与流行的看法相反,GPT-4 不会比 GPT-3 大,但会使用更多的计算资源。」

  实现这一点,GPT-4 将使用与之前 GPT 模型不同的方法,包括数据算法和微调,这其中的重点显然是在较小的模型中获得最大的收益。

  通常认为,一个模型的参数越多,它能实现的任务就越复杂。

  不过,有越来越多的研究指出,一个模型的有效性可能不一定像人们认为的那样与它的大小相关。

  例如,最近一项来自谷歌的的研究表明,比 GPT-3 小得多的模型:微调语言网(FLAN),在一些具有挑战性的基准上比前者提供了更好的结果。

  https://arxiv.org/pdf/2109.01652.pdf

  这篇标题为「微调语言模型是零样本学习者」的论文,似乎是直指 OpenAI 的那篇 GPT-3 论文,火药味十足。

  言归正传,从 Altman 的发言中可以看出,OpenAI 也一直在摸索如何通过训练较小的模型来完成一些任务,并达到更好的效果。

  Altman 还表示,GPT-4 将更加关注代码的生成,也就是更接近 OpenAI 通过 API 在私人测试中发布的 Codex 模型。

  它能理解十几种语言,还能用自然语言解释简单的命令,并代表用户执行这些命令,允许为现有的应用程序建立自然语言界面。

  只要对 Codex 发号施令,它就会将英语翻译成代码。

  比如:「 add this image of a rocketship」

  随后,这张火箭照片就被添加进来了:

  Codex 不仅能够收到指令后自行编程,还能够开发个小游戏。

  此外,Codex 还能接收语音指令。

  「啪,每行开头的空格消失了!」

  除了 GPT-4 之外,Altman 还表示,之后的 GPT-5 或许能够通过图灵测试。

  不过,这可能并不值得付出努力去做。

  DALL.E 将开源

  DALL.E 要开源了!

  DALL.E 与 GPT-3 一样,也是一个 Transformer 语言模型。

  作为 GPT-3 的 120 亿参数衍生版本,它将文本和图像作为单一的数据流接收,其中包含多达 1280 个词元,并使用最大似然法进行训练。

  自然语言输入是一个完全开放的沙盒,如果能按照模型的喜好使用文字,你几乎可以创造任何东西。

  DALL-E 文本到图像的端到端生成

  由于 OpenAI 一直没有开源 DALL.E,因此之前的创作都是基于图像标注模型 CLIP。

  在概念上,这种从文本描述生成图像的想法与 DALL.E 模型惊人地相似,但实际上却完全不同。

  DALL.E 是直接从语言中产生高质量的图像而进行的端到端训练,而 CLIP 则是使用语言来引导现有的无条件图像生成模型。

  而这些基于 CLIP 的方法要相对拙略一些,所以输出的结果并不像 DALL.E 那样具有很高质量和精确度。

  正是这种怪异使这些基于 CLIP 的作品如此独特,让人在熟悉的事物上看到完全不同的结果。

  「牛油果形状的扶手椅」:上图由 DALL.E 生成,下图由 CLIP 生成的

  AGI:算法、数据和计算机

  对于 AGI,UCLA 的计算机科学教授、人工智能先驱 Stuart Russell 表示深度学习是不足以实现的。

  「关注原始计算能力完全没有抓住重点。我们不知道如何让一台机器真正智能化,即使它有宇宙那么大。」

  相比之下,OpenAI 相信,在大型数据集上输入大型神经网络并在巨大的计算机上进行训练是实现 AGI 的最佳途径。

  OpenAI 的首席技术官 Greg Brockman 表示:「谁拥有最强大的计算机,谁就能获得最大的好处。」

  此外,OpenAI 相信缩放假说:给定一个可扩展的算法,如 GPT 系列背后的基本架构 Transformer,就可能有一条通向 AGI 的直接路径,包括基于该算法训练越来越大的模型。

  但大型模型只是 AGI 难题的一个部分,训练它们需要大型数据集和大量的计算能力。

  当机器学习界开始揭示无监督学习的潜力时,数据不再是一个瓶颈。

  再加上生成性语言模型,以及少量的任务转移,也就解决了「大型数据集」问题。

  OpenAI 只需要巨大的计算资源来训练和部署他们的模型就可以了。

  这或许就是在 2019 年决定与微软合作的原因,这样就通过授权微软在商业上使用 OpenAI 的模型,以换取使用其云计算基础设施和所需的强大 GPU。

  参考资料:

  https://analyticsindiamag.com/gpt-4-sam-altman-confirms-the-rumours/

  https://towardsdatascience.com/gpt-4-will-have-100-trillion-parameters-500x-the-size-of-gpt-3-582b98d82253

显示余下内容
相关文章:
  1. 信用卡 PIN 码很容易猜测
  2. 神经元簇发能模拟 AI 学习策略
  3. 蜘蛛丝可能根本不具有抗菌性质
  4. 佳能因禁止无墨水打印机扫描被起诉
  5. DeepMind盈利后开始「买买买」!收购机器人模拟平台MuJoCo,全面开源
  6. 分析师:新MacBook Pro搭载自家芯片,苹果利润率更高了
  7. 格芯提交上市申请IPO,筹资约26亿美元
  8. 美股周二:中概股普涨 阿里涨超6% 高途涨逾12%
  9. 搭配自研处理器与安卓12,谷歌新机Pixel 6起价599美元
  10. 摩根士丹利:马斯克有望凭SpaceX成首位万亿美元富豪
  11. 《鱿鱼游戏》助奈飞三季度新增用户翻倍,股价近新高
  12. DOTA 2又上热搜了 为什么这次大家到处刷“猛犸”?
  13. 多位游戏巨头联合希望美国政府监管盗版和作弊网站
  14. Google Play Data Safety开始接受开发者申请:2022年将强制执行
  15. 价格欺诈投诉引发公益诉讼 京东“划线价”格式条款须整改
 

发表回复

您的电子邮箱地址不会被公开。