国漫手机壁纸

谷歌BigQuery现在允许查询所有GitHub开源项目了

谷歌和GitHub宣布,谷歌BigQuery现在为GitHub上280多万个托管开源项目提供了一个完整的快照。这让用户可以使用SQL查询托管在GitHub上的将近20亿个开源文件。

NetSmell 出品

谷歌GitHub宣布,谷歌BigQuery现在为GitHub上280多万个托管开源项目提供了一个完整的快照。这让用户可以使用SQL查询托管在GitHub上的将近20亿个开源文件。

GitHub的BigQuery数据集以GitHub Archive项目为基础,该项目旨在获取GitHub特定时点的快照,以便存储用来进行进一步的分析。借助GitHub的BigQuery数据集,现在随时可以通过任意类似SQL的查询查询GitHub Archive项目的内容。

GitHub开源项目经理Arfon Smith举了一个例子,新的BigQuery数据集可以用来找出哪个Go程序包最常用,或者哪一所美国学校的开源贡献者最多。他还指出,总体上,该数据集还有利于研究人员研究开源社区或者最新的开发趋势。

谷歌开发大使Felipe Hoffa另外添加了几个有关潜在用途的示例,比如找出使用给定开源库的每个项目,或者分析其使用方式,以便收集有用的数据,确定那个库的未来发展方向。

在Medium上发表的一篇博文中,Hoffa列出了一些由谷歌工程师及其他开发人员创建的查询。这些查询可以用来分析Go程序,找出最常用的Java导入最常用的angular指令以及最常用的emacs程序包

GitHub的BigQuery数据集包含大约1.5TB的数据,每小时自动更新。下面是基本的使用步骤:

谷歌每月免费提供1TB的数据处理,但是,正如谷歌开发大使给我们的提醒,在主数据集(bigquery-public-data:github_repos.contents)上执行一个查询就会用完这1TB的免费数据。因此,他建议使用23GB的官方摘录数据(bigquery-public-data:github_repos.sample_contents)或者谷歌提供的任意专注于流行语言的摘录数据,诸如Go、Ruby、JavaScript、PHP、Python和Java。BigQuery还可以用来创建自定义数据集,但在这种情况下,用户需要支付存储费用。

谷歌BigQuery公共数据集是谷歌根据一项特别计划通过BigQuery提供的一系列数据集,用户只需要为他们执行的查询付费,但不用为数据集存储付费。谷歌BigQuery公共数据集提供的其他数据集包括美国人名、Hacker News自2006年以来的故事和评论、1029年和2016年之间的全球气候数据,等等。

显示余下内容
相关文章:
  1. Copilot不让「白嫖」了?开源组织SFC号召开发者退出GitHub!
  2. 谷歌学苹果强征30%的“安卓税”,开发者又要伤脑筋了
  3. 谷歌重返中国无望?官方确认蜻蜓计划彻底终止
  4. 谷歌正式终止中国版搜索引擎项目
  5. 谷歌被指与中国军方合作 特朗普称要查一查
  6. 我们深挖后发现,谷歌申请的AI专利何止一个Dropout
  7. 谷歌 Dropout 专利生效,AI 圈内人表示坐不住了!
  8. 谷歌临时工数量超出正式员工
  9. 谷歌可折叠手机新细节曝光:向外折叠,屏幕更薄
  10. 谷歌搜索为重返中国都做了什么?
  11. 为什么在谷歌上搜”白痴”就会出现特朗普的照片?
  12. 百度做错了什么?七成中国网民期待重回“Google”的怀抱
  13. 谷歌return中国大猜想:五个赢家、四个输家、三个问题
  14. 成败“嫩滑”小黄图:李彦宏一句话引发的搜索PK
  15. 谷歌重回中国话题上,为何李彦宏说的是“正确的废话”?
 

发表回复

您的电子邮箱地址不会被公开。