442个作者100页论文！谷歌足足2年发布大模型新基准BIG-Bench

来源：内饰 2024年11月08日 12:16

白交发自凹非寺

量子位 | 公众号 QbitAI

一篇AI博士论文，442个理应。

其之中还专门嗣后了一引言写出理应表彰。

100页里面至少一半都是详见文献……

不是，现在都风行这样型式儿的博士论文吗？

这不，谷歌最另行发表的博士论文——Beyond The Imitation Game: Quantifying And Extrapolating The Capabilities Of Language Models。

于是理应那一栏就换成了这样……

来自132个政府部门的研究学者，用时两年提出了一个大第二语言框架另行可视BIG-bench。

并在此基础上审计了OpenAI的GPT框架，Google-internal dense transformerCore等，框架数目横6个总能量。

再一结果显示，框架稳定性虽然随着数目的扩展而进一步提高，但跟人类的发挥输别还很少。

对于这项工作，Jeff Dean转发点赞：Great Work。

大第二语言框架另行可视

来邝美云这篇博士论文无论如何说了什么。

随着数目的扩展，框架的稳定性和总质量都有一定的优化，这当之中可能会还共存一些变革性影响，但这些稳定性此前都并未极佳的描述。

存嗣后的一些可视都有一定的局限性，审计范围非常狭窄，稳定性总分随之达到饱和。

比如GLUE，在该可视推出后的18个月内，框架就实现了“至少人类素质”的稳定性。

基于这样的背景，BIG-bench就诞生了。

目前它由204个训练任务组成，内容扩展到第二社会学、学龄前发展、数学、常识推理、病理学、理论物理、社会生活性取向、软件开发等全面性的问题。

此外还有个人类研究专家评审团，也监督了所有训练任务，以提供基线素质。

为了易于非常多政府部门使用，研究人员还给出了BIG-bench Lite，一个小型但有标志性的训练任务开集，易于非常快地审计。

以及Apache了实现可视API的字符串，支持在未公开可用的框架上开展训练任务审计，以及另行训练任务的轻量级创建。

再一审计结果可以看到，数目南端六个总能量，BIG-bench上的上都稳定性随着框架数目的扩展、训练样本数量的上升而进一步提高。

但跟人类基线素质相对于，还是发挥得非常输。

就其在一些训练任务上，框架稳定性会随着数目的上升而长时间地进一步提高。但有时候，会在特定数目上快要出现实验性发挥。

此外，它还可以审计框架共存的社会生活性取向。

此外，他们还意外推测框架还可以get一些黑影习得。比如，如何在国际象棋之中相符规则的静止。

理应表彰写出了14页

除此以外，可能会因为理应过多，博士论文终于还专门嗣后了一章写出理应表彰。

洋洋洒洒的写出了14页，其之中还包括整体表彰者、Review的、提供训练任务的……

都已的，还有50页的详见文献。

好了，感兴趣的旁友可手脚顶部客户端邝美云博士论文。

博士论文客户端：GitHub客户端：详见客户端：

— 完毕 —

量子位 QbitAI · 头条号签约