2457亿参数！全球最大AI巨量模型「源1.0」发布中国做出自己GPT-3 -6parkbbs.com

古代文人，或一觞一咏，畅叙幽情，或风乎舞雩，咏而归。「吟诗作对」成为他们的标配。刚刚，全球最大人工智能巨量模型「源1.0」发布，能赋诗作词，比人类还像人类。

理科生文艺起来，可能真没文科生什么事儿了。 6park.com

6park.com

不信？你看看这首七言诗：

虽非蟾宫谪降仙，何惧冰殿冷彻骨。

窥帘斜视金屋小，多少俊才在此关。

读完之后，不得不说真牛啤！意境内涵都很赞。

不仅能写诗，还能做词，比如下面这首：

疑是九天有泪，

为我偷洒。

滴进西湖水里，

沾湿一千里外的月光，

化为我梦里的云彩。

你能想象，这是完全不懂写诗的理工生的杰作吗？

确实如此。简直让李白看了会沉默，让杜甫看了会流泪。

6park.com

这就是浪潮刚刚发布的全球最大规模人工智能巨量模型，名曰「源1.0」。

除了能够作诗赋词，它还能对话、写对联、生成新闻、故事续写...

2457亿参数，这个全球最大规模人工智能巨量模型可是读了2000亿词。

要知道，一个人的一生也没有办法读完这么多词语。

既然称为全球最大，有多大？
全球最大规模人工智能巨量模型！

全球最大这个称号可不是闹着玩的！

「源1.0」不管是在算法、数据还是算力上，都做到了超大规模和巨量化。

算法方面，相比于1750亿参数的英文语言模型GTP-3，「源1.0」共包含了2457亿个参数，是前者参数量的1.404倍。

而且，最重要的是，「源1.0」和GPT-3一样都是单体模型，而不是由很多小模型堆砌起来的。就单单在这一个方面，「源1.0」就可以荣登全球最大的自然语言理解模型了。 6park.com

6park.com

图源：writeup.ai

数据方面，「源1.0」几乎是把近5年整个中文互联网的浩瀚内容全部「读」完了。通过自研的文本分类模型，获得了5TB高质量中文数据集，在训练数据集规模上领先近10倍。

此外，「源1.0」还阅读了大约2000个亿词。这是什么概念呢？

假如人一个月能读十本书，一年读一百本书，读50年，一生也就读5000本书，一本书假如20万字，加起来也只有10亿字，需要一万年才能读完2000亿词。在如此大规模的数据加持下，「源1.0」的数据集也自然成为了全球最大的高质量中文数据集。

算力方面，「源1.0」共消耗约4095PD（PetaFlop/s-day）。相对于GPT-3消耗3640PD计算量得到1750亿参数，计算效率大幅提升。如果说，让「源1.0」一天24小时不间断「阅读」的话，只需要16天就可以看完近五年中文互联网的几乎全部内容。

嗯？原来已经把近5年的中文互联网内容全学完了？

u1s1，「源1.0」yyds！ 6park.com

6park.com

成果如何呢？

你猜，这些对话中，每个问题对应的A和B中，哪个是「源1.0」生成的呢？（答案在文末）

6park.com

对话

问题1

姐姐啥时候回来捏？

过年前几天吧。

姐姐啥时候回来捏？

不知道，你要是想姐姐，就给姐姐写信。

问题2

和喜欢的男生告白了他现在还没回我

和喜欢的女生表白了她说我们只适合做朋友

和喜欢的男生告白了他现在还没回我

我想知道结局

问题3

我买了那套章蜜糖的针织裙

哪套？有链接不？

我买了那套章蜜糖的针织裙

穿了吗？好看不好看？

问题4

不吃东西真的好难啊

觉得今天如果真的吃的话，明天铁定会变胖的

不吃东西真的好难啊

我也觉得！我一定要瘦
6park.com

亲自体验「图灵测试」是不是很好玩？别急，后面还有很多题等着呢！

现在我们先来看看「源1.0」最厉害的模仿能力。也就是，对于一个完全不存在的「词语」，只需要一个用例，「源1.0」就能学会这个「词语」的用法。

6park.com

新词

输入-语义

生成文本

悬命

「悬命」是拼命，接近全力，做出最大努力的意思。他凡事必悬命，绝不打马虎眼。用「悬命」造句：

他这个人做事太悬命了，为了取得第一手材料，连饭也顾不上吃

腕前

「腕前」与本领的意思相同。例：「他只使出了了一小部分腕前，就把事情完成得如此出色」。用「腕前」造句：

这个人的腕前很大，他很能完成这项任务

气持

「气持」是心情、精神状态的意思。例：「那种消极的气持又控制了他」。用「气持」写一句话：

他的气持，使我无法接近
6park.com

看到这些熟悉的「词」是不是感觉有那味了（doge）。突然有些期待，如果「源1.0」学会了「小丑竟是我自己」这个词会怎么用，诶嘿嘿。

6park.com

既然提到了图灵测试，那我们就来看看测试的结果怎么说？

「源1.0」在测试中实现了高达50.84%的平均误判率！

图灵测试采用「问」与「答」模式，即观察者通过控制打字机向两个测试对象通话，其中一个是人，另一个是机器。观察者不断提出各种问题，从而辨别回答者是人还是机器。

通常认为，进行多次测试后，如果机器让平均每个参与者做出超过30%的误判，那么这台机器就通过了测试，并被认为具有人类智能。

在「源1.0」的测试结果中，受访者的平均区分正确率是49.16%，这意味着平均误判率为50.84%。在新闻生成这一领域，误判率更是高达57.88%。 6park.com

6park.com

其中，正确率是指能正确将机器生成的文本识别出来的比例。正确率<70%，意味误判率超过30%。

数据看着太单调？没事！大家期待的「真题」环节来了！

6park.com

对联

上联

问题1

五湖四海皆春色

三江八荒任我游

万水千山尽得辉

问题2

春来人入画

福至梦开花

夜半月当灯

问题3

和风吹绿柳

时雨润春苗

细雨润青禾

问题4

三江顾客盈门至

四季财源滚滚来

百货称心满街春
6park.com

6park.com

诗歌

问题1

满目青山夕照明，愿随江舟泛轻风。

今生常忆多情事，香闺如梦领神会。

塞上长城万里长，漫天风雪映重峦.

一边江水人心去，满目青山绝照还。

问题2

燕垒空梁画壁寒，诸天花雨散幽关，篆香清梵有无间。

蝶梦似曾留锦袖，绛河如又湿团扇，风来香去苦栏干。

问题3

夜战桑乾北，秦兵半不归。

朝来有乡信，犹自寄寒衣。

战鼓催征千嶂寒，阴阳交会九皋盘。

飞军万里浮云外，铁骑丛中明月边。
6park.com

答案在文末哦～

世界第一是怎样一种体验？

那么，这个拿下世界第一的最大AI模型，到底有多强？

不如拉出来跑个分、刷个榜看看！

英文语言模型评测有GLUE、SuperGLUE，例如GPT-3这类的各种预训练模型都会在上面进行评估。和GLUE类似，CLUE是中文第一个大规模的语言评估基准。其中包了括代表性的数据集、基准（预训练）模型、语料库和排行榜。而这些数据集也会覆盖不同的任务、数据量、任务难度等。 6park.com

6park.com

顺便安利一下最近新出的国内首个以数据为中心的AI测评DataCLUE。

言归正传，「源1.0」占据了零样本学习（zero-shot）和小样本学习（few-shot）2项榜单的榜首。

在ZeroCLUE零样本学习榜单中，「源1.0」以超越业界最佳成绩18.3%的绝对优势遥遥领先。其中，在文献分类、新闻分类，商品分类、原生中文推理、成语阅读理解填空、名词代词关系6项任务中获得冠军。 6park.com

6park.com

https://www.cluebenchmarks.com/zeroclue.html

在FewCLUE小样本学习榜单中，「源1.0」获得了文献分类、商品分类、文献摘要识别、名词代词关系等4项任务的冠军。 6park.com

6park.com

https://www.cluebenchmarks.com/fewclue.html

零样本学习，就是训练的分类器不仅仅能够识别出训练集中已有的数据类别，还可以对于来自未见过的类别的数据进行区分。从原理上来说，是让计算机具备人类的推理和知识迁移能力，无需任何训练数据就能够识别出一个从未见过的新事物。

小样本学习，就是使用远小于深度学习所需要的数据样本量，达到接近甚至超越大数据深度学习的效果。而是否拥有从少量样本中学习和概括的能力，是将人工智能和人类智能进行区分的明显分界点。因为人类可以仅通过一个或几个示例就可以轻松地建立对新事物的认知，而机器学习算法通常需要成千上万个有监督样本来保证其泛化能力。 6park.com