GTP-4惊人细节14个 -6parkbbs.com

最后两个细思恐极。

　　3月14日，OpenAI推发布了GPT-4。向科技界再次扔下了一枚“核弹”。

　　根据OpenAI的演示，我们知道了GPT-4拥有着比GPT-3.5更强大的力量：总结文章、写代码、报税、写诗等等。

　　但如果我们深入OpenAI所发布的技术报告，我们或许还能发现有关GPT-4更多的特点……

　　以及一些OpenAI没有点名和宣扬的，可能会令人背后一凉的细节。

　　1．新Bing装载GPT-4

　　自然而然地，GPT-4发布之时，新Bing也已经装载了最新的版本。

　　根据微软(265.44, 4.65, 1.78%)Bing副总裁Jordi Ribas在推特上所述，装载了GPT-4的新Bing已经将问答限制提升到了一次15个问题，一天最多提问150次。 6park.com

　　2．文本长度扩大八倍

　　在GPT-4上，文本长度被显著提高。

　　在此之前我们知道，调用GPT的API收费方式是按照“token”计费，一个token通常对应大约 4 个字符，而1个汉字大致是2~2.5个token。

　　在GPT-4之前，token的限制大约在4096左右，大约相当于3072个英文单词，一旦对话的长度超过这个限制，模型就会生成不连贯且无意义的内容。

　　然而，到了GPT-4，最大token数为32768个，大约相当于24576个单词，文本长度被扩大了八倍。 6park.com

　　也就是说，GPT-4现在可以回答更长的文本了。

　　OpenAI在文档中表示，现在GPT-4限制的上下文长度限制为8192个token，允许32768个token的版本名为GPT-4-32K，目前暂时限制了访问权限。在不久的未来，这一功能可能会被开放。

　　3．模型参数成为秘密

　　我们知道，GPT-3.5模型的参数量为2000亿，GPT-3的参数量为1750亿，但这一情况在GPT-4被改变了。

　　OpenAI在报告中表示：

考虑到竞争格局和大型模型（如GPT-4）的安全影响，本报告没有包含有关架构（包括模型大小）、硬件、训练计算、数据集构造、训练方法或类似内容的进一步细节。 6park.com

　　这意味着OpenAI没有再披露GPT-4模型的大小、参数的数量以及使用的硬件。

　　OpenAI称此举是考虑到对竞争者的忧虑，这可能是在暗示其对于竞争者——谷歌(96.55, 2.30, 2.44%)Bard——所采取的策略。

　　此外，OpenAI还提到“大型模型的安全影响”，尽管没有进一步解释，但这同样也暗指生成式人工智能所可能面对的更严肃的问题。

　　4．有选择地表达的“优秀”

　　GPT-4推出后，我们都看到了这一模型较上一代的优秀之处：

GPT-4通过模拟律师考试，分数在应试者的前10% 左右；相比之下，GPT-3.5 的得分在倒数 10% 左右。

　　但这实际上是OpenAI的一个小把戏——它只展示给你GPT-4最优秀的那部分，而更多的秘密藏在报告中。

　　下图显示的是GPT-4和GPT-3.5参加一些考试的成绩表现。可以看到，GPT-4并非在所有考试中的表现都那么优秀，GPT-3.5也并非一直都很差劲。 6park.com

　　5．“预测”准确度提升

　　在ChatGPT推出以来，我们都知道这一模型在很多时候会“一本正经地胡说八道”，给出很多看似有理但实际上并不存在的论据。

　　尤其是在预测某些事情的时候，由于模型掌握了过去的数据，这反而导致了一种名为“后见之明”的认知偏差，使得模型对于自己的预测相当自信。

　　OpenAI在报告中表示，随着模型规模的增加，模型的准确度本应逐渐下降，但GPT-4逆转了这一趋势，下图显示预测精确度提升到了100。 6park.com

　　OpenAI表示，虽然GPT-4的准确度显著提高，但预测仍是一件困难的事，他们还将就这一方面继续训练模型。

　　6．还有30%的人更认可GPT3.5

　　尽管GPT-4展现出了比GPT-3.5优秀得多的能力，但OpenAI的调查显示，有70%的人认可GPT-4输出的结果：

GPT-4在遵循用户意图的能力方面比以前的模型有了大幅提高。在提交给ChatGPT和OpenAI API的5214个提示的数据集中，70.2%GPT-4生成的回答优于GPT3.5。 6park.com

　　这意味着：仍有30%的人更认可GPT-3.5。

　　7.GPT-4语言能力更佳

　　尽管许多机器学习的测试都是用英文编写的，但OpenAI仍然用许多其他的语言对GPT-4进行了测试。

　　测试结果显示，在测试26种语言中的24种中，GPT-4优于 GPT-3.5和其他 LLM（Chinchilla、PaLM）的英语语言性能，包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言： 6park.com

　　8．新增图像分析能力

　　图像分析能力是此次GPT-4最显著的进步之一。

　　OpenAI表示，GPT-4可以接受文本和图像的提问，这与纯文本设置并行，且允许用户制定任何视觉或语言的任务。具体来说，它可以生成文本输出，用户可以输入穿插的文本和图像。

　　在一系列领域——包括带有文本和照片的文档、图表或屏幕截图——GPT-4 展示了与纯文本输入类似的功能。

　　下图显示，GPT-4可以准确地描述出图片中的滑稽之处（大型 VGA 连接器插入小型现代智能手机充电端口，一个人站在出租车后方熨衣服）。 6park.com

6park.com

　　OpenAI还对GPT-4的图像分析能力进行了学术标准上的测试： 6park.com

　　不过，GPT-4的图像分析功能尚未对外公开，用户可以通过bemyeye网站加入等候队列。

　　9．仍然存在错误

　　尽管GPT-4功能强大，但它与早期GPT模型有相似的局限性。

　　OpenAI表示，GPT-4仍然不完全可靠——它会“产生幻觉”事实并犯推理错误：

在使用语言模型输出时，特别是在高风险上下文中，应该非常小心，使用与特定应用程序的需求相匹配的确切协议（例如人工检查、附加上下文或完全避免高风险使用）。

与之前的GPT-3.5模型相比，GPT-4显著减少了“幻觉”（GPT-3.5模型本身也在不断迭代中得到改进）。在我们内部的、对抗性设计的事实性评估中，GPT-4的得分比我们最新的GPT-3.5高出19个百分点。 6park.com

　　10．数据库的时间更早

　　介绍完GPT-4的优点，接下来就是一些（可能有些奇怪的）不足之处。

　　我们都知道，ChatGPT的数据库的最后更新时间是在2021年的12月31日，这意味着2022年以后发生的事情不会被知晓，而这一缺陷在之后的GPT-3.5也得到了修复。

　　但奇怪的是，GPT-4的报告中，OpenAI清晰地写道：

GPT-4通常缺乏对其绝大多数训练前数据在2021年9月中断后发生的事件的知识，并且不从其经验中学习。它有时会犯一些简单的推理错误，这些错误似乎与许多领域的能力不相符，或者过于容易受骗，接受用户的明显错误陈述。它可以像人类一样在棘手的问题上失败，比如在它生成的代码中引入安全漏洞。 6park.com