[返回科技频道首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
GPT-4解出难倒陶哲轩奥数题?GPT-4在语言能力上的智商,已经吊打人类
送交者: xiaochuliu[♂★★大🇨🇳lngviva★★♂] 于 2023-05-26 18:07 已读 3855 次  

xiaochuliu的个人频道

GPT-4解出难倒陶哲轩奥数题?语言IQ已达152,但空间推理巨差 6park.com


6park.com


6park.com

一个外哥测出,GPT-4语言能力智商已达152,吊打绝大多数人类。好在,它的空间推理还不行。 6park.com

6park.com

GPT-4在语言能力上的智商,已经吊打人类! 6park.com

6park.com

6park.com

最近,国外的一哥测试了GPT-4的智商,结果显示,它的语言智商已经达到了152。 6park.com


6park.com


6park.com

而根据调查,人类的平均智商是90-109,单论语言智商的话,人类是妥妥地被GPT-4吊打了…… 6park.com


6park.com


6park.com

GPT-4的能力,我们此前早已耳熟能详。3月底,微软的一篇154页的论文,震惊全世界。 6park.com


6park.com

在这篇论文中,微软表示,GPT-4已经显现出了通用人工智能的火花,它可以被认为是通用人工智能的一个早期版本。 6park.com


6park.com


6park.com

论文地址:https://arxiv.org/pdf/2303.12712.pdf 6park.com


6park.com

通过测试,微软的研究者证实:GPT-4不仅精通语言,还能在数学、编程、视觉、医学、法律、心理学等多样化和高难度的任务中表现出色,且无需特别提示。 6park.com


6park.com

最可怕的是,在所有这些任务中,GPT-4的表现都接近了人类水平,并且时常超过之前的模型。 6park.com


6park.com

下面,我们就来看看GPT-4在各方面能力上,哪些能吊打人类,哪些暂时还无法赶超我们。 6park.com


6park.com

为GPT-4量身打造IQ测试 6park.com


6park.com


6park.com

首先,这位小哥上网搜索了一下免费的智商测试。 6park.com


6park.com

但他发现一个棘手的问题:这些智商测试,很多都是以图像的形式。 6park.com


6park.com


6park.com

然而GPT-4,目前可以被认为还是一个「瞎子」+「聋子」,并没有读图能力。 6park.com


6park.com


6park.com

怎么办呢?这位小哥随后意识到,肯定有专门为视力缺陷的人设计的智商测试。 6park.com


6park.com

他动手试了试,果然搜到了。然而,这种测试非常昂贵,需要花1500多刀,没法白嫖。 6park.com


6park.com


6park.com

自己动手,丰衣足食。这位小哥干脆一不做二不休,自己上手,为GPT-4量身打造了一版智商测试。 6park.com


6park.com

难得倒陶哲轩,难不倒GPT-4 6park.com


6park.com

首先要测试的,是GPT-4的数学能力。 6park.com


6park.com

全世界最流行、最顶尖的数学测试是什么?自然就是国际奥数比赛。 6park.com


6park.com

世界上最伟大的数学家之一陶哲轩,就是在1986年参加的国际奥数比赛。 6park.com


6park.com


6park.com

那一年,试题中的第6题,连他也解不出。 6park.com


6park.com


6park.com

那GPT-4可以么? 6park.com


6park.com

小哥把这道题输给了GPT-4,结果是——它解出来了。 6park.com


6park.com


6park.com


6park.com

但是,我们并不能说,它就胜过了世界上最厉害的成年人数学家。 6park.com


6park.com


6park.com

另外,它也无法证明孪生素数猜想。(要是能证明就有鬼了🤣) 6park.com


6park.com


6park.com

小哥让GPT-4绘制一个方程式的坐标,也遭到了GPT-4的拒绝。 6park.com


6park.com


6park.com

非常礼貌地恳求它,结果还是被婉拒了。 6park.com


6park.com


6park.com

所以,GPT-4的极限到底在哪里呢? 6park.com


6park.com

这位小哥只能去查阅公开的文献。在OpenAI的官方论文中,GPT-4在SAT的数学考试中得分高于91%的人类,在其其他数学类考试中表现也很优异。 6park.com


6park.com


6park.com

不善沟通的语言天才 6park.com


6park.com

接下来,小哥想测试一下GPT-4在人际关系智能(Interpersonal Intelligence),以及内省智能(Intrapersonal Intelligence)方面表现如何。 6park.com


6park.com

严谨的小哥先上网查了一下,何为人际关系智能——善于处理人际关系的人,他们能更好地理解他人,并和别人进行互动。这类人擅长评估情绪、动机、欲望,以及周围人的意图。 6park.com


6park.com


6park.com

然后,他找了一篇SAT考试中的文章,将文章内容复制下来,把所有的和人物动机有关的问题也一股脑甩给了GPT-4。 6park.com


6park.com


6park.com

GPT-4表现还算....出色?四个题对了三个。 6park.com


6park.com

然而,GPT-4却没有任何分析情绪的能力。 6park.com


6park.com

因为,按它自己的原话,它只是一个AI模型,并没有「自我」的概念。 6park.com


6park.com

那GPT-4的内省智能如何呢? 6park.com


6park.com


6park.com

小哥表示,一个内省智能高的人,对自身优缺点有清醒的认知。 6park.com


6park.com

把这个当作prompt输入GPT-4,发现这模型对自己定位还是挺清晰的。 6park.com


6park.com

比方说,优点里有广泛的知识储备、反应迅速、多语能力、模式识别能力,以及可扩展性强等等。 6park.com


6park.com

而缺点包括缺乏个人经验、缺乏某些领域的知识、不太能理解上下文、文学解读、道德评判等等。 6park.com


6park.com


6park.com

但小哥表示,这种认识程度还远远不够。总的来说,GPT-4的人际关系智能和内省智能,都一般。 6park.com


6park.com

小哥还给GPT-4测了一下口头语言的IQ测试,它得了152分。 6park.com


6park.com


6park.com

对人类来说,这个分数意味着——你是个天才。 6park.com


6park.com


6park.com

空间推理 小试牛刀 6park.com


6park.com

而转到空间能力这一块,GPT-4的表现就不容乐观了。 6park.com


6park.com

本来,小哥想让GPT-4直接做一套空间推理的选择题。 6park.com


6park.com


6park.com

但是,OpenAI未来才会慢慢开发GPT-4的识图功能。 6park.com


6park.com

在OpenAI发布的视频中,研究人员上传了这么一张图片,然后问GPT-4,如果把绳子剪短会怎么样。 6park.com


6park.com

GPT-4表示,那气球就会飞走了! 6park.com


6park.com


6park.com

小哥和GPT-4下了把井字棋,通过文字输入控制走棋。 6park.com


6park.com

但GPT-4在深谙规则的情况下,耍赖了。 6park.com


6park.com

本来该小哥赢,让GPT-4帮自己在最下面一排的中间画一个圈三连。 6park.com


6park.com

GPT-4可倒好,直接把最上面一排的圈擦了,画了个自己的叉。作弊取胜。 6park.com


6park.com


6park.com

ChatGPT:魔方?我不会啊 6park.com


6park.com

为了进一步测试GPT-4的空间理解能力,小哥祭出了大杀器——魔方。 6park.com


6park.com

要知道,对人类来说,魔方也是衡量一个人空间感的方法之一。 6park.com


6park.com

首先,因为GPT-4不能看图,所以要先想办法用文字描述魔方的状态。 6park.com


6park.com

熟悉魔方的朋友对下面这个图应该不会陌生。在公式中,我们常常会用若干字母,或字母加一个撇号来代表不同的操作。 6park.com


6park.com

一般魔方正对我们,不同的旋转对应不同的表达。就像下面这样。 6park.com


6park.com


6park.com

小哥在视频中做了一个示范,确保GPT-4领会了这个意思。 6park.com


6park.com


6park.com

然后,就要开始把GPT-4拉出来遛遛了!看看它到底会不会还原。 6park.com


6park.com

万事先从简单的开始。小哥第一步只是把魔方最上层向左拧了一下,看看GPT-4会不会还原。 6park.com


6park.com


6park.com

这点难度还是难不倒GPT-4。小哥输入U这个操作(最上层向左拧),GPT-4也是很快给出了U’(U的反向操作)这个答案。 6park.com


6park.com


6park.com

紧接着是UR,意思就是最上层左拧一次,最右边上拧一次。 6park.com


6park.com

GPT-4也很快给出了反向操作——R’U’。 6park.com


6park.com

接着就要上难度了!小哥开始彻底打乱魔方,总共十多步。 6park.com


6park.com

令人惊讶的是,GPT-4居然真的生成出结果了! 6park.com


6park.com


6park.com

然而小哥定睛一看,GPT-4生成的复原方法,就是把所有打乱的步骤反过来来一遍。 6park.com


6park.com


6park.com


6park.com

看完直呼无语,这要你何用。 6park.com


6park.com


6park.com

于是小哥发现这样做就是会出现这个问题。因为你输入打乱的方式,GPT-4必然在复原的时候反向操作。 6park.com


6park.com

问题的关键,就是不能让GPT-4知道这是怎么打乱的。 6park.com


6park.com

小哥很聪明,问了一下GPT-4,如果是你,你会怎么描述魔方的状态? 6park.com


6park.com

GPT-4采取了下图这样的方式:用不同的字母代替不同的颜色,把每一个面的颜色情况全部用字母表达出来。 6park.com


6park.com

这样就避免了打乱步骤这一个part。 6park.com


6park.com


6park.com

这次经过尝试,只有第一次的小试牛刀成功了,也就是只打乱一次的结果。 6park.com


6park.com

GPT-4处理起简单问题真是毫不手软,可惜一复杂就趴窝了。 6park.com


6park.com


6park.com

最后还生成出了下图这个结果—— 6park.com


6park.com


6park.com

小哥表示,这现实的魔方根本拧不成这样啊,GPT-4你在干什么?? 6park.com


6park.com

这个结果直接给GPT-4玩儿魔方的能力宣判了死刑。 6park.com


6park.com

除了倒推复原,GPT-4根本玩不转魔方。 6park.com


6park.com

两任总统的RAP对决,泰裤辣 6park.com


6park.com

最后,这位小哥还测了一波GPT-4的音乐能力。 6park.com


6park.com


6park.com

咱们都知道,GPT-4会写诗。 6park.com


6park.com

既然如此,小哥就让GPT-4以Minecraft服务器中的特朗普和拜登的说唱大战为主题,写出rap词和旋律,还要make a beat。 6park.com


6park.com

小哥发现,最好的方式就是用ABC notation,因为GPT-4写不出五线谱。 6park.com


6park.com


6park.com

所以,小哥让GPT-4用ABC notation写一个Boom bap beat,然后把这个beat输入到一个音乐网站里。 6park.com


6park.com

GPT-4写出的beat是这样的—— 6park.com


6park.com


6park.com

听起来没啥惊喜。 6park.com


6park.com

小哥希望挽救一下这个beat,于是换了一种乐器。把它下载成midi file,再上传到FL Studio。但不好的是,所有乐器都结合在一个音轨中了。 6park.com


6park.com


6park.com

所以小哥让GPT-4给每个音轨一个单独的乐器文件。 6park.com


6park.com


6park.com

成品一放,还挺惊艳:「yo!我是拜登,我来打破纪录,直截了当……」 6park.com


6park.com

接着,小哥下载了一个现成的beat,做成了拜登和川普的说唱battle——各位,请准备好尖叫吧。 6park.com


6park.com

总的来说,GPT-4已经在多方面吊打人类,如果在未来哪一天,它能克服视力和听力上的缺陷,人类的未来,可就真不好说了。 6park.com


6park.com


喜欢xiaochuliu朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ xiaochuliu的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回科技频道首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


    用户名:密码:[--注册ID--]

    标 题:

    粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


         图片上传  Youtube代码器  预览辅助

    打开微信,扫一扫[Scan QR Code]
    进入内容页点击屏幕右上分享按钮

    楼主本栏目热帖推荐:

    >>>>查看更多楼主社区动态...






    [ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]