[返回电脑前线首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
ChatGPT终于活成了iPhone最想要的样子
送交者: gonewithsmoke[☆★★★声望勋衔15★★★☆] 于 2024-05-14 20:29 已读 11846 次 1 赞  

gonewithsmoke的个人频道

OpenAI 的盲盒终于被开了,深夜追直播什么的,咱这种老人是做不到了。

等到第二天看了一圈国内的报道,剔除掉「改写历史、颠覆世界、震惊全场」的描述。

从标题上,其实很简单就能看出这次 OpenAI 在发布会上到底干了什么。

视频语音交互丝滑到吓人

干翻所有语音助手

实时语音视频交互震撼全场

......

以及 90% 标题里会点到的一个词:「免费」。

是的,如果你还不了解发布会的内容,咱们一句话就能总结——

在 OpenAI 的春季发布会,上新了一款主打交互的旗舰新模型 GPT-4o,不是 omg 的 o,是 omni(全面、全能)的 o,而且最关键的是,对所有用户免费开放。

是的,你现在访问这个链接。

https://chatgpt.com/?model=gpt-4o

只要能登上账号,无论有没有给 OpenAI 交钱,都能看到一个弹窗。


点个立即试用,随便聊上一句,回答你的就是 GPT-4o。


如果暂时抛开 GPT-4o 的强度和新特性不谈,就冲这个新模型人人免费的事,我要是第二天开发布会的谷歌,那多少得失眠。

浓眉大眼的奥特曼,怎么又来怼脸狙击?

不对,总是在推特上给自家 GPT 带货的奥特曼,在直播里压根就没现身。

颇有一种,「是谁发布的不重要,发布了什么更重要」的绝对自信。


那 GPT-4o 有多强?

OpenAI 早两天偷偷把官网上 GPT-4 曾经那不可一世的「最先进」,改成了「先进」。

从各种冷冰冰的测试数据看,GPT-4o 文本、代码这样的基础能力保持了和前代差不多的水准。

但报道里反复提及的多模态交互,GPT-4o 是吊打友商的存在。


多模态这个概念,早早就被提出来了,说人话就是让大模型不光在认字这一个维度,还可以根据语音、图片、视频完成交互。

那如何让大模型听得懂,也看得懂?过去的方案,听起来像搭积木。

咱们就以相对简单的语音交互为例,三步走——

1、语音转文本;

2、文本传入大模型,生成新文本;

3、新文本转语音。


这样的实现思路很透明,至少前面多模态被提出的时候,开源社区很快就以插件的形式 DIY 实现「平替」了。

国内外拿出来给你用的成品大模型,在多模态这里的技术路线大差不差,甚至说我觉得在用户体验上,国内很多模型比 ChatGPT 还要强。

但这么搭积木的代价呢?

按 OpenAI 这次揭秘的数据来说,多模块之间的交互,会带来感知明显的延迟,GPT-3.5(2.8 秒),GPT-4(5.4 秒)。

而且在完成整个任务的过程中,大模型感受不到更多的外界信息(音调、语气、背景噪音等)。

GPT-4o 不一样,不是「伪多模态」,正儿八经的、端到端的原生多模态。

是的,一个模型就把任务流程给跑通了。


这么做的好处,就是前面提到的延迟,被大幅降低,平均为 320 毫秒就能回应你说的话。

你的情绪、语气、背景音、背景环境 GPT-4o 都内给你正确反馈。

一个跨文本、音频、视频,进行实时推理的 AI,你说改写世界、颠覆历史太夸张了。

但只说炸不炸?很炸。

说实话,强烈建议大家去 B 站上看一眼发布会。

一开始看报道,什么 GPT-4o 充当实时翻译助手,什么 GPT-4o 感受情绪、识别场景、随时打断,打开摄像头就能实时陪伴。


给我的感受是——

就这?就这?就这?

看了发布会的视频,知道它是一个模型搞定的,感受就变成了——

卧槽!卧槽!卧槽!

不夸张的说,用最少的操作,最丝滑的实时交互,发布会没有新想法,却带来了更多对未来的想象,OpenAI 确实领先。

而且 GPT-4o 免费了,不光新模型免费,以前 Plus会员独享的各种能力,包括视觉、联网、记忆、GPT Store 等等。

一口气全都打包放出。


如果你有 ChatGPT 的账号,不妨试试看,全量免费的 GPT-4o,像联网啥的已经适配了。


PS:生成速度贼快,比之前 GPT-3.5 都要快。

前两天看报道,说是国内大模型是两条腿走路:一条腿开源,去做生态;一条腿闭源,去搞商业。

OpenAI 这次彻底不 Open 了,新模型发布,非但没有论文,连个技术报告也没给,但打出了免费这张牌。

你可以说它格局大,但不能忽视免费后,吸引过来的海量对话数据,这才是 OpenAI 能领跑的前提。

说真的,也就是国内访问不了,要不然不知道多少收费友商,要开始挠头了。

我本来想测一测音视频交互的,但去查了一下 OpenAI 官X,目前还没开放使用,连灰度都没有。

至于为啥延期几周才能体验?看了眼几周后,有个号称史上最大更新的苹果发布会。

再联想到之前苹果要和 OpenAI 合作,答案呼之欲出——

ChatGPT 终于活成了 Siri 最想成为的样子。

科幻终于照进了现实。 6park.com

喜欢gonewithsmoke朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ gonewithsmoke的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回电脑前线首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名:密码:[--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]