[返回数码家电首页]·[所有跟帖]·[ 回复本帖 ] ·[热门原创] ·[繁體閱讀]·[版主管理]
AI下一个前沿是「基础智能体」
送交者: sky9[♂★★★中和★★★♂] 于 2024-01-24 19:05 已读 6835 次 1 赞  

sky9的个人频道

一个可以在虚拟世界和现实世界里泛化的通用智能体模型将是AI领域的下一个巨大挑战。

  ‘AI的下一个前沿将是“基础智能体”(Foundation Agent)——一个掌握广泛技能,控制许多身体,并能够泛化到多个环境中的单一算法’。

  等了三个月,英伟达高级科学家Jim Fan在TED AI 2023上的演讲视频终于上线了。


  视频中,Jim Fan提出了‘Foundation Agent’,一个可以在虚拟世界和现实世界里泛化的通用智能体模型。

  他具体解释了,这项技术将如何从根本上改变我们的生活,渗透到从视频游戏和元宇宙,到无人机、仿人机器人的方方面面,并探讨了单一模型如何掌握跨越这些不同现实的技能。 6park.com


  Jim Fan认为,‘基础智能体’应该在3个维度上进行扩展:

  - 技能:能解决的任务数量;

  - 具身:能控制的身体形态的多样性;

  - 现实:智能体能掌握的虚拟或物理空间的数量。这包括有不同规则的游戏、模拟和真实世界场景。

  我们为什么想要一个单一的‘基础智能体’,而不是许多更小的模型?

  在每个AI领域的发展历史中,都能发现这样模式:从专家模型 -> 通用模型 -> 专业化的通用模型。

  这里的‘专业化的通用模型’通常远比原先的专家模型更强大,就像 LlaMA 的精炼版本远超过5年前的定制化NLP系统一样。 6park.com


  此外,Jim Fan本人还分享了演讲时的心得。

  ‘在TED演讲时,我脚下只有一个‘信心’显示器,只显示当前的幻灯片和计时器。这意味着我需要完全记住整段演讲。一开始让我很担心,但事实证明,这是与听众建立联系,直接触及他们心灵的最佳方式’。

  值得一提的是,Jim Fan还公开了这次演讲的PPT,一起看看这场演讲的精彩亮点吧。

  TED演讲全文

  2016年的春天,我坐在哥伦比亚大学的一间教室里,并没有专心听讲。相反,我正用电脑观看一场棋盘游戏锦标赛。

  这不是一场普通的比赛,而是一场非常、非常特别的比赛——AlphaGo与李世石开启对决。

  这场比赛,AI在五盘棋中赢了三盘,成为有史以来第一个在围棋比赛中击败人类冠军的‘棋手’。 6park.com


  到现在,我仍然记得那天自己见证历史的激动心情。AI智能体终于进入主流的时刻。

  但当兴奋褪去后,我意识到,AlphaGo虽然强大,但它只能做一件事,而且只能做一件事。

  它无法玩任何其他游戏,比如《超级马里奥》、《我的世界》,当然也不能帮你洗脏衣服,或今晚为你做一顿丰盛的晚餐。

  我们真正想要的是:像机器人Wall-E那样多才多艺的AI智能体,像《星球大战》中的各种各样机器人的载体或化身。 6park.com

6park.com


  又或是像《头号玩家》一样,可以跨越无限的虚拟或现实世界。

  那么我们如何在不久的将来实现这些科幻想法呢? 6park.com


  如下左图是迈向通用AI智能体的一个实践者指南。当前的大多数研究工作按以下三个维度展开:

  AI智能体可以掌握的技能数量;可以控制的身体形态或载体;以及它所能掌握的现实情况。AlphaGo就在左下角的位置,但右上角才是我们真正要达到的目标。 6park.com


  Voyager玩转‘我的世界’

  接下来,让我们一次看一个维度。

  今年早些时候,我带领了‘Voyager’项目,这是一个能在多种技能上大规模扩展的智能体。没有任何游戏能比《我的世界》更好地支持无限的创造性玩法。

  这有一个有趣的事实:《我的世界》现在有1.4亿活跃玩家。这个数字相当于英国人口的2倍多。 6park.com


  这款游戏之所以如此受欢迎,是因为它是开放式的:没有固定的游戏情节,你可以在游戏中做任何想做的事情。

  当我们让Voyager在《我的世界》中自由活动时,会发现它可以在没有任何人干预的情况下,连续玩上几个小时的游戏。

  这段视频展示了Voyager在一次游戏中连续行动的片段。 6park.com


  它可以探索地形,开采各种材料,与怪物战斗,制作数百种配方,并解锁一个不断扩展的技能树。 6park.com


  那么,其中的奥妙是什么呢?核心要义是‘编码即行动’。

  首先,我们使用社区制作的Minecraft JavaScript API将3D世界转换为文本表示。Voyager调用GPT-4,用JavaScript编写代码片段,这些代码片段将成为游戏中的可执行技能。

  然而,就像人类工程师一样,Voyager也会犯错。它并不总是在第一次尝试时,就正确地完成程序。

  因此,我们为它添加了一个‘自我反思’机制,以便改进。 6park.com


  ‘自我反思’有三个反馈来源:JavaScript代码执行错误;智能体状态,如健康和饥饿;以及世界状态,如附近的地形和敌人。 6park.com


  因此,Voyager会执行一个动作,观察这个动作对世界和自身的影响,反思如何才能做得更好,并尝试一些新的行动方案,然后不断重复。

  一旦技能成熟,Voyager就会把它保存到技能库中,作为一种持久的记忆。

  你可以把技能库看作一个完全由语言模型编写的代码库。

  通过这种方式,Voyager在《我的世界》中探索和实验过程中,能够以递归的方式扩展自身的能力。 6park.com


  让我们一起看个例子。

  Voyager发现自己很饿,需要尽快获得食物。它检测到附近有四个实体:一只猫、一个村民、一头猪和一些小麦种子。

  Voyager开始了内心独白:‘我要杀死猫,还是村民来获取食物?这主意糟透了。小麦种子如何?我可以用种子种植农场,但那需要很长时间。对不起,小猪,你被选中了’。

  随后,Voyager在它的物品栏中发现了一块铁。

  于是,它从技能库中回想起了一个旧技能来制作铁剑,并开始学习一个新技能‘猎猪’。现在我们也知道,不幸的是,Voyager不是素食主义者。 6park.com


  还有一个问题:Voyager如何无限期地探索下去?

  我们只给了它一个高级指令,那就是尽可能多地获取独一无二的物品。

  Voyager自己实现了一个curriculum:主动找到逐步更难、更新颖的挑战来解决。 6park.com


  将所有这些整合在一起,Voyager不仅能掌握,还能在过程中发现新的技能。而我们没有预先编程任何内容,一切都是Voyager的主意。

  当一个智能体永远充满好奇心,永远追求新的探险,这就是我们所说的终身学习。与AlphaGo相比,Voyager能做的事情非常多,但仍只能在《我的世界》中控制一个身体。 6park.com


  MetaMorph让AI有多个身体

  那么问题来了:我们能否有一个可以在不同载体上工作的算法?一起来看MetaMorph,这是我在斯坦福共同开发的一个项目。 6park.com


  我们创建了一个基础模型,它不仅能控制一个机器人,还能控制数千个手臂和腿部配置各异的机器人。

  Metamorph能够处理来自不同机器人身体的各种运动特征。 6park.com


  如下我们如何创建MetaMorph的直观方法。首先,我们设计一个特殊的词来描述身体部件,这样每个机器人本质上就是用这种词写成的一句话。

  然后,我们对其应用Transformer,就像ChatGPT一样,但MetaMorph写出的不是文本,而是运动控制。 6park.com


  我们展示了MetaMorph能够控制成千上万个机器人上下楼梯、穿越复杂地形,避开障碍物。 6park.com


  放眼未来,如果我们可以大大扩展这个机器人词汇量,我设想MetaMorph 2.0将能够泛化到机器手、人形机器人、狗、无人机甚至更多领域。 6park.com


  与Voyager相比,MetaMorph在多体控制方面迈出了一大步。

  不同虚拟环境模拟

  现在,让我们将一切再提升一个层次,在不同的环境之间转移技能和载体。来看IsaacSim,这是英伟达的模拟平台。 6park.com


  IsaacSim最大的优势是,将物理模拟加速到比实时快1000倍。

  例如,这个小人只用了3天的模拟时间,就通过10年的高强度训练,学会了令人印象深刻的武术。

  这很像电影《黑客帝国》中的虚拟训练场景(sparring dojo)。 6park.com


  而这个赛车场景则是,仿真技术跨过‘恐怖谷’的地方。

  多亏了硬件加速光线追踪技术,我们才能渲染出极其复杂的场景,并呈现出令人叹为观止的细节。 6park.com


  你在这里看到的逼真效果将帮助我们训练计算机视觉模型,这些模型将成为每个人工智能智能体的眼睛。

  更重要的是,IsaacSim可以程序化地生成具有无限变化的世界,因此没有两个世界看起来是一样的。 6park.com


  这里有一个有趣的想法。

  如果一个智能体能够掌握10000个模拟,那么它很有可能会泛化到真实物理世界,因为我们的世界也只是第10001个‘实境’。让我们沉浸其中吧。

  随着我们在这张图上的进展,我们最终会到达右上角,那是一个能在所有三个轴上进行泛化的单一智能体,那就是‘基础智能体’。 6park.com


  我相信,基础智能体的训练将与ChatGPT非常相似。

  所有语言任务都可以表达为文本输入和文本输出。无论是写诗、将英语翻译成西班牙语还是编写Python代码,都是一样的。 6park.com


  而ChatGPT只需在大量数据中进行大规模扩展即可。 6park.com


  原理一样。基础智能体将任务提示作为输入,并输出操作。 6park.com


  我们只需在大量现实数据中对其进行大规模扩展,即可对其进行训练。 6park.com


  我相信在未来,一切能够移动的东西最终都将是自主的。

  有一天我们会发现,所有的AI智能体,无论是《Wall-E》、《星球大战》,还是《头号玩家》。

  无论是在物理空间还是虚拟空间,对于同一个基础智能体来说都只是不同的提示。 6park.com

  朋友们,这将是我们探索人工智能的下一个巨大挑战。

喜欢sky9朋友的这个贴子的话, 请点这里投票,“赞”助支持!
[举报反馈]·[ sky9的个人频道 ]·[-->>参与评论回复]·[用户前期主贴]·[手机扫描浏览分享]·[返回数码家电首页]
帖子内容是网友自行贴上分享,如果您认为其中内容违规或者侵犯了您的权益,请与我们联系,我们核实后会第一时间删除。

所有跟帖:        ( 主贴楼主有权删除不文明回复,拉黑不受欢迎的用户 )


用户名:密码:[--注册ID--]

标 题:

粗体 斜体 下划线 居中 插入图片插入图片 插入Flash插入Flash动画


     图片上传  Youtube代码器  预览辅助

打开微信,扫一扫[Scan QR Code]
进入内容页点击屏幕右上分享按钮

楼主本栏目热帖推荐:

>>>>查看更多楼主社区动态...






[ 留园条例 ] [ 广告服务 ] [ 联系我们 ] [ 个人帐户 ] [ 版主申请 ] [ Contact us ]