前段时间,编程客栈前特斯拉总监、OpenAI大牛Karpathy的一句话,引起了业内的关注。
(资料图)
在7月初的一次开发者大会上,Karpathy声称:“我被自动驾驶分了心,AI智能体才是未来!”并表示将来会全力投入对智能体的研发工作中。
其实,早在2016年,当Karpathy开始在OpenAI工作时,就已经锚定了智能体的方向,只是由于当时的研究方法还不成熟,所以Karpathy才转去做了自动驾驶。
那么,这所谓的“智能体”究竟是什么?为什么会让这位AI大牛长久地念念不忘?
如果用一句话来回答这个问题,我们可以说:
智能体的出现,不仅是AI发展的下一个方向,也是其真正走进人类生活的开始。
1
何谓智能体
到底什么是智能体?
如果我们将现在的生成式AI,比作一个人的话,那么它只具有了大脑swMxc(大语言模型),但却没有身体,因此只能躺在服务器上,做一些处理文字、生成图片的工作。
而智能体,就相当于是大模型的“身体”,有了它,大模型才能在更多的领域施展身手。
那智能体究竟能做什么?
最近,一个名叫Fable的初创公司,发布了一个节目统筹智能体(Showrunner),如同一声惊雷炸响,让人们再次见证了智能体的强大。
通过这样的智能体,Fable制作出了一集完全用AI拍摄的《南方公园》!
从编剧、动画、导演、语音、编辑……到剧集制作的全流程,都是由AI完成。
在整个制作环节中,通过自然语言,给不同的智能体分配了各自的目标,人类导演只需要给出一个高层次的构思提示(标题、概要、事件),这些AI智能体就会开始「自导自演」。
之后,人类几乎就不用进行任何干涉了!
在制作过程中,不同的AI智能体,担任了不同的角色,如演员、导演、剪辑等,它们彼此分工合作,互相配合,最终完成了整部影片的制作。
而同样的,类似的案例,也出现在前段时间清华团队的研究中。
7月19日,清华团队用ChatGPT打造了个零人工含量的“游戏公司”——ChatDev,只要你提出想法,从设计到测试的完整流程,都由AI帮忙搞定。
Fable与制作《南方公园》的思路类似,在游戏开发的环节中,ChatDev的十多个智能体也分别担任了这个“公司”中的策划、程序员、设计师等不同的岗位。
在项目开始时,人类可以对这些AI提出一个大概的想法或创意。
之后,各个智能体之间就会进行一系列讨论、制作、测试的环节,整个过程完全不需要人类的参与,全是自动进行的。
由此可见,有了智能体之后,大模型就能根据人类给出的规则和策略来做出决策,而不需要人类的干预或指令。
在这个过程中,智能体还会通过习得的经验或知识,来改善自己的性能和适应性,并根据目标函数或奖励函数来评估自己的行为。
而这样的能力,是以往的大模型(LLM)无论如何都不具备的。
因此,LLM即使再聪明,也是一个没有身体的“大脑”,而正是智能体的出现,让LLM有了行动的能力,有了自主完成复杂任务的能力。
而这样的能力,正是LLM下一阶段进行在应用层面进行落地的关键。
2
国内智能体进展
既然智能体这么重要,那国内在这方面发展得怎样了呢?
在今年的2023世界人工智能大会上,联汇科技发布了基于大模型自主智能体(Auto AI Agent )——OmBot 欧姆智能体,并针对典型场景需求,推出了首批应用。
要想打造一个真正的智能体,最关键的地方,就在于让AI不依赖人类来指导命令,能够根据任务目标,主动完成任务。
而要想实现这点,就必须让AI具备认知、记忆、思考、行动等几大核心能力,使之能够感知环境、自主决策,并且模仿人类大脑工作机制。
在这方面,联汇科技多年的研究成果——欧姆大模型3.0,成为了孕育OmBot 欧姆智能体的摇篮。
欧姆大模型3.0培养智能体的思路是:在智能体的诸多能力中,认知和思考能力是最关键的。
而要锻炼这样的能力,就要通过大量的开放识别、视觉问答等训练方式,来让智能体从被动的识别转为主动推理,并自主提出解决方案。
例如通过让智能体观看不同的图片、视频,并让其通过语义去理解和描述其中的目标。
而之所以要选择开放识别、视觉问答为主的训练方式,是因为在各个行业中,都存在着大量的特定场景和任务,需要对视频中的内容进行精准的识别、分析。
但这些场景和任务,往往是非常细分和多样化的,难以用通用的模型和方法来满足,于是就造成了各行各业对智能识别的大量长尾需求。
在对这些视觉信息进行分析的过程中,欧姆大模型会通过多轮对话推理的机制,将图像、视频、以及相关的问题或反馈等输入转换为特征向量,并存储在一个记忆单元中android,
之后,大模型的解码器就会负责根据记忆单元中的特征向量生成最终的回复。
在对一张张图片,一段段视频的对话问答中,欧姆大模型会将视觉模型和语言模型进行细粒度的对齐,让其可以理解人类指令,并合理作答。
那么,这些经过了不同行业视觉数据历练的智能体,后来怎样了?能在实际场景中展现实力了吗?
目前,欧姆智能体的主要应用场景,大致分为三类:智慧店长、文档处理、视频剪辑。
如果说,智能体最重要的能力是其是否具备自主分析、决策的能力,那么我们不妨将欧姆智能体在这三大场景中的表现,与传统手段进行对比,看看其是否具有了真正意义上的智能体的特征。
3
解决“落地焦虑”
简单来说,智慧店长主要就是通过与摄像头视觉信息结合,利用欧姆大模型智能识别店内发生的一切。
在这方面,传统的摄像头只能提供视频监控的功能,无法对视频画面进行智能分析、处理、交互和反馈。
而具备了智能体后,智慧店长就能通过与摄像头视觉信息结合,识别店内发生的一切,并自主决策提示交互信息。
例如实时监测和分析客流量、客户特征等数据,遇到突发情况时,还看自动报警和处置店内的安全隐患。
在文档处理方面,按照联汇科技的说法,欧姆智能体最大的优势,是可以将专业知识有效集成到向量数据库,并存储记忆,形成专业机器人。
而一个具备了智能体的大模型,与传统的行业垂直类大模型相比,最独特的优势,是其持续学习和适应能力,而非依赖于静态的数据集。
在这方面,只能说欧姆智能体具备了其持续学习的基础。
因为向量数据库与传统数据库相比,采用灵活的数据结构,如多模态的数据支持,而将不同结构的知识进行整合,正是持续学习的基础。
但其是否真的具备这样的持续学习能力,也许还要进行长时间的观察。
而在视频剪辑方面,AIGC 小欧可以成为媒体、文化、游戏等行业的剪辑助手。通过 AIGC 实现媒体视频素材的一键成片。
可以说,这是智能体能力体现得最直接的一个方面,python通过语言理解能力,智能体在剪辑过程中,可以自动依据文案内容,对不同镜头添加更加细节的视频镜头描述,从而省去了人工制作视频中,繁琐的文字与镜头之间的匹配工作。
从上述几点来看,欧姆智能体确实具备了一定的智能体特征,然而,即便如此,在其商业化落地的过程中,仍然会面临不少挑战。
从目前欧姆智能体的落地方向上来看,其本质上走的还是一种“松耦合”的技术路线。
所谓的“松耦合”,简单来说,不同任务分解,通过不同智能体来完成,最后通过大模型来完成自动化调度和协作。
比如语言大模型来学习对话、视觉大模型来识别地图。
这类智能体,虽然从不像人一样有综合智能,但从成本和可行性上,却python能更快落地。
然而,这样的“松耦合”路线,由于技术壁垒并不高,在竞争中很容易遭到同类型智能体的挤压,进而导致毛利率不断下降,以至于技术红利很快走到尽头。
到了那时,一种端到端的,一个大模型就能包办所有的“紧耦合”路线,就会成为行业共同的期盼。
但这样一种集合了多种智能,能适应各种任务的智能体,必定蕴含了更多技术含量颇高的“硬科技”,而国内团队是否能一一攻破这些难关,仍是个未知数。