人工智能的新进展:GPT-4 Reflexion 准确度提高 30%


【资料图】

编程客栈() 4月4日消息:即使不太可能会暂停六个月的人工智能研究,但似乎 GPT-4 也有能力实现巨大的飞跃,只要它认真审视一下自己。研究人员已经让 GPT 对自己的工作进行「反思(ReFlexion)」,使其性能提高了 30%。

研究人员 Noah Shinn 和 Ashwin Gopinath 写道:「人类并非每天都在使用曾经被认为是人类智能独有的决策过程来开发新技术来达到最先进的标准。但是,这正是我们所做的。」

「反思」技术采用了 GPT-4 已经令人印象深刻的执行各种测试的能力,并引入了「一个框架,允许人工智能代理模仿人类一样的自我反思并评估其性能」。它引入了额外的步骤,让 G编程客栈PT-4 设计测试来批判自己的答案,寻找错误和误区,然后根据它发现的情况重写其解决方案。

该团队将其技术用于一些不同的性能测试。在由模型从未见过的 164 个 python 编程问题组成的 HumanEval 测试中,GPT-4 得分达到创纪录的 67%,但在 Reflexion 技术的帮助下,其得分跃升至令人印象深刻的 88%。

在 Alfworld 测试中,该测试挑战人工智能通过在各种交互环境中执行几种不同的允许行动来做出决定和解决多步骤任务的能力,Reflexion 技术将 GPT-4 的表现从 73% 左右提升到接近完美的 97%,在 134 项任务中只有 4 项失败。

在另一项名为 HotPotQA 的测试中,语言模型被赋予了对维基百科的访问权,然后在可能的 13,000 个问题/答案对编程客栈中给出 100 个,「挑战代理人解析内容并推理多个支持文档」。在这项测试中,GPT-4 的准确率只有 34%,但带有 Reflexion 的 GPT-4 成功地做得更好,达到 54%。

越来越多的时候,解决人工智能问题的方法似乎是更多的人工智能。在某些方面,这感觉php有点像生成式对抗网络,其中两个人工智能互相磨练技能,例如,一个试图生成无法与「真实」图像区分的图像,而另一个试图区分假的和真的。但在这种情况下,GPT 既是作者又是编辑,致力于努力改善自己的输出。

推荐DIY文章
win7设备管理器空白怎么处理 如何让设备管理器可以正常显示
win10系统使用什么杀毒软件比较好 小编介绍一款360安全卫士给大家
Windows10系统打不开淘宝网页如何解决 可以尝试重启下路由器等方法
让win7自动拨号上网的教程 有需要的小伙伴不妨一起来尝试下 每日看点
当前速讯:怎么制作u盘PE启动盘 如果没有可用的系统镜像文件该怎么办
世界百事通!Windows10系统怎样使用一根网线连接两台电脑 并实现文件的快速传递
精彩新闻

超前放送