Meta提出新模型MegaByte 可增强AI生成


(相关资料图)

编程客栈()6月6日 消息:来自Facebook母公司Meta的人工智能研究人员提出了一种新颖的方法MegaByte,以加快自然语言处理等用途的内容生成。

据介绍,来自Facebook母公司Meta的人工智能研究人员提出了一种新颖的方法MegaByte旨在改进更长的内容生成。像OpenAI的ChatGPT这样的系统可以轻松处理短输出,但序列越长或越复杂,模型的性能就越差。

MegaByte 方法使用多尺度解码器架构,能够android对具有端到端可微分性的超过100万个字节的序列进行建模,这意味着以更低的运行成本获得更好的生成性能。

Meta的研究人员对基于Transforphpmer的架构提出质疑。谷歌的研究人员在2017年开发了基于Transformer的系统,此后该系统被广泛用于NLP任务,为ChatGPT、GPT-4和BERT等模型和系统铺平了道路。

然而,Meta的团队认为,基于Transformer的系统处理复杂的输入,如书籍或播客,需要大量的计android算才能运行。然而,MegaByte将输入和输出分成“补丁”而不是单独的token。每个面片都有自己的本地化响应,模型将这些响应与其他面片组合成一个整体,以创建最终输出。

研究人员建议,MegaByte“用子字模型给出有竞争力的语言建模结果,这可能允许字节级模型取代标记化”.

Meta新提出的架构得到了特斯拉人工智能总监安德烈卡尔帕西(Andrej Karpathy)的称赞,认为这很有前景。

然而,对于MegaByte来说,现在还处于早期阶段,因为Meta的论文详细介绍了使用它进行的实验规模“远远低于最先进的语言模型”。研究人员提出,未来对MegjsaByte的研究应该探索将架构扩展到更大的模型和数编程客栈据集。

推荐DIY文章
穿越沙漠和自由是哪本书里的:纳尼亚传奇1-9章概要 世界今头条
员工更衣室管理制度 如何规范公司更衣室使用等管理流程 全球视点
世界杯哥斯达黎加希腊比赛结果 2014年国际足联世界杯结果如何
premiere加字幕教程 默认的静态字幕菜单是怎么调用出来的|独家
世界实时:怀柔白河峡谷 北京怀柔的白鹤峡怎么样?北京的第三大水库在哪里
巴菲特名言 今天就给大家详细的介绍一下巴菲特语录
精彩新闻

超前放送