(相关资料图)
编程客栈()6月6日 消息:来自Facebook母公司Meta的人工智能研究人员提出了一种新颖的方法MegaByte,以加快自然语言处理等用途的内容生成。
据介绍,来自Facebook母公司Meta的人工智能研究人员提出了一种新颖的方法MegaByte旨在改进更长的内容生成。像OpenAI的ChatGPT这样的系统可以轻松处理短输出,但序列越长或越复杂,模型的性能就越差。
MegaByte 方法使用多尺度解码器架构,能够android对具有端到端可微分性的超过100万个字节的序列进行建模,这意味着以更低的运行成本获得更好的生成性能。
Meta的研究人员对基于Transforphpmer的架构提出质疑。谷歌的研究人员在2017年开发了基于Transformer的系统,此后该系统被广泛用于NLP任务,为ChatGPT、GPT-4和BERT等模型和系统铺平了道路。
然而,Meta的团队认为,基于Transformer的系统处理复杂的输入,如书籍或播客,需要大量的计android算才能运行。然而,MegaByte将输入和输出分成“补丁”而不是单独的token。每个面片都有自己的本地化响应,模型将这些响应与其他面片组合成一个整体,以创建最终输出。
研究人员建议,MegaByte“用子字模型给出有竞争力的语言建模结果,这可能允许字节级模型取代标记化”.
Meta新提出的架构得到了特斯拉人工智能总监安德烈卡尔帕西(Andrej Karpathy)的称赞,认为这很有前景。
然而,对于MegaByte来说,现在还处于早期阶段,因为Meta的论文详细介绍了使用它进行的实验规模“远远低于最先进的语言模型”。研究人员提出,未来对MegjsaByte的研究应该探索将架构扩展到更大的模型和数编程客栈据集。