MosaicML发布大型语言模型 MPT-7B 可商用


【资料图】

编程客栈()5月11日 消息:MosaicML 的 MPT-7B 是一个具有近70亿个参数的大型语言模型,该团队在自己的近万亿个标记的数据集上对其进行了训练。

MosaicML 遵循 Meta 的LLaMA模型的训练方案。培训花费近200,000美元,使用 MosaicML 平台耗时9.5天。

MosaicML表示,MPT-7B 与 Meta 的70亿参数 LLaMA 模型的性能相匹配,使其成为第一个达到该水平的开源模型,领先于OpenLLaMA。与 Meta 的模型不同,MPT-7B 已获得商业使用许可。

除了“MPT-7B Base”模型,MosaicML 还发布了三个变体:MPT-7B-StoryWritpythoner-65k+、MPT-7B-Instruct 和 MPT-7B-Chat。

借助 MPT-7B-StoryWriter-65k+,MosaicML 还发布了一个模型,该模型能够读取和写入上android下文长度非常长的故事。为此,使用 books3数据集的子集对 MPT-7B 进行了微调,上下文长度为65,000个标记。OpenAI 最大的 GPT-4变体能够处理32,000个标记。

根据 MosiacML 的说法,该模型可以通过js一些优化扩展到超过65,000个token,并且该团队已经在使用 Nvidia A100-80GB GPU 的单个节点上展示了多达84,000个token。但即使有65,000个tokenjs,也可以阅读整部小说并写一篇结语。

项目网址:https:/php/github.com/mosaicml/llm-foundry

推荐DIY文章
绝味鸭脖是哪里的品牌 绝味鸭脖的发源地就是武汉吗 世界视讯
地藏经心咒的正确念法 藏心咒到底是什么?怎么发音? 每日热议
今日热议:仙剑5激活码怎么获得 仙剑5激活失败是怎么回事有谁知道
世界资讯:阿尔法狗围棋介绍 来讲讲“师者寂寞,徒者美”的现象
8条安全驾驶小技巧 开车时不要强行超车 车辆并道时要减速观测
5的倍数有哪些数字 根据倍数的定义5的倍数的特征有什么|天天速讯
精彩新闻

超前放送