AI2发布大语言模型开源数据集Dolma 包含3万亿个token


【资料图】

编程客栈()8月24日 消息:美国艾伦人工智能研究所(AI2)最近发布了一个名为Dolma的开源数据集,其包含了3万亿个token,这些词汇来自包括网络内容、学术出版物、代码和书籍等广泛的来源。Dolma是目前公开可用的同类数据集中最大的一个。

Dolma的数据将为AI2正在开发中的开放语言模型OLMo编程客栈提供基础。OLMo的目标是成为“最好的开放语言模型”,计划于2024年初发布。为了开发OLMo,AI2构建了庞大的Dolma数据集。

Dolma第一个版本主要以英文文php本为主。研究人员使用语言识别模型对数据进行筛选。为弥补少数语言方言的偏差,团队将模型判断为英文置信度50%以上的所有文本都包括在内。未来版本将会包括其他语言。

Dolma以开放许可的形式免费向研究人员开放。研究人员需要提供联系信息并同意Dolma的预期用途。同时建立机制允许根据要求python删除个人数据。

Dolma的数据大部分来自非营利的Common Crawl项目收集的网络数据。此外还包含其他网络页面、学术文本、代码示例、书籍等。

在AI2看来,理想的数据集应该满足几个标准:开放性、代表性、规模和再现性。它还应该最大限度地减少风险,尤其是那些可能影响个人的风险。

项目网址:https://huggingface.co/datase编程客栈ts/allenai/dolma

推荐DIY文章
全球首台8K激光电视引关注!人民日报探厂海信直播即将启幕
持续引领智能手表体验!OPPO Watch系列新品沟通会召开
当智能健身走向全民化:AEKE轻力量家庭智能健身房引领未来
海艺AI:迎合“AI时代”发展潮流,刷新绘图市场传统认知
布局产业新高地!海星医药健康创新园B区奠基仪式隆重举行
未来五年500亿投入打底,北汽蓝谷锚定细分市场增量
精彩新闻