Meta 开源 MusicGen 模型:用 AI 将文本和旋律结合 创造全新音乐作品 环球微资讯

编程客栈() 6月12日消息:Meta 的 MusicGen 可以根据文本提示生成短小的新音乐片段,并可选择与现有旋律对齐。

与今天的大多数语言模型一样,MusicGen 基于 Transformer 模型。就像语言模型预测句子中的下一个字符一样,MusicGen 预测音乐作品中的下一个部分。

研究人员使用 Meta 的 EnCodec 音频标记器将音频数据分解为较小的组件。作为一个单阶段模android型,它可以并行处理标记,因此 MusicGen 速度快且高效。


(资料图片)

该团队使用了 20,000 小时的授权音乐进行训练。特别的是,他们依赖于一组内部的 10,000 首高质量音乐曲目的数据集,以及来自 Shutterstock 和 Pond5 的音乐数据。

MusicGen 可以处理文本和音乐提示

PfmbdFce了架构的效率和生成速度外,MusicGen 在能够处理文本和音乐提示方面也是独特的。文本设置了基本风格,然后与音频文件中的旋律匹配。

例如,如果将文本提示「一个轻快愉快的 EDM 音轨,带有交响鼓、轻柔垫音和强烈情感,速度:130 BPM」与巴赫著名作品《降 D 小调的触技曲与赋格曲(BWV 565)》的旋律结合起来,将生成以下音乐作品:

你无法精确控制与旋律的结合,例如在不同风格中听到旋律。它只作为生成的大致指南,并不完全反映在输出中。

MusicGen 领先于Google 的 MusicLM

研究的作者对其模型的三个不同大小进行了测试:3 亿(300M)、15 亿(1.5B)和 33 亿(3.3B)个参数。他们发现更大的模型生成的音频质量更编程客栈高,但人们评价最好的是 15 亿参数模型。另一方面,33 亿参数模型更擅长准确匹配文本输入和音频输出。

与其他音乐模型(如 Riffusion、Mousai、MusicLM 和 Noise2Music)相比,MusicGen 在客观和主观指标python上表现更好,这些指标测试音乐与歌词的匹配程度以android及作曲的可信度。总体而言,这些模型略高于Google 的 MusicLM 水平。

Meta 已在 github 上发布了代码和模型的开源版本,并允许商业使用。在 Huggingface 上提供了演示。

Github 代码和模型:https://github.com/facebookresearch/audiocraft

Huggingface演示:https://huggingface.co/spaces/facebook/MusicGen

推荐DIY文章
全国职工数字化应用技术技能大赛决赛收官
强者恒强,江铃福特全顺何以持续领跑轻客市场?
最新资讯:机械设计基础精品课程 让学习像拆分讲解设备案例一样简单!
陈一冰公开资料介绍 是中国男子体操新生代中的佼佼者_天天热资讯
地下城与勇士守护者祭坛 可以通过工艺领主之塔获得固体亡灵碎片吗-环球聚看点
世界热点!璀璨人生李沁演技 其在2008年饰演新版红楼梦而出道
精彩新闻

超前放送