文本生成3分钟44.1 kHz 音乐，Stable Audio 2.0重磅发布！

2024-04-04 13:41

默认

摘要：4月4日，著名开源大模型平台Stability.ai在官网正式发布了，音频模型Stable Audio2.0。Stable Audio2.0支持用户通过文本或音频，一次性可生成3分钟44.1kHz的摇滚、爵士、电子、嘻哈、重金属、民谣、流行、乡村等20多..

4月4日，著名开源大模型平台Stability.ai在官网正式发布了，音频模型Stable Audio2.0。

Stable Audio2.0支持用户通过文本或音频，一次性可生成3分钟44.1kHz的摇滚、爵士、电子、嘻哈、重金属、民谣、流行、乡村等20多种类型的高质量音乐。

其生成音乐的时长也超过了谷歌的Music-fx、Meta的AudioCraft等知名产品。目前已正式开放，免费提供试用（没锁区直接登录）。

体验地址:https://stableaudio.com/generate

Stable Audio2.0简单介绍

2023年9月14日，Stability.ai首次发布了Stable Audio1.0，主要有免费和付费两个版本。但无论是免费还是付费最长只能生成90秒的音乐。

2.0版本能极限延长音乐时间，主要是因为Stability.ai使用了Diffusion transformer （DiT）替换了1.0的U-Net架构。即将发布的Stable Diffusion3也使用了类似的技术，使其生成图像的质量、文本语义还原得到了极大增强。

DiT能将随机噪音逐步细化为结构化数据，识别出复杂的模式和关系。而自动编码器可压缩音频并将其重建为原始状态，能捕捉并再现基本特征，同时过滤掉不太重要的细节，从而生成更加连贯的声音。

所以，将DiT与自动编码器相结合，能够处理更长的音频序列，并准确地解读、还原用户输入的提示文本。

此外，Stable Audio2.0使用了一个超过80万个音频文件组成的数据集，包含音乐、音效以及各种乐器。

该数据集总计超过1.95万小时的音频，同时与知名音乐服务商AudioSparx进行合作，所以，生成的音乐可以用于商业化。

Stable Audio2.0案例展示

根据「AIGC开放社区」的使用体验，虽然Stable Audio2.0生成的音乐时间变长了，但是生成的效率比1.0版本显著提升，平均生成一个3分钟音乐在1分钟左右。下面是真实使用案例展示。

例如，我们生成一个用于冥想的音乐，输入提示词:一段宁静和平的禅意冥想背景音乐，应该能够帮助人们放松和内省。这首音乐应该包含流水的声音、柔和的风铃，以及长笛的轻轻吹奏，用D大调和缓慢的节奏来营造出自然和宁静的氛围。

模型我们选择Stable Audio2.0就是3分钟，辅助音频不用选择，然后点击“Generate”生成。

不到1分钟的时间就生成好了，我们可以选择在线试听，也可以下载下来使用。

下载的格式一共有MP3、WAV、Video三种模式，选择适合自己的就行。

在试一下摇滚律动性强的音乐:一首适合体育赛事的激情音乐，以激发观众和运动员的热情。有强劲的电吉他、打击乐和欢呼声，节奏明快有力，让人听后热血沸腾，能点燃赛场上的斗志。

创造一个热带主题音乐，具有活泼和欢乐的情绪，专为海滩派对设计。需要钢鼓、木琴和其他打击乐器来营造轻松的岛屿氛围。摇滚风格，听了让人非常兴奋和高兴。

目前，Stable Audio2.0免费赠送20积分，生成的音乐可以商业化，这对于抖音、快手、B站的视频自媒体用户来说挺有帮助的。

本文素材来源Stability.ai官网，如有侵权请联系删除

更新于：8个月前

文本生成3分钟44.1 kHz 音乐，Stable Audio 2.0重磅发布！

最近发表

加速拓展欧洲市场！Tiktok的突围之路

美客多新增美国转运仓模式，十大入驻问题解答！

京东元旦和年货节哪个力度大？年货节一般是什么时候？

淘宝直播间的流量为什么越来越差？怎样获取？

京东买白酒是自营好还是官方店好？买白酒可靠吗？

淘宝退货宝退货需要付运费吗？退货运费谁出？

小红书商业化业务确定2025年三大方向

抖店怎么同步其他平台销量？抖店销量是下单就算吗？

95后是淘宝天猫消费年货的绝对主力！

快手短剧有大动作！

相关文章