音乐生成AI技惊四座，谷歌为什么不敢发布？-全球快播

本文来自微信公众号：机器之心（ID：almosthuman2014），编辑：蛋酱、陈萍，原文标题：《MusicLM来了！谷歌出手解决文本生成音乐问题，却因copy风险不敢公开发布》，题图来自：视觉中国

谷歌继续向音乐领域发起挑战！近日，谷歌发布的 MusicLM 模型简直是生成音乐界的小能手，会的乐曲五花八门，你能想到的，它都会满足。

(资料图片)

MusicLM 不是第一个生成歌曲的 AI 系统。其他更早的尝试包括 Riffusion，这是一种通过可视化来创作音乐的 AI，以及 Dance Diffusion，谷歌自己也发布过 AudioML，OpenAI 则推出过 Jukebox。

虽然生成音乐的 AI 系统早已被开发出来，但由于技术限制和训练数据有限，还没有人能够创作出曲子特别复杂或保真度特别高的歌曲。不过，MusicLM 可能是第一个做到的。

为什么这么说？

曲风随便选，你要做的就是动动手指输入文本就可以。比如让 MusicLM 来段街机游戏配乐，我们就可以输入文本“街机游戏的主配乐，音乐给人的感受节奏快且乐观，带有朗朗上口的电吉他即兴重复段，但又伴随着意想不到的声音，如铙钹撞击声或鼓声”。

还想让 MusicLM 来段电子舞曲，也没问题，输入提示“雷鬼和电子舞曲的融合，带有空旷的、超凡脱俗的声音，引发迷失在太空中的体验，音乐的设计旨在唤起一种惊奇和敬畏的感觉，同时又适合跳舞”；或者工作累了，想听听放松的音乐，MusicLM 也能安排。

MusicLM 生成长音乐的质量也很出色：来段轻松的爵士乐，时长可达足足 5 分钟；MusicLM 还有故事模式，你可以要求 MusicLM 在不同的时间段生成不同的音乐风格。例如爵士乐（0:00-0:15）、流行乐（0:15-0:30）、摇滚乐（0:30-0:45）、死亡金属乐（0:45-1:00）、说唱（1: 00-1:15）、弦乐四重奏与小提琴（1:15-1:30）、史诗电影配乐与鼓（1:30-1:45）、苏格兰民歌与传统乐器（1:45-2:00）：

MusicLM 也可以通过图片和标题的组合来指导，生成相应风格的音乐。例如拿破仑翻越阿尔卑斯山配乐：

除此以外，MusicLM 还能生成由特定类型的乐器“演奏”的特定流派的音频。甚至可以设置“AI 音乐家”的经验水平，系统可以根据地点、时代或要求创作音乐（例如体育锻炼时的励志音乐）。

有人对这一研究给予极高的评价：这比大火的 ChatGPT 还重要，谷歌几乎解决了音乐生成问题。

MusicLM 肯定不是完美无缺的——事实上，远非如此。一些样本有质量问题，不可避免地对训练过程产生副作用。虽然 MusicLM 在技术上可以生成人声，包括合唱的和声，但它们还有很多地方需要改进。大多数“歌词”可能是蹩脚的英语或纯粹的胡言乱语，然后由合成的声音演唱，听起来像是几个艺术家的“混合物”。

论文地址：https://arxiv.org/pdf/2301.11325.pdf

论文主页：https://google-research.github.io/seanet/musiclm/examples/

方法层面，谷歌采用三个模型来提取音频表示，这些模型将用于条件自回归音乐生成，如图 1 所示。SoundStream 模型用来处理 24 kHz 单声音频，从而得到 50 Hz 的嵌入；具有 600M 参数的 w2v-BERT 模型用于建模中间层；MuLan 模型用于提取目标音频序列的表示。

然后将上述得到的离散音频表示与 AudioLM 相结合，从而实现基于文本的音乐生成。为了达到这一效果，谷歌提出了一个分层的序列 - 序列建模任务，其中每个阶段都由单独的解码器 Transformer 自回归建模。所提出的方法如图 2 所示。

谷歌在 FMA（Free Music Archive）数据集上训练 SoundStream 和 w2v-BERT 模型，而语义和声学建模阶段的 tokenizer 以及自回归模型是在 500 万音频剪辑的数据集上训练的，在 24kHz 下总计 280000 小时的音乐。

实验部分，谷歌将 MusicLM 与文本生成音乐的基线方法 Mubert 、 Riffusion 进行比较。结果显示在 FAD_VGG 指标上，MusicLM 所捕获的音频质量比 Mubert 和 Riffusion 得分更高。在 FAD_Trill 上，MusicLM 的得分与 Mubert 相似（0.44 vs 0.45），优于 Riffusion（0.76）。

图 3 是对提示长度分析的结果：

饱受争议的生成式 AI

与此同时，谷歌的研究人员也注意到了像 MusicLM 这样的系统所带来的许多道德挑战，包括将训练数据中受版权保护的材料纳入生成的歌曲中的倾向。在一次实验中，他们发现该系统生成的音乐中约有 1% 是直接复制自其训练的歌曲，这个问题足以让研究人员不愿意以目前的状态发布 MusicLM。

“我们承认与该用例相关的盗用创意内容潜在风险”，作者们在论文中写道。“我们强调的是，在解决这些与音乐生成相关的风险方面，未来需要更多的工作。”

假设有一天 MusicLM 或类似的系统可用，似乎仍将不可避免地会出现重大法律问题，即使这些系统被定位为辅助艺术家而不是取代他们的工具。

这类的争议此前已经发生过：2020 年，Jay-Z 的唱片公司对 YouTube 频道 Vocal Synthesis 提出版权警告，理由是它使用 AI 创作了 Jay-Z 翻唱 Billy Joel 的《We Didn't Start the Fire》等歌曲。尽管在删除视频后，YouTube 发现删除请求“不完整”且恢复了它们，但 Deepfake 式的音乐仍然处于模糊的法律基础之上。

Eric Sunray 撰写的一份白皮书认为，像 MusicLM 这样的 AI 音乐生成器通过“从训练摄取的作品中创建连贯音频”侵犯了音乐版权，从而侵犯了美国版权法的复制权。随着 OpenAI 音乐生成神经网络 Jukebox 的发布，批评者也开始质疑在受版权保护的音乐材料上训练 AI 模型是否构成合理使用。围绕图像、代码和文本生成 AI 系统中使用的训练数据也引起了类似的担忧，这些数据通常是在创作者不知情的情况下从网络上收集的。

从用户的角度来看，Andy Baio 推测由 AI 系统生成的音乐将被视为衍生作品，在这种情况下，只有原创元素会受到版权保护。当然，暂不清楚在这种音乐中什么可以被视为“原创”，将这种音乐用于商业用途就像是进入未知水域。如果将生成的音乐用于受合理使用保护的目的，比如模仿和评论，那就更简单了，但预计法院将不得不根据具体情况做出判断。

近期法院审理的几起诉讼可能会对生成音乐的 AI 产生影响，比如微软、GitHub 和 OpenAI 目前在一场集体诉讼中被起诉，指控其 Copilot 违反版权法。

还有一项涉及艺术家的权利，这些艺术家的作品在他们不知情或未同意的情况下被用于训练 AI 系统。流行的 AI 艺术工具幕后的两家公司 Midjourney 和 Stability AI 正被指控通过在网络抓取的图像上训练他们的工具，侵犯了数百万艺术家的权利。就在上周，库存图片供应商 Getty Images 将 Stability AI 告上法庭，据报道，该公司未经许可使用其网站上的数百万张图片来训练 Stable Diffusion。

问题主要在于，生成式 AI 偏好从用于训练它的数据中复制图像、文本等，包括受版权保护的内容。在最近的一个例子中，CNET 用来编写文章的 AI 工具被发现抄袭了人类撰写的文章，这些文章可能在其训练数据集中被清除了。与此同时，2022 年 12 月发表的一项学术研究发现，像 DALL-E-2 和 Stable Diffusion 这样的图像生成 AI 模型，能够且确实从它们的训练数据中复制了图像的各个方面。

因此，一些图片托管平台已经禁止了 AI 生成的内容，因为担心会遭到法律诉讼。几位法律专家警告说，如果公司无意中将这些工具生成的受版权保护的内容整合到他们销售的任何产品中，那么生成式 AI 工具可能会使公司面临风险。

伴随着关注与争议，或许在不远的未来，这些问题都将有清晰的答案。

参考链接

https://techcrunch.com/2023/01/27/google-created-an-ai-that-can-generate-music-from-text-descriptions-but-wont-release-it/

https://techcrunch.com/2023/01/27/the-current-legal-cases-against-generative-ai-are-just-the-beginning/

本文来自微信公众号：机器之心（ID：almosthuman2014），编辑：蛋酱、陈萍

推荐内容

音乐生成AI技惊四座，谷歌为什么不敢发布？-全球快播

如何找回被疫情偷走的三年？-当前播报

AI恋人骚扰了我，却还要我为它付费-每日视讯

消息称苹果正筹备马来西亚首家Apple Store零售店

Web3孵化器Tané完成800万美元融资，B Dash Ventures Inc.等参投-天天热闻

天津嘉立荷牧业集团有限公司招聘公告

IDC：2022年全球智能手机出货量12.1亿台 同比下降11.3%

花小猪打车怎么了？女孩深夜叫车被拒载，司机加价要求取消订单私下转账，客服电话难寻-焦点播报

广州家居卖场迎来新年“开门红” 智能家居产品成年货新宠-环球精选

Beosin：分布式资本创始合伙人沈波此前上千万美元被盗资金发生资金转移-天天关注

三星Galaxy S23 Ultra长焦样张曝光：30X变焦也能更清晰-天天热资讯

短视频和资讯类应用不存在筑茧效应，个性化推荐算法有利多样化信息获取

人民网三评“套娃会员”之一：连环收费“坑”用户-环球热消息

《流浪地球2》：为了人类的安全，这月球不要也罢-视焦点讯

ChatGPT再度带火AI，盘点区块链领域相关概念项目

加密银行Silvergate已暂停派息以维持其“高流动性资产负债表”-环球信息

新闻观察：中国春节“开门红”

跌落神坛的Web3，接不住大厂来的淘金者-全球即时

微软对Win11强制升级：22H2版本将普及-环球聚看点

最强安卓机？三星S23系列宣传物料曝光 配置惊人-全球观速讯

凌晨抵深？“公交＋出租车”联乘服务等你-视讯

ChatGPT又赢了：带动股价涨三倍，成考试神器

etc记账卡什么时候扣费？etc记账卡怎么充值？

合生元孕妇奶粉怎么样？合生元孕妇奶粉多少钱一罐？

开工红包一般发多少吉利？开工红包怎么说吉祥话？

阿根廷10号球衣都谁穿过？阿根廷10号球衣历史

高通骁龙710相当于天玑多少？高通骁龙710参数配置

微信提现手续费是多少钱？微信提现限额多少一天？

波轮洗衣机不脱水怎么解决？波轮洗衣机哪个牌子好用又耐用？

华硕天选3笔记本怎么样？华硕天选3配置参数

psd文件用什么打开？psd文件损坏怎么修复？

罗技鼠标怎么调灵敏度？罗技鼠标怎么下载驱动？

滚滚红尘歌词完整版是什么？滚滚红尘歌词写的是什么意思？

古代的发髻是怎么固定的？古代的发髻都有那些名称？

文案是什么意思？文案是做什么工作内容的？

谢交春是什么意思？谢交春的祝福语有哪些？

上海可以放孔明灯吗？孔明灯的来历和意义

闪点测定需要注意的问题有哪些？闪点的测定方法

马关条约的主要内容是什么？马关条约的影响有哪些？

沐浴之神漫画讲的是什么？漫画沐浴之神哪里可以看？

小排球是哪个动漫？小排球第五季什么时候出？

维多利亚2黑暗之心怎么全屏？维多利亚2黑暗之心事件代码大全

尼罗河勇士怎么解锁新人物？尼罗河勇士2最强阵容

火影忍者究极风暴3怎么开始游戏？火影忍者究极风暴3键盘按键

“美版今日头条”宣布用ChatGPT写稿，股价暴涨119%

笼中窥梦讲了一个什么故事？笼中窥梦怎么重新开始？

荒野大镖客救赎和荒野大镖客的区别有哪些？荒野大镖客救赎作弊码

消逝的光芒抓钩怎么获得？消逝的光芒决定版和白金版的区别

这是我的战争怎么防止被抢劫？这是我的战争怎么解锁人物组合？

星际争霸2神族战术技能有哪些？星际争霸2神族战术怎么用？

信长之野望怎么设置简体中文？信长之野望9岚世纪隐藏能力

剑灵装备怎么解除锁定？剑灵装备升级顺序2023

早上跑步后感觉头很痛想吐是什么原因？早上跑步后感觉头很痛想吐怎么办？

绝地求生awm模型_绝地求生awm怎么画

波轮or滚筒 别再犹豫高性价比滚筒洗衣机值得入手

想入手好用的轻薄本？我推荐你这几款

打开COD19的正确方式：用OMEN暗影精灵8 Pro刚刚好

微软CFO回应大规模裁员： 我们非常谨慎 认真

新款大众ID.3遭曝光 外观变化不大 车机系统终于换了-焦点讯息

开年送好礼，这台智能超清的哈趣K1推荐给你

一加Ace 2要来了？印度一加11R新机率先发布-全球观点

MSI GT77游戏本爆测：16G大显存加持 便携的4K神机！

不到现场也可以获得临场沉浸感 索尼带来"360 临场音效"

《满江红》非常专业地把一个故事讲到脑残的程度

Cobo神鱼：2023寻找新的叙事逻辑-全球播报

Aave V3已部署至以太坊主网，将全面降低所有功能的Gas成本-天天即时看

马斯克预计特斯拉皮卡Cybertruck?2024年量产?晚于此前预期

富士康留守打工人，“能多赚一点是一点”

支付宝春节观察：诗和远方回来了2.5亿人次观看景区慢直播定出行

春节假期即将清零 快来京东换新高性能手机助你轻松提升工作效率-环球快看

Web3基础设施和硬件公司Spatial Labs完成1000万美元融资， Blockchain Capital领投-天天日报

Aave已消除去年11月270万枚CRV的金库坏账

你知道澳洲各大类商品物价去年涨了多少吗？-天天观焦点

这些品类释放的信号，带给家电2023年市场破冰启示

激活家电市场消费活力 业界探索收旧焕新业务模式-环球时快讯

马斯克突访美国会并面见众议长 对外称为其庆祝生日-每日资讯

2022 清洁电器全渠道零售额 322 亿元 同比增长 4.0%-焦点信息

长江介绍资料_长江资料

DirectStorage或导致显卡性能损失，能让RTX 4090性能下跌10%-焦点快播

IDC：2022年全球智能手机出货量12.1亿台同比下降11.3%

最强安卓机？三星S23系列宣传物料曝光配置惊人-全球观速讯

波轮or滚筒别再犹豫高性价比滚筒洗衣机值得入手

微软CFO回应大规模裁员：我们非常谨慎认真

新款大众ID.3遭曝光外观变化不大车机系统终于换了-焦点讯息

MSI GT77游戏本爆测：16G大显存加持便携的4K神机！

不到现场也可以获得临场沉浸感索尼带来"360 临场音效"

春节假期即将清零快来京东换新高性能手机助你轻松提升工作效率-环球快看

激活家电市场消费活力业界探索收旧焕新业务模式-环球时快讯

马斯克突访美国会并面见众议长对外称为其庆祝生日-每日资讯

2022 清洁电器全渠道零售额 322 亿元同比增长 4.0%-焦点信息

真正清洁面部轻奢洁面仪洗出Q弹好皮肤-新消息

【春节更新文章，勿发】性价比游戏本好物推荐带你春节畅玩游戏-天天即时