APP下载

谷歌发布 AI 前沿成果 MusicLM 挑战更复杂场景

消息来源:baojiabao.com 作者: 发布时间:2024-11-08

报价宝综合消息谷歌发布 AI 前沿成果 MusicLM 挑战更复杂场景

  当地时间1月27日,谷歌发布了全新的AI模型--MusicLM。通过人工智能模型MusicLM,文字可以直接产生高保真的音乐。

  这是继文字生成的AI模型模型Wordcraft.视频生成工具ImagenVideo此后,谷歌再次推出生成人工智能模型工具,这次谷歌瞄准了音乐领域。

  透过MusicLM,不难看出,近年来,生成式人工智能跑道正在爆发。

  01.MusicLM挑战更复杂的场景

  谷歌最新推出的人工智能模型MusicLM,文字可以直接使用.图像一键生成音乐,音乐风格多样,所有想听的音乐,基本上都可以一键生成。

  MusicLM不是第一个可以一键生成音乐的AI模型。在此之前,可视化AI工具Rifusion也可以自动创作音乐,以及DanceDiffusion,此外,最受欢迎的聊天机器人ChatGPT研发人员OpenAI也推出了Jukebox。

  但值得注意的是,由于技术和数据等因素,这些一键生成音乐的人工智能系统相对简单,相对不复杂。

  与前辈不同的是,MusicLM它可以创作特别复杂和高度保真的音乐,也可以通过图像生成音乐。这是一个新的突破。通过人工智能技术,我们不仅可以识别乐器,结合音乐流派,还可以通过更抽象的概念生成音乐。

  比如想要街机游戏配乐,只要输入"街机游戏主配乐,它的节奏快而乐观"等字样,MusicLM音乐可以一键生成。MusicLM音乐也可以通过图像生成,如世界名著《呐喊》、《格尔尼卡》、《星空》等。

  然而,值得一提的是,谷歌目前只发布了MusicLM的研究成果。由于版权等问题,谷歌还没有向公众开放MusicLM。

  02.AI生成音乐有什么困难?

  去年10月,谷歌推出了生成人工智能模型AudioLM,只需输入短时音频,就可以生成类似风格的音频。当时,AudioLM只是一个纯音频模型,类似于语言模型,根据提示的语音内容独立判断和生成。

  从这个角度看,AudioLM可视为MusicLM的前身。AudioLM在不转录或标记的情况下,可以效仿音频的音质.响度和清晰度等。但是,AudioLM音频与正版没有太大区别,也没有公开应用。

  通过人工智能模型创作音乐并不容易,因为音乐包含音频信号.环境声音.人的声音等维度是由许多信号相互作用形成的,每次身体发出声音,无论声音的大小.音色好坏,都是由句法决定的.音韵等构成,这是一个非常复杂的综合性系统。

  正是这些因素,在早期的探索过程中,一键生成的音频合成痕迹明显,声音听起来不自然,发音不标准。因此,人工智能模型依靠大量的数据训练和模拟来实现真正意义上的一键生成音频是必不可少的基本步骤。

  针对这些挑战,作为AudioLM的"升级版",MusicLM训练数据更大。据了解,谷歌在28万小时的音乐数据集中,才训练出来。MusicLM,为理解深度和复杂的音乐场景提供了基础。

  此外,值得一提的是,谷歌专门介绍了任务缺乏评估数据等问题MusicCaps,用于评估从文本到音乐的生成任务。

  03.生成人工智能迎来爆发

  谷歌的推出MusicLM,可以看作是扩展人工智能应用的注脚,其背后是生成人工智能轨道的爆发。事实上,生成人工智能一直是近两年来最热门的话题。

  2021年,OpenAI一个接一个地发布了划时代DALL-E.DALL-E2模型,实现了文本生成图像的飞跃;去年,Meta发布AI短视频生成模型Make-A-Video,视频也可以通过文本内容生成;谷歌还发布了短视频AI生成模型ImagenVideo与Phenaki。

  不仅在海外,在中国也有许多生成人工智能应用程序。例如,字节跳动的剪影就是剪影。APP,匹配的视频图片可以根据文本内容一键生成。去年年初,网易推出了"网易天音",也是一站式人工智能音乐创作平台,通过人工智能一键生成音乐。

  可见,生成人工智能的应用场景越来越广泛,写作也越来越广泛.绘画.剪辑视频等,都可以通过人工智能技术来实现。基于生成人工智能的一般应用前景,谷歌.微软.Meta巨头们纷纷推动研发,将生成人工智能技术融入产品,加速了生成人工智能轨道的爆发。

  事实上,生成人工智能的快速发展并不是过去两年的问题,而是由于技术门槛过高,其前沿趋势在科技界已经广泛传播。直到人工智能绘画.AI写作等频繁流行,生成人工智能得到了更广泛的关注。

  生成人工智能跑道的爆发有一定的原因。大数据和算法的应用越来越成熟,模型工具也越来越完善,这加速了生成人工智能应用的迭代。目前,生成人工智能已经爆发,未来仍有很大的发展潜力。根据Gartner的统计,预计到2025年,生成人工智能将占所有生成数据的10%,而目前的比例不到1%。

  当然,任何技术都是一把"双刃剑"。生成人工智能正面临版权问题等挑战。此外,它还面临着人工智能产生"错误"造成的各种损失。目前,人为干预是不可或缺的。但从长远来看,生成人工智能的巨大发展潜力已成为共识。

2023-02-24 15:11:48

相关文章