英伟达演示音乐生成模型，音频重塑来袭

讯知在线 • 2024年11月28日下午6:59 • 热点 • 0 views

英伟达揭示Fugatto：音频重塑的革命性AI

当地时间11月25日，芯片巨头英伟达推出了其最新的人工智能模型Fugatto，该模型专用于生成和修改音乐和音频。这款技术展示了人工智能在改变音频景观方面的惊人潜力。

Fugatto的功能

Fugatto是一个强大的AI模型，能够根据文本提示改变和生成新的声音。它可以完成各种令人印象深刻的任务，包括：

* 修改录音中的口音和情绪

* 将钢琴演奏转换成人声歌唱

* 分离歌曲中的人声，添加乐器

* 将钢琴换成歌剧歌手，改变旋律

英伟达声称，Fugatto可以创造出“从未听过的声音”，例如让小号发出吠叫声或萨克斯发出猫叫声。

技术基础

Fugatto建立在英伟达团队在语音建模、音频编码和音频理解领域的深入研究基础上。完整版模型包含25亿个参数，并在NVIDIA DGX超级计算机系统上使用32个英伟达H100 Tensor Core GPU进行训练。

为了构建Fugatto模型，研究人员收集了数百万个音频样本的数据集，并创建了指令来扩展模型的任务范围。这种方法提高了模型的准确性，并使其能够在不使用额外数据的情况下执行新任务。

在推理过程中，模型利用一种称为ComposableART的技术，该技术允许组合在训练期间单独看到的指令。这为用户提供了对文本提示的精细控制，使他们能够指定诸如“用法国口音讲述悲伤的文字”之类的复杂指令。

影响和应用

Fugatto的出现标志着音频重塑领域的重大变革。英伟达表示，这项技术将为音乐家、电影制片人和游戏开发者带来新的能力，使他们能够创造出独特而身临其境的声音体验。

一些可能的应用包括：

* 为电影和游戏创作逼真的音景

* 个性化音乐体验，根据用户的喜好生成定制的音乐

* 开发新的音乐流派和乐器

* 辅助残疾音乐家的创作过程

道德考量

虽然Fugatto具有令人兴奋的潜力，但它也引发了一些道德问题。生成式AI模型的创建者一直在努力寻找防止滥用该技术的方法，例如生成错误信息或侵犯版权。

英伟达承认了这些风险，并表示他们正在慎重考虑是否以及如何公布Fugatto。公司表示，他们希望在发布模型之前解决潜在的滥用问题。

竞争环境

英伟达并不是唯一涉足人工智能音频领域的公司。近年来，Stability AI、OpenAI、谷歌DeepMind等公司也开发了人工智能音频工具。然而，英伟达声称Fugatto是第一个能够创造出全新和闻所未闻的声音的模型。

一些人工智能初创公司，如OpenAI和谷歌，因其音乐创作工具而面临版权诉讼。这些公司正在探索解决这些问题的解决方案，以确保人工智能在音乐领域的负责任使用。

展望未来

Fugatto展示了人工智能在改变我们的音频体验方面的巨大潜力。随着这项技术的不断发展，我们可以期待看到更令人印象深刻和创新的应用程序。然而，重要的是要小心地处理这些模型的道德影响，以确保它们被用于创造性和积极的目的。

原创文章，作者：讯知在线，如若转载，请注明出处：http://mip.xzxci.cn/2024/11/28/24306.shtml