英伟达揭示Fugatto:音频重塑的革命性AI
当地时间11月25日,芯片巨头英伟达推出了其最新的人工智能模型Fugatto,该模型专用于生成和修改音乐和音频。这款技术展示了人工智能在改变音频景观方面的惊人潜力。
Fugatto的功能
Fugatto是一个强大的AI模型,能够根据文本提示改变和生成新的声音。它可以完成各种令人印象深刻的任务,包括:
* 修改录音中的口音和情绪
* 将钢琴演奏转换成人声歌唱
* 分离歌曲中的人声,添加乐器
* 将钢琴换成歌剧歌手,改变旋律
英伟达声称,Fugatto可以创造出“从未听过的声音”,例如让小号发出吠叫声或萨克斯发出猫叫声。
技术基础
Fugatto建立在英伟达团队在语音建模、音频编码和音频理解领域的深入研究基础上。完整版模型包含25亿个参数,并在NVIDIA DGX超级计算机系统上使用32个英伟达H100 Tensor Core GPU进行训练。
为了构建Fugatto模型,研究人员收集了数百万个音频样本的数据集,并创建了指令来扩展模型的任务范围。这种方法提高了模型的准确性,并使其能够在不使用额外数据的情况下执行新任务。
在推理过程中,模型利用一种称为ComposableART的技术,该技术允许组合在训练期间单独看到的指令。这为用户提供了对文本提示的精细控制,使他们能够指定诸如“用法国口音讲述悲伤的文字”之类的复杂指令。
影响和应用
Fugatto的出现标志着音频重塑领域的重大变革。英伟达表示,这项技术将为音乐家、电影制片人和游戏开发者带来新的能力,使他们能够创造出独特而身临其境的声音体验。
一些可能的应用包括:
* 为电影和游戏创作逼真的音景
* 个性化音乐体验,根据用户的喜好生成定制的音乐
* 开发新的音乐流派和乐器
* 辅助残疾音乐家的创作过程
道德考量
虽然Fugatto具有令人兴奋的潜力,但它也引发了一些道德问题。生成式AI模型的创建者一直在努力寻找防止滥用该技术的方法,例如生成错误信息或侵犯版权。
英伟达承认了这些风险,并表示他们正在慎重考虑是否以及如何公布Fugatto。公司表示,他们希望在发布模型之前解决潜在的滥用问题。
竞争环境
英伟达并不是唯一涉足人工智能音频领域的公司。近年来,Stability AI、OpenAI、谷歌DeepMind等公司也开发了人工智能音频工具。然而,英伟达声称Fugatto是第一个能够创造出全新和闻所未闻的声音的模型。
一些人工智能初创公司,如OpenAI和谷歌,因其音乐创作工具而面临版权诉讼。这些公司正在探索解决这些问题的解决方案,以确保人工智能在音乐领域的负责任使用。
展望未来
Fugatto展示了人工智能在改变我们的音频体验方面的巨大潜力。随着这项技术的不断发展,我们可以期待看到更令人印象深刻和创新的应用程序。然而,重要的是要小心地处理这些模型的道德影响,以确保它们被用于创造性和积极的目的。
原创文章,作者:讯知在线,如若转载,请注明出处:http://mip.xzxci.cn/2024/11/28/24306.shtml