「能说会唱」的MiniMax,拔出国产AI的瑞士军刀
文 | 阑夕
今天听到一首歌,旋律隐隐熟悉,似乎有成为爆款BGM的潜质。
从开始的古筝起始,随着鼓点加入,进到古风歌词——几段正歌人声清隽,副歌部分悠长不绝,诉说一个久远的故事……
请中央音乐学院的博士好友一听,他评价编曲、作词都还不错,也认真给出了一点建议。
然而,这首三分多钟的完整歌曲,是只用了一句提示词、通过MiniMax Music生成的。
知此情形,音乐博士好友很受震撼;而真正亲历、见证了这几年AI音乐发展的人士,深度体验后,内心的波澜大概不亚于他。
一曲一世界,一句一乾坤。
MiniMax Music测评:曲风由你
AI音乐之乾坤,唯创作才有发言权。使用MiniMax Music消耗数千积分后,浅谈些感受。
生成上一首歌曲的提示词并不艰深:「模仿周杰伦的旋律,写一首爱情相关的歌,有古风元素,模仿《七里香》和《说好的幸福呢》旋律结合」。而效果听来却有意外之喜,尤其对几乎从未尝试过独立音乐创作的普通朋友,易上手程度可以说已接近「0门槛」。
用到的模型是MiniMax最新更新的自研音乐模型 Music 1.5,产品功能很简洁,分为简单模式(Simple)和高级模式(Advanced)两种。前者可以「一句成曲」,而后者「专业可控」。
简单模式下,仍输入较简单的提示词,输出结果却是曲风突变。
「创作一首有爵士风格、R&B元素的流行歌曲,表达年轻一代创业者的先锋和创新态度,用电吉他、Bass、架子鼓等,混合摇滚特征和现代音乐独创性。」
首先必须承认,Music 1.5的指令依循性很好。提示词涉及的电吉他、贝斯、架子鼓,特征都很鲜明,前奏先声夺人谱出跳动感,乐器本身音色特点和想要的歌曲风格匹配度高。
而随着人声的注入,爵士、R&B、摇滚和现代的风格得以彰显,起调明亮的乐器声作为伴奏则是稍稍后移,在间奏和结尾又自然呈现。
要知道,如果把提示词作为「命题作业」给到音乐学院的学生,单独一个音轨的吉他伴奏,录音棚中便是不知多少次的从头再来。
而今天,实现如上一首完整作品,所需仅仅一段话、一模型、数积分而已。
那么,如果更进一步细化结构层次和指令颗粒度呢?
用Markdown形式和更代码化的提示词,效果也没让我失望。最长的提示词,带来了近期我最满意的一首AI音乐作品。
不过需要注意的是,简单模式下,长提示词需要控制在300字符内,这也让我自然而然开启了高级模式的探索。
在高级模式下,指令篇幅来到了3000字符。输入「 / 」会有编曲的分层提示。
完成了前奏、主歌、副歌等的设计后,在设置中可以一键选择风格、情绪、场景等。
按照官方表达,Music 1.5 支持 「16种风格 × 11种情绪 × 10个场景」 自定义音乐特征,理论上有1760种不同的乐曲类型组合。
相比之前「一句话成曲」能进一步感受到控制力的提升。如果把音乐创作拆解为工作流,此刻Music 1.5已经用公式化的结构和标签,让曾经的节点和Pipeline变成的一个个的可点击选项。
因为是相同模型的原因,歌曲本身的演绎完成度和艺术性,比起之前的几个测试案例,变化似乎并不显著;但在高级模式下,能根据需要选择乐器类型、歌词内容、风格搭配……相比简单模式下用提示词控制,明显会更有掌控感。
哪怕以音乐学院博士的眼光来评判,选项的细分程度也已经达到了专业水准。可以想见,在MiniMax Music团队,必然有乐理专家和职业音乐人的支持。
唯一发现的暂时还不够可控的,是纯音乐选项,在当前最新版本中不论提示词如何强调,依然无法消除人声。通过增加选择按钮的方式等,并不是难题,预计也将很快得到完善或取舍。
总体来看,模型的控制力和音乐性,是衡量音乐模型质量的两个核心指标。
从控制力来说,Music 1.5能在4分钟的音乐中保持高完成度,其背后对于Long Context的编排,可类比2023年Kimi横空出世的长文本。音乐全链路、多场景,都达到了超出业余的水准。
从音乐性讲,无论风格的典型性还是编曲层次感,再或者人声的自然度、结构的动态变化,都堪称令人喜悦。
当然,相比Suno细分功能的丰富度,MiniMax Music尚显简陋,生成的音乐结尾处理略生硬,存在戛然而止、声音突然中断的抽卡现象。但作为中国的AI之声,其肉眼可见的进步速度,更值得我们期待。
AI音乐,不止重塑音乐行业
相较于处于AI舞台中央的大语言模型、视频模型,AI音乐的战场似乎并未被充分重视。
然而,一款再先进的视频模型,没有声音也只是默片;没有音乐的注入,即便有了文字、图片、视频,灵魂仍然残缺。
在MiniMax的技术图谱内,声音模型一直被摆在重要位置,并和其他模型彼此促进。从技术发展初期,在行业玩家尚未察觉之时,就下重注长线布局,这也是今天MiniMax的模型矩阵都能占据领先位置的原因。
看MiniMax的全栈AI能力生态,从算力到数据、从模型到应用,不仅能发挥协同效应、产模一体自闭环,同时可以凭借对外赋能、API逻辑、出海经验,在商业上真正全面落地。
不要忘了,MiniMax在语音上已经是全球双榜第一,这意味着它在「声音」领域的技术积累有天然优势。
今年的上海WAIC,开幕式的主讲嘉宾是诺奖得主、AI教父辛顿,而另一位启幕嘉宾则是闫俊杰,MiniMax的创始人。二者演讲内容的一个共同点是,都站在了AI与全人类关系的立场上。相比Hinton,MiniMax更加乐观,相信AI属于每个人,一定会更普惠地服务大众。在AGI的道路上,看似是「微小拼图」的AI音乐,也终究会在人类科技史、艺术史上书写天籁的一笔。
早在2023年,a16z已经旗帜鲜明提出,AI将重塑音乐全产业链。从23年初谷歌的MusicLM文生音乐,到Meta开源MusicGen。再之后,Suno横空出世,凭借其音乐审美和产品完成度,第一次在音乐生成领域树立标杆。
a16z甚至展示了AI音乐的行业应用光谱,从即时交互的音乐信息流,到专业级的音乐工具、技术栈,不同于Spotify的新一代音乐媒介正在诞生。AI音乐专辑、互动式音乐平台等形态,也将不再是痴人说梦。
对MiniMax Audio来说,性价比就是最永恒的优势。效果可媲美Suno、局部亮点突出,价格仅为suno的一半不到。具体来看,Suno V3.5的单价大概是3毛,一首歌要几十美金,这是Suno的问题,也是机会窗口。
正如海螺AI在不到一年的时间里反超Sora,类似的戏码似乎也正在MiniMax Music和Suno之间上演。
在产品设计和控制功能上,正视当前存在的差距和不足,坚定落地「低价高质策略」也将带来真正的行业革新。
从产业来看,虚拟陪伴、AI偶像、音乐电台、影视娱乐……都将随着AI音乐能力的注入,让多模态交互和体验升级产生新的可能。
不妨让想象更狂野一点:人类和AI正在建立新的合作范式,而协作创作音乐就是一个极致的开始。
人类擅长情感表达与审美判断,AI 擅长结构生成与无限延展。当二者结合,创作不再是单向度的劳动,而是碳基与硅基的共创,既具备技术的精确性,又不失人性的温度。
纯粹的AI音乐作品仍显生硬,而人类艺术家的特权和创造力也正在丧失。通过「碳基+硅基」的组合,MiniMax让我看到了硅碳合一的未来。
从2023年的Talkie让我看到多模态融合陪伴,到海螺AI的一念成真、视觉重塑,以及MiniMax Agent对效率生产方式的重新组织,再到今天的Music 1.5,正在书写音乐新历史。
原本的设想里, AI 音乐有机会真正走进 B 端与 C 端的双重舞台:
B 端:广告、游戏、影视配乐,AI 音乐能显著降低成本。C 端:个人用户、短视频创作者、乐队玩家,随手生成高质量的原创曲,不再受限于版权与门槛。
现在想来,碳基和硅基边界的重新厘定、人和AI的融合创作与消费,都将彻底颠覆现有的一切。十年后回看,今天的作曲家、音乐制作人,也许和千百年前的乐师没有本质区别,而迥乎不同的,是AI音乐。
最后分享一个小彩蛋:把DeepSeek疯狂思考输出的名场面写成一首歌。
AI时代,你的歌,你说了算……