AI中国网 https://www.cnaiplus.com
导读:当市场相信中国大模型“六小虎”的叙事已经瓦解,追逐AGI的重任交给DeepSeek之后,MiniMax似乎正在以类似DeepSeek的方式,证明中国不止一家DeepSeek。“六小虎”已经分化,从当初舍我其谁地下场,在中国复制OpenAI,到有的收缩只做应用了,有的还在走模型应用一体化,并且证明可以跻身国内的前沿模型了。昨日,MiniMax开源了长上下文推理大模型MiniMax-M1,今日,又发布了视频 ......当市场相信中国大模型“六小虎”的叙事已经瓦解,追逐AGI的重任交给DeepSeek之后,MiniMax似乎正在以类似DeepSeek的方式,证明中国不止一家DeepSeek。
“六小虎”已经分化,从当初舍我其谁地下场,在中国复制OpenAI,到有的收缩只做应用了,有的还在走模型应用一体化,并且证明可以跻身国内的前沿模型了。
昨日,MiniMax开源了长上下文推理大模型MiniMax-M1,今日,又发布了视频生成模型Hailuo02(海螺02)。虽然稍微迟了点,但是,前者已经整体追平了R1-0528,后者一出场就拿下了图生视频排行榜的第二名,超越了谷歌的Veo3,仅次于字节跳动的Seedance 1.0。
Prompt:慢慢推进到蜡烛的特写镜头,然后蜡烛被吹灭。就像年初DeepSeek那样,MiniMax还预告了自己的“上新”活动,将会持续整整一周。比性能重要的,是它如何实现这一性能。这两天,MiniMax介绍的最多的,就是自己还在创新。
M1引入了闪电注意力机制(Lightning Attention),以更低的算力消耗,带来了更长的推理空间,突破了transformer及其注意力机制越来越吃算力的束缚。它还引入了CISPO算法(直译为剪裁重要性采样权重策略优化),进一步优化强化学习阶段,效率优于DeepSeek早期使用的GRPO与近期字节跳动使用的DAPO。以往传统的剪裁算法,倾向于直接砍掉不常见的token,因为它有可能不大重要,但这也意味着可能失去让AI变得更聪明的机会。艾伦研究所Nathan Lambert认为这是MiniMax的创新。
最终,M1的成本下降、性能提升。作为MOE架构的推理模型,它的总参数规模4560亿,激活参数规模459亿;在512个H800 GPU上训练了3周,成本略高于50万美元。它支持100万tokens输入,全球最长,与Gemini-2.5-Pro齐平,是DeepSeek-R1的八倍;8万tokens输出,仅次于o3,在软件工程、智能体工具使用以及长上下文理解等任务中的表现,超越了其他前沿开源权重模型。不过,在数学和编码竞赛中,仍然没能赢过最新的R1-0528。测评研究机构Artificial Analysis综合评估,它是仅次于刚发布的R1-0528的第二强大的开源推理模型。
MiniMax有如此取舍的现实考量。年初,该公司创始人闫俊杰称,更好的模型可以导向更好的应用,但更好的应用和更多用户并不会导向更好的模型。智能体正在爆发,长上下文理解正是智能体关键技术之一。
在技术报告中,M1的定位是为“下一代的大模型与智能体解决现实世界的挑战奠定坚实的基础”。
五连发的第二日,MiniMax发布视频生成模型Hailuo02,引入了更高效的NCR架构(直译为噪声感知计算重分配),让模型训练和推理效率大大提升。在成本基本不变的情况下,Hailuo02的参数规模与训练数据分别较上一代模型提升了2倍与3倍。现在,同样的投入,它生成的1080p视频的长度将是谷歌Veo3的8倍,是OpenAI的Sora的16倍。
就在本周,同为“六小虎”的月之暗面,发布了编程大模型Kimi-Dev-72B,并向社区开源了其模型权重与源代码。月之暗面自称它在SWE-bench Verified测试中,以更小的参数规模,取得了比R1-0528更好的表现。尽管开源社区实测,它在Agentless(相对结构化工作流)的环境中表现确实出色,但在OpenHands(开放式探索任务评估框架)环境下的能力较弱。
MiniMax与月之暗面已经不止第一次“撞车”。今年年初,在DeepSeek发布R1前后,MiniMax开源了MiniMax-01,性能追平GPT-4o;月之暗面发布了K1.5并公开技术报告,表现不输满血版o1。
在今年之前,这两家AI原生的初创企业,更以自己的面向消费者市场的产品闻名。MiniMax的是星野(Talkie),月之暗面的是Kimi。现在,它们却纷纷对外传递出,自己还在努力探索AGI的形象。而当初一入场就迅速开源旗下大模型的百川智能与零一万物,却已然告别对AGI的追逐,转向了应用场景。
“六小虎”已经不再集体信仰AGI。最初,在ChatGPT问世后,中国坐不住了,百川智能、阶跃星辰、零一万物和月之暗面在2023年组团成立,智谱和MiniMax更早成立。这让“六小虎”的形象与OpenAI和AGI深深绑定在一起,也区别于上一代的“四小龙”它们是商汤、旷视、云从、依图。
但“六小虎”的命运走向,早就已经埋下伏笔。虽然OpenAI验证了Transformer可行,只要快速跟上去,中国肯定也能做出自己的GPT-4。但是,缺钱、缺卡,其实也缺高质量的数据,如果只是简单跟随,这条路很快就走到了死胡同。在美国,GPT-5陷入难产,在中国,百模大战结束。
于是,“六虎”的分化开始了。两位互联网出身的搜索老兵,最先从AGI离场。百川智能刚成立的时候,旨在打造中国版的OpenAI基础大模型及颠覆性上层应用,但在去年就转向了垂直模型。今年连应用场景也收缩了,创始人王小川在两周年全员信中表示要“减少多余动作,专注医学方向”。零一万物刚成立的时候,旨在打造AI2.0全新平台,加速AGI到来,但也在去年放弃了原定的万亿参数模型训练计划。今年初,创始人李开复表示“零一万物全面转向小而美”。
百川智能与零一万物的选择并不令人意外。在美国,除了OpenAI与Anthropic一边频繁落子应用产品,一边继续竞逐AGI,其他初创企业早已转向应用,或者选择被巨头并购;也许,除了从OpenAI出走的几员旧将以外,美国其他初创企业也经不起AGI这么烧钱。为了后来居上,xAI一个月要烧掉10亿美元,马斯克目前在到处融钱。
但初创企业从模型转向应用,往往也是九死一生。上一代的“四小龙”纷纷流血上市,它们的技术最终被证明并非不可逾越的门槛,有实际市场需求与现实世界数据的垂直行业巨头往往能做的更好。
大模型正在商品化,开源模型也正在追平前沿闭源模型,巨头可以单干,更小的市场意味着脏活苦活,它们能摆脱“四小龙”的覆辙吗?而且,没有了自己的底层模型,就意味着将命运交给了他人,Windsurf遭遇Anthropic断供的风险会发生在它们身上吗?
剩下的四家都选择了继续坚持,至少表态将继续坚持。除了前述MiniMax与月之暗面,阶跃星辰开源了一波Step系列多模态模型,并开始在终端智能寻找机遇。该公司创始人姜大昕称,在基座模型上面继续投入以追求智能的上限,仍然是当下最重要的,一条路是强化学习,一条路就是多模态理解生成一体化。智谱继续盯紧OpenAI,并承诺在年内发布包括基座模型、推理模型、多模态模型及Agent在内的全系列开源产品。
这次Minimax五连发的另外一重意思,是一心想做“模都”的上海,终于出了个能打上国际榜单的大模型。
AI中国网 https://www.cnaiplus.com
本文网址: