<blockquote class="author" data-type="1">
<p><span>界面新闻记者 | </span><span class="author_name">伍洋宇</span></p>
<p><span>界面新闻编辑 | </span><span class="edit_name">文姝琪</span></p>
</blockquote>
<p><span>Minimax公司举办了一场技术发布周,在活动的前两天,公司不仅在模型技术上发布了重大更新,还推出了其核心产品——海螺AI,并推出了一款名为M1的推理模型。</span></p>
<p><span>M1是Minimax推出的首款推理模型,与DeepSeek-R1相比,它有两个显著优势:一是强大的长文本处理能力,二是出色的成本效益。</span></p>
<p><span>Minimax-M1支持高达100万token的上下文输入,是DeepSeek R1的8倍,与谷歌Gemini 2.5 Pro在闭源模型中表现一致,同时还能支持最长8万Token的推理输出。</span></p>
<p><span>在实际应用中,如果用户提供一份100万token大小的阅读材料并提出需求,M1可以正常执行,但对于不支持如此长输入长度的模型,可能只能显示阅读了一定比例的内容并执行需求。</span></p>
<p><span>Minimax在其技术报告中指出,M1能够实现长文本处理能力的突破,主要得益于其采用的Lightning Attention(闪电注意力)混合架构。</span></p>
<p class="report-view"><img src="//img3.jiemian.com/101/original/vcg/20240314/1710382902260.png"></p>
<p><span>传统Transformer架构在处理长文本时,其注意力机制下的计算量呈平方级增长,文本序列越长,计算量越巨大,这对性能和成本都是巨大的挑战。</span></p>
<p><span>Lightning Attention的做法是将全连接注意力拆分为两部分:一是针对局部上下文整合的传统注意力机制“块内”attention;二是针对全局摘要的线性注意力“块间”attention,这种方案可以减少大量累积性的计算量,并提高处理速度。</span></p>
<p><span>在成本方面,Minimax的报告提到,在进行8万Token的深度推理时,M1所需的算力仅为DeepSeek R1的约30%;生成10万token时,推理算力约为DeepSeek R1的25%,团队表示,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本为53.5万美元。</span></p>
<p><span>在这一点上,Minimax提出了CISPO(Clipped IS-weight Policy Optimization)算法,这是一种高效、稳定的强化学习策略,与PPO策略相比,它通过裁剪重要性采样权重来提升强化学习效率,类似于“序列级别”裁剪。</span></p>
<p><span>这使得M1能够更快地实现收敛,并减少训练时间和资源消耗,其报告中的实验数据显示,在AIME(AI-powered Moral Evaluator)等测试中,CISPO的收敛性均快于DAPO算法和GRPO算法。</span></p>
<p><span>M1的定价根据文本大小分为三个价格区间:0-32k Token,输入0.8元/百万Token,输出8元/百万Token;32k-128k Token,输入1.2元/百万Token,输出16元/百万Token;128k-1M Token,输入2.4元/百万Token,输出24元/百万Token。</span></p>
<p><span>虽然这是一个相对较低的定价,但也意味着,随着文本输入与输出的增长,用户的token消耗费用也可能面临大幅上涨。</span></p>
<p><span>Minimax还推出了全新的海螺AI产品,加入了Hailuo 02模型,视频可原生1080P,Minimax此次强调了它处理极端物理场景的能力,例如杂技,官方发布的演示视频也是一段精彩的杂技表演。</span></p>
<p><span>在AI视频竞技场的排行榜(Artificial Analysis Video Arena Leaderboard)中,Hailuo 02(0616)目前位居第二,仅次于字节旗下视频生成模型Seedance 1.0,超过了谷歌Veo 3 preview以及快手Kling 2.0。</span></p>
<p><span>在此之前,Minimax在一众大模型创业公司中以多模态能力见长,为什么在DeepSeek-R1掀起巨浪近半年之后,它仍要完善推理模型的能力版图呢?</span></p>
<p><span>一位AI大模型投资人对界面新闻记者表示,从时间线上看,Minimax没有在OpenAI o1模型掀起范式变革后,在国内相对较早的时间点发布一款推理模型,这可能是核心团队在决策判断上没有给予这个训练方向足够的重视?!?#36825;是团队必须补的一课。”</span></p>
<p><span>另一位接触过Minimax的投资人认为,Minimax现在向市场发布推理模型的重要意义,一是说明在技术上不掉队,二是用“唯一一个支持超长文本”的推理模型建立用户心智?!?#36825;对资本市场还是有影响的?!?#36825;名投资人表示。</span></p>
<p><span>他认为此次M1发布即开源,如果模型的效果和口碑能够保持住,也可以让Minimax借机将以前相对短板的开发者社区运营起来,国内更受开发者认可的仍然是通义千问和DeepSeek。</span></p>
<p><span>在成本和长文本之外,MiniMax-M1在基准测试等基本问题上也有不俗表现,它在AIME 2024、LiveCodeBench、SWE-bench Verified上略逊色于DeepSeek-R1-0528,但在TAU-bench上有所赶超。</span></p>
<p><span>在体现长文本处理能力的MRCR(4-needle)上,它确实给开发者留下了深刻印象,大幅超越了一众开闭源模型。</span></p>
<figure class="content-img-focus img-focus">
<img alt="" src="https://img2.jiemian.com/101/original/20250618/175021998829065600_a700xH.jpeg">
<figcaption>图片:Minimax</figcaption>
</figure>
<p><span>不过,它究竟能够对开源社区产生多大影响还有待观察,在Github上,M1发布8小时后获得440星,截至目前得到了620星。</span></p>
还没有评论,来说两句吧...