一级毛片久久久久久久女人18,红桃成人无码免费网站,国产农村妇女一级A片免黑人,免费看无码一级A片放24小时,一本色道久久HEZYO无码

Minimax发布推理模型M1,这是它必须补上的一课|界面新闻 · 科技,Minimax推理模型M1发布,填补关键一课,界面科技报道

Minimax发布推理模型M1,这是它必须补上的一课|界面新闻 · 科技,Minimax推理模型M1发布,填补关键一课,界面科技报道

susihan 2025-06-19 2025热门 16 次浏览 0个评论
Minimax发布推理模型M1,填补了其产品线的关键一环。该模型标志着公司在人工智能领域的又一重要进展,为用户提供更高效、精准的推理服务。

<blockquote class="author" data-type="1">

Minimax发布推理模型M1,这是它必须补上的一课|界面新闻 · 科技,Minimax推理模型M1发布,填补关键一课,界面科技报道

<p><span>界面新闻记者 | </span><span class="author_name">伍洋宇</span></p>

<p><span>界面新闻编辑 | </span><span class="edit_name">文姝琪</span></p>

</blockquote>

<p><span>Minimax也开启了技术发布周,在前两天,该公司在模型和产品方面推出了重大更新,其中包括一款参数规模高达456B的推理模型M1,以及其核心产品——海螺AI。</span></p>

<p><span>M1是Minimax迟来的首款推理模型,不可避免地要和DeepSeek-R1进行比较,其两个显著亮点,一是强大的长文本处理能力,二是成本效益。</span></p>

<p><span>Minimax-M1支持高达100万token的上下文输入,是DeepSeek R1的8倍,在闭源模型中与谷歌Gemini 2.5 Pro相当,同时支持最长8万token的推理输出。</span></p>

<p><span>在实际应用中,如果用户提供一份100万token的阅读材料并提出需求,M1可以正常执行,但对于不支持如此长输入长度的模型,可能只能显示阅读了一部分内容并执行需求。</span></p>

<p><span>Minimax在其技术报告中指出,M1之所以能够实现长文本处理能力的突破,主要得益于Lightning Attention(闪电注意力)混合架构。</span></p>

<p class="report-view"><img src="//img3.jiemian.com/101/original/vcg/20240314/1710382902260.png"></p>

Minimax发布推理模型M1,这是它必须补上的一课|界面新闻 · 科技,Minimax推理模型M1发布,填补关键一课,界面科技报道

<p><span>传统的Transformer架构在处理长文本时,其注意力机制下的计算量增长呈平方级,文本序列越长,计算量越剧增,这对性能和成本都是挑战。</span></p>

<p><span>Lightning Attention的做法是将全连接注意力拆分为两部分:一部分是针对局部上下文整合、采用传统注意力机制的“块内”attention,另一部分是针对全局摘要、采用线性注意力的“块间”attention,这一方案可以减少大量累积性的计算量,并提高处理速度。</span></p>

<p><span>在成本方面,其报告提到,在进行8万token的深度推理时,M1所需的算力为DeepSeek R1的约30%;生成10万token时,推理算力约为DeepSeek R1的25%,团队表示,M1模型的整个强化学习阶段仅使用了512块英伟达H800 GPU,耗时三周,成本为53.5万美元。</span></p>

<p><span>在这一点上,Minimax提出了CISPO(Clipped IS-weight Policy Optimization)算法,这是一种高效、稳定的强化学习策略,相比于PPO策略实行token级别的裁剪更新,它通过裁剪重要性采样权重提升强化学习效率,类似“序列级别”裁剪。</span></p>

<p><span>这使其更快实现收敛,并达成更少的训练时间和资源消耗,其报告中的实验数据显示,在AIME(AI-powered Moral Evaluator)等测试中,CISPO的收敛性均快于DAPO算法和GRPO算法。</span></p>

<p><span>M1的定价根据文本大小分为三个价格区间:0-32k Token,输入0.8元/百万Token,输出8元/百万Token;32k-128k Token,输入1.2元/百万Token,输出16元/百万Token;128k-1M Token,输入2.4元/百万Token,输出24元/百万Token。</span></p>

Minimax发布推理模型M1,这是它必须补上的一课|界面新闻 · 科技,Minimax推理模型M1发布,填补关键一课,界面科技报道

<p><span>这是一个相对较低的定价,但也意味着,随着文本输入与输出的增长,用户的token消耗费用也可能面临陡升。</span></p>

<p><span>至于产品,海螺AI加入了全新的Hailuo 02模型,视频可原生1080P,Minimax此次强调了它处理极端物理场景的能力,比如杂技,官方放出的演示视频也是一段杂技表演。</span></p>

<p><span>在AI视频竞技场的排行榜(Artificial Analysis Video Arena Leaderboard)中,Hailuo 02(0616)目前位居第二,仅次于字节旗下视频生成模型Seedance 1.0,超过了谷歌Veo 3 preview以及快手Kling 2.0。</span></p>

<p><span>在此之前,Minimax在众多大模型创业公司中以多模态能力著称,在DeepSeek-R1掀起巨浪近半年之后(期间Kimi、智谱、阶跃都有在这方面所更新和发布),它为何还要完善推理模型的能力版图?</span></p>

<p><span>一名AI大模型投资人对界面新闻记者表示,从时间线上来看,Minimax没有在OpenAI o1模型掀起范式变革后,在国内整体而言相对早的时间点发布一款推理模型,大概率是核心团队起初在决策判断上没有给到这个训练方向足够的重视?!?#36825;是团队必须补的一课?!?lt;/span></p>

<p><span>另有一名接触过Minimax的投资人认为,Minimax现在向市场发布推理模型的重要意义,一是说明在技术上不掉队,二是用“唯一一个支持超长文本”的推理模型建立用户心智?!?#36825;对资本市场还是有影响的。”这名投资人表示。</span></p>

<p><span>除此以外,他认为此次M1发布即开源,如果模型的效果和口碑能够保持住,也可以让Minimax借机将以前相对短板的开发者社区运营起来,国内更受开发者认可的仍然是通义千问和DeepSeek。</span></p>

<p><span>在成本和长文本之外,回到基准测试等基本问题上,MiniMax-M1也有不俗表现,它在AIME 2024、LiveCodeBench、SWE-bench Verified上,略逊色于DeepSeek-R1-0528,不过在TAU-bench上有所赶超。</span></p>

<p><span>在体现长文本处理能力的MRCR(4-needle)上,它的确为开发者留下了深刻印象,大幅超越了一众开闭源模型。</span></p>

<figure class="content-img-focus img-focus">

<img alt="" src="https://img2.jiemian.com/101/original/20250618/175021998829065600_a700xH.jpeg">

<figcaption>图片:Minimax</figcaption>

</figure>

<p><span>不过它究竟能够对开源社区产生多大影响还有待观察,在Github上,M1发布8小时后获得440星,截至目前得到了620星。</span></p>

转载请注明来自山东轻强建材有限公司,本文标题:《Minimax发布推理模型M1,这是它必须补上的一课|界面新闻 · 科技,Minimax推理模型M1发布,填补关键一课,界面科技报道》

百度分享代码,如果开启HTTPS请参考李洋个人博客
每一天,每一秒,你所做的决定都会改变你的人生!

发表评论

快捷回复:

评论列表 (暂无评论,16人围观)参与讨论

还没有评论,来说两句吧...

Top