近日,美团宣布推出一款基于混合专家架构的大型推理模型 ——LongCat-Flash-Thinking。这个新模型的参数量高达5600亿,令人瞩目!但最令人惊喜的是,它能够根据上下文需求动态激活186亿至313亿个参数,平均激活约270亿个参数。这种灵活的设计使得模型在多种任务上表现出色,特别是在逻辑推理、数学运算和编程等领域。
根据美团的官方数据显示,LongCat-Flash-Thinking 在一系列基准测试中与其他主流模型进行了深入比较。在数学推理方面,例如 MATH500和 AIME25的测试中,该模型表现不凡,甚至声称使用原生工具可以减少64.5% 的 token 消耗,依然能够达到顶级准确率。此外,在通用推理(GPQA-Diamond)、代码生成(LiveCodeBench, OJBench)和形式化定理证明(MiniF2F-Test)等领域,它的表现也接近行业领先水平。
LongCat-Flash-Thinking 的模型权重已按照 MIT 许可证开源,开发者们现在可以自由使用和研究这个强大的工具。官方也提供了详细的聊天模板,并已上线专属聊天网站,方便用户进行互动与实践。
LongCat-Flash-Thinking 不仅仅是一款大规模的 AI 模型,更是美团在人工智能研究领域的一次重要尝试。其出色的性能和灵活的架构将为后续的应用开发和研究提供新的可能性。
官网地址:https://longcat.chat/
智能网 https://www.cnaiplus.com
本文网址: