MiniMax刘华：DeepSeek出圈让我们对海外拓展更有信心

界面新闻记者 | 李如嘉
界面新闻编辑 | 文姝琪

2025全球开发者先锋大会定于2月21日至23日在上海市徐汇区的多个场地举行。大会以“模塑全球，无限可能”为核心主题，致力于推动AI产业的实际应用和加速其商业化步伐。

大会聚焦于大模型、算力、语料、工具和软件平台等关键技术，涵盖硬件开发、云计算、大数据、物联网、AI、机器人、区块链及元宇宙等多个领域的开发者群体。作为全球最具影响力的开发者盛会之一，全球开发者先锋大会汇聚了顶尖的技术专家、行业领袖和创新企业。

在本次全球开发者先锋大会上，MiniMax会举办技术交流论坛，搭建开放的合作平台，与学界、业界专家以及全球开发者社区代表、AI创作者代表，共同探讨人工智能的前沿技术、应用场景与未来趋势。

2月17日，在大会前夕，MiniMax副总裁刘华接受界面新闻等媒体采访，就大模型行业近期的发展、中美大模型技术差距、大模型研发团队组建以及模型开源等问题表达了自己的观点。

刘华表示，2024年以来，外界始终存在着“大模型是否撞墙”的疑虑。但实际上，作为从业者来看，大模型技术仍保持着每隔几个月就会出现重要突破的迭代频率，大模型编程能力也在不断提高。

未来2-3年，大模型行业将继续发展，除增加训练和推理能力的Scaling Law以外，Transformer架构变化的算法创新、合成数据、强化学习、多模态融合等，都将为模型能力带来几倍量级提升的技术空间。

此外，中美之间的技术差距在不断缩小。中国企业在算法方面展开了很多创新，比如DeepSeek在强化学习等方面开展了算法创新，在视频等局部领域，MiniMax的视频生成模型在全球处于领先地位。但美国的发展速度同样很快，在文本模型领域，Open AI和Google在最近也推出了新的模型。

“现在的大模型行业还在变化中，还没有看到哪一家模型能够在某一个模态上占据绝对的优势。”刘华说，“DeepSeek这次的出圈刷新了海外对于中国大模型的认知，让大家认知到，中美在大模型上的差距其实没有那么大，国产模型做的也是不错的。这对于我们的海外业务非常有帮助，所以今年我们对海外拓展也更有信心了。”

2024年，MiniMax在“线性注意力”机制上取得进展。近日，其发布并开源了新一代01系列人工智能模型，包含基础语言大模型MiniMax-Text-01和视觉多模态大模型MiniMax-VL-01。

该系列模型首次大规模实现线性注意力机制，突破了传统Transformer架构的记忆瓶颈，可以实现高效超长文本输入。根据MiniMax公布的数据，该模型的参数量达4560亿，其中单次激活459亿，同时能够处理400万token的上下文，是GPT-4o的32倍，Claude-3.5-Sonnet的20倍。

刘华表示，大模型研发框架在近年来正在快速迭代，这要求研发人员对技术变革抱有极致热情，而不能习惯于从过去的经验中寻找答案。

他提到，MiniMax的研发团队非常年轻，大部分人都是90后，核心算法团队占比超过公司总人数的三分之一。他认为大量聘用年轻研究员并充分授权，打造科学的研发组织体系，是组建高效大模型研发团队的唯一路径。

01系列人工智能模型也是MiniMax首次对模型进行开源。“1月刚刚实现开源，从表现上来说还是不错的，美国的一些投资人和科技媒体都有关注到我们在技术上的创新。”刘华说。

他认为，开源会推动大模型行业加快发展。首先，高水平模型的持续开源能让大众免费体验到优秀大模型的技术能力，这将推动提高AI的渗透率。其次，开源能够向合作伙伴展现自己的技术实力，也能吸收更多开发者的力量。这些都能帮助创业公司提高传播力度。

全球基础模型赛道都在不断收敛，优质模型的开源也会加速这个过程。刘华提到，如果闭源模型做的还不如开源好，必然是没有人愿意为其付费的。他预测，最终美国可能会留下5家左右的基础模型公司，中国也是类似的数量。

至于开源模型的商业模式问题，刘华认为未来，虽然有人会选择自行在本地部署开源模型，但也会有更多合作方愿意购买模型开发者的稳定API（应用程序编程接口）。

他表示，作为一家中国大模型公司，MiniMax将继续保持开源，期待通过开源让更多开发者参与打造非Transformer架构的底层生态，加快创新。