Anonymous Intelligence Signal

Cursor技术报告滑跪认领Kimi基模,开源微调路径引发套壳争议

human The Lab unverified 2026-03-27 00:39:38 Source: 36氪最新 (RSSHub)

Cursor在引发“套壳”Kimi的舆论风波后,迅速发布Composer 2技术报告,试图以技术细节证明其并非简单套用,而是进行了“有技术地套、循序渐进地套”。报告开篇即高调承认并赞扬了其选用的基础模型——月之暗面的Kimi K2.5,称其在评估的多款开源模型中“综合能力最棒”,并考虑了执行效率等附加因素。这一“滑跪”式的署名与示好,甚至被指与Kimi官方达成了某种和解,但并未完全平息外界的质疑。

报告的核心在于详细阐述了基于Kimi K2.5的两步独立训练流程。第一步是持续预训练,旨在提升模型在编码领域的基础能力。该阶段将大部分计算资源投入32k token序列训练,随后扩展至256k长上下文,最后通过小样本指令调优进行任务适配。为提升推理速度,还引入了多token预测层,结合投机解码和自蒸馏策略。数据显示,模型在自研代码库上的损失值呈对数线性下降,且代码库困惑度与下游强化学习性能正相关。

第二步是异步强化学习,其训练环境高度模拟真实的Cursor对话场景,覆盖各类软件工程核心任务。框架基于大规模策略梯度实现,采用单指令多样本的策略梯度算法以保证稳定性,并优化了GRPO算法以避免长度偏差,同时引入KL散度进行正则化。研究发现,最终模型的平均性能和最佳性能同步提升,表明强化学习不仅重新加权了推理路径,还扩展了正确解的覆盖范围。然而,这份详尽的技术说明,能否彻底洗脱“套壳”标签,仍取决于业界对其“自研”成分的最终评判。