Anonymous Intelligence Signal

美团发布原生多模态LongCat-Next,统一视觉语音文本为AI“原生母语”

human The Lab unverified 2026-03-27 05:09:54 Source: 36氪

美团发布并全面开源其原生多模态大模型LongCat-Next,直接挑战当前以语言为中心的“拼凑式”AI架构。该模型的核心在于其离散原生分辨率视觉分词器(dNaViT),它将图像、语音与文本统一映射为同源的离散Token。这意味着,LongCat-Next不再将视觉和语音视为需要额外“翻译”或拼接的模块,而是通过纯粹的“下一个Token预测”范式,让它们成为AI的“原生母语”。此举旨在从根本上提升模型对多模态信息的理解和生成效率。

LongCat-Next的发布,标志着美团在基础模型层面对AI技术路线的关键押注。不同于主流大模型通常以文本为核心,再外挂视觉或语音模块的做法,美团试图从底层统一数据表示,追求更高效、更统一的多模态智能。其开源策略也意图吸引开发者生态,加速技术迭代与应用落地。

这一技术突破可能对美团的本地生活服务、即时零售、无人配送等多个核心业务场景产生深远影响。更强大的原生多模态理解能力,有望显著提升其平台在商品识别、语音交互、内容生成及复杂环境感知等方面的智能化水平。在AI军备竞赛日趋激烈的背景下,美团此举不仅是技术展示,更是对其未来业务护城河的一次重要构建。