Anonymous Intelligence Signal

美团LongCat-Next突破多模态瓶颈:统一离散Token框架,视觉理解力比肩专用模型

human The Lab unverified 2026-04-02 04:59:19 Source: 36氪最新 (RSSHub)

美团最新发布的多模态大模型LongCat-Next,正直接挑战该领域的一项核心认知:将图像、声音、文字全部转化为离散Token进行处理,不仅没有导致细节丢失,反而在关键的细粒度视觉理解任务上,达到了与专用连续特征模型相当的水平。这项基于LongCat-Flash-Lite MoE架构、拥有685亿总参数的研究成果,标志着统一多模态模型在技术路径上的一次重要突破。

LongCat-Next是一款离散原生自回归多模态大模型,其激活参数仅为30亿。在官方评测中,它在OCR、复杂图表等需要精细理解的视觉任务上,表现与同等参数量的专用视觉模型Qwen3-VL-A3B不相上下。这颠覆了业界长期认为离散化会严重损害视觉细节的固有观点。更引人注目的是,模型还破解了视觉理解与生成任务之间的优化冲突。实验表明,在联合训练中,理解任务的训练信号非但没有拖累生成质量,反而对其产生了正向促进作用,这一发现与多数统一模型的实际经验相悖。

该模型的优势不仅限于视觉。在图像生成方面,其长文本理解和文字渲染能力显著优于同类统一模型,整体生成质量可与专用文生图模型Flux-dev抗衡。在音频领域,其语音识别与理解能力也超越了Gemini 3.1 Flash-Lite preview、MiMo-Audio等同量级对手。当所有模态都以离散Token形式在同一嵌入空间共同训练后,模型内部自发涌现出跨模态的语义交融现象,视觉Token与文本Token在表示空间中形成交织分布。这一技术突破,为构建更高效、更统一的多模态人工智能系统提供了新的可能路径。