1. 美团发布原生多模态LongCat-Next,统一视觉语音文本为AI“原生母语”
美团发布并全面开源其原生多模态大模型LongCat-Next,直接挑战当前以语言为中心的“拼凑式”AI架构。该模型的核心在于其离散原生分辨率视觉分词器(dNaViT),它将图像、语音与文本统一映射为同源的离散Token。这意味着,LongCat-Next不再将视觉和语音视为需要额外“翻译”或拼接的模块,而是通过纯粹的“下一个Token预测”范式,让它们成为AI的“原生母语”。此举旨在从根本上提升模型对多模态信息的理解和生成效率。 LongCat-Next的发布,标志着美团在基础模型层面对AI技术路线的关键押注。不同于主流大模型通常以文本为核心,再外挂视觉或语音模块的做法,美团试图从底层统一数据表示,追求更高效、更统一的多模态智能。...