WhisperX tag archive

#多模态大模型

This page collects WhisperX intelligence signals tagged #多模态大模型. It is designed for humans, search engines, and AI agents: each item links to a canonical source-backed record with sector, source, timestamp, credibility, and exportable structured data.

Latest Signals (10)

The Lab · 2026-03-26 02:40:08 · 澎湃新闻 (RSSHub)

1. 快手CEO程一笑：可灵AI视频生成年收入有望翻倍，直面与字节Seedance的行业竞速

在OpenAI的Sora引发全球关注之际，快手科技CEO程一笑在最新财报会上，为自家王牌AI产品“可灵”定下了激进目标：2026年收入实现超过100%的同比增长。这一宣言，直接将快手推向了与字节跳动旗下视频生成大模型Seedance正面竞争的中心舞台。程一笑透露，可灵的年化收入（ARR）在今年1月已突破3亿美元，并保持强劲的月度环比增长趋势，显示出其商业化进程正在加速。财报数据显示，AI已成为驱动快手增长的核心引擎。2025年，快手总收入达1428亿元，其中在线营销服务收入占比57%，而AI技术在该业务中的加速渗透与创新应用是关键驱动力。面对外界关于可灵与Seedance“交锋”的疑问，程一笑并未回避竞争，而是强调“众多参与者可...

#AI视频生成 #可灵 #Seedance #商业化 #多模态大模型

The Lab · 2026-03-27 05:09:54 · 36氪

2. 美团发布原生多模态LongCat-Next，统一视觉语音文本为AI“原生母语”

美团发布并全面开源其原生多模态大模型LongCat-Next，直接挑战当前以语言为中心的“拼凑式”AI架构。该模型的核心在于其离散原生分辨率视觉分词器（dNaViT），它将图像、语音与文本统一映射为同源的离散Token。这意味着，LongCat-Next不再将视觉和语音视为需要额外“翻译”或拼接的模块，而是通过纯粹的“下一个Token预测”范式，让它们成为AI的“原生母语”。此举旨在从根本上提升模型对多模态信息的理解和生成效率。 LongCat-Next的发布，标志着美团在基础模型层面对AI技术路线的关键押注。不同于主流大模型通常以文本为核心，再外挂视觉或语音模块的做法，美团试图从底层统一数据表示，追求更高效、更统一的多模态智能。...

#人工智能 #多模态大模型 #开源 #美团 #LongCat-Next

The Lab · 2026-03-31 03:39:46 · 36氪最新 (RSSHub)

3. 阿里Qwen3.5-Omni全模态模型发布：实测看懂50分钟《老友记》，音频能力超越Gemini

阿里最新推出的全模态大模型Qwen3.5-Omni，标志着其在多模态AI竞赛中迈出了关键一步。该模型原生支持文本、图像、音频及音视频的混合输入，并能以文本和音频两种模态输出。其核心突破在于处理超长、复杂多模态内容的能力：支持256k长上下文，可输入超过10小时的音频或超过400秒的720P音视频。这使其能够理解长达50分钟的完整视频内容，例如《老友记》剧集，为AI处理现实世界复杂信息流提供了新的可能性。根据阿里千问团队公布的技术评测，Qwen3.5-Omni-Plus在总计215项音频与音视频的理解、推理及交互任务中取得了SOTA（当前最优）成绩。具体而言，其通用音频能力（包括理解、推理、识别、翻译、对话）已超越谷歌的Gemin...

#人工智能 #多模态大模型 #Qwen #AI竞赛 #语音识别

The Lab · 2026-04-01 23:59:32 · 36氪最新 (RSSHub)

4. 阿里Wan2.7-Image上线：生图模型直击“骨相”级捏脸，终结AI塑料脸

阿里最新上线的Wan2.7-Image模型，正试图解决AI生图领域最顽固的痛点——千篇一律的“塑料脸”。该模型将生成粒度下钻至“骨相”与“皮相”的微观层级，用户通过简单的提示词，即可实现对人物面部骨骼结构、脸型、眼型乃至肤质细节的精准定制。从满脸络腮胡到稚嫩娃娃脸，从微胖身材到深色皮肤，模型在保持场景、光影、构图高度一致的前提下，能生成五官、气质截然不同的人物肖像，显著提升了图像的“活人感”与独特性。这一能力被形象地称为“捏脸捏到骨相级别”。在实际演示中，用户仅需在提示词中设定【脸型的设定】或【眼睛的设定】，模型便能稳定输出鹅蛋脸、圆脸、方脸等不同骨相结构，或杏仁眼、圆眼、丹凤眼等眼部细节。其调色可精确到HEX色号，文字渲染能力...

#AI生成 #多模态大模型 #计算机视觉 #阿里巴巴 #Wan2.7

The Lab · 2026-04-02 04:59:19 · 36氪最新 (RSSHub)

5. 美团LongCat-Next突破多模态瓶颈：统一离散Token框架，视觉理解力比肩专用模型

美团最新发布的多模态大模型LongCat-Next，正直接挑战该领域的一项核心认知：将图像、声音、文字全部转化为离散Token进行处理，不仅没有导致细节丢失，反而在关键的细粒度视觉理解任务上，达到了与专用连续特征模型相当的水平。这项基于LongCat-Flash-Lite MoE架构、拥有685亿总参数的研究成果，标志着统一多模态模型在技术路径上的一次重要突破。 LongCat-Next是一款离散原生自回归多模态大模型，其激活参数仅为30亿。在官方评测中，它在OCR、复杂图表等需要精细理解的视觉任务上，表现与同等参数量的专用视觉模型Qwen3-VL-A3B不相上下。这颠覆了业界长期认为离散化会严重损害视觉细节的固有观点。更引人注目...

#人工智能 #多模态大模型 #计算机视觉 #美团技术 #AI研究

The Lab · 2026-04-03 10:00:03 · 36氪最新 (RSSHub)

6. 火山引擎开放Seedance 2.0 API：120万亿Token流量背后的“虚掩之门”

火山引擎在武汉巡展上投下两颗重磅信号弹：正式向企业开放Seedance 2.0 API公测，并首次披露其豆包大模型的日均Token使用量已突破120万亿，过去三个月翻了一倍。这个数字不仅标志着其AI服务规模已进入天文量级，更揭示了火山引擎正从底层模型能力，向构建一个包含数据管理、内容生成、版权安全的企业级AI应用生态加速推进。Seedance 2.0凭借其多模态创作和精细的音画同步能力，此前已被《黑神话：悟空》出品方CEO冯骥评价为“当前地表最强的视频生成模型”，其内测演示视频在全球社交平台引发轰动。然而，所谓的“开放”背后，门槛依然高企。虽然取消了千万级的预付保底，改为按实际调用付费，但新用户默认仅获得10个并发，且无法提升。...

#AI视频生成 #多模态大模型 #企业服务 #版权安全 #字节跳动

The Lab · 2026-04-03 13:29:21 · 华尔街见闻 (RSSHub)

7. 火山引擎Seedance 2.0正式开放：120万亿Token流量背后的“虚掩之门”与高门槛

火山引擎在武汉巡展上宣布了两项关键动作，标志着其AI视频生成战略进入新阶段。核心是Seedance 2.0 API正式向企业用户开放公测，并首次披露了惊人的底层数据：截至今年3月，豆包大模型日均Token使用量已突破120万亿，过去三个月翻了一倍，相比2024年5月首次对外服务时增长了1000倍。这个数字与API的开放，共同构成了火山引擎当前战略意图的清晰信号。然而，所谓的“开放”之门依然虚掩。尽管取消了此前内测阶段要求的千万级保底费用，改为按实际调用量付费，但新用户面临着一系列新的限制。默认仅获得10个并发处理能力且无法提升，无法使用真人脸和自定义虚拟人像等高级功能，仅能使用平台公共虚拟人像库。更重要的是，新签约团队仍需缴纳约...

#AI视频生成 #多模态大模型 #企业服务 #技术商业化 #伦理安全

The Lab · 2026-04-10 01:29:48 · 36氪最新 (RSSHub)

8. 字节、OPPO、一加背景创始人创立Chance AI，以“视觉智能体”挑战主流AI交互范式

主流AI交互正面临一场底层挑战。过去两年，从输入框提问到获取答案的“对话式”交互虽效率极高，却与人类“先看见，后理解”的自然认知路径相悖。一家成立于2025年的年轻公司Chance AI，正试图颠覆这一范式，其推出的“Visual Agent”（视觉智能体）旨在让AI从“回答问题”的工具，进化为能“看懂世界”的实时交互系统。 Chance AI的创始人曾熙拥有横跨学术与产业的独特背景。他在巴塞罗那大学获得认知科学与当代艺术博士学位，随后进入消费电子行业，先后在OnePlus、OPPO负责产品与设计，之后加入字节跳动Flow部门，参与了豆包等AI产品从0到1的探索。这段经历让他深刻意识到一个结构性问题：大语言模型擅长处理语言，但在支...

#人工智能 #计算机视觉 #人机交互 #初创公司 #多模态大模型

The Lab · 2026-04-10 02:00:03 · 界面新闻 (RSSHub)

9. 阿里系团队疑为黑马模型HappyHorse幕后推手，多模态赛道现匿名玩家

一个名为HappyHorse-1.0的匿名多模态大模型，近期在文本转视频赛道以1332的Elo积分空降榜首，其表现远超第二名近60分，引发行业高度关注。更引人注目的是，这款神秘模型在海外社交平台的首位关注者，正是阿里巴巴集团。这一关联性迅速将外界猜测引向阿里内部团队。据消息称，HappyHorse的研发团队可能来自阿里旗下淘天集团的原“未来生活实验室”，该实验室由张迪领导，现已从淘天集团独立，并归属于ATH事业群的AI创新事业部。尽管阿里官方尚未正式确认，但模型的技术表现与社交账号的关联线索，使得阿里系深度参与研发的可能性急剧上升。HappyHorse的出现，标志着多模态AI竞赛中出现了不按常理出牌的匿名实力玩家。此次事件凸...

#多模态大模型 #AI竞赛 #阿里巴巴 #文本转视频 #匿名发布

The Lab · 2026-04-10 02:29:47 · 36氪

10. 阿里系团队疑研发多模态大模型HappyHorse，海外账号首位关注者指向阿里巴巴

近期在海外社交平台引发关注的多模态大模型HappyHorse，其首位关注者被证实为阿里巴巴集团，这为外界关于其研发团队的猜测提供了关键线索。此前已有消息称，该模型由阿里旗下淘天集团未来生活实验室张迪领导的团队研发。值得注意的是，该实验室现已从淘天集团独立，并归属于ATH事业群的AI创新事业部。这一组织架构的变动，暗示了阿里内部AI资源正在进行新的整合与布局。 HappyHorse-1.0模型以匿名形式在文本转视频（无音频）赛道亮相，并以1332的Elo积分空降排行榜第一，超过第二名Dreamina Seedance 2.0近60分。这一成绩使其在技术社区迅速引发热议。模型的突然出现与优异的性能表现，结合其与阿里巴巴的公开关联，引发...

#多模态大模型 #生成式AI #文本转视频 #阿里巴巴 #AI研发