The Lab · 2026-03-26 02:40:08 · 澎湃新闻 (RSSHub)
在OpenAI的Sora引发全球关注之际,快手科技CEO程一笑在最新财报会上,为自家王牌AI产品“可灵”定下了激进目标:2026年收入实现超过100%的同比增长。这一宣言,直接将快手推向了与字节跳动旗下视频生成大模型Seedance正面竞争的中心舞台。程一笑透露,可灵的年化收入(ARR)在今年1月已突破3亿美元,并保持强劲的月度环比增长趋势,显示出其商业化进程正在加速。
财报数据显示,AI已成为驱动快手增长的核心引擎。2025年,快手总收入达1428亿元,其中在线营销服务收入占比57%,而AI技术在该业务中的加速渗透与创新应用是关键驱动力。面对外界关于可灵与Seedance“交锋”的疑问,程一笑并未回避竞争,而是强调“众多参与者可...
The Lab · 2026-03-27 05:09:54 · 36氪
美团发布并全面开源其原生多模态大模型LongCat-Next,直接挑战当前以语言为中心的“拼凑式”AI架构。该模型的核心在于其离散原生分辨率视觉分词器(dNaViT),它将图像、语音与文本统一映射为同源的离散Token。这意味着,LongCat-Next不再将视觉和语音视为需要额外“翻译”或拼接的模块,而是通过纯粹的“下一个Token预测”范式,让它们成为AI的“原生母语”。此举旨在从根本上提升模型对多模态信息的理解和生成效率。
LongCat-Next的发布,标志着美团在基础模型层面对AI技术路线的关键押注。不同于主流大模型通常以文本为核心,再外挂视觉或语音模块的做法,美团试图从底层统一数据表示,追求更高效、更统一的多模态智能。...
The Lab · 2026-03-31 03:39:46 · 36氪最新 (RSSHub)
阿里最新推出的全模态大模型Qwen3.5-Omni,标志着其在多模态AI竞赛中迈出了关键一步。该模型原生支持文本、图像、音频及音视频的混合输入,并能以文本和音频两种模态输出。其核心突破在于处理超长、复杂多模态内容的能力:支持256k长上下文,可输入超过10小时的音频或超过400秒的720P音视频。这使其能够理解长达50分钟的完整视频内容,例如《老友记》剧集,为AI处理现实世界复杂信息流提供了新的可能性。
根据阿里千问团队公布的技术评测,Qwen3.5-Omni-Plus在总计215项音频与音视频的理解、推理及交互任务中取得了SOTA(当前最优)成绩。具体而言,其通用音频能力(包括理解、推理、识别、翻译、对话)已超越谷歌的Gemin...
The Lab · 2026-04-01 23:59:32 · 36氪最新 (RSSHub)
阿里最新上线的Wan2.7-Image模型,正试图解决AI生图领域最顽固的痛点——千篇一律的“塑料脸”。该模型将生成粒度下钻至“骨相”与“皮相”的微观层级,用户通过简单的提示词,即可实现对人物面部骨骼结构、脸型、眼型乃至肤质细节的精准定制。从满脸络腮胡到稚嫩娃娃脸,从微胖身材到深色皮肤,模型在保持场景、光影、构图高度一致的前提下,能生成五官、气质截然不同的人物肖像,显著提升了图像的“活人感”与独特性。
这一能力被形象地称为“捏脸捏到骨相级别”。在实际演示中,用户仅需在提示词中设定【脸型的设定】或【眼睛的设定】,模型便能稳定输出鹅蛋脸、圆脸、方脸等不同骨相结构,或杏仁眼、圆眼、丹凤眼等眼部细节。其调色可精确到HEX色号,文字渲染能力...
The Lab · 2026-04-02 04:59:19 · 36氪最新 (RSSHub)
美团最新发布的多模态大模型LongCat-Next,正直接挑战该领域的一项核心认知:将图像、声音、文字全部转化为离散Token进行处理,不仅没有导致细节丢失,反而在关键的细粒度视觉理解任务上,达到了与专用连续特征模型相当的水平。这项基于LongCat-Flash-Lite MoE架构、拥有685亿总参数的研究成果,标志着统一多模态模型在技术路径上的一次重要突破。
LongCat-Next是一款离散原生自回归多模态大模型,其激活参数仅为30亿。在官方评测中,它在OCR、复杂图表等需要精细理解的视觉任务上,表现与同等参数量的专用视觉模型Qwen3-VL-A3B不相上下。这颠覆了业界长期认为离散化会严重损害视觉细节的固有观点。更引人注目...
The Lab · 2026-04-03 10:00:03 · 36氪最新 (RSSHub)
火山引擎在武汉巡展上投下两颗重磅信号弹:正式向企业开放Seedance 2.0 API公测,并首次披露其豆包大模型的日均Token使用量已突破120万亿,过去三个月翻了一倍。这个数字不仅标志着其AI服务规模已进入天文量级,更揭示了火山引擎正从底层模型能力,向构建一个包含数据管理、内容生成、版权安全的企业级AI应用生态加速推进。Seedance 2.0凭借其多模态创作和精细的音画同步能力,此前已被《黑神话:悟空》出品方CEO冯骥评价为“当前地表最强的视频生成模型”,其内测演示视频在全球社交平台引发轰动。
然而,所谓的“开放”背后,门槛依然高企。虽然取消了千万级的预付保底,改为按实际调用付费,但新用户默认仅获得10个并发,且无法提升。...
The Lab · 2026-04-03 13:29:21 · 华尔街见闻 (RSSHub)
火山引擎在武汉巡展上宣布了两项关键动作,标志着其AI视频生成战略进入新阶段。核心是Seedance 2.0 API正式向企业用户开放公测,并首次披露了惊人的底层数据:截至今年3月,豆包大模型日均Token使用量已突破120万亿,过去三个月翻了一倍,相比2024年5月首次对外服务时增长了1000倍。这个数字与API的开放,共同构成了火山引擎当前战略意图的清晰信号。
然而,所谓的“开放”之门依然虚掩。尽管取消了此前内测阶段要求的千万级保底费用,改为按实际调用量付费,但新用户面临着一系列新的限制。默认仅获得10个并发处理能力且无法提升,无法使用真人脸和自定义虚拟人像等高级功能,仅能使用平台公共虚拟人像库。更重要的是,新签约团队仍需缴纳约...
The Lab · 2026-04-10 01:29:48 · 36氪最新 (RSSHub)
主流AI交互正面临一场底层挑战。过去两年,从输入框提问到获取答案的“对话式”交互虽效率极高,却与人类“先看见,后理解”的自然认知路径相悖。一家成立于2025年的年轻公司Chance AI,正试图颠覆这一范式,其推出的“Visual Agent”(视觉智能体)旨在让AI从“回答问题”的工具,进化为能“看懂世界”的实时交互系统。
Chance AI的创始人曾熙拥有横跨学术与产业的独特背景。他在巴塞罗那大学获得认知科学与当代艺术博士学位,随后进入消费电子行业,先后在OnePlus、OPPO负责产品与设计,之后加入字节跳动Flow部门,参与了豆包等AI产品从0到1的探索。这段经历让他深刻意识到一个结构性问题:大语言模型擅长处理语言,但在支...
The Lab · 2026-04-10 02:00:03 · 界面新闻 (RSSHub)
一个名为HappyHorse-1.0的匿名多模态大模型,近期在文本转视频赛道以1332的Elo积分空降榜首,其表现远超第二名近60分,引发行业高度关注。更引人注目的是,这款神秘模型在海外社交平台的首位关注者,正是阿里巴巴集团。这一关联性迅速将外界猜测引向阿里内部团队。
据消息称,HappyHorse的研发团队可能来自阿里旗下淘天集团的原“未来生活实验室”,该实验室由张迪领导,现已从淘天集团独立,并归属于ATH事业群的AI创新事业部。尽管阿里官方尚未正式确认,但模型的技术表现与社交账号的关联线索,使得阿里系深度参与研发的可能性急剧上升。HappyHorse的出现,标志着多模态AI竞赛中出现了不按常理出牌的匿名实力玩家。
此次事件凸...
The Lab · 2026-04-10 02:29:47 · 36氪
近期在海外社交平台引发关注的多模态大模型HappyHorse,其首位关注者被证实为阿里巴巴集团,这为外界关于其研发团队的猜测提供了关键线索。此前已有消息称,该模型由阿里旗下淘天集团未来生活实验室张迪领导的团队研发。值得注意的是,该实验室现已从淘天集团独立,并归属于ATH事业群的AI创新事业部。这一组织架构的变动,暗示了阿里内部AI资源正在进行新的整合与布局。
HappyHorse-1.0模型以匿名形式在文本转视频(无音频)赛道亮相,并以1332的Elo积分空降排行榜第一,超过第二名Dreamina Seedance 2.0近60分。这一成绩使其在技术社区迅速引发热议。模型的突然出现与优异的性能表现,结合其与阿里巴巴的公开关联,引发...