
5月1日消息,今天AI领域的最大事件,无疑是DeepSeek删论文的消息。
昨天,DeepSeek多模态团队负责人陈小康宣布灰度基于多模态模型技术的“识图模式”,以及在GitHub平台上传了一篇长达25页的多模态研究论文:
《Thinking with Visual Primitives》(用视觉基元思考)。
然而,到了今晨,陈小康的推文删了,这篇多模态研究论文也撤了、GitHub库也404了。

在未删除之前,我把这篇论文下载并且读完了。
我静下心把整篇内容捋完之后,反倒有了不一样的感受。
你以为,这是简单DeepSeek的识图模式论文,但其实,这篇论文映射出DeepSeek揭露了行业的发展趋势:
多模态AI模型的下一阶段竞争重点,可能从单纯的“看得更清”转向“思考时能精确指向”。通过将坐标嵌入思维链,多模态模型模仿了人类“边指边想”的协同机制,为解决复杂空间结构化推理提供了一条新颖路径——最终其实也要走向世界模型。
值得一提的是,就在8小时前,DeepSeek正式公布了Agent接入指南,亲手教大家接入OpenClaw、Hermes等方式,深入到Agent技术层面。

所以,在我看来,DeepSeek连夜删论文,删除的原因不是“论文有问题”,实际可能是灰度下重新修正“识图模式”的能力,以及这篇论文可能太超前,透露太多了。很多数据需要重新进行查验和修正,并且有望重新上传到arxiv上。
越往后深入了解,越能体会到这次DeepSeek V4以及多模态新模型的含金量,也真切感觉到AI行业的技术迭代。
实际上,梁文锋一直都在悄悄提速,AI技术的真正核心突破往往都藏在这种技术论文里。
DeepSeek新论文到底讲了什么?
先做总结。
这篇DeepSeek已撤回的多模态研究论文《Thinking with Visual Primitives》,核心在于探讨自然语言模型到视觉等多模态模型的瓶颈和变化,从而揭示DeepSeek多模态领域的新研究方向:
从单纯的“看得更清”,转向“推理思考时能精确指向”。
而通过将坐标嵌入思维链,DeepSeek的多模态模型模仿了人类“边指边想”的协同机制,这将解决世界模型、3D空间的结构化推理等方向。提供了一条新颖而有效的路径。
下面再基于这篇已删新技术报告,具体看看DeepSeek、北京大学、清华大学又创造了怎样的奇迹。
首先,大型语言模型(LLMs)与计算机视觉的融合,开启了多模态大型语言模型时代,使其具备了复杂的场景理解能力。然而,当我们推动这些模型进行复杂的推理,当前范式的一个根本性局限便显现出来。
尽管这些模型的内部推理(通常以思维链的形式呈现)在语言领域已变得越来越稳健,但它与视觉领域在很大程度上仍然是割裂的。而当前多模态模型主要解决的是感知差距。
然而,“看见”不等于“推理”。
即使拥有完美的感知能力,多模态大模型在处理涉及复杂空间布局或密集物体交互的任务时,仍常常遭遇逻辑崩溃。在密集计数或多步骤空间推理等场景中,模型的“语言”思维会失去对其试图指代的视觉实体的追踪,从而导致连锁幻觉。
因此,DeepSeek联合北京大学和清华大学,提出一种范式转变:基于视觉基元进行思考。
团队超越将视觉定位视为次要任务或最终输出的传统做法,将空间标记——点和边界框——提升为“思维的最小单元”,直接交错嵌入模型的推理轨迹中。
这一机制从人类的认知过程中汲取灵感。当人类在复杂迷宫中导航或清点密集物体时,会自然地运用指示性指针(例如手势)来降低认知负荷并保持逻辑一致性。
这项工作以DeepSeek刚发布的V4-Flash为语言主干。该模型混合专家模型(MoE)拥有284B 总参数、推理时激活 13B 参数,视觉编码部分则使用DeepSeek自研的视觉Transformer ViT,支持任意分辨率输入。
通过将视觉基元交错融入思考过程,这个模型模仿了这种“指向‑推理”的协同作用,有效地将抽象的语言思维锚定到具体的空间坐标上。此外,该模型框架建立在架构高效的基础之上,专为高吞吐、长上下文的多模态交互而设计。与依赖海量视觉标记序列来弥补视觉缺陷的传统方法不同,我们的模型利用压缩稀疏注意力技术,它将每个视觉标记的键值缓存压缩为单一条目。
总结这个研究报告的三个创新点:
第一大核心创新,是重构视觉推理逻辑,把坐标与边界框做成可实时参与思考的思维单元。
传统模型先推理、后补坐标,属于事后标注;但该模型全程在思维链中同步框选、打点定位,用空间锚点锁定逻辑路径,避免推理跑偏,同时配套点、框两类标准视觉原语,适配各类复杂视觉场景定位需求。
第二项硬核创新为超高倍率视觉轻量化压缩,通过图像分块编码、多层空间降采样与压缩稀疏注意力联动优化,整体达成7056倍视觉信息压缩。大幅削减KV缓存占用,显存开销远低于同类旗舰模型,做到看得准、开销低,高效平衡视觉表征精度与推理落地算力成本。
第三项关键创新,是全流程的高校数据定制化搭建,搭配专属进阶训练体系。团队严控数据源筛选双重审核标准,首先爬取了近 10 万个与目标检测相关的数据集,经过两轮严格筛选(语义审核和几何质量审核),最终保留约 3.17 万个高质量数据源,生成超过 4000 万条训练样本。
在针对性设计的计数、多跳空间问答、迷宫导航、曲线路径追踪四个任务中,该模型专门补齐拓扑空间推理短板。而且,团队采用先分训专家模型、再统一强化微调的分体融合训练策略,搭配多维精细化奖励机制与在线策略蒸馏优化,稳步提升模型视觉理解稳定性,强化复杂场景下的综合推理适配能力。

测试成果层面,DeepSeek团队在11个基准测试上进行了评测,与谷歌Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、谷歌Gemma4-31B、阿里Qwen3-VL-235B等主流模型对比,DeepSeek新的视觉模型,与其他海外模型差距悬殊,并且超越了阿里Qwen3-VL-235B。




在空间推理的多个基准上,整体表现与头部模型持平或略有超越,在 MIHBench(85.3%)和 SpatialMQA(69.4%)上均排名第一。
在拓扑推理的迷宫导航(DS_Maze_Navigation)任务上,该模型得分66.9%,而GPT-5.4为50.6%、Gemini-3-Flash为49.4%、Claude Sonnet 4.6 为 48.9%,新模型提升了约17个百分点。

猜测五一假期之后,DeepSeek可能还会上很多新功能。
梁文锋想的AGI到底是什么:物理世界AI
最近,世界模型和物理AI是模型层新的发展趋势。
我也是总结了最近几天发布的模型,发现大家10天发布了10款AI基础模型,其中80%来自中国企业。
20日:Kimi K2.6发布;Qwen3.6 27B系列模型测试结果陆续出来。
21日:蚂蚁Ling 2.6 Flash模型发布;Qwen3.6 35B A3B推理和非推理模型开始在各大算力平台测试;
23日:OpenAl GPT-5.5模型公布,小米Xiaomi MiMo-V2.5系列大模型正式开启公测;腾讯混元Hy3-preview 推理模型发布;
24日:DeepSeek V4 Pro和DeepSeek V4 Flash系列模型发布;
28日:IBM Granite 4.1模型基准测试公布;小米Mimo-V2.5 Pro正式发布。
30日:Ling 2.6 -1T基础模型正式开源;DeepSeek上线识图模式开启灰测。
目前来看,无论是Kimi K2.6,还是DeepSeek V4系列,显示出今年基础模型层最大的三个方向:Agent智能体、Coding编程能力、多模态和世界模型技术。
一个例子就是Kimi。
近期,月之暗面Kimi发布并开源的Kimi K2.6模型,在通用Agent、代码、视觉理解等综合能力全面提升,在多个基准测试优于或持平GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等闭源模型。
而Kimi K2.6长程编码能力得到显著提升,在测试中可不间断编码13小时,编写或修改超过4000行代码。同时大幅增强了Agent自主化执行能力,由 K2.6 模型驱动的Agent集群架构,支持300个子Agent并行完成4000个协作步骤,实现更大规模的并行化。
针对高负载工作流与OpenClaw、Hermes Agent等主动式Agent框架,K2.6具备自动化任务处理能力,支持长达5天的持续自主运行。
简单来说,现在很多模型,增加了Agent和世界物理AI的功能和适配。
但DeepSeek这套视觉多模态模型其实还比较落后,原因在于DeepSeek之前没往多模态层面考量,更多还是在语言模型层面实现AGI。
值得一提的是,论文也提出了一些局限性:
1、受限于图片输入分辨率,模型在超高精细视觉场景中表现不佳,容易出现坐标、点位等视觉思维单元标注不准的问题,后续可结合感知缺口优化算法联动优化补足短板。
2、核心视觉思维推理能力依赖专属触发词才能启用,无法自主读懂场景需求、主动调用坐标框选推理机制,智能自适应适配性有待提升。
3、用单点坐标处理高难度复杂拓扑推理难题时能力偏弱,跨场景泛化稳定性不足,同类能力很难灵活适配多样化复杂空间任务,也是后续技术迭代重点攻坚方向。
这或许是DeepSeek提前撤下论文的原因之一。
2500年前,古希腊哲学家普罗泰戈拉提出:“人是万物的尺度。”
这句话的真正含义是,世界本身没有固有价值,所有意义与判断,都由人的感知与思考来定义。
而DeepSeek这篇论文想要揭示的核心趋势,正是 AI 视觉能力的一次本质跃迁:从只会 “看清画面”,升级为思考时精准定位、理解空间、判断价值。
未来十年,AI一定会深度重塑工作方式、改变产业格局、重构生活节奏。
但无论技术如何进化,人类独有的情感、经验创造力与同理心,永远无法被算法替代。
人的价值,来自真实的生活阅历;人与人之间的情感连接,才是我们愿意彼此关心、持续前行的根本理由。
因此,无论 AI 如何飞速发展,有一件事永远不会改变:
我们依然需要珍惜身边真实的关系,保有真实的内心感受,理性适应技术变化,不断去探索人类最本质的力量 ——创造价值、感知意义、彼此相连。
五一节快乐。
2345浏览器
火狐浏览器
谷歌浏览器