DeepSeek连夜删新论文，梁文锋到底怕什么｜深度 -资讯-头条热闻资讯_新闻热点_新闻频道_新闻天下_财经_购物_体育_汽车_健康_音乐_旅游_庞物_动漫_笑话_美食

5月1日消息，今天AI领域的最大事件，无疑是DeepSeek删论文的消息。

昨天，DeepSeek多模态团队负责人陈小康宣布灰度基于多模态模型技术的“识图模式”，以及在GitHub平台上传了一篇长达25页的多模态研究论文：

《Thinking with Visual Primitives》（用视觉基元思考）。

然而，到了今晨，陈小康的推文删了，这篇多模态研究论文也撤了、GitHub库也404了。

在未删除之前，我把这篇论文下载并且读完了。

我静下心把整篇内容捋完之后，反倒有了不一样的感受。

你以为，这是简单DeepSeek的识图模式论文，但其实，这篇论文映射出DeepSeek揭露了行业的发展趋势：

多模态AI模型的下一阶段竞争重点，可能从单纯的“看得更清”转向“思考时能精确指向”。通过将坐标嵌入思维链，多模态模型模仿了人类“边指边想”的协同机制，为解决复杂空间结构化推理提供了一条新颖路径——最终其实也要走向世界模型。

值得一提的是，就在8小时前，DeepSeek正式公布了Agent接入指南，亲手教大家接入OpenClaw、Hermes等方式，深入到Agent技术层面。

所以，在我看来，DeepSeek连夜删论文，删除的原因不是“论文有问题”，实际可能是灰度下重新修正“识图模式”的能力，以及这篇论文可能太超前，透露太多了。很多数据需要重新进行查验和修正，并且有望重新上传到arxiv上。

越往后深入了解，越能体会到这次DeepSeek V4以及多模态新模型的含金量，也真切感觉到AI行业的技术迭代。

实际上，梁文锋一直都在悄悄提速，AI技术的真正核心突破往往都藏在这种技术论文里。

DeepSeek新论文到底讲了什么？

先做总结。

这篇DeepSeek已撤回的多模态研究论文《Thinking with Visual Primitives》，核心在于探讨自然语言模型到视觉等多模态模型的瓶颈和变化，从而揭示DeepSeek多模态领域的新研究方向：

从单纯的“看得更清”，转向“推理思考时能精确指向”。

而通过将坐标嵌入思维链，DeepSeek的多模态模型模仿了人类“边指边想”的协同机制，这将解决世界模型、3D空间的结构化推理等方向。提供了一条新颖而有效的路径。

下面再基于这篇已删新技术报告，具体看看DeepSeek、北京大学、清华大学又创造了怎样的奇迹。

首先，大型语言模型（LLMs）与计算机视觉的融合，开启了多模态大型语言模型时代，使其具备了复杂的场景理解能力。然而，当我们推动这些模型进行复杂的推理，当前范式的一个根本性局限便显现出来。

尽管这些模型的内部推理（通常以思维链的形式呈现）在语言领域已变得越来越稳健，但它与视觉领域在很大程度上仍然是割裂的。而当前多模态模型主要解决的是感知差距。

然而，“看见”不等于“推理”。

即使拥有完美的感知能力，多模态大模型在处理涉及复杂空间布局或密集物体交互的任务时，仍常常遭遇逻辑崩溃。在密集计数或多步骤空间推理等场景中，模型的“语言”思维会失去对其试图指代的视觉实体的追踪，从而导致连锁幻觉。

因此，DeepSeek联合北京大学和清华大学，提出一种范式转变：基于视觉基元进行思考。

团队超越将视觉定位视为次要任务或最终输出的传统做法，将空间标记——点和边界框——提升为“思维的最小单元”，直接交错嵌入模型的推理轨迹中。

这一机制从人类的认知过程中汲取灵感。当人类在复杂迷宫中导航或清点密集物体时，会自然地运用指示性指针（例如手势）来降低认知负荷并保持逻辑一致性。

这项工作以DeepSeek刚发布的V4-Flash为语言主干。该模型混合专家模型（MoE）拥有284B 总参数、推理时激活 13B 参数，视觉编码部分则使用DeepSeek自研的视觉Transformer ViT，支持任意分辨率输入。

通过将视觉基元交错融入思考过程，这个模型模仿了这种“指向‑推理”的协同作用，有效地将抽象的语言思维锚定到具体的空间坐标上。此外，该模型框架建立在架构高效的基础之上，专为高吞吐、长上下文的多模态交互而设计。与依赖海量视觉标记序列来弥补视觉缺陷的传统方法不同，我们的模型利用压缩稀疏注意力技术，它将每个视觉标记的键值缓存压缩为单一条目。

总结这个研究报告的三个创新点：

第一大核心创新，是重构视觉推理逻辑，把坐标与边界框做成可实时参与思考的思维单元。

传统模型先推理、后补坐标，属于事后标注；但该模型全程在思维链中同步框选、打点定位，用空间锚点锁定逻辑路径，避免推理跑偏，同时配套点、框两类标准视觉原语，适配各类复杂视觉场景定位需求。

第二项硬核创新为超高倍率视觉轻量化压缩，通过图像分块编码、多层空间降采样与压缩稀疏注意力联动优化，整体达成7056倍视觉信息压缩。大幅削减KV缓存占用，显存开销远低于同类旗舰模型，做到看得准、开销低，高效平衡视觉表征精度与推理落地算力成本。

第三项关键创新，是全流程的高校数据定制化搭建，搭配专属进阶训练体系。团队严控数据源筛选双重审核标准，首先爬取了近 10 万个与目标检测相关的数据集，经过两轮严格筛选（语义审核和几何质量审核），最终保留约 3.17 万个高质量数据源，生成超过 4000 万条训练样本。

在针对性设计的计数、多跳空间问答、迷宫导航、曲线路径追踪四个任务中，该模型专门补齐拓扑空间推理短板。而且，团队采用先分训专家模型、再统一强化微调的分体融合训练策略，搭配多维精细化奖励机制与在线策略蒸馏优化，稳步提升模型视觉理解稳定性，强化复杂场景下的综合推理适配能力。

测试成果层面，DeepSeek团队在11个基准测试上进行了评测，与谷歌Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、谷歌Gemma4-31B、阿里Qwen3-VL-235B等主流模型对比，DeepSeek新的视觉模型，与其他海外模型差距悬殊，并且超越了阿里Qwen3-VL-235B。

在空间推理的多个基准上，整体表现与头部模型持平或略有超越，在 MIHBench（85.3%）和 SpatialMQA（69.4%）上均排名第一。

在拓扑推理的迷宫导航（DS_Maze_Navigation）任务上，该模型得分66.9%，而GPT-5.4为50.6%、Gemini-3-Flash为49.4%、Claude Sonnet 4.6 为 48.9%，新模型提升了约17个百分点。

猜测五一假期之后，DeepSeek可能还会上很多新功能。

梁文锋想的AGI到底是什么：物理世界AI

最近，世界模型和物理AI是模型层新的发展趋势。

我也是总结了最近几天发布的模型，发现大家10天发布了10款AI基础模型，其中80%来自中国企业。

20日：Kimi K2.6发布；Qwen3.6 27B系列模型测试结果陆续出来。

21日：蚂蚁Ling 2.6 Flash模型发布；Qwen3.6 35B A3B推理和非推理模型开始在各大算力平台测试；

23日：OpenAl GPT-5.5模型公布，小米Xiaomi MiMo-V2.5系列大模型正式开启公测；腾讯混元Hy3-preview 推理模型发布；

24日：DeepSeek V4 Pro和DeepSeek V4 Flash系列模型发布；

28日：IBM Granite 4.1模型基准测试公布；小米Mimo-V2.5 Pro正式发布。

30日：Ling 2.6 -1T基础模型正式开源；DeepSeek上线识图模式开启灰测。

目前来看，无论是Kimi K2.6，还是DeepSeek V4系列，显示出今年基础模型层最大的三个方向：Agent智能体、Coding编程能力、多模态和世界模型技术。

一个例子就是Kimi。

近期，月之暗面Kimi发布并开源的Kimi K2.6模型，在通用Agent、代码、视觉理解等综合能力全面提升，在多个基准测试优于或持平GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等闭源模型。

而Kimi K2.6长程编码能力得到显著提升，在测试中可不间断编码13小时，编写或修改超过4000行代码。同时大幅增强了Agent自主化执行能力，由 K2.6 模型驱动的Agent集群架构，支持300个子Agent并行完成4000个协作步骤，实现更大规模的并行化。

针对高负载工作流与OpenClaw、Hermes Agent等主动式Agent框架，K2.6具备自动化任务处理能力，支持长达5天的持续自主运行。

简单来说，现在很多模型，增加了Agent和世界物理AI的功能和适配。

但DeepSeek这套视觉多模态模型其实还比较落后，原因在于DeepSeek之前没往多模态层面考量，更多还是在语言模型层面实现AGI。

值得一提的是，论文也提出了一些局限性：

1、受限于图片输入分辨率，模型在超高精细视觉场景中表现不佳，容易出现坐标、点位等视觉思维单元标注不准的问题，后续可结合感知缺口优化算法联动优化补足短板。

2、核心视觉思维推理能力依赖专属触发词才能启用，无法自主读懂场景需求、主动调用坐标框选推理机制，智能自适应适配性有待提升。

3、用单点坐标处理高难度复杂拓扑推理难题时能力偏弱，跨场景泛化稳定性不足，同类能力很难灵活适配多样化复杂空间任务，也是后续技术迭代重点攻坚方向。

这或许是DeepSeek提前撤下论文的原因之一。

2500年前，古希腊哲学家普罗泰戈拉提出：“人是万物的尺度。”

这句话的真正含义是，世界本身没有固有价值，所有意义与判断，都由人的感知与思考来定义。

而DeepSeek这篇论文想要揭示的核心趋势，正是 AI 视觉能力的一次本质跃迁：从只会 “看清画面”，升级为思考时精准定位、理解空间、判断价值。

未来十年，AI一定会深度重塑工作方式、改变产业格局、重构生活节奏。

但无论技术如何进化，人类独有的情感、经验创造力与同理心，永远无法被算法替代。

人的价值，来自真实的生活阅历；人与人之间的情感连接，才是我们愿意彼此关心、持续前行的根本理由。

因此，无论 AI 如何飞速发展，有一件事永远不会改变：

我们依然需要珍惜身边真实的关系，保有真实的内心感受，理性适应技术变化，不断去探索人类最本质的力量 ——创造价值、感知意义、彼此相连。

五一节快乐。

请使用下方推荐的浏览器访问

DeepSeek连夜删新论文，梁文锋到底怕什么｜深度

上一篇：“总统是最危险职业”，盘点10部“刺杀总统”的经典电影

下一篇：视频丨海外掀起中式生活热广交会中国元素商品订单大增

请使用下方推荐的浏览器访问

DeepSeek连夜删新论文，梁文锋到底怕什么｜深度

上一篇：“总统是最危险职业”，盘点10部“刺杀总统”的经典电影

下一篇：视频丨海外掀起中式生活热 广交会中国元素商品订单大增

下一篇：视频丨海外掀起中式生活热广交会中国元素商品订单大增