产品中心
电话:400-123-4657
传真:+86-123-4567
邮箱:admin@youweb.com
地址:广东省广州市天河区号
DeepSeek连夜删新论文,梁文锋到底怕什么|深度_推理_模型_视觉
添加时间:2026-05-02 12:20:05 点击量:273
“内容为王”这句话在哪个时代都不会过时。随着消费升级,日益庞大的中国高端群体对高品质的生活方式与旅行体验的需求为高端出境旅游市场带来巨大市场机遇。现今的旅游产品也更向个性化、定制化、品质化靠拢,对内容创新提出更高的要求。内地的旅游内容市场仍有5-10倍的增长空间。最近36氪接触了一家做移动端旅游社区电商的团队——河马旅居指南。
河马旅居定位中等收入人群18-34岁的年轻群体,想通过碎片化的PGC或UGC内容培养用户粘性,由内容社区模式切入出境游市场。传统的旅游内容多是以长图文的游记形式呈现,河马旅居并不刻意强调旅游路线或整个游历过程的感受,在内容呈现上更加碎片化、个性化、移动化以及品质化,以小众或特色地点作为维度输出内容,建立内容社区,类似于旅游界的“小红书”或“什么值得买”。
河马旅居在部分海外旅游城市有一个4到5人的自媒体小团队定期生产PGC内容,每月更新一次内容,以优质的内容导流。目前河马的获客成本低至2-3元/人。
优质的内容利于培养高粘性度的用户,当累计到一定数量的优质内容生产者,达到一定的用户规模时,将由PGC内容带动UGC内容的自发产出,进而开始搭建旅游内容社区,最后完成向旅游社区电商的转型,形成交易闭环。
目前河马旅居的流量较为分散,微信公众号累计粉丝3万,MONO 5万,豆瓣 1万,C端获客主要来自微博、豆瓣,上周刚上线微信小程序。后期需考虑转化用户集中流量,现阶段团队正尝试跟移动WiFi租赁和签证业务团队资源置换,互相增加入口。
商业模式上,河马旅居打算分两步走,第一阶段,先帮助用户解决去哪里玩的问题。河马打算与当地的旅游局或航空公司合作,帮助他们做中国市场的整体营销,宣传当地旅游资源。第二阶段,解决用户怎么玩的问题。平台可通过用户的行为数据分析社区调性从而推荐相应的特色化旅游产品,例如在京都的寺院坐禅、学习茶道、参观日本酒的蒸馏厂等等。
此外,河马旅居也在尝试开拓知识付费的营收渠道。从体验、艺术、咖啡、酒吧、餐厅、酒店等六个维度切入,做成各旅游城市的PDF版官方性质PGC攻略。3月份售出800多本,每本单价15元。
河马旅居创始人余晓盼表示,河马旅居的核心竞争力还是个性化的内容表达。“传统旅游社区把内容做的太死气沉沉了。人美、景美但流水账似的内容很无趣。好的内容本身就是门槛。原创的有趣的才有生命力。”
内容+电商并不是一个新概念,如今传统OTA、头部电商平台以及媒体型电商都在加码内容,但要持续产出有价值的内容并非易事,需要足够规模的内容生产团队长时间的内容积累,而具有极强传播力的爆款内容更是可遇而不可求,营造内容社区所花费的精力也许正是其门槛所在。
河马旅居目前的管理团队为4人,内容产出团队20人。创始人余晓盼任河马主编兼运营,曾任职于私募、资管、律师事务所,为《美食侦探系列》旅行畅销书作者。团队目前正在寻求天使轮融资。
5月1日消息,今天AI领域的最大***,无疑是DeepSeek删论文的消息。
昨天,DeepSeek多模态团队负责人陈小康宣布灰度基于多模态模型技术的“识图模式”,以及在GitHub平台上传了一篇长达25页的多模态研究论文:
《Thinking with Visual Primitives》(用视觉基元思考)。
然而,到了今晨,陈小康的推文删了,这篇多模态研究论文也撤了、GitHub库也404了。
在未删除之前,我把这篇论文下载并且读完了。
我静下心把整篇内容捋完之后,反倒有了不一样的感受。
你以为,这是简单DeepSeek的识图模式论文,但其实,这篇论文映射出DeepSeek揭露了行业的发展趋势:
多模态AI模型的下一阶段竞争重点,可能从单纯的“看得更清”转向“思考时能精确指向”。通过将坐标嵌入思维链,多模态模型模仿了人类“边指边想”的协同机制,为解决复杂空间结构化推理提供了一条新颖路径——最终其实也要走向世界模型。
值得一提的是,就在8小时前,DeepSeek正式公布了Agent接入指南,亲手教大家接入OpenClaw、Hermes等方式,深入到Agent技术层面。
所以,在我看来,DeepSeek连夜删论文,删除的原因不是“论文有问题”,实际可能是灰度下重新修正“识图模式”的能力,以及这篇论文可能太超前,透露太多了。很多数据需要重新进行查验和修正,并且有望重新上传到arxiv上。
越往后深入了解,越能体会到这次DeepSeek V4以及多模态新模型的含金量,也真切感觉到AI行业的技术迭代。
实际上,梁文锋一直都在悄悄提速,AI技术的真正核心突破往往都藏在这种技术论文里。
DeepSeek新论文到底讲了什么?
先做总结。
这篇DeepSeek已撤回的多模态研究论文《Thinking with Visual Primitives》,核心在于探讨自然语言模型到视觉等多模态模型的瓶颈和变化,从而揭示DeepSeek多模态领域的新研究方向:
从单纯的“看得更清”,转向“推理思考时能精确指向”。
而通过将坐标嵌入思维链,DeepSeek的多模态模型模仿了人类“边指边想”的协同机制,这将解决世界模型、3D空间的结构化推理等方向。提供了一条新颖而有效的路径。
下面再基于这篇已删新技术报告,具体看看DeepSeek、北京大学、清华大学又创造了怎样的奇迹。
首先,大型语言模型(LLMs)与计算机视觉的融合,开启了多模态大型语言模型时代,使其具备了复杂的场景理解能力。然而,当我们推动这些模型进行复杂的推理,当前范式的一个根本性局限便显现出来。
尽管这些模型的内部推理(通常以思维链的形式呈现)在语言领域已变得越来越稳健,但它与视觉领域在很大程度上仍然是割裂的。而当前多模态模型主要解决的是感知差距。
然而,“看见”不等于“推理”。
即使拥有完美的感知能力,多模态大模型在处理涉及复杂空间布局或密集物体交互的任务时,仍常常遭遇逻辑崩溃。在密集计数或多步骤空间推理等场景中,模型的“语言”思维会失去对其试图指代的视觉实体的追踪,从而导致连锁幻觉。
因此,DeepSeek联合北京大学和清华大学,提出一种范式转变:基于视觉基元进行思考。
团队超越将视觉定位视为次要任务或最终输出的传统做法,将空间标记——点和边界框——提升为“思维的最小单元”,直接交错嵌入模型的推理轨迹中。
这一机制从人类的认知过程中汲取灵感。当人类在复杂迷宫中导航或清点密集物体时,会自然地运用指示性指针(例如手势)来降低认知负荷并保持逻辑一致性。
这项工作以DeepSeek刚发布的V4-Flash为语言主干。该模型混合专家模型(MoE)拥有284B 总参数、推理时激活 13B 参数,视觉编码部分则使用DeepSeek自研的视觉Transformer ViT,支持任意分辨率输入。
通过将视觉基元交错融入思考过程,这个模型模仿了这种“指向‑推理”的协同作用,有效地将抽象的语言思维锚定到具体的空间坐标上。此外,该模型框架建立在架构高效的基础之上,专为高吞吐、长上下文的多模态交互而设计。与依赖海量视觉标记序列来弥补视觉缺陷的传统方法不同,我们的模型利用压缩稀疏注意力技术,它将每个视觉标记的键值缓存压缩为单一条目。
总结这个研究报告的三个创新点:
第一大核心创新,是重构视觉推理逻辑,把坐标与边界框做成可实时参与思考的思维单元。
传统模型先推理、后补坐标,属于事后标注;但该模型全程在思维链中同步框选、打点定位,用空间锚点锁定逻辑路径,避免推理跑偏,同时配套点、框两类标准视觉原语,适配各类复杂视觉场景定位需求。
第二项硬核创新为超高倍率视觉轻量化压缩,通过图像分块编码、多层空间降***样与压缩稀疏注意力联动优化,整体达成7056倍视觉信息压缩。大幅削减KV缓存占用,显存开销远低于同类旗舰模型,做到看得准、开销低,高效平衡视觉表征精度与推理落地算力成本。
第三项关键创新,是全流程的高校数据定制化搭建,搭配专属进阶训练体系。团队严控数据源筛选双重审核标准,首先爬取了近 10 万个与目标检测相关的数据集,经过两轮严格筛选(语义审核和几何质量审核),最终保留约 3.17 万个高质量数据源,生成超过 4000 万条训练样本。
在针对性设计的计数、多跳空间问答、迷宫导航、曲线路径追踪四个任务中,该模型专门补齐拓扑空间推理短板。而且,团队***用先分训专家模型、再统一强化微调的分体融合训练策略,搭配多维精细化奖励机制与在线策略蒸馏优化,稳步提升模型视觉理解稳定性,强化复杂场景下的综合推理适配能力。
测试成果层面,DeepSeek团队在11个基准测试上进行了评测,与谷歌Gemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、谷歌Gemma4-31B、阿里Qwen3-VL-235B等主流模型对比,DeepSeek新的视觉模型,与其他海外模型差距悬殊,并且超越了阿里Qwen3-VL-235B。
在空间推理的多个基准上,整体表现与头部模型持平或略有超越,在 MIHBench(85.3%)和 SpatialMQA(69.4%)上均排名第一。
在拓扑推理的迷宫导航(DS_Maze_N***igation)任务上,该模型得分66.9%,而GPT-5.4为50.6%、Gemini-3-Flash为49.4%、Claude Sonnet 4.6 为 48.9%,新模型提升了约17个百分点。
猜测五一***期之后,DeepSeek可能还会上很多新功能。
梁文锋想的AGI到底是什么:物理世界AI
最近,世界模型和物理AI是模型层新的发展趋势。
我也是总结了最近几天发布的模型,发现大家10天发布了10款AI基础模型,其中80%来自中国企业。
20日:Kimi K2.6发布;Qwen3.6 27B系列模型测试结果陆续出来。
21日:蚂蚁Ling 2.6 Flash模型发布;Qwen3.6 35B A3B推理和非推理模型开始在各大算力平台测试;
23日:OpenAl GPT-5.5模型公布,小米Xiaomi MiMo-V2.5系列大模型正式开启公测;腾讯混元Hy3-preview 推理模型发布;
24日:DeepSeek V4 Pro和DeepSeek V4 Flash系列模型发布;
28日:IBM Granite 4.1模型基准测试公布;小米Mimo-V2.5 Pro正式发布。
30日:Ling 2.6 -1T基础模型正式开源;DeepSeek上线识图模式开启灰测。
目前来看,无论是Kimi K2.6,还是DeepSeek V4系列,显示出今年基础模型层最大的三个方向:Agent智能体、Coding编程能力、多模态和世界模型技术。
一个例子就是Kimi。
近期,月之暗面Kimi发布并开源的Kimi K2.6模型,在通用Agent、代码、视觉理解等综合能力全面提升,在多个基准测试优于或持平GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等闭源模型。
而Kimi K2.6长程编码能力得到显著提升,在测试中可不间断编码13小时,编写或修改超过4000行代码。同时大幅增强了Agent自主化执行能力,由 K2.6 模型驱动的Agent集群架构,支持300个子Agent并行完成4000个协作步骤,实现更大规模的并行化。
针对高负载工作流与OpenClaw、Hermes Agent等主动式Agent框架,K2.6具备自动化任务处理能力,支持长达5天的持续自主运行。
简单来说,现在很多模型,增加了Agent和世界物理AI的功能和适配。
但DeepSeek这套视觉多模态模型其实还比较落后,原因在于DeepSeek之前没往多模态层面考量,更多还是在语言模型层面实现AGI。
值得一提的是,论文也提出了一些局限性:
1、受限于图片输入分辨率,模型在超高精细视觉场景中表现不佳,容易出现坐标、点位等视觉思维单元标注不准的问题,后续可结合感知缺口优化算法联动优化补足短板。
2、核心视觉思维推理能力依赖专属触发词才能启用,无法自主读懂场景需求、主动调用坐标框选推理机制,智能自适应适配性有待提升。
3、用单点坐标处理高难度复杂拓扑推理难题时能力偏弱,跨场景泛化稳定性不足,同类能力很难灵活适配多样化复杂空间任务,也是后续技术迭代重点攻坚方向。
这或许是DeepSeek提前撤下论文的原因之一。
2500年前,古希腊哲学家普罗泰戈拉提出:“人是万物的尺度。”
这句话的真正含义是,世界本身没有固有价值,所有意义与判断,都由人的感知与思考来定义。
而DeepSeek这篇论文想要揭示的核心趋势,正是 AI 视觉能力的一次本质跃迁:从只会 “看清画面”,升级为思考时精准定位、理解空间、判断价值。
未来十年,AI一定会深度重塑工作方式、改变产业格局、重构生活节奏。
但无论技术如何进化,人类独有的情感、经验创造力与同理心,永远无法被算法替代。
人的价值,来自真实的生活阅历;人与人之间的情感连接,才是我们愿意彼此关心、持续前行的根本理由。
因此,无论 AI 如何飞速发展,有一件事永远不会改变:
我们依然需要珍惜身边真实的关系,保有真实的内心感受,理性适应技术变化,不断去探索人类最本质的力量 ——创造价值、感知意义、彼此相连。
五一节快乐。返回搜狐,查看更多
下一篇:如何看待广西举全区之力支持柳州化解债务?为什么最近地方债又重回公众视野?
返回
