代码泄密！DeepSeek下一代“王炸”模型架构曝光_推理_内存_文件

添加时间：2026-01-21 16:10:02 点击量：273

“内容为王”这句话在哪个时代都不会过时。随着消费升级，日益庞大的中国高端群体对高品质的生活方式与旅行体验的需求为高端出境旅游市场带来巨大市场机遇。现今的旅游产品也更向个性化、定制化、品质化靠拢，对内容创新提出更高的要求。内地的旅游内容市场仍有5-10倍的增长空间。最近36氪接触了一家做移动端旅游社区电商的团队——河马旅居指南。

河马旅居定位中等收入人群18-34岁的年轻群体，想通过碎片化的PGC或UGC内容培养用户粘性，由内容社区模式切入出境游市场。传统的旅游内容多是以长图文的游记形式呈现，河马旅居并不刻意强调旅游路线或整个游历过程的感受，在内容呈现上更加碎片化、个性化、移动化以及品质化，以小众或特色地点作为维度输出内容，建立内容社区，类似于旅游界的“小红书”或“什么值得买”。

河马旅居在部分海外旅游城市有一个4到5人的自媒体小团队定期生产PGC内容，每月更新一次内容，以优质的内容导流。目前河马的获客成本低至2-3元/人。

优质的内容利于培养高粘性度的用户，当累计到一定数量的优质内容生产者，达到一定的用户规模时，将由PGC内容带动UGC内容的自发产出，进而开始搭建旅游内容社区，最后完成向旅游社区电商的转型，形成交易闭环。

目前河马旅居的流量较为分散，微信公众号累计粉丝3万，MONO 5万，豆瓣 1万，C端获客主要来自微博、豆瓣，上周刚上线微信小程序。后期需考虑转化用户集中流量，现阶段团队正尝试跟移动WiFi租赁和签证业务团队资源置换，互相增加入口。

商业模式上，河马旅居打算分两步走，第一阶段，先帮助用户解决去哪里玩的问题。河马打算与当地的旅游局或航空公司合作，帮助他们做中国市场的整体营销，宣传当地旅游资源。第二阶段，解决用户怎么玩的问题。平台可通过用户的行为数据分析社区调性从而推荐相应的特色化旅游产品，例如在京都的寺院坐禅、学习茶道、参观日本酒的蒸馏厂等等。

此外，河马旅居也在尝试开拓知识付费的营收渠道。从体验、艺术、咖啡、酒吧、餐厅、酒店等六个维度切入，做成各旅游城市的PDF版官方性质PGC攻略。3月份售出800多本，每本单价15元。

河马旅居创始人余晓盼表示，河马旅居的核心竞争力还是个性化的内容表达。“传统旅游社区把内容做的太死气沉沉了。人美、景美但流水账似的内容很无趣。好的内容本身就是门槛。原创的有趣的才有生命力。”

内容+电商并不是一个新概念，如今传统OTA、头部电商平台以及媒体型电商都在加码内容，但要持续产出有价值的内容并非易事，需要足够规模的内容生产团队长时间的内容积累，而具有极强传播力的爆款内容更是可遇而不可求，营造内容社区所花费的精力也许正是其门槛所在。

河马旅居目前的管理团队为4人，内容产出团队20人。创始人余晓盼任河马主编兼运营，曾任职于私募、资管、律师事务所，为《美食侦探系列》旅行畅销书作者。团队目前正在寻求天使轮融资。

智东西

作者 | 江宇

编辑 | 冰倩

智东西1月21日报道，DeepSeek-R1发布一周年之际，来自DeepSeek的神秘新模型“MODEL1”悄然现身GitHub代码库。

多位社区开发者推测，MODEL1很可能正是DeepSeek内测中的V3终极版本（V4模型），也有人猜测它可能代表一个完全独立于V系列的新模型。

▲海外开发者在X平台讨论MODEL1身份

近日，DeepSeek向其核心推理内核FlashMLA推送了一系列更新，而在这些提交中，一个此前从未公开亮相的模型命名引发了社区的高度关注——MODEL1。

展开全文

▲DeepSeek代码库出现MODEL1相关（图源：X）

这一名称不仅出现在SM90架构相关的.cu内核实例化文件中，还贯穿在多个针对FP8稀疏解码路径的模板定义与内存布局注释里。

更关键的是，据海外开发者推测，MODEL1的背后将是一整套新的推理机制、算子结构与底层内存配置，会与DeepSeek现有V3.2模型呈现出完全不同的技术路径。

在相关代码文件中可以看到，MODEL1被用于核心解码函数的多个实例中，显式适配了头维度为64和128的场景，并专门部署在SM90和SM100架构上。

▲DeepSeek FlashMLA源码截图（图源：GItHub）

代码中多处调用了“ModelType::MODEL1”，与其对应的还有一套独立的持久化内核。这些文件与V32版本的持久化内核文件并行存在，这显示出DeepSeek或许已为该模型设计了与V3系列完全不同的编译路径与执行逻辑。

▲DeepSeek FlashMLA源码文件树（图源：GItHub）

更值得注意的是，在代码中，有一条特别注释写道：对于F3架构（即SM90平台）下的MODEL1模型，其KV缓存的内存stride必须是576B的整数倍。

▲海外网友推文截图（目前该条注释已于代码库内删除）

这一配置区别于V3.2的656B，暗示着MODEL1对底层内存对齐和调度有更为严格的要求，可能与其更复杂的运行时行为与动态缓存机制有关。

一位海外网友也对这部分代码进行了深入解读，他认为，MODEL1在整体结构上展现出更强的实验性特征，支持动态Top-K稀疏推理逻辑，还引入了额外的KV缓存区。

▲海外开发者的分析（图源：X）

前者通过引入一个可变的topk_length指针，允许模型在推理时根据token或请求动态决定参与计算的key数量，提升了计算***的精细调度能力；后者则通过extra_kv缓冲区，提供了将系统提示与用户上下文分离存储的可能，为Agent架构或多段上下文场景提供支持。

据社区开发者分析，MODEL1在同步逻辑与边界控制上可能比V3.2更加复杂。其中RoPE与NoPE维度在双GEMM运算中耦合更紧，可能意味着其在位置编码与张量路径调度上做出了显著调整。

分析还提到，MODEL1引入了运行时边界检查机制，旨在规避动态Top-K推理中潜在的非法内存访问。

此外，尽管官方注释中标明MODEL1的stride应为576B，但据社区开发者基于代码结构估算，其实际内存分配逻辑可能接近584B。这种细微差异被认为反映出该分支仍处于调试或快速迭代阶段。

在更早的1月9日，外媒援引知情人士称，DeepSeek将于2月中旬，也就是春节前后发布其下一代模型，主打编程能力，并在内部测试中已经在多个基准上超越了Claude与GPT系列。

结合目前模型文件结构已覆盖64和128两个头维度、FP8稀疏解码路径已完成适配、内存规范已强制定义等迹象来看，MODEL1很可能已接近训练完成或推理部署阶段，正等待最终的权重冻结和测试验证。

在海外社交平台上，不少用户对MODEL1的曝光反应热烈。一位用户调侃道：“我已经能听见‘新模型将带来99.***%成本下降’了。”

而另一位开发者则认为，如果DeepSeek再次开放权重，势必将对闭源巨头形成压力，推动前沿模型进一步走向开放。

恰逢DeepSeek R1发布一周年，Hugging Face官方博客也发布了特别文章《One Year Since the “DeepSeek Moment”》，系统回顾了过去一年中国开源社区的集体爆发，明确提及DeepSeek的开源策略已从一次***演化为生态策略。

▲Hugging Face官方博客：One Year Since the “DeepSeek Moment”

文章称，R1模型的开源不仅降低了推理技术、生产部署与心理三个门槛，更推动了国内公司在开源方向上形成非协同但高度一致的战略走向。返回搜狐，查看更多

上一篇: 你在出租房屋发现过什么前租客留下的“宝藏”？

下一篇:如何评价微软的远程桌面？