产品中心
电话:400-123-4657
传真:+86-123-4567
邮箱:admin@youweb.com
地址:广东省广州市天河区号
AI 开始打工了:最新“龙虾排行榜”,谁最会干活?_模型_Agent_任务
添加时间:2026-03-12 12:15:02 点击量:273
“内容为王”这句话在哪个时代都不会过时。随着消费升级,日益庞大的中国高端群体对高品质的生活方式与旅行体验的需求为高端出境旅游市场带来巨大市场机遇。现今的旅游产品也更向个性化、定制化、品质化靠拢,对内容创新提出更高的要求。内地的旅游内容市场仍有5-10倍的增长空间。最近36氪接触了一家做移动端旅游社区电商的团队——河马旅居指南。
河马旅居定位中等收入人群18-34岁的年轻群体,想通过碎片化的PGC或UGC内容培养用户粘性,由内容社区模式切入出境游市场。传统的旅游内容多是以长图文的游记形式呈现,河马旅居并不刻意强调旅游路线或整个游历过程的感受,在内容呈现上更加碎片化、个性化、移动化以及品质化,以小众或特色地点作为维度输出内容,建立内容社区,类似于旅游界的“小红书”或“什么值得买”。
河马旅居在部分海外旅游城市有一个4到5人的自媒体小团队定期生产PGC内容,每月更新一次内容,以优质的内容导流。目前河马的获客成本低至2-3元/人。
优质的内容利于培养高粘性度的用户,当累计到一定数量的优质内容生产者,达到一定的用户规模时,将由PGC内容带动UGC内容的自发产出,进而开始搭建旅游内容社区,最后完成向旅游社区电商的转型,形成交易闭环。
目前河马旅居的流量较为分散,微信公众号累计粉丝3万,MONO 5万,豆瓣 1万,C端获客主要来自微博、豆瓣,上周刚上线微信小程序。后期需考虑转化用户集中流量,现阶段团队正尝试跟移动WiFi租赁和签证业务团队资源置换,互相增加入口。
商业模式上,河马旅居打算分两步走,第一阶段,先帮助用户解决去哪里玩的问题。河马打算与当地的旅游局或航空公司合作,帮助他们做中国市场的整体营销,宣传当地旅游资源。第二阶段,解决用户怎么玩的问题。平台可通过用户的行为数据分析社区调性从而推荐相应的特色化旅游产品,例如在京都的寺院坐禅、学习茶道、参观日本酒的蒸馏厂等等。
此外,河马旅居也在尝试开拓知识付费的营收渠道。从体验、艺术、咖啡、酒吧、餐厅、酒店等六个维度切入,做成各旅游城市的PDF版官方性质PGC攻略。3月份售出800多本,每本单价15元。
河马旅居创始人余晓盼表示,河马旅居的核心竞争力还是个性化的内容表达。“传统旅游社区把内容做的太死气沉沉了。人美、景美但流水账似的内容很无趣。好的内容本身就是门槛。原创的有趣的才有生命力。”
内容+电商并不是一个新概念,如今传统OTA、头部电商平台以及媒体型电商都在加码内容,但要持续产出有价值的内容并非易事,需要足够规模的内容生产团队长时间的内容积累,而具有极强传播力的爆款内容更是可遇而不可求,营造内容社区所花费的精力也许正是其门槛所在。
河马旅居目前的管理团队为4人,内容产出团队20人。创始人余晓盼任河马主编兼运营,曾任职于私募、资管、律师事务所,为《美食侦探系列》旅行畅销书作者。团队目前正在寻求天使轮融资。
过去两年,AI 圈讨论最多的一件事,其实很简单:哪个模型更聪明。
谁的推理更强,谁的考试分数更高,谁又刷新了哪个榜单。
但到了 2026 年,大家不太关心谁更聪明了,反而开始问一个更现实的问题:哪个模型更会干活?
随着 OpenClaw 这类 Agent 框架开始爆火,越来越多开发者不再只是和 AI 聊天,而是让大模型真正接管任务。
写代码、查资料、处理邮件、整理文件、调用 API,甚至自己拆解复杂流程,一步一步把事情做完。
在开发者圈子里,这事还有个特别形象的说法:养龙虾。
把模型接进 Agent 框架,就像往水箱里放一只龙虾,让它自己在里面跑任务、调工具、折腾工作流,看它到底能不能把活干明白。
那到底哪款大模型,最适合拿来“养龙虾”?
最近,OpenClaw创始人 Peter Steinberger 发布了一份名为 PinchBench 的基准测试榜单。
一口气实测了 32 个主流大模型,从成功率、速度和成本三个维度做了完整对比。
这也成了目前第一份专门针对 Agent 任务的,“龙虾大模型排行榜”。
而榜单一出来,很多人第一反应都是:这排名,好像有点出乎意料。
从成功率来看,榜单第一名并不是大家常提到的“新模型”,而是 Anthropic 的旗舰模型 Claude Opus 4.6 。
它在 PinchBench 里的任务成功率达到了 82.5%。
紧随其后的,是 Claude Opus 4.5 ,成功率 81.3%。第三名则是谷歌的 Gemini 3.1 Pro Preview ,成功率 81.1%。
前三名基本都处在 80% 以上的成功率区间,差距非常小。
但更有意思的是接下来的排名,第四名是 Claude Sonnet 4 ,成功率 80.5%。
第五名则是国产模型 Kimi K2.5 ,成功率 80.1%。第六名是另一款国产模型 MiniMax M2.1 ,成功率 79.5%。
换句话说,在最核心的成功率指标里,国产模型已经稳稳进入第一梯队。
但有些模型的排名就有点出人意料了。例如 OpenAI 的新模型 GPT-5.4,成功率只有 78%,排在榜单第九。
而不少开发者平时常用的 GPT-4o ,成功率甚至只有 56.3%,排在榜单倒数。
这其实说明了一件很重要的事情:传统的大模型排行榜,并不能很好预测 AI 在 Agent 任务里的表现。
过去很多榜单本质上是“考试模式”,比如知识问答、数学推理、代码题,只要模型给出正确答案就算完成任务。
但在 Agent 系统里,AI 要做的事情完全不同,它不仅要理解指令,还要自己拆解任务、调用工具、读取文件、生成中间结果、执行多步骤操作。
如果中间任何一步出错,整个任务就可能失败。
换句话说,Agent 任务测试的不是模型“会不会答题”,而是它能不能真的像一个数字员工一样把事情一步一步做完。
从 PinchBench 的结果来看,还有一个非常明显的趋势:在 Agent 场景里,模型越大并不一定越好。
很多中型模型反而更稳定,因为它们推理速度更快、思考路径更短,在多步骤工作流中不容易“迷路”。
比如排名靠前的 Claude Sonnet 4 和 MiniMax M2.1 ,其实都不是各家公司体量最大的模型版本,但在真实任务中表现非常稳。
这也意味着大模型正在出现一种新的分工:旗舰模型负责展示极限能力,而中型模型开始承担真正的生产任务。
当然,说到养龙虾,还有一个所有开发者都绕不开的问题“成本”。
因为 Agent 系统远比普通聊天更烧 Token,模型需要反复思考、生成中间步骤、调用工具,一次完整任务的 Token 消耗可能是普通对话的几倍甚至十几倍。
之前在一次 OpenClaw 开发者聚会上,就有人分享过自己的使用账单:每个月光 Token 费用就要 1000 到 2000 美元,还有一位更夸张的玩家每天消耗 10 亿 Token。
所以现在开发者圈里流行一句玩笑话:安装 OpenClaw 很便宜,养龙虾很贵。
不过说到底,PinchBench 这份榜单最大的价值,其实也不只是排个名次。
它等于是第一次比较系统地回答了一个 Agent 时代很现实的问题:当AI真的开始出来打工了,我们到底该给它配哪种“大脑”?
更有意思的是,这背后其实反映出 AI 行业正在发生的一点小变化。以前大家评价 AI,很像在看考试成绩,谁分数高、谁榜单第一、谁又刷新纪录。
但现在慢慢不一样了,大家开始看的是另一件事:它到底能不能把活干完。
换句话说,AI 不再只是一个会聊天、会写几段文字的工具,而是越来越像一个可以被安排任务的数字员工。
所以现在开发者见面寒暄,很多时候都不是在问“你用哪个模型”,而是换成了一句更接地气的话:
你现在养了几只龙虾? 🦞
参考资料:
OpenClaw、X、新智元等等
编辑:不吃麦芽糖
返回搜狐,查看更多
下一篇:敏感时刻,美国「末日飞机」出现异常动向,出现在华盛顿附近,什么是「末日飞机」?这代表着什么?
返回
