奥特曼公开承认“搞砸了”，AI巨头为何突然“纠偏”？_OpenAI_模型_能力

添加时间：2026-01-28 11:35:12 点击量：273

“内容为王”这句话在哪个时代都不会过时。随着消费升级，日益庞大的中国高端群体对高品质的生活方式与旅行体验的需求为高端出境旅游市场带来巨大市场机遇。现今的旅游产品也更向个性化、定制化、品质化靠拢，对内容创新提出更高的要求。内地的旅游内容市场仍有5-10倍的增长空间。最近36氪接触了一家做移动端旅游社区电商的团队——河马旅居指南。

河马旅居定位中等收入人群18-34岁的年轻群体，想通过碎片化的PGC或UGC内容培养用户粘性，由内容社区模式切入出境游市场。传统的旅游内容多是以长图文的游记形式呈现，河马旅居并不刻意强调旅游路线或整个游历过程的感受，在内容呈现上更加碎片化、个性化、移动化以及品质化，以小众或特色地点作为维度输出内容，建立内容社区，类似于旅游界的“小红书”或“什么值得买”。

河马旅居在部分海外旅游城市有一个4到5人的自媒体小团队定期生产PGC内容，每月更新一次内容，以优质的内容导流。目前河马的获客成本低至2-3元/人。

优质的内容利于培养高粘性度的用户，当累计到一定数量的优质内容生产者，达到一定的用户规模时，将由PGC内容带动UGC内容的自发产出，进而开始搭建旅游内容社区，最后完成向旅游社区电商的转型，形成交易闭环。

目前河马旅居的流量较为分散，微信公众号累计粉丝3万，MONO 5万，豆瓣 1万，C端获客主要来自微博、豆瓣，上周刚上线微信小程序。后期需考虑转化用户集中流量，现阶段团队正尝试跟移动WiFi租赁和签证业务团队资源置换，互相增加入口。

商业模式上，河马旅居打算分两步走，第一阶段，先帮助用户解决去哪里玩的问题。河马打算与当地的旅游局或航空公司合作，帮助他们做中国市场的整体营销，宣传当地旅游资源。第二阶段，解决用户怎么玩的问题。平台可通过用户的行为数据分析社区调性从而推荐相应的特色化旅游产品，例如在京都的寺院坐禅、学习茶道、参观日本酒的蒸馏厂等等。

此外，河马旅居也在尝试开拓知识付费的营收渠道。从体验、艺术、咖啡、酒吧、餐厅、酒店等六个维度切入，做成各旅游城市的PDF版官方性质PGC攻略。3月份售出800多本，每本单价15元。

河马旅居创始人余晓盼表示，河马旅居的核心竞争力还是个性化的内容表达。“传统旅游社区把内容做的太死气沉沉了。人美、景美但流水账似的内容很无趣。好的内容本身就是门槛。原创的有趣的才有生命力。”

内容+电商并不是一个新概念，如今传统OTA、头部电商平台以及媒体型电商都在加码内容，但要持续产出有价值的内容并非易事，需要足够规模的内容生产团队长时间的内容积累，而具有极强传播力的爆款内容更是可遇而不可求，营造内容社区所花费的精力也许正是其门槛所在。

河马旅居目前的管理团队为4人，内容产出团队20人。创始人余晓盼任河马主编兼运营，曾任职于私募、资管、律师事务所，为《美食侦探系列》旅行畅销书作者。团队目前正在寻求天使轮融资。

1月27日，OpenAI首席执行官萨姆·奥特曼在一场公开直播中罕见承认：公司在开发ChatGPT-5时“确实搞砸了”，出现了路线偏差。他坦言，团队过度聚焦于提升模型的智力、推理和编程能力，导致模型在写作等通用能力上“偏科”，某些表现甚至不如前代。奥特曼承诺将重新校准方向，回归打造“真正高质量的通用型模型”的初心。

这一罕见的公开“认错”，迅速在科技界引发震动。

反思背后，是GPT-5发布后积累的用户反馈与内部审视。从GPT-3到GPT-5，行业曾深信“规模决定一切”，GPT-4的巨大成功更强化了这一路径。然而，激烈的市场竞争——尤其是与谷歌、Anthropic等在编程、推理等硬核能力上的竞赛——驱使***向能直观体现“智能”飞跃的领域倾斜。同时，主流学术基准测试侧重于数学、代码等可量化领域，无形中成了研发的“指挥棒”。即便GPT-5引入了“自动切换器”机制以优化算力，其根本目标仍是更高效地服务深度推理任务。

副作用在用户端逐渐显现。2025年GPT-5发布后，大量用户反馈其写作能力“退化”：文章逻辑清晰却用词模式化，缺乏文***与自然感，“AI味”浓重。一些基础性问题，如简单拼写和计数，反而会出错。尽管奥特曼曾将部分问题归咎于技术故障，但持续的批评促使了更深层检讨。

一个在创意写作、细腻表达上不稳的模型，与大众对“像人一样交流”的AI助手的期待产生了落差。这对OpenAI打造普及化超级应用的品牌形象构成了挑战。更深层看，在竞争对手持续发力、全球监管日益关注的背景下，此次“纠偏”也是一次战略校准。通过公开承认“偏科”，OpenAI意在重新夺回对“通用人工智能”定义的话语权，强调其愿景是打造一个能力均衡、能与人类自然协作的智能体。

奥特曼的声明，涟漪将波及多个层面。

对OpenAI自身，这意味着研发重点和产品路线图必须调整。如何在已建立的推理优势上有效“补短板”，提升创造性写作、情感理解等能力，是艰巨的技术挑战。这需要在模型架构、训练数据配比和优化目标上进行系统性重构。平衡“专精”与“通用”，将成为未来几年的核心课题。

对AI行业，OpenAI的反思可能具有风向标意义。它促使同行重新评估单一追求某项能力极限的模式是否可持续，或会减缓特定赛道的“军备竞赛”，激励更多公司探索更宽广的能力边界。如何评估模型在开放性创作、复杂社会情境理解中的综合表现，可能成为新焦点。这也给在“通用性”或“人性化交互”上有特色的竞争对手更多市场叙事空间。

对公众与学界的AGI讨论，此次***提供了鲜活案例。它尖锐地提问：何为真正的AGI？是能在特定测试中拿高分，还是具备可灵活迁移的综合智能？奥特曼在直播中描绘了他心目中的AGI里程碑：当模型第一次面对完全陌生的新环境或工具时，只需解释一次甚至无需解释，就能自己探索并稳定可靠地使用。这一定义超越了在已知数据集上刷分，更强调自主学习和适应未知的泛化能力。

技术层面，在现有千亿甚至万亿参数规模的模型上“补短板”，其复杂度和成本可能不亚于从头训练一个新特长。它要求对训练数据的多样性和质量进行更精细的设计，并可能需要发展新的训练算法，使模型在不损害已有强项的前提下，高效学习新能力。

其次，评估体系亟待变革。现有主流基准测试已不足以衡量模型的“通用性”。行业可能需要发展新型的、更全面的评估标准，例如动态交互测试、开放式创意任务评估等，以更真实地反映模型在接近真实世界场景中的综合表现。中国学者提出的“Tong Test”框架，强调通过动态的物理和社会交互来评估AGI，正是这一方向上的探索。

OpenAI的“纠偏”，像是技术发展“钟摆效应”的体现。在专注与泛化、性能与安全之间，行业轨迹往往不是直线前进，而是在探索极端后回调寻找新的平衡。

来源：布谷财经返回搜狐，查看更多

上一篇: 目前最流行的 rust web 框架是什么？

下一篇:编程对电脑的要求大概需要多高?