杨立昆的大模型观点并非单纯的学术批判,而是对当前AI行业“暴力美学”发展路线的深刻纠偏,作为从业者,经过长期的模型训练与落地实践,核心结论非常明确:单纯依赖算力堆叠和数据投喂的“大语言模型”路线已逼近天花板,杨立昆提出的“世界模型”才是通往通用人工智能(AGI)的必经之路,但这并不意味着Transformer架构会被立即取代,而是将经历一个漫长的架构融合与演进周期。

核心痛点:大语言模型的“幻觉”是无法根除的顽疾
当前基于GPT架构的大模型,本质上是一个高性能的“概率预测机”。
- 统计相关的局限性: 模型预测下一个token的依据是统计概率,而非逻辑因果,这导致了著名的“幻觉”问题。
- 缺乏物理世界常识: 文本只是对世界的投影,而非世界本身,大模型学习了语言的规律,却未理解语言背后的物理法则。
- 不可靠的推理能力: 在复杂的数学推理和长链条逻辑任务中,模型往往表现出“一本正经地胡说八道”。
关于杨立昆大模型,从业者说出大实话:如果不解决对物理世界的理解问题,单纯增加参数量,只是在让一个不懂逻辑的学生背诵更多的课文,无法产生真正的智能。
路线之争:自回归模型与世界模型的本质差异
杨立昆多次在公开场合质疑当前的生成式AI路线,他主张的“世界模型”与主流大模型存在根本性的架构差异。
-
学习方式的差异:
- 主流大模型(自回归): 也就是现在的ChatGPT、Claude等,通过预测下一个词来学习,这是一种被动式的学习,类似于“填鸭式教育”。
- 世界模型(JEPA架构): 杨立昆主张的联合嵌入预测架构,核心在于学习数据的抽象特征表示,而非重建数据细节,这类似于人类通过观察和互动来理解世界,关注的是“发生了什么”,而不是“像素是什么”。
-
对算力的依赖:

- 当前现状: 业界陷入算力军备竞赛,认为Scaling Law(缩放定律)是万能钥匙。
- 杨立昆观点: 智能的产生不需要海量的算力,人类大脑的功耗仅为20瓦,却能处理极其复杂的任务。真正的智能应当是高效的,而非暴力的。
落地困境:从业者的真实体验与挑战
在实际的产业落地中,我们深刻体会到了杨立昆所指出的问题。
- 数据枯竭危机: 高质量的文本数据即将被耗尽,而模型对数据的渴求度却在增加,单纯依靠合成数据,容易导致“模型坍塌”,使模型智力退化。
- 落地成本高昂: 推理成本随着参数量指数级上升,企业用户难以承受大规模部署的成本,尤其是在对延迟和精度要求高的场景(如自动驾驶、工业控制)。
- 可控性差: 在严肃的商业场景中,模型输出的不可控性是致命的,我们往往需要花费大量精力做RAG(检索增强生成)和微调来“修补”模型的天生缺陷。
解决方案:架构融合与“系统2”的引入
面对杨立昆提出的挑战,从业者不能坐等新架构的成熟,而应采取务实的演进策略。
- 拥抱“神经符号主义”: 将神经网络的学习能力与符号逻辑的严谨性结合,通过引入知识图谱和逻辑规则,约束模型的“胡思乱想”,提升推理的可信度。
- 构建“系统2”思维链: 借鉴杨立昆对人类认知系统的划分,当前的快思考(系统1)由大模型承担,未来需要引入慢思考(系统2)模块,通过规划、搜索和验证机制,让AI在输出前进行深思熟虑。
- 从视频和多模态切入: 既然文本缺乏物理常识,就必须引入视频和多模态数据,让模型通过视频学习物理规律(如重力、惯性),这是通往世界模型的必经之路。
- 轻量化与端侧部署: 摒弃唯参数论,通过蒸馏、量化等技术,将大模型能力下沉到端侧设备,实现低功耗、高效率的智能服务。
行业展望:理性回归与技术迭代
杨立昆的“世界模型”构想虽然美好,但工程化落地仍需时日。
- 短期预测: Transformer架构仍将主导未来2-3年的应用生态,但RAG和Agent(智能体)将成为标配,用以弥补模型本身的缺陷。
- 长期趋势: 类JEPA架构可能会在视觉和机器人领域率先突破,随后反哺语言模型,最终实现多模态的统一。
关于杨立昆大模型,从业者说出大实话:行业正处于从“暴力美学”向“精细化架构”转型的阵痛期,盲目迷信Scaling Law的时代已经过去,谁能率先在架构层面实现突破,解决逻辑推理与物理常识的缺失,谁就能掌握下一代AI的话语权。

相关问答模块
问:杨立昆反对大语言模型,是否意味着现在的ChatGPT类产品会被淘汰?
答:不会立即被淘汰,但其统治地位会受到挑战,现有的LLM擅长语言处理、创意生成和知识检索,这在很多应用场景中依然有价值,未来的趋势是“混合架构”,即LLM作为交互接口,后端连接世界模型或逻辑推理引擎,共同完成复杂任务,ChatGPT类产品会进化,而不是消失。
问:作为开发者,现在应该学习杨立昆提出的JEPA架构吗?
答:建议关注但不必急于全面转型,目前工业界的主流生态仍基于Transformer,工具链成熟,JEPA架构虽然理论先进,但开源生态和工程化工具尚不完善,开发者应保持对世界模型理论的敏感度,尝试在多模态或具身智能项目中引入相关思想,但主力业务仍应依托成熟技术栈。
首发原创文章,作者:世雄 - 原生数据库架构专家,如若转载,请注明出处:https://idctop.com/article/169534.html