电影里的AI离我们多远

AI百科3个月前发布 快创云
43 0

随着deepseek席卷网络,人们又一次把关注焦点放在了大语言模型上

现有的大语言模型和大众观看电影里的AI可以说是差距很大了,电影里的AI可以一直思考并有践行能力,而当前被大众所知的ai只是做到基于模式匹配的回答式AI

那么现如今爆火的大语言模型和真正的电影中的AGI这种可以改变人类的ai到底差了什么呢?到底还差哪些关键技术呢?

一、当前AI的局限性

1. 被动性缺陷

– 输入驱动:现有AI仅在收到明确输入后生成响应,缺乏自主发起目标或持续追踪意图的能力。

– 短时记忆:对话状态依赖有限上下文窗口(如GPT-4的32K tokens),无法形成连贯的自我叙事。

2. 认知浅层化

– 统计关联主导:依赖海量数据的相关性学习,缺乏因果推理与抽象符操作能力(如无法理解“重力”的物理本质)。

– 元认知缺失:无法监控自身决策过程(如“我为什么这样回答?”),导致错误难以自修正。

3. 物理脱耦

– 虚拟封闭性:当前AI局限于数字世界,无法通过传感器/执行器与物理环境实时交互(具身智能的缺失)。

二:如何实现和电影一样的AI?到底差了哪些技术?

归总了下,大致概括为:

全局工作空间理论(GWT)工程化

神经符混合系统

世界模型与因果引擎

动态目标生成系统

目标递归优化

具身感知-行动闭环

实时运动规划

元学习与自我进化

能源与硬件革命

这么看,以上任何的技术貌似都会间接的改变世界,我罗列了正在做这些事的团队们,希望在未来的AI革命中能验证我本文的观点

三:有哪些团队正在做这些事?

全局工作空间理论(GWT)工程化:

案例:DeepMind的Gato架构尝试统一视觉、语言、动作决策,但仍局限于狭窄任务。

神经符混合系统:

案例:微软的LOGI系统通过逻辑约束引导神经网络决策,初步实现可解释推理。

世界模型与因果引擎:

案例:DeepMind的Physics-ML项目通过粒子模拟预训练,提升模型物理直觉,英伟达的世界模型Coos模型可以接受文本、图像或视频的提示,生成虚拟世界状态,并针对自动驾驶和机器人应用实现内容的生成

动态目标生成系统:

案例:OpenAI的AI Safety Gridworlds中,AI为追求新奇性自发创造复杂行为。

具身感知-行动闭环:

实现视觉、触觉、听觉、本体感觉的跨模态对齐(如触觉纹理与视觉图像的联合表征)。硬件依赖:高分辨率触觉手套(MIT的DigiTact)、事件相机(Dynamic Vision Sensors)。

实时运动规划:

在物理约束下生成安全动作序列(如波士顿动力机器人的模型预测控制MPC),需亚毫秒级响应速度。

算法突破:基于Transformer的Trajectory Transformer已实现复杂动作生成。

元学习与自我进化:

案例:Google的AutoML-Zero尝试从零进化神经网络架构。

代码级自我修改(使AI能读写自身代码并验证修改安全性):

雏形:OpenAI的Codex已能生成代码,但缺乏自我指向能力。

© 版权声明

相关文章