电影里的AI离我们多远

AI百科3个月前发布快创云

43 0

随着deepseek席卷网络，人们又一次把关注焦点放在了大语言模型上

现有的大语言模型和大众观看电影里的AI可以说是差距很大了，电影里的AI可以一直思考并有践行能力，而当前被大众所知的ai只是做到基于模式匹配的回答式AI

那么现如今爆火的大语言模型和真正的电影中的AGI这种可以改变人类的ai到底差了什么呢？到底还差哪些关键技术呢？

一、当前AI的局限性

1. 被动性缺陷

– 输入驱动：现有AI仅在收到明确输入后生成响应，缺乏自主发起目标或持续追踪意图的能力。

– 短时记忆：对话状态依赖有限上下文窗口（如GPT-4的32K tokens），无法形成连贯的自我叙事。

2. 认知浅层化

– 统计关联主导：依赖海量数据的相关性学习，缺乏因果推理与抽象符操作能力（如无法理解“重力”的物理本质）。

– 元认知缺失：无法监控自身决策过程（如“我为什么这样回答？”），导致错误难以自修正。

3. 物理脱耦

– 虚拟封闭性：当前AI局限于数字世界，无法通过传感器/执行器与物理环境实时交互（具身智能的缺失）。

二：如何实现和电影一样的AI？到底差了哪些技术？

归总了下，大致概括为：

全局工作空间理论（GWT）工程化

神经符混合系统

世界模型与因果引擎

动态目标生成系统

目标递归优化

具身感知-行动闭环

实时运动规划

元学习与自我进化

能源与硬件革命

这么看，以上任何的技术貌似都会间接的改变世界，我罗列了正在做这些事的团队们，希望在未来的AI革命中能验证我本文的观点

三：有哪些团队正在做这些事？

全局工作空间理论（GWT）工程化：

案例：DeepMind的Gato架构尝试统一视觉、语言、动作决策，但仍局限于狭窄任务。

神经符混合系统：

案例：微软的LOGI系统通过逻辑约束引导神经网络决策，初步实现可解释推理。

世界模型与因果引擎：

案例：DeepMind的Physics-ML项目通过粒子模拟预训练，提升模型物理直觉，英伟达的世界模型Coos模型可以接受文本、图像或视频的提示，生成虚拟世界状态，并针对自动驾驶和机器人应用实现内容的生成

动态目标生成系统：

案例：OpenAI的AI Safety Gridworlds中，AI为追求新奇性自发创造复杂行为。

具身感知-行动闭环：

实现视觉、触觉、听觉、本体感觉的跨模态对齐（如触觉纹理与视觉图像的联合表征）。硬件依赖：高分辨率触觉手套（MIT的DigiTact）、事件相机（Dynamic Vision Sensors）。

实时运动规划：

在物理约束下生成安全动作序列（如波士顿动力机器人的模型预测控制MPC），需亚毫秒级响应速度。

算法突破：基于Transformer的Trajectory Transformer已实现复杂动作生成。

元学习与自我进化：

案例：Google的AutoML-Zero尝试从零进化神经网络架构。

代码级自我修改（使AI能读写自身代码并验证修改安全性）：

雏形：OpenAI的Codex已能生成代码，但缺乏自我指向能力。

AI百科 # DeepMind # ps # 预训练

本网站上的所有资源均来源于本网站，所有网址和文章版权均归原作者所有。如有侵权行为，请将相关证明发送至以下电子邮件地址：dxsen@qq.com

咪咪爱app 2.24.15.15

AI百科 # 易用 # 短视频 # 资源

1个月前

网店里的AI模特图：据衣服照片即可生成，律师称有侵权风险

AI百科 # ai技术 # AI模特 # 设计

7个月前

124

给小白的AI绘画Midjourney实战课（傻瓜式教程）

AI百科 # logo设计

3个月前

Gemini AI训练平台

AI百科

2个月前