生成式AI下一个必争赛道:用大模型重构手机,目标智能体

AI百科5个月前更新 快创云
72 0

  如果您的手机能够拥有与您共同的记忆,理解您的习惯,并帮助您安排日程、交友和工作会议,这将是一种怎样的体验?这种设想让人不禁回想起12年前苹果推出Siri的情景,当时手机智能助手的概念首次进入公众视野。然而,尽管众多手机智能助手纷纷涌现,它们并未完全成为得力的个人助理,反而因“鸡肋”应用而饱受用户吐槽。除了刚需场景未明确界定外,“智障”问题也是根本原因之一。

  大模型(LLM)的爆发为智能手机行业带来了新的曙光。大语言模型的重要突破在于其大规模学习了全球几乎所有的知识,展现出惊人的通用问题解决能力。将手机大模型引入,使手机变得更智能,正成为手机行业一致的新尝试。

  更智能的手机助手能够感知用户习惯、自主决策执行,并根据用户反馈进行自我迭代。AI智能体具备类似人的智能能力和行为,如学习、推理、决策和执行能力。这一概念早在1944年由冯·诺依曼在博弈论中研究智能体间的策略学习问题时就已提出。大语言模型的突破使行业对AI智能体的关注达到新高度。

  当1944年提及的智能体(AI Agents)与智能手机结合语言大模型,我们完全有理由期待更智能大脑的新创新形态的出现。当手机行业纷纷跟进手机大模型研发时,vivo一口气发布了5个大模型,组成大模型矩阵,并首次提出手机智能体的概念。

  手机终端厂商正重金投入大模型研究,并将其与产品深度融合。2023年11月1日,vivo在开发者大会上发布OriginOS 4,并展示包含五个量级模型的蓝心大模型矩阵,将10亿级和70亿级参数量级的大模型运行到端侧。vivo预测“大模型是手机行业新创新周期的开始”。腾讯科技《AI未来指北》手机大模型系列的第二期走进vivo,并深度对话了vivo副总裁、OS产品副总裁、vivo AI全球研究院院长——周围。

  周围自2018年开始担任vivo AI全球研究院院长,进行人工智能领域的基础科学和颠覆式技术创新研究,并于2022年开始负责OriginOS的研发工作。腾讯科技从实际应用角度与周围针对行业问题进行了深度探讨:

  1. 从产品创新体验来看,手机语音助手曾被视为“鸡肋”,大模型+手机发展到什么程度才能给用户带来惊艳的体验?
  2. 从产品设计角度来看,为何众多厂商选择将语音助手作为手机大模型的用户交互入口?
  3. 现阶段各厂商在手机大模型投入的成本是多少?是否值得?用户会买单吗?
  4. 从行业发展来看,各家都在自研大模型,是否会形成数据孤岛,这对行业发展和用户体验是否有负面影响?

  以下为对话内容:

01 大模型“上端”面临许多难解的现实问题

  腾讯科技:你理解的手机大模型是什么?是手机+大模型吗?

  周围:这里面其实包含两个问题:一是大模型本身,二是大模型要为手机这样的产品做哪些量身设计和定制。目前云端的大模型普遍都是千亿参数规模,但一旦回到手机上,有几个问题需要解决:成本、算力要求、功耗以及对内存的占用等。综合考虑,我们认为手机端应有三个模型:10亿级模型用于文档归纳总结等场景;70亿级模型有较好的任务理解能力且手机算力和内存能够支持;但追求更强能力则需更高参数量如130亿参数左右的模型。但一般大模型涌现的基础门槛在500亿参数左右,因此vivo选择700亿作为云端主力模型,同时考虑更高规格场景还需更高参数量如1300亿和1750亿两个模型。综合考虑成本和性能,我们认为大模型对手机应是一个矩阵。

  腾讯科技:虽然基于端侧vivo做了三个大模型但比云端的参数量小。这是否因硬件或技术限制?未来手机端侧大模型是否越大越好?还是端侧和云侧大模型是完全不同的定位?

  周围:我们首先考虑的是用10亿和70亿模型提供高安全和隐私数据保护机制。同时大模型很珍贵智能涌现在500亿以下不够因此我们自然要在云端提供这样的能力。长远来看我认为云和端要协同但基于成本、隐私、性能等角度考虑端侧更合理。手机端算力其实够只是速度问题比如画画是7秒还是10秒完成。更大挑战在于内存占用目前我们优化到最好大概是1G内存占用7B模型大概要占用4G内存。我们坚持把内存占用限制在4G内因为高端机型包括24G、16G、12G内存最低档位8G机型拿出4G空间给大模型已是一个极限资源调拨。7B模型控制在4G以下对于12G以上内存配置旗舰机肯定能保证高端手机使用体验但再往上突破如13B对内存占用还未达到理想状态。目前对vivo来说手机端侧接入70亿参数模型是最优解决方案但未来更高规格产品可能用得上130亿参数端侧模型。

02 手机智能体仅仅是手机助手的升级版吗?

  腾讯科技:各大智能手机厂商都在对手机大模型进行尝试和探索但vivo可能是行业内第一个提出“手机智能体”概念厂商如何定义手机智能体呢?

  周围:大家可能记得AlphaGo战胜人类围棋冠军李世石这得益于强化学习突破。强化学习之父Richard S. Sutton提出智能体概念认为AI系统能感知周围环境识别意图自主做出决策并设立奖励机制让系统进行自进化自完善。这接近我们今天语境中智能体定义。当我们把今天大模型用在手机上时自然而然会期待AI智能体(AI Agents)出现。因为大模型学习了庞大上下五千年所有知识拥有智能涌现能力我们自然会期待AI智能体出现。对于手机智能体实现路径我们团队在做大模型时仔细考虑过并用多个大模型组合实现一个智能体而不是一个足够强大单一大模型支持智能体。我们更倾向于用多个大模型组合实现智能体底层大模型可能不仅来自我们行业各厂商也参与其中。我们沿着严格智能体定义在做智能体实践发现非常多有意思东西值得期待比如让GPT熟练地使用460万个手机应用包括下载、安装、注册和使用提供解决方案让GPT具有像人一样使用应用能力这是Phone Agent(手机智能体)要做到的。当我们把应用做完时自然想到设计奖励机制让智能体知道自己哪些东西应该做哪些地方应该去完善整个做下来我觉得对接下来手机里内置智能体(Agent)还是挺期待的。腾讯科技:手机内App属于不同开发者调用起来没有壁垒吗?周围:你说壁垒背后应指APP开发者不希望生态被破坏不希望应用被免费调用但我觉得手机智能体不是构建与APP应用构成竞争关系生态或应用而是帮助用户更好地使用应用所以对于现在APP来说手机智能体是像真人一样的“用户”我们通过智能体打造一个能够自动使用APP的解决方案因此不是构建竞争关系生态或应用而是帮助用户更好地使用应用。腾讯科技:基于大语言模型的手机智能体和之前手机助手有什么区别呢?其实苹果推出Siri已经12年了但用户可能会觉得这个功能很鸡肋?周围:这个问题是做人工智能人愿意去探讨的在人工智能第一阶段早在1956年美国汉诺斯小镇宁静达特茅斯学院中包括香农(Claude Shannon)几十位科学家聚在一起讨论用机器模仿人类学习及其它方面智能那时大家对人工智能憧憬就是解决复杂问题那时学界开始尝试用知识库加规则匹配方式解决医疗诊断问题但效果不太好从80年代一直到2018年AlphaGo引起世人关注后深度机器学习蓬勃发展解决了很多问题就在这个阶段开始讨论去做一个人工智能助手但现在不同有了大语言模型突破大模型学习了几乎全世界知识成为智能体大脑会让所谓手机助手变得更智能未来手机智能体首先是一个很好智能助理它一定是人格化比如它要很好地帮你管理生活能力第二它有记忆能力和用户有共同回忆这样才能够很好地充当起智能体助理角色同样道理既然智能助理也是私人助理可能是深得我们信任另外它还应该有感知和管理能力既然是智能体就不能一问一答而应该是主动服务主动服务怎么触发除了基于基础数据计算还要通过人与人之间的关系和时空关系比如去到哪里用什么时区时间身边人关系怎么样就算出差到杭州深圳家里下雨了作为智能体也应该做一些相应提醒所以看到从智能体验应用倒推过来话我们对于智能体构建应该是各不相同但是现在做智能体构建还是一个比较早阶段我觉得至少还要一年腾讯科技:为什么大部分手机品牌还是选择把大模型集成到之前手机语音助手?周围:当下所有厂商在应用时候都还没有到智能体阶段就像刚刚说应该是一年后对话和考虑问题当下大家都是希望用大模型应用于自己手机结合第一个几乎不约而同地选择提升自己语音助手体验这个也完全能够理解其实大模型如何和手机结合有两个思路一种是站在系统外功能外比如公版APP另外一种就是copilot语音助手微软办公软件助手都是典型思路我们这次推出两个AI产品一个是刚刚说蓝心小V可以理解是手机上copilot(智能助手)另外一个是蓝心千询公版APP可以在应用商店下载除了这两个产品外其实还带来一系列创新所以这次叫做1+2+n就是“蓝心矩阵”。“1”是指蓝心大模型矩阵“2”就是我们刚才说两大基于大模型创新产品蓝心千询和蓝心小V第三个n其实我们希望大模型对手机进行深度融合之后带来一系列创新我认为这个地方其实是用户更值得期待腾讯科技:为什么?用户能直接感受到大模型带来本质改变吗?周围:手机里功能都会被大模型重构比如会重构系统中73个模块全部原子化让大模型“天生”能够比较顺畅地帮我自主做一些执行事情比如帮我调一下亮度改一下壁纸这在之前都需要用户自己去点击设置模块但是今天只需要对大模型下一个文字或语音指令手机里用户使用较多功能都被重构过了比如说以前我在拍照时候旁边多了一个路人想把路人去掉之前可能手动用擦除功能原有场景被破坏了大模型可以帮你去掉不想要并利用AIGC能力保持原有构图因此从用户体验角度来看用户能够直接感受到大模型带来本质改变周围:我们觉得还是基于对要做好一个极致体验产品角度遇到实实在在问题比如价值观对齐针对一些敏感问题可能每一个大模型都有自己价值观作为一个手机厂商面对这么多用户一定要解决价值观对齐问题那就要自研第二我们要解决成本问题要让AI更普适给更多人用同时又要解决性能体验比如出词快速响应当我们有细分需求时候我们发现公版开源大模型做不到另外还有一个很现实问题就是现在开源大模数据更新时间很慢对vivo来说我们自研一个增量训练框架几乎能保证每一个大模型在一个月左右就会更新另外如果我们手机里做一个智能体这就需要有些东西是Always-on(常开)时候就要有省电需求另外还有性能、任务拆解等定制化需求这时候公版大模型是完全无法满足我们对未来规划所以综上我们知道大模型一定要自研要完整腾讯科技:手机端大模型再进化硬件和算法哪些才是最大难点?周围:从硬件来讲其实大模端侧化是需要和芯片厂商密切合作最大问题在于端侧指令集兼容我大概介绍一下端侧化工作都有哪些部分首先我们要进行蒸馏或模型裁剪得到一个够小但是能力强的大模型这个大模型一般都会自己去做CPU版端侧化时候跑算力叫指令集用其实是CPU第二还希望这个大模型可以跑在GPU和NPU上面最终是跑在NPU上面这样才能让大模在端侧时候有很好的性能表现NPU指令级由CPU公司实现而大模蒸馏和能力增强自己大模开发来实现这是一个合作问题大模继续迭代整个产业链要来一起解决问题我们现在也跟芯片厂商在联合定制下一代CPU、NPU、指令集、DDR带宽和缓存应该怎么做我认为这些都是要和芯片厂商一起来研究来做更好产品规格设计回到我们终端厂商角度来说我觉得要站在更长远角度提出我们对于产品一些典型功能规划然后和芯片厂商一起来规划设计腾讯科技:各家都在做自己大模是否会形成数据孤岛?对行业开放70亿大模能力如何开放?周围:准确说是开源开源蓝心7B大模我们意识到大模应用其实站在百年开局起点不是说一年两年就能达到成熟走得早的人也不一定就能一直领先所以我们一定要共建共赢你先走一步那就先拿出成果来共享大家一起来共建开源出来还要把模优化模配套一些工具都要开源另外真正开源就是有好多种license我们是允许商业化开源之后我们开发者才能够基于大模去构建符合自己商业利益生态这是我们一种良好愿望我们开发者得至少分三类一类就是普通开发者没有能力构建或微调大模蓝心大模就可以开发套件形式开放他们拿到之后就能够免费使用大模接口和能力第二种是中大型公司希望拿到一个真正开源又能力领先的大模自己去微调还有一种形式还有一种开发者他觉得我也不拿开源我要自己做我们就把系统最小权限做模热插拔这个方向上足够开放所以vivo开源还是来自于很高维度价值认知和规则定义是从这个角度来看开源那么接下来也希望基于开源氛围能够共建共赢我们信奉叫做独行快众行远就一个人去走可能是快一点但是要一起抱团走才能走得更远腾讯科技:大家都说手机赛道很卷各家都在做自己大模这样会不会形成一个个数据孤岛?周围:我其实觉得手机行业不卷这个卷是站在行业外角度来看行业内看好像是大家在各领风骚数个月那种感觉其实站在vivo角度我觉得我们不是卷也无意这样做像在大模上面只想做好自己做好在这个行业里面应尽义务和责任因此各家都在探索和发展各自的大模技术并不会形成数据孤岛而是共同推动整个行业的发展和进步。

© 版权声明

相关文章