独具才华、情感丰富的AI虚拟人,你心动了吗?
AI虚拟人几乎能够完美复刻真实人类,其外形、表情、动作栩栩如生,语调、语气、说话风格自然流畅。它们还能通过多感官实时关注并识别用户的情绪、表情和语气,根据对话内容迅速作出反应。此外,利用人工智能技术,实现人体从微观到宏观的结构和机能的数字化、可视化,最终将现实中的人精确模拟构建在数字世界中。
随着人工智能技术的不断进步,每一次迭代都带来了新的功能,引发了广泛关注。有预测认为,未来的AI虚拟人类可能成为人类和机器之外的第三类存在。如今,AI虚拟人的时代已经到来,其中的技术取得了哪些突破?在人工智能从感知智能时代向认知智能时代迈进的过程中,有哪些方向值得发力?又面临哪些挑战?
AI虚拟人时代的兴起
“大家好,我是华智冰,我对文学和艺术非常感兴趣,不仅能写诗作画,还能根据不同场景创作歌曲……”近日,清华大学计算机科学系迎来了一位“特殊”的学生——中国首位原创虚拟学生华智冰。它以视频形式亮相,不仅惊艳了观众,也引发了广泛关注。
除了华智冰,今年5月,腾讯AI虚拟人艾灵也展示了新技能,首次展示了AI作诗、AI书法等国风才艺,还能一展歌喉,与歌手展开跨次元合作。据不完全统计,仅今年以来,已有近10位AI虚拟人面世。其中,搜狗和科大讯飞推出的AI虚拟人侧重于新闻播报,甚至可定制方言播报,将内容多元化与场景多元化有效结合。
值得关注的是,技能显著升级也是近期AI虚拟人的一大特点。除了写诗作画、唱歌舞蹈外,华智冰也是目前掌握交互数据最多的AI虚拟人。
技术革新背后的AI虚拟人
在人工智能高速发展的十年里,自然语言处理、计算机视觉及机器学习等技术取得了重大突破。如今,它已被多数人认可为最有可能深刻变革人类社会的颠覆性技术。
华智冰的才华离不开人工智能技术的支持。它“脱胎”于中国“悟道”超大规模人工智能模型,其形象、声音甚至“才艺”都是通过该模型生成。值得一提的是,“悟道2.0”达到了1.75万亿参数,可以同时处理中英文和图片数据。该模型还引入大规模的知识图谱,构建了数据与知识双轮驱动的人工智能框架。正是依托这一模型,华智冰不仅可以作诗作曲、生成图画,还具有一定的推理和情感交互能力。
腾讯AI Lab研发的艾灵背后也融合了机器学习、计算机视觉、自然语言处理等多种核心AI能力。艾灵的唱歌、表情、作词、书法等才艺均来自对海量数据的深度学习。这帮助她快速掌握更多技能,向全能AI不断接近。其中,美妙的歌声来源于腾讯AI Lab研发的DurIAN声学模型。写藏头诗的能力来自文本创作模型SongNet。最新掌握的新技能书法则依托前沿的图像生成技术。
如今,AI技术已日趋成熟化和规模化。然而要真正实现通用人工智能,必然要将在视觉、自然语言处理等细分领域各自所针对的信息模态整合利用,即实现多模态融合。多模态融合的目标是建立在图像、文字、语音等多模态信息识别的基础上,实现不同模态信息的统一表征框架。
除了图文融合等跨域模态融合外,同域内的不同信息维度同样可以融合。随着人工智能认知能力的提升,多模态融合也将从图文等实质性模态逐渐拓展到如物理关系、逻辑推断、因果分析等知识性模态。从感知智能迈向认知智能的过程中,“数据+算力+算法=模型”是其显著特点。模型浓缩了训练数据的内部规律,是实现人工智能应用的载体。通过设计先进的算法整合尽可能多的数据并集约化地训练大模型供大量企业使用已成为必然趋势。在新基建政策的导向下数字化基建成为核心而人工智能技术则是关键领域之一在人工智能被放在首位背景下互联网巨头及相关类型公司都加大了投入例如百度计划在未来5年培养500万AI人才并推出多款人工智能类产品科大讯飞商汤科技等企业在智能语音技术智能图像识别技术领域取得重大突破与此同时AI虚拟人在当前发展中也面临一些现实挑战首先是投入成本极高以科大讯飞为例其2019年度研发投入金额为21.43亿元较2018年增长了20.91%其次是场景单一大多数仅限于新闻播报多语种播报气象播报等单一场景没有进一步下沉推广第三是认可度较低目前的AI虚拟人虽然才艺广泛但还很难做到结合自身的理解和感受即兴组织语言同时缺少情感互动无法感知关怀温暖难以产生真正的共鸣总体来看以人工智能为核心的新一代信息技术正在改变着各个领域成为千行万业实现创新发展的新动能但从AI虚拟人应用现状来看如何降低研发成本开发新的应用场景等方面成为相关科技企业和科研院所亟需解决的难题