美国谷歌公司近期发布的《2025年AI商业趋势报告》预测,多模态AI将成为企业采用AI的主要驱动力,助力改善客户体验,提高运营效率,开发新的商业模式。
从全球业界发展趋势来看,未来AI将具备更强的推理能力,各形态智能体将会更加普及,同时也会有更多不可用经验、规律来揣测的“真相”需要辨识,“AI生成”对人类的挑战会愈发明显。随着AI的快速发展,随之而来的安全、治理、版权、伦理等方面的新风险也愈发突出。例如,多模态功能的拓展使得虚假信息的内容形态更加多元,更难被普通人所辨别;智能体自主性的提高,会带来其目标与人类意图不一致或产生意外行为的风险。
那么,如何应对这些风险和挑战呢?全球多国已在从政策法规、技术标准、行业自律等多个维度加强AI治理。面对这些挑战,有些小技巧或许能有所帮助。
AI聊天:用“语义熵”检测它的“胡言乱语”
现在已有各种计算方法可以用来检测AI的准确性。例如,与ChatGPT聊天时,有时可能会遇到“胡说八道”的情况。当你问它“世界上最高的山是哪座”,大模型可能会给出多个答案:“珠穆朗玛峰”“乞力马扎罗山”“安第斯山脉”。因为它可能无法区分“山”“峰”“山脉”。这时,作为“有常识的人”,我们可能会作出自己的判断或去“百度”一下。
针对这种情况,英国牛津大学团队在《自然》杂志发表过一篇论文,提出了一种分析和计算方法——“语义熵”,为辨别大语言模型的“胡说八道”提供了新的思路。“语义熵”是一种基于统计学的熵值估算方法,通过概率统计来测量一段话语中的信息前后是否一致。如果熵值较低,说明信息可信;如果熵值较高,说明信息可能有问题。因此,我们可以多问ChatGPT几次同样的问题,通过计算其答案的“语义熵”值来判断其是否在胡说八道。
不过,“语义熵”也存在一些局限性。它处理一些模糊和复杂的问题时可能能力有限;它偏“理性”,可能会忽略上下文的语境和一些特殊情况;如果训练数据被无意或刻意“恶搞”,用“语义熵”也无法很好地识别这种错误。因此,我们仍然需要明白,类似于ChatGPT的诸多AI软件不可能做到100%准确,它们只是人类发明的一种工具,在使用过程中仍需人类自身的智慧判断。
AI写文:加“文本水印”,主动交待出处
如何分辨AI文本?科学家们已研发了不少软件来鉴别。例如,“语义熵”的计算方法也是解决办法之一。AI的文本生成基于大数据库的综合与提炼,容易出现一些“套路”,仔细研读其实还是容易区分的。例如,AI文本写作时不仅很少语法错误,还特别习惯使用一些高频词汇,甚至会过度、重复使用这些词汇;AI写作的内容大多缺乏举例、文献综述或具体细节描述;AI创作没有“灵魂”,虽然会用华丽辞藻,但缺乏个性化的真情实感流露。不过,现在很多学子在写规范化文章时也喜欢使用固定的“套路”,这种文章也缺乏个性。
于是,一些提供AI写作的软件开发商会在创作中暗埋一些“密码”,通过特别程序来检测文章的具体出处。例如,Google DeepMind的研究团队在《自然》杂志上发表文章提出了一种“文本水印”的方案。当你使用他们的AI软件进行文本创作时,软件会自动在文章内生成一种“文本水印”,通过特定程序就能分辨出这篇文章出自Google DeepMind的AI写作。然而,这种方法终究“只防君子,不防小人”,随着AI能力的增强,AI文本的检测只会变得越来越困难。
AI生图:放大细节,可以“洞悉”一切
在AI生成图片的相关技术刚开始出现时,人类利用AI创作的画作参加权威比赛就引发了争议——利用AI创作的作品是否还是画家的作品?它是否有版权?但如今人们已对AI创作的图片习以为常了。然而,一些熟悉AI创作流程的人还是能很容易地指出一张图片是否由AI创作。因为细看细节,“AI生成”可能存在比例失调、情景不合理、线条过于平滑或杂乱、背景模糊不清等缺陷。目前一些AI软件处理图片中的文字仍是“门外汉”,非后期加工的文字会明显不清晰、“国籍”难辨;在处理人物或动物时尤其不够精准,常常会有四肢不自然、眼神呆滞、皮肤质感不真实等情况;此外,已有不少网站或软件可以帮助检测图片是否“AI生成”,准确率可达到95%以上。
研发这些AI图片检测软件的工作人员注意到,如果要辨别一张人像的真伪,通过分析图像中人物的眼睛细节会是一种非常有效的方法。人类的眼睛构造复杂,在光的折射下反射角度和瞳孔变化都有很多细节的不同。现在的技术已能从真实视频中的人物眼睛反射的“镜中像”来分析人物所处环境甚至看到对面的人脸等细节。但当前“AI生成”的图片中人物的眼睛不可能保存这样的细节。因此看一张“AI生成”人像的眼球瞳孔形状就可以一眼辨别真伪因为真实的照片中人眼瞳孔形状通常是规则的圆形或椭圆形而AI照片中瞳孔形状大多是不规则的。
AI视频:造假肉眼可辨综合治理是关键
美国开放人工智能研究中心(OpenAI)的文生视频大模型Sora在2024年2月面世后惊艳世界如今其正式版已于2024年12月向用户全面开放。还有Deepfake技术的研发让视频造假变得轻而易举Deepfake技术在此是通指这类换脸视频所用的技术。网络上已出现不少“跟名人换脸”的带货主播细思极恐视频都看不出真假未来我们还可以相信谁?确实随着AI技术的不断升级如今一些AI小工具使用起来非常方便即使不具备专业知识的普通用户也能轻松生成换脸视频且生成的视频分辨率高面部表情甚至可以达到自然同步。虽然这项技术本身是科技发展的一大进步且在视频主播、影视制作等领域都能发挥积极作用但任何技术都可能被不法分子利用如果不对其进行合理规范的管理势必带来极大的混乱。
如何识别和检测一段视频的真伪呢?最简单的方法还是我们的“经验判断”——即用肉眼仔细分辨还是能看出视频中人物的一些异常比如面部表情的扭曲或眼神的不自然、眨眼次数过少、人物面部边缘模糊或与背景的过渡明显不自然甚至是人脸的光影效果与周围环境的光线情况不符等。之前因为假视频电话的诈骗案还有人提醒说如果你无法分辨眼前与你视频通话的人是真是假可以要求对方用手指按一按自己脸颊或鼻翼如果变形明显不正常对方就是“换脸人”;或者你可以在自己的手机上装上相关的“打假”软件来检测视频的对方皮肤的颜色是否会随正常的人类心跳频率保持一致地有规律变化……但也许不久的将来这些招数都会不好使了因为这些异常可能会随着技术本身的不断提升变得越来越“正常”。我们已经不能完全相信自己的肉眼判断了。
因此最“聪明”的办法就是去了解它知道它的技能如今到了哪一个程度然后合理地提升自己的经验去避开AI的“反检测”。当然要应对Deepfake等先进技术带来的这类困扰我们还是需要从整体上来规整这个行业从全流程的角度去综合治理以维系技术的和平发展。未来世界将更需要技术、平台与法律规定的多元协同。目前虽然我国已颁布实施了《互联网信息服务深度合成管理规定》《生成式人工智能服务管理暂行办法》等法律法规但约束的对象与方式都还不能满足目前技术的迅速发展所需我们还需要有更多更详尽更合理的法律法规来规范各行各业也需要跟随技术的发展不断去调整。共享一个和平和谐的未来还需要所有人都能自觉地遵纪守法。