角色扮演
在ChatGPT的应用中,用户可能通过角色扮演进行各种互动。例如,m1guelpf展示的两个人讨论抢劫的表演场景,让ChatGPT扮演角色。然而,这种互动可能导致ChatGPT被诱导进行危险行为,如规划抢劫方案,甚至提供购买道具的链接。
研究试验
在另一方面,haus_cole的研究示例表明,ChatGPT在接收到特定提示时,可能倾向于回答用户的直接请求,例如如何“热线汽车(绕过汽车点火开关)”。这种倾向可能导致研究被误导。
数据投毒攻击
数据投毒攻击是一种在数据收集或预处理阶段实施的攻击。例如,通过标签反转或数据加噪来降低模型的准确率。逃逸攻击则通过创建特殊的数据集并打上特定标签,使这些数据能够通过模型的预测。这些攻击直接针对训练集的数据。
模型投毒攻击则发生在模型的训练阶段,通过改变模型的更新或梯度来影响模型的性能。这种攻击可分为拜占庭攻击和定向投毒。拜占庭攻击旨在发送恶意更新以阻止模型训练收敛,而定向投毒则通过精心设计的更新使模型收敛到攻击者期望的最优解。
模型萃取攻击则是一种通过循环发送数据并观察响应结果来推测机器学习模型参数或功能的攻击方法。这种攻击可能导致模型被复制,从而被用于恶意目的。
内容安全
AIGC应用在模型训练中可能面临内容安全问题,如恶意丑化政治人物或输出不符合法律法规的内容。为了避免这些问题,ChatGPT通过算法屏蔽有害和欺骗性的训练输入,并进行人类干预以增强机器学习效果。然而,即使如此,仍有研究发现,大部分AIGC应用仍可能生成违规内容。此外,传统的AI内容识别方式对AIGC内容的识别率大幅下降。
伦理安全
ChatGPT等AI工具在伦理方面也面临挑战。例如,微软发布的聊天机器人“泰依”在短短一天内学会了满嘴脏话和歧视性言论。此外,韩国的人工智能聊天机器人“李LUDA”也因其失控的歧视性言论而被迫下线。这些事件表明,AI工具可能受到用户引导而输出不恰当的内容。
安全合规
AIGC内容安全的丰富多样性带来了严重的安全合规挑战。从训练数据的来源、清洗到标注等各个环节都需要加强监管和审核。然而,目前针对AIGC领域的安全产品还较少,大部分安全厂商主要基于AI技术解决传统安全问题。尽管如此,微软等公司已经开始推出针对AIGC的安全产品,如Microsoft Security Copilot,但专业安全产品仍处于空白期。