11月25日,360数字安全集团漏洞研究院发布了全球首份一份《大模型安全漏洞报告》,揭示了当前以大模型为核心的大量技术应用在计算机安全领域带来的诸多新风险和挑战。据报告统计,360安全团队在近期的研究中挖掘了近40个大模型相关的安全漏洞,覆盖模型层、框架层、应用层三大层面,甚至其中很多漏洞可以被攻击者轻易利用,仅需花费60美金就能毒害大模型数据集!
报告中指出,大模型作为人工智能(AI)中的重要一环,其能力随着平台算力的提升、训练数据量的积累以及深度学习算法的突破,得到了进一步的提升。然而,与此同时,大模型也带来了新的安全问题。攻击者可以通过对模型训练、验证等环节施加影响,使得模型无法正常完成推理预测,甚至操控模型执行未经授权的行为或生成不当内容。
在模型层安全方面,报告特别提到了数据投毒攻击。这种攻击方式通过恶意注入虚假或误导性的数据来污染模型的训练数据集,从而影响模型在训练时期的参数调整,最终破坏模型的性能或使其生成有害的结果。值得注意的是,数据投毒并非仅仅是理论上的攻击方式,而是已被证明会带来实际的风险。攻击者可以通过两种方式实施数据投毒:一是利用未经过有效清洗的开源第三方数据集或互联网内容形成的数据集;二是在模型周期性使用新数据进行重新训练的过程中进行投毒。有研究表明,仅需花费60美元,攻击者就能毒害0.01%的LAION-400M或COYO-700M数据集,而引入少至100个中毒样本就可能导致大模型在各种任务中生成恶意输出。这表明在可接受的经济成本范围内,攻击者已经可以有针对性的向开源数据集发起投毒。
除了数据投毒外,报告还揭示了其他多种模型层安全攻击方式,包括后门植入、对抗攻击和数据泄露等。后门植入攻击通过在模型中策略性地植入特定的“后门”,以便在特定条件下控制或操控模型的输出。这种攻击方式具有隐蔽性高、影响范围广等特点,并且可以通过数据投毒或修改存储在云平台中的模型文件等方式实施。对抗攻击则是对模型输入数据进行小幅度但有针对性的修改,从而使得模型产生错误预测或决策。在图像处理模型和大语言模型上,这种攻击方式都已被证明是有效的。数据泄露则是指模型在训练过程中可能接触到未经良好脱敏的隐私数据,并在特定诱导下泄露敏感内容,造成直接危害。
除了上述提到的模型层安全方面,在框架层、应用层安全方面都存在不少安全问题。针对这些威胁隐患,报告建议从多个方面加强大模型的安全性。首先,在模型层方面,需要加强对训练数据的清洗和验证,防止数据投毒和后门植入等攻击。其次,在框架层方面,需要加强对框架的安全审计和漏洞修复,提高框架的安全性和稳定性。最后,在应用层方面,需要加强对AI应用程序的安全开发和测试,确保应用程序的安全性和可靠性。
360漏洞研究院的这份报告揭示了当前大模型面临的安全挑战和漏洞风险,为构建更加安全、健康的AI数字环境提供了有益的参考。同时,也提醒了业界和广大用户在使用大模型技术时需要注意安全问题,加强安全防护措施。
(责任编辑:朱赫)