本发明公开了一种具有迁移性的隐蔽白盒对抗样本生成方法及装置,涉及人工智能安全领域,本发明方法中,使用动量迭代法更新像素二阶重要性分数,稳定像素重要性分数的更新,摆脱局部最大值;然后使用自适应攻击步长,将对抗扰动集中在图像中被不同模型采用的共同关键特征上,减少对图像背景破坏;通过以上两种手段增加对抗样本的迁移性;解决了本发明的现有技术中白盒对抗样本技术过度拟合被攻击的深度神经网络,攻击其他黑盒模型时效果不佳,表现出较低的迁移性的问题。
1.一种具有迁移性的隐蔽白盒对抗样本生成方法,其特征在于,所述方法包括如下步骤: S1、在图像分类任务中,获取输入图像的图像数据,在图像数据上使用像素二阶重要性计算获得图像数据上每个像素的二阶重要性得分,得到对抗扰动的方向; S2、使用动量迭代法更新步骤S1获得的二阶重要性得分,并使用自适应归一化,得到对抗扰动攻击步长;在图像数据上添加对抗扰动生成对抗样本; S3、通过l2范数约束条件对步骤S2获得的对抗样本进行判断并输出;具体的,将符合l2范数约束条件的对抗样本输出;否则,将更新后的图像数据作为步骤S1的输入图像数据,再迭代执行步骤S1-S3; 步骤S1包括如下步骤: S1.1、在图像分类任务中,输入已训练好的深度神经网络图像作为图像数据其中R为输入图像的集合,B为图像批次数量,C为图像颜色通道数,H为图像高度,W为图像宽度; S1.2、计算深度神经网络损失函数L关于步骤S1.1图像数据的一阶梯度矩阵与Hesse二阶梯度矩阵 S1.3、将梯度矩阵与Hesse矩阵相乘进行像素二阶重要性计算,获得图像数据上每个像素的二阶重要性得分gs(x); 步骤S2包括如下步骤: S2.1、将图像数据上每个像素的二阶重要性得分使用动量迭代法进行更新,令当前第t轮的每个像素的累积二阶重要性得分为其中μ为衰减因子,是一个超参数; S2.2、将获得的累积重要性得分进行归一化处理得到自适应归一化值,即:然后将自适应归一化值与一个固定的攻击步长α相乘,获得自适应攻击步长αs;其中攻击步长α为一个超参数; S2.3、结合对抗扰动方向与对抗扰动自适应攻击步长得到当前轮对抗扰动δt,并在当前的图像数据上添加对抗扰动得到对抗样本,计算公式为: 其中,为第t轮的对抗样本,δt为第t轮的对抗扰动,当t为0时clip为剪裁函数,将图像像素约束在[0,1]范围内;sign()为符号函数,用来获取图像数据上每个像素的累积二阶重要性gt的方向。
2.根据权利要求1所述的具有迁移性的隐蔽白盒对抗样本生成方法,其特征在于,步骤S3具体包括如下步骤: S3.1、将第t轮的对抗样本与原始输入图像x相减,得到对抗扰动δ; S3.2、计算对抗扰动的l2距离,得到||δ||2;将||δ||2与C进行比较,小于C再迭代执行步骤S1-S3,大于等于C则输出对抗样本;其中C为超参数,通过||δ||2与损失函数值以及对抗样本攻击效果分析获得,取能够导致较高损失函数值且对抗样本分类准确率接近于0时最小的C。
3.一种具有迁移性的隐蔽白盒对抗样本生成装置,其特征在于,应用权利要求1或2所述的具有迁移性的隐蔽白盒对抗样本生成方法,包括, 对抗扰动方向获取模块,该模块用于:在图像分类任务中,获取输入图像的图像数据,在图像数据上使用像素二阶重要性计算获得图像数据上每个像素的二阶重要性得分,得到对抗扰动的方向; 对抗样本生产模块,该模块用于:使用动量迭代法更新步骤S1获得的二阶重要性得分,并使用自适应归一化,得到对抗扰动攻击步长;在图像数据上添加对抗扰动生成对抗样本; 对抗样本输出模块,该模块用于:通过l2范数约束条件对步骤S2获得的对抗样本进行判断并输出;具体的,将符合l2范数约束条件的对抗样本输出;否则,将更新后的图像数据作为步骤S1的输入图像数据,再迭代执行步骤S1-S3。
4.一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器; 其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1或2所述的方法。
5.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行权利要求1或2所述的方法。
6.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1或2所述的方法。
请联系平台
请联系平台