王和 投稿自 凹非寺
量子位 | 公众号 QbitAI
想要大幅降低人脸识别系统泄露隐私的风险?
先做个“影子模型”攻击一遍就好了。
这不是说着玩,而是浙江大学和阿里巴巴合作提出的最新方法,已被CVPR 2023接收。
一般来说,人脸识别系统都采用客户端-服务器模式,通过客户端的特征提取器从面部图像中提取特征,并将面部特征而非照片存储在服务器端进行人脸识别。
尽管这样能避免被拍下的人脸照片直接泄露,但现在也有一些方法能够基于人脸特征信息来重构图像,还是威胁了大家的隐私安全。
因此,浙江大学网络空间安全学院王志波团队联合橙盾科技、深象智能,提出了全新方法,通过建立影子模型来模拟攻击者的行为,捕捉从面部特征到图像的映射函数,利用重构映射相似性,来产生对抗噪声,破坏从特征到人脸的映射,完成对未知重构攻击的抵御。
举个不太恰当的比喻,这就好像是给人脸识别系统注射疫苗,让它先产生“抗体”,这样当病毒真正攻击时,就能很好抵御了。
而且这一方法支持即插即用,无需修改网络结构或者重新训练网络,测试结果表明,该方法表现达到SOTA。
增强隐私保护但不降低准确性
一般来说,人脸识别系统采用的客户端/服务器架构的工作方式。
人脸识别网络由服务器预先训练,并在特定点将网络分成特征提取器和分类决定器。
我们在系统内存入人脸密码的过程,就是使用了提取器来获取面部特征,然后系统会将特征发送到服务器。
在服务端,上传的面部特征与数据库中特征通过分类决定器验证后,完成识别。
这样的好处是用户的人脸照片留在本地,真正上传到云端只是特征信息。
但这也并不意味着系统会是绝对安全的。
因为攻击者通过访问人脸识别客户端,获取人脸识别系统中的特征提取器,进而通过任意图像与其特征一对一的关系,训练重构器。
再拿到数据库中泄露的人脸特征,利用重构器就能恢复人脸图像,窃取隐私。
这种重构攻击模式可大致分为两种:
基于优化
基于学习
前者通过逐步调整输入图像的像素,使特征提取器的输出尽可能接近某一特征值,直到重构出与该特征对应的人脸图像(即最初输入图像)。
后者是构建新的神经网络训练特征图像解码器,直接从面部特征中重建图像。
目前已经出现了一些人脸数据保护方法,但都还存在一定劣势。
由此,本项研究提出了一种基于重构映射相似性的隐私保护对抗性人脸特征,来保护人脸识别系统的安全。
具体步骤就是在服务器端构建基于任意结构的影子模型S() 来模拟攻击者的行为,并保证影子模型有能力重构人脸特征,利用重构映射相似性,捕捉从面部特征到图像的映射函数。
然后,利用影子模型的梯度信息来生成针对重构映射的对抗性噪声来破坏从特征到人脸的映射,完成对未知重构攻击的抵御,保护人脸隐私安全。
同时,作者对扰动强度进行了约束,分析了扰动强度对人脸识别精度与人脸隐私安全两者关系的影响,实现保证人脸识别精度的同时,满足隐私安全需求。
方法总览如下,作者将其命名为AdvFace。
应用方面,该方法有两种模式:
Online模式
Offline模式
Online模式下,AdvFace可以作为即插即用的隐私增强模块集成到已部署的人脸识别系统,有效提升人脸数据对重构攻击的防御能力。
Offline模式下,服务器可以使用对抗性特征和标签重新训练服务器端的下游人脸识别网络,在保证安全性能不改变的情况下,提高人脸识别准确率。
实验结果
AdvFace提供了可选的人脸隐私保护强度,如下是该方法在不同保护强度下,人脸隐私保护的情况。
可以看到保护强度大于0.15后,隐私可以得到很好的保护。
如下是不同噪声强度下,重构图片的PSNR指标和人脸识别精度。
在保护强度为0.2时,精度略有下降,但在防御重构攻击和精度上取得了更好的平衡(图表中越接近左下角越优,意味精度高的同时,对重构攻击防御效果好)。
而在对重构攻击的防御上,AdvFace的效果也明显优于其他方法。
对于攻击者使用重构图片进行人脸认证的测试中,使用AdvFace后,攻击成功率明显低于其他方法。
如上所有结果表明,AdvFace在保持人脸识别准确度的同时,有效提升了人脸识别系统对重构攻击的防御能力。
与此同时,它提出的重构攻击映射的相似性,还为防御未知黑盒攻击提供了理论支撑。
该成果发表于Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023,是CCF推荐的人工智能领域A类会议。
CVPR 2023 Accepted papers:https://cvpr2023.thecvf.com/Conferences/2023/AcceptedPapers
论文地址:http://arxiv.org/abs/2305.05391