据麦姆斯咨询报道,Carlos Hinojosa、Juan Carlos Niebles 和 Henry Arguello于2021年10月在线上虚拟举行的2021年计算机视觉国际会议上发表了题为“Learning Privacy-preserving Optics for Human Pose Estimation”的文章。这是哥伦比亚的桑坦德工业大学和美国的斯坦福大学之间的合作研究成果。
在我们的日常生活中,始终联网的智能手机的广泛使用导致对用户隐私和安全的担忧日益增加。如何开发保护隐私的计算机视觉系统?特别是,我们希望防止摄像头获取可能包含隐私信息的详细视觉数据,并且最好在硬件级别。然而,我们也希望摄像头捕捉有用的信息,以便了解周围的物体和正在进行的事件,并执行计算机视觉任务。
几十年来,摄像头一直被设计成模仿人类的视觉系统。固定了光学系统之后,我们使用摄像头获取多张高保真图像,然后调整计算机视觉算法以优化它们在特定任务中的准确性。大多数计算机视觉应用,甚至是隐私保护方法,都依赖于这种传统的光学成像系统。例如,可以检测对隐私敏感的日常情况,并使用机械快门启用或禁用第一人称摄像头。然而,这种方法对传统摄像头获取的高分辨率视频执行软件级处理,可能就已经包含了在攻击中易暴露的隐私敏感数据。
受光学和算法联合设计趋势的启发,研究人员通过在端到端框架中优化光学编码器(硬件级保护)和软件解码器(卷积神经网络)来解决基于隐私保护的人体姿态估计问题。研究人员在光学编码器中引入了视觉隐私保护层,经过适当的参数化,可以优化光学镜头的点扩散函数(PSF)。研究人员通过广泛的模拟和原型摄像头验证了上述方法,展示了基于隐私保护的“深度光学(deep-optics)”方法成功地降低或抑制了隐私属性,同时保证了重要特征来执行人体姿态估计。
人体姿势估计的传统光学方法
人体姿势估计的隐私保护光学方法
研究人员采用“深度光学”方法——这是一种基于深度学习的方法,其中神经网络不仅用于识别人体姿势,还用于训练基于隐私保护的PSF。神经网络经过训练以在两个相互竞争的要求之间取得平衡:(1)隐藏场景信息,使人脸在RGB图像中无法识别(即使在图像去模糊之后),同时确保(2)PSF失真不会过多以至于姿势估计变得不可能。
在端到端框架中优化光学编码器(硬件级保护)和软件解码器(卷积神经网络)以实现基于隐私保护的人体姿态识别,其中光学编码器主要由带有凸薄透镜和DOE的摄像头组成
研究结果看起来很有希望,他们甚至使用波前调制器构建了一个概念验证硬件原型。请注意,人脸在RGB图像中无法识别,但算法仍然可靠地识别出“火柴棍”骨架——人体姿态。