Adversarial Robustness Toolbox 是 IBM 研究团队开源的用于检测模型及对抗攻击的工具箱,为开发人员加强 AI 模型被误导的防御性,让 AI 系统变得更加安全,目前支持 TensorFlow 和 Keras 框架,未来预计会支持更多框架。
支持以下攻击和防御的方法
Deep Fool
Fast Gradient Method
Jacobian Saliency Map
Universal Perturbation
Virtual Adversarial Method
C&W Attack
NewtonFool
防御方法
Feature squeezing
Spatial smoothing
Label smoothing
Adversarial training
Virtual adversarial training