adversarial example

Recent developments in Adversarial Example, Part I

As of mid-2017 there are already many proposals to fool DNNs by adversarial example. Papernot et al (2016) proposed so far the most powerful such attack against image classifiers by exploiting transferability. According to the experiments conducted, the method can achieve nearly 90% misclassification rates for DNNs services hosted on Amazon and Google. This practical […]

adversarial example

對抗例入門說明 – 運用對抗例攻擊深度學習模型(一)

這是一系列針對對抗例(adversarial example)相關研究的綜合摘要的第一篇。本系列包括: 2017–08–29 對抗例入門說明 – 運用對抗例攻擊深度學習模型(一) 2017-10-18 對抗例攻擊與防禦手法 – 運用對抗例攻擊深度學習模型(二) 利用對抗例(adversarial example)造成深度學習模型判斷錯誤這種攻擊手法,到 2017 年中為止看來是攻擊方略佔上風,目前看來針對 Papernot et al(2016) [1]等人發表的 transfer attack 的防禦進展不大,而產生對抗例的方法仍然在持續簡化中。 Papernot et al(2016) 發表的攻擊方式是目前最具威力的一種,針對影像辨識的深度學習服務,可以透過 API 取得一些分類結果後,另外在本地訓練一個 local model,對 local model 找出可用的對抗例,轉移(transfer)回去攻擊目標 API。論文裡對 Amazon 與 Google 的服務實測都有近 90% 的成功率。簡單地說,黑箱攻擊是可行的。 所謂對抗例,是一種刻意製造的、讓機器學習模型判斷錯誤的輸入資料。最早是 Szegedy et al(2013)[2] 發現對於用 ImageNet、AlexNet 等資料集訓練出來的影像辨識模型,常常只需要輸入端的微小的變動,就可以讓輸出結果有大幅度的改變。例如取一張卡車的照片,可以被模型正確辨識,但只要改變影像中的少數像素,就可以讓模型辨識錯誤,而且前後對影像的改變非常少,對肉眼而言根本分不出差異。 這樣的例子除了顯現深度學習模型可能結果「不穩定」,而且有可能被惡意利用而有安全疑慮,因此近年來已經成為機器學習熱門的研究議題。2017 年這方面發表的研究成果,主要有加強防禦,以及更快速簡單地產生對抗例兩個方向。但是目前看來針對上述 Papernot 等人發表的 transfer attack 的防禦進展不大,而產生對抗例的方法仍然在持續簡化中。 以下將回顧對抗例的重要特性、製造對抗例的演算法,以及一些防禦的策略。下一回我們會整理一些 2017 […]