7月26日上午,由中國人工智能學(xué)會(huì)主辦、新浪新聞聯(lián)合浙江大學(xué)承辦的2020全球人工智能技術(shù)大會(huì)(2020GAITC)“AI時(shí)代下的新媒體與社交娛樂”專題論壇拉開帷幕,新浪集團(tuán)首席信息官、新浪AI媒體研究院院長王巍,浙江大學(xué)特聘教授、悉尼科技大學(xué)教授、百度研究院訪問教授楊易共同擔(dān)任論壇主席。
新加坡國立大學(xué)(NUS)計(jì)算機(jī)學(xué)院院長 Mohan Kankanhalli 在本次專題論壇上,與來自業(yè)界、學(xué)術(shù)界的嘉賓們分享了《人工智能時(shí)代下的多媒體隱私保護(hù)》。
新加坡國立大學(xué)(NUS)計(jì)算機(jī)學(xué)院院長Mohan Kankanhalli
Mohan Kankanhalli提到,對(duì)抗機(jī)器學(xué)習(xí),是人工智能領(lǐng)域里一個(gè)非常熱門的技術(shù)。那么,什么是對(duì)抗機(jī)器學(xué)習(xí)呢?對(duì)抗機(jī)器學(xué)習(xí)是一種機(jī)器學(xué)習(xí)技術(shù),旨在通過輸入一定的欺騙來愚弄機(jī)器學(xué)習(xí)模型。 對(duì)輸入的不魯棒是導(dǎo)致機(jī)器學(xué)習(xí)模型出現(xiàn)故障的常見原因,從而使得很多機(jī)器學(xué)習(xí)算法的識(shí)別效果并不理想。比如,我們有一輛自動(dòng)駕駛汽車,它看到一個(gè)停車標(biāo)志。如果這個(gè)停車標(biāo)志上有一些污漬,那么自動(dòng)駕駛汽車的算法就無法成功識(shí)別眼前的停車標(biāo)志。因此科學(xué)家的做法是,利用某些敏感屬性來欺騙機(jī)器,使得機(jī)器在面對(duì)這些欺騙時(shí),仍能做出正確識(shí)別與判斷。我們使用脫敏技術(shù)來對(duì)抗機(jī)器學(xué)習(xí),以保護(hù)我們的隱私,同時(shí)又讓人類察覺不出這些變化。他認(rèn)為,不論是研究人員,企業(yè)還是消費(fèi)者,不論是用戶還是公民,我們都需要重視隱私保護(hù),不僅是傳統(tǒng)的針對(duì)人的隱私保護(hù),也有針對(duì)機(jī)器的隱私保護(hù)。
以下為Mohan Kankanhalli演講實(shí)錄,內(nèi)容經(jīng)編輯略有刪減:
感謝主辦方邀請(qǐng)我參加這次盛會(huì),我深感榮幸。今天,我打算跟大家聊聊隱人工智能時(shí)代下的多媒體隱私保護(hù)。我在接下來的半小時(shí)里將重點(diǎn)談?wù)勓巯虏粩喑霈F(xiàn)的一些新的隱私問題,以及,更重要的——人工智能如何幫助我們緩解這些隱私問題。我今天的演講,將從一個(gè)新的問題著手,然后再介紹一些我們嘗試解決這個(gè)問題的一些思路。最后,我打算說說這個(gè)領(lǐng)域內(nèi)的一些尚待解決的問題,希望能給學(xué)校和行業(yè)里的研究人員帶來幫助。
那么,我今天演講的主題就叫做《人工智能時(shí)代下的多媒體隱私保護(hù)》。
首先,我要感謝我的合作者們,他們也為這項(xiàng)研究做了很多貢獻(xiàn),他們是我的博士生Shen Zhiqi,以及2位我團(tuán)隊(duì)中的高級(jí)研究員Fan Shaojing和Yongkang Wong還有我的合作者Tian-Tsong Ng。我們的研究是由新加坡的國家研究基金贊助。
這些日子,大家一定在大眾媒體上看到過各種各樣的頭條報(bào)道,講的都是和歐盟推出的十分具有影響力的《通用數(shù)據(jù)保護(hù)條例》(“GDPR”)有關(guān)。新加坡也有自己的數(shù)據(jù)保護(hù)法規(guī):《個(gè)人數(shù)據(jù)保護(hù)法》(“PDPA”)。其他國家也在制定各自的隱私保護(hù)法。
所以,每個(gè)人自然而然地會(huì)有這么一個(gè)疑問:為什么隱私在今天會(huì)變得如此重要?顯然,隱私不是一個(gè)新概念。隱私問題自人類社會(huì)出現(xiàn)以來就已存在,只是,在最近幾年,我們對(duì)隱私的關(guān)注突然間大幅上升。
在我看來,隱私問題成為焦點(diǎn)的主要原因在于數(shù)字化生活的增加。我們都在使用電子郵件和聊天應(yīng)用,我們?cè)诙鄠(gè)社交媒體平臺(tái)上活動(dòng)。不管是因?yàn)樯缃换蚵殬I(yè)的緣故,我們無不使用大量照片,比如,我們的智能手機(jī)都可以拍照和拍視頻,然后我們又分享這些照片和視頻。手機(jī)有各種各樣的傳感器,包括定位傳感器。物聯(lián)網(wǎng)設(shè)備,比如智能電表,可以監(jiān)控我們的用水量和用電量。我們的很多健康數(shù)據(jù)也以數(shù)字形式存儲(chǔ),像傳統(tǒng)的影像照片如X光片、CT掃描或核磁共振成像等等。甚至簡單的設(shè)備,比如我們使用的可穿戴設(shè)備,也會(huì)記錄我們的步數(shù)、心率和血壓,然后這些數(shù)據(jù)也全部以數(shù)字形式存儲(chǔ)。我們的金融交易、財(cái)務(wù)數(shù)據(jù)也以數(shù)字形式存儲(chǔ)。我們都使用電商系統(tǒng),會(huì)被各種推薦。在各種平臺(tái)上,廣告主向我們投放廣告。所以,總的來說,因?yàn)榧夹g(shù),我們的生活越來越美好。我們都希望享受科技帶來的好處,但是,有些新科技也不可避免地存在一些弊端。但我們又不希望受到技術(shù)的負(fù)面影響。比如,讓我們以健康數(shù)據(jù)為例。我猜,大家或多或少地都用過可穿戴設(shè)備,比如智能手表等,這些設(shè)備會(huì)監(jiān)測我們的健康狀況。但我們并不希望自己的健康數(shù)據(jù)為保險(xiǎn)公司所濫用,以增加我們的保費(fèi)。我們也不希望這些敏感的家庭細(xì)節(jié)被第三方公司知道,或被雇主知道。因此,我們作為用戶,越來越意識(shí)到隱私的重要性,也因此,我們難免不會(huì)擔(dān)心,在使用科技的時(shí)候,自己的隱私是否被侵犯。并且,這個(gè)問題與我們是否是一個(gè)好公民無關(guān),我們絕大多數(shù)人都是誠信守法的好公民。所以,該是私密的,仍應(yīng)該是私密的。那么,技術(shù)可以帶來好處。但不幸的是,技術(shù)也存在缺陷。我們又該如何克服這些缺陷呢?
我在今天的演講中想告訴大家的一點(diǎn)是,技術(shù)其實(shí)可以幫助我們保護(hù)隱私。我會(huì)從一個(gè)新的隱私問題,即針對(duì)機(jī)器的隱私保護(hù),這方面來展開討論。所有數(shù)據(jù),尤其是我們獲得的、存儲(chǔ)的和分析的可視化數(shù)據(jù),比如這里我用照片來做例子。以前只有底片相機(jī)的時(shí)候,我們每拍一張照片都很認(rèn)真仔細(xì),但現(xiàn)在不一樣了,我們每天左拍拍右拍拍,積累了大量照片,我們的手機(jī)上和其他設(shè)備上,有成千上萬的照片。人工查看所有這些照片,幾乎不太可能。所以,我們借助算法來做這件事。這是一個(gè)人工智能機(jī)器學(xué)習(xí)算法,比如搜索引擎,可以幫助我們搜索感興趣的數(shù)據(jù)。也就是說,如今,在我們看到任何數(shù)據(jù)之前,機(jī)器已經(jīng)首先對(duì)數(shù)據(jù)做了一遍搜索,找出所需的子集照片,再把結(jié)果反饋給我們,以供查看。所以一個(gè)新的問題就是,看到這些敏感的隱私數(shù)據(jù)的不只是我們?nèi)祟?算法或者說機(jī)器,也可以推斷這些敏感的隱私數(shù)據(jù)。
這就是我們想要重點(diǎn)討論的問題。以往,我們說到隱私的時(shí)候,比如說我們有一些敏感信息,像工資之類的,我們所說的隱私保護(hù),是不希望有其他人知道這些信息。這個(gè)問題只涉及針對(duì)人的隱私保護(hù),也就是說,只有獲得授權(quán)的人可以訪問敏感數(shù)據(jù),而不是人人都可以訪問這些數(shù)據(jù),這是一個(gè)很重要的問題。當(dāng)然,這個(gè)問題一直都很重要。這里,我把這個(gè)問題稱為“針對(duì)人的隱私保護(hù)”。但是現(xiàn)在,我們又有了一個(gè)新的問題,“針對(duì)機(jī)器的隱私保護(hù)”,即人類在獲得某些數(shù)據(jù)之前先使用算法來處理數(shù)據(jù),而這些算法本身可以推斷或了解敏感數(shù)據(jù)。這是一個(gè)最近才浮現(xiàn)的新問題。為什么這么說呢?假設(shè),有一個(gè)人,本來他是不能獲得你的敏感數(shù)據(jù)的,但是這個(gè)人使用某個(gè)機(jī)器學(xué)習(xí)算法來找到你的數(shù)據(jù)。如果,我們可以防止機(jī)器學(xué)習(xí)算法找到這些敏感數(shù)據(jù),那么這個(gè)人也就沒辦法獲得這些數(shù)據(jù),這可以幫助我們同時(shí)針對(duì)機(jī)器和人類(那些未被授權(quán)訪問特定數(shù)據(jù)的人),保護(hù)個(gè)人隱私。
接下來,我主要以圖像為例子。然后和大家分享一下我們的這個(gè)研究,即在圖像方面,提供針對(duì)機(jī)器的隱私保護(hù)。
我再舉一個(gè)例子。我的學(xué)生Shen Zhiqi,他去年在一次大會(huì)上拍下了一張照片,想分享給他的朋友。生活中有好多人會(huì)隨手拍下一些照片,然后和朋友分享這些照片。但是,有些人,他們并不想和別人分享自己的照片。其實(shí),我們不希望社交媒體平臺(tái)在非必要的時(shí)候訪問我們的數(shù)據(jù),當(dāng)然,我們?cè)谑褂眠@些平臺(tái)的時(shí)候,他們就可以訪問這些數(shù)據(jù)。但更重要的是,我們不希望任何人或任何公司從網(wǎng)絡(luò)上抓取數(shù)據(jù),然后使用這些數(shù)據(jù)。我們不希望有第三方,利用這些數(shù)據(jù),以我們反感的方式,向我們推銷一些產(chǎn)品。他們從網(wǎng)絡(luò)上抓取數(shù)據(jù),然后使用跟我們有關(guān)的敏感數(shù)據(jù)。至于,針對(duì)社交媒體平臺(tái),保護(hù)數(shù)據(jù)隱私,我不認(rèn)為技術(shù)是合適的解決方案。隱私,在我看來,是一個(gè)社會(huì)技術(shù)問題,光靠技術(shù)無法解決。我們還需要法律和法規(guī)的協(xié)助。所以,我們有GDPR,在新加坡我們有個(gè)人數(shù)據(jù)保護(hù)法等等。根據(jù)個(gè)人數(shù)據(jù)保護(hù)法,在使用用戶數(shù)據(jù)之前,你需要首先征得用戶的同意,所以,我們需要監(jiān)管法規(guī)。但是對(duì)于第三方,一個(gè)隨機(jī)的人或公司,事情有點(diǎn)不一樣。我們相信,我們的研究可以提供一些幫助,接下來我會(huì)解釋為什么有幫助。
我今天演講的主題就是如何針對(duì)機(jī)器保護(hù)隱私。對(duì)于我們討論的數(shù)據(jù)類型,也就是圖像,我們想要拍照,想要跟朋友分享。所以,圖像應(yīng)具有較高的視覺品質(zhì),兼具藝術(shù)感和功能性。另一方面,它還可以保護(hù)數(shù)據(jù)不會(huì)被其他人根據(jù)敏感屬性搜索該數(shù)據(jù)。那么,哪些是敏感屬性呢?敏感屬性,它可以是性別、是種族、年齡等等。不僅面部圖像如此,其他任何圖像都是如此,因?yàn)槲恢眯畔⒁部梢孕孤峨[私。比如,如果你在醫(yī)院拍了一張照片,而你又不是醫(yī)生,那么你在醫(yī)院的原因很有可能是因?yàn)槟慊蛘吣闵磉叺娜丝赡茏≡毫?這就泄露了你或其他人的健康信息。其實(shí),大多數(shù)情況都是如此。那我們的研究希望做什么呢?
請(qǐng)看這兩張圖像。我們來對(duì)比下左邊的這張是原始圖像。如果一個(gè)人看到這張圖,尋找某些特定的敏感特征,比如我列在下面的這些。第一個(gè),圖片里有人嗎?一個(gè)人看到這張圖后,他會(huì)說,是的,圖片里有人。圖片里有文字嗎?圖片里有一些德文字母,所以一個(gè)人看到后,他會(huì)說,有。圖片里有任何被拍攝對(duì)象嗎?我覺得他們?cè)诤饶撤N飲料,我們可以聚焦這一點(diǎn)。圖片美嗎?當(dāng)然,看到人們享受快樂的時(shí)光怎么不美。這是一張美妙的圖片,快樂的圖片,一個(gè)人看到后,他會(huì)說:是的。接下來,如果讓機(jī)器學(xué)習(xí)分類器和人工智能算法閱讀這張圖片,它也可以給出一樣的判斷。圖片里有人,有文字,有被拍攝對(duì)象,圖片是美的,快樂的。但是我們要做的工作是,調(diào)整一下這張圖片。我們給圖片加入一點(diǎn)點(diǎn)噪音,然后得到右邊的這張圖片。在右邊這張調(diào)整過的圖片里,你甚至看不到任何添加的噪音。所以,從人類視角來看,右邊的圖片和左邊的完全一模一樣。如果讓一個(gè)人看右邊的這張圖片,他看的內(nèi)容跟左邊的沒什么兩樣。但是,右邊的圖片里加入了一些特殊的噪音。這不是普通的噪音,而是精心設(shè)計(jì)過的噪音,當(dāng)算法再查看這張圖片,它就沒辦法從圖片里檢測到人像。所以你可以看到,在右邊圖片下方的這一欄里,圖片里有人嗎?機(jī)器判斷的結(jié)果顯示,沒有。圖片里有文字嗎?機(jī)器判斷的結(jié)果顯示,也是沒有。然后,可能因?yàn)槲覀儾惶P(guān)注被拍攝對(duì)象等其他內(nèi)容,所以算法仍然可以檢測到這些。所以,我們可以控制機(jī)器可以從圖片里識(shí)別哪些敏感內(nèi)容,不可以識(shí)別哪些內(nèi)容,我們可以控制這個(gè)。我們的技術(shù)要做的也正是這些。
我給大家介紹一下,我們的技術(shù)是如何做到這一點(diǎn)的。
首先,我們的目標(biāo)是什么?
我們的目標(biāo)是,在敏感屬性方面,欺騙機(jī)器,同時(shí)又讓人類察覺不出這些變化。這里,我們使用對(duì)抗機(jī)器學(xué)習(xí)來保護(hù)隱私。對(duì)抗機(jī)器學(xué)習(xí),是人工智能領(lǐng)域里一個(gè)非常熱門的技術(shù)。那么,什么是對(duì)抗機(jī)器學(xué)習(xí)呢?對(duì)抗機(jī)器學(xué)習(xí)其實(shí)是當(dāng)前機(jī)器學(xué)習(xí)算法的一個(gè)問題。很多機(jī)器學(xué)習(xí)算法的識(shí)別效果其實(shí)并不佳。比如,我們有一輛自動(dòng)駕駛汽車,它看到一個(gè)停車標(biāo)志。如果這個(gè)停車標(biāo)志上有一些污漬,那么自動(dòng)駕駛汽車的算法就無法成功識(shí)別眼前的停車標(biāo)志。
目前,對(duì)抗機(jī)器學(xué)習(xí)基本上是隨機(jī)偶然的,但我們希望系統(tǒng)性地使用對(duì)抗機(jī)器學(xué)習(xí)來保護(hù)隱私。我們希望讓大多數(shù)場景圖片里的敏感屬性無法被算法識(shí)別。同時(shí),我們也希望加入的噪音足夠少,不影響圖像本身的視覺質(zhì)量。
所以,在給圖片增加噪音之前,我們要弄明白,人類是如何感知圖片的?人們又是如何感知噪音的?我們先來了解一下人類的感官特征。我們來看左邊這部分。我們研究人類,然后了解人類的視覺系統(tǒng),然后利用我們對(duì)人類視覺系統(tǒng)的了解,生成我們稱之為“敏感性感知圖像擾動(dòng)”的模型,等一下我會(huì)繼續(xù)詳細(xì)解釋這個(gè)模型,F(xiàn)在,我們先來看一下我們研究的整體框架,首先,是人類研究,即了解人類如何感知視覺變化。其次,我們?cè)O(shè)計(jì)一個(gè)機(jī)器學(xué)習(xí)模型,生成人類無法察覺的擾動(dòng)噪音。最后,我們需要驗(yàn)證我們的方法,看看它是否有效,以及有多有效,當(dāng)然還有結(jié)果。
那么我們來看第一部分。人類研究。我們準(zhǔn)備了一組圖像,然后給圖像加入高斯噪音。比如,下面這四張圖。最左邊的是原圖;第二張圖里,我們給人像加入高斯噪音;第三張圖里,我們給人像腦袋上頂著的盤子加入高斯噪音;在最后一張圖里,我們給背景加入高斯噪音。然后我們利用亞馬遜人端運(yùn)算平臺(tái)上的工人——也就是人類——區(qū)分原圖和修改過的圖。我們讓工人查看兩張?jiān)诓煌恢镁哂胁煌潭仍胍舻膱D像,然后,我們讓他們回答,哪個(gè)圖像被修改過,哪個(gè)被加入了噪音,是左邊的圖像A還是圖像B,還是兩張圖像是一模一樣的,沒有任何噪音。我們做了很多測試,讓數(shù)百人查看大量在不同位置具有不同程序噪音的對(duì)比圖像。我們做了大量的這種人類的主觀實(shí)驗(yàn),然后通過分析實(shí)驗(yàn)數(shù)據(jù),我們發(fā)現(xiàn)了一些有趣的認(rèn)識(shí)。第一,人類對(duì)積極的情感物體比對(duì)消極的情感物體更加敏感。也就是,如果一張圖片里有一張笑臉,那么我們給笑臉增加噪音的話,人類會(huì)立即發(fā)現(xiàn)圖片被修改過。但如果圖片里是一張悲傷的臉龐,而我們給這張臉加入噪音的話,人類會(huì)更加容易忽略這細(xì)微的變化。這個(gè)發(fā)現(xiàn)十分有趣。這是有科學(xué)依據(jù)的,不是針對(duì)某一個(gè)人,而是每個(gè)人都如此。這是人類獨(dú)有的特征。我們也在我們的研究中發(fā)現(xiàn)了許多關(guān)于人類特征的見解。比如我們還發(fā)現(xiàn),人類感知非常容易受到物體和場景特點(diǎn)的影響。即,人類對(duì)越是鼓舞人心的圖片越不敏感。這意味著,對(duì)這類圖片,我們不能增加太多的噪音。在我們的研究論文中,我們羅列了其他的發(fā)現(xiàn)結(jié)果;诘谝徊糠值娜祟愌芯,我們提出了一個(gè)新概念:“人類敏感性示意圖”。拿到一張?jiān)瓐D后,我們?yōu)槠淅L制一張敏感性示意圖,它可以告訴我們?cè)谶@張圖里,哪些區(qū)域是敏感區(qū)域,應(yīng)該避免加入噪音。比如,下面這三張圖。左邊是原圖,中間是敏感性示意圖。在中間這張圖里,你可以看到紅色標(biāo)記的地方,那里原來是破碎的瓶子,意思是,我們應(yīng)該避免在標(biāo)記的區(qū)域增加噪音,但是其他地方,我們可以加入噪音。需要注意的是,人類敏感性示意圖有別于顯著圖。視覺顯著性已經(jīng)被廣泛研究過。我們的敏感性示意圖和顯著圖不同。比如,你看,最右的那張顯著圖顯示,那條魚是圖中的最顯著物體。但是,在對(duì)抗機(jī)器學(xué)習(xí)中,如果是從人類敏感性角度出發(fā)的隱私保護(hù),那么玻璃瓶才是最敏感的物體。當(dāng)然,我們就需要避免給瓶子增加噪音,但是給魚加噪音就沒有問題。接下來,我要介紹的是我們的模型,以及我們模型的原理。
我們已經(jīng)從人類主觀視覺認(rèn)知研究中對(duì)人類感知獲得充分的了解,下一步是將這些知識(shí)融入到我們的對(duì)抗機(jī)器學(xué)習(xí)模型中。這是我們模型的整體結(jié)構(gòu),包括一個(gè)輸入圖像,然后在右上角是我們基于這張圖生成的人類敏感性示意圖。然后在這張圖像上,根據(jù)我們想要保護(hù)的敏感屬性(比如,我們想要圖像里的其他人臉),我們可以生成一個(gè)擾動(dòng)噪音。知道圖像中哪些是敏感區(qū)域,哪些可以增加噪音后,我們可以消除想要保護(hù)的敏感屬性,就這樣我們定義了整個(gè)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。今天我就不深入解釋這個(gè)模型,但會(huì)大概地講述一下它的工作原理。
首先,我們需要一個(gè)經(jīng)過訓(xùn)練的多類分類器。為什么呢?請(qǐng)繼續(xù)往下看。我們想要做的事情呢,是保護(hù)圖片里的敏感屬性。那么現(xiàn)在,以這張圖為例,其中哪些是敏感屬性呢?在這張圖里,我覺得敏感屬性很明顯,圖里有人,有人臉,F(xiàn)在,我們也可以把年齡納入敏感屬性。比如,我們不想要任何兒童照片,因?yàn)樵谏缃幻襟w上,有第三方公司試圖抓取平臺(tái)上的所有兒童照片,所以我們希望阻止這樣的事情發(fā)生,那么圖像中的寶寶內(nèi)容也會(huì)是我們要保護(hù)的屬性。所以我們可以決定,我們想要保護(hù)的內(nèi)容。而在這個(gè)特殊的例子中,我們要保護(hù)的是出現(xiàn)的人和人臉。但我們也可以簡單地說要保護(hù)的是兒童,或者女性,即性別,因?yàn)閳D中也出現(xiàn)了女性?傊,我們可以決定要保護(hù)的內(nèi)容。然后,我們?cè)O(shè)計(jì)了一個(gè)經(jīng)過訓(xùn)練的多類分類器,它可以識(shí)別這些敏感屬性,我們打算用這個(gè)算法來保護(hù)隱私。對(duì)算法進(jìn)行訓(xùn)練之后,我們的下一步是生成敏感性示意圖。我再來解釋一下,什么是敏感性示意圖。左邊這張圖,是我們想要保護(hù)的圖片,所以,我們要從這張圖里找出,哪些區(qū)域不能加噪音,哪些區(qū)域可以加噪音。然后,我們?cè)O(shè)計(jì)了這個(gè)結(jié)構(gòu),圖片經(jīng)過處理后,可以得到右邊的這張示意圖,大小跟原圖一樣。它可以告訴你,哪些區(qū)域可以加噪音,哪些區(qū)域不可以。比如,黑色的地方是可以加噪音的。簡言之,敏感性示意圖就是告訴你哪里可以加噪音,哪里不可以。最后是生成擾動(dòng)噪音,這也是最關(guān)鍵的部分,意味著我們不得不損失一些功能性,例如敏感度圖像差異損失和屬性預(yù)測損失。我們想要實(shí)現(xiàn)的,就是生成最少量的噪音,這些噪音最后會(huì)根據(jù)敏感性示意圖添加到圖片中,不是加在這里,而是在這些位置。這樣,我們的分類器就無法識(shí)別圖片中的人類,也無法識(shí)別圖片中的人臉。我們有了這最后的功能,然后我們給算法做了訓(xùn)練。當(dāng)然,訓(xùn)練過程必不可少。這是做訓(xùn)練的一個(gè)非常標(biāo)準(zhǔn)的深度學(xué)習(xí)結(jié)構(gòu)。一旦訓(xùn)練完成后,輸入一張圖片,我們就可以生成它的敏感性示意圖和相應(yīng)的噪音,再把噪音加入圖像中,F(xiàn)在,當(dāng)你想要分享這張寶寶和母親的照片時(shí),你可以把原圖輸入算法,給圖片加上不易察覺的噪音,然后再在社交媒體上和親朋好友分享處理后的圖片。照片很漂亮對(duì)吧?但是,如果有第三方想要下載這張照片,想要下載帶兒童內(nèi)容的照片時(shí),他們不會(huì)搜索到這張圖。
為什么呢?因?yàn)槲覀兘o圖片加了噪音,所以分類器無法識(shí)別到這張圖。然后我們也做了實(shí)驗(yàn)來驗(yàn)證最終的效果。例如,左邊的這張是原圖,右邊的這張是擾動(dòng)后的圖片。右側(cè)表格給出了人物存在的屬性值。你可以注意到,擾動(dòng)處理前,人物存在的屬性值很高。如果屬性值很高,即意味著算法可以識(shí)別出圖中存在人物。處理后,人物依舊存在,但屬性值偏低,意味著機(jī)器已經(jīng)被欺騙,無法識(shí)別圖中的人物。
另一方面,對(duì)于我們沒有保護(hù)的被拍攝物體,混淆矩陣基本沒有變化。在擾動(dòng)處理前,算法認(rèn)為圖中有被拍攝物體,在擾動(dòng)處理后,算法還是認(rèn)為圖中有被拍攝物體。所以,機(jī)器只是無法識(shí)別被保護(hù)的敏感屬性,但仍可以有效識(shí)別出非敏感屬性。
(Attributes 即人物存在的屬性值)
我們也將原圖與其他噪音類型基礎(chǔ)進(jìn)行比較,通過將噪音圖從原圖中減去,得到差異圖——即擾動(dòng)后的圖片和原圖之間的差異圖。再將我們的差異圖和敏感性示意圖進(jìn)行比較,可以看到噪音添加的位置和敏感性示意圖非常接近,這么做就是為了確保噪音不易被察覺。我們也讓亞馬遜人端運(yùn)算平臺(tái)上的工人查看我們的圖片,他們基本上看不出哪些圖片有噪音。所以,這個(gè)方法是可行的。
總結(jié)一下,我們對(duì)人類視覺感知做了全面的研究,然后提出敏感性示意圖這個(gè)新概念。我們使用對(duì)抗機(jī)器學(xué)習(xí)來開發(fā)一個(gè)敏感性感知圖像擾動(dòng)模型,以針對(duì)機(jī)器保護(hù)隱私。這里是代碼和數(shù)據(jù)的二維碼,我們提供了數(shù)據(jù)集,模型和代碼等等,如果感興趣的話,大家可以下載查看。
我們這算是解決了針對(duì)機(jī)器如何保護(hù)隱私的難題嗎?我的回答是“沒有”。
我們的模型只是這種方法的第一個(gè)嘗試。我們的最大局限性在于我們的方式以模型為主。還記得我們使用的多類分類器嗎?在欺騙機(jī)器之前,我們首先需要知道該機(jī)器使用的分類器。尚待解決的研究問題是如何生成與模型無關(guān)的擾動(dòng)。它可以是其他的一些深度學(xué)習(xí)模型,或者支持向量機(jī)或者決策樹,或者任何類型的分類器。我們是否可以開發(fā)出一個(gè)通用的圖像擾動(dòng)技術(shù),可以用于欺騙所有類型的分類器,哪怕我們并不知道對(duì)方具體使用的是哪一種分類器?這是一個(gè)非常有趣同時(shí)又極具挑戰(zhàn)的問題,我們會(huì)繼續(xù)往這方面努力。
其次,目前我們的方法僅適用于圖像。那么我們?nèi)绾尾拍苡行У蒯槍?duì)文本數(shù)據(jù)、視頻數(shù)據(jù)、音頻數(shù)據(jù)以及一般的多媒體數(shù)據(jù),生成擾動(dòng)噪音呢?這也是我們繼續(xù)要深入的領(lǐng)域。
事實(shí)上,我們還有很多十分重要的問題待解決。其中之一就是,在這些圖片中,哪些算是敏感的隱私內(nèi)容呢?傳統(tǒng)思維會(huì)認(rèn)為,指紋是隱私;時(shí)間日期、人、臉、車牌等是隱私,我們也可以遮擋這些,這些都是針對(duì)人的隱私保護(hù)。但現(xiàn)在,我們?cè)賮砜聪旅娴恼掌D中有一輛車和兩個(gè)人站在車邊。我不知道這兩個(gè)人是誰,但是為了保護(hù)隱私,很多人會(huì)像這樣給人物打上馬賽克(如中間圖片所示)。但其實(shí)這并沒什么用。為什么?因?yàn)槿绻抑肋@輛車的車主是誰,那我就可以推斷出旁邊的兩個(gè)人是誰。
所以,問題是如何才能刪除可能泄露圖像隱私的內(nèi)容?不僅是因?yàn)閳D中出現(xiàn)了你的臉或你在圖中,別人就可以認(rèn)出你。圖里出現(xiàn)你的一些東西或關(guān)于你特征的信息也會(huì)泄露你的隱私。這又是一個(gè)有趣的尚待解決的問題。
另一個(gè)問題是對(duì)象共現(xiàn)隱私。我們來看這張圖片。我們可以從中看到什么?我們可以說,從中看到一個(gè)女孩。但假如我們可以看到整張圖片呢?那我們又可以從圖中推斷出什么信息呢?
讓我們來看看完整的圖片。
這時(shí),你再看到這張圖片時(shí),你會(huì)推測,這個(gè)女孩正在跟一名醫(yī)生交流,意味著女孩可能得了某種疾病,而這又是隱私。所以,單個(gè)的對(duì)象可能不會(huì)泄露隱私,但共現(xiàn)對(duì)象(和其他對(duì)象一起出現(xiàn)時(shí))可能會(huì)泄露隱私。在這種情況下,怎么保護(hù)隱私又是一個(gè)值得探究的問題。
還有一個(gè)問題是歷史數(shù)據(jù)隱私。我們來看左邊的兩張圖。上圖顯示,有人發(fā)了一串文本信息,提到了湯姆(“我要和湯姆一起喝一杯!),接著,這個(gè)人又發(fā)布了一張圖片,配文我和朋友一起喝酒了。那么在這里,你可以把“我要和湯姆一起喝一杯。”跟那張?zhí)岬胶团笥岩黄鸷染频膱D片聯(lián)系在一起。這類數(shù)據(jù)在社交媒體上不是獨(dú)立的。你可以從歷史數(shù)據(jù)中推斷出某些隱私。那么,我們?nèi)绾卧谏缃幻襟w上就歷史數(shù)據(jù)保護(hù)隱私呢?這也是一個(gè)需要解決的問題。
一般而言,在數(shù)字化的今天,集中式數(shù)據(jù)庫中有大量的敏感信息。在某個(gè)集中的地方,可能會(huì)存在大量的隱私泄露問題。所以,眼下,很多研究人員都提出一個(gè)問題:如果我是某個(gè)電商系統(tǒng)的用戶,我的搜索記錄和購買行為不應(yīng)該存儲(chǔ)在電商網(wǎng)站上,而只應(yīng)該存儲(chǔ)在我自己的設(shè)備上,本地設(shè)備上。那么問題是,我們可以從中學(xué)習(xí)嗎?因?yàn)楹芏嗖煌南M(fèi)者在網(wǎng)站上進(jìn)行搜索。對(duì)于電商公司而言,我需要所有消費(fèi)者的匯總數(shù)據(jù)。但我不需要知道某個(gè)特定用戶的數(shù)據(jù),所以,問題的關(guān)鍵在于,如果敏感信息保存在用戶的本地設(shè)備上之后,我們能否繼續(xù)有效地執(zhí)行機(jī)器學(xué)習(xí)任務(wù),比如推薦和預(yù)測等等?在不侵犯用戶數(shù)據(jù)隱私的前提下,真正獲得我們想要的見解?如果可以的話,那當(dāng)然再好不過。
現(xiàn)在越來越多的工作通過聯(lián)邦機(jī)器學(xué)習(xí)和聯(lián)邦推薦系統(tǒng)完成。我也相信,隨著時(shí)間的推移,這也會(huì)變得越來越重要。我相信,數(shù)字時(shí)代下的隱私保護(hù)即隱私保護(hù)數(shù)據(jù)分析。怎么理解呢?我們還是用健康數(shù)據(jù)為例。如果我的健康數(shù)據(jù)對(duì)改善治療、藥物和療程有幫助的話,我不介意和研究人員分享我的健康數(shù)據(jù)。但是另一方面,我分享的健康數(shù)據(jù)不用被用來針對(duì)我本人,保險(xiǎn)公司不能因?yàn)槲覟檠芯磕康姆窒淼慕】禂?shù)據(jù)而提高我的保費(fèi)。所以我們是否可以用這樣的方式做隱私保護(hù)數(shù)據(jù)分析呢?以便讓人工智能和機(jī)器學(xué)習(xí)更好地發(fā)揮它們的優(yōu)勢?當(dāng)然,隱私問題也需要給予重視。這些會(huì)隨著時(shí)間的推移,變得越來越重要。
接下來我們來到今天演講的尾聲。我相信,隱私問題對(duì)用戶極其重要,用戶們也越來越重視他們的隱私數(shù)據(jù)和敏感數(shù)據(jù)。我相信,這不僅關(guān)于用戶,也關(guān)乎企業(yè)和行業(yè)。如果企業(yè)和行業(yè)重視用戶的隱私問題的話,他們其實(shí)也可以從中受益。比方說,假設(shè)很多公司都在嘗試獲得消費(fèi)者,他們都在銷售一款相同的產(chǎn)品,那么唯一讓你的產(chǎn)品或服務(wù)與眾不同的是,告訴消費(fèi)者我的產(chǎn)品或服務(wù)重視隱私。我相信,如果其他各方面都一樣,但你的產(chǎn)品或服務(wù)更加重視隱私的話,消費(fèi)者一定會(huì)選擇你的產(chǎn)品或服務(wù)。因此,我認(rèn)為,從行業(yè)和企業(yè)的角度而言,重視隱私,會(huì)帶來長遠(yuǎn)收益。
最后,我想告訴大家,不論是研究人員,企業(yè)還是消費(fèi)者,不論是用戶還是公民,我們都需要重視隱私保護(hù),不僅是傳統(tǒng)的針對(duì)人的隱私保護(hù),也有針對(duì)機(jī)器的隱私保護(hù)。