機器學習有用但也沒那麽神奇

發布日期:2017-12-26首頁 > IT資(zī)訊

AWS新服務GuardDuty和Macie,釋放(fàng)了機器學習在保護數據安全上的巨大(dà)能量。但您的企業适合采用這兩種服務嗎(ma)?


index.jpg
 

啓用基于機器學習的雲安全工(gōng)具,比如AWS新服務GuardDuty和Macie,是AWS客戶無需花費(fèi)腦筋的自然選擇。開(kāi)啓這些功能将會提升攻擊難度,攔下(xià)一(yī)大(dà)部分(fēn)攻擊者,但無法抵禦高端對手。

AWS Macie 于今年8月發布,在用戶的亞馬遜S3存儲桶内容上訓練,重點檢測PCI、HIPAA、GDPR合規問題,發現可疑活動時向客戶發出警報。AWS GuardDuty 是11月底發布的一(yī)項補充服務,采用機器學習分(fēn)析 AWS CloudTrail、VPC Flow Logs 及 AWS DNS 日志(zhì)。與Macie類似,GuardDuty也專注于異常檢測,向用戶報告可疑活動。

  從技術角度來說,這簡直令人驚豔。橫向平台提供這樣的服務,是其他人無法比肩的。

  ——《機器學習與安全》作者克拉倫斯·池奧

機器學習模型由算法和訓練數據構成,其有效性取決于訓練數據的優劣。這也是爲什麽基于機器學習的雲安全更爲卓越的原因所在。像亞馬遜這樣的雲提供商(shāng),擁有對其整個網絡的可見性,在訓練機器學習模型分(fēn)辨正常事務與惡意活動上更爲便捷。算法從來不會保密太久或是什麽長期專利,但數據源卻是任何此類産品最寶貴的資(zī)産。

雖然企業間威脅情報共享變得越來越普遍,但單個企業可獲得的數據的質量,遠遠及不上亞馬遜之類的雲提供商(shāng)。這種有用威脅情報的集中(zhōng),可能加速企業從數據中(zhōng)心遷移到雲端的步伐。

不過,優勢明顯的同時,陷阱也是存在的。

  機器學習提升了攻擊難度

機器學習模型的優劣取決于其訓練數據,但這也意味着對從未見過的東西——所謂“黑天鵝事件”,該模型不太有效。實事上,媒體(tǐ)對機器學習的描述有很多謬誤。如果撥開(kāi)所有炒作迷霧,機器學習給你的是自動化——你給它數據,它告訴你該找什麽,而不是交給人類員(yuán)工(gōng)去(qù)仔細審查所有數據。

AWS首席信息安全官史蒂芬·施密特表示:“通過采用機器學習理解每家企業的内容和用戶行爲,亞馬遜Macie可以洞穿海量數據,提供更好的可見性和更準确的警報,讓客戶得以專心保護敏感信息,而無需浪費(fèi)時間去(qù)查找。”

Macie和GuardDuty這樣的服務,能很好地捕獲S3存儲桶配置不當之類的低級錯誤,有效消除企業雲數據面臨的威脅。2017年發生(shēng)的很多數據洩露事件,比如美國陸軍/NSA情報與安全司令部(INSCOM)機密文件、美國選民數百萬數據分(fēn)析記錄的曝光,以及威瑞森(sēn)數據洩露事件,都可以由亞馬遜基于機器學習的新雲安全服務加以有效預防。

但同時,專家警告,機器學習對自适應敵手的分(fēn)類,仍是未解決的問題;基于機器學習的雲安全措施,對高端對手不太有效。

比如說,機器學習概率性分(fēn)類惡意軟件的能力,比之要麽匹配要麽不匹配的傳統殺軟惡意軟件簽名,是個巨大(dà)的進步。但基于機器學習的惡意軟件檢測,隻能在一(yī)定程度上對不确定性進行分(fēn)類。例如,“該可執行文件有80%的可能性是惡意的”。然後将該文件轉給人類分(fēn)析師做進一(yī)步檢查。

專家警告,機器學習用于檢測惡意活動仍處在起步階段,盡管基于機器學習的雲安全提升了攻擊難度,該方法對攻擊手段靈活多變的高端對手依然無效。異常檢測說起來容易做起來難,總要在真正警報和誤報率上做出平衡取舍。發現“異常”很容易,問題是幾乎所有事情在某種意義上都是異常的。從異常中(zhōng)梳理出惡意事件,才是真正的挑戰。

  自适應對手什麽樣?

12月初發表的尖端研究中(zhōng),麻省理工(gōng)學院的研究人員(yuán)展現了騙過谷歌InceptionV3機器學習圖像分(fēn)類器的能力。研究人員(yuán)3D打印了一(yī)隻海龜,從任何可能角度騙過了該機器學習模型,讓其将之分(fēn)類爲一(yī)把來複槍。

如果在學校的研究人員(yuán)都能騙過谷歌的尖端機器學習模型,基本可以想見,民族國家情報機構可能早已掌握該能力,并以之愚弄用于檢測惡意網絡活動的機器學習模型了。

或許你的威脅模型中(zhōng)沒包括民族國家黑客,或者說你覺得自己不需要擔心這個。但正如安全專家布魯斯·施奈爾常說的,今天的學院派攻擊,就是昨天的民族國家攻擊,也是明天的犯罪攻擊。攻擊隻會随時間進程越來越容易,從不會變得更難以執行。因此,我(wǒ)們可以預測,中(zhōng)期而言,普通罪犯都将能夠騙你過基于機器學習的安全工(gōng)具。

這并不意味着亞馬遜的Macie和GuardDuty就沒有價值,正好相反,防禦性安全就是要提升攻擊成本和難度,而這些基于機器學習的安全工(gōng)具恰恰提供這一(yī)點。

  拒絕炒作

機器學習與安全的交彙湧起了太多泡沫,我(wǒ)們需要理性視之。不要成爲不加批判的狂熱者(“AI是我(wǒ)們的救世主!”),也不要成爲虛無主義的悲觀者(“機器學習就是垃圾!”)。良莠不分(fēn)全盤否定不是明智的做法,應教育用戶提出問題,教育營銷人員(yuán)回答這些問題。

攻擊速度隻會越來越快,威脅情報總量隻會越來越大(dà)。實時威脅評估及響應需要自動化。無論喜不喜歡,機器學習都将存在。