首頁 精選文章 關於GDPR數據科學家和數...

關於GDPR數據科學家和數據工程師一定要注意事項

595
0

關於GDPR數據科學家和數據工程師一定要注意事項

歐盟的通用數據保護條例(General Data Protection Regulation,GDPR)將會在2018年5月25日生效。如果企業違反條例,最高需要付出4%的利潤作為罰款。因此,GDPR可以說是世界上罰款最重的數據條例。

FlipWeb要提醒企業如果違反了歐盟的GDPR條例可能遭到罰款,罰款最高相當於整個企業利潤的4%。

GDPR主要圍繞數據的收集、數據的可見性和數據的使用限制。新的工具、框架和數據管理方式需要通過最基本的“GDPR測試”,以免違反條例。GDPR為數據管理策略的現代化和數據科學應用的強化帶來了契機。歐盟最新隱私條例的推出,給企業的數據管理帶來了更多的挑戰。新條例將會給所有使用數據的應用程序帶來深遠的影響。

歐盟的通用數據保護條例(General Data Protection Regulation,GDPR)將會在2018年5月25日生效。如果企業違反條例,最高需要付出4%的利潤作為罰款。因此,GDPR可以說是世界上罰款最重的數據條例。

從理論上說,GDPR只對歐盟地區的“個人數據”有效,但實際上,任何能夠用於識別個人的數據都適用該條例。也就是說,任何歐盟地區的數據都在GDPR的管轄範圍之內,因為研究表明,只要數據足夠多,到最後都有可能關聯到與數據主體。舉個例子,最近有一組研究人員使用蜂窩位置數據(比如某一時間點某個信號塔覆蓋到的用戶數)——理論上這些數據都是匿名的——定位到個人的位置軌跡,準確率高達73%到91%。

那麽,那些在企業中負責收集、組織和使用數據的數據科學家和數據工程師們應該如何看待GDPR?他們應該如何調整他們的數據策略?

關於GDPR,你需要知道些什麽

從高層面來看,GDPR主要關注三個方面的問題:數據收集管理、數據可見性和數據使用限制。

收集管理涉及到如何管理數據和如何收集數據。GDPR要求在進行數據收集時,隱私是首要的考慮因素。例如,條例中有很多限制條件與數據主體的授權有關,也就是說,企業在收集數據時,需要讓數據主體知道,並獲得他們的同意。換言之,在企業收集用戶的數據時,用戶需要知道企業為什麽要收集數據,這一點是重中之重。

數據可見性是指了解企業持有哪些數據以及將持有多長時間。現如今,大多數企業都意識到數據就是“寶藏”,他們竭盡所能地收集數據。但大部分企業對他們所持有的數據並不了解,或者不知道該把它們存在哪里,或者在保存好以後不知道數據的來源是哪里。

在Immuta,我們通常把這看成是合規和IT架構問題,我們有數據孤島和不同的團隊,數據庫管理員負責管理各類數據。在GDPR出臺之後,這種方式就不符合規範了。如果有用戶要求刪除他們的數據(這個是經常被“遺忘”的用戶權利),企業就要找到這些數據,並刪除它們。GDPR中例舉了相關的例子。

最後,也是最重要的一點,數據使用限制指的是企業必須基於使用意圖來使用數據。例如,如果一個用戶只同意將數據用於“營銷”,那麽企業就必須遵循這樣的限制。GDPR列出了六個合理的使用意圖,企業可以在GDPR允許的範圍內制定自己的使用意圖。這個指南為企業提供了15個使用數據的建議。對於企業來說,遵循數據使用意圖是最為重要也是最大的挑戰。

如果通過基本的GDPR測試我們先假設GDPR已經生效,歐盟當局開始強制執行該條例。

實際上,在寫這篇文章的時候,GDPR還有很多模棱兩可的地方,在接下來的幾個月(甚至是幾年),條例制定者還會對其進行調整。也就是說,在條例正式生效那天,條例制定者們並不會指望能夠達到100%的合規性。他們期待的是人們能夠以一種合理、嚴肅的態度和努力來遵守條例。

通過基本的“GDPR測試”意味著什麽?

這意味著企業需要展示他們的合規性——了解收集的數據,了解數據的使用意圖,並向條例制定者和數據主體證明自己能夠做到這些。

更具體地說,企業收集的數據至少需要加入一些元數據,比如“意圖”和“收集時間”。這樣就可以更好地跟蹤數據的使用,並嚴格遵守數據的保留時間。也就是說,在持有數據一段時間之後,需要刪除或隱匿這些數據。

如果企業能夠在這些方面展示他們的合規性,從數據收集、使用到刪除,他們對數據有充分的了解,知道該持有數據多長時間,知道數據的使用意圖,並且符合GDPR的每一項要求,那麽他們就可以順利地通過基本的“GDPR測試”。

GDPR下的機遇

在聰明的企業看來,GDPR不只是一組新準則而已。那些以數據為驅動的敏捷企業把GDPR看成是一種機遇,他們會重新思考他們的整體框架,以便更好地收集和使用數據。

以亞馬遜和谷歌這樣的科技巨頭為例,他們的關鍵差異在於如何收集和使用數據。這些不是事後才來考慮的事情,而是需要進行謹慎的前期規劃。擁有正確的數據才能讓他們在行銷、零售等方面無往不勝。

事實上,教科文獻早就證實,好的監管會帶來更好的產出,在數據管理方面也是如此。更好、更長遠的數據洞見要求在數據的收集和銷毀方面進行深思熟慮和謹慎的計劃。

GDPR讓數據科學家明白了他們能夠訪問和使用哪些數據,這或許就是GDPR為我們帶來的主要機遇之一。我一直覺得“數據科學家”更像是“數據清道夫”——大多數數據科學家大部分時間都是在查找他們需要的數據上,然後訪問這些數據,把它們轉換到恰當的狀態,然後使用它們。

但這種狀況會導致大量的時間和資源的浪費。數據科學家並不是被請來做數據清道夫的,也不是為企業的數據策略做一次性解決方案的。他們的職責應該是從數據中挖掘洞見,這也是他們擅長的事情,這也就是為什麽企業高薪聘請他們。

在組織中制定全盤的數據策略,並集中管理數據,數據科學家們就可以脫身出來做他們擅長的事情,從而讓公司發展得更快,變得更高效和靈活。

GDPR實施之後會發生什麽?

我們需要以全新的方式來看待數據,隨著新規則的出現,它會變得越來越重要。事實上,不管是土耳其、台灣還是其他國家,數據變得越來越規範,對於以數據作為驅動的企業來說,數據管理變得越來越重要,也是最大的挑戰之一。

以下是幾點有關未來數據管理的洞見:

數據湖不複存在。通常在說到數據管理時,企業的第一直覺是將所有數據放到一個地方,以此來解決所有的問題。如果是出於處理數據的目的(比如Spark),這樣做是可以的。但說到數據監管和數據發現,數據湖就會成為問題。隨著數據的不斷加入、數據存儲工具的不斷出現以及底層IT架構的演進,數據湖會變成數據池塘,然後是數據沼澤。在未來,你可能需要通過集中存儲數據來解決數據管理問題。

多元化是你的好朋友。在大型組織中,以標準化的方式來存儲數據是幾乎不可能的,我建議要長遠地考慮數據管理問題。你將會擁有多元化的數據存儲系統和數據工具——事實上,多元化是不可避免的。一旦你意識到標準化並非你的首選,就要想想多元化,它才是數據管理策略的核心。

進行審計。如果你不進行審計,就無法向條例制定者證明你的數據管理框架符合條例的要求。所以,要確保自己具有集中式的審計能力,創建審計報告是數據管理策略的一個關鍵組件。另外,在必要時需要對審計進行測試。企業通常認為他們為審計所收集的數據是正確的,但經常會出現錯誤,而一旦發現出問題就為時已晚。

關於GDPR之下的未來數據管理框架還有很多可以說的。對於企業來說,最為關鍵的是,數據管理不再只是數據策略中可有可無的一個組件。數據科學在企業中的重要性與日俱增,隨著數據條例的出臺,企業需要越來越重視數據管理。

留下一個評論

Please enter your comment!
Please enter your name here