5月6日,同盾科技人工智能研究院團隊在院長、佛羅里達大學終身教授李曉林帶領下,經過長期打磨,重磅推出《知識聯(lián)邦白皮書》。白皮書中對知識聯(lián)邦的背景、定義、平臺、挑戰(zhàn)、場景應用以及未來發(fā)展前景進行了全方位、全景式剖析,并對人工智能3.0時代進行展望。與此同時,同盾科技人工智能研究院自主研發(fā)的基于知識聯(lián)邦體系的智邦平臺V2.1正式發(fā)布。
在原有平臺基礎上,智邦平臺V2.1版升級了安全功能、安全交換的算法和策略。同時增加了面向數據安全交換的標準產品,極大地簡化數據對接和融合的成本。此外,結合公司自身豐富的風控/營銷模型分析優(yōu)勢,提供了基于樹模型/邏輯回歸/深度神經網絡等快速部署的聯(lián)邦算法,本文重點闡述智邦平臺安全的數據和知識交換體系。
數據安全和隱私保護是聯(lián)邦的核心。知識聯(lián)邦首先將數據轉化成信息、模型、認知或知識,滿足數據不可見,再通過聯(lián)邦的方式實現數據可用,打造安全的人工智能。同時,也面臨一個安全合規(guī)問題,如何從技術端保障企業(yè)之間的數據安全,并讓大多數公司愿意加入聯(lián)邦?
智邦平臺V2.1就安全的數據和知識交換體系構建做了下列工作:
數據分級與脫敏
通常情況下,安全級別越高則意味著整體效率的降低,對此智邦平臺根據個人信息的類型、敏感程度、處理方式等對個人信息進行分類,對不同敏感等級的隱私數據進行不同層級的隱私保護,從而來平衡安全和效率的問題。比如對不同敏感等級的數據采用不同的脫敏方法,脫敏方法有部分屏蔽、泛化、哈希加密等。同時要保證去標識化和脫敏后的各方數據具有一致性。
全程過程域的數據安全和隱私保護
智邦平臺的數據安全性可以從數據完整的過程域進行評估,包括數據導入、數據存儲、數據處理、數據傳輸、數據共享、數據溯源、數據銷毀。比如在銀行的風控場景,用戶數據的敏感等級較高,但又希望能結合其他銀行或其他機構的數據特征進行特征維度的補充從而優(yōu)化建模效果。在各機構進行聯(lián)邦學習時,樣本對齊、特征選擇、模型訓練、預測等均保證數據“可用不可見”。在樣本對齊環(huán)節(jié),使用Hash函數、對稱加密算法安全快速計算參與方交集,保護交集外數據不泄漏。智邦平臺設計的業(yè)務場景是至少一方數據量級為億級別,常規(guī)的樣本對齊方式傳輸量和消耗時長非常巨大,目前智邦平臺在相同資源下,運行效率可以提升近百倍;在模型訓練和預測環(huán)節(jié),根據模型的特點采用一次一密、同態(tài)加密的方式來對梯度或模型參數進行加密,一次一密的密鑰使用Diffile-Hellman密鑰交換協(xié)議、安全偽隨機數發(fā)生器生成。
三級網絡安全域的劃分
智邦平臺將數據聯(lián)邦劃分為三個的安全域:數據提供方私有域、數據交換域、聯(lián)邦聚合域。私有域和交換域都在參與方本地,私有域持有所有原始數據;數據交換域持有脫敏后用戶身份信息(用戶姓名、身份證號或手機號等)及原始特征和標簽;聯(lián)邦聚合域不持有參與方數據,僅接收加密后的模型參數或梯度信息等,并進行聚合計算。域邊界處部署防火墻,通過防火墻策略控制白名單 IP 網段接入訪問。在不同域之間設置策略進行控制,比如在私有域中的數據放入交換域前需要按聯(lián)邦約定的方式進行脫敏、匿名化處理,同時,交換域和聯(lián)邦域通過 CA 證書雙向認證,且采用加密信道對數據發(fā)送和接收進行加密保護。智邦平臺提供交換域和聯(lián)邦聚合域的實現;私有域由參與方提供,一般為參與方數據生產環(huán)境。交換域和私有域部署在參與方本地,聯(lián)邦聚合域部署在第三方機構。
安全的第三方
智邦平臺采用的是弱中心化的分布式方法,相對強中心化的方式,弱中心化更能保證數據的安全和合規(guī)。強中心化方式第三方通常會聚集保存所有參與方的數據,且計算和學習都在中心節(jié)點完成,這種方式有數據安全隱患。另外,市場上還有采用一些完全去中心化的方法來保證數據安全,但去中心化模式沒有中心節(jié)點,需要所有參與方互聯(lián)互通。當節(jié)點規(guī)模較大時,通信成本很高,達成共識效率低下。
相較而言,智邦平臺的弱中心化模式中原始數據是保留在本地的,且不會離開本地,計算和學習仍然發(fā)生在本地,第三方的存在只是一個協(xié)調和仲裁作用,它不會觸碰和保存所有的原始數據,更多地是對參與方進行知識信息聚合,并對參與方的數據質量和貢獻進行仲裁。事實上,第三方可以是虛擬的,只是一個可審計和可追溯的機器。在數據參與方都達成共識的情況下,虛擬第三方可以部署在更擔心數據安全的一方的私有云上,也可以部署在多方都認可的公有云或專有云上。第三方也可以是實體機構,一般是一個中立的、可信的機構??尚诺谌揭WC在任何情況下都不會撒謊,也不會泄露任何不該泄露的信息。
針對實際的業(yè)務場景,例如股份制商業(yè)銀行需要面向政府機關調用相關數據接口,并需按要求留下調用用戶的部分信息。在這種場景下,政府機關的數據接口和調用的用戶信息,都應該是可用不可見且不適合對外保存的。智邦平臺V2.1提供數據安全交換功能,在單次查詢和批量調用情況下,都可以做到“數據可用不可見”。
《商業(yè)銀行法》明確規(guī)定,商業(yè)銀行不得非法查詢個人儲蓄存款,如有違反,對直接負責的董事、高級管理人員和其他直接責任人員,應當給予紀律處分。近日某行未經本人同意泄露個人銀行消費信息事件,不僅是對銀行系統(tǒng)合規(guī)性的檢視,也是公民個人隱私信息保護缺失的現狀,假如銀行內部對明文數據查詢有安全的處理機制,就可從源頭就會斷絕這類事件的發(fā)生。
由此案例可見,當下社會對知識安全交換的需求仍是普遍存在的。而業(yè)界在知識聯(lián)邦、聯(lián)邦學習的應用落地上還存在以下問題:比如如何應對各方數據數據的多樣性和訓練環(huán)境的不同,如何提升聯(lián)邦學習效率等。后續(xù)同盾也會針對智邦平臺V2.1的易用性、智能性方面展開詳細解讀。
免責聲明:以上內容為本網站轉自其它媒體,相關信息僅為傳遞更多信息之目的,不代表本網觀點,亦不代表本網站贊同其觀點或證實其內容的真實性。如稿件版權單位或個人不想在本網發(fā)布,可與本網聯(lián)系,本網視情況可立即將其撤除。