• <u id="j7xcw"><thead id="j7xcw"></thead></u>

    <wbr id="j7xcw"><table id="j7xcw"><button id="j7xcw"></button></table></wbr>
    <u id="j7xcw"></u>

      1. <wbr id="j7xcw"></wbr>
        <input id="j7xcw"></input>

        中國企業報集團主管主辦

        中國企業信息交流平臺

        微博 微信

        大模型時代,那些一起訓練AI模型的企業是怎么應對數據顧慮的?

        2022-08-25 14:18 來源:財訊網 次閱讀
         
        大模型時代,那些一起訓練AI模型的企業是怎么應對數據顧慮的?

        為訓練數據建一個TB級計算「飛地」,聯邦學習的靠譜實現方式了解一下?

        2017年,著名雜志《經濟學人》發表封面文章稱,數據已經取代石油成為當今世界最有價值的資源。在那之后,「數據是新時代的『石油』」這一說法逐漸深入人心。

        五年后的今天,人們對數據的重視又上了一個新的臺階,尤其是在AI領域。大家普遍認為,數據的質量和規模將對AI的研究和落地產生重要影響。

        在質量方面,吳恩達等學者提出,AI領域正經歷從「以模型為中心」到「以數據為中心」的轉變。他認為,「對于很多行業來說,現在更有效率的做法是保持神經網絡體系架構不變,轉而尋找改進數據的方法」。為了幫助機構提升數據質量,吳恩達所在的Landing.AI等公司正在構建一些實用的工具。

        在規模方面,AI大廠掀起的大模型暴力美學依然占據主流,人們依然希望借助大數據、大算力探索深度學習的天花板。不過,與大模型需要的海量數據相比,單個機構所能處理的數據往往是不充分的:一是數據量不夠大,二是數據的維度和來源不夠豐富。為了解決這些問題,越來越多的機構開始走向多方聯合的道路,希望借助多方的合力訓練出更精準的AI模型,讓數據在流通中發揮應有的價值。

        不過,受限于法律法規、政策監管、商業機密、個人隱私等數據隱私安全上的約束,多個數據來源方無法直接交換數據,這就形成了「數據孤島」現象,制約著AI模型能力的進一步提高。受此需求驅動,聯邦學習應運而生。

        聯邦學習的核心思想是通過在多個擁有本地數據的數據源之間進行分布式模型訓練,在不需要交換本地個體或樣本數據的前提下,僅通過交換模型參數或中間結果的方式,構建基于多方數據下的全局模型,從而實現「數據可用不可見」、「數據不動模型動」。

        和2016年谷歌剛剛提出這一概念時不同,聯邦學習如今已經有了很多具體的實現路徑,既有基于軟件的,也有基于硬件的。其中,基于硬件的路徑——主要是 TEE(Trusted Execution Environment,可信執行環境)——由于可支持多層次、高復雜度的算法邏輯實現以及運算效率高等優勢而受到廣大企業的青睞,落地速度也在不斷加快,尤其在醫療、金融等數據安全要求較高的行業。

        基于TEE的醫療科研多方安全計算平臺

        首先來說醫療行業。AI+醫療是一個發展較早的細分領域,但直到今天,Geoffrey Hinton 2016年的預言——AI將取代放射科醫生——依然沒有實現。在種種阻礙因素中,醫療領域的數據聚合是一個繞不開的難題,包括患者生命體征信息、疾病信息、影像檢驗報告、互聯網診療記錄、藥品使用等各種不能離開醫院的基礎數據。

        近幾年,采用TEE方案的聯邦學習方法在各醫療科研機構的實踐中收獲了良好的效果,它可以為「使用中」(即處于計算或處理中)的數據提供保護,與其他針對靜態數據和傳輸中的數據的保護方法一起,為數據流動與共享「護航」。

        三種狀態下的數據保護

        為了保護這些使用中的數據,TEE會在硬件中為它們單獨分配一塊隔離的內存區域,所有相關數據的計算均在這塊區域中進行,并且除了經過授權的接口外,硬件中的其他部分均不能訪問這塊隔離的內存中的信息,以此來實現隱私計算。

        與一般的分布式機器學習或深度學習方案相比,聯邦學習方法可以為醫療科研增添以下優勢:

        ●醫療數據不脫離本地,各參與方可接入各自數據訓練全局模型;

        ●每個醫療科研參與方都可參與訓練過程,模型損失可控;

        ●訓練過程能更好地兼顧隱私和安全需求,各參與方能在不暴露數據及加密形態的前提下進行聯合建模。

        如果這種聯邦學習方法或方案能再加上一個前綴——「基于TEE」,那么它還會收獲更多強化功能,例如它可以通過硬件環境上的隔離,使安全保護機制獨立于軟件應用、操作系統或硬件配置之外,使其保護的對象可以更好地應對來自硬件驅動程序、虛擬機乃至操作系統的攻擊。再如,它的用途,不僅僅是可以提供數據運行態全鏈路的保護,來確保數據中的機密、隱私和完整性得到更強的防護,它還能對指定的應用程序或算法的代碼進行同樣可靠的防護;又如,它還擁有更完備的遠程鑒權能力,能讓相關數據和密鑰的傳遞更為可靠;最后,相比那些非硬件加速支持的聯邦學習及多方隱私計算方案,有TEE加持的方案,往往在兼顧安全防護能力和提升數據處理性能上有更好的表現。

        正是這些優勢,給了眾多醫療科研機構選擇基于TEE構建自己的聯邦學習系統的理由。

        以多年來一直深耕醫療AI與大數據技術創新的醫渡云為例,這家公司基于聯邦學習等隱私計算方法打造了一個多方安全計算解決方案,自下而上包含面向院內外業務系統的數據采集系統、進行數據加工治理的專病庫以及開展多方隱私計算的安全計算平臺等幾個部分,其中的多方安全計算平臺也支持TEE方式進行構建。

        醫渡云多方安全計算解決方案整體架構

        而且,他們采用的是實現TEE的一種主流技術——英特爾?軟件防護擴展(Intel?Software Guard Extensions,英特爾?SGX)。

        英特爾? SGX技術實際作用示意圖

        在工作時,SGX技術會給相關數據分配一塊隔離區域,也叫「飛地(Enclave)」。我們可以把它理解成一個隔離醫院,但能入駐這個醫院的并不是已經被感染的患者,而是那些健康群體,即需要受到嚴密保護的應用代碼或關鍵數據。SGX技術能在CPU的支持下,在內存等特定硬件環境中構建出這樣一個飛地,讓各醫療科研機構的數據分析、模型訓練及推理所涉及數據都運行在各自的飛地中,并通過訪問控制為這些應用代碼和數據提供更可信賴的安全保障。

        這種飛地獨立于操作系統、虛擬機以及BIOS系統之外,也就是說,即便一些比你的應用程序更底層的基礎軟件或系統在惡意攻擊中淪陷,飛地也可以通過基于硬件的、增強型的安全防護更有效地阻斷這些攻擊,盡力避免其中的數據或代碼被竊取或篡改。

        那么,這個「飛地」有多大呢?這和你要使用的英特爾處理器的種類及型號有關。醫渡云解決方案使用的是英特爾去年發布的面向單路和雙路服務器的第三代至強?可擴展處理器,它已經全面內置SGX技術,可在雙路服務器上實現最大容量為1TB的保留加密內存區域(Enclave Page Cache,EPC,單顆處理器最高支持512GB),這對于醫療科研機構進一步擴展AI模型訓練與推理的數據規模至關重要。

        不過如果你以為醫渡云的方案僅僅是要借SGX技術來實現更大、更強的安全「飛地」的話,那就是小看了全新至強? 可擴展處理器在AI實踐中的價值了——它除內置有SGX技術外,還有來自英特爾?高級矢量擴展512(英特爾?AVX-512)技術和英特爾?深度學習加速(英特爾?DL Boost)技術的加成,也可在兼顧更優安全能力的同時,為醫渡云方案涉及的復雜計算需求提供有力支撐。

        因此這款處理器在醫渡云的多方安全計算解決方案中同時發揮著加固安全與提升性能的雙重價值。正是得益于它帶來的綜合優勢,醫渡云已經開始支持多家醫院和醫療科研機構開發一系列基于該方案的聯合研究項目,同時也通過了中國信息通信研究院在隱私保護計算技術上的兩項認證——《基于多方安全計算的數據流通產品技術要求與測試方法》及《基于聯邦學習的數據流通產品技術要求與測試方法》。

        基于TEE的多源金融大數據隱私計算技術驗證

        另一個非常青睞TEE解決方案的是金融行業。與其他技術方案相比,以硬件為載體來為數據和代碼提供安全可信環境的TEE,在金融行業最關注的數據安全、性能以及可用性三個維度上,能取得接近「帕累托最優」的效果,因此受到較多企業的青睞。

        聯邦學習中不同安全隱私技術綜合評估

        在這個行業,企業通常需要將已有的大量AI應用以聯邦學習模式高效、便捷地擴展到現有的分布式大數據平臺上(如Spark、Flink、Hadoop集群)。在此過程中,他們可能會遇到一些挑戰,比如如何在開展聯邦學習時依然保持AI訓練與推理的高效能?如何在應用TEE技術特性時做到數據的全??尚?#xff1f;如何將二進制應用程序不做改動地運行在TEE環境中?

        英特爾與中國銀聯電子商務與電子支付國家工程實驗室組成的聯合研究團隊通過開源的統一大數據分析與AI平臺——BigDL,驗證了基于TEE的聯邦學習與實時預測方案,有助于解決上述問題。

        如圖所示,基于英特爾?SGX技術的BigDL提供了自下而上可信的安全技術、不同層面的軟件框架以及用于連接大數據平臺和聯邦學習方法的端到端平臺。

        基于英特爾?SGX技術的BigDL平臺架構

        我們重點來看一下安全技術層面。在這一層面,該平臺通過第三代英特爾?至強?可擴展處理器集成的英特爾?SGX技術,提供了所需的TEE環境;同時,還通過加入Gramine-SGX這樣的開源LibOS組件,來加速既有Al模型或應用程序在SGX技術上的無縫遷移。Gramine-SGX允許用戶在不修改相應模塊代碼的情況下,通過系統調用的方式直接在SGX環境中執行,大大降低了SGX技術的應用門檻。同時,這一組件的加入,也使英特爾開源的OpenVINO?工具套件和OneDNN等重要Al軟件工具能夠在SGX環境中方便地運行。

        一種典型的基于英特爾?SGX-BigDL平臺的預測方案架構如下圖所示,用戶數據可以導入基于Gramine-SGX的SGX環境中,由BigDL平臺負責連通和調度預測推理所需的模型庫、框架和工具,在完成預測推理后,再向用戶輸出相應結果,中間所涉及的數據和工作流程都可獲得更有效的安全保障。

        典型的基于英特爾?SGX-BigDL平臺的預測方案

        聯合團隊的驗證結果表明,基于英特爾?SGX-BigDL平臺部署的實時計算與預測推理方案,能在更好地保障端到端數據安全的前提下,依舊保持預期的性能。

        Gartner曲線:聯邦學習技術還在上升期

        「為什么我們要投入聯邦學習?」中國人工智能開源軟件發展聯盟副理事長王健宗博士在前段時間英特爾聯合國際學術期刊《Science》推出的「架構師成長計劃」第二季系列課程中提出了這樣一個問題。

        為了解釋這個問題,他向大家展示了去年的Gartner技術成熟度曲線。這份曲線圖顯示,聯邦學習當前正處于高速發展期,未來將成為一項非常重要的計算技術。這也是Gartner首次將聯邦學習納入技術成熟度曲線。

        Gartner技術成熟度曲線

        在應用方面,除了我們前面提到的醫療和金融場景,王健宗還系統地總結了聯邦學習在物聯網、政務等領域的應用。從這里也可以看出,聯邦學習技術的應用范圍正在不斷擴大,越來越多企業正放下顧慮,更放心地參與到共同的AI應用開發中來。這背后,以TEE為代表的安全計算實現方案功不可沒。

        聯邦學習在行業場景中的應用

        值得一提的是,王健宗早在幾年前就曾帶領他在平安科技的團隊開始構建基于英特爾?SGX的TEE聯邦學習方案,也見證了這一技術地不斷迭代。他對第三代至強?可擴展處理器1TB的EPC容量以及英特爾?SGX對云邊協同的支持印象深刻。他認為,在現在大家都比較重視隱私保護、數據安全的環境下,英特爾?SGX為我們提供了一個更安全的可信計算環境。

        對于聯邦學習未來的發展,王健宗主要看好三個方向:自動化機器學習、零代碼聯邦和大規?;ヂ摶ネāK忉屨f,聯邦學習現在仍然是一個比較復雜的技術,有很多工程方面的工作。未來他希望能實現自動化機器學習,以及通過簡單地拖拉拽,實現零代碼的聯邦學習,進而讓聯邦學習應用到更多對數據、代碼安全性要求更高的領域。

        點贊()
        上一條:付臨門:支付賦能實體要“致廣大而盡精微”2022-08-25
        下一條:這個夏天,新日鋰電嘉年華成功戳中了年輕人的“心巴”2022-08-25

        相關稿件

        人工智能數據管理:AI商業化落地的“必修課” 2021-09-13
        浙江湖州查處一起企業干擾監測數據案件 2022-02-14
        外企在華“試新”創造雙贏:認真搭建數字模型 逆向輸出海外市場 2021-03-03
        合合信息加入元腦生態 攜手浪潮信息推動金融AI應用創新 2022-08-05
        王文銀:現在是云、大、智、聯、AI智能時代 危機意識很重要 2020-09-28
        國務院國有資產管理委員會 中國企業聯合會 中國企業報 中國社會經濟網 中國國際電子商務網 新浪財經 鳳凰財經 中國報告基地 企業社會責任中國網 杭州網 中國產經新聞網 環球企業家 華北新聞網 和諧中國網 天機網 中貿網 湖南經濟新聞網 翼牛網 東莞二手房 中國經濟網 中國企業網黃金展位頻道 硅谷網 東方經濟網 華訊財經 網站目錄 全景網 中南網 美通社 大佳網 火爆網 跨考研招網 當代金融家雜志 借貸撮合網 大公財經 誠搜網 中國鋼鐵現貨網 證券之星 融易在線 2014世界杯 中華魂網 納稅人俱樂部 慧業網 商界網 品牌家 中國國資報道 金融界 中國農業新聞網 中國招商聯盟 和訊股票 經濟網 中國數據分析行業網 中國報道網 九州新聞網 投資界 北京科技創新企業誠信聯盟網 中國白銀網 炣燃科技 中企媒資網 中國石油化工集團 中國保利集團公司 東風汽車公司 中國化工集團公司 中國電信集團公司 華為技術有限公司 廈門銀鷺食品有限公司 中國恒天集團有限公司 濱州東方地毯集團有限公司 大唐電信科技股份有限公司 中國誠通控股集團有限公司 喜來健醫療器械有限公司 中國能源建設股份有限公司 內蒙古伊利實業集團股份有限公司 中國移動通信集團公司 中國化工集團公司 貴州茅臺酒股份有限公司
        亚洲黄色无码免费网站_亚洲国产精品综合久久久_国产成人观看免费全部完_亚洲日韩精品中文字幕第21页
      1. <u id="j7xcw"><thead id="j7xcw"></thead></u>

        <wbr id="j7xcw"><table id="j7xcw"><button id="j7xcw"></button></table></wbr>
        <u id="j7xcw"></u>

          1. <wbr id="j7xcw"></wbr>
            <input id="j7xcw"></input>
            日本女优天堂网页 | 亚洲AV日韩AV高清在线播放 | 亚洲人成网a在线播放 | 日本一本中文一区在线 | 久久久精品国产免费 | 欧美激情综合在线三区 |