報告編委
主創團隊
黃勇
愛分析合伙人&首席分析師
武宇
愛分析高級分析師
孟晨靜
愛分析分析師
李冬露
愛分析分析師
蘭壹凡
愛分析分析師
外部專家(按姓氏拼音排序)
陳玉奇
斗象科技首席安全架構師
方正
數說故事產品總監
郭振強
科杰科技副總裁
孔德明
網易數帆流通行業大數據實施交付總監
劉誠忠
衡石科技CEO
喬昕
深睿醫療聯合創始人/CEO
孫妍
觀遠數據副總裁
王申
九章云極銀行BU總經理
王爽
锘崴科技創始人、董事長
王一剛
中科聞歌數智媒宣事業部總經理
特別鳴謝(按拼音排序)
報告摘要
湖倉一體強化全域數據管理效能
為解決數據類型豐富、數據體量倍增帶來的存儲問題,同時滿足人工智能、機器學習在趨勢預測、探索分析等方面的應用需求,同時配置數據倉庫、數據湖成為企業的普遍選擇。然而企業逐漸發現多架構的配置并不完美,解決既有問題的同時帶來新的架構問題,如數據流通低效、數據冗余以及存儲成本高。
湖倉一體能有效解決復雜架構問題。湖倉一體通過元數據層在數據湖上實現全局數據統一管理,支持流批一體簡化系統架構,以及云原生、存算分離的特征成為數據架構新一代進化方向。
從管理到運營,DataOps釋放數據中臺價值
當前,數據中臺的功能主要體現在為企業打通數據孤島、建立指標體系、實現數據質量管理、資產管理等方面,重點解決企業“有數據可用”的問題。隨著數據應用場景的豐富,數據應用的多元化,數據開發運維的壓力驟增,數據不可信、數據應用交付緩慢等問題頻發。解決“數據好用”的問題成為數據中臺實現數據能力復用和共享的關鍵。
DataOps是一套以數據為中心的數據管理及運維開發方法論。融合DataOps方法論,數據中臺將顯著提升數據質量、實現數據應用持續敏捷交付、降低數據管理成本。DataOps實踐尚不成熟,但已經成為數據中臺進一步釋放數據價值的關鍵路徑。
高時效場景爆發,實時數據平臺支撐熱數據價值釋放
物聯網使得海量實時數據觸手可及,進而推動以金融、工業行業為代表的實時數據應用的創新,如精準營銷、風控管理、故障預警等。企業需要對數據架構進行升級,實現實時數據和離線數據融合,充分利用實時數據價值。
實時數據平臺支持多源數據采集、提供高可用、低成本的數據同步方案,并通過流批一體的方式實現離線數據和實時數據統一存儲和查詢,提升企業實時場景開發和上線效率。
政策合規要求推動隱私計算平臺快速滲透
以金融、政務、醫療為代表的行業需要通過數據跨機構協作及共享提升服務價值、控制風險、提升效益。然而數據跨機構的流通阻力極大,一方面,隨著《數據安全法》及《個人信息保護法》的頒布,國家對數據流通監管加強;另一方面,數據資產等同于企業的命脈,使得企業對數據流通持十二分謹慎態度。
隱私計算能為企業實現數據跨機構的流通共享。隱私計算通過聯邦學習、多方安全計算、可信執行環境以及同態加密等一種或多種技術組合,實現數據流通過程中的“可用不可見”,已經為越來越多的行業采用。
屬于業務人員的數據分析時代來臨
隨著數據應用的深化,企業數據分析場景正在發生三個“轉變”:1、平民化:數據分析平臺的服務對象從傳統財務人員及管理人員向一線業務人員轉變;2、場景化:數據分析平臺的應用場景也從財務及業績呈現向具體業務分析轉變;3、智能化:企業對數據分析平臺的功能需求從傳固定式的呈現形式向智能、個性、靈活自助的形式轉變。這對數據分析平臺的定位和功能提出了挑戰。
數據分析平臺也在與時俱進,可以看到,市場中已經快速出現多種應對方案。如部分技術廠商通過融合NLP、機器學習、低代碼等技術使數據分析平臺具備滿足智能化、自助化的特點,使產品具備通用性;部分廠商在原本針對垂直業務場景的體系化產品中增加數據分析功能,為企業實現業務小閉環。企業可靈活根據自身業務需求選擇相應數據分析平臺產品及服務。
數據智能行業應用從監測、診斷性分析走向智能決策
傳統的大數據和人工智能技術建模和分析只能識別現狀和問題,企業若想進行業務決策仍需大量人工介入,嚴重依賴專家經驗,影響決策速度,不能適應快速變化的市場環境。企業希望通過人工智能技術實現根因分析、數據關系挖掘和決策支持,從而提高決策速度。
智能決策技術持續迭代更新,融合大數據以及機器學習、深度學習、強化學習、運籌優化、知識圖譜等人工智能技術,能夠深度挖掘數據價值,構建數據知識網絡,持續優化模型精準度,快速輸出優質的決策方案,支持企業各部門實現高效決策。
目錄
1.綜述:多種因素推動,數據智能全鏈路升級
2.湖倉一體強化全域數據管理效能
3.從管理到運營,DataOps釋放數據中臺價值
4.實時數據平臺支撐爆發中的高時效場景
5.政策合規要求推動隱私計算平臺快速滲透
6.屬于業務端的數據分析時代來臨
7.數據智能行業應用從監測、診斷性分析走向智能決策
8.展望
1.綜述:多種因素推動,數據智能全鏈路升級
數據智能是指以數據為生產要素,通過融合大規模數據處理、數據分析與挖掘、機器學習、可視化等多種大數據和人工智能技術,從數據中提煉、發掘具有揭示性和可操作性的信息,從而為企業提供數據驅動的分析與決策。
當前,數據智能已經成為企業實現數字化轉型的核心方式。一方面,在實現初步數字化的基礎上,企業希望把數據分析擴展到更多的應用場景,以在業務發展與運營中實現降本增效,或構建創新性的業務模式;另一方面,數據規模的持續膨脹,與分析場景的更加多樣化,也對數據存儲、處理和分析等方面的能力提出了更高的要求,因此企業需要對數據基礎設施進行持續的升級與優化。
本次報告將數據智能市場劃分為應用解決方案和數據基礎設施兩大部分,其中應用解決方案是指通過數據智能解決方案在垂直行業或通用職能領域直接賦能業務價值提升的最佳實踐;數據基礎設施指利用云計算、人工智能、隱私計算等新興信息技術構建的為企業賦能的平臺類解決方案,主要包括數據的采集、存儲、計算、管理等內容,進而為上層應用提供數據服務。
圖1:數據智能市場全景地圖
隨著數字化轉型進入深水區,各行各業中的數據形態和應用端需求正在發生變化,傳統的以結構化數據為主的管理和分析已經遠遠不能滿足當前市場中企業對于數據的需求,對于多源異構數據的管理和更加智能化的數據應用是每一個企業在數字化時代必須構建的能力。
與此同時,政策對于數據安全和隱私安全的合規要求也越來越嚴,未來更加業務友好、更加智能化、更具性價比且滿足合規要求的數據智能解決方案將成為數據智能市場發展的主流趨勢。
圖2:數據智能應用趨勢
2.湖倉一體強化全域數據管理效能
2.1數據存儲異構阻礙數據高效流通
隨著數據類型的豐富、數據體量的快速擴張,以及企業希望利用人工智能、機器學習解決趨勢預測、探索分析的需求增長,數據湖與數據倉庫同時部署成為企業的普遍選擇,同時也帶來數據架構復雜、數據流通效率低的問題。
圖3:數據倉庫、數據湖共存帶來的挑戰
數據架構復雜:企業普遍有數據倉庫、數據湖以及其他多種類型的專業數據倉庫如時間序列、圖形和圖像數據庫等,導致企業數據架構復雜,為技術人員運維帶來巨大困難。
數據流通低效:數據倉庫、數據湖兩種數據架構在集群層面割裂導致數據不能自由流通。如機器學習中數據來源于數據倉庫或數據湖,難以跨架構進行數據融合分析,增加了數據流通和計算開發成本。
數據冗余,存儲成本高:數據倉庫、數據湖的同時存在也會造成數據冗余,且隨著數據量增長,存儲成本將持續攀升,超大規模體量數據的計算性能也將持續下降。
企業尋求一種數據架構,可以兼具數據倉庫成長性和數據湖靈活性的同時,提供一套共同的數據標準,提高數據流動靈活性,提升數據效能。針對此需求,湖倉一體應運而生,是繼數據倉庫、數據湖之后數據架構的最新解決方案。
2.2湖倉一體引領數據架構迭代更新
圖4:湖倉一體架構示意圖
湖倉一體在技術架構、功能和性能層面主要具備以下主要特征:
通過元數據層在數據湖上實現數據管理功能。智能湖倉使用標準文件格式(如Parquet)將數據存儲在對象存儲中,并在對象存儲上構建元數據層,從而在元數據層實現諸如ACID事務處理、版本控制等數據管理功能,使得多種計算引擎可以共享統一的數據存儲。同時,通過對緩存、輔助數據結構(如索引、統計信息)和數據布局進行優化,智能湖倉也具備了良好的SQL性能。
流批一體,簡化系統架構。智能湖倉可以實現批處理與流處理的統一,通過CDC(ChangeDataCapture)將業務系統數據實時抽取到數據湖,實時加工后傳輸至OLAP系統中對外服務,實現端到端過程的分鐘級時延。與此同時,系統架構得到簡化,大幅降低了系統維護以及數據開發工作的難度。
云原生、存算分離。基于云原生架構,智能湖倉存儲和計算資源得到有效分離,企業可以基于需求靈活地對存儲和計算資源進行分別擴展,且擴展需求幾乎沒有限制,從而實現對大規模數據查詢與分析的高性能,并顯著降低TCO(TotalCostofOwnership)。
案例1:某跨國零售集團建設統一數據底座,全面提升數據管理運營效率
某海外跨國綜合零售及服務集團為世界500強企業,主營商業零售、地產、金融、健康、游戲娛樂5大主要業態,旗下包含數百家成員公司,在日本、中國、東南亞等地區具有廣泛影響力。
舊架構難服務新零售,數據開發管理應用全流程能力需提升
近年來,“新零售”的崛起為零售行業持續帶來巨大變革,該零售集團也希望借助其商超和供應鏈優勢開辟線上——線下到家業務,并通過逐步構建完善的線上零售體系,實現傳統零售業務的全面轉型。
經過多年數字化建設,該集團陸續在本地和云上建成多個數據倉庫,并面向整個集團建立了統一的CDP平臺,沉淀了豐富的數據資源。然而線上業務的開展引發了數據量激增,底層數據架構混亂、端到端數據運營分析能力落后的問題暴露無疑。具體而言:
1.煙囪式建設,數據資產不統一。該集團數據存、算基礎設施均是以需求為導向進行階段性單點建設而成,建立在離線、微軟云、亞馬遜云之上的結構化、非結構化數據存儲及數據調度、實時計算工具等縱橫交織,底層技術棧混亂,這直接導致了集團數據標準、數據口徑不統一,數據開發格式和數據開發工具相互獨立,難以形成統一數據資產。
2.業務穩定性、即時性不達標。該集團數據倉庫層次結構不清晰,數據域、主題設計不合理,導致數據重復開發和計算問題嚴重,數據分析低效且耗費大量資源。在數據分析需求激增的情況下,原有云資源算力和存儲都達到瓶頸,一項數據分析需求的響應往往需要2-3天,大大影響了任務穩定性和即時性,無法滿足業務需求。
3.數據全流程運營管理方法不健全,服務能力差。該集團分別采購海外供應商抽取、集成、調度、監控、服務等數據開發管理工具,但這些工具之間彼此割裂,不僅導致數據全流程運營效率低,通過代碼開發出的數據能力無法復用,影響對外開放賦能,同時導致數據分析師、數據科學家、業務人員、管理人員等不同角色之間無法有效協作。
該集團經內部評估規劃,決定面向整個集團當下及未來5-10年數字化轉型需要,統一數據存、算基礎設施,并通過全方位數據治理統一全域數據資產,健全數據開發、管理、運營全流程體系,從而支持智能化應用,統一開放賦能,并最終將整套成功經驗推廣復制到該集團的全球市場。
通過長時間細致地對眾多國內外優秀廠商及其客戶進行實地調研和技術驗證,以及對各廠商產品的開放式體驗,該集團發現,國外廠商工具能力較強,但不同數據開發管理工具彼此獨立,無法形成有機串聯,導致數據工具和數據治理體系“兩張皮”,無法實現該集團構建統一數據資產管理運營體系的需求。而科杰科技在工具能力與國外廠商旗鼓相當的基礎上,將數據資產管理運營全流程的方法論和最佳實踐融入數據工具設計中,使客戶能夠使用科杰科技全套產品構建統一、可持續的企業級數據資產運營管理體系。因此該集團最終選擇科杰科技作為合作伙伴。
北京科杰科技有限公司(簡稱“科杰科技”)是領先的數據能力構建商,核心技術團隊擁有豐富的頭部互聯網企業大數據平臺建設和運營經驗,針對多業態、多場景的大型復雜組織的數據底座建設運營,沉淀出了一套成熟的實施方法論。現已服務能源、汽車、零售、制造等多個行業頭部企業。
建設湖倉一體數據底座,統一數據存儲和管理,支持對上開放賦能
該集團在科杰科技的幫助下,梳理現有數據能力,規劃設計了滿足未來5-10年的數據能力建設藍圖,以科杰云原生數據底座,統一納管底層數據基礎設施,建立數據標準規范和管理體系統一全域數據資產,并最終實現對組織統一開放賦能。
1.搭建湖倉一體數據底座,實現資源統一納管。
該集團利用云原生湖倉一體數據底座良好的兼容適配性,實現跨云數據集成,統一集團主數據、元數據,同時支持多租戶。云原生架構帶來的資源彈性擴縮容能力使該集團能夠便捷、靈活為二級單位進行資源調配,滿足其個性化的資源使用需求,同時其良好的擴展性也能夠支持集團未來數年的數字化發展。
2.統一全域數據資產,構建數據資產管理體系。
首先,該集團在科杰科技幫助下進行了數據治理工作,完整重構數據倉庫體系,設計核心數據指標模型,制定數據標準,規范數據質量,構建起全域統一的數據資產。
其次,通過一系列工具平臺落實數據資產管理框架、標準、制度和流程,形成數據資產管理體系。建立統一的數據開發管理平臺,與統一系統認證系統集成,集離線、實時開發能力于一體,實現全域數據的接入、加工及任務維護和管理;創建數據資產目錄,對數據指標、標簽進行分類管理,形成數據地圖和血緣關系圖譜,面向業務構建商品、店鋪、交易、利潤、會員、營銷等主題,方便數據查詢調用。
3.開展數據資產服務化運營,實現統一開放賦能。
搭建數據服務平臺,提供數據API、標簽服務、實時服務、報表服務和大屏服務。如對于面向用戶畫像、個性化推薦等智能應用的特征指標,能夠通過指標平臺,以及API發布數據服務方式,直接提供給業務人員使用。同時,平臺將數據管理體系進一步貫穿組織架構和業務主題,面向不同角色和不同業務場景,進行數據能力的整合,支撐團隊協同開發,實現數據資產的共享交換。
融入DataOps理念,通過平臺多個數據開發管理工具的有機串聯,實現數據開發運維一體化。數據科學平臺支持托拉拽的方式編排算法組件,輔以對數據應用模型算法構建方式和流程的指導,大大縮短數據分析模型開發上線的速度,同時支持復用,算法和業務過程快速交互形成閉環,優化結果能快速傳遞到業務端,實現數據反哺業務。
圖5:湖倉一體數據智能平臺
打造統一開放的數據協作體系,持續穩定賦能業務發展和創新
通過集團統一大數據底座建設,該零售集團全方位完善了從底層基礎設施到上層數據應用能力,具體而言:
1.資源統一納管,高效穩定支撐上層業務開展。通過基礎設施統一納管和靈活的資源調度,減少系統風險,提升上層業務穩定性,同時降低了總體擁有成本。
2.統一數據資產體系,為企業數據資產持續開放共享打好基礎:打通消費者在WEB、APP、小程序、門店系統的數據,以及各業務系統會員、門店、電商、供應鏈、財務等全域數據,進行全鏈路數據血緣關系數據資產沉淀,并形成公司內統一的數據門戶,提升企業數據資產的使用效率。
3.數據資產服務化運營,實現組織規模化數據協作。數據研發人員通過數據中臺實現大規模項目跨團隊協同開發的能力,極大地提高了研發人員工作效率;業務和運營人員在平臺內實現數據需求在線提報并自動流轉,并通過高度可視化的功能實現業務數據自助分析和分發,極大地提升了數據在企業內流轉和使用的效率,完成由傳統的被動數據研發模式到基于統一數據資產之上進行高度復用的開發模式升級轉變。
3.從管理到運營,DataOps釋放數據中臺價值
數據中臺的意義在于連接數據底層與數據應用,提供一個企業級的數據能力共享和復用的平臺。近來大火的DataOps方法論,其目標是提高數據分析質量、實現數據應用敏捷開發,DataOps將成為提升數據中臺能力的重要途徑。
3.1數據應用多元化導致數據應用開發效率低
隨著企業風險控制、精準營銷等數據應用場景越來越豐富,背后需要關聯分析、歸因分析、預測分析多元化數據分析能力支撐。這意味著企業從依靠BI報表,被動式分析、集中式展現為主的傳統數據分析階段,正在進入去中心化、主動分析、智能分析為特征的數據分析新階段。數據應用的多元化同樣帶來數據質量、數據應用交付以及數據用戶協同等方面的挑戰和困難。
數據質量難保證
業務影響:數據來源的業務系統不規范更新表結構;數據口徑不一致;數據填報不規范等
技術影響:ETL過程中字段變更導致數據加工出錯;系統服務異常導致調度任務執行失敗;數據存儲架構調整如上云引發數據源的超預期改變;
數據用戶類型復雜,數據應用交付緩慢
企業中的數據用戶類型復雜,如IT部門的系統工程師和數據庫管理員,BI團隊中的數據工程師、數據管理員和報表開發人員,以及數據分析師、數據科學家以及業務部門的數據消費者等,協調所有數據用戶及各自的工具耗費大量人力物力。這也導致原本從業務提出數據需求,實現數據建模、數據開發到數據應用的線性流程協作變得更加困難,交付周期長,效率低下。
數據應用問題可能出現在數據采集、存儲、計算、融合、建模、開發、運維等多個環節。為滿足多元化的數據應用需求,企業需要以數據為主角,統籌數據全鏈路,協調數據相關多角色,以持續快速交付為目標打通數據流。
3.2DataOps方法論實現數據應用高質量、持續交付
DataOps是人、流程和技術的高效組合,用來管理代碼,工具,基礎架構和數據本身,從而實現數據領域應用的敏捷開發和持續集成應用,優化和改進數據管理者(生產者)和數據消費者的協作,持續交付數據流生產線。DataOps能力構建包含數據工程、數據融合、數據安全和隱私、數據質量四個方面。而一個成熟的DataOps體系應具有持續性、敏捷性、全面性、可信性、自動性等五個特征。
目前,DataOps實踐尚不成熟,如何將DataOps方法論融入數據中臺、充分發揮效能,仍待持續探索。
案例2:九州通建設數據中臺打通數據壁壘、挖潛數據價值
九州通醫藥集團股份有限公司(以下簡稱“九州通”)為科技驅動型的全鏈醫藥產業綜合服務商,立足于醫藥流通、物流服務及醫療健康等大健康行業,主營業務包括數字化醫藥分銷與供應鏈服務、總代品牌推廣服務、醫藥工業及貼牌業務、數字零售、智慧物流與供應鏈解決方案、醫療健康與技術增值服務六大方面。九州通連續多年位列中國醫藥商業企業第四位,領跑中國民營醫藥商業企業。
IT架構復雜、數據分散阻礙數據跨平臺共享協作,數據價值難展現
早在2015年,九州通集團就開啟了數字化轉型之路。隨著集團規模持續擴大,市場競爭愈加激烈,九州通迫切需要發揮數據價值支持經營分析、經營決策以及服務上下游客戶。但在數據應用過程中,九州面臨IT架構和數據層面的痛點。
數據孤島嚴重。一方面,九州通集團業務線復雜,包含中西成藥、中藥、醫療器械、零售等多業態,各業態又分為集團、地市、區域三級結構。九州通以業務為主導,各業態、各層級分別依據各自需求建設數據平臺,造成數據平臺架構各異,數據共享協作效率慢。另一方面,同一公司內不同業務單元也會引入不同業務系統,系統之間難打通,造成數據分散。因此,九州通雖儲存有海量數據,但數據難流動難使用,數據價值難實現。
數據標準體系不完善,數據質量差。目前九州通未對數據進行分層管理、未建立完善的指標體系且缺乏藥品標簽;同時數據存在不及時、不準確、不完整、關聯性差等質量問題,造成數據難使用,不能有效支持經營分析應用。
數據模型復用度低,不足以支持業務應用需求。目前九州通單個數據平臺內的數據模型僅支持對應系統應用,復用度低,導致應用重復開發,浪費資源。同時數據應用在下鉆深度、關聯廣度、數據呈現豐富度等方面都不足以支持經營分析需要,數據模型有待完善。
建設數據中臺,盤活數據資產,數字化提質增效
數字化轉型大背景下,九州通迫切需要盤活數據資產、發掘數據價值,推動降本增效、營銷創新。九州通曾先后嘗試自建Oracle數倉以及Hadoop數倉來統一儲存集團數據,雖然投入大量資源,但效果有限。為打通集團各業態各層級數據平臺,為業務賦能,九州通決定通過招標建設集團數據中臺。通過綜合考慮技術集成能力、數據開發工具便捷性以及廠商最佳實踐經驗等因素,最終九州通決定與網易數帆合作。
網易數帆是網易集團旗下ToB數字化轉型技術與服務提供商,為客戶提供國產軟件基礎平臺產品及相應技術服務,業務覆蓋云原生基礎軟件、數據智能全鏈路產品、人工智能算法應用、低代碼應用開發平臺四大領域,致力于幫助客戶搭建無綁定、高兼容、自主可控的創新基礎平臺架構,快速應對新一代信息技術下實現數字化轉型的需求。目前已服務金融、零售、制造、能源、通信等各領域頭部客戶三百余家。
在網易數帆協助下,九州通歷時8個月完成了數據中臺規劃以及數據中臺初始化部署,包含建設數據倉庫、實現數據開發及運維以及數據治理。
圖8:九州通數據中臺架構示意圖
1)建設統一的數據倉庫平臺,打通集團跨平臺數據,提升數據利用率
建立數據倉庫及分層模型:數據倉庫分為數據運營層(ODS)、明細數據層(DWD)、匯總數據層(DWS)、應用層(ADS)共四層。將不同類型數據根據數據模型需要進行分層存放,避免不同業務部門因對數據利用方式不同,而需要對模型進行重復開發,提升數據利用率。
數據匯集:借助網易數帆豐富的Hadoop大數據平臺組件,九州通將多種架構數據平臺的數據集成到數倉平臺的數據運營層(ODS),并對數據進行清洗、匯聚、加工和計算。
數據建模:在網易數帆的咨詢規劃協助下,九州通在不同數倉層建模,其中在明細數據層(DWD)拉通商品、客戶、人員、供應商、崗位及組織架構維度數據,搭建主數據公共域模型;在匯總數據層(DWS)建立采購、銷售、供應鏈、營銷、財務等主題模型;在應用層(ADS)建立各業務報表需要的業務數據模型。
2)實現數據便捷開發和運維,提升工作效率
利用網易數帆提供的一套便捷可視化數據開發工具,九州通數據研發團隊可快速實現離線開發、實時開發、權限管理、資源管理等功能。通過數據運維平臺實現任務的監控和報警推送,預估任務實例的產出時間、展示實例對下游報表影響范圍,實現任務高效運維。
3)對多源數據進行統一治理,降低工作量和資源成本
九州通建設數倉平臺匯聚各業態各層級的多源數據,包括不限于各中西成藥、中藥、醫療器械、零售等業態版塊中,集團、區域以及子公司各級的采購、庫存、人力、營銷等系統數據。之后通過數據治理平臺對多源數據進行統一治理,包括建設數據地圖使業務人員能在海量數據中快速找到所需數據,通過數據血緣關系展示表的上下游表動態追溯、表的下游任務等;搭建數據指標體系實現跨部門指標定義統一和指標定義管理;建立數據質量管理體系,業務人員可預設多場景下的質量監控規則,并設置郵箱、電話等多種告知形式;建立數據資產管理體系,評估數據資產的成本、價值、質量,優化存儲成本,節約計算資源,實現精細化的數據生命周期管理等。
數據中臺賦能業務應用,經營效率再提升
通過數據中臺,九州通實現集團復雜組織架構下跨業態、跨層級、跨系統的數據打通,成功消除數據孤島;并通過統一的數據架構、模型開發、數據治理等功能盤活數據資產,建立通暢、標準化的數據鏈路,持續為前臺業務應用和分析提供數據服務,推動營銷創新、提升經營效率。
消除數據孤島,實現數據共享共通。九州通通過數據中臺對旗下各業態各層級數據進行匯聚,由數據中臺提供統一數據出口,實現全集團跨平臺數據分享調用。
搭建統一的數據指標體系,實現數據科學管理和快速響應。本次項目共建設8個主題域,落地213個業務指標,全部指標統一口徑、統一管理,能有效避免因指標定義模糊和邏輯混亂而導致的數據質量問題,大大減少無效、重復工作,同時能快速提高數據響應速度,如采購分析體系中,所有采購分析數據需求,均實現秒級響應,平均5秒出結果。
健全客戶標簽體系,支撐精準客戶洞察。本次項目開發客戶標簽共計6大分類,共100+個標簽,覆蓋基本信息、行為屬性、交易屬性、企業信用及風險信息等,組成標簽工廠,對數據進行更精細的分類管理,支撐精準營銷決策和風險控制。
利用數據中臺靈活快速開發業務應用,實現降本增效。如通過數據中臺開發供應商畫像,綜合資金周轉、供貨預期、付款周期、銷售情況等信息,為供應商付款審批提供數據支撐;針對業務員開發業務員畫像,跟進業務員成單率、拜訪計劃、拜訪效果等實現精準考核等;針對藥店拜訪開發藥店畫像,提高業務員拜訪成功率等。
深挖數據價值,從數據支撐到數據賦能。相較于傳統數倉,大數據平臺提供了更強的算力支撐,在通過中臺整合了各系統數據資源,利用項目完成數據的集中化標準治理的基礎上,九州通深挖數據價值,嘗試通過AI算法模型在業務前側,包括采購體系、銷售體系、獲客體系等方面實現數智化。例如:零售門店的銷售預測、活動商品的精準營銷、采購智能AI補貨、中藥生產供應鏈優化等。
廠商數據集成和咨詢能力是傳統企業搭建數據中臺關鍵
回顧本項目實施全過程,廠商的選型對九州通數據中臺建設以及成功應用具有關鍵影響。對于有同類數據中臺建設的企業,在選擇數據中臺廠商時可借鑒以下兩點經驗。
針對具有復雜組織架構的傳統企業,應選擇具有深厚底層數倉開發以及數據集成能力的廠商。對于復雜架構的集團型企業,在數字化進程中,各子公司及各業務常根據業務需要分別建設數倉,造成數倉架構不統一。因此廠商需要具備扎實的組件開發以及數據集成能力,以靈活適配多種數據庫環境,實現多源數據高效、穩定集成。
針對技術團隊開發能力較弱的傳統企業,應選擇具有咨詢能力的廠商。尤其對于雖有技術團隊,但尚未成功建立數倉平臺,且數據應用意識較弱的企業,應選擇具有咨詢能力的廠商,在廠商協助下開展梳理業務、制定指標體系、搭建數據模型、管理數據權限、開發數據應用等活動,快速建立起數據中臺,并最終通過廠商知識轉移,快速提升企業數據中臺使用能力和數據建模能力,挖潛數據價值。
案例3:某高速行業信息化公司建設數據中臺,打造高效智慧高速系統
十四五以來,隨著我國開啟全面建設社會主義現代化新征程、轉向高質量發展階段,公路交通也進入高質量發展新階段,發展重心由原來的交通運輸網絡建設轉向交通運輸供給有效性和適配性、以及出行服務品質等。發展數字交通,尤其以5G、物聯網、大數據、云計算、人工智能技術為代表的新基建與交通運輸深度融合,成為深化交通供給側改革、提升運輸服務效能、促進綜合交通高質量發展的重要推動力。
高速行業數據缺乏融通和應用,相關高速單位提升運營效率存在困難
近年來,隨著信息化的發展,高速領域的相關單位已具備多個信息化系統,如視頻監控系統、交通流管控系統、收費站管控系統、應急指揮系統等,但由于信息系統相互獨立,在高速運營中仍會面臨以下數據問題:
數據孤島:高速數據來源于導航系統、ETC、龍門架、路網卡口、攝像頭、毫米波雷達、車載終端等形色各樣的系統和終端設備,數據類型復雜,且分屬于高速公路建設、管理、養護以及運營等四個階段,導致不同系統的數據無法互通互聯形成數據孤島。
數據質量不穩定:由于高速數據的采集來源于不同的感知設備,存在數據不穩定、數據空包、丟漏數據的現狀。原有系統缺乏數據質量管理體系,導致采集的數據中存在大量缺失信息或無效數據。
缺乏數據標準:當前高速公路業務數據尚未形成國家或是行業標準規范,尤其不同地域、不同供應商產品的數據格式、模型、表結構千差萬別,導致上級單位在進行數據收集匯總時需花費大量人力物力。
難以有效支持多元應用:高速領域包含多元的服務應用及對象,諸如視頻監控、交通流管控、收費站管控、應急指揮、綠通查驗等服務,現有數據系統存在數據難調用、難使用的問題,不能支持業務應用體驗升級需求。
為了更好地賦能各地域的高速公司,提升各地高速交通的運營效率,某高速行業信息化公司基于高速行業的發展現狀和系統基礎,提出建設數據中臺解決上述問題。通過多方考察,該公司綜合考慮行業經驗、產品功能、產品體驗以及公司規模等因素,最終決定與國內專業的數據智能服務商每日互動股份有限公司(以下簡稱“每日互動”)合作建設數據中臺。
每日互動成立于2010年,是專業的數據智能服務商,為企業客戶及政府單位提供豐富的數據智能產品,便捷、穩定的技術服務與智能運營解決方案,服務行業涉及互聯網運營、用戶增長、品牌營銷、金融風控等領域客戶以及政府部門。同時,基于強大的數據積累能力和豐富的數據治理經驗,每日互動構建了數據中臺——“每日治數平臺”,將數據挖掘、萃取和治理能力向各行各業輸出,用數據智能幫助客戶解決其實際業務中所遇到的痛點難題。
建設數據中臺,實現智慧高速
每日互動在城市大腦、智慧交通、應急管理等公共服務領域具有豐富實踐,積累了對人、車、道路、時間、空間等多要素數據進行關聯計算和分析洞察的能力。依托于“每日治數平臺”一站式數倉搭建、可視化數據資產管理、零代碼模型構建、低代碼機器學習等特色功能,每日互動和該高速行業信息化公司共同建設數據中臺,包括構建數據標準、管理數據資產以及制定數據質量管理體系等,實現了數據資源的統一整合和數據治理,主要運用于支持高速公路的高效運營和高質服務。
圖9:相關高速單位數據中臺架構圖
數據接入和集成:依托于每日互動的技術支持,某高速行業信息化公司可將相關高速單位的多個自有信息平臺如高速管控平臺、設備維修管理平臺、隧道管控平臺的異構數據,以及可靠第三方數據統一接入數據中臺。
構建數據標準,建立統一的數據倉庫模型:每日互動與該公司組織的多個業務專家一起深入高速業務一線,理清當前數據現狀以及數據使用過程中的痛點,根據數據源不同,建立相應的業務主題庫,構建起一套完整的數據標準體系,形成統一、整合的數據倉庫模型。
數據資產管理和可視化:基于每日互動提供的數據勘探、數據血緣、元數據采集、建表/分區管理等工具,該公司可進一步幫助相關高速單位完善數據資產;并且對數據資產進行可視化呈現,如數據資產目錄層級結構展示,相關單位可便捷地從不同視角檢索和管理數據資產。
制定數據質量管理體系:基于數據標準,制定數據質量校驗規則,實時對數據質量進行智能監測和預警;結合AI算法,定期對數據質量進行稽核,如系統根據數據缺失情形,參考歷史數據進行補充或是對嚴重缺損數據進行剔除,保證高速數據可用、可信。此外,通過數據血緣功能可定期對數據流轉過程進行追溯和梳理,實現數據全生命周期的智能管理。
數據應用:多源異構數據經數據中臺清洗、融合治理后形成共享數據,通過API以服務目錄的形式供各部門調用,消除應用部門對數據質量、數據來源的擔憂,專注提升應用體驗。
數據中臺有效提升高速運行效率和服務品質
在本項目數據中臺建設過程中,每日互動梳理建立起一套完善的高速數據標準體系,運用于高速行業多個場景的效率提升,相關單位的高速交通應急處置效率、運行效率和服務品質等多個方面均有顯著提升,具體表現如下。
打通數據孤島,實現數據高效高質共享:通過數據中臺,某高速行業信息化公司將相關高速單位系統內多個渠道數據進行集成、清洗、融合治理,形成高質量數據,賦能各業務部門。
實時可視化,提升應急處置效率:依據每日互動數據中臺的圖像智能和可視化等功能,該公司實現了對高速交通全局態勢的實時感知以及對局部路段路況的實時查詢、分析,并通過大屏監控車禍、擁堵、拋錨等突發狀況,能對突發狀況實現快速定位和救援。該公司將此可視化功能應用到道路救援時,救援時間縮短了60%至80%,救援效率得到大幅提升。
數據融合,促進路網通暢:通過對ETC、服務區卡口、高速路網等數據融合,業務人員對停靠超時的車輛進行精準引導,緩解夜間服務區的大流量痛點,提高服務區的服務質量。
AI算法預判,提升通行效率:針對高速匝道等事故多發以及易擁堵路段,業務人員可基于每日互動數據中臺AI算法進行提前預判和事前預警,為相關高速單位進行道路擁堵疏導提供科學依據和有效支撐,也為民眾合理規劃錯峰出行路徑提供引導,促進路網流量合理分布,提升高速通行效率。
數據中臺廠商綜合數據能力為數據中臺建設、數據中臺應用良好體驗提供堅實保障
回顧數據中臺建設前期、建設中期以及建設后期應用的全過程,數據中臺能成功發揮效用、提升高速交通運營能力有兩點關鍵因素。
1)選擇優質廠商事半功倍:某高速行業信息化公司在進行數據中臺廠商選型時,應考慮廠商在特定行業已積累豐富案例,形成完善數據治理方法論,其中行業不限于高速行業。該廠商應具備數據資產管理、數據分析、數據可視化、數據標簽等數據治理專業能力以及豐富的數據治理輸出經驗,具備成熟的久經市場驗證的數據產品引擎與提效工具,能將以往行業經驗遷移到高速行業中,服務高速行業。在本項目中基于“每日治數平臺”豐富的行業客戶和相關政府單位解決數字化轉型難題經驗,每日互動已經沉淀出可復用的數據能力、業務能力、效率工具等,因此能快速為該公司建設數據中臺,服務于高速公路建設、管理、養護、運營四個階段。此外,廠商還應具有算法建模、機器學習、圖像智能等綜合數據能力,在實現數據整合、數據治理等基本功能基礎上,能為數據在多元場景應用提供支持。在本項目中,每日互動的數據中臺產品“每日治數平臺”具備多元完善的AI算法、圖像智能等技術,操作便捷、輕量、易上手,可實現路況實時查詢分析并可視化呈現、對路況預判提升通行效率等功能,為客戶的數智化創新賦能提效。
2)建設執行團隊落地生花:除廠商選型外,為使數據中臺真正落地、發揮最大效用,某高速行業信息化公司在明確數據中臺規劃、踐行數據中臺建設的過程中,還需搭建崗位配置齊全的團隊,包括但不限于中臺建設、中臺運維、數據產品經理、數據資產管理、數據運營等崗位來支持中臺建設及運維,實現跨組織協同,實現數據驅動。
4.實時數據平臺支撐爆發中的高時效場景
4.1實時數據應用場景爆發
隨著物聯網和大數據技術的深入發展,企業通過物聯網設備或線上系統可以收集到大量的實時數據。與此同時,實時數據的應用場景也被迅速挖掘,如精準營銷、風控管理、工業制造等場景中,對實時數據的分析處理、應用將有效為企業避免損失、提升效益,企業對于實時數據從產生、收集、處理、存儲到產出分析結果的全鏈路時延需求已經從過去的T+1天發展到到小時級、分鐘級甚至秒級,實時數據平臺也因此獲得極大關注。
但是傳統的數倉或數據平臺難以支持海量實時數據處理和分析的需求,企業急需針對實時數據的收集、管理和分析技術以及基礎設施進行優化升級,可以將實時數據端到端地管理起來,并將實時數據轉化為能夠幫助業務提升的工具,利用實時數據提升業務價值。
4.2構建端到端的實時數據解決方案
要支撐實時數據應用的需求,需要一套從導入(采集和同步)、存儲、處理到查詢實時數據的端到端解決方案。
圖10:端到端的實時數據解決方案
可以采集多種類型數據:實時數據來源眾多,包括線上數據(訂單、交易等)、IoT設備數據和日志數據等,實際業務場景中的實時數據類型也包括結構化數據、視頻、音頻、文本等,因此實時數據采集需要支持多源異構數據的處理需求,同時由于不同的業務場景中的數據協議不一致,實時數據平臺還需要包含豐富的通信協議接口。
高可用、低成本的數據同步方案:實時數據同步過程主要是針對流式數據的處理,在可用性方面,數據同步解決方案需要保證企業級應用的場景下海量實時數據同步的完整性和高可用;在運維方面,數據同步解決方案要具備監控預警和自動運維等配置化的運維方案,降低開發和管理成本。
統一的數據存儲和查詢:由于一般實時數據平臺多采用離線數倉和實時數倉同步運行的方式會導致開發成本翻倍、數據管理體系復雜等問題,使用以數據湖為基礎的流批一體的方式來替代原有的離線數倉和實時數倉,可以解決傳統架構中的存在的問題。通過流批一體的方式可以將流計算和批計算的存儲都統一到數據湖中,使得數據血緣關系、數據質量管理、元數據都可以統一在相同的數據管理體系下,系統代碼也可以統一進行開發和維護。在數據查詢方面,因為同樣采取分層架構和數據湖可以支持OLAP查詢引擎,依然可以在不同的中間層支持OLAP的實時查詢。
金融作為數字化程度最高的行業之一,其在實時數據平臺方面的探索和需求相較于其他行業更為領先,金融機構由于傳統的批處理數據量大,基礎實施架構復雜且業務場景眾多,在實時數據平臺的建設方面最好基于原有的批處理基礎上進行批處理的升級和流處理的新建,優先選取重點業務場景進行實時數據處理和分析的試點,獲得成功經驗再逐步推廣到全機構中運行。
案例4:某股份制銀行搭建實時應用支撐平臺,通過實時數據賦能業務價值提升
隨著金融數字化時代的來臨,金融業務正在發生深刻的變化。國內某股份制銀行結合市場趨勢變化和自身情況,將大數據技術作為企業數字化戰略目標的基礎。該銀行目前處于業務發展的新階段,資產規模持續擴大,經營實力不斷增強,同時積極推進金融創新,而新業務模式的創新離不開數據的支持,也對核心數據能力提出了新要求。
傳統的數據處理時效性和靈活性無法滿足業務發展需求
在傳統的批處理方式下,通過T+1的全量或增量數據更新和處理可以滿足銀行內各部門對于經營情況和內部管理等數據分析的需求,但是隨著精準營銷、風險監控和內控管理等場景對于數據時效性的要求越來越高,銀行內現有的批量式、準實時式數據處理效率無法滿足所有的業務場景,未來需要實現對交易、日志等流式數據的毫秒級實時采集、處理和計算能力。
數字經濟時代下,銀行需要收集和管理的數據量也將持續高速增長,現有的數據基礎設施從性能和處理方式層面都難以滿足PB級海量、混合數據的存儲、整合、加工以及完成實時流式新增場景接入的要求,需針對現有的數據基礎設施進行維護和升級。
在業務支撐方面,當前的數據交付方式復雜且低效,無法滿足快速變化的業務需求,需要提升快速、自主、迭代式平臺的交付能力。
該股份制銀行綜合考慮自身業務情況和當前技術能力,提出了搭建實時應用支撐平臺來滿足海量數據的實時處理和分析,對于實時應用支撐平臺具體的需求如下:
1.流處理接入和批處理升級
實時應用支撐平臺需完成實時流式新增場景接入,需要以現有的flink方式,進行實時數據感知和獲取以及相關任務的下發;針對批處理任務場景,為配合完成實時需求,需針對配套的批量任務完成開發和改造,對于現有的批量任務要進行維護和升級。
2.系統組件優化升級
完成傳統大數據服務平臺應用支撐集群流式平臺的系統升級和版本升級。應用支撐集群很多是自研和開源組件,新的實時應用支撐平臺需要在現有基礎上進行資源整合和優化升級,包括集成自動化測試功能、集成門戶查詢功能、優化ES存儲索引等。
監控方案制定和實施。統籌建立實時應用支撐平臺整體監控方案,并完成相關指標的制定以及開發優化,在現有的監控指標基礎上完成系統、組件、應用、批、流全方位的監控系統升級,保障系統穩定運行和對外提供服務。
3.集群擴容升級
數據完整性保證。為保障數據完整性,配合實時應用支撐平臺擴容計劃,在承接更多實時場景的情況下,繼續保障集群可以在實時數據消費的同時進行數據備份,并且在集群出現重大問題或流消費有問題時,可以保障數據不丟失。
數據安全保證。為配合平臺中實時數倉的建立,豐富目前的實時、準實時數據接出模式,需要建立配套的安全權限管理模式,進行數據安全管控。
為滿足上述需求,該股份制銀行在實時應用支撐平臺搭建中,綜合技術能力、產品成熟度和過往經驗等多種考慮因素,最終選擇與九章云極DataCanvas展開合作。
九章云極DataCanvas成立于2013年,是一家數據智能基礎軟件供應商,專注于自動化數據科學平臺的持續開發與建設,提供自動化機器學習分析和實時計算能力,為政府及企業智能化升級和轉型提供全面配套服務。
通過開源產品搭建實時應用支撐平臺,利用低代碼環境提升數據開發效率
在項目中,該銀行的IT團隊與九章云極DataCanvas共同合作,對全行的實時業務場景做了全面梳理,作為構建實時應用支撐平臺的基礎。在落地層面,借助九章云極DataCanvas成熟的企業分布式流數據實時處理,分析和決策產品(以下簡稱“DataCanvasRT實時決策中心“),依托主流互聯網大數據生態圈,引入開源社區軟件框架,采取自主和合作研發相結合,完成某銀行實時應用支撐平臺的搭建和基礎數據的準備,以此開展各業務應用工作。
圖11:某股份制銀行全行級實時應用支撐平臺架構圖
實時應用支撐平臺通過對批量數據和實時數據的處理、計算、分析,尤其是通過機器學習模型對實時數據進行分析獲取業務洞察,進而為下游的業務系統提供多樣化的數據服務。在實時數據應用支撐集群中,九章云極運用DataCanvasRT實時決策中心為該銀行提供實時指標引擎、模型引擎、數據資產管理、數據作業管理(算子作業、SQL作業、JAR作業)、數據服務、日志管理、多租戶及租戶資源、UDF管理功能等眾多模塊和功能。
圖12:算子作業開發示意圖
其中UDF的全稱為User Definition Function,是DataCanvas RT實時決策中心作為一個平臺級的產品基于Flink的框架下開發的低代碼數據開發功能,結合預置的算子,讓用戶可以用可視化拖拽的方式把算子在畫布中連接,組成數據開發任務。在實時應用支撐平臺項目中,該銀行IT人員利用UDF可以極大減少流式數據開發任務的難度,提升開發任務效率,使得實時場景的數據開發上線周期大大縮短。
本次實時應用支撐平臺項目歷經初建、擴容和推廣三個階段:
初建階段:初建階段主要是在該銀行原有的批處理架構基礎上,搭建以Hadoop為基礎的系統架構,結合多種開源大數據組件搭建具備實時數據處理和實時交易感知的系統,并在部分試點場景中上線運行。
擴容階段:擴容階段在初建階段的系統基礎上融入DataCanvasRT實時決策中心,并擴容集群規模,在上線時即形成50臺節點的系統集群,線上運行20多類業務場景,并在后續逐步擴容至100臺節點的系統集群和80多個實時業務場景。
推廣階段:推廣階段基于前期的系統建設基礎,遵照規范管理流程,接入更多業務場景,提供及時的數據服務,提升業務洞察能力。
實時應用支撐平臺除了一般的技術和功能需求外,九章云極DataCanvas還針對該銀行的特殊需求對于DataCanvasRT實時決策中心進行定制化開發,包括:
高可用流作業:在DataCanvasRT實時決策中心中添加高可用流作業功能,有效解決流作業重啟情況下導致的數據延遲問題,以及雙作業流場景中的基于第三方緩存Redis做的狀態一致性保障UDF,本次項目中研發的高可用流作業功能也已經和九章云極一起申請專利。
多租戶需求:通過邏輯隔離和在預置算子外開發UDF算子如Redis狀態計算、去重算子、Hbase維表關聯等算子的方式滿足該銀行實時風險管理系統租戶、報表與信息服務平臺系統租戶、營銷管理系統租戶和標簽管理系統租戶的多租戶需求。
實時應用支撐平臺優化數據服務,提升業務洞察
該股份制銀行通過九章云極DataCanvasRT實時決策中心搭建的實時應用支撐平臺,在投產后已實現無間斷運行近四年,并且可以有效應對海量數據處理和實時業務場景應用需求:
1.實現了海量實時數據的處理和分發。該銀行在上線實時應用支撐平臺后,每日實時報文采集量和準實時數據日采集量有了顯著提升。類似于大額資金變動預警的實時場景中,實時數據經平臺規則處理后可以在0.2秒內輸出預警,目前日預警量達到千萬條,實時動帳交易日預警量約百萬條。
2.極大提高了實時場景開發和上線的效率。隨著實時應用支撐平臺項目的實施,平臺上支撐的總體業務場景不斷增加,平均每2周就能上線一個實時業務場景,截止2022年3月已經上線了80多個實時業務場景,總體的需求提出部門達到了15個,包括運營管理部、信用卡中心、信息科技部、網絡金融部等,共涉及3種業務類型,包括營銷類、監控類、監管類,平臺在對用戶需求的支持上得到了顯著提升。
3.適用業務發展需要的流數據計算架構。實時應用支撐平臺上線后,實現了十萬級以上的TPS峰值報文配對處理量,每日全行總線報文采集量加足跡數據采集量達到20億以上。并且隨著業務不斷發展,九章云極DataCanvasRT實時決策中心也對平臺架構進行持續優化,例如最新版本的RT產品支持FlinkSQL,可以有效提升實時數據的開發效率。
流批一體的數據處理能力和低代碼環境可顯著提升實時數據處理平臺的落地效果
實時數據平臺的數據處理能力和開發效率是決定其是否能夠滿足企業需求的核心要素,總結該股份制銀行的實時應用支撐平臺建設經驗,其他銀行在選擇實時數據平臺產品時應注意關注以下兩點:
流批一體的數據處理能力。在選擇實時數據平臺產品時,能夠承載企業的流批一體數據處理工作,具備方便的橫向擴展能力,并且可以對產品架構持續優化改進,不斷引入新的技術和功能,才可以保證該產品可以長期穩定的滿足業務發展需求。
低代碼開發環境提升開發效率。基于DataCanvasRT實時決策中心的低代碼開發環境,由成熟的測試團隊完成工作流的配置和測試。對于復雜業務場景則通過大數據開發工程師通過UDF算子開發的形式,完成部分數據處理難點的實現,后續將UDF算子交由測試團隊,通過可拖拽的方式構建數據開發工作流。
5.政策合規要求推動隱私計算平臺快速滲透
5.1政策合規驅動隱私計算長足發展
隨著數字化進程的深化、數據應用場景的拓展,越來越多的企業及機構發現僅挖掘內部數據價值不足以應對快速變化的市場環境及用戶需求,如金融機構需要借助其他機構數據完善風控模型、實現精準營銷;政府單位需要打通多部門數據提高政府治理水平、提升公共服務效能;醫院需聯合多家醫療機構共同完成罕見病全基因組關聯分析等。企業或機構需要通過數據共享協作提升運營效率、提升服務價值。
與此同時,對數據流通安全的擔憂成為數據共享協作的阻礙。一方面,國家加強對數據分享及利用的監管,相繼頒布《數據安全法》及《個人信息保護法》,嚴格限制數據的不安全流通;另一方面,數據已經成為企業立身之本,企業需要保護自身數據資產,保護數據隱私。
隱私計算能實現數據共享協作過程中的“可用不可見”,保護數據隱私安全、滿足合規要求,被企業廣泛采用。企業對隱私計算技術的需求主要體現在以下幾方面。
功能完善,提供全面數據安全解決方案。不同業務場景下企業能接受的安全假設前提不同,如風控、營銷場景下,企業能接受可信第三方,采用聯邦學習實現隱私計算;而在醫療多中心合作模式下,醫院會面臨串謀攻擊、環境攻擊、模型攻擊等內部攻擊,需要融合多方安全計算、同態加密以及可信執行環境共同滿足數據安全要求。廠商應具備完善的隱私計算保護功能,不限于聯邦學習、多方安全計算、可信執行環境以及同態加密,滿足不同場景下的安全要求。
滿足業務高精度、高性能的計算需求。特殊場景如工業決策、人臉識別以及多中心全基因組分析等,對精度、性能的要求極高。企業應具有底層隱私計算底座開發優化能力,通過提高模型計算效率優化、通信效率優化、網絡帶寬優化等多種方式滿足業務場景高精度、高性能要求。
提供豐富數據源。數據源也是企業實現數據協作過程中的一個主要痛點。數據質量將影響數據協作共享的價值產出,因此企業需要篩選、鏈接合適的數據源。企業希望廠商具有豐富的數據源網絡,了解各行業數據特點,能為企業提供數據鏈接建議并推動實現合作。
具備場景專業知識,提供建模及算法支持。金融、醫療等理論門檻較高,企業需要隱私計算廠商具備專業業務知識,能提供恰當的數據分析算法和模型,幫助企業實現產出。
5.2隱私計算保護數據隱私,實現數據可用不可見
不同場景對隱私計算技術能力要求不同。如政務聯合計算場景下,同態加密即可滿足需求;金融風控場景下,需要具備聯邦學習、同態加密以及多方安全計算;而特殊醫療場景如全基因組分析場景下,要求更嚴格,解決方案需同時具備聯邦學習、多方安全計算、同態加密甚至可信執行環境等多種隱私計算技術。一個普適的隱私計算平臺解決方案如下圖所示。
案例5:某三甲醫院借力隱私計算開展多中心基因組學分析,取得突破研究成果
某三甲醫院是一所集醫療、教學、科研為一體的綜合性三級甲等醫院,脊柱脊髓傷病診治、關節外傷修復重建、顱腦創傷救治、顱內腫瘤診療、器官移植、多發傷、多臟器功能衰竭救治等處于國內領先水平。其中脊柱外科是上海市醫學領先專業重點學科,該三甲醫院持續推進并引領脊髓型頸椎病研究。
多中心醫療合作面臨數據安全、合規風險
全基因組關聯分析(Genome-WideAssociationStudy,GWAS)指在全基因組水平上,以單核甘酸多態性(SingleNucleotidePolytide,SNP)作為分子遺傳標記,進行對照或關聯性分析,可篩選出與復雜性狀相關的突變基因位點,對于疾病預防、診療和新藥研發意義重大。該三甲醫院持續關注強直性脊柱炎(簡稱“AS”)疾病的預防及治療研究。由于該三甲醫院的樣本量不足以支撐一項全基因組關聯分析研究,因此需要聯合多家醫院及院校共享AS患者基因信息進行研究,以開展更好的疾病防治工作。但在跨機構AS基因數據協作和共享過程中存在數據隱私安全隱患、數據合規以及計算難度大等問題:
數據合規趨嚴,醫療數據難流通
隨著我國《數據安全法》及《個人信息保護法》的頒布,對數據安全監管進一步加強,醫療健康信息被列為敏感個人信息,醫療數據的不安全流動被嚴格限制,只有在采取嚴格保護措施下方可處理敏感個人信息。目前醫院普遍通過數據脫敏隱去患者隱私,但在實際應用中,數據脫敏無明確規定,主觀性高,且已被證明存在保護漏洞,被隱去的信息可能被重新推斷出來導致患者身份或隱私泄露,無法達成現行法律所要求的“數據匿名化”。對醫療數據隱私泄露的擔憂及數據共享合規性上的不足成為生物醫療數據跨機構分享的阻礙。
傳統多中心合作仍存在患者隱私泄露或數據篡改風險
傳統的多中心合作通常將多家機構數據匯集到第三方平臺,由第三方平臺集中進行數據處理或計算以實現跨中心協作。但隨著參與方增多,數據泄露和被篡改的風險也隨之升高,如醫療數據安全保護的責任歸屬難界定、各個參與方的醫療權限劃分不明確,都有可能造成醫療數據共享過程中的泄露、侵犯患者個人隱私或是導致重大醫療事故。
數據體量龐大,數據傳輸、計算及分析難度大
基因數據具有高通量、高敏感度的特點,例如本案例中,單個個體的全基因組測序數據量接近300G,而全基因組分析需要幾百甚至幾千個樣本量,龐大的數據體量為數據存儲、傳輸、計算及分析帶來挑戰。
隱私計算方案推動多中心AS全基因組研究順利開展
為規避隱私泄露風險,實現基因數據分享和聯合分析,推動本次AS全基因組關聯分析項目順利開展,該三甲醫院決定采購隱私計算解決方案。經過綜合考慮產品功能、性能、安全以及團隊醫療專業素質等因素,最終選擇與锘崴科技進行合作。
锘崴科技成立于2019年,是一家專業的隱私保護計算技術服務提供商,由“海外高層次青年人才”、隱私計算專家王爽教授,前硅谷知名科學家鄭灝博士共同創立,具備深厚的隱私計算、生物醫療信息等領域的學術和實踐經驗,團隊成員多來自IBM、Google、ThermoFisher等世界五百強企業,業務場景覆蓋醫療、金融、保險、政務、安防等。
該三甲醫院隱私計算方案從確定需求、實現跨醫院平臺部署到完成全基因組關聯分析獲取研究成果,歷時近3個月。
明確AS全基因組關聯分析多中心合作需求
為實現AS全基因組關聯分析,該三甲醫院及合作機構對锘崴科技主要提出三點需求:1)隱私計算解決方案能提供AS疾病全基因組關聯分析管道所需的模型和工具,并支持靈活組合;2)針對跨機構提供的3000個樣本、單個樣本300G的數據體量,解決方案應實現計算性能等價于明文計算性能;3)該方案保證數據安全合規。
部署隱私計算一體機平臺
锘崴科技的锘崴信?隱私保護計算一體機(以下簡稱:锘崴信?一體機)包含接口層、計算節點、加密層、協同層等,可實現接入醫院數據、完成本地計算、對計算結果加密、將加密后的信息通信至全局模型進行迭代,重復計算流程使模型反復迭代至收斂。基于锘崴信?一體機,該三甲醫院及合作機構只需完成安裝、接通網絡、接通數據、配置規則等步驟即可“開箱即用”,簡化搭建應用隱私計算平臺的難度。
其中針對數據接通環境,锘崴科技锘崴信?一體機提供豐富的數據接口,該三甲醫院及合作機構可以以文件、數據庫或者數據接口等形式將數據接入一體機,即可實現在安全可控的前提下與外部合作方進行數據價值交互。
各數據使用方設計并構建全基因組分析管道
為滿足AS全基因組關聯分析研究需求,锘崴科技開發出GWAS分布式計算技術框架iPRIVATES。該框架融合多種算法,包含可定制的基因組數據預處理模塊,基于主成分分析的聯邦人口分層模型、基于邏輯回歸和對數似然比檢驗的關聯分析模型等。該三甲醫院及合作方可靈活地集成和配置不同的全基因組關聯分析管道,方便識別SNPs與AS疾病特征之間的關聯,獲得統計學意義上顯著相關的基因位點信息,為后期的實驗室驗證、確定AS早篩生物標志物提供支持。
實現隱私計算安全
依托iPRIVATES框架,該三甲醫院實現與多個跨省合作機構的AS基因組數據鏈接和共享協作,并在多中心協作過程中,保障基因數據共享全鏈路隱私安全。一方面基于iPRIVATES框架中的安全聯邦學習技術,該三甲醫院和合作機構在本地終端節點對基因數據進行計算,僅共享交換經過加密后的中間統計值,不分享明文個體數據,保護數據隱私;另一方面,依托于iPRIVATES框架中可信執行環境技術,該三甲醫院和合作機構能防御內部攻擊、避免因計算過程被篡改,實現對模型本身的保護。
隱私計算推動多中心合作高效開展,并取得卓越研究成果
依托锘崴科技隱私保護計算技術,該三甲醫院及合作機構在滿足數據安全合規要求的前提下完成多中心AS疾病全基因組關聯分析,取得重大研究成果,獲得業內高度認可;并在縮短評審周期、提高統計意義、降低資源消耗等方面有良好表現。
研究成果獲廣泛認可:基于锘崴科技提供的iPRIVATES隱私計算框架,該三甲醫院關于強直性脊柱炎的研究成果發表在生物信息學頂級期刊BriefinginBioinformatics上,同時獲得2019年度上海市科技進步獎一等獎,收到廣泛贊譽。
計算結果的可靠性、準確度大幅提升:基于隱私計算解決方案,該三甲醫院最終與多家機構達成多中心合作,樣本量相較單中心模式提高3-5倍,統計意義也提高1個數量級,研究結果的準確性、普適性大幅提升,有利于AS疾病的預防和診治工作。
計算效率顯著提升,計算結果等價:iPRIVATES框架在算法時間上等價于數據物理集中的方式,且研究成果的特征靶點也與集中式計算結果一致,驗證了隱私計算方法在解決生物醫療多中心數據協作方面的可行性和巨大潛力。
大幅縮短數據風險評審周期,降低多中心合作時間成本:傳統模式下開展多中心研究前,需要各醫院機構評審數據共享風險,評審周期可能長達一至兩個季度。而隱私計算方案能實現在數據不出域的情況下完成多中心的合作,規避數據泄露風險,因此能大幅縮短醫院多中心合作的評審周期,減少管理流程成本,加速聯合研究。
降低資源消耗:傳統多中心模式下,所有樣本數據需匯總到該三甲醫院再進行計算,對存儲、算力條件要求極高,而基于聯邦學習的多中心模式應用分布式計算框架,物理分散,邏輯集中,對參與方的計算資源損耗和計算條件要求下降。
隱私計算廠商選型決定多中心醫療合作成敗
隱私計算方案在該三甲醫院AS疾病研究中起到重要作用。回顧該三甲醫院實施隱私計算解決方案全流程,隱私計算廠商選型對隱私計算解決方案的成功具有決定性作用,因此對于同樣有多中心醫療研究需求的醫院,在選擇隱私計算廠商時,應注意以下三點廠商能力。
選擇有完全自主知識產權,能兼顧性能、精度、安全等多方面實力的隱私計算廠商。由于醫療行業數據體量龐大、精度要求苛刻、數據安全風險高,要求隱私計算廠商除建模能力外,更要具備優化調整隱私計算底座并發性、準確性、算法復雜性等方面的自主開發能力。
選擇有豐富醫療經驗、具備專業醫療知識的廠商。醫療研究理論門檻高,因此要求隱私計算廠商具有醫療從業經驗或是具備專業醫療知識,準確理解不同醫療業務中的數據分析理論,進而提供對應的醫療算法和模型,如在全基因組關聯分析中能提供人口分層模型、關聯分析模型。甚至更進一步,允許不同醫療機構根據業務能、精度和安全等多方面平衡的解決方案。
選擇具有豐富醫療數據源的廠商。生物醫療數據的各項科學研究通常都需要大量樣本,單一數據源的數據量很難滿足一項研究所需的樣本量,因此,能鏈接多方數據源,諸如醫院、第三方檢測公司、影像中心等,打通各醫院、藥企上下游數據網絡,為醫院聚合大量樣本,將能為醫院節省大量的資源和時間。
6.屬于業務端的數據分析時代來臨
6.1數據分析需求向業務端演進
數據分析平臺作為企業數據價值提煉和挖掘的最后一站,長期以來都是企業數字化建設的重中之重。然而,由于數據分析工作的專業性和復雜性,以及數據邏輯與業務邏輯之間的高度差異性,導致數據分析和業務之間存在較高的壁壘,這對企業的數據運營體系和數據文化提出了很高的要求。近年來,隨著外部市場環境不確定性的增強,以及企業數據應用的不斷深化,數據和業務之間的壁壘在很大程度上影響了企業數據價值的傳遞,具體而言:
業務人員漸成數據分析工具終端用戶。外部環境不確定性增加,市場需求瞬息萬變,業務側對數據分析的需求也隨之調整,逐漸脫離固定的分析邏輯和報表,向個性化、多樣化轉變,而傳統數據分析產品在搭建之初就已形成固定的數據分析模型,數據人員需要通過復雜的定制化工作才能解決這些個性化分析需求,導致溝通成本高,等待周期長,數據分析結果滯后于業務動向,業務人員直接參與數據分析的需求不能及時滿足。
從集團統一賦能走向場景化建設。數據分析平臺往往是企業從全局出發進行建設,由企業數據中心滿足所有部門的數據分析需要。隨著企業數字化水平提高,各部門逐漸無法滿足于來自集團數據中心的固定報表式數據應用,而是希望能夠將其特有的業務邏輯與數據分析能力深度結合,形成豐富細致的數據分析場景,滿足業務精細化運營的需要。
6.2低門檻、場景化解決方案推動數據與業務深度融合
面對個性化、場景化的分析需求,企業需要通過更加智能化、敏捷化的數據分析解決方案,提升分析的靈活性,填補業務和數據間的壁壘,真正讓數據分析能力下沉到一線業務人員和具體業務場景。
1)為業務人員和管理人員搭建新型智能化、自助化分析平臺。以智能化、自助化為特點,面向業務人員的新型分析引擎搭載NLPtoSQL、機器學習、低代碼等技術,提供自然語言等新型交互方式,便捷地低代碼、零代碼數據分析模板搭建方式,從而簡化數據準備、數據挖掘和建模以及數據結果分發全流程操作,為業務人員提供強大的數據分析能力。具體而言,系統能幫助用戶輕松訪問數據,并實現實時分析,滿足業務實時分析需求;系統能幫助用戶通過托拉拽操作,生成豐富的可視化圖形,并支持指標和維度的切換,以及指標和數據的關聯分析,讓業務人員通過極為簡單的操作實現靈活的數據分析,大大降低數據使用門檻。
案例6:精準高效數據分析實現業務與數據深度融合
某知名互聯網教育公司是我國最具影響力的綜合性教育集團,擁有素質教育、國際教育、成人及職業教育、教育服務與支持、在線電商等多個業務板塊。
多重挑戰,數據分析體系面臨瓶頸
作為行業領先的教育集團,該公司較早開啟了數字化探索,但由于缺少專門的數據管理及分析工具與科學的數據管理體系,在實際運行過程中存在諸多問題:
1.取數繁瑣,數據管理難統一。由于企業內部多系統間未在數據層面打通,數據權限管理不清晰,各分公司頻繁需要總部協助從多個系統導出數據并進行初步加工,集團側數據響應工作量大,反饋慢,效率低。
2.分析效率受限,個性需求難滿足。數據展示工具局限于Excel數據透視表,呈現形式單一,缺乏靈活性。因此,各地分公司在數據標準存在較大差異的情況下,很難滿足各分公司對數據分析的個性化需求。
3.分發不及時,推送慢成本高。在分析結果推送方面,原先數據人員需將分析結果手動發送至指定的群聊或郵箱,耗費大量人工成本,無法在數據分析結果產出第一時間推送到相關負責人。
三措并舉,建設高效、精準的數據分析體系
為解決上述問題,該公司決定面向整個集團搭建大數據分析與可視化平臺,以實現精準、高效的數據分析。在充分考慮自身管理模式與產品適配性、產品易用性等維度后,最終選擇觀遠數據作為合作伙伴,共建大數據分析與可視化平臺。
觀遠數據作為一站式智能分析與服務提供商,依托在數據分析和商業智能領域多年實戰經驗,致力于為互聯網、金融、零售、消費、高科技、制造等行業的領先企業提供一站式數據分析與智能決策產品及解決方案。截至目前,觀遠數據已深入服務聯合利華、3M中國、招商銀行、安踏、華潤集團、揚子江藥業、元氣森林、小紅書、蜜雪冰城等400+行業領先客戶。
基于BI平臺,雙方攜手搭建了集團——分公司數據分級管控體系,搭起數據分析管理和協作的完整“骨架”,并通過平臺強大功能,實現全面自助式分析、自動化推送預警,充盈了數據分析的內容。
圖17:觀遠數據分析應用界面
1.數據管理模式改革——中央廚房集中供給,分公司按需取用。首先將多系統數據統一錄入集團數據倉庫,再推送到觀遠BI平臺數據中心,形成集團統一的基礎數據層。隨后,集團作為“中央廚房”,統一管理各學校數據訪問權限,并依據權限管控機制將數據開放給各學校,無需人工干預;最后,集團將權限下放,由各個學校自主管理內部用戶,學校通過觀遠ETL將數據進行規則梳理和加工后形成各自獨有數據集,并基于自身數據集自助生成個性化看板。這種方式不僅保障了數據安全,提升取數效率,更提升了分公司和學校數據管理分析的靈活性。
2.數據分析能力提升——靈活開放的自助式分析。雙方以業務價值鏈和場景為基礎細化數據指標,搭建數據分析模型,并提供豐富的報表類型。
首先將客戶全生命周期數據上線觀遠BI平臺,對多個內部細化節點形成對應數據和指標支撐;其次面向自身業務場景與角色劃分多個數據分析模塊,在對應模塊中進行該業務板塊的專題分析;同時模塊之間可以進行穿透和級聯分析,實現對某一數據的精準追溯歸因;最后,觀遠BI平臺提供豐富報表圖形,一目了然,便捷和精準定位問題環節。
此外,觀遠BI平臺能夠面向不同角色提供自助式分析體驗。
面向數據分析人員,觀遠BI平臺數據報表能夠自動更新,數據人員可根據自身需要靈活搭建數據看板,同時便捷的數據關聯和圖表穿透功能大大提升了數據人員進行數據指標關聯探索的主動性積極性。
面向管理者,觀遠BI平臺為不同管理層級用戶提供多維度數據同環比分析,直觀的圖表貼合管理者信息提取習慣;同時,針對該公司學校管理者較少在PC端辦公的情況,觀遠數據提供移動端入口,使用者能夠通過簡單上下左右滑動方式查看數據及變化趨勢,進行數據穿透,具備極高的靈活性。
3.分析報表秒級推送——智能化訂閱和推送預警。首先,觀遠BI平臺和該公司內部統一認證的系統打通,實現統一登錄,精簡前端操作鏈路。其次,針對業務數據每日高頻刷新,而管理人員忙于日常辦公不能及時查看數據的問題,平臺支持自主訂閱式推送,降低人力成本;最后,針對重要業務指標,觀遠BI平臺提供預警功能,當某一指標突破閾值,消息能夠分秒級自動推送到對應負責人的釘釘,從而能夠對問題進行快速感知和響應。
雙管齊下,數據分析平臺落地推廣
在與觀遠數據合作后,該公司為激活集團內部活用數據的習慣,成立BI推廣小組,創造性地推出了集團與學校的三類合作模式,并面向整個集團舉辦BI挑戰賽。
在BI平臺建設初期,公司總部為進行針對性賦能,更好地協助各地分公司實現其個性化數據分析需求,成立BI推廣小組,通過與各學校的深入交流了解其業務現狀和數據分析能力,最終形成集團與學校數據合作從重到輕的三類模式:
BI推廣小組成功將觀遠BI平臺推廣至公司各個城市,初步在集團內部形成以BI平臺為依托的數據文化。
2.全面上線觀遠BI平臺后,為進一步提升覆蓋率,該公司舉辦了BI挑戰賽,各校區根據自身數據需求指定參賽命題,以物質獎勵吸引參賽,并各自選擇本校區優秀選手在集團層進行比拼,通過評委的細致點評增強選手數據分析能力,同時沉淀優秀作品進行復用。
在集團總部的大力推廣下,全集團人員在觀遠BI平臺之上逐步挖掘出集團數據分析潛能,在內部形成了濃厚的數據文化。
一以貫之,BI平臺賦能業務與數據深度融合
通過BI平臺的全面鋪開,該公司原有經營分析邏輯在觀遠BI平臺完美兌現,業務與數據的融合程度逐漸加深,從而提升了整個集團開源節流、敏捷響應的能力。具體而言:
1.精準數據分析賦能精細化業務運營管控,實現開源節流。針對招生和成本兩大重要問題,觀遠BI平臺能夠讓該公司管理層對于企業關鍵數據指標進行精準分析和洞察,生源線索回訪支持從原來的一月后回訪精細到一周、兩周、三周后,從而實現精細化業務管控,更有針對性進行擴新,降低運營成本。
2.高效數據分析與推送賦能業務敏態調整,快速實現業務轉型。首先,觀遠BI平臺提升了取數、分析、可視化和結果推送全流程效率,使業務側從原來的事后響應轉變為事中有效干預,大大提升了業務的敏捷性。其次,受“雙減”影響,業務變革導致數據分析邏輯也要隨之進行重大調整,觀遠BI的輕量化數據分析能力支持數據分析需求靈活變更,有效節約變革的時間、人力、資金成本,幫助上下快速適應并投入新業務的運轉。
2)在不同業務場景選用嵌入數據分析能力的SaaS產品。
出于投入產出比的考慮,大量企業在財務、營銷、HR、供應鏈等各個業務場景中使用垂直領域廠商的SaaS產品進行協作與管理,而這些產品往往在自身領域已經形成高度成熟和體系化的業務邏輯沉淀,而在產品中嵌入數據分析能力則能夠幫助企業快速且具有針對性地實現垂直業務場景中的各類分析需求,在各個業務場景實現業務和數據的小閉環,提升精細化運營水平。
案例7:分貝通借助衡石科技數據分析PaaS平臺快速落地數據分析能力,實現產品價值進階
北京分貝通科技有限公司(以下簡稱“分貝通”)成立于2016年,致力于為企業提供整合費控、場景、支付、報銷于一體的新一代支出管理平臺,通過企業支付+員工墊付報銷,實現無死角覆蓋全部企業費用支出,幫助企業費用管理更高效,更優化。目前已累計服務元氣森林、海底撈、湯臣倍健等數千家高成長企業。
數據分析能力漸成客戶剛需,自研、外采均難以滿足
在業財融合的大趨勢下,財務的工作重心正逐漸從基礎財會過渡為數據統計、經營分析,企業財務人員及管理層對數據分析和報表的需求強烈。因此,對于分貝通而言,SaaS產品數據分析功能的完備性直接影響到新客拓展與老客續約。
在數據分析功能上線之前,為了解決客戶對數據分析報表的需求,分貝通只能通過系統+人工處理的方式,由分貝通的專業顧問幫助客戶做數據梳理,再以PPT形式提供給客戶。每份報表需要數個人天的工作量,每月數十份定制報表的需求不僅為分貝通帶來了很大的負擔,同時也只能服務部分KA客戶,難以滿足所有客戶財務部門定期定量的數據分析、報表需求。
基于上述痛點,分貝通迫切需要在產品中增加數據分析能力,滿足各類客戶的業務人員和管理層對于數據分析的共性和個性化需求,同時提升公司內部對大客戶定制化報表的服務效率。然而分貝通發現,無論是自研還是采購市場上主流BI產品,均不能完全滿足當下需求。具體而言:
1.自研投入成本過高:分貝通產品需聚合20多個場景、API直連200家以上供應商,自研數據分析和報表功能需要投入數十位專業數據工程師持續研發6-12個月,且面臨較高的研發失敗風險;外采+自研的方案下,由于大多數BI廠商缺少產品功能模塊化輸出的能力,導致采購和維護費用高昂,且需要設置專門的報表團隊,成本總計過百萬元/年。
2.外采產品,個性化分析需求難滿足:分貝通客戶群體行業屬性和體量差異大,對于個性化分析需求,市面主流BI產品普遍需要由專業數據分析師根據需求重新搭建分析模型才能實現,無法由業務人員進行自助分析,使用這類產品無法改變分貝通需花費大量人工成本為客戶代勞的情況。
嵌入衡石科技數據分析PaaS平臺,滿足場景化數據分析和多租戶管理需求
經過多方探尋,分貝通接觸到衡石科技,經評估后認為,HENGSHISENSE數據分析PaaS平臺在技術先進性和產品成熟度方面具有明顯優勢,能夠與SaaS軟件快速實現無縫對接,模板化沉淀分析場景,并一鍵發布給SaaS多租戶,完美貼合分貝通的需求,隨即與衡石科技展開合作。
衡石科技是一家數據分析和BI領域的標準化軟件廠商,核心團隊來自Amazon、BAT、秒針等頂級高科技公司大數據部門,以AnalyticsasaService形態,靈活高效地生成高價值的數據應用場景,賦能各行業客戶持續構建數據生產力。
衡石科技為分貝通提供HENGSHISENSE數據分析PaaS平臺,以強大的數據全生命周期管理、分析和可視化能力,以及成熟的多租戶功能,幫助分貝通輕松搭建起既能滿足客戶多樣化大數據分析需求,又能實現平臺多租戶數據自動隔離的在線數據分析體系,全面提升客戶企業財務數據分析的便捷性、有效性,同時確保數據安全性。
1.覆蓋數據全生命周期,高效便捷滿足客戶多樣化個性化數據分析需求
高效低門檻HQL語義建模:HENGSHI SENSE按照ELT+Embed的新型分析范式,結合衡石科技獨創的HQL語義層徹底實現存算分離,數據分析無需依賴數據倉庫的數據處理性能,更加高效;統一數據定義及指標定義,大大降低數據分析門檻,真正實現將數據分析能力開放給業務人員使用。
零代碼快速搭建業務分析場景:嵌入HENGSHI SENSE分析系統,具備低門檻,易上手的特點,能夠5分鐘內拖拉拽完成自助式分析,幫助分貝通實現整個數據鏈路端到端的處理及搭建分析場景。
豐富場景化模板和自定義分析功能一站式滿足分析需求:衡石科技將數據分析能力提供給分貝通,分貝通以多年積累的業財行業know-how與服務標桿客戶的需求洞察為基礎,對客戶所需分析維度進行整合,再配置到在線數據分析的產品模塊中,從而沉淀出豐富實用的數據分析場景。對于分貝通客戶可直接應用分貝通已搭建好的費用趨勢預測、多維消費對比、行為數據分析等多種多樣的分析場景模板,對于大型客戶則提供自定義Dashboard滿足更高階的財務分析需求。
此外,衡石科技提供的數據分析功能支持多屏自適應,可以在手機端和PC端的快速上線分析場景。
2.強大的多租戶服務支持,適配SaaS產品數據安全與租戶數據管控需求
在認證方式集成上,HENGSHI SENSE內置了Oauth2、企業微信、釘釘、CAS、JWT等多種認證方式,可實現快速對接,且對于不同的租戶可支持不同的認證方式。
在租戶數據管控上,HENGSHI SENSE首先建立了靈活的數據權限管控能力,基于復雜組織架構,給不同的租戶配置不同的用戶屬性值,并按賬戶進行最小粒度權限控制,實現千人千面的效果;其次,HENGSHI SENSE擁有完整的權限控制體系,可以采用租戶管理員自由管控、租戶屬性控制租戶數據庫連接等多種管控方式,快速幫助分貝通實現租戶數據的完全隔離,保障租戶數據安全、準確。
分貝通依托HENGSHI SENSE強大的開箱即用能力,短時間內完成產品部署和交付,無需專門的實施團隊。后續依靠分貝通的客戶成功團隊,在兩周內完成了與分貝通20個2C大平臺、150多個2B2代理、70多個終端供應商、自營直采5000多個SKU的對接工作,相比傳統BI,部署時間提升10倍以上,有力推動了產品功能快速上線使用。
低成本快速滿足客戶數據分析需求,帶來新客轉化與續約持續提升
分貝通上線HENGSHI SENSE,不僅大大節約了分貝通的自研成本和人工制表成本,同時大幅提升了分貝通的市場競爭力,用高效便捷的數據分析能力吸引大批客戶,推動公司長遠發展。
1.節約人工成本與研發成本
分貝通產品自此實現報表分鐘級創建,實時更新,并通過配置按權限直接批量發布,使分貝通數據分析效率提升十倍以上,無需數據工程師幫助,節省初期研發費用數百萬元。
2.快速迭代升級,提升產品競爭力
分貝通能夠借助HENGSHISENSE架構的靈活性快速按照新的業務需求和想法迭代數據分析功能,2022年初上線在線數據分析功能后,分貝通在幾乎無需依賴衡石科技的情況下,1個月建成費控行業專業分析場景,3個月實現專業的數據分析功能反超業內其他費控SaaS廠商,產品競爭力大大提升。
3.真實降本,大幅提升客戶滿意度
分貝通借助HENGSHISENSE滿足財務在進行費用管理時90%以上的數據分析需求,通過數據分析輔助規則設定后,為分貝通每家客戶平均節省20%以上開支,直接優化了終端企業的費用支出。同時,分貝通數據分析模塊可以直接生成業務回顧報告供財務人員高效匯報工作,將產品價值直接傳遞到客戶企業核心管理層,大大加深客戶對分貝通產品價值認同。
7.數據智能行業應用從監測、診斷性分析走向智能決策
7.1企業需求由識別現狀和問題向實現智能決策轉變
在數字化浪潮下,人們日常生產生活而成的數據與日俱增,數據逐步成為企業、政府部門開展業務的重要依據。企業紛紛進行數字化轉型,在采集數據、存儲數據、管理數據、計算數據層面已經建立了認知。
當下,企業面臨精細化運營需求,多變的用戶需求對企業決策效率提出更高的要求,復雜的應用場景增加了決策考慮難度。然而傳統的大數據和人工智能技術建模和分析只能識別現狀和問題,在根因分析、數據關系挖掘和決策支持方面作用有限,仍然需要大量人工介入才能給予業務反饋,不能滿足企業決策速度要求。企業對于數據智能應用需求正在從數據采集監測、診斷性分析向決策支持轉變。
企業、政府部門需要運用更先進的人工智能技術高效精準地搭建算法模型進行業務判斷、識別以及預測,從廣度和深度上充分挖掘數據價值,為企業和政府部門業務開展高效賦能。企業和政府部門對數據智能解決方案有以下幾個層面的需求:
一是深度挖掘數據價值,提高數據利用率。廣泛收集、存儲、管理海量數據以后,在應用層面更需要對數據進行計算和分析,判斷數據性質,分析數據特征,結合各行業領域知識積累深度挖掘數據價值,為企業和政府部門提供決策參考。
二是精準快速出具最優解決方案。決策場景遍布企業和政府部門業務環節,選擇哪個排產方案最優?哪個出行方案最合理?哪個營銷方案效果最好?面對每個具體場景,能夠廣泛采集相關領域的信息,快速組合形成多項解決路徑,在場景的約束條件下出具優決策方案。
三是深入應用場景,形成行業領域知識沉淀和工作方法論。數據基礎設施構建已經成為企業和政府部門數字化轉型過程中的必經之路,但行業應用解決方案還要與行業知識深度融合,充分運用專家經驗,形成行業領域知識沉淀和工作方法論,才能夠在具體業務場景中充分地、長久地發揮數據價值。
7.2靈活應用智能決策技術高效解決企業業務決策難題
現階段,基于上述需求及痛點,運用機器學習、深度學習、強化學習、運籌優化、知識圖譜等人工智能技術和大數據技術深度挖掘數據價值,識別判斷數據性質,構建數據知識網絡,綜合多項信息建立訓練模型,不斷優化模型精準度,快速輸出優質的決策方案,憑借更多樣的呈現形式以支持各領域企業或部門實現高效決策。
7.2.1運用安全大數據解決方案監測潛在威脅,保障數據安全
在數據安全方面,可將數據存儲和分析模型不斷擴展形成存儲分析集群,對海量數據進行全量數據存儲和實時查詢、多維分析。通過訓練AI分析模型對安全數據進行判斷和分析,從海量數據中提取特征,完成風險判定,實時對已知和未知的安全威脅進行監控預警。
案例8:某大型金融組織運用多級聯安全計算分析系統高效處理全流量安全數據
某國內大型金融組織處于我國銀行產業的核心和樞紐地位,對我國銀行產業發展發揮著基礎性作用。截至2021年底,除總公司外,在全國范圍內設有30+家地方分支機構,創投分支機構,以及境外國際分公司等。對于這樣的金融樞紐企業而言,其管理與技術體系規模復雜且龐大。為應對場景日益復雜的銀行清算業務以及不法分子層出不窮的釣魚郵件、web攻擊等風險,該金融組織組織在網絡中構建了應對日益復雜多樣的風險與威脅的安全防護措施,在提升安全性的同時,也使得安全數據處理難度大幅提升。
因此,在復雜網絡環境和海量日志中,如何對千億級數據進行全量數據存儲和實時查詢、多維分析,如何對已知和未知的安全威脅進行監控預警,能否匹配IT集中化、數據集中化、基礎設施云化的發展趨勢,以及能否支持多級級聯部署、多分支機構安全管理等,是該大型金融對安全大數據解決方案的考察重點。
基于以上考慮,該大型金融組織需要能夠采集、整合、治理、分析、監測大規模安全數據的多級級聯部署的安全計算分析平臺,通過可行性研究和對眾多技術方案的遴選,最終選擇了斗象科技作為合作伙伴。斗象科技成立于2014年,是中國領先的網絡安全數據智能與安全運營提供商,為政府及企業提供安全數據智能與安全運營產品的解決方案。
該大型金融組織與斗象科技合作搭建的安全大數據項目需要實現以下目標:
1)大規模的網絡流量采集:解決方案能夠支持該金融組織大規模網絡流量采集、檢測與分析,適應未來5-10年集團網絡發展規劃;
2)高可用、可水平擴展的系統:在業務活動流量激增、異常等情況下,系統還具有高可用性、支持水平靈活擴展,能夠滿足處理性能提升和存儲擴容的需求;
3)大數據溯源、取證:系統以大數據技術為基礎,對網絡報文進行高速捕獲、深度解析與存儲,支持異常事件的回溯分析以及調查取證;
4)支持多級級聯部署、多分支機構安全管理:系統以數據分析為核心,驅動常態化攻防體系不斷建設和完善,實現不同層級防御系統之間的協作與聯防聯控。
根據現有架構和外部經驗,建設多級聯安全計算分析平臺
在安全大數據項目中,該大型金融組織的IT團隊與斗象科技團隊共同合作,對集團總部、分支機構安全業務進行了整體梳理,構建了以數據分析為核心的PRS“中心計算+區域節點”級聯解決方案架構。
PRS“中心計算+區域節點”級聯架構是由上海、北京的全網絡流量安全分析系統控制臺和部署在全國32個全網絡流量安全分析系統引擎組成。
斗象科技提供的解決方案中,上海、北京總部的PRS-NTA系統控制臺可以實現整體級聯方案的數據匯總、分析與管理,省級分公司可以向總部控制臺同步各分區的威脅告警信息、配置信息等。兩臺高可用的管理控制臺可以保證若其中一臺出現故障,另一臺也能正常管理流量安全分析引擎,并保持所有功能正常使用。
32個省級分公司的PRS-NTA安全分析引擎可以進行區域流量的協議解析、威脅檢測及數據加工存儲,包括引擎管理模塊、流量偵測模塊、數據存儲模塊、模型檢測模塊等。安全分析引擎將流量日志保存在本地,最終將風險信息通過互聯專線上送到上海、北京的全網絡流量安全分析系統控制臺中,控制臺可對所有引擎的所有風險信息統一管控。
斗象科技的PRS-NTA安全分析存儲集群可以實現海量數據處理能力。在數據采集層利用DPDK進行數據包捕獲,利用最小的資源捕獲最全的數據包,進而通過消息傳輸層的Kafka集群將數據包傳遞給安全智能分析引擎的業務應用中,滿足對網絡流量數據的全面管理。再通過數據解析層將原始流量數據進行深度報文解析和基礎安全識別,可進行特征分析、統計分析、智能安全分析、攻擊畫像分析、調查畫布分析和異常行為分析,將分析數據用歸一化格式存儲在安全數據湖中。除了實時分析數據外,安全數據湖還可存儲原始數據和系統數據,能夠為所有級別的計算與決策制定提供所有類型數據集合的支撐。
該級聯方案設計對控制臺、引擎之間互聯專線的帶寬負載并不會造成壓力,當控制臺需要查詢對應的風險數據詳情時,可直接免密訪問各區域引擎的流量日志,最大化保證安全風險集中管控的時效性。同時,控制臺、引擎之間的數據都會以加密的方式傳輸,保證數據的安全性、可靠性、完整性。
安全計算分析平臺滿足穩定采集、全量存儲、精準回溯、集中管控安全數據的多層次需求
-該大型金融組織通過分支試點建設、全面落地安全計算分析平臺,在安全數據檢測與分析上實現了以下價值和效果:
第一,穩定的數據采集性能,具備全量數據存儲、高速檢索以及靈活的擴容能力。分析平臺能夠采集并實時處置60-80Gbps的數據,日均流量日志數達百億條。分析平臺可對數據進行冷、熱分離處理,滿足了集團PB級數據存儲與秒級檢索的需求。安全分析引擎系統可以支持橫向無縫擴展,能夠滿足未來5-10年的安全建設擴容需求。
第二,能夠進行安全事件回溯與調查取證。全流量安全計算分析平臺可對協議上下文與協議內容進行調查取證,可以快速定位風險事件與協議事件的關系。同時,還可以觸發告警事件,通過查看告警事件分析,可以追溯攻擊事件發生的時間、IT資產、攻擊類型等。
第三,能夠實現級聯部署和集中管控。落地的安全計算分析平臺支持級聯部署和集中管控,分公司可以通過互聯專線將告警事件上送,在總控平臺上查看告警信息。不僅如此,在總控平臺上可以對原始數據選定區域后進行查詢,能夠連接到下層分析平臺進行查詢,實現安全數據的集中管控。
全流量安全計算分析平臺有效降低人力參與成本、提高安全運營效能
1、借助AI賦能安全應用,降低人力參與成本。人工智能可以直接利用原始數據進行訓練,從大量的數據中提取特征,自動完成分類判定的工作。在保障監測效果的同時,還能夠對人工、非智能技術手段起部分替代作用,從而降低成本。
2、通過人機結合的方式,建立多維度的網絡安全防御體系。該大型金融安全計算分析平臺PRS能夠在第一時間發現和識別威脅,其智能檢測機制有助于簡化流程、降低成本。同時,能夠全面提高網絡空間各類威脅的響應和應對速度,全面提高風險防范的預見性和準確性。
3、改善安全防御體系和提高安全運營效能。全流量安全計算分析平臺PRS能夠全面提高威脅攻擊的識別、響應和應對速度,提升風險防范的預見性和準確性,極大地改善了企業安全防御體系,提高了安全運營效能。
7.2.2融媒體技術為媒體領域高效采集、生產、分發和接收內容提供更優方案
融媒體平臺是數據中臺與媒體業務結合的產物,幫助企業融合多源異構數據,匯聚媒體企業歷史數據資產、接受外部共享的數據信息、實現內部資源開放互通,構建媒體領域知識體系,為內容創新持續賦能。
案例9:新華社建立智慧中臺,實現融媒體數據、業務、渠道高效統籌
新華社媒體融合生產技術與系統國家重點實驗室(以下簡稱“新華社國家重點實驗室”)是在中宣部指導下、科技部批準建設的媒體融合生產領域首個國家重點實驗室。新華社國家重點實驗室順應了全程媒體、全息媒體、全員媒體、全效媒體發展趨勢,重點圍繞人工智能在新聞生產流程中的應用,面向跨媒體信息分析與推理、人機協同復雜問題分析、響應及評估等方向,開展媒體融合生產技術與系統應用基礎理論研究。
在“加快推進媒體融合發展,建設國際一流新型全媒體機構”的背景下,新華社國家重點實驗室的建設圍繞以下三個問題展開:國際一流的新型群體機構需要怎樣的技術體系?如何建設新一代技術體系?如何運用先進技術推動國際一流新型全媒體機構建設?根據上述明確要求,新華社從技術底層、技術應用、技術輸出三個層面發力,進一步探索融媒體技術研發以及創新性融媒體技術應用,賦能自身媒體業務智能化轉型的同時,助力全行業媒體融合的一體化發展。
傳統媒體管理平臺無法適應當下日益多元的媒資管理需求
傳統媒體管理平臺普遍存在數據孤島、編目傳統、生產效率低、審核困難、利用率低等痛點:
1)數據孤島:傳統媒體資產管理平臺與平臺間互相獨立且封閉,無法滿足媒體融合發展互融互通的需要;
2)編目傳統:傳統的編目方式成本高、體系復雜,時效性低,無法適應當下媒體的發展變化;
3)生產效率低:現有的內容生產工具效率低下、無法適應日益新增的海量素材和二次制作內容制作情況;
4)審核困難:新媒體多模態數據量快速提升,在引入和輸出方面都對審核工作造成巨大壓力,傳統的審核手段效果差;
5)利用率低:傳統媒體資產內容庫含有大量數據,標簽體系不一,檢索維度少、準確度較低。
相對于傳統媒體管理平臺面對的諸多難題,新一輪科技革命興起,5G、大數據、人工智能等應用到新聞領域,讓傳媒業實現了深度變革。作為國家通訊社,新華社亟需將5G、大數據、人工智能等先進科技,運用在新聞采集、生產、分發、接收、反饋全流程,解決融媒體信息資源管理難題,通過知識圖譜、自然語言理解、多模態語義知識搜索與推薦等核心技術能力,搭建整合新華社內外數據資源、實現融媒體業務數據化的智慧中臺,將數據資產、知識資產融合共享,通過中臺實現對各類應用的數據賦能、AI賦能、運營賦能、決策賦能,由此推進媒體移動化、數字化、智能化進程,為提升傳播力、引導力、影響力、公信力提供技術支撐。
“2服務6中臺”助力新華社構建新型融媒體機構
為加快推進融合發展轉型升級,新華社國家重點實驗室青睞的合作廠商需要具備以下能力要素:
1)能夠在媒體領域長期深耕,對融媒體機構如何建設新一代技術體系擁有獨到見解;
2)能夠充分理解新華社媒體業務,以國際一流新型全媒體機構建設提供個性化整套解決方案為出發點;
3)自主掌控核心技術,其技術研發能力行業領先。
通過對眾多廠商方案的可行性研究和對比,新華社國家重點實驗室最終選擇了中科聞歌作為此次智慧中臺項目的合作伙伴。
中科聞歌是中國科學院旗下企業,成立于2017年,是一家數據與決策智能服務商。中科聞歌團隊深耕數據智能+人工智能+運籌科學領域十余年,研發團隊吸納了各領域高水平技術人才,經過了中科院“弘光專項”、國家科技創新2030“新一代人工智能”、北京冬奧會等數十個國家級重大項目的檢驗,融媒體領域豐富的研究實踐經驗和高層次的技術水平為中科聞歌的智慧中臺解決方案提供了有力保障。
此次智慧中臺項目由新華社和中科聞歌聯合孵化,組建了研發團隊、算法團隊、CV團隊、研究團隊、用戶團隊以及產品團隊,共同研究各類中臺和擴展性應用的定位和目標市場,面向媒體行業輸出一套智能全媒體信息創新思路,提供基于主流媒體算法相關的包含政策、資訊、運營等在內的定制化服務。
項目雙方在方法論、標準體系、組織機制、運營體系、評價體系、技術平臺和產品工具幾方面持續研究,推動新型全媒體機構數字化轉型能力提升的中臺戰略性工程,形成了“2服務6中臺”建設模式:
智慧中臺解決方案統籌新華社全量媒體資源
此次新華社和中科聞歌搭建的智慧中臺,基于中科聞歌自研”天湖“數據智算平臺的數據處理能力,可以統籌超3億條文字、圖片、視頻形式的內容以及100余種算法資源,中臺存儲超過2.5PB媒體數據,涵蓋了60余個媒體場景,支撐了媒體融合生產、傳播、運營、數字化報道工作室、算法大賽、多模態知識搜索、領域知識體系建設等創新應用,進一步實現了以下價值成果:
1)實現了新華社內資源開放互通:通過智慧中臺充分調動了新華社各部門專業人才、內容生產、行業研究、領域調研、行業合作資源間的協同配合與高效復用;
2)搭建了各領域完善的知識體系:通過智慧中臺研究推進了知識融合方法、標準、工具和機制,不斷吸納融合構建通用知識和領域知識,通過媒體大數據與多源異構數據的萃取、分析與知識處理算法與技術,沉淀了如人物知識、事件知識、核心報道知識、政策法規知識、內容安全知識等,作為數字化轉型和數據業務化、業務數據化的基礎,充分發揮數據要素化、數據資產化對創新生產方式、傳播形式、產品形態、服務樣態的作用;
3)構建了新華社內外多方創新協同機制:圍繞用戶和場景衍生服務,通過智慧中臺構建產品服務創新的孵化機制,創新構建全媒體產業鏈價值評估、流通和分配機制,促進全員媒體、全程媒體、全息媒體、全效媒體有效協同,圍繞用戶和場景推進“新聞+政務服務商務”創新產品和服務模式試點。
在媒體領域、大數據領域、人工智能領域的技術和人才積累是智慧中臺建設的有力支撐,是建成、建好此次融媒體智慧中臺的核心要素。基于中科聞歌融媒體領域的成熟產品體系,“天湖”數據智算平臺支撐了整個智慧中臺各類數據的匯聚、處理,知識圖譜、數據標注等成熟的AI產品為知識加工提供了智能、快速的技術平臺;媒體、國際關系、人工智能等領域專家對智慧中臺的領域知識數據進行收集、梳理、歸類,形成領域知識體系,為中臺的業務化、智能化運行提供了知識體系保障。
7.2.3營銷領域可應用大數據技術覆蓋消費者市場動態,為產品營銷決策高效賦能
在產品營銷業務過程中,可運用大數據技術和科學算法,廣發收集和分析線上社交媒體平臺和電商平臺的用戶數據,迅速捕捉市場趨勢和消費者需求,挖掘潛力趨勢,輔助產品營銷決策。
案例10:安利(中國)研發中心打造智能營銷產品創新平臺,實現產品創新亮點挖掘
安利(中國)研發中心成立于2004年12月,是安利全球研發部門的重要組成部分。安利全球研發團隊在全球健康領域擁有超過50年的領導者地位,中國研發基地主要負責新概念研究、毒理研究、配方設計、產品功效驗證、臨床試驗、消費者洞察等。多學科多交叉點的結構以及與全球產品團隊合作的氛圍,讓安利(中國)研發中心的研發力量在業內名列前茅。
消費者反饋評價和市場熱點趨勢都是各類型消費品研發過程中的重要參考因素。安利(中國)研發中心以往通過消費者調研、桌面分析以及專家意見等調研方式了解用戶評價和市場關注點,這樣的傳統調研方式存在調研結果紛繁復雜、調研周期長、投入資金成本和人力成本高等諸多痛點。
基于內部分析討論和綜合判斷,安利(中國)研發中心期望通過運用更高效更系統的大數據手段了解消費者市場,協助安利深入了解當下消費者使用保健食品時關注的具體功效和原料成分等概念元素,降低創新戰略階段的調研成本,為產品研發創新高效賦能。安利(中國)研發中心認為,基于大數據的產品創新解決方案需要具備以下條件:
1)解決方案可以借助大數據能力,運用科學算法,全面迅速捕捉市場趨勢和消費者需求,自動發掘新興潛力趨勢,為研發人員提供更多創新靈感。
2)其次,解決方案可以通過對社媒、電商等數據的廣泛收集和分析,深度挖掘具備潛力的產品創新機會在市場中的綜合情況,輔助決策下一步行動。
3)最后,通過此次項目可以總結出科學可行的產品創新研究方法論和研究體系,以支持后續產品創新研發過程。
基于以上考慮因素,安利(中國)研發中心最終選擇與數說故事共同搭建智能營銷產品創新平臺。
數說故事成立于2015年,員工800+人,60%+為大數據和AI研發團隊,在“認知AI”領域占據領先地位。公司構建了從數據收集、處理、分析、建模到商業應用的全價值鏈解決方案,完整覆蓋產品創新、品牌營銷、內容營銷、渠道銷售、用戶運營、風險預警、投資顧問等豐富的商業場景,幫助10+行業的500+頭部企業完成營銷數字化轉型。
安利智能營銷產品創新平臺,精準匹配產品創新趨勢洞察需求
數說故事憑借對安利(中國)研發中心工作內容的深入了解和訴求解讀,設計了在產品研發階段可以高效洞察市場趨勢和創新點的解決方案,該解決方案主要運用了自有產品數說雷達進行智能營銷產品創新系統的構建,主要包括創新趨勢發現和創新趨勢研究兩個業務方向:
圖26:安利智能營銷產品創新平臺架構
創新趨勢發現主要由趨勢榜單來體現,通過對品類、趨勢類型和推薦指數的判斷和篩選進一步形成趨勢榜單,趨勢榜單由上升指數、熱度指數、萌芽榜單等模塊組成。
創新趨勢研究方向下主要實現趨勢洞察功能,通過對榜單維度的進一步篩選,形成了趨勢概覽(社交媒體聲量趨勢、店鋪SKU分布、情感分布、產品趨勢、同類品牌對比等)、人群和場景洞察(性別、年齡、地域、時間等)以及使用反饋(滿意度表現、情感表現、正負向詞云)發現產品創新趨勢及熱點。
安利智能營銷產品創新系統的工作路徑具體分為6個步驟:
第一步,數據構建。通過社媒(微博、微信、新聞、論壇、小紅書、抖音等)和電商(天貓、京東)等公開渠道和合作渠道,大范圍持續收集產品原料、功效、銷量、用戶反饋等維度的實時合規數據,為概念識別、分類、挖掘、分析打造良好的數據基礎。
第二步,概念識別。安利智能營銷產品創新系統在落地前憑借過往數據構建了行業庫,行業庫內實現各層級模塊細分,例如蛋白類下有植物蛋白模塊和動物蛋白模塊,運用概念識別模型根據安利(中國)研發中心需要的植物蛋白成分類別剔除非核心的動物蛋白概念數據。接著運用關系識別算法,對數據進行二次采集和篩選,盡可能的保留植物蛋白相關實時數據。然后通過訓練趨勢識別算法判斷產品成分、功效的熱門程度,在原料、成分、功效、科技、工藝等偏產品研發創新的維度進行概念升級和處理。
第三步,概念分類。通過算法模型對已經識別出的維度進行分類,幫助產品研發中心快速識別當下植物類產品的熱門話題維度和創新維度。
第四步,概念挖掘。通過算法模型實現概念挖掘,參考權威機構和企業發布的產品榜單或正在討論的創新產品原料、成分、功效概念。
第五步,概念分析。深度分析社媒、電商平臺里消費者反饋的當前趨勢,包括各類型植物類產品的銷量和使用效果評價,綜合消費者偏好及關注點,運用口碑評估體系評估產品成分及功效,從而給予安利(中國)研發中心產品原料、成分、功效的前期評估參考。
第六步,知識積累。智能營銷產品創新系統識別出當下產品的市場趨勢后,運用知識圖譜技術持續形成行業底層知識積累,知識圖譜會隨著產品熱點和創新點的出現持續更新,以便研發人員或審查人研究人員在瀏覽產品知識或信息時能夠快速擴展其他知識類別,為產品創新提供更多靈感來源。
以上6個步驟實現智能營銷產品創新系統的協助工作,為安利(中國)研發中心產品研發創新高效賦能。
安利智能營銷產品創新系統讓產品研發前期調研覆蓋更廣、效率更高
安利(中國)研發中心與數說故事共建的智能營銷產品創新解決方案覆蓋數據范圍廣泛、維度多樣,有效降低調研階段人工投入成本,并為創意戰略階段持續賦能。
1)智能營銷產品創新解決方案采集到的數據覆蓋范圍廣泛、維度多樣,在遍及用戶生活的社交媒體和眾多電商平臺上實時采集產品原料、成分、功效、銷量等維度評價,前期調研的廣度和速度得到優化。
2)智能營銷產品創新系統可釋放大量人力價值,免除低效人工識別工作。產品研發支持系統實現了超過85%的實體識別準確率,免除了大量人工挑選的低效工作,實體識別算法還可隨市場發展實時優化,持續發現和挖掘產品熱點。通過算法自動識別新詞,從而發現產品研發創新方面的未來趨勢。
3)智能營銷產品創新解決方案可為產品創新提供衍生知識參考,產品研發支持系統可為核心概念持續鏈接衍生知識,進而形成網狀結構的知識圖譜,提高了知識的關聯探索能力,在前期創意戰略階段,為實現要素重組提供豐富的靈感。
強有力的大數據技術+科學可行的研究方法論+精準的項目訴求解讀=成功的智能營銷產品創新解決方案
此次安利智能營銷產品創新項目的成功是建立在扎實的數據能力、科學可行的研究方法論和精準的項目訴求解讀基礎上的。
在大數據技術層面,數說故事提供的產品基礎數據能力扎實,數據采集能力和算法能力優勢明顯,能夠為產品創新研發系統提供持續穩定的信息采集技術。
在產品創新研究方法論層面,此前合作的植物原料研究思路和此次產品創新解決方案思路一致,安利(中國)研發中心和數說故事探討出研究方法論科學可行,只需將一次性的研究報告進一步升級成實時可用的智能營銷產品創新系統,可為安利(中國)研發中心全線產品提供更全面更廣泛的研究支持。
在項目訴求解讀方面,安利(中國)研發中心在過往研究項目中與數說故事建立了良好合作關系,熟悉了彼此的工作風格及具體訴求,讓安利對數說故事建立了較高的認可度,有效降低了此次項目的前期溝通成本。
7.2.4醫療大數據技術有效支持醫學研究、健康決策
在醫療領域,可運用人工智能影像技術和醫療大數據管理技術輔助癌癥篩查工作,覆蓋更多篩查人群,提高癌癥篩查效率,降低人工篩查成本。醫療大數據管理技術有效幫助相關部門實現數據管理,數據互通共享,輔助實現健康決策,同時為后續的醫學大數據研究打下堅實的基礎。
案例11:“AI健康地圖”助力構建浙江省癌癥篩查信息平臺
浙江省腫瘤防治辦公室從屬浙江省腫瘤醫院,浙江省腫瘤醫院始建于1963年,是新中國成立最早的四所腫瘤醫院之一,是中國科學院首個以腫瘤醫學為主要研究方向的專業研究機構,集腫瘤預防、醫療、科研、教學、康復于一體,承擔著國家腫瘤防治重任,在全國的腫瘤防治工作中發揮著龍頭作用。
2016年中共中央及國務院印發了《“健康中國2030”規劃綱要》,明確指出對慢性病實施綜合防控戰略:“強化慢性病篩查和早期發現,針對高發地區重點癌癥開展早診早治工作,推動癌癥、腦卒中等慢性病的機會性篩查。基本實現高血壓、糖尿病患者管理干預全覆蓋,逐步將符合條件的癌癥、腦卒中等重大慢性病早診早治適宜技術納入診療常規。到2030年,實現全人群、全生命周期的慢性病健康管理,總體癌癥5年生存率提高15%。”
浙江省腫瘤防治辦公室和疾控中心為響應《“健康中國2030”規劃綱要》“全民健康共建共享”的戰略目標,計劃通過早篩查、早診斷、早治療惡性疾病的方式來降低人群疾病負擔。然而傳統人工篩查癌癥方式存在眾多痛點:傳統篩查方式依賴人工填寫各類文書,篩查效率低,工作人員篩查成本較高;癌癥篩查涉及的人群數量龐大,數據管理難度較大;從事腫瘤防治的一線工作人員缺乏專業的篩查系統等。
基于以上考慮,浙江省腫瘤防治辦公室尋求人工智能影像和醫療大數據管理技術輔助進行早期癌癥篩查工作,通過可行性研究和對技術方案的評選,最終選擇了深睿醫療作為合作伙伴。
深睿醫療深耕智慧醫療領域,致力于通過人工智能“深度學習”技術及自主研發的核心算法為國內外醫療機構提供人工智能和互聯網醫療解決方案。其研究院國內外學術領域成果突出,累計影響因子超1200,獲得了700多個專利及軟著,顱內動脈瘤自動化分割與檢測方向的科研成果被NatureCommunications(IF17.694)收錄。深睿醫療牽頭參與了7項科技部重點研發計劃,9項國家自然科學基金,30多個省市級科研項目,2021年深睿醫療與國內多家知名醫療機構聯合申報成功4個國家自然項目。今年,深睿醫療牽頭或參與的6個項目上榜工業和信息化部和國家藥品監督管理局公示的人工智能醫療器械創新任務揭榜單位名單
“AI健康地圖”推動腫瘤篩查工作流程完善、篩查信息統一管理
“AI健康地圖”推動腫瘤篩查工作流程重塑。為響應浙江省數字化改革的號召,浙江省腫瘤防治辦公室在2020年開始著手腫瘤篩查平臺的打造,并對腫瘤篩查業務流程進行重塑,包括風險人群入組、評估/初篩、精準篩查、隨訪等完整的篩查流程,并超前考慮到所有與腫瘤防治相關的所有參與單位,包括政府主管部門、各地腫瘤防辦、定點醫院、社區醫院。
“AI健康地圖”實現全省腫瘤篩查一盤棋。目前浙江省腫瘤篩查平臺已接入了130個管理機構、292個篩查機構、1423個招募機構(超90%的浙江省社區醫院),形成了一套組織嚴密的腫瘤篩查網絡,可以持續開展不同腫瘤的大規模篩查。
浙江省腫瘤篩查平臺包括3類終端(醫生電腦端/醫生移動端/居民移動端)、30個高頻應用(包括受試者招募、篩查項目預約、腫瘤篩查、隨訪等篩查全鏈路環節的一體化服務功能)、N個腫瘤篩查模塊(結直腸癌篩查/肺癌篩查/上消化道癌篩查)
浙江省腫瘤篩查平臺的功能模塊有系統管理(機構管理/用戶和權限管理/登錄管理/行政區劃管理/系統幫助)、任務管理(公告管理/待辦事項管理/任務管理)、受試者管理(受試者信息總覽/受試者查詢/受試者信息導出)、目標人群管理(新增目標人員/修改目標人員/導入目標人群)、評估管理(評估資格審核/知情同意書管理/問卷管理/評估結果展示)、檢驗管理(檢驗耗材管理/檢驗結果錄入/檢驗狀態追蹤)、預約管理(檢查預約/簽到管理/動員管理/放號管理)、篩查管理(篩查結果錄入/篩查結果查詢/篩查狀態追蹤/AI影像輔助診斷)、隨訪管理(隨訪錄入/隨訪提醒/隨訪結果管理/隨訪查詢)、數據管理(數據駕駛艙/業務指標統計/數據使用管理/數據導出)等30個應用模塊。
憑借“AI健康地圖”,浙江省腫瘤篩查工作實現效率躍升
AI健康地圖”可篩查不同病變階段的患者,有效節約醫藥費用。截止到浙江重點人群結直腸癌篩查項目累計完成風險評估和便潛血檢查(FIT)4,58余萬人,結腸鏡檢查近30萬例,篩查出結直腸癌3,110人,進展期腺瘤31,947人,非進展期腺瘤57,306人。通過信息平臺及早救治了1000多名患者,節省群眾的醫藥費用、減輕群眾的負擔,為醫保節約費用28億多元。
“AI健康地圖”可對潛在癌癥人群進行提示和預警。篩查項目在實現了結直腸癌的早期診斷,還對處于“早早期”的結直腸癌進行了提示和預警,臨床的提前干預直接將癌癥扼殺在萌芽之中。截止目前浙江省重點人群結直腸癌篩查項目累計完成風險評估和便潛血檢查(FIT)近460萬人,篩查出結直腸癌3,110人及近9萬處于早期病變不同階段的患者。
“AI健康地圖”可促進癌癥篩查和早診早治一體化及標準化。癌癥篩查信息平臺通過實現省域內信息統一接入與管理,使篩查數據實現高效質控、互聯互通及便捷共享,為浙江省后續癌種、區域的拓展及醫學大數據研究打下堅實的基礎。
“AI健康地圖”可賦能疾病預防控制和健康決策。癌癥篩查信息平臺內沉淀了大量的區域癌癥篩查數據,可通過人工智能技術對醫療大數據進行治理及智能分析,最終賦能疾控和健康決策。
通過“AI健康地圖”腫瘤防治工作實現了模式創新、技術創新和場景創新
此次癌癥篩查平臺搭建過程中實現了產學研用相結合,創新性地應用了人工智能技術,提高了居民癌癥篩查參與率,實現了疾病診斷關口前移,在腫瘤防治工作層面實現了模式創新、技術創新和場景創新。
1)模式創新:實現篩查業務數字化流轉,減少工作人員從的重復工作,加速項目推進,提升篩查信息管理效率;腫瘤篩查遵循浙江省統一的篩查技術方案,實現從省級到地市到區縣的統一,擁有一致的工作流程和標準規則;針對不同腫瘤篩查設計專門的統計指標,通過對比分析各類指標在全省各篩查單位的差異程度,可幫助管理機構及時指導篩查機構進行整改,有效保證各癌種的篩查質量。
2)技術創新:充分運用5G、云計算、AI等先進的新興技術,構建全省乃至全國獨樹一幟的智能腫瘤篩查云,可以支撐全省不斷開展各種不同腫瘤的大規模人群篩查;采用AI與云計算結合的技術,居民做完檢查后影像可自動轉發至云端,并通過影像AI技術自動計算篩查結果,篩查準確性相當于中高年資醫生水平。AI分析結果按篩查要求自動回填醫生診斷所需填寫的字段內容,極大節省篩查診斷醫生的閱片錄入數據的工作量。
3)場景創新:創新應用醫生移動端篩查,方便醫務工作者在人民群眾家門口開展腫瘤篩查工作。靈活支持高風險人群在日常就醫過程中隨時參與腫瘤機會性篩查,進一步拓寬腫瘤篩查渠道,增強腫瘤篩查的人群覆蓋面。對于重點風險人群及家屬,支持線上參與腫瘤篩查,廣泛提升居民對腫瘤防治的知曉率和參與度。
8.展望
當前,出于政策合規、采購習慣和認知等方面的原因,中國企業尤其是中大型企業對于公有云的采納進展仍處于早期,但基礎設施上云的趨勢仍在穩步推進。未來,隨著基礎設施上云,基于云上的數據分析和應用,以及跨組織、跨區域的數據共享和消費是值得關注的趨勢。
同時,隨著區塊鏈、隱私計算等技術的滲透,政策對于數據要素流通的倡導,以及數據資產定價機制的探索,相關基礎設施將逐步走向成熟,為數據要素的高效流通和應用、釋放更大的價值帶來可能
相關稿件