隨著現代數據技術體系的發展,數據驅動已經成為企業管理不可或缺的一部分,數據遍布在企業內部的每一個角落。每個企業積累的海量的大數據,但真正發揮效能的數據微乎其微,形成了大量的“沉睡”數據。而企業內部的數據用戶,從數據分析師到市場營銷人員再到銷售人員,每個員工現在都在使用數驅動業務,形成新的數據用戶社區(Data Community)。
一方面,海量的數據在沉睡,另一方面,大量用戶需求涌現,如今不足的數據計算資源和 BI 團隊人力資源對這些不斷增長的期望不堪重負。
新時代來臨,結合Dev-Ops, New DataStack, DataFebric等諸多理念,全球企業開始采用最新的DataOps框架解決新時代的“數據蜘蛛網”問題。
白鯨開源 WhaleStudio 套件中的 WhaleScheduler 作為一款企業統一的云原生可視化大數據工作流調度平臺,旨在幫助企業解決內部多數據源、多數據系統復雜的數據集成,持續開發、持續部署、數據捕獲、數據打通等一系列問題。
WhaleScheduler 具備可靠性、可擴展性、易用性、靈活性、可視化和安全性等特性,擁有完善的調度能力、數據處理能力、集群管理能力、數據可視化能力、監控和報警能力,以及安全管理能力,能夠在復雜的生產環境中針對行業客戶增加企業級產品功能并加強系統安全與穩定性,支持數據庫、云、大數據、AI組件等數十種系統的任務調度,助力企業數據消費者、數據探索者、數據分析家、數據科學家,以及數據客戶/供應商提高調度效率,降低生產成本。
接入WhaleGPT AI對話助手,賦能企業私有化模型訓練 為了降低數據調度系統的使用難度,使數據分析師等業務部門的人員無需代碼背景也可以無門檻的進行數據開發和操作調度作業,WhaleScheduler 2.4.5 接入了 WhaleStudio 新增重要模塊——WhaleGPT 的 AI 助手,可以輔助業務人員直接完成數據業務腳本開發,讓他們更關注業務本身,而不是代碼。
WhaleStudio 是白鯨開源科技根據全球領先的 DataOps 理念打造的新一代數據集成調度工具,最新版本的 WhaleStudio 中除了 WhaleScheduler 與 WhaleTunnel 兩大核心組件之外,又新增了 WhaleGPT 大模型服務模塊,加強了 WhaleStudio 的模型訓練能力,提供給用戶完整的 DataOps 解決方案。
WhaleGPT AI 對話助手目前支持:
查詢功能操作幫助,通過詢問功能名稱可以返回該功能的上手指南,部分功能提供跳轉鏈接至指定操作界面;
通過對話查詢工作流,直接在對話中詢問 WhaleGPT,返回對應的工作流并提供跳轉鏈接;
通過對話提出需求讓 GPT 生成 SQL 代碼,在對話中將自己的需求描述出來,如寫查詢某某數據的 SQL,返回該需求的 SQL 代碼。
例如,WhaleGPT 可以在眾多復雜的使用手冊和規則中,找到你所需要的功能和說明。
WhaleGPT 還可以輔助編程、Txt2SQL,提高數據程序員的開發效率。
WhaleGPT 自帶的大模型能力讓企業可以快速訓練私有化模型,普通程序員用半天時間就具備訓練私有化大模型的能力,讓大模型幫助客戶更了解自己的業務,加強數據安全,跨越大模型與現有系統數據的鴻溝。
擴展數據類型支持能力 隨著越來越多的數據庫出現,數據分散、數據不一致、數據安全性等問題越來越突出,數據兼容性的問題(數據格式、數據結構、數據類型不兼容等)也變得更加復雜。
WhaleScheduler 有更多的數據源支持可以提供更全面、準確的數據,從而提高數據分析和決策的質量。同時,對于某些特定業務需要不同類型的數據源來支持的需求,WhaleScheduler 也能輕松應對。
在新版本中,我們新增了對多種國產數據源的支持,以滿足客戶對信創環境的更高需求:
IoTDB、飛輪數據庫、TDengine、Mirrorship、Openlookeng、瀚高數據庫、人大金倉數據庫(V8)、ClickHouse、PolarDB。
提高云原生支持水平 同時,WhaleScheduler 全面支持云原生,為了幫助企業更好地適應大數據和云原生大時代下的數據處理與治理,我們對更多云廠商的相關數據庫進行了支持:
PolarDB 分布式版 (V2.2)、PolarDB PostgresOL版 (V11)、GaussDB、openGauss、PostgreSQL、TDSQL。
增強數據安全性 01 信創環境適配升級 信創(信息技術應用創新)是數據安全、網絡安全的基礎,也是“新基建”的重要內容,推動國家的核心技術必須實現自主可控。信創是目前國內的一項戰略,也是當今形勢下國內經濟發展的新動能。
為解決本質安全的問題,助力企業自主可控地完成經濟數字化轉型、提升產業鏈發展,WhaleScheduler 2.4.5 版本對多個國產系統環境進行了適配,保障企業數據安全,包括:
openEuler、、鯤鵬、統信、OpenCloudOS、TencentOS Server2、TencentOS Server3。
02 提高安全性 WhaleScheduler 自誕生以來就將安全問題作為產品管理的關鍵指標,為了提高產品安全性,WhaleScheduler 2.4.5 優化多項安全措施:
支持使用 SSL 證書訪問數據源、支持自動刷新 HDFS 服務認證、支持 zk 的 Kerberos 認證、Hive 數據源支持 keytab 配置、配置文件密碼加密(jaspyt 加密)。
功能全新升級優化 為了優化產品的使用習慣,WhaleScheduler 2.4.5 對首頁、DAG、錯誤提示框等進行了優化,方便客戶更加無邊界地試用產品。
01 功能優化 在功能上,WhaleScheduler 2.4.5 進行的部分重要優化包括:
工作流邏輯任務新增 Dynamic 動態任務組件:在工作流邏輯組件中新增動態任務組件,使用動態任務組件后工作流可以在運行中根據每次輸入參數變量的變化動態的生成調度實例。這對于需要針對不同的數據通過同樣的腳本進行處理的用戶來說,不再需要重復設置多個工作流,也不需要事先估算需要運行的實例數量,如機器學習模型多參數調參訓練的場景。針對同類多樣的數據調度,動態任務組件可以大批量的同時執行,大大提高了數據處理的效率。
基線告警:某些任務的數據需要在指定時間點之前完成,由于前置任務拖延,導致最后的任務不能在規定的時間點完成,需要提前預警并人工介入處理,因此需要提前預判任務是否有延誤風險以提供處理的時間空間。關鍵調度任務可以通過設置基線進行監控,當存在未能承諾時間內完成的風險時及時給負責人進行告警提醒,以保障業務的正常運轉。
支持自定義任務組件:當前工作流內不支持的任務類型,用戶可以通過提供該組件jar包并在配置文件中設置需要配置的任務參數項,即可在工作流內新增該任務類型組件進行調度作業使用了。
影響分析支持展示工作流實例、任務實例的血緣,并支持運行操作:工作流實例、任務實例維度的調度血緣展示,同時可以在影響分析中直接對工作流和任務執行運行相關的操作。任務依賴是調度作業處理中的核心場景。尤其是企業規模較大業務涉及面更廣時,其數據處理流程日益復雜。在調度作業中往往面臨著龐大的調度依賴,一旦當其中某一個節點出現數據錯誤,排查問題變得十分困難,需要一個一個的檢查依賴項并向上溯源。實例級的影響分析正是為了解決這一問題誕生的,使調度作業的運維工作變得更為簡單和高效。在工作流/任務的運行實例的影響分析中,可以清晰地看到上有依賴的實例,并支持繼續向上或拓展溯源。一旦找到了問題源頭,經過處理后,可以在影響分析中直接執行相關的人工干預操作。
IDE 支持通過資源中心引入 SQL 腳本:除了腳本文件和 jar 之外,用戶還可以可以直接在任務腳本里導入本地/git 上的 SQL 腳本。在任務中無需重復編寫任務腳本,可以將已經開發好的任務腳本上傳至資源中心,或者通過資源中心引用 git 倉庫中的腳本代碼,或在資源中心中直接開發或共享的腳本文件,直接導入任務腳本中。
跨項目批量運維工作流:項目運維人員通常需要同時運維多個項目作業,反復地切換項目查看工作流和任務運行實例進行維護,影響使用體驗。新增了跨項目的功能后,用戶可以在統一視角,查看和處理自己權限范圍內的所有調度業務了,簡化了用戶操作的同時提高了運維效率。
02 權限功能改造 根據此前客戶反饋權限功能的限制導致的不便,WhaleScheduler 2.4.5 進行了權限功能的改造,以便客戶進行權限管理。
新版本中,客戶可以按照項目來隔離角色權限,分為項目管理員、項目運維、項目開發、項目訪客角色,結合資源管理給與不同人員不同權限。
03 增強導入、導出功能 此外,新版本還增強了導入、導出功能。如果不采用自動化的 CI/CD 流程,WhaleScheduler 支持跨環境打包部署,主要用于工作的流的遷移工作,從環境 A 中導出(導入)到環境 B 中,通過該功能進行快速打包或數據備份。
WhaleScheduler 此次版本升級將提高對用戶的支持能力,更好地賦能企業云化的數據處理和調度、數據快速獲取及企業整體云化數據資產的管理問題,協助完成企業數字化升級的整體目標。