摘要:2018年,中國的數據量為7.6ZB,占全球總量的23.4%,預計到2025年將增至48.6ZB,占全球總量的27.8%,年復合增長率達30.35%。
中國經濟導報、中國戰略新興產業雜志、中國發展網記者 杜壯
目前人工智能市場發展依然火熱,各行各業對數據的需求也呈現井噴態勢。然而現在很多企業的大部分非結構化數據無法用于AI(人工智能)模型訓練,需要大量的人工進行標簽化處理。人工智能企業要想在數據標注上降本增效,必須選擇更加高效、體驗更好的標注工具,從而提升標注團隊的工作效率。
在2021年中國國際服務貿易交易會期間,云測數據發布了“云測數據標注平臺-AI數據集管理系統”,專注于AI數據集的上傳、管理、存儲、分享,數據類型標簽化管理,同時支持標注結果的存儲、標注結果可視化等功能,從而助力企業進行數據管理,提升數據訓練的匹配度。作為AI訓練數據頭部服務商,云測數據總經理賈宇航接受記者專訪時表示,只有把海量的訓練數據進行有效管理,才能減少冗余數據、最大化地發揮訓練數據的價值,從而推動數據要素有序發展及高效利用。
數據服務成為人工智能商業化落地的基石
在人工智能產業鏈中,算法、算力和數據共同構成技術發展的三大核心要素。從人工智能產業鏈的發展情況和未來發展趨勢來看,中國人工智能數據服務行業的市場規模正在逐步擴大。
據IDC預測,中國的數據量增速最快,平均每年的增長速度比全球快3%。2018年,中國的數據量為7.6ZB,占全球總量的23.4%,預計到2025年將增至48.6ZB,占全球總量的27.8%,年復合增長率達30.35%。在這樣的數據增長背景下,數據資產管理的重要性不言而喻。
如今各行各業紛紛搭乘數字化轉型的快車,以取得市場競爭力。值得注意的是,在企業紛紛投來數字化轉型意向的同時,部分中小企業也面臨著“不會轉、不能轉、不敢轉”的現狀。相關數據顯示,目前我國僅有25%的企業開展了數字化轉型,中小企業比例則更小。
賈宇航認為,數字化轉型的本質,是利用軟件技術、互聯網、人工智能等數字手段,降低企業運營成本,提升生產運營效率,為對外開源拓客創造更多價值的過程。也正因為如此,企業的數字化轉型必然離不開應用、軟件、系統等信息基礎設施的建設與運用,這背后必然產生大量的數據。
“越來越多的人工智能企業意識到,高質量的訓練數據越多,意味著AI落地應用效果越精準,但并不意味著所產生的價值越大。”賈宇航說,“人工智能落地商業化時代,企業面臨著自身AI數據量大,對某個特殊問題場景很難找到有價值AI數據的普遍困境。同時在人工智能數據訓練過程中,AI數據管理更是面臨著數據資產不能充分利用、管理方式不完善等新的挑戰。”
在賈宇航看來,AI數據服務在企業整個數字化轉型的過程中扮演了一個基石、底座的角色。“幫助算法提升精度必不可少的就是訓練數據,雖然訓練數據并不被消費者很快注意到,但一些很酷的人工智能產品,諸如自動駕駛的汽車,都離不開算法,而算法又離不開對應的高精度的訓練數據。”
AI數據集管理系統讓企業實現數據的“拎包入住”
數據服務痛點的存在也預示著行業迎來新的機會。
此次發布的云測數據標注平臺-AI數據集管理系統是業內首個專注于AI數據集的管理系統,是云測數據基于人工智能行業前瞻性發展的具象化技術產品體現。賈宇航介紹,其可幫助企業系統的解決數據儲存、數據檢索、數據資產權限管理、標簽結果可視化等的數據資產管理問題。
“人工智能的訓練數據可以被看作是一本教材,讓算法更精準。實際上,人工智能算法,從原來的瀑布式開發正在向敏捷開發發展。瀑布式開發對整個數據的投入是異步的,打個比方,按項目的方式搜集數據優化算法,項目一完成后,這些數據就沒有用了,到項目二的時候,還需要重新獲取數據、重新標注、重新訓練。但是當算法朝著更深的領域發展時,數據需要持續地滾動和迭代,這需要一個系統能夠面向AI算法的敏捷開發進行設置。”賈宇航對記者說。
“企業在使用系統的過程中會有一個‘拎包入住’的體驗。”賈宇航告訴記者,這次推出的平臺將AI數據服務的流程具象化,變成了一個產品。原來用于管理云測數據內部的服務流程,如今可以擴展到AI相關企業中應用。再結合云測數據標注平臺,客戶可以一站式、流程化進行數據采集、數據標注、數據管理。
賈宇航向記者介紹,自主研發的云測數據標注平臺為AI相關企業提供了一站式、大規模處理訓練數據的能力,可助力AI數據訓練綜合效率提升200%、標注精準度最高可達99.99%。
積極拓展數據管理市場應用的深度和廣度
隨著人工智能深入自動駕駛、智慧醫療、智慧教育等諸多行業領域,AI算法對訓練數據維度和樣本復雜性的要求變得越來越高,對數據標注技術、標注平臺能力、不同維度數據協同標注等都提出了挑戰。
“作為AI技術的三大要素之一,數據從本質上決定了人工智能的落地水平。通常來講,數據標注得越精準,數據量越大,模型就越好,最后的AI產品效果也就越好。”對于未來,賈宇航充滿了信心。他告訴記者,伴隨著國家多項政策的出臺,AI訓練數據增速會很快,并且有一個很好的市場前景。
在人工智能的大潮中保持技術和行業的領先性并非易事。賈宇航也道出了他們發展的秘密,那就是“一橫一縱”戰略。
談到“一橫”,賈宇航向記者解釋道:“伴隨著整個人工智能的發展,我們在自動駕駛、智能家居、智慧城市和智慧金融等多個行業,有端到端的訓練數據服務解決方案。隨著越來越多的行業進行智能化、數字化轉型,我們將積極地為這些具有潛力的賽道和行業,去制定數據解決方案,幫助更多的人工智能技術商業化落地。”
“‘一縱’更多地是對熱門行業和技術發展趨勢進行前瞻性預測,提前準備相關的工具鏈以及數據服務能力,確保有充足的準備去應對新的AI數據需求。”賈宇航說。
“人工智能被列入新基建中的新技術基礎設施,將會有更多的資本或者政策關注,而人工智能三要素之一的數據,勢必會伴隨著人工智能行業的增長而增長。”賈宇航對記者說。
相關稿件