12月22日-23日,以“智能涌現·發現未來”為主題的網易未來大會在浙江杭州舉辦。在AGI 論壇“AI
三人行”圓桌對話上,南京大學智能科學與技術學院副教授易子立、「靈動AI」創始人雷海波、AI 繪畫知名博主娜烏斯嘉三人,共同就《AI
生成視頻往何處去?》分享精彩觀點,英諾天使基金合伙人王晟為本次對話主理人。
易子立首先教授表示,隨著AI
熱潮的來臨,很多企業已經在嘗試使用AI工具,但文生圖、文生視頻的技術仍有待進一步成熟。目前,AI生成視頻的主要技術路徑是擴散模型,未來的趨勢有可能是歸回大模型訓練的方式。國外在視頻生成底層技術方面具有一定的領先優勢,國內在像2D
數字人、AI 社交這樣的細分應用上表現更好。相信伴隨算力水平的提升和技術范式的革新,將來國內有可能在某些方面超越國外。
「靈動AI」 創始人雷海波
“「靈動AI」是將生成式AI圖像技術應用于營銷設計端的創業企業,我們過去20年一直在視覺設計和視覺影像行業探索”。「靈動AI」 創始人雷海波在談及視覺大模型話題時表示,過去做設計社區、媒體和設計平臺,幾乎每天都與設計師、設計機構打交道。據我所知,目前國內一些頂尖藝術設計類高校,已在日常教學和設計項目中應用了文生圖等大模型。因此,AI在生圖領域的能力毋庸置疑,但生成視頻,落地應用可能還需要半年到1年的時間。
面對國內大模型廠商為何競爭不過國外的問題。他直言,造成這一現象的原因,不僅僅是技術、算力、數據集方面的差距,從設計的維度來看,國內廠商對美學理解還存在欠缺。事實上,當下 Midjourney 生成圖的調性、氛圍、光影質感,已經遠超越人類的表現。如果國內大廠能做出類似 Midjourney 視覺模型,并結合高品質的數據集,配合行業認知和產業化落地能力,垂直應用層面一定是有很大機會的。
被問及「靈動AI」的落地應用場景,他回答的簡單而直接,“我們主要是面向前綴場景,比如營銷,特別是電商營銷。過去,數億的商家和數十億的SKU(單款商品)的營銷物料都是靠人工來實現的。現在試想,如果上傳的商品信息既能在文字、圖像等模態上保持不變,又能夠與文字、圖片、視頻等模態模型實現很好的融合,從而為商家產出AI商品圖、海報、短視頻,甚至是3D交互內容,這個市場需求是很大的。今年,「靈動AI」主要發力點在文生圖、垂類模型的研發及探索行業應用,但我們看到了文生圖、圖生視頻對創意生產力帶來的解放,更期待AI在3D領域的高質量生成能力”。
作為AI領域的知識博主和模型訓練師,娜烏斯嘉認為,AI在視頻生成領域歸結為四類場景:原視頻風格轉化、瞬息全宇宙、圖生視頻、場景轉換視頻。目前主要是廣告制作、預告片制作、推文和短視頻創作等領域嘗試較多。在圖片生成方面, AI 已能達到各種炫目的效果,但在視頻生成領域由于控制手段較少,表現力受到一定限制。例如:人物表情在視頻中的一致性不夠,容易出現“恐怖谷效應”。她希望在視頻生成效果控制上,技術能夠做到更加精準。但在AI的世界里,創造性的想法一定是大于技術。
英諾天使基金合伙人王晟
站在投資人的角度,王晟表示,目前生成式視頻的熱度非常高。今年,風險投資主要表現為兩端集中:一是資金端集中,只有部分VC敢于真正的出手;二是項目端集中,VC的資金主要投向了計算能力相關項目,如GPU、芯片、高速無損網絡、大模型等。明年,大家比較期待的是多模態模型領域,以及多模態能力的落地應用。
當然,AI作為一項智能技術,需要全社會不斷地對它加深認知,需要政府、科學家、企業、媒體、資本等共同參與,這樣才能促使其獲得更好的良性發展。
據悉,「靈動AI」目前已上線近千個商品圖場景,初步形成AI工具矩陣。由于擁有特定風格場景的LoRA模型,多個億級參數的專用AI模型以及智能審美評價系統,在主體控制下,使生成商品圖呈現獨特的視覺特征和美學調性,從而為企業級用戶提供更好的服務。
相關稿件