業(yè)內消息,在昨天的中關村論壇未來人工智能先鋒論壇上,生數(shù)科技聯(lián)合清華大學正式發(fā)布中國首個長時長、高一致性、高動態(tài)性視頻大模型——Vidu。Vidu是自Sora發(fā)布之后全球率先取得重大突破的視頻大模型,性能全面對標Sora,并在加速迭代提升中。
該模型采用團隊原創(chuàng)的Diffusion與Transformer融合的架構U-ViT,支持一鍵生成長達16秒、分辨率高達1080P的高清視頻內容。Vidu不僅能夠模擬真實物理世界,還擁有豐富想象力,具備多鏡頭生成、時空一致性高等特點。
Vidu的快速突破源自于團隊在貝葉斯機器學習和多模態(tài)大模型的長期積累和多項原創(chuàng)性成果。其核心技術U-ViT架構由團隊于2022年9月提出,早于Sora采用的DiT架構,是全球首個Diffusion與Transformer融合的架構,完全由團隊自主研發(fā)。
自今年2月Sora發(fā)布推出后,團隊基于對U-ViT架構的深入理解以及長期積累的工程與數(shù)據經驗,在短短兩個月進一步突破長視頻表示與處理關鍵技術,研發(fā)推出Vidu視頻大模型,顯著提升視頻的連貫性與動態(tài)性。
「Vidu」背后的團隊生數(shù)科技是一支清華背景的大模型創(chuàng)業(yè)團隊,致力于專注于視頻生成、3D生成、圖像生成等多模態(tài)領域。自2023年成立以來,團隊已獲得螞蟻集團、啟明創(chuàng)投、BV百度風投、字節(jié)系錦秋基金等多家知名產業(yè)機構的認可,完成數(shù)億元融資。
據悉,生數(shù)科技是目前國內在多模態(tài)大模型賽道估值最高的創(chuàng)業(yè)團隊。此次「Vidu」的推出,是生數(shù)科技在多模態(tài)原生大模型領域的再一次創(chuàng)新和領先。