绿茶通用站群绿茶通用站群

中国版Sora来了!清华打造!背后创业公司已融资数亿元

中国版Sora来了!清华打造!背后创业公司已融资数亿元

时隔两个月,清华团队打造了一个(gè)中国版的Sora视频大模型。

4月27日,在中关村论坛未来人工智能先锋(fēng)论坛上,中国首个(gè)长(zhǎng)时长、高一致性、高动态性视频大模型Vidu正式发布(bù)。这(zhè)一模型由(yóu)清华大学和大模型创(chuàng)业公(gōng)司生数(shù)科技联合发(fā)布,可以一键生成长度达(dá)16秒、分(fēn)辨率为1080P的高 清视频内容。

证(zhèng)券时报记者独家获(huò)悉,清华大学人工智能(néng)研究(jiū)院副院长(zhǎng)、生数科技首席科(kē)学家朱 军(jūn)在Vidu发 布后发(fā)声表示:“Vidu,we do, we did, we do together!感谢小伙(huǒ)伴们(men)日以继夜的坚持,在实验室架构上开花结果。”据介绍,这也是自OpenAI发布Sora以后,全(quán)球率先取得重大突破的视频大(dà)模型。

Sora发布后 ,行业内一直有团队宣(xuān)称要追赶(gǎn)和复现Sora,而Vidu团队用(yòng)两个月的时间率先跑出来。记(jì)者梳理发现(xiàn),生数(shù)科技在多模(mó)态大模型(xíng)领域已经有较深的(de)积累,也 是目前(qián)多模态(tài)大模(mó)型赛道(dào)估值最高的初(chū)创公司之(zhī)一。目前公司已完成三轮融资,融资额达数亿元人民币,投资方包括启(qǐ)明创投、智谱AI、BV百度风投(tóu)、锦秋基金等一众机构。

对标Sora,生成视频连贯高清

“画(huà)室里的一(yī)艘船驶向镜(jìng)头”,只需要输入这样(yàng)一句简单的(de)指令,即可以生成效果逼真(zhēn)、镜(jìng)头连贯的一段视频。在生数科技发布的Vidu模型生成视频 样片中,视频的(de)整体质感几乎可与Sora相媲(pì)美。

据生数(shù)科技介(jiè)绍,Vidu模型采用团队原(yuán)创的Diffusion与Transformer融合的架构(gòu)U-ViT,支持一键生成(chéng)长达16秒、分辨率(lǜ)高达1080P的高清视(shì)频内(nèi)容。“U-ViT架(jià)构早在2022年9月就由团队提出,早于Sora采用(yòng)的DiT架(jià)构,是全球首个Diffusion与(yǔ)Transformer融合的架构。”生数科技表示。

记者(zhě)注意到,今年3月(yuè)生数(shù)科技完成新一轮融资后,公司就公(gōng)开表示,虽 然(rán)Sora的出现表明美国在(zài)多模态大模型领(lǐng)域具有领先性,“但中国也并非完全从零开 始的(de)阶段”。据介绍,朱军在2023年1月就提出了基(jī)于Transformer的多模(mó)态扩散大模型UniDiffuser,采用了(le)U-ViT,该架构与(yǔ)Sora的架构路线完全一致,区别在于UniDiffuser主要应用于图像生(shēng)成任务,但也可以以此为(wèi)基础进行视频任务(wù)的拓展。

正是基于在(zài)机(jī)器(qì)学习和多模态大模(mó)型的长期积累,团队才(cái)能够在 短 短的两个月时间里突破了(le)长视频表示与处理的多项关键(jiàn)技术(shù),成功研发推出Vidu视频 大模型。朱军在Vidu模型(xíng)发布现场表示,Vidu主要有以下方面(miàn)的特点与(yǔ)优势:

一是模拟真实物理世界,可以生成(chéng)复(fù)杂、细节(jié)丰富的场景,光影效果与人物表情都能够符合(hé)真实的物理规律。

二是富有想象力(lì),可以虚构场景(jǐng)以及想象(xiàng)超现(xiàn)实主义的画(huà)面。

三是具有多镜(jìng)头语言,不再局限于固定镜头,能够在遵循主(zhǔ)体一致性的情况(kuàng)下实现远景、近景、中景、特(tè)写等不同镜头的动态切换,还可以实现(xiàn)长镜头、追焦等效果。

四是(shì)有(yǒu)出色的视(shì)频时长,能支持16秒长度的(de)视频(pín)生成,保持镜头和主体的连贯一(yī)致。

五是能理解(jiě)中国(guó)元素,可以(yǐ)更好地(dì)理解生成熊猫、龙等富有中国文(wén)化(huà)特色的形象。

Vidu生成的龙、熊猫(māo)等中国文化元素视频

背后团队来自清华,已(yǐ)融资数亿元

Vidu的背后(hòu),是一家来(lái)自清华的 明星创业公司生数科技(jì)。

公开资料显示,突发!理想官宣,股价大跌生数科技成立于2023年3月(yuè),核心成员来自清华大学人(rén)工(gōng)智能研究院,致力于自主研发世界领先的可控多 模态通用 大模型。公司的CEO本硕就读于清华(huá)大学计算(suàn)机系的唐家渝,首席科学家由清华人工智能(néng)研究院副院(yuàn)长朱军担任,CTO鲍凡则是清华大学计算机系(xì)博士生、朱军教授的课题组成(chéng)员,长期关(guān)注扩(kuò)散模型领域研究(jiū)。

记者(zhě)注意到(dào),今年3月,唐家渝曾在沟通(tōng)会上向媒体表示,今年内公司(sī)的大模型一定能达到Sora目(mù)前 版本的效果,“但很难(nán)说是三(sān)个月还是半年”。然而,Vidu却提前交出了一份令(lìng)人惊艳的考(kǎo)卷,这主要得益于团队是(shì)国内最早布局多(duō)模态(tài)大模型的团(tuán)队之一,多年以来在这一领域形(xíng)成了深厚(hòu)的积累。

据唐家渝介绍,生数科技目前采取模型层和应用层两条路走路 的模式。一方面,构建覆(fù)盖(gài)文本、图(tú)像、视频、3D 模型(xíng)等多模态能力的底层(céng)通用大模型,面向B端提供模型服务能力;另一(yī)方面,面向图像生成、视频生成(chéng)等场景打造垂 类应用,按照订阅等(děng)形式收费,应用方向主要(yào)是游戏制作、影视后期等内容创作场(chǎng)景。

记者(zhě)梳理发现,生数科(kē)技自成立以来就备受资本(běn)关注。天眼查数据显示,生数科技目前共完成3轮融资(zī)。2023年(nián)6月,完成近亿元人民币(bì)天使(shǐ)轮融资,投资方(fāng)包括(kuò)蚂蚁集(jí)团、BV百度风投、卓源亚洲、卓源资本;2023年(nián)8月(yuè),完(wán)成(chéng)数千万人民币天使+轮(lún)融资,投资方为锦秋基(jī)金;2024年3月,完成数亿元人民币A轮融资,投资方除了启明创投、达泰资本、智谱AI等新机构以外(wài),还有BV百度风投 、卓(zhuó)源亚洲两个老(lǎo)股东。

在三轮融资总计数亿元人民币的资本加持下,生数科(kē)技已(yǐ)成为目前国内多模态大模型中估值最高的初创公司之(zhī)一(yī)。生数科技表示(shì),Vidu的问世不仅是U-ViT融合架构在大(dà)规模(mó)视觉任务中的(de)又一次成功验证,也代表了生数 科技(jì)在多模态原生大模型领(lǐng)域的持(chí)续创新能力和领(lǐng)先(xiān)性(xìng)。

责编:朱雨蒙

校对:冉燕青


时隔两个(gè)月(yuè),清华团队打造了一个中国版的Sora视频大模型。

4月27日(rì),在中(zhōng)关村论(lùn)坛未来人工智能 先锋论坛上,中国首个(gè)长时长、高一致(zhì)性、高动态性视频大模型Vidu正式发布。这一模型由清华(huá)大学和大模型(xíng)创业公司生数科技联合发布,可以一键(jiàn)生成长(zhǎng)度达16秒、分辨率为1080P的高清视频内容。

证(zhèng)券时报(bào)记者(zhě)独(dú)家获悉,清华大学人工(gōng)智能研究(jiū)院副院长、生数科技首席(xí)科学(xué)家朱军(jūn)在Vidu发 布(bù)后发声表示:“Vidu,we do, we did, we do together!感(gǎn)谢小伙伴们日以继(jì)夜的坚持(chí),在实验室架构上开 花结果。”据介绍,这也是自OpenAI发布Sora以(yǐ)后(hòu),全球率先取得重(zhòng)大突破的视频大模型。

Sora发布后,行业内一(yī)直有团队宣称要追赶和复(fù)现Sora,而Vidu团队用两个月(yuè)的时间率(lǜ)先跑 出来。记者梳理发现,生数科技在多模(mó)态大模(mó)型领域已经有(yǒu)较深的(de)积累,也是(shì)目前多模态大模型(xíng)赛道(dào)估值最高 的初创公司之一。目前公司已完成三轮融资(zī),融资额达数亿(yì)元人民币(bì),投资方包括启明创投、智谱AI、BV百度风投、锦(jǐn)秋基金等一众机构。

对标Sora,生成视频连贯高清(qīng)

“画室(shì)里的一艘船驶(shǐ)向镜头”,只需要输(shū)入这样一句简单的指令,即可以生成(chéng)效果逼真、镜头连贯的(de)一段视频。在生数科技发布(bù)的Vidu模型生(shēng)成视频样片中,视频的(de)整体质感几乎可与Sora相媲美。

据生(shēng)数科技介绍,Vidu模型采用团队(duì)原创的Diffusion与(yǔ)Transformer融合的架(jià)构(gòu)U-ViT,支持一键生成长达16秒、分辨率高(gāo)达 1080P的高清视频内容。“U-ViT架(jià)构早在2022年9月就由团(tuán)队提出,早于Sora采用的DiT架构,是全球首个Diffusion与Transformer融合(hé)的架(jià)构。”生(shēng)数科技表示(shì)。

记者(zhě)注意到,今年(nián)3月(yuè)生数科(kē)技完(wán)成(chéng)新一轮融资后,公司就公开表示,虽然Sora的(de)出现表明美国(guó)在多模态大模型领域(yù)具有领(lǐng)先性,“但中国也并非完全从零开始的阶(jiē)段”。据介绍,朱军在2023年1月就提出了基于Transformer的多模(mó)态扩散大模型UniDiffuser,采用了U-ViT,该架构与Sora的(de)架构路线完(wán)全一致,区别在于UniDiffuser主要应用(yòng)于(yú)图(tú)像生成(chéng)任务,但(dàn)也可以以此为基础进行视频任务的拓(tuò)展。

正是基于在机器学习和多模态大模型的(de)长期积累,团队才能够在短短的两个月时间里突(tū)破了(le)长视频表示与处理的多项关键技术,成功研发推出Vidu视频大(dà)模型 。朱军在Vidu模(mó)型发布现场(chǎng)表示,Vidu主要 有以(yǐ)下方面的特点与优势:

一是模拟(nǐ)真实物理(lǐ)世界 ,可(kě)以(yǐ)生成(chéng)复杂、细节丰富的场景,光影效果与人物表情都能够符合真实的物理规律。

二是富有想象力,可以虚构(gòu)场景以(yǐ)及(jí)想象超现 实主义的画面。

三是具有多镜头语言,不再局限于固定镜(jìng)头,能够在遵循(xún)主体一致性的情况下实 现远景、近景(jǐng)、中景、特写(xiě)等不同(tóng)镜头的动态切(qiè)换,还可以(yǐ)实现(xiàn)长(zhǎng)镜头、追焦等效果。

四是有出色的视频(pín)时长,能(néng)支持16秒(miǎo)长度的视频生(shēng)成(chéng),保持镜头和(hé)主体的连贯一致(zhì)。

五是能理解中国元素,可(kě)以更好地理解生成熊猫(māo)、龙等富有中国(guó)文化 特色的形象。

Vidu生成的龙、熊猫等中国文化元素视频

背后(hòu)团队来自 清华,已(yǐ)融资数亿元

Vidu的背后 ,是一家来自(zì)清华的明星创业公司生数科技。

公开资料显示,生(shēng)数科技成立于2023年3月(yuè),核(hé)心成员来自(zì)清华大(dà)学人工智能研究院,致力于自(zì)主研发世界领先的可控多(duō)模 态通用大模型(xíng)。公司(sī)的(de)CEO本硕就读于清华大学计算机系(xì)的唐家渝,首(shǒu)席科学家由清华人工智能研究院副院长(zhǎng)朱军担任,CTO鲍凡则是清(qīng)华大学(xué)计算机系博士生、朱军教授的(de)课题组成员,长期关注扩散模型领域研究。

记(jì)者注(zhù)意到(dào),今年3月,唐家渝(yú)曾在沟通会上向媒体(tǐ)表示,今年内公司(sī)的大模型一定能达到Sora目前版本的效果,“但很(hěn)难说是三个月还是半年”。然而,Vidu却提前交出(chū)了(le)一份令人惊艳的(de)考卷(juǎn),这主要得益(yì)于团队是国内最(zuì)早布局(jú)多模态大模型的团(tuán)队之一(yī),多年以来在这一领域(yù)形(xíng)成了深厚的积累 。

据唐家渝介绍,生数科技目前采取模型层和应用 层两条路走路的模式。一方面,构建覆(fù)盖文(wén)本、图像、视频、3D 模型等多(duō)模态能力的底(dǐ)层通用大模型,面向B端提供(gōng)模型服务能力;另一方面,面向图像(xiàng)生成、视频生(shēng)成(chéng)等场景打造垂(chuí)类应用,按照订阅等(děng)形式(shì)收(shōu)费,应用方向主要是游戏制作、影视(shì)后期等内容创(chuàng)作场景。

记者梳理发现,生数科技自成(chéng)立以来就备(bèi)受(shòu)资本关注。天(tiān)眼查数据显示(shì),生数科技目前(qián)共完成3轮融资。2023年6月,完成近亿元人民币天使(shǐ)轮融资,投资方包括蚂蚁集(jí)团、BV百度风投、卓源亚洲、卓源资(zī)本;2023年8月,完成数千 万人民币天使+轮融资,投资方为(wèi)锦秋(qiū)基金;2024年3月,完成(chéng)数亿元人民币A轮融资,投资方除了启明创投、达泰资本、智谱(pǔ)AI等新机构以外,还有BV百度(dù)风投、卓源亚洲两个老 股东。

在三轮融资总计(jì)数亿(yì)元人民币(bì)的资本加持下,生数科技已(yǐ)成为目前国内多模态大模型中估值最高的初创公司之一。生数科技表示,Vidu的(de)问(wèn)世不仅是U-ViT融合架构(gòu)在大规模视觉任务中的又一次成功验证,也代表了生数科技在多模态原生 大模型领域的持续创(chuàng)新能力和领(lǐng)先性(xìng)。

责编:朱雨蒙

校对(duì):冉燕青


2024证(zhèng)券时报“寻找(zhǎo)创投‘金鹰(yīng)’、发现企业(yè)‘新苗’”计(jì)划隆重启幕,点亮时代梦想、绽放时代光芒。

点击海报即可 报(bào)名,速戳↓↓↓

版权声明(míng)

证券时报各平台所有原创内容,未经书面授权,任何单位及个(gè)人不得(dé)转载。我社(shè)保留追究相关(guān)行为主(zhǔ)体(tǐ)法(fǎ)律责任的权利 。

转载与合作可联系证券时(shí)报小(xiǎo)助 理,微信ID:SecuritiesTimes

END

点击(jī)关(guān)键字可查(chá)看

潜望 系(xì)列深度报道丨(gǔn)股事会专栏投资小红书e公司调(diào)查时报会客(kè)厅(tīng)丨十大明星 私募访谈丨百亿(yì)私募最新持仓揭晓丨(gǔn)国常会重磅丨 重磅(bàng)!吴清带(dài)队调研,连开5场座谈会!丨 事关A股!财政部、税务总局发布!巨头锁定退市!从(cóng)包工队起(qǐ)家,年销售额曾(céng)超2000亿元A股、港股爆发!“牛市(shì)旗手”大涨最新!央行在《人民日报》发(fā)文超级并购!澳洲矿业巨头鲸吞英美资源集团,报价超2800亿又一(yī)A股锁(suǒ)定退市!女老板曾伙同(tóng)私募,操纵(zòng)交易800亿元,却倒亏2.38亿

未经允许不得转载:绿茶通用站群 突发!理想官宣,股价大跌

评论

5+2=