女同 91 让林黛玉喝咖啡、马斯克拍合影! 视频大模子Vidu首发新功能: 锁定扮装形象, 自便生成场景
女同 91
作家 | ZeR0
用户上传自便主体的像片,Vidu就能锁定这一主体的形象,证据输入的神色词自便切换场景,输出主体一致的视频。主体不错是东谈主物、动物、商品、动画扮装、诬捏扮装。
若是使用曩昔的「扮装一致性」功能,不错保合手东谈主物面部特征的一致性,但难以保证举座形象的矫捷,因此生成的画面是林黛玉衣裳当代装喝咖啡。
而Vidu的「主体参照」功能不仅能保合手面部一致,也能保合手东谈主物举座形象的高度一致,证据输入的笔墨神色来天真输出目的场景,因此不错生成保留原图形象的林黛玉在当代场景中喝咖啡的视频,画面收尾当然、着实,扮装造型高度一致。
再比如上传这张马斯克的像片:
使用「主体参照」功能后,生成视频的场景思怎样切换就怎样切换,东谈主物造型齐与原图一致。
Vidu是寰球首个因循这项能力的视频大模子。「主体参照」功能大略已毕对自便主体的一致性生成,让视频生成愈加矫捷、可控。该功能已面向用户免费灵通,注册即可体验。
体验地址: www.vidu.studio
本年4月底,由生数科技和清华大学聚拢研发的国内首个纯自研原创视频大模子Vidu面向寰球发布。7月底妥贴上线后,Vidu凭借在高动态性、精准语义一语气、动漫作风、快速推理等方面的亮点,居品发达位列寰球视频大模子的“第一梯队”,并在TikTok等外洋酬酢媒体平台上掀翻多种AI视频主题玩法的高涨,如“跳动时空的拥抱”等。
生数科技聚拢首创东谈主兼CEO唐家渝说,险些寰球作念动漫视频齐会首选Vidu,因为它在举座畅通度、东谈主体当然度等方面显贵率先,何况视频生成速率快,30秒内就能生成单个片断。
打造Vidu的生数科技设立于2023年3月,现时团队畛域逾100东谈主,已完成数亿元融资(最新公开为Pre-A轮),投资方包括启明创投、北京东谈主工智能产业投资基金、蚂围聚团、百度、达泰成本、BV百度风投、哈勃投资、锦秋基金等著名机构。
本日生数科技还推出了相助伙伴谈判,邀请告白、影视、动漫、游戏等行业的机构加入,共同探索新的视频创作方法,在内容共创、本事因循、阛阓拓展等方面张开相助。
首批相助伙伴包括兴奋麻花、猫眼文娱、巨东谈主网罗、好意思克家居、融创文化、河南省非物资文化遗产保护和奢睿中心、李可柒画院等著名企业与机构。
一、寰球首发主体参照功能,让指定形象的扮装在不同场景中动起来
生数科技本日推出「主体参照」的功能女同 91,是视频生成领域的一大改变,可基于一张自便主体的图片,证据神色词切换场景,输出主体一致的视频。
无论是东谈主物、动物、商品,如故动漫扮装、诬捏主体,齐能确保其在视频生成中的一致性和可控性。
进行东谈主物扮装的“主体参照”,无论是着实东谈主物如故诬捏扮装,Vidu齐能保合手其在不同环境中、不同镜头下的形象连贯一致。
举例,上传这张东谈主物图片:
用Vidu不错生成她在不同场景中的视频。
上传动物图片,Vidu通常能已毕其在不同环境下、大幅浮现气象中细节特征保合手一致。
以商品为主体,商品的外不雅和细节在不同场景中保合手高度一致。
针对动漫扮装或者诬捏的主体等,Vidu通常不错保合手其高度一致。
此前视频大模子已有的「图生视频」、「扮装一致性」等能力在生成收尾上存在彰着不及,比如图生视频基于首帧画面的一语气生成,无法获胜输出目的场景,罢显然视频内容的各种性和场景的目田度;扮装一致性只限于东谈主物面部特征的一致性,难以保证东谈主物举座形象的矫捷。
比较之下,「主体参照」不局限于东谈主物,面向自便主体,在东谈主物主体下可弃取保合手面部一致,也可弃取保合手东谈主物举座形象的高度一致,通过输入笔墨神色天真输出目的场景。
二、摧毁视频模子的局限性:可控性不及
视频大模子广泛存在着一个中枢问题——可控性不及,或者叫一致性的不及。
在骨子视频创作中,视频内容时常围绕特定的对象张开,不错是扮装或特定物体,这些对象在视频中的形象需要保合手一语气一致。
现存的视频模子时常难以已毕这小数,持续是主体在生成过程中容易崩坏。生成视频一语气性弱,无法保证每次生成视频时主题、场景、作风等的一致性,尤其波及复杂交互的情况下尤为彰着。
此外,视频模子的输出收尾有较大的随即性,需要胁制生成尝试,关于镜头诓骗、光影收尾等细节的适度也不够综合准确。
是以现阶段的视频模子诚然在画面发达力、物理规定、思象力等方面得到一定突破,但可控性不及罢显然它们在创作连贯、完整视频内容方面的应用。现时大多数的AI视频内容如故基于寂然视频素材的拼接,情节的连贯性不及。
为了解决这一问题,业界曾尝试选拔“先AI生图、再图生视频”的递次,通过AI绘画用具如Midjourney生因素镜头画面,先在图片层面保合手主体一致,然后再将这些画面挪动为视频片断并进行裁剪合成。
这种形势的问题是,AI绘画的一致性并不无缺,时常需要通过反复修改和局部重绘来解决。何况骨子的视频制作过程中波及盛大场景和镜头,在处理多组分镜头的场景时,生图的职责量广大,能占到全进程的一半以上,最终视频内容也会因为过分依赖分镜头画面而不毛创造性和天真性。
Vidu的「主体参照」功能没灵验传统的分镜头画面生成递次,而是通过“上传主体图+输入场景神色词”的形势,获胜生成视频素材,大略大幅减少了职责量,并摧毁了分镜头画濒临视频内容的收场。
这使得创作家大略基于文本神色,证据更大的思象力,创造出画面丰富、天真多变的视频内容,为视频创作带来更大的目田度和改变空间。
三、加快视频创作:3张定妆照完成故事短片,6小时惩处一支视频告白
「主体参照」功能通过锁定扮装或物体的形象,一方面让故事情节更具连贯性,另一方面让创作家大略更目田地探索故事的深度和广度。
光驰矩阵的发起东谈主、后生导演李宁正在打造中国首部AIGC院线电影《玄宇》。他利用Vidu预创作了一段男主的视频片断,其中总计东谈主物画面仅通过男主近景、中景、出息三张定妆照生成。
据李宁共享,之前AI电影创作选拔传统的文生图、图生视频进程,在分镜的连贯上很难掌控,东谈主物的举座造型很难保合手一致,前期需要蹧跶大宗的元气心灵去调试图片,同期画面还容易产生镜头光影失控、图像疲塌致使变形等一系列问题,且跟着视频篇幅的加多,这些问题被进一步放大。
他发现Vidu「主体参照」功能让东谈主物的举座一致性显贵擢升,不再需要前期生成大宗的图片,东谈主物浮现和画面过渡也愈加当然,极大助力了长篇叙事的创作。
中央播送电视总台导演、AIGC艺术家石宇翔(森海荧光)创作了一条动画短片《夏令的礼物》。他共享说,与基础的图生视频功能比较,「主体参照」功能解脱了静态图片的敛迹,生成的画面更具感染力和目田度,让创作的连贯性大大擢升,还匡助他从简7成操纵的生图职责量,让他大略将更多元气心灵放在故事内容的打磨上,而非生成图片素材上。再重迭上Vidu的复杂行为处理能力和多元素的一语气能力,他合计Vidu就像是一位真东谈主助理“动画师”在补助创作。
▲动画短片《夏令的礼物》的视频片断动图
「主体参照」功能也在贸易告白片倡导展现了刚劲的后劲。
告白片的一大重要在于要保证多个镜头、不同场景劣品牌物形象的一致性。Vidu「主体参照」功能不错很好的已毕,举例在跑步鞋告白案例中,仅通过一张商品图,便完成了总计视频画面的生成,无论是不同角度、配景,如故动态发达,跑步鞋的形象在总计这个词视频中齐保合手了高度一致。
据生数科技官方先容,该视频仅一位东谈主员破耗6个小时完成,包含前期运筹帷幄、素材生成,后期裁剪,其中30段AI视频素材的生成仅破耗3个小时,总计这个词进程仅参照一张商品图。
传统告白片制作高度依赖线下实拍和后期制作,时刻周期长、成本参加大,但现时通过Vidu大略极地面细水长流告白制作的成本,总计这个词产出进程愈加高效,品牌方对新素材的开辟也能愈加天真。
U系大作战2结语:“主体参照”代表着AI完整叙事的起初
此前Vidu牵手海表里头部艺术家已产出百部优秀作品,全平台播放量破千万。面向专科创作领域,Vidu正与AI艺术家们相助探索AI赋能下的全新创作方法。
比如与北京电影节AIGC短片单位最好影片得主、Ainimate Lab相助打造的动画短片《一谈向南》,画面质料接近传统动画制作标准,但成本仅为传统进程的1/40。
Ainimate Lab AI负责东谈主陈刘芳说,该短片的创作团队仅由三东谈主组成:又名导演、又名故事版艺术家和又名AIGC本事应用群众。Vidu大大裁汰了制作周期并显贵造谣了成本,制作周期约为1周。比较之下,传统进程需要20东谈主,包含导演、好意思术、建模、灯光、渲染等不同“工种”,周期在1个月操纵。
在唐家渝看来,「主体参照」这一全新功能的上线,代表着AI完整叙事的起初,AI视频创作也将迈向更高效、更天确切阶段。
无论是制作短视频、动画作品如故告白片,在叙事的艺术中,一个完整的叙事体系是“主体一致、场景一致、作风一致”等要素的有机阿谀。
因此,视频模子要达到叙事的完整性,就必须在这些中枢元素上已毕全面可控。
“主体参照”功能是Vidu在一致性方面迈出的进攻一步。接下来Vidu会络续探索如何精准适度多主体交互、作风协调、多变场景矫捷切换等复杂元素,以欣喜更高线索的叙事需求。
长久来看女同 91,一朝已毕了全面的可控性,视频创作行业将资格一场颠覆性的变革。届时,扮装、场景、作风,致使镜头诓骗、光影收尾等元素,齐将挪动为可天真转机的参数。用户只需要动入手指、调调参,就不错完成一部影像作品的创作,而每一个作品的背后,也将是用户基于AI构建出的独到寰宇不雅和自我抒发。