手游下载网

手游下载网

10 秒钟收获影视级短片,花式运镜主体依然清晰,这个全新国产视频模型稳稳拿捏

admin 42 88
语义理解、一致性重要突破,充分掌握镜头语言

换句话说,模型的语义理解能力是基础。只有在精准领悟prompt文字内容的情况下,才能恰当地呈现出预期中的画面——得先把「阅读理解」做明白。

这次APPSO参与了内部测试,得到称得上是了不起的效果——还是那句话,很强,很炸裂。

prompt:一只小猫穿着围裙,戴着手套,在布满泡沫的水桶里洗碗,上方是正在出水的水龙头

每一个用prompt指示的元素,都得到了体现,没有「读漏题」唯一的问题是:太漂亮了——我家的土猫,没有这样的高级气质。

算了,小猫咪能有什么错。从成像来看,泡沫和水流的细节都非常惊人,以及猫猫的傲娇表情也很生动。

一个小细节:水流落在小猫的头顶,然后从背后和下巴处落下,这个细节符合物理规律,足以得见模型理解能力的强大。类似的表现,在官方演示中也能看到。

官方演示

头发在风中凌乱的还原,除了体现飘动的发丝,方向跟人物的运动节奏也是一致的,符合物理逻辑。

prompt:树木密布的森林里,仰望天空,天空被茂密的树叶遮住,阳光透过树叶间的缝隙洒落出来。仰拍视角,明暗对比强烈

绿色调是非常棘手的色调,调好了是复古清新,调不好就是色调跑偏。这里却精准还原光线经过了绿叶和树枝的折射,所形成的光圈效果,直逼镜头。

炫酷运镜,无论动作怎么变,主角都是稳稳的

镜头语言的重要性,强调多少次都不为过。没有人想自己倒腾半天,只做出一个动态PPT。

模型从理解指令,生成主体,再根据镜头要求,设计主体的变化和行动轨迹,这一系列步骤中,不仅需要主体面目「不变」,还需要主体根据动作和角度,适当「可变」。

prompt:一只边牧穿着太空服在月球表面奔跑,跳起来追逐在浮在空中的飞盘。月光斜角度照射,打亮它的皮毛,低角度,4k画质,慢动作

在小狗跃起时,头部、四肢都没有大变形,稳稳的,很安心。

prompt:马斯克站在水稻田里,弯腰插秧,头顶戴着一个草笠,抬起头后,举手向镜头打招呼

在面对镜头讲话的十秒钟里,马斯克的表情、手臂、身体姿态都随着动作变化,但整体没有崩掉,一系列动作都非常流畅。

在处理这种「变」与「不变」的挑战中,几乎完美地保证了主体一致性,表现实在是太强大了。

当镜头有所变化的时候,道理也是一样的。在官方的演示demo里,有一个水下片段令人印象深刻。

官方演示

镜头一个简单的变焦,对于模型来说要完成的是:前面要有精致的细节,然后主体移动,显出新主体,最后落定在新主体上,整个一气呵成的大动作。

除了出众的一致性表现,惊人的运镜能力,自然也支持多种风格,3D、2D动画、厚涂、漫画等,还有多种比例选择,都给了用户无比自由的选择。

官方演示

prompt:Beautiful,,followingseveral

prompt:香港夜晚的十字路口,汽车和巴士快速驶过,形成流动的线条。有行人在等红绿灯。背景中建筑物虚化,形成光斑,低角度,4k画质

从「高大上」到「好落地」

另外,在当时字节选择了自回归路线,而非分层方法,以此来实现高稳定性的画面表现能力。这背后的考量是,模型要能确保生成的内容和用户期望一致,只有这样,用户才会积极参与生成的过程,扮演「导演」的角色,从而让强大的模型能力,尽快落实在实际应用中。

官方演示

截至9月,豆包语言模型的日均tokens使用量超过1.3万亿,相比5月首次发布时猛增十倍。

为了提供最强的性能,豆包通用模型Pro默认支持800K的初始tpm,可以看到这个数字远超行业最好水平,并且可根据实际需求进一步扩容,帮助大企业能安心的在生产环境里大规模使用。

而在技术力如此强大的同时,在各家大模型最强版本价格对比中,豆包大模型比行业价格低98%以上——用AI的门槛已经前所未有的低了。

越是高大上的技术,越需要落地实现,走进日常生活中。

在实际的业务场景里,需要的是效果好、速度快、易上手。以电商为例,既要考虑营销节点,又要顾及不同平台的展示效果,需要的是灵活快速的制作方法。

在24号的发布会上,火山引擎总裁谭待还展示了一系列大模型的应用,尤其是真真正正落地到商业使用场景中的案例。火山引擎通过全栈大模型服务,把豆包大模型的实力,真正接入到实际的业务场景中。今年以来,火山引擎建立了零售大模型生态联盟、汽车大模型生态联盟和智能终端大模型联盟,覆盖的业务和场景种类十分丰富多样。

更强模型,更低价格,更易落地,这无疑是豆包大模型的重要优势。

在发布会上,谭待表示,「大模型的应用成本已经得到很好解决。大模型要从卷价格走向卷性能,卷更好的模型能力和服务」。

爱好者能够借由低门槛的C端产品,开启对AI世界的探索。而开发者能够利用火山引擎,以更低价、更多样、更灵活的方式实现AI的工作,为更广泛的用户群,提供进一步探索的新产品、新内容。

随后的记者问答会上,他还,在技术不断迭代、进步的情况下,当AI能够完整地解决一个问题时,toB和toC之间的区别未必有这么大。

或许这将是AI时代最壮观的景象:原本高不可及的壁垒,正在被推翻。无论有没有经验,无论是为了业务赋能还是为自娱自乐,只要上手起来,就是在创造奇迹。

爱范儿|原文链接··新浪微博