headphones
最佳短视频AI生成器?Kling 2.1 vs Google Veo 3
Jose Antonio Lanz
Jose Antonio Lanz
authIcon
数字货币大师
06-02 02:23
Follow
Focus
谷歌 Veo 3 发布后不久,中国 AI 公司快手就发布了升级版 Kling 2.1 机型。以下是它们的对比情况。
Helpful
Not Helpful
Play

AI 视频生成技术刚刚迎来重大升级。快手的 Kling 2.1 现在可以制作出真正具有电影质感的视频——几个月前,这种素材还需要专业的团队和昂贵的设备才能制作出来。人物动作自然流畅,情感真实,复杂的动作序列流畅展开,不再出现那些通常会让人觉得“这是 AI 做的”的瑕疵。

Kling 是知名的先进视频生成平台之一,由快手于一年前推出。快手是一家以社交媒体创新而闻名的中国科技公司。它尤其以能够制作长达两分钟的高清视频而闻名,并成为许多人的首选。模因制作者激发他们的政治讽刺特朗普、埃隆·马斯克等有影响力的人物。

新的技术改进包括更快的生成速度、更好的即时一致性、更逼真的效果以及更少的伪影。Master 层利用先进的 3D 时空注意力机制和专有的 3D VAE 技术,实现了该公司所称的影院级输出。

时机再合适不过了。快手在谷歌发布 2.1 版本几天后就发布了推出 Veo 3,巩固了AI视频排行榜上看似垄断的地位。竞争如此激烈,以至于人们对“AI视频”的兴趣达到了历史最高根据 Google Trends 的数据,本月的排名上升了 10 位,其中大部分是由模型的优秀程度推动的。

抢先体验用户一直在社交媒体平台上分享演示视频,称赞大师版能够制作“令人惊叹”的电影效果。

基准 比较Kling 的前身 Kling 2.0 的表现超越了除谷歌 Veo 2 和 3 之外的所有竞品模型。2.1 版本增强了现有功能,并解决了之前关于生成速度和一致性的担忧。虽然发布时间尚短,尚未被纳入当前的 AI 排行榜,但预计很快就会发布包含全面测试数据的更新。2.1 Master 模型预计将扩大谷歌和 Kling 与其竞争对手之间的性能差距。

Veo 与 Kling:它们有何不同?

我们测试了这两款机型,看看它们的表现如何。AI 视频中的佼佼者并不便宜——Kling 2.1 Master 的价格几乎10秒视频3美元——而且它距离真正视频编辑所需的精细度还很远。然而,Veo 和 Kling 都比上一代型号有了明显的升级,任何爱好者都会对它们的性能感到非常满意。

快手的策略之所以引人注目,是因为与竞争对手不同,Kling 2.1 提供三种版本:720p 标准模式,每 5 秒视频 20 个积分;1080p 专业模式,每 5 秒视频 35 个积分;以及 1080p 大师模式,每 100 个积分。模型越好,渲染成本就越高,耗时也越长——但即使是最基础的版本,效果也比之前的 Kling 1.6 Pro 更好。

等待时间很长:Veo3 通常让我每个视频耗时 5 分钟左右,有时甚至超过 15 分钟。同样,系统堵塞导致我遇到很多错误,不得不重新生成。

定价结构体现了非线性递进,专业模式的视觉质量非常接近大师级,但价格不到大师级的一半。在我们的主观评估中,对于需要高清清晰度但又不想追求极致影院级画质的专业创作者来说,中端模式是最经济实惠的选择。

文本生成

迅速的: 一个肚子上写着“EMERGE”字样的可爱机器人走近镜头,用它的数字脸微笑,然后飞走。

Kling 2.1,尤其是 Master 版本,相比之前的 1.6 版本有了显著的改进。文本渲染更加清晰,并且在各个帧之间更加均匀。

然而,单从这一特定特征来看,Veo 3 略占优势。两种模型都能生成文本,但 Veo 3 的表现更为稳定。

例如,两种模型都成功生成了一个带有单词“EMERGE”的小型机器人。然而,当我们生成的场景中该机器人不是主要焦点时,Veo 3 仍然提供了准确的文本,而 Kling 则产生了乱码。

现实主义与人类情感

迅速的: 一位女子怀着深深的悲伤走向河边。她一边哭泣,一边哀悼着自己的离去,捡起了一个刻有“出现”字样的无生命机器人。

如果说 Kling 1.6 Pro 专注于动态场景和流畅的动作,那么 Kling 2.1 似乎将重点转向了真实感。该模型在复杂的运动序列中表现出色,能够精准渲染关节对齐等细节,并呈现车辆特技中逼真的物理效果。该模型增强的即时贴合性使其能够精确控制摄像机运动和情绪表达。

与 Kling 1.6 Pro 甚至 Veo 2 相比,其反应更加真实。

然而,与 Veo 3 相比,Veo 3 可以生成音频这一事实成为增强场景情感冲击力的主要因素。

当被要求生成相同提示的场景时,Veo 3 采用了更具电影感的方式。摄像机角度和色彩分级有助于刻画场景中的情感。

而Kling 2.1则注重情感本身的描绘。

由于缺乏音频,加上不同的处理方式,很难说哪款更胜一筹。这取决于每个用户的喜好,以及对不同版本的运气,以及你更看重什么——场景的整体氛围还是演员的表演。

在这个场景中,Kling 2.1 Master 未能正确渲染“Emerge”一词。需要注意的是,死去的机器人并非场景中的主角,因此模型将更多精力放在了提示中常见的其他元素上。

图像转视频

迅速的: 场景一开始与画面一模一样,然后加速进入一段催眠般的延时摄影,数十年的光阴在数秒间流逝。这辆复古出租车定格在时间的长河中,而周围的城市则在不断变化——霓虹灯从繁体中文演变为全息显示屏,建筑形态各异,层层叠叠,层层叠叠,人们的衣着随着时代的变迁而变化,飞行器开始在建筑物之间穿梭。镜头缓缓环绕着静止的出租车,它逐渐成为城市演变漩涡中一个时间锚点,最终,这辆出租车出现在充满未来感的城市景观中。

图像转视频是一种技术,用户提供场景的起始帧,AI 模型会以该图像为起点构建生成过程。它提供了最佳的控制水平,并让用户了解每次生成的结果。

Kling 2.1 的标准模式和专业模式目前仅支持图像转视频,需要用户提供源图像。该公司宣布,文本转视频功能将很快添加到这些版本中,而大师模式已包含此功能以及增强的动态效果和快速遵循功能。

Kling 2.1 Master 和 Veo 3 均支持图像转视频,但 Veo 3 需要使用 Flow 而非普通的 Gemini UI。使用 Flow 时,生成的视频缺少音频。

在我们的测试中,Kling 2.1 的表现优于 Veo 3,但远非完美。它能够理解相机的运动、元素以及场景的意图。然而,它未能将焦点集中在主要拍摄对象上,而是将注意力集中在周围环境(随着时间推移的城市)上,因为它成为了场景中的关键元素。

另一方面,Veo 3 仍然专注于拍摄主体(汽车),但未能渲染提示中的任何其他元素。结果,它生成的是一辆静态汽车,带有静态镜头,城市也一样,只是有一些飞行汽车在周围飞驰。它未能提供准确的结果。

总的来说,这是意料之中的。Kling 2.1 将在更少的生成周期内提供更好的结果,从而减少对提示符工程的需求。它还提供了输入负面提示符的选项,这对于获得预期结果大有帮助。

动漫/卡通和 2D 艺术

我尝试了三次生成动漫风格的视频,但都失败了。用这些模型生成 2D 艺术作品似乎是不可能的,可能是因为它们专注于写实主义。

最好的替代方法似乎是使用图像生成器生成初始 2D 帧,然后利用图像到视频功能来获取所需的场景。

多主题场景

迅速的: 五只灰狼幼崽在一条僻静的碎石路上嬉戏追逐,路边长满了青草。它们奔跑跳跃,互相追逐,互相啃咬,嬉戏玩耍。

对于 AI 模型来说,处理多主体场景仍然颇具挑战性。当主角超过三个且场景动态时,模型会失去一致性,出现角色合并、新角色生成,并出现大量的伪影。

Kling 2.1 依然如此。该模型相比前几代有了显著的改进,但仍然无法准确处理复杂场景。在我们的测试中,它生成的狼不是五只,而是三只。

不过,Veo 3 尝试生成完整的狼群。起初效果不佳,但在场景接近尾声时,模型将所有狼分开,重新获得了连贯性,最终成功生成了全部五只狼。

然而,Kling 2.1 牺牲了一些及时性,以换取连贯性的大幅提升 —— 这似乎是更好的结果。

动态镜头

迅速的: 动态跟踪镜头跟随一位身着鲜艳深红色连衣裙的女子,她拼命地穿过纽约市中心霓虹闪烁的摩天大楼。她飘逸的长发在高耸的数字广告牌上闪烁着电蓝色的光芒,尘土和碎片在她周围乱飞。在她身后,一只巨大的机械蜘蛛,有着闪亮的镀铬腿和闪烁的LED传感器,在城市景观中飞驰,金属肢体在混凝土上迸发出火花,它无情地追逐着……(完整提示在 YouTube 描述中)

动态镜头的评估非常棘手,因为细节决定成败。通常情况下,当场景快速发生,且焦点集中在主角身上时,其他元素就会被忽略。这就是为什么生成视频模型往往会生成一些有趣的镜头,但仔细观察后,就会发现它们并不出色。

令人欣喜的是,在我们的测试中,Kling 2.1 的动态效果远超 2.0 和 1.6。它能够生成快节奏的场景、戏剧性的镜头和引人入胜的动作序列。之前几代 Kling 机型通常会在进入动作之前出现一些静止或缓慢的帧。这个问题已经得到解决。

Veo 3 通过优美的配乐增添了一些动感。该模型还生成了精彩动作序列所需的一切——运动、爆炸、动态镜头、尘埃和混乱——并且感觉更加真实,减少了 2.5D 或绿幕的元素。

然而,与 Veo 3 相比,Kling 2.1 在快速依从性方面更胜一筹。我们的一位女士远离巨型蜘蛛,而 Veo 3 则生成了一个奔跑的女人朝向蜘蛛——一个很棒的场景,但最终却毫无用处。

此外,Veo 3 代中的女性在该代的中间点附近开始不自然地奔跑,这代表了人工智能公司在处理长篇内容时必须应对的挑战之一——在持续时间足够长以至于破坏模型连贯性的连续镜头中保持一致性。

结论

我不想这么说,但实际上并没有明显的赢家,而且在生成 AI 视频领域,最好的选择第一次取决于你的期望以及你愿意支付多少钱。

Veo 3 凭借其音频生成技术拥有显著优势。其声音连贯清晰,以至于任何无声视频现在都感觉像是倒退了一步。在后期制作中添加连贯的音频仍然是一项众所周知的难题,因此这对许多人来说可能是成败的关键。

另一方面,Kling 2.1 在图像转视频方面表现优异,它允许用户拍摄真实照片或使用 Flux 或 Ideogram 等专业模型创建的图像,并将其转换为引人入胜的动画。Gemini 不支持图像转视频,你需要 Flow,但它仍处于测试阶段,并且仅支持 Veo 3,订阅费为每月 250 美元,且仅支持宽屏模式。即便如此,它的质量也比 Kling 略低。

除了这两个关键区别之外,其余的则取决于具体情况或个人偏好。它们都非常逼真、连贯(以今天的标准来看)、富有创意,并且能够提供您所需的最佳 AI 生成视频。如果差异是基于偏好的,那么您需要根据每个模型调整提示,结果的差异将会显而易见。

如果您不想花太多钱,即使是 Kling 2.1 标准也能提供比业内任何其他型号更好的惊人效果,并且足够接近最先进的水平。

总体而言,根据我们的测试,生成视频排名中,Veo 3 和 Kling 2.1 Master 基本持平。对于开源爱好者来说,第三名是前往 Wan 2.1——而且很可能还会持续一段时间。它的 VACE、LoRA 和工作流程已经将这种免费、不受审查的模式变成了一头独树一帜的巨兽。

Open the app to read the full article
DisclaimerAll content on this website, hyperlinks, related applications, forums, blog media accounts, and other platforms published by users are sourced from third-party platforms and platform users. BiJieWang makes no warranties of any kind regarding the website and its content. All blockchain-related data and other content on the website are for user learning and research purposes only, and do not constitute investment, legal, or any other professional advice. Any content published by BiJieWang users or other third-party platforms is the sole responsibility of the individual, and has nothing to do with BiJieWang. BiJieWang is not responsible for any losses arising from the use of information on this website. You should use the related data and content with caution and bear all risks associated with it. We strongly recommend that you independently research, review, analyze, and verify the content.
Comments(0)

No comments yet

edit
comment
collection
like
share