记者实测对比:Sora远超现有文生视频水准
近日,OpenAI发布了全新的文生视频模型Sora,引发了业内外的广泛关注。许多人预测,这一创新技术将彻底颠覆AI视频领域。

记者实测对比:Sora远超现有文生视频水准

来源:紫牛新闻2024-02-20

近日,OpenAI发布了全新的文生视频模型Sora,引发了业内外的广泛关注。许多人预测,这一创新技术将彻底颠覆AI视频领域。为了探究Sora的真正实力,扬子晚报/紫牛新闻记者进行了实测对比。在本次测试中,我们选择了目前业界领先的文生视频模型Runway作为参照。Runway以其出色的表现,已经在这一领域树立了较高的标杆。然而,在与Sora的对比中,Runway的表现像是落后了一个时代。在测试中,我们使用了相同的描述输入,分别让Runway和Sora生成相应的视频。结果显示,虽然Runway能够准确理解文字描述并生成相应的视频,但在细节处理和动作流畅性方面,却与Sora存在明显的差距。

现有模型已经足够好了

Sora表现“惊为天人”

目前Runway有三个功能,分别为“根据文字生成视频(文生视频)”、“根据图片生成视频”、“根据图片及文字生成视频”,由于Sora只开放了文生视频功能,所以本次对比测试仅针对这个功能。

第一个测试的描述为“Step-printing scene of a person running, cinematic film shot in 35mm.(用35毫米胶片拍摄出的单人跑者)”,记者将这段话描述输入Runway,生成多个4秒钟的视频。从反馈结果来看,Runway生成视频全部带有胶片特效,可见Runway已经能够理解并生成胶片拍出的视频效果。

在跑者方面,Runway生成的大部分视频都只有下半身,少数全身的也只有背影,没有面部细节。在细节处理上,Runway能够生成跑鞋、袜子、衣裤,但是在阴影处理上略欠火候,比如视频中展示的是人物下半身,而地上的阴影也只有下半身,让人“细思极恐”,而部分片段也还会出现“倒着跑”、“一个人三条腿”等明显差错。不过在近20次生成后,还是能挑出几段还不错的,在这些视频中,除了奔跑时腿部和脚步存在变形外,Runway的结果几近完美,尤其是前1-2秒,几乎看不出任何破绽。

客观来说,Runway给到的结果已经足够优秀,但奈何Sora表现“惊为天人”,在同样描述Sora给到的视频中,跑者动作十分自然,几乎看不出关节处变形的情况,一眼看去几乎乱真,而且Sora输出视频时长达17秒。不过Sora视频也存在一些问题,比如跑步机的质感太差、跑步机上跑垫是静止的、人物背影不合理、人物头发过度不自然等。

那如果给到描述再多一些,生成的对象也由人变成相对简单的机械呢?

第二段测试的描述为,“The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. ”(镜头跟随在一辆带黑色车顶行李架的白色复古SUV后面,它在陡峭的山坡上加速行驶在一条被松树包围的陡峭土路上,轮胎上的灰尘飞溅,阳光照射在SUV上,有着温暖的光芒。)

这时候Runway的表现就几乎完美,从生成的视频来看,除了车轮没有在滚动、以及有几次汽车是反着开的,Runway生成的视频没有太多瑕疵。不过这段描述在Sora生成的视频中表现更出色,和上面一样,Runway的视频只有4秒,并且只有一个场景,而Sora的生成的视频长达20秒,且细节方面处理的更好,当然瑕疵也有,Sora生成的这辆SUV没有受到路面影响,有点像漂浮行走的。

另外再说一点,Runway在处理中文话术上有不足,例如记者输入“白色SUV”,最终生成的会是橙色的,而用英文则没有这样的问题。

现有模型更像是会动的图片

而Sora是真正意义上的视频

总结一下,现有的文生视频模型Runway在理解人类语言上基本没有问题,并且能够准确的按要求生成视频,要求外的部分也能自行补充,但是它只能生成4秒的,并且在处理复杂动作(例如跑步)时会崩,相比视频,它生成的更像是一张会动的图片(只能有一个镜头)。

而Sora无论是在细节处理上更胜一筹,在镜头切换、衔接上确实做到远超Runway的水准。由于我们的语言无法表达出一张图片所有的特征,AI会在满足我们需求的情况下,自行补充其余的特征,因此每次使用AI生成的图片都是不同的。

由于Sora还未以公开形式开放,本次对比中Sora生成的视频都是其官网提供的,而Runway生成的视频则是记者经多次生成,然后在其中择优选择。文生视频近几年刚刚兴起,Runway已经做得足够好了,而Sora的诞生确实像是降维打击,这才显得Runway像“上个时代”的东西。

扬子晚报/紫牛新闻记者 姜天圣

原标题为《紫牛新闻记者实测对比:Sora远超现有文生视频水准》

无障碍
推荐 | 要闻 重庆 两江评 | 区县 教育 文艺 | 健康 财经 生活 | 问政 汽车 直播 | 政法 视听 专题 | 鸣家 史家 旅游 | 房产 国企 原创 | 应急 信用 新闻发布
  • 站内
站内
分享
新浪微博

记者实测对比:Sora远超现有文生视频水准

2024-02-20 13:53:48 来源:

近日,OpenAI发布了全新的文生视频模型Sora,引发了业内外的广泛关注。许多人预测,这一创新技术将彻底颠覆AI视频领域。为了探究Sora的真正实力,扬子晚报/紫牛新闻记者进行了实测对比。在本次测试中,我们选择了目前业界领先的文生视频模型Runway作为参照。Runway以其出色的表现,已经在这一领域树立了较高的标杆。然而,在与Sora的对比中,Runway的表现像是落后了一个时代。在测试中,我们使用了相同的描述输入,分别让Runway和Sora生成相应的视频。结果显示,虽然Runway能够准确理解文字描述并生成相应的视频,但在细节处理和动作流畅性方面,却与Sora存在明显的差距。

现有模型已经足够好了

Sora表现“惊为天人”

目前Runway有三个功能,分别为“根据文字生成视频(文生视频)”、“根据图片生成视频”、“根据图片及文字生成视频”,由于Sora只开放了文生视频功能,所以本次对比测试仅针对这个功能。

第一个测试的描述为“Step-printing scene of a person running, cinematic film shot in 35mm.(用35毫米胶片拍摄出的单人跑者)”,记者将这段话描述输入Runway,生成多个4秒钟的视频。从反馈结果来看,Runway生成视频全部带有胶片特效,可见Runway已经能够理解并生成胶片拍出的视频效果。

在跑者方面,Runway生成的大部分视频都只有下半身,少数全身的也只有背影,没有面部细节。在细节处理上,Runway能够生成跑鞋、袜子、衣裤,但是在阴影处理上略欠火候,比如视频中展示的是人物下半身,而地上的阴影也只有下半身,让人“细思极恐”,而部分片段也还会出现“倒着跑”、“一个人三条腿”等明显差错。不过在近20次生成后,还是能挑出几段还不错的,在这些视频中,除了奔跑时腿部和脚步存在变形外,Runway的结果几近完美,尤其是前1-2秒,几乎看不出任何破绽。

客观来说,Runway给到的结果已经足够优秀,但奈何Sora表现“惊为天人”,在同样描述Sora给到的视频中,跑者动作十分自然,几乎看不出关节处变形的情况,一眼看去几乎乱真,而且Sora输出视频时长达17秒。不过Sora视频也存在一些问题,比如跑步机的质感太差、跑步机上跑垫是静止的、人物背影不合理、人物头发过度不自然等。

那如果给到描述再多一些,生成的对象也由人变成相对简单的机械呢?

第二段测试的描述为,“The camera follows behind a white vintage SUV with a black roof rack as it speeds up a steep dirt road surrounded by pine trees on a steep mountain slope, dust kicks up from it’s tires, the sunlight shines on the SUV as it speeds along the dirt road, casting a warm glow over the scene. ”(镜头跟随在一辆带黑色车顶行李架的白色复古SUV后面,它在陡峭的山坡上加速行驶在一条被松树包围的陡峭土路上,轮胎上的灰尘飞溅,阳光照射在SUV上,有着温暖的光芒。)

这时候Runway的表现就几乎完美,从生成的视频来看,除了车轮没有在滚动、以及有几次汽车是反着开的,Runway生成的视频没有太多瑕疵。不过这段描述在Sora生成的视频中表现更出色,和上面一样,Runway的视频只有4秒,并且只有一个场景,而Sora的生成的视频长达20秒,且细节方面处理的更好,当然瑕疵也有,Sora生成的这辆SUV没有受到路面影响,有点像漂浮行走的。

另外再说一点,Runway在处理中文话术上有不足,例如记者输入“白色SUV”,最终生成的会是橙色的,而用英文则没有这样的问题。

现有模型更像是会动的图片

而Sora是真正意义上的视频

总结一下,现有的文生视频模型Runway在理解人类语言上基本没有问题,并且能够准确的按要求生成视频,要求外的部分也能自行补充,但是它只能生成4秒的,并且在处理复杂动作(例如跑步)时会崩,相比视频,它生成的更像是一张会动的图片(只能有一个镜头)。

而Sora无论是在细节处理上更胜一筹,在镜头切换、衔接上确实做到远超Runway的水准。由于我们的语言无法表达出一张图片所有的特征,AI会在满足我们需求的情况下,自行补充其余的特征,因此每次使用AI生成的图片都是不同的。

由于Sora还未以公开形式开放,本次对比中Sora生成的视频都是其官网提供的,而Runway生成的视频则是记者经多次生成,然后在其中择优选择。文生视频近几年刚刚兴起,Runway已经做得足够好了,而Sora的诞生确实像是降维打击,这才显得Runway像“上个时代”的东西。

扬子晚报/紫牛新闻记者 姜天圣

原标题为《紫牛新闻记者实测对比:Sora远超现有文生视频水准》

亲爱的用户,“重庆”客户端现已正式改版升级为“新重庆”客户端。为不影响后续使用,请扫描上方二维码,及时下载新版本。更优质的内容,更便捷的体验,我们在“新重庆”等你!
看天下
[责任编辑: 张炬 ]
发言请遵守新闻跟帖服务协议
精彩视频
版权声明:
联系方式:重庆华龙网集团股份有限公司 咨询电话:60367951
①重庆日报报业集团授权华龙网,在互联网上使用、发布、交流集团14报1刊的新闻信息。未经本网授权,不得转载、摘编或利用其它方式使用重庆日报报业集团任何作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:华龙网”或“来源:华龙网-重庆XX”。违反上述声明者,本网将追究其相关法律责任。
② 凡本网注明“来源:华龙网”的作品,系由本网自行采编,版权属华龙网。未经本网授权,不得转载、摘编或利用其它方式使用。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:华龙网”。违反上述声明者,本网将追究其相关法律责任。
③ 华龙网及其客户端标明非华龙网的确定来源或未标注华龙网LOGO、名称、水印的文字、图片、音频、视频等稿件均为非原创作品。如转载涉及版权等问题,请及时与华龙网联系,联系邮箱:cqnewszbs@163.com。
附:重庆日报报业集团14报1刊:重庆日报 重庆晚报 重庆晨报 重庆商报 时代信报 新女报 健康人报 重庆法制报 三峡都市报 巴渝都市报 武陵都市报 渝州服务导报 人居周报 都市热报 今日重庆
关闭