2月16日凌晨,龙年还没开工,科技界就公布了一个爆炸性的新闻。

人工智能公司Open AI,发布了一种能够将文字转化为视频的技术——Sora。

这个消息让B站的科技爱好者直呼:“这个年是过不完了。”

开工第一天,B站的科技区就炸了?-科记汇

Sora是一款人工智能文生视频大模型。

简单来说,操作者只需要输入一段简短的文字,Sora就可以生成一段60秒钟的视频。

比如,向它输入“一位20多岁的年轻人正坐在天空中的一片云上看书”,它就能生成下方的视频。

开工第一天,B站的科技区就炸了?-科记汇

在消息发布后不到四小时,科技区UP主@赛文乔伊 就迫不及待地与网友们分享了这则消息。

“这可能是近半年最具颠覆性的技术革命,之前的软件只能生成几秒钟运动轨迹很小的视频,但Sora可以创造出不受限制的、真正意义上的视频。”

开工第一天,B站的科技区就炸了?-科记汇

视频的连续性更强

由于Sora目前只为一部分艺术家提供了内测权限,为了满足大家的好奇心,有不少UP主将这些测试素材都整理到一起。

比如UP主@xiaolxl 不但收集了素材,还贴心地配上了音乐和测试文案,以供同好们分析。

开工第一天,B站的科技区就炸了?-科记汇

在这些测试视频中,有一些是无限接近现实,几乎达到纪录片水准的视频。

比如,对着Sora输入“一位老人穿着短袖在南极洲走路”,就可以让一位赛博老人在冰天雪地中闲庭信步。

开工第一天,B站的科技区就炸了?-科记汇

另外一些则呈现了人类想象中才有的场景。比如用孩童的视角,去观察一列小火车在叶子的静脉上缓缓驶过。

这原本是影视剧中,需要花费大力气才能制作的特效。

开工第一天,B站的科技区就炸了?-科记汇

Sora还可以模拟出人类操作电脑才会实现的效果,比如用游戏《我的世界》风格去生成一段游戏视频。

有网友说,这不就是白天玩了太多《我的世界》后,我梦里的样子吗?

开工第一天,B站的科技区就炸了?-科记汇开工第一天,B站的科技区就炸了?-科记汇

由于目前Sora生成的视频,已经达到了以假乱真的程度,以至于网友们纷纷猜测,Sora的极限到底在哪里?

开工第一天,B站的科技区就炸了?-科记汇

于是,另一位科技区UP主@Git源宝 在16号当晚,赶制出了一期关于Sora的科普视频。

在视频中,他回答了大家最关心的三个问题:Sora这么强大的原理是什么?现在它能做什么?还有哪些不足?

其实,Sora之所以独特,是因为Open AI先拆解了大量的视频素材,并将文字与视频做匹配对应,之后又进行了密集的训练,使Sora拥有了自主生成视频的能力。

开工第一天,B站的科技区就炸了?-科记汇

这就让Sora生成的视频不光场景非常细腻,连人物的表情也与真人无异。

比如,你可以在视频中看到一个女人行走在繁华的东京街头。尽管这个视频有多个人物模型,但每一个人物的行动都拥有惊人的连贯性。

开工第一天,B站的科技区就炸了?-科记汇

此外,源宝向网友介绍,Sora不仅可以生成视频,还能够从图片中生成动画以及拓展视频,从而创造出多个画面。

假如你提供一张海岸的照片,Sora就可以根据自己的联想和理解能力,用视频呈现出这片海岸会连接着什么样的海,周围有什么样的建筑。

开工第一天,B站的科技区就炸了?-科记汇

不过,也有不少网友在Sora视频从中发现了端倪。有些视频第一眼看起来很正常,但仔细观察会发现有许多地方根本不符合这个世界的规律。

比如视频中原本三只玩耍的幼狼,利用视觉误差一下子就变成了五只,让人摸不到头脑。

开工第一天,B站的科技区就炸了?-科记汇

针对于Sora的缺陷,源宝也细心地提供了解释。

一个最明显的问题是,如果Sora需要呈现的场景过于复杂,有时就会忽略掉真实的物理现象。

比如接到“一个老人吹蜡烛”的指令,Sora虽然生成了这个场景,但视频中的火苗却没有丝毫的变化。

开工第一天,B站的科技区就炸了?-科记汇开工第一天,B站的科技区就炸了?-科记汇

不仅如此,Sora也常常会误解事件发生的因果关系。

比如,当你要求它生成一段“盛着红酒的杯子摔到桌子上”的视频,它会同时呈现出酒杯摔碎,以及红酒撒在桌子上。它并没有理解,需要酒杯先破裂才会导致红酒洒落在桌子上。

开工第一天,B站的科技区就炸了?-科记汇开工第一天,B站的科技区就炸了?-科记汇

了解了这些关于Sora的信息,有些网友仍不满足,在评论区频频发问:这对AI界来讲是多大的进步?

对此,AI专业的在读研究生UP主@VictorYuki ,直接找出Sora发布的技术报告原文,为B站网友们上了一堂“AI专业课”。

@VictorYuki 解读到,Sora其实不止是一个视频生成器,它的背后技术是一个世界模拟器。

过去的视频生成器是利用人类已有的素材,根据文字命令去拼贴。Sora却是自己创建了一个模拟的数据世界,在得到文字指令后,根据人类的需求去创作视频。

开工第一天,B站的科技区就炸了?-科记汇

UP主@AI设计研究室-帆哥 还整理了一份中文报告

@VictorYuki 解释道,这也是Sora所生成的视频,不受分辨率和尺寸限制的原因。

开工第一天,B站的科技区就炸了?-科记汇

在理解Sora的技术原理后,网友们在评论区和弹幕中,对Sora未来的应用场景讨论不休。

有网友直接畅想出了一个科幻片般的未来,“游戏全靠AI生成,人类只需要戴上Vision Pro就能直接进入虚拟世界”。

开工第一天,B站的科技区就炸了?-科记汇

还有的网友放眼行业,认为Sora将会成为影视编剧们的得力助手。

比如,编剧们可以用它来生成先导视频,只需要添加修改词,就可以快速看到作品改编出来的大致效果。

开工第一天,B站的科技区就炸了?-科记汇

去年今日,ChatGPT横空出世,迅速生成文章,而一年后,Sora就实现了视频的快速创作。

一位B站网友不禁感叹:“小时候还想过,未来会不会有这样一种拍电影的技术,戴上脑机后靠人脑的想象来生成各种各样壮丽恢宏的电影画面,谁知这个现实已经不远了。”

开工第一天,B站的科技区就炸了?-科记汇

作者. 简杉   编辑. 语境

来源: 哔哩哔哩

合作|张子鹏 newsmedia007

----------------------------

(科记汇,财经、科技先锋,资深内容团队,三十家网络平台同步。不保证以上内容的准确性和真实性。市场有风险,投资交易需谨慎。所涉标的不做任何推荐,据此投资交易,风险自担。)