有多少个字教学(几个字生成)

近来,AI技术开始在图文视频行业大放异彩,给图文视频生成技术带来了革新。

在2021年百度的大脑图文转视频技术(VidPress)问世,该技术能够由AI自动剪辑生成视频,只需要一键输入上传Word稿件、新闻网址即可在短时间生成视频。

该技术是业界首个支撑通用型、大规模的全自动视频生成技术。

有多少个字教学(几个字生成)(1)

AI绘画也开始出现并快速发展,从最早的AI上色网站Paintschainer、到谷歌的Disco Diffusion、还有中国的Tiamat,AI在绘画领域也“开卷”。

近期Novel AI也在二次元图片生成领域有了飞跃式进展,人物绘画技术取得了很大的进展,最近大火的番剧《电锯人》也运用了AI技术Midjourney来制作,还掀起了AI绘画即将取代新人画师的舆论风潮。

而如今,AI技术生成视频也有了新的成果:Meta AI推出了Make-A-Video,一种通过时空分解扩散模型将基于扩散的T2I模型扩展到T2V的有效方法,是最先进的人工智能系统,可以利用给定的几个词或几行文字生成一个几秒钟的短视频

Make-A-Video释放你的想象力

Meta首席执行官Mark Zuckerberg详细介绍一个短视频的制作,“我们给出的描述是这样的,‘画自画像的泰迪熊’、‘戴着针织帽的树懒宝宝在探索笔记本电脑’、‘在火星上着陆的宇宙飞船’以及‘在海中冲浪的机器人’。生成视频比生成照片难得多,因为除了正确生成每个像素,Make-A-Video系统还必须预测像素如何随时间变化。”

据了解,Make-A-Video由三个主要部分组成:

1. 基于文本图像对训练的基本T2I模型

2. 时空卷积和注意层,将网络的构建块扩展到时间维度

3. 时空网络,由这两个维度组成时空层,以及T2V生成所需的另一个关键元素:用于高帧速率生成的帧内插网络

有多少个字教学(几个字生成)(2)

相对于百度它对文本生成视频技术做出了一些升级,百度的大脑图文转视频技术是通过互联网素材构成的,视频生成服务依靠丰富大量的素材库才能完成素材的聚合和视频的生成;而它能够完全用AI取代内容生成,它不需要互联网素材库也能生成视频。

Make-A-Video研究建立在文本到图像生成技术最新进展的基础上,该技术旨在实现文本到视频的生成。

该系统使用带有描述的图像来了解世界的样貌以及图像是如何被描述的,它还能使用未标记的视频来了解世界是如何运动的。

有多少个字教学(几个字生成)(3)

因此它能给你发挥想象力的空间,不需要互联网上的素材,只需要几句话或者几行文字就可以生成奇思妙想且独一无二的视频。

Make-A-Video开创了T2V新一代的最新技术。

使用函数保持变换,在模型初始化阶段扩展了空间层来包含时间信息;扩展的时空网络包括新的注意力模块,可以从视频集合中学习时间世界动态。

除了用文本生成视频的功能,它还能将运动添加到单个图像或者两个图像之间填充运动;还可以根据原始视频创建变体,为视频添加额外的创意。

有多少个字教学(几个字生成)(4)

Make-A-video相较于以往产品的优势

Make-A-Video主要有三个优点:

1. 它加快了T2V(文本到视频)模型的训练,不需要从头开始学习视觉和多模式表示。

2. 它不需要成对文本的视频数据。

3. 生成的视频继承了当今图像生成模型的广泛性、审美多样性、幻想性描绘等。

Make-A-Video相较于以前的作品有一个显著的优势,其架构打破了T2V生成对文本视频的依赖,而以前的AI图文转视频技术必须限制在狭窄的领域或需要大规模成对文本视频数据。

有多少个字教学(几个字生成)(5)

该程序还通过将先前训练的的T2I网络中的知识瞬间转移到新的T2V网络中,大大加快了T2V培训过程。

同时为了提高视觉质量,训练了空间超分辨率模型以及帧插值模型;这将提高生成视频的分辨率,并启用更高更可控的帧速率。

Make-A-VideoMake a new future

而为了负责任地推进人工智能,减少有害的、有偏见或误导性的内容,确保这种最先进的视频技术的安全使用,开发人员采取了一些有效措施。

有多少个字教学(几个字生成)(6)

在源数据方面,由于这项技术通过分析数以万计的数据来了解世界,为了降低有害内容产生的风险,对过滤器进行了检查、应用并迭代过滤器,以减少有害内容在视频中出现的可能性。

在内容方面,由于Make-A-Video可以创建看起来逼真的内容,因此开发人员在生成的所有视频中添加了水印;这有助于确保观众能知道视频是用人工智能生成的,而不是捕获的视频。

而同时开发人员也正在致力于将这项技术提供给公众,目前正对Make-A-Video继续分析、测试和试用,以确保发布的每一步都是安全的。

有多少个字教学(几个字生成)(7)

向我们周围的世界学习是人类智力的最大优势之一,能够通过观察快速学习和认识他人、地点、事物和行为;AI如果能够模仿人类的学习方式,生成系统将更具创造性和实用性。

而未来的工作,开发人员还将致力于解决技术限制,如今的方法还无法学习文本和只能在视频之中推断出的现象之间的关联。

如何整合这些内容,以及生成更长的包含多个场景和事件的视频,描述更详细的故事,让我们期待其未来的发展吧。

作者:谭颖 排版:孔瀚越

图片源于Q仔互联网冲浪所得,若有侵权,后台联系,Q仔滑跪删除~

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页