人工智能技术在智能剪辑方面的应用

来源：光明网2022-11-11 17:47

　　【编者按】第二届新视听媒体融合创新创意大赛以“创意点亮梦想融合开创未来”为主题，赛程从9月持续到12月，分为启动、初赛、复赛、结果发布四个阶段，共设置“媒体融合技术创新”“媒体融合内容创新”“媒体融合模式创新”三个赛道，旨在发挥资源优势，加快推进媒体融合的技术创新、内容创新、模式创新。大赛由国家广播电视总局和中华全国新闻工作者协会指导，中共北京市委宣传部、光明日报社、北京市广播电视局、国家广播电视总局广播电视科学研究院和北京市新闻工作者协会共同主办。

　　作者：林卫国（中国传媒大学计算机与网络空间安全学院院长）

　　人工智能作为一门前沿交叉学科，与数学、计算机科学、控制科学、脑与认知科学、语言学等密切相关，该领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等，人工智能的主要目标是使机器能够胜任一些通常需要人类智能才能完成的复杂工作。

　　近十年来，随着大数据、云计算、互联网、物联网等信息技术的发展，图形处理器等计算平台的推动，以神经网络为代表的人工智能技术飞速发展，大幅跨越了科学与应用之间的技术“鸿沟”，图像分类、语音识别、知识问答、人机对弈、无人驾驶等人工智能技术迎来了爆发式增长的新高潮。虽然通用人工智能尚处于起步阶段，但是人工智能的社会影响仍不容小觑，在媒体领域也出现了智能融合发展的趋势。融媒体是将传统的电视、广播、报刊杂志等传统媒体与近年来新兴的公众号、短视频等新媒体相互整合，充分发挥其传播价值的一种运营模式。作为科技发展的产物，融媒体要充分利用人工智能，实现媒体深度融合发展。在开启人工智能3.0的今天，人工智能的发展已经融入到了日常新闻媒体的创作之中。

　　人工智能应用于媒体融合领域主要有人脸识别、场景识别、目标检测、视频分割、目标追踪等算法，得益于深度学习算法的突破、算力的不断提升以及海量数据的持续积累，人工智能真正大范围地从实验室研究走向产业实践，催生出了一大批实际应用。下面介绍几种具体应用。

　　目前，各大视频网站相继推出了识别视频中人物以及只看某人功能，如图1、图2所示。用户在观看视频时，可以根据需要识别到视频帧中的人物、观看特定演员的片段。这主要用到了人工智能领域的人脸识别等算法。人脸识别算法是一种建立生物特征人脸模型以供进一步分析、识别的方法，是任何人脸检测和识别系统的基础组件。如图3所示，基于深度学习的人脸识别流程主要包括人脸预处理 (检测、对齐、标准化、数据增强等)、特征学习、特征比对等步骤，其中特征学习是人脸识别的关键，如何提取强判别性、强鲁棒性的特征是人脸识别的研究重点。视频平台通过检测视频流中的人脸数据，提取人脸的特征信息，构建人脸三维模型，将模型与训练集进行比对以识别某人。

descript

　　图1 识别人物

descript

　　图2 只看某人功能

descript

　　图3 基于深度学习的人脸识别训练流程

　　利用视频内容理解技术，人工智能算法通过分析视频的质量、视频的精彩程度以及内容相关度，基于对视频的丰富理解，提取视频中最具代表性的某一帧图片或者某几秒的片段作为视频封面，如图4所示。用户可以借此快速定位目标视频，既提高了视频点击率，又给用户良好的搜索体验。视频内容理解涉及到许多方面，往往需要针对场景和人物行为进行联合特征的提取、构建。对于一个视频，首先需要每隔一定秒数来抽取一些关键帧，通过简单的打分模型来判断视频帧的质量。接着，选取一些质量分比较高的图片作为候选封面，并对候选封面进行详尽的分析，包括人脸、人体的检测，主体物体的识别、图片质量分析、清晰度打分等。最后，针对所有信息进行特征融合，把封面选取问题建模成一个排序问题来判断所有帧的质量，并通过智能裁剪的方式对关键部位进行检测和截取，来作为最终的视频封面。

descript

　　图4 平台辅助封面选择

　　传统的视频剪辑，流程相对复杂，需要剪辑师熟悉整体素材，又包括素材的筛选分类、场景的拼接剪辑、基于氛围节奏精细调整、添加配乐、特效、转场、字幕等诸多流程，是一件门槛既高又耗时费力的事情。智能剪辑主要是利用人工智能的学习能力。在学习并理解了镜头语言后，人工智能算法可以根据文本对视频进行剪辑。在此基础上制定相应的剪辑规则，逐步去完善机器自动进行镜头拼接的能力。借助人工智能辅助专业人员进行快速剪辑，机器先快速完成粗剪之后再交由专业人员进行精剪。与此同时，一些简单的镜头也可以交给算法自动完成。例如在一个真人秀节目中，同时有几十个机位在同时录制，前期从这么多素材中快速找到最终剪辑需要的镜头就可以通过人工智能来进行筛选，以节省时间。因此借助特定的算法，一段素材中的高质量片段可以被迅速识别出来供用户进行合理剪裁。算法还可以对素材内容进行分析，根据素材的场景，推荐给用户合适的配乐、转场特效和页面装饰。当前许多短视频平台都提供了智能剪辑功能，用户可以根据模板轻松剪辑视频、制作卡点音乐、添加特效，如图5所示。人工智能应用于视频剪辑领域，可以迅速提高行业生产力，使剪辑的流程变得标准化、智能化、简单化。视频剪辑不再专属于少数专业人士，操作流程的简便与流畅，会让越来越多的人可以参与进来。

descript

　　图5 利用模板智能剪辑

　　此前用户可以通过输入简单的文本内容，借助人工智能算法生成艺术插画。近期，Meta（原Facebook）和Google相继推出文本生成视频的算法。Meta的Make-A-Video可以根据用户输入的描绘某个场景的文本信息，生成一个相匹配的短视频。Google提出的Imagen Video比Make-A-Video有更高的分辨率，可以生成每秒24帧、1280*760分辨率的视频。输入泰迪熊洗碗，Imagen Video会生成如图6所示的场景。Google提出的另一个算法Phenaki，能根据200个词左右的提示语生成2分钟以上的长镜头，讲述一个完整的故事。随着文本生成视频技术的快速发展，未来，各大短视频平台的视频或许不再是真人表演秀，而是合成视频的舞台，这将给视频剪辑和录制的工作人员带来机遇与挑战。

descript

　　图6 泰迪熊洗碗

　　随着深度学习尤其是神经网络的发展，视频换脸、合成语音、影像修复、虚拟数字人等越来越频繁地出现在社交娱乐、影视制作、教育、广告营销等领域，发展出多元化的商业应用，如图7、8、9所示。这些应用的背后，是以深度合成技术为代表的人工智能算法在发挥作用。神经网络中有一类主要用于生成任务的生成对抗网络GAN，由于其可以生成非常逼真的图像，从而衍生出一系列图片及视频合成算法。在未来深度合成技术会更多地应用于影视、娱乐、教育、社交、电商、医疗、科研等诸多领域。除面部的编辑外，深度合成的范围也会进一步扩大。人物全身的合成以及场景的合成会是下一步的研究趋势。技术的应用往往是一把双刃剑。在深度合成技术不断满足越来越多需求的同时，部分恶意应用也开始引起广泛关注。其中危害最大的一类就是更换人脸的伪造视频，将一个人的脸或表情替换到另一个人的脸上，从而生成真实度极高的视频，此类技术足以给社会稳定及个人名誉带来严重威胁。目前国内外学者从各种角度研究如何鉴别伪造视频，提出了很多算法。例如从人脸固有特征出发检测真假人脸生理特征的算法；结合图片时序信息、频域线索的算法；基于特定人脸身份信息的算法等等。目前的鉴伪算法已经有了比较高的准确率，泛化性上也在逐步提高。所以深度合成技术不会因为深度伪造停下脚步，综合性的视听合成技术必将深刻改变视频行业的未来。

影像修复

　　图7 影像修复

数字人

　　图8 仿真撒贝宁智能主播

人工智能技术在智能剪辑方面的应用

　　图9 深度合成应用场景

　　人工智能技术是引领科技革命和产业变革的战略性技术，对经济发展、社会进步、国际政治经济格局等方面产生重大而深远的影响。当前我国的人工智能技术发展态势良好，同时也要认识到实现自主智能和通用智能仍然需要中长期理论和技术积累，理性分析人工智能发展需求，深刻理解人工智能领域基础理论和共性关键支撑技术发展趋势，更好地将人工智能技术与融媒体产业结合发展，能够推动整个广播电视、媒体行业从数字化、网络化向智能化发展，推动行业转型升级，构建智慧媒体新业态。

　　第二届新视听媒体融合创新创意大赛参与方式

　　登录光明网首页，点击第二届新视听媒体融合创新创意大赛官网，浏览了解大赛详细信息。

人工智能技术在智能剪辑方面的应用