近年来,在互联网、大数据、超级计算、传感网、脑科学等新理论、新技术以及经济社会发展强烈需求的共同驱动下,人工智能呈现出飞跃式的进步,进入新的发展阶段。无论是企业还是政府在人工智能方面的关注和投入,都在不同层面推动着人工智能技术和应用的蓬勃发展。各种创新的AI应用逐步开始进入社会生活的各个场景。
同时,我们也看到,新兴科技正在推动新一轮全球产业变革,而人工智能毫无疑问成为了释放产业变革潜能的重要力量。作为人工智能技术的重要分支,计算机视觉技术在算法、数据及算力的加持下,更是得到了飞速的发展,已经具备大规模应用的可行性。特别是在文娱产业得到了广泛应用的智能影像技术已经成为行业变革的核心驱动力,将进一步催生新应用、新产品、新产业、新业态、新模式的出现,推动智能影像产业生态的繁荣。
人工智能为影像分析技术带来变革。人工智能在影像行业的综合应用, 特别是通过对动态视觉内容的理解和重构,是计算机视觉技术及计算机动画技术的交叉和融合,给智能影像产业带来了充满想象力的广阔舞台和空间。
智能影像技术为产业变革带来强劲动力。过去几年文娱产业经历了快速的发展,以内容制作方、视频平台方为代表行业参与者正面临着诸多的挑战,各方仍在行业变局中摸索前行,期望不断通过运用新兴技术和应用的创新提升自身的核心竞争力。智能影像技术在行业的应用日渐深入,成为新一轮行业变革的核心驱动力。
把握数字化转型新契机,智能影像技术加速业务变革。智能影像技术不仅成为文娱产业商业价值变现的核心引擎,也在逐渐进入更多的内容原创领域,通过自动化影像加工、生产技术为产业升级提供动力。而且, 智能影像技术也通过全面赋能推动应用在教育、零售等更多领域落地, 成为行业价值创新的基石。
2006年以来,随着深度学习技术的进展,人工智能再次获得了广泛关注。特别在图像领域,深度学习带来的突破性效果在很多领域已经超过人类水平,各种类型的神经网络不断涌现,伴随着计算力的提升以及海量数据的积累,人工智能为广阔的图像分析领域带来深刻变革。资本市场对与计算机视觉的热度空前高涨。
影像生产技术以计算机视觉 (Computer Vision) 与计算机图形学为基础。计算机视觉诞生于上世纪六十年代,是指能够赋予机器自然视觉能力的学科,关注图像的识别和分割。在初步兴起的二十年时间里,“识别”领域进展有限,而分割领域取得了一定的进展。进入本世纪,随着互联网的不断发展,图片的来源日趋丰富,各类图像数据库开始出现,标注数据进一步促进计算机视觉的发展。
Forrester对人工智能技术进行分类研究时采用了Sense、Act、Think 的框架。类比来看,在感知(Sense)层面,人工智能技术为静态图片识别乃至多模态影像识别带来了突破;在思考(Think)层面,基于多模态识别结合商业需求可以形成深入的影像智能化理解。以感知、思考为基础,在行动(Act)层面,人工智能技术为自动化影像生产带来了强劲动力。为此,我们将智能影像生产技术分为两部分:影像智能化理解(Sense和Think) 和影像自动化生成(Act)。
传统的计算机视觉技术大量聚焦在特征生成和选择。端到端深度学习带来了自动特征学习能力,从而极大促进了计算机视觉的发展。深度学习所需的大量训练数据以及运算能力在当下也得到了良好的供应。对于“识别”这种人类无需思考即可在极短时间内作出判断的任务目前是人工智能最擅长的领域。从包括图像、语音、文字的多模态识别,人工智能对于影 像感知和理解能力不断提升,推动了智能影像产业的快速发展。
影像语义理解增加了商业模式的可能性。通过视频结构化分析、目标检测跟踪、动作态势感知、人物识别以及情感分析等多模态感知技术,人类已经可以从动态影像中获取浅层信息。但是要做到商业模式变现,仍需进一步从语义的层面深入理解影像内容。
在这一领域,需要有大量的行业积累,例如对综艺类视频节目中人物、物体等的识别标注,需要专业的经验,基于编剧、布景、拍摄等角度,对视频进行结构化建模进行分析和学习,把特征空间提升到语义空间。在此基础上对影像数据生成语义标签、业务分类乃至文字描述以供后续业务场景使用。常识的建立可以极大提升机器性能,既有经验与多种深度网络的融合将会形成企业差异化的竞争优势。