中科院声学所颜永红:音视频搜索将是AI媒体行业应用的重要方向

近年,以深度神经网络为代表的AI技术越来越被业界关注。在媒体行业,尤其是音视频领域,AI技术已逐渐渗透到了媒体的生产、传输和传播、用户互动等全链条。中科院声学所首席科学家颜永红近日在第二届“马栏山杯”国际音视频算法大赛颁奖典礼期间向记者表示,AI不仅提高了音视频作品制作效率,也让很多作品有了质的飞跃。与此同时,人类社会已经从信息缺失转向到信息泛滥,在海量的音视频中,如何快速找到自己想要的内容成为行业发展迫切需要解决的痛点。

“与文字搜索相比,音视频搜索门槛更高,未来利用AI技术对海量音视频进行快速精准搜索将是重要的发展方向之一。”颜永红强调。此外,随着人工智能越来越广泛的应用,音视频产业已进入全新的时代,媒体对媒资的管理将越来越高效,AI的应用也将进一步降低普通用户对音视频产品进行编辑与再创造的门槛。

对于本次大赛,颜永红对声音识别、节拍检测技术应用印象深刻。颜永红的专业在于语言声学领域,对应着本次大赛的“音乐节拍检测”赛题。这个相对“小而美”的赛题,有望在未来产出更多实际应用在C端的“轻型”产品。他建议,从事音频研究的团队应该花点时间研究声音的特点,尤其是跟人感知的关系。

此外,芒果TV的技术创新也给专家留下了深刻印象。“芒果TV在技术应用和创新方面一直走在前列,我在展区看到了他们的展台,收获很多。”颜永红表示。

颜永红逛展后表示,视频过去发展得很快,电影从标清到高清现在又发展到4K、8K,而声音编解码的发展相对比较慢的,发展到立体声后进步比较慢。当前,芒果TV在做全景声,这感觉非常好,在展台上体验后,有一种身临其境的感觉。据了解,全景声的技术加载了算法的支持,其体验效果甚至比“现场”更佳。

记者了解到,从自身的业务需求出发,芒果TV一直很看重AI等新一代信息技术的应用和研发,例如。“视频补全”可以利用算法实现视频内元素的自动抹除与替换,极大减轻视频行业后期工作人员的重复性工作负担。同时 “视频推荐”已逐步运用在芒果TV站内内容的显示与排序,为用户和内容做更好的匹配。

此外,芒果TV创新研究院打造的首个虚拟主持人“YAOYAO”也在会议期间正式亮相,并与现场主持人实时互动。YAOYAO是依靠数字技术构建的虚拟人物,背后是大数据+算法的加持。

据悉,为直观展现芒果TV在技术领域取得的创新成果,论坛期间,场馆特别设立了科技成果展览区,让参与者亲身体验芒果TV在音视频领域的互动技术成果。展出的项目包括分别为4D观影、3D视频节目现实增强系统、全景声+4K体验、MR直播、动作捕捉、互动广告等。参观者可以在“4D观影”拥有视觉、触感联动,体验与视频节奏同步的4D效果;“全景声+4K”效果,将为观影者带来经过算法修正的顶级视听体验,其效果甚至超过现场;在“MR直播”项目,参与者将体验混合现实的新闻直播间,以现场互动体验音视频领域的科技创新成果。

文章内容来自网络,如有侵权,联系删除、联系电话:023-85238885

参与评论

请回复有价值的信息,无意义的评论将很快被删除,账号将被禁止发言。

评论区