您现在的位置是:首页 > 数字化转型 >
视频搜索遭遇瓶颈:准确率亟待提高
摘要现在,淘宝、VANCL等热门的电子商务网站都宣称将和视频网站合作,以在线视频提升购物体验。比如消费者可以看到,一款衣服穿在模特儿身上的效果如何。...
现在,淘宝、VANCL等热门的电子商务网站都宣称将和视频网站合作,以在线视频提升购物体验。比如消费者可以看到,一款衣服穿在模特儿身上的效果如何。
不过,对于视频的搜索服务如果不够精准,有可能使用户体验大打折扣。现在,谷歌和微软的Bing这样基于文字的搜索服务都能提供非常接近于用户搜索目标的结果,而视频搜索服务却亟待提高。专家们正在寻找相关的技术,来提升视频搜索的精准率。
荷兰声光研究所负责未来图像计划的主任Hans Westerhof在2005年启动了一项将其视频存档数字化的计划,包括电影、电视节目和新闻素材在内的长达28万小时的视频和音频素材将被数字化。其中,大约10万小时的素材已经被转换格式,其存储空间达到3PB,而到2015年时,存档将占用14PB的存储空间。
该研究所现在面临的问题是如何更容易地在这些视频素材中进行查找。很多老一些的电影镜头几乎没有元数据或描述数据,而老电视节目镜头也只有少得可怜的一些信息,比如只有节目标题、播出日期这样的信息,而节目的内容则毫无信息可寻。
“为了让资料变得可用,我们需要有元数据,”他说,创建元数据的工作应该尽可能自动化,因为“传统编目无法在这种规模上发挥作用。”
当前,声光研究所正在使用语音和图形识别技术寻找从视频中自动提取数据的方法。但由于多种原因,开发自动索引视频的工具比开发索引文本的工具难得多。
和文本不同,视频只能被分解成和整个视频信息毫无关系的像素,Paul Over说。他是美国国家标准和技术研究所视频搜索开发的项目负责人,这个项目致力于鼓励开发更好的视频搜索技术。而另一方面,一段文字可以被分解成一系列的词汇,这些词汇的意思已知,通过对它们的分析就可以得到整个文档的概述。
视频“和文字迥然不同,”他说,这导致对视频进行索引要困难得多。
“视频搜索绝非易事,要提取结构是比较困难的,”Videolectures.net的项目经理Marko Grobelnik在在线讲座中说道,“我们还在努力解决诸如物体识别这样的基本问题。”
谷歌YouTube的搜索和算法识别产品经理Jamie Davidson提到,谷歌正在尝试一种新的算法,它可以给上传到网站的视频添加上相关信息。
例如,软件可以判断某段视频是否是像音乐会这样的常见事件,以便帮助识别视频内容。它可以添加诸如视频上传位置这样的注解,以便用户们能将其搜索限定到特定的地理位置上。
但YouTube还面临着搜索与分类的挑战,尤其是很多视频的内容都是千奇百怪的。他展示了一段视频,视频中一只土拨鼠在音乐的伴奏下在镜头前非常有趣地转圈。这段视频的标题是“可爱的花栗鼠”,这让搜索到该视频的人很难猜到会有如此的标题。
Over解释说,人们会为了各种各样的目的搜索视频。例如,一个普通的网民可能会去搜索一段搞笑视频。情报分析师会搜索背景信息,因此对视频的拍摄目的可能毫无兴趣。一个纪实作者或新闻机构会搜索特定时间和地点的新闻素材。想要给视频加上标记以便这些用户都能找到显然是非常困难的。
作为示例,Over展示了一段视频,一个女子跑过广场,惊起一群鸽子,随即脚下一滑,摔倒在湿滑的地上。
“为了让这个视频文件具有重复使用性,你会如何对它进行标记?”他问道,并随即写下一串说明词汇:“女人,鸽子,广场,白天,户外,摔倒。”但事实上,视频的上传者只用了一个词来标记它:“笨姐姐”。
这个标签“非常个性化,它对于上传者具有某种意义,但对其他要重新使用它的人却没有丝毫用处。”
美国国家标准和技术研究所计划每年都为推进自动视频搜索接受一系列的挑战,它使用真实的视频素材作为测试的材料,目的就是鼓励开发出能够像人一样高质量地标记素材的算法,把视频中的人物、物体、地点甚至是特定的事件全部精确标注出来。
一种方法是建立一系列所谓的“识别器”,即能够被算法识别的物体或事件。软件可以询问:“这个镜头是否包含教室?是否包含椅子?是否有人在唱歌?”,然后加上对应的标签。识别器越多,软件就越能够从素材中获取有价值的特性。
该计划正在取得进展:早些年,该计划只能使用晚间新闻广播和机场监控视频素材作为测试新视频搜索系统和技术的数据集。但今年,该计划将使用网络上的视频素材,这将大大提升材料的多样性。
“随着特定的方法或算法进入到不同的系统中,它们将会在不同的数据上测试,以反复验证其可用性。”Over说。
专家小组表示,虽然在过去这些年视频搜索工具的开发取得了长足进展,但要满足商用要求还有很长的路要走。声光研究所的Westerhof认为这些工具迟早会派上用途,但他也表示,“近期内这些工具可能还无法很好地进行应用。”
(本文不涉密)
责任编辑: