阿里巴巴淘系开源多模态直播服饰检索数据集

LiveVideoStack 2020年9月10日

阿里巴巴淘系技术部与北京大学前沿计算研究中心CVDA实验室、英国爱丁堡大学等合作,于9月7日正式开源业界首个大规模的多模态直播服饰检索数据集(Watch and Buy),以推动视频多模态检索技术的研究。

什么是Watch and Buy?

 

直播带货是淘宝连接商品和消费者的重要方式,通过对直播视频中商品进行实时识别和推荐,可实现消费者边看边买的消费体验,有效提高商品购买的转化,有非常大的经济价值。通常情况下直播对应的数百款商品之间相似程度高,且直播画面中存在大量的背景干扰、灯光变化、商品遮挡和形变等,给直播画面中商品的匹配识别带来很大的技术挑战

为了提升直播中商品匹配识别的效果,我们依托淘宝直播海量数据,构建了业界最大规模的多模态视频商品检索数据集Watch and Buy (WAB)。该数据集包含70,000个由直播视频片段和对应讲解商品构成的匹配对,具有规模大、标注全、模态多、功能广的特点。我们抽取视频片段若干关键帧和商品的全部商品图进行了实例框级标注,商品id数达82,173个,标注图像数达1,042,178张,检测框实例1,654,780个。框级标注信息丰富多样,包括商品的检测框、类别、视角、展示方式、同款编号等。除了视觉标注,我们还对主播讲解语音进行了人工文本转录,同时提供了商品的标题文本信息。该数据集可用于物体检测的算法、商品重识别算法、主播意图识别、跨模态检索和多模态检索等多种算法的研究。

为什么需要Watch and Buy?

 

当前开源的服饰检索数据集都存在一些不足,无法满足真实视频场景中服饰实时识别的应用和细致研究。

首先,已有开源数据集均为静态图片的数据集,而真实视频直播场景中还存着运动模糊、遮挡等问题;通过针对视频场景的数据集能够有效对上述问题进行研究和解决。

其次,已有开源数据集的图片多为网上收集,数目少、噪声大且标注维度不全,我们依托淘宝网和淘宝直播的真实业务场景,能够获取大规模、高质量和全面的商品信息。

最后,现有数据集多为单一的图片数据集,我们还提供了主播语音翻译文本、商品图标题文本等多模态的信息,进行多模态商品检索的研究,能够更加贴近真实场景。

我们相信Watch and Buy 数据集的这些特性将会持续激发视频多模态检索领域的技术创新研究。

Watch and Buy数据集开源链接:

https://tianchi.aliyun.com/dataset/dataDetail?dataId=75730

 

 
还可输入800
全部评论
作者介绍

LiveVideoStack

音视频技术社区

文章

粉丝

视频

阅读排行
  • 2周
  • 4周
  • 16周