阿里巴巴淘系开源多模态直播服饰检索数据集

开源技术

LiveVideoStack 2020年9月10日

阿里巴巴淘系技术部与北京大学前沿计算研究中心CVDA实验室、英国爱丁堡大学等合作，于9月7日正式开源业界首个大规模的多模态直播服饰检索数据集（Watch and Buy），以推动视频多模态检索技术的研究。

什么是Watch and Buy？

直播带货是淘宝连接商品和消费者的重要方式，通过对直播视频中商品进行实时识别和推荐，可实现消费者边看边买的消费体验，有效提高商品购买的转化，有非常大的经济价值。通常情况下直播对应的数百款商品之间相似程度高，且直播画面中存在大量的背景干扰、灯光变化、商品遮挡和形变等，给直播画面中商品的匹配识别带来很大的技术挑战。

为了提升直播中商品匹配识别的效果，我们依托淘宝直播海量数据，构建了业界最大规模的多模态视频商品检索数据集Watch and Buy (WAB)。该数据集包含70,000个由直播视频片段和对应讲解商品构成的匹配对，具有规模大、标注全、模态多、功能广的特点。我们抽取视频片段若干关键帧和商品的全部商品图进行了实例框级标注，商品id数达82,173个，标注图像数达1,042,178张，检测框实例1,654,780个。框级标注信息丰富多样，包括商品的检测框、类别、视角、展示方式、同款编号等。除了视觉标注，我们还对主播讲解语音进行了人工文本转录，同时提供了商品的标题文本信息。该数据集可用于物体检测的算法、商品重识别算法、主播意图识别、跨模态检索和多模态检索等多种算法的研究。