欢迎开发者加入零售商品识别数据集的收集工作

前言

虽然目前业界开源的零售场景下的商品识别数据集众多，各个数据集的数据量也较为庞大，但依旧存在很多痛点问题，例如样本不均衡、中文标签缺失等等。

我们渴望汇集众多开发者的力量，开源出产业级的、SKU级别的、在业界具有较大影响力的零售商品识别数据集，能够为我国零售的产业变革做出自己的一份贡献！

数据集格式

训练集合（train dataset）：用来训练模型，使模型能够学习该集合的图像特征。
底库数据集合（gallery dataset）：用来提供图像检索任务中的底库数据，该集合可与训练集或测试集相同，也可以不同，当与训练集相同时，测试集的类别体系应与训练集的类别体系相同。
测试数据集合（query dataset）：用来测试模型的好坏，通常要对测试集的每一张测试图片进行特征提取，之后和底库数据的特征进行距离匹配，得到识别结果，后根据识别结果计算整个测试集的指标。
训练集、底库数据集和测试数据集均使用 txt 文件指定，训练数据集 train_list.txt文件内容格式如下所示：

# 采用"空格"作为分隔符号
...
train/10/1283.jpg 10 624
train/10/1284.jpg 10 625
train/10/1285.jpg 10 626
train/10/1286.jpg 10 627
...

验证数据集(本数据集中既是 gallery dataset，也是 query dataset)test_list.txt 文件内容格式如下所示：

...
test/103/743.jpg 103 743
test/103/744.jpg 103 744
test/103/745.jpg 103 745
test/103/746.jpg 103 746
...

注：

每行数据使用“空格”分割，三列数据的含义分别是训练数据的路径、训练数据的label信息、训练数据的unique id;
本数据集中由于 gallery dataset 和 query dataset 相同，为了去掉检索得到的第一个数据（检索图片本身无须评估），每个数据需要对应一个 unique id（每张图片的 id 不同即可，可以用行号来表示 unique id），用于后续评测 mAP、recall@1 等指标。yaml 配置文件的数据集选用 VeriWild。
根据以上描述对数据集进行处理，并将数据集修改为如下目录格式：

├── classlabel.txt	# 数据label和对应商品名称
├── gallery_label.txt	# 图片地址及对应的商品名称
├── gallery		# 底库图片
├── test		# 测试集图片
├── test_list.txt	# 测试集图片地址及对应的商品名称
├── train		# 训练集图片
└── train_list.txt	# 训练集图片地址及对应的商品名称

### 前言虽然目前业界开源的零售场景下的商品识别数据集众多，各个数据集的数据量也较为庞大，但依旧存在很多痛点问题，例如样本不均衡、中文标签缺失等等。我们渴望汇集众多开发者的力量，开源出产业级的、SKU级别的、在业界具有较大影响力的零售商品识别数据集，能够为我国零售的产业变革做出自己的一份贡献！ ### 数据集格式数据集格式参考:【[零售行业商品特征学习数据集](https://aistudio.baidu.com/aistudio/datasetdetail/108651)】 * 训练集合（train dataset）：用来训练模型，使模型能够学习该集合的图像特征。 * 底库数据集合（gallery dataset）：用来提供图像检索任务中的底库数据，该集合可与训练集或测试集相同，也可以不同，当与训练集相同时，测试集的类别体系应与训练集的类别体系相同。 * 测试数据集合（query dataset）：用来测试模型的好坏，通常要对测试集的每一张测试图片进行特征提取，之后和底库数据的特征进行距离匹配，得到识别结果，后根据识别结果计算整个测试集的指标。训练集、底库数据集和测试数据集均使用 `txt` 文件指定，训练数据集 `train_list.txt`文件内容格式如下所示： ```shell # 采用"空格"作为分隔符号 ... train/10/1283.jpg 10 624 train/10/1284.jpg 10 625 train/10/1285.jpg 10 626 train/10/1286.jpg 10 627 ... ``` 验证数据集(本数据集中既是 gallery dataset，也是 query dataset)test_list.txt 文件内容格式如下所示： ```shell ... test/103/743.jpg 103 743 test/103/744.jpg 103 744 test/103/745.jpg 103 745 test/103/746.jpg 103 746 ... ``` **注：** 1. 每行数据使用“空格”分割，三列数据的含义分别是训练数据的路径、训练数据的label信息、训练数据的unique id; 2. 本数据集中由于 gallery dataset 和 query dataset 相同，为了去掉检索得到的第一个数据（检索图片本身无须评估），每个数据需要对应一个 unique id（每张图片的 id 不同即可，可以用行号来表示 unique id），用于后续评测 mAP、recall@1 等指标。yaml 配置文件的数据集选用 VeriWild。根据以上描述对数据集进行处理，并将数据集修改为如下目录格式： ``` ├── classlabel.txt # 数据label和对应商品名称 ├── gallery_label.txt # 图片地址及对应的商品名称 ├── gallery # 底库图片 ├── test # 测试集图片 ├── test_list.txt # 测试集图片地址及对应的商品名称 ├── train # 训练集图片 └── train_list.txt # 训练集图片地址及对应的商品名称

🚀 1

#2 欢迎开发者加入零售商品识别数据集的收集工作

前言

数据集格式