2022 ICME小样本商标检测挑战赛


赛题分析

任务:

利用少量有标注的训练样本,检测出商标的位置和类别。

数据简介:

训练集合:共3500张训练图片,100类商品品牌logo,7千多个实例。初赛50类,每类50张训练图片;复赛50类,每类20张训练图片。

评价指标:

$mAP(Iou=.50:.05:95)$

预训练模型:

ImageNet 1K

难点

  1. 小目标
    解决方案:
    1. 高分辨率
    2. Global Context
  2. 类间差异大
    解决方案:
    1. 数据增强
    2. 大模型

方案介绍

框架

img_1

数据端:Copy-Paste & Mixup

Copy-Paste:

如果一张图像内的 bbox 数量少于 6,则随机复制粘贴部分 bbox
img_2

Mixup:

以 0.5 的透明度混合两张图
img_3

数据端:Multi-Scale

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
dict(
type='AutoAugment',
policies=[[
dict(
type='Resize',
img_scale=[(int(32 * i), 2666) for i in range(32, 65)],
multiscale_mode='value', override=True, keep_ratio=True)],
[
dict(
type='Resize',
img_scale=[(1200, 3999), (2400, 3999)],
multiscale_mode='range', override=True, keep_ratio=True),
dict(
type='RandowCrop',
crop_type='absolute_range',
crop_size=(1200, 1333), allow_negative_crop=True),
dict(
type='Resize',
img_scale=[(int(32 * i), 2666) for i in range(32, 65)],
multiscale_mode='value', override=True, keep_ratio=True)]]),
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
test_pipelin = [
dict(type='LoadImageFromFile'),
dict(
type='MultiScaleFlipAug',
img_scale=[(2666, 1216 + i * 96) for i in range(15)],
flip=False,
transforms=[
dict(type='Resize', keep_ratio=True),
dict(type='RandomFlip'),
dict(type='Normalize', **img_norm_cfg),
dict(type='Pad', size_divisor=32),
dict(type='ImageToTensor', keys=['img']),
dict(type='Collect', keys=['img']),
])
]

数据端:初赛数据

  1. 预训练 100 epoch + 12 epoch
  2. 将初赛训练集中与复赛数据中相同的三类图像加入训练
    1
    2
    3
    4
    5
    cat_id_map = {
    33 Diadora/迪亚多纳 : 33 Diadora/迪亚多纳 ,
    26 BOY LONDON : 31 BOY LONDON,
    23 JORDAN : 14 Nike/耐克
    }

模型端:

Backbone & Neck: ConvNeXt & RFP

img_4
img_5

RPN Head

img_6

Roi Head: Double Head Cascade Roi Head

img_7
img_8
img_9

Roi Head: + Global Context

img_10

SWA

img_11
后处理: 将 score 最高的类别认为是该图的类别,将不同类别的 score * 0.001
img_12
img_13

比赛总结

  • 针对小目标:
    随机裁剪 + 多尺度训练,Global Context
  • 针对小样本和类间差异大:
    大量数据增强 + 大模型
    1. Copy-Paste, Mixup, AutoAugment V2
    2. ConvNeXt-Base + RFP
  • 泛化能力:
    SWA
  • 数据先验:
    后处理

img_14
img_15


文章作者: IMAG
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 IMAG !
  目录