基于工业相机成像的汽车零部件缺陷检测

团队名称：乘风破浪的炼丹师
答辩人：沈飞

赛题背景

汽车工业是支持我国实体经济发展的关键产业，汽车零部件的质量是整车质量的基础。然而目前人工检测的方式不仅存在效率低下，还可能由于
人工疲劳造成缺陷零部件流入行业下游，造成潜在的安全风险。因此，为了提高生产效率发挥人工智能的优势，我们需要研发一种高精度的汽车零部件缺
检测算法。
如图为本次比赛提供的3种常见汽车零部件：轴承、摇把和火花塞。

每种零部件都分别定义了几类缺陷：

轴承： 连接处缺陷、直角边缺陷、空洞缺陷、毛刺；
摇把： 颜色缺陷、划痕缺陷、磨损缺陷；
火花塞： 垂直度问题、拔丝异常、间距缺陷。

评价指标

Mean AveragePrecision（mAP）和MacroAccuracy（ACC）
总得分：$score=\alphamAP+\betaACC$
$ACC=\frac{\sum_{i=1}^{N} TP_{i}}{N}$
$TP=\begin{cases} 1,& \sum_{d=1}^{D}(pred_{label,d}==gt_{label,d}&&IOU(pred_{bbox,d},gt_{bbbox,d})\geq\sigma==D) \ 0, & \text{else} \end{cases}$

其中，mAP只要计算mAP@50，ACC是指每张图片完全预测正确的准确率。
模型限制大小600M，在ModelArts CPU推理端时长不能超过3小时

数据分析

3种汽车零部件数据各有特点：

轴承：

轴承图像只存在左右翻转，占据图像面积较大
轴承头朝向左边的尺度范围在（1200-1300,800-900）
轴承头朝向右边的尺度范围在（1900-2200，1500-1800）
有明显的光照变化
有明显的角度旋转变化（-30度~30度左右）

摇把：

图像存在左右翻转、90度旋转、垂直翻转
尺度范围较大，普遍在（4000, 3000）以上
瑕疵存在小目标现象（集中在颜色和磨损）
-45度~45度旋转图像较多

火花塞：

图像角度多变
尺度范围较大，普遍在（4000, 3000）以上
由于接线螺母和侧电极唯一，导致间距和垂直度缺陷也唯一
火花塞多集中在图像中心区域

数据统计 – 3类零部件10种特定缺陷

GT框：整体上 类别不平衡_，_单类的瑕疵_上轴承和火花塞类别_也不平衡

数据预处理：离线增强和在线增强

离线增强： 水平翻转、垂直翻转(不包括轴承)、随机旋转90度（不包括轴承）、随机旋转 {轴承（±30度）, 摇把（±45）}、随机对比度（只针对轴承）、随机光照（只针对轴承），随机周围裁剪（仅针对火花塞)
- 尺度大小：分别在数据统计_范围内_进行_缩放_
- 3大类1张图像_随机策略，变成3张多尺度的图像_
在线增强包括：Bbox-Jitter、 grid mask、mix up

模型设计

将自注意力限制为不重叠的局部窗口，同时允许跨窗口连接，移位的窗口方案带来了更高的效率。相对于图像大小具有线性计算复杂性。
级联3个RCNN，不断提高IoU阈值，对产生的proposal更好地进行回归。
Double-Head: 分别从空间和通道上进行压缩处理，减少空间上信息的损失，提高分类的得分。

技巧

Anchor ratio 选择 0.2, 0.5, 1.0, 2.0, 4.0, 6.0；
Warm up 热启动，SGD优化器；
Label smooth 平滑交叉熵；
5折交叉验证对火花塞标注错误重新标注；
Swa 随机权重平均；
- 正常训练后，再训练一定的epoch，然后对这些epoch进行融合；
- 此外，对3次随机离线生成的图像得到的模型再进行二次进行融合。
在复赛阶段，由于接线螺母和侧电极唯一，导致间距和垂直度缺陷也唯一，因此只保留最高置信度得分的垂直度和间距缺陷。