目标检测分类部分损失函数:BCE → Focal Loss → VFL → MAL 的演进

先说结论:解决检测任务两大核心痛点:正负样本极度不均衡、分类与定位解耦、稠密匹配下大量低质量正样本失控,每一项损失都是为修复前一代缺陷而生

一、交叉熵

统一公式:

也可写成:

设计目标:基础二分类损失,衡量预测置信与固定 0/1 标签的差距

优点

形式简单、梯度稳定、理论完备。

缺点(检测场景致命)

  1. 正负样本数量极端失衡:图像中绝大多数 Anchor 是背景负样本,海量简单背景损失主导梯度,少量前景梯度被淹没,模型学不好物体;
  2. 无难易样本区分:简单背景、难分背景同等惩罚,简单负样本持续产生无效梯度;
  3. 分类与定位完全解耦:所有正样本标签统一为 1,不区分预测框和 GT 的 IoU 高低;定位差的框也会被强制推高置信,NMS 产生大量低质量假阳性框。

遗留待解决问题

样本不均衡、难例挖掘缺失、置信度不感知框定位精度。

二、Focal Loss

设计目的:BCE 中海量易分背景主导训练梯度,希望压低简单负样本权重,聚焦难分样本

其中

  • :正负平衡权重 ,平衡正负样本数量均衡性
  • >0:难易调制因子,对正样本y=1来说,当p->1,则极小,当p->0,则极大,即简单样本权重小,困难样本权重大;当y=0,也是同样的原理。所以通过这个超参让模型聚焦在困难样本的学习

优点

  1. 大幅缓解正负样本不均衡,抑制海量简单背景;
  2. 自动挖掘难例,提升小物体、模糊物体检测效果;
  3. 轻量化改造,可直接替换 BCE 用于所有稠密检测器。

缺点(遗留核心缺陷)

  1. 依旧使用硬标签 y=1,0:所有匹配 GT 的正样本统一监督 p->1,完全不区分框 IoU;
  2. 分类、定位完全分离:置信度不代表框精度,大量 IoU 很低的劣质框依然会输出高分,NMS 冗余框多;
  3. 对高低质量正样本无差异化监督,模型不会优先优化定位精准的高 IoU 框。

遗留待解决问题

分类置信无法反映框定位质量,高低 IoU 正样本同等对待。

三、VFL(Varifocal Loss)

提出动机:Focal Loss 置信与 IoU 无关,低 IoU 框高置信干扰 NMS;希望让分类得分自带 IoU 感知,优质框高分、劣质框低分。

q= 预测框与 GT 的 IoU;p= 分类预测;q>0为正样本,q=0为负样本

对这个公式,不要想着是从Focal loss推导过来的,应该想着是从BCE推导过来的,再加上保留focal loss中对负样本的损失设计,这样就好理解了:

  • 对q>0部分,抛弃交叉熵(

    )中y=1的固定标签,监督目标改为 IoU 值q,即定位越准,要求置信越高;在外层再进行二次q加权,那么高 IoU 优质框损失权重更大,梯度更强,模型优先学习精准框
  • 对q=0负样本部分,则完全保留focal loss的设计

优点

  1. IoU 感知分类置信,解决分类定位解耦,NMS 过滤大量低质量框,显著提升 mAP;
  2. 差异化监督正样本,高 IoU 框获得更强训练信号;
  3. 兼容 RetinaNet/FCOS/YOLO 等稠密检测框架。

致命缺点(稠密 O2O 匹配场景暴露)

稠密标签分配(SimOTA/TAL)会产生海量极低 IoU 正样本(q≈0.05~0.3),双层 q 结构造成梯度近乎消失:

  1. 内层标签q本身极小,基础 BCE 损失已经很低;
  2. 外层再乘以q二次缩放,损失被压缩几十倍;
  3. 低质量匹配框即便盲目输出高置信p,损失惩罚微乎其微,模型没有动力压低其置信,大量劣质框高分泛滥,抵消 VFL 收益;
  4. 论文中认为超参多,调参成本高:

四、MAL(Matchability-Aware Loss)

提出动机:VFL 双层 q 衰减导致极低 IoU 匹配样本几乎无惩罚;面向稠密一对一匹配场景,需要同时约束好匹配、差匹配,让所有匹配 Anchor 都具备有效梯度

论文默认 1.5;为软标签

针对性的改造,优化VAL的短板:

  1. 当q很小(匹配差,当然再小也是>0,也就是正样本的场景啦),几乎为0,也就是公式中左半部分,那么当p很大,损失很大(公式第二部分的log(1-p)很大),惩罚低IOU却盲目自信的
  2. 相反,当q很大(匹配好,当然也是正样本场景),偏高,损失来源主要为公式第一部分,当p很小时,损失飙升(大),监督模型提升匹配好的置信度
  3. 移除平衡超参,简化损失结构,降低调参难度
  4. 负样本保留 Focal 的调制,持续抑制简单背景。

优点

  1. 继承 VFL IoU 感知能力,高 IoU 框置信校准效果不变;
  2. 解决 VFL 最大缺陷:海量低 IoU 稠密匹配样本拥有充足梯度,杜绝劣质框盲目高分;
  3. 公式更简洁,去掉,调参成本更低;
  4. 完美适配 SimOTA、TAL 等生成大量低质量正样本的标签分配策略。

缺点

  1. 引入新超参,需要根据数据集微调;
  2. 完全依赖 BCE 原生梯度,极端多低 IoU 样本时训练前期梯度震荡略高于 VFL

演变总结:

  1. BCE:基础分类损失,但扛不住检测样本不均衡;
  2. Focal Loss:解决正负 / 难易样本失衡,但置信和框精度无关;
  3. VFL:引入 IoU 软标签,实现置信感知定位质量,但双层 q 压缩导致低 IoU 匹配监督失效;
  4. MAL:删外层加权、改用幂次标签,完整保留 BCE 惩罚力度,兼顾高低质量所有匹配样本,适配现代稠密检测器。

整体不变的底层:全部基于二元交叉熵核心机制,后续所有改进都只在标签构造、损失加权系数上做改动,没有替换 BCE 基础损失形式。