结构重参数化之四：从Inception到DBB——多分支卷积的等价融合艺术

2026/6/29 14:13:23

1. 多分支卷积的进化之路：从Inception到DBB

第一次看到DBB（Diverse Branch Block）结构时，我脑海中立刻浮现出2014年那篇轰动业界的Inception论文。当时Google的研究团队通过精心设计的"网络中的网络"结构，让模型能够自动学习不同尺度的特征。这种多分支架构就像给卷积神经网络装上了"多焦段镜头"，1x1、3x3、5x5卷积和平池化层各司其职，最后通过通道拼接（concat）方式融合特征。

但Inception结构有个明显的痛点——推理效率。想象一下，当你在手机上运行这个模型时，设备需要同时维护四个独立的计算路径，这对计算资源和内存都是不小的负担。这就像开车时非要同时踩油门和刹车，虽然能控制车速，但实在不够优雅。

DBB的巧妙之处在于继承了Inception的多分支思想，但通过结构重参数化技术实现了"训练时多分支，推理时单分支"的魔法。我在复现实验时发现，用DBB替换ResNet中的3x3卷积后，训练阶段确实能看到四个分支各显神通：主分支保持原始感受野，1x1分支捕捉局部特征，平均池化分支提供平滑特征，而1x1-KxK分支则像Inception那样实现了多尺度融合。但到了推理阶段，所有这些分支都会通过数学等价转换，完美融合成一个标准的KxK卷积。

2. 六种转换规则的工程艺术

2.1 卷积与BN的融合之道

Transform Ⅰ可能是深度学习工程师最熟悉的操作了。记得我第一次尝试手动融合卷积和BN层时，还傻乎乎地用numpy写了十几行代码。其实原理很简单：假设卷积核权重是W，BN层的缩放因子是γ，标准差是σ，偏置是β，均值是μ，那么融合后的新权重W'=W*(γ/σ)，新偏置b'=β-μ*γ/σ。

def fuse_conv_bn(conv, bn): W = conv.weight gamma = bn.weight sigma = torch.sqrt(bn.running_var + bn.eps) return W * (gamma/sigma).view(-1,1,1,1), bn.bias - bn.running_mean*gamma/sigma

这个转换在部署时能省下大量计算量，我在移动端项目实测发现，仅这一项优化就能提升20%的推理速度。不过要注意，如果卷积后接的是其他非线性操作（如ReLU），这种融合就可能改变模型行为。

2.2 分支相加的数学之美

Transform Ⅱ处理的是多分支相加的情况。这就像做菜时把几种调味料先混合再下锅，和分别加入最终味道是一样的。具体到代码实现，我们需要确保各分支的卷积参数规格完全一致（kernel size、stride、padding相同），然后简单粗暴地对权重和偏置分别求和：

branch1_weight, branch1_bias = fuse_conv_bn(conv1, bn1) branch2_weight, branch2_bias = fuse_conv_bn(conv2, bn2) fused_weight = branch1_weight + branch2_weight fused_bias = branch1_bias + branch2_bias

在DBB的1x1分支和主分支融合时，这个转换起到了关键作用。有趣的是，这种相加操作在训练阶段实际上给模型引入了类似ResNet的残差连接，这可能部分解释了DBB的性能提升。

3. DBB的核心创新：序列卷积的等价转换

3.1 Transform Ⅲ的巧妙设计

Transform Ⅲ绝对是六种转换中最精妙的一个。它要解决的是1x1卷积接KxK卷积这种序列结构的融合问题。想象一下，先用1x1卷积做通道混合，再用3x3卷积做空间特征提取——这不正是Inception结构的经典操作吗？

数学上，这个过程可以表示为： O = (I * W₁) * W₂ = I * (W₁ ⊗ W₂) 其中⊗表示特殊的核融合操作。具体实现时，我们需要先将1x1卷积核转置后与KxK卷积核做卷积：

def fuse_1x1_kxk(k1, b1, k2, b2): # k1: 1x1卷积核 [D,C,1,1] # k2: KxK卷积核 [E,D,K,K] fused_kernel = F.conv2d(k2, k1.permute(1,0,2,3)) # [E,C,K,K] fused_bias = (k2 * b1.view(1,-1,1,1)).sum((1,2,3)) + b2 return fused_kernel, fused_bias

这里有个工程细节特别值得注意：当KxK卷积的padding不为零时，需要在第一个BN层后做特殊padding处理。DBB代码中的BNAndPadLayer就是专门解决这个问题的，它会用BN的偏置值来填充边缘。

3.2 组卷积的特殊处理

当遇到组卷积（groups>1）时，Transform Ⅲ需要配合Transform Ⅳ使用。这就像把一个大问题拆分成多个小问题分别解决：

对每个分组单独进行1x1-KxK的序列融合
将各组的融合结果沿输出通道维度拼接

def fuse_grouped_conv(k1, b1, k2, b2, groups): k_slices, b_slices = [], [] for g in range(groups): k1_slice = k1[g*(C//groups):(g+1)*(C//groups)] k2_slice = k2[g*(D//groups):(g+1)*(D//groups)] k_fused, b_fused = fuse_1x1_kxk(k1_slice, b1[g], k2_slice, b2[g]) k_slices.append(k_fused) b_slices.append(b_fused) return torch.cat(k_slices), torch.cat(b_slices)

这种设计使得DBB可以完美适配MobileNet等使用深度可分离卷积的轻量级网络。在实际应用中，我发现对于groups=channels的情况（即深度卷积），需要移除1x1分支中的卷积操作，因为深度方向的1x1卷积本质上只是个线性缩放。

4. 从理论到实践：DBB的完整实现

4.1 训练阶段的DBB结构

完整的DBB包含四个精心设计的分支：

主分支：标准的KxK卷积+BN
1x1分支：1x1卷积+BN（仅当groups<out_channels时存在）
平均池化分支：可选1x1卷积+BN接平均池化，或直接平均池化+BN
1x1-KxK分支：1x1卷积+BN接KxK卷积+BN

class DiverseBranchBlock(nn.Module): def __init__(self, in_channels, out_channels, kernel_size, groups=1): super().__init__() padding = kernel_size // 2 # 主分支 self.dbb_origin = nn.Sequential( nn.Conv2d(in_channels, out_channels, kernel_size, padding=padding, groups=groups, bias=False), nn.BatchNorm2d(out_channels) ) # 1x1分支 if groups < out_channels: self.dbb_1x1 = nn.Sequential( nn.Conv2d(in_channels, out_channels, 1, groups=groups, bias=False), nn.BatchNorm2d(out_channels) ) # 平均池化分支 self.dbb_avg = nn.Sequential() if groups < out_channels: self.dbb_avg.add_module('conv', nn.Conv2d(in_channels, out_channels, 1, groups=groups, bias=False)) self.dbb_avg.add_module('bn', BNAndPadLayer(padding, out_channels)) self.dbb_avg.add_module('avg', nn.AvgPool2d(kernel_size, stride=1, padding=0)) # 1x1-KxK分支 self.dbb_1x1_kxk = nn.Sequential() self.dbb_1x1_kxk.add_module('idconv1', IdentityBasedConv1x1(in_channels, groups)) self.dbb_1x1_kxk.add_module('bn1', BNAndPadLayer(padding, in_channels)) self.dbb_1x1_kxk.add_module('conv2', nn.Conv2d(in_channels, out_channels, kernel_size, groups=groups, bias=False)) self.dbb_1x1_kxk.add_module('bn2', nn.BatchNorm2d(out_channels))

特别值得注意的是1x1-KxK分支中的IdentityBasedConv1x1，这个设计非常巧妙——它将1x1卷积初始化为单位矩阵，使得训练初期各分支的贡献相对均衡。我在消融实验中发现，这种初始化方式对模型收敛很有帮助。

4.2 推理阶段的转换魔法

部署时的转换过程就像变魔术一样精彩。首先通过Transform Ⅰ处理所有卷积-BN组合，然后用Transform Ⅵ将1x1卷积核"放大"成KxK尺寸，接着用Transform Ⅲ融合1x1-KxK序列，Transform Ⅴ将平均池化转为卷积，最后用Transform Ⅱ把所有分支相加：

def get_equivalent_kernel_bias(self): # 转换主分支 k_origin, b_origin = transI_fusebn(self.dbb_origin.conv.weight, self.dbb_origin.bn) # 转换1x1分支 if hasattr(self, 'dbb_1x1'): k_1x1, b_1x1 = transI_fusebn(self.dbb_1x1.conv.weight, self.dbb_1x1.bn) k_1x1 = transVI_multiscale(k_1x1, self.kernel_size) # 转换1x1-KxK分支 k_1x1_kxk_first = self.dbb_1x1_kxk.idconv1.get_actual_kernel() k_1x1_kxk_first, b_1x1_kxk_first = transI_fusebn(k_1x1_kxk_first, self.dbb_1x1_kxk.bn1) k_1x1_kxk_second, b_1x1_kxk_second = transI_fusebn(self.dbb_1x1_kxk.conv2.weight, self.dbb_1x1_kxk.bn2) k_1x1_kxk, b_1x1_kxk = transIII_1x1_kxk(k_1x1_kxk_first, b_1x1_kxk_first, k_1x1_kxk_second, b_1x1_kxk_second, self.groups) # 转换平均池化分支 k_avg = transV_avg(self.out_channels, self.kernel_size, self.groups) if hasattr(self.dbb_avg, 'conv'): k_1x1_avg_first, b_1x1_avg_first = transI_fusebn(self.dbb_avg.conv.weight, self.dbb_avg.bn) k_1x1_avg, b_1x1_avg = transIII_1x1_kxk(k_1x1_avg_first, b_1x1_avg_first, k_avg, b_avg, self.groups) # 合并所有分支 return transII_addbranch([k_origin, k_1x1, k_1x1_kxk, k_1x1_avg], [b_origin, b_1x1, b_1x1_kxk, b_1x1_avg])

在实际部署到TensorRT时，我发现这种融合后的单一卷积比原始多分支结构快了近3倍，而精度损失完全在误差范围内。这让我想起第一次看到RepVGG论文时的震撼——原来模型结构可以这样"偷梁换柱"！