概念瓶颈模型与持续学习：如何用可解释性解决灾难性遗忘

2026/6/21 4:47:48

1. 从“学新忘旧”到“融会贯通”：持续学习的核心挑战

在机器学习领域，尤其是深度学习模型的实际部署中，我们常常面临一个尴尬的局面：一个在特定任务上表现优异的模型，一旦需要学习新的知识或适应新的数据分布，其原有的能力就会急剧衰退，甚至完全丧失。这种现象，就是所谓的“灾难性遗忘”。想象一下，你花了好几个月训练一个模型，让它能精准识别猫和狗。现在，你需要它再学会识别鸟类。结果，一番“再训练”之后，模型确实能认出鸟了，但它却把猫和狗忘得一干二净，仿佛从未见过它们。这种“学新忘旧”的特性，极大地限制了模型在动态、开放世界中的长期应用价值。

而“持续学习”，正是为了解决这一核心痛点而生的研究方向。它的目标，是让模型能够像人类一样，在一生中持续不断地学习新任务、新知识，同时稳固地保留过往的经验。这不仅仅是技术上的优化，更是迈向通用人工智能的关键一步。一个具备持续学习能力的模型，可以逐步扩展其能力边界，适应业务需求的迭代，而无需每次都从头开始、耗费巨大的计算资源和数据成本。

然而，实现持续学习并非易事。传统的神经网络参数是高度耦合和抽象的，学习新任务时，梯度更新会不可避免地扰动到与旧任务相关的参数，导致遗忘。现有的持续学习方法，如基于正则化、基于回放或基于动态架构的方法，都在尝试从不同角度缓解这一问题。但它们往往又引入了新的权衡：要么牺牲了新任务的学习效率，要么增加了模型的复杂度和存储开销，更重要的是，模型的决策过程依然是一个“黑箱”。我们很难理解，模型在应对新旧任务时，内部究竟发生了什么变化，它是如何“权衡”新旧知识的？这种可解释性的缺失，使得我们难以诊断遗忘的根源，也难以信任模型在持续学习过程中的稳定性。

正是在这样的背景下，概念瓶颈模型与可解释性的结合，为持续学习开辟了一条颇具潜力的新路径。CBM的核心思想是，在模型的输入和最终预测之间，引入一个由人类可理解的概念（如“有翅膀”、“有毛发”、“是金属的”）构成的中间层。模型不再直接“端到端”地映射输入到输出，而是先预测这些概念，再基于概念预测最终标签。这种结构天生就具备了一定的可解释性：我们可以追溯模型的决策是基于哪些概念判断做出的。

那么，当我们将CBM应用于持续学习场景时，会发生什么？一个直观的想法是：既然灾难性遗忘源于神经网络参数对旧知识的覆盖，而概念是人类可理解的、相对稳定的知识单元，那么以概念为“锚点”来组织学习，是否能让模型在吸收新知识时，更稳固地“挂住”旧知识？CI-CBM这个研究方向，正是试图回答这个问题。它旨在构建一个面向持续学习的、可解释的概念瓶颈模型框架，其目标不仅是减轻灾难性遗忘，更要让整个持续学习的过程变得透明、可追溯、可干预。我们可以清晰地看到，模型在学习新任务时，是引入了新的概念，还是对原有概念进行了精炼；在做出预测时，是依赖了哪些新旧概念的组合。这种透明性，对于在医疗、金融、自动驾驶等高风险领域部署持续学习系统至关重要。

接下来，我们将深入拆解CI-CBM可能涉及的核心技术环节、设计思路以及面临的独特挑战。

2. 概念瓶颈模型：为黑箱模型打开一扇“窗”

要理解CI-CBM，我们必须先吃透概念瓶颈模型这套“方法论”。它不仅仅是一种模型结构，更是一种构建可解释AI系统的设计哲学。

2.1 CBM的基本结构与工作流程

一个标准的CBM通常包含三个核心部分：

概念编码器：将原始输入（如图像、文本）映射到概念空间。例如，对于一张动物图片，编码器需要输出一系列概念的概率值，如has_fur: 0.95,has_feathers: 0.02,has_wings: 0.80,is_aquatic: 0.10。
概念层：这是一个明确的、由人类预先定义的概念集合。每个概念都是一个二值或连续的概率变量。这一层是模型可解释性的核心。
任务预测器：根据概念层的输出，预测最终的分类标签。例如，基于上述概念，预测器判断该动物是“鸟”。

其工作流程是线性的：输入 -> 概念编码器 -> 概念预测 -> 任务预测器 -> 最终输出。关键在于，训练过程可以是端到端的，但测试和解释时可以“介入”概念层。例如，我们可以手动设置has_wings=1.0，然后观察任务预测器的输出是否会变为“鸟”，从而验证概念与任务之间的因果关系强度。

2.2 CBM如何提供可解释性？

CBM的可解释性体现在多个层面：

决策追溯：对于任何一个预测结果，我们可以列出所有参与决策的概念及其权重。例如，模型判断为“狗”，是因为它高置信度地检测到了“有毛发”、“四条腿”、“吠叫”等概念。
概念干预：我们可以手动修正模型可能错误预测的概念，然后观察最终预测如何变化。这不仅能纠正单次错误，更能帮助我们理解概念预测的可靠性。
概念审计：我们可以全局性地分析每个概念对各类别预测的贡献度，发现一些潜在的偏见。例如，模型是否过度依赖“穿着裙子”这个概念来识别“女性”？

然而，CBM并非完美。它的一个核心假设是：我们能够定义出一套完备、准确、且与任务高度相关的人工概念。这需要深厚的领域知识。如果概念定义有偏差或不完整，模型的性能天花板就会受限。此外，概念编码器本身可能也是一个黑箱神经网络，它预测概念的可靠性也需要被评估。

2.3 从静态CBM到持续学习场景的延伸

在静态任务中，CBM的概念集合是固定的。但在持续学习场景下，任务序列T1, T2, ..., Tn可能涉及不同的领域。例如，T1是识别陆地动物，T2是识别鸟类，T3是识别交通工具。这就引出了CI-CBM需要解决的首要问题：概念集合本身是否需要以及如何随着任务而演进？

一种思路是维护一个全局的、跨任务的概念库。学习新任务时，模型首先尝试用现有概念去解释新数据；只有当现有概念不足以表达新任务的关键特征时，才动态地扩展概念库，引入新的概念。例如，在学习了“动物”后，面对“交通工具”任务，可能需要引入“有轮子”、“金属材质”、“使用燃油”等全新概念。如何设计这种概念的发现、对齐与融合机制，是CI-CBM的核心设计挑战之一。

另一种思路是，概念本身是分层的或可组合的。旧任务的概念可能是新任务概念的父类或组件。例如，“鸟”的概念可能由“动物”、“有翅膀”、“有喙”等更基础的概念组合而成。在持续学习中，模型需要学习的是概念之间的组合逻辑，而非总是引入原子概念。

3. 灾难性遗忘在概念空间的表征与缓解策略

在传统神经网络中，遗忘表现为输出层对旧类别响应的消失或混淆。在CI-CBM框架下，遗忘可能发生在两个层面：概念预测层面和概念-任务映射层面。理解这一点，是设计有效抗遗忘机制的基础。

3.1 概念预测层面的遗忘

这是指，在学习新任务后，模型的概念编码器对旧任务数据中概念的预测能力下降。例如，模型先学习了识别“猫”（依赖概念“有胡须”、“尖耳朵”），再学习识别“汽车”。之后，当再次看到猫的图片时，概念编码器对“有胡须”这个概念的预测置信度可能大幅降低。

为什么会出现这种情况？因为概念编码器本身通常也是一个深度神经网络（如CNN）。当新任务的数据（汽车图片）涌入时，为提取“车轮”、“车窗”等新特征，网络的权重会被更新。这些更新可能会覆盖或干扰那些用于检测“胡须”、“毛发纹理”的滤波器，导致后者失效。

CI-CBM的应对策略可能包括：

概念感知的正则化：在训练新任务时，不仅对最终的分类损失进行正则化，更关键的是对概念编码器的输出施加约束。例如，使用EWC或MAS等方法，计算旧任务数据上各概念预测的重要性权重，并在新任务训练时，惩罚对那些重要概念预测有较大改变的模型参数。这相当于在概念层面“冻结”或“保护”旧知识。
概念回放缓冲区：维护一个缓冲区，存储旧任务数据的概念层激活（即概念预测向量），或者存储少量旧任务的原始数据。在学习新任务时，混合这些“旧概念”或“旧数据”进行训练，强制模型同时保持对旧概念的预测能力。由于概念是抽象的，存储和回放概念向量可能比存储原始图像更高效。
解耦的概念编码器：设计模块化的概念编码器，让不同的概念或概念组由相对独立的子网络来学习。这样，学习“汽车”相关概念时，主要更新与“纹理”、“几何形状”相关的子模块，而对“生物特征”子模块的影响降到最低。这需要精细的架构设计。

3.2 概念-任务映射层面的遗忘

即使概念预测保持稳定，模型也可能在如何组合概念来做出最终决策上出现遗忘。具体来说，是任务预测器（通常是一个简单的线性层或浅层网络）的权重发生了漂移。

例如，在任务T1（猫 vs 狗）中，任务预测器学会了规则：如果has_fur高且size_large高，则预测为狗；如果has_fur高且has_pointy_ears高，则预测为猫。当学习任务T2（鸟）时，任务预测器被更新以学习新规则：has_feathers高且has_wings高 -> 鸟。这个更新过程可能会无意中改变那些用于区分猫和狗的权重，导致之后面对猫狗数据时，分类边界混乱。

针对这一层面的策略可能更直接：

任务预测器的扩展与隔离：为每个任务分配一个独立的任务预测器头。这是持续学习中“多头部”策略在CBM中的体现。模型共享同一个概念编码器来提取通用概念，但每个任务有自己的“解读手册”（预测器）。这完全避免了任务间的映射干扰，但要求任务ID在测试时已知。
映射关系的弹性固化：如果希望一个统一的任务预测器处理所有任务，则需要采用更强大的正则化方法，来保护概念到旧任务输出的映射关系。也可以将映射关系设计为基于概念的稀疏组合，让新任务主要激活与新增概念相关的映射路径，减少对旧路径的扰动。

3.3 一个综合性的CI-CBM架构设想

结合以上分析，一个可能的CI-CBM系统架构会包含以下组件：

共享的概念编码器网络：负责从原始输入中提取特征并预测概念。其参数是持续学习过程中需要重点保护的对象。
动态的概念库：一个存储所有已学概念的集合。每个概念有其对应的描述、重要性度量（用于正则化）以及可能与其他概念的关联。
概念选择/注意力机制：对于当前输入，该机制决定激活哪些相关概念参与最终预测。新任务可能触发对新概念的关注。
抗遗忘模块：集成上述的正则化、回放或参数隔离机制，作用于概念编码器和/或任务预测器。
可解释性接口：提供实时可视化，展示当前预测涉及了哪些概念（新旧概念用不同颜色高亮），以及这些概念对决策的贡献度。同时，可以展示在学习新任务后，模型对旧任务代表性数据的概念预测是否保持稳定。

4. 实操挑战：构建CI-CBM原型的关键步骤与坑点

理论很美好，但落地到代码和实验上，我们会遇到一系列非常具体的问题。这里，我结合常见的持续学习基准（如Split MNIST, Split CIFAR-100, CORe50）和CBM实现，梳理出一条可能的实践路径和需要注意的“坑”。

4.1 步骤一：定义与任务序列适配的概念体系

这是最基础，也最依赖领域知识的一步。概念不能凭空想象。

对于已知领域：利用现有知识图谱、属性标注数据集（如CUB-200鸟类数据集有丰富的属性标注）或领域专家的经验，预先定义一套概念。例如，对于图像分类，概念可能包括颜色、纹理、形状、部件、材质等。
对于探索性领域：可以考虑使用无监督或自监督的方法，从数据中自动发现“概念原型”。例如，通过聚类深度特征空间中的激活模式，将每个簇解释为一个潜在概念。但这需要后验的人工验证和命名，可解释性会打折扣。
关键坑点：概念的定义必须与任务相关且具有判别性。定义一个“是物体”这样的概念对分类帮助不大。同时，概念之间应尽可能正交，减少冗余。高度相关的概念（如“有轮子”和“是车辆”）同时存在，会给模型带来混淆，也增加正则化的复杂度。

4.2 步骤二：构建基础CBM并进行单任务预训练

在开始持续学习之前，我们需要一个在第一个任务上表现良好的CBM作为起点。

数据准备：获取第一个任务T1的数据，并为每条数据标注概念标签。这通常是瓶颈所在，需要大量人工或利用现有属性数据集。
模型构建：
- 选择一个主干网络（如ResNet）作为概念编码器。其最后一层线性层的输出维度等于概念数量，接Sigmoid激活函数（用于多标签概念预测）。
- 任务预测器可以是一个简单的线性层，输入是概念预测向量，输出是任务类别。
训练策略：通常采用联合训练。损失函数由两部分组成：总损失 = α * 概念预测损失 + β * 任务分类损失其中，概念预测损失是概念标签的二元交叉熵损失，任务分类损失是最终标签的交叉熵损失。超参数α和β需要调优，以平衡概念预测准确性和最终任务性能。
验证可解释性：训练后，通过干预概念层来验证。例如，将某张图片的“有翅膀”概念预测手动设为1，看最终分类是否更倾向于“鸟”。

4.3 步骤三：引入持续学习机制，按任务序列训练

从任务T2开始，进入真正的持续学习阶段。假设我们采用基于正则化和轻度回放的混合策略。

计算概念重要性：在完成T1训练后，在T1的验证集上，计算概念编码器每个参数对于每个概念预测的重要性。可以使用EWC中的Fisher信息矩阵，或MAS中计算参数对概念输出敏感度的方法。这标记了哪些参数对旧概念至关重要。
准备回放数据：由于存储原始数据可能受限，我们可以选择存储概念向量。从T1数据中采样一个核心集，通过训练好的概念编码器得到其概念预测向量，存入缓冲区。也可以存储少量原始图像。
训练新任务T2：
- 加载T2的数据。
- 从回放缓冲区中取出T1的概念向量（或图像）。
- 在每个训练批次中，混合T2的新数据和T1的回放数据。
- 计算损失时，除了T2的概念损失和分类损失，增加正则化项：对于旧任务重要的参数，其变化会受到惩罚。损失函数变为：总损失 = α*概念损失 + β*分类损失 + γ*正则化损失
- 同时，用T1的回放数据计算概念预测损失，确保概念编码器不忘旧概念。
更新概念库与重要性：如果T2引入了新概念（例如，在概念编码器后新增神经元），则需要扩展概念库。同时，在T2数据上计算新参数的重要性，并与旧任务的重要性进行累积或合并，为学习T3做准备。
迭代：对T3, T4, … 重复步骤2-4。

4.4 步骤四：评估、解释与调试

评估CI-CBM不能只看最终的平均准确率。

性能评估：
- 平均准确率：在所有已学任务上的平均分类精度。
- 遗忘程度：模型在学完最后一个任务后，在第一个任务上的精度下降了多少。
- 概念预测稳定性：在旧任务测试集上，比较模型在不同学习阶段对相同概念预测的一致性（如用余弦相似度度量概念向量的变化）。
可解释性评估：
- 概念干预有效性：手动修正错误的概念预测，观察最终分类被纠正的比例。比例越高，说明概念与任务的因果性越强，模型越可解释。
- 概念重要性可视化：对于每个任务，可视化任务预测器权重，看哪些概念被赋予高权重。观察这些权重在持续学习过程中是否保持稳定。
常见坑点与调试：
- 概念预测精度与任务精度的权衡：如果α（概念损失权重）太大，模型会过于专注预测概念，可能损害最终分类性能；如果β太大，模型可能学会“走捷径”，绕过概念层直接拟合分类，导致可解释性失效。需要仔细调整。
- 正则化强度γ的选择：γ太强会严重阻碍新任务的学习（塑性不足），γ太弱则无法防止遗忘（稳定性不足）。这是一个经典的稳定性-塑性权衡问题，通常需要通过验证集来调整。
- 回放缓冲区的大小与采样策略：缓冲区大小有限，如何选择最具代表性的旧数据或概念向量是关键。随机采样、基于聚类的核心集选择、或基于训练难度的策略都值得尝试。
- 新概念的引入与冲突：当动态添加新概念时，需要确保新概念与旧概念在语义和特征空间上能很好地区分。否则，概念编码器可能会产生混淆。可以考虑为新概念分配独立的特征提取通道。

5. 超越分类：CI-CBM在其他任务与场景中的可能性

目前讨论主要围绕图像分类任务。但CI-CBM的思想可以推广到更广泛的场景。

持续强化学习：在RL中，智能体需要在一系列环境中持续学习技能。可以将“概念”定义为状态中可理解的属性或子目标（如“门是否打开”、“钥匙是否持有”）。CI-CBM可以帮助智能体理解在不同任务中，哪些概念（子目标）是关键的，并保护这些知识不被遗忘，从而更快地适应新环境。
持续语义分割：在自动驾驶中，需要不断学习识别新的物体类别。概念可以定义为更细粒度的视觉属性，如“材质是玻璃”、“形状是圆柱体”、“功能是承载”。模型在学习识别“路灯”时，可以复用“金属材质”、“柱状”等旧概念，并可能新增“发光”这一新概念。这比直接学习像素到新类别的映射更具可解释性和稳定性。
持续自然语言处理：在文本领域，概念可以是情感极性、主题类别、实体类型、语法结构等。一个持续学习不同领域文本分类的模型，可以学习并维护一个跨领域的“概念词典”，例如“财经”、“科技”、“负面情绪”、“人名”等。新任务（如医疗文本分类）可以引入“疾病”、“药物”等新概念，并与旧概念结合使用。

在这些场景中，核心挑战在于如何定义合适且可自动获取的“概念”。可能需要结合领域特定的特征工程、知识图谱或预训练模型（如CLIP的图像-文本对齐特征）来构建概念空间。

6. 个人实践中的体会与展望

在实际尝试实现CI-CBM相关想法的过程中，我最深的体会是，可解释性不是持续学习的“赠品”，而是其强大的“稳定器”和“导航仪”。

传统持续学习方法像在黑暗中摸索抗遗忘的平衡点，我们通过最终的测试准确率来间接判断方法是否有效。而CI-CBM为我们提供了“探照灯”——概念层的激活情况。我们可以直观地看到，当学习新任务时，是哪些旧概念的预测发生了漂移，从而可以更有针对性地设计正则化或回放策略。例如，如果发现“有毛发”这个概念在所有旧动物数据上的预测都变差了，那么我们就知道需要加强对概念编码器中相关滤波器的保护。

另一个关键点是，概念的质量直接决定了系统的上限。如果人工定义的概念粗糙、有噪声或与任务关联弱，那么整个CI-CBM大厦就建立在松散的地基上。因此，投入精力进行高质量的概念标注或设计鲁棒的概念发现算法，是项目前期最重要的工作。与其追求复杂的抗遗忘架构，不如先把概念体系打磨好。

展望未来，我认为CI-CBM有几个值得深入探索的方向：

自动化概念发现与对齐：减少对人工定义概念的依赖，让模型在持续学习过程中，能够自动地、增量地发现和命名有意义的、可迁移的概念单元。
因果性更强的概念：当前CBM中的概念多是相关性概念。如何引入因果推理，让概念真正成为决策的“因”而不仅仅是“伴随特征”，将极大提升可解释性的可信度。
与大型基础模型的结合：像CLIP、Segment Anything这样的基础模型已经具备了强大的通用视觉概念理解能力。如何将这些模型作为“概念提取器”或“概念教师”，来引导和初始化CI-CBM中的概念编码器，是一个极具潜力的方向，可以大幅降低对标注数据的依赖。

CI-CBM将可解释性与持续学习这两个重要方向深度融合，为我们构建更稳健、更透明、更可信的长期学习智能体提供了一条清晰的路径。它提醒我们，在追求模型性能的同时，保持对其内部运作机制的理解和控制，不仅是伦理和安全的需要，也可能是提升其根本学习能力的关键。这条路虽然充满挑战，但每解决一个具体问题，我们都离能让机器“融会贯通”而非“学新忘旧”的目标更近一步。