大模型微调中的灾难性遗忘：机制、缓解策略与自蒸馏实战

2026/6/23 22:34:46

1. 项目概述：当大模型学会“新知识”时，它为何会“忘记”旧本领？

最近在折腾大语言模型（LLM）的微调，无论是用LoRA、QLoRA还是全参数微调，一个绕不开的“幽灵”总会悄然浮现——灾难性遗忘。这感觉就像你费尽心思教会一个博学的专家一门新方言，结果他转头就把母语给忘了大半，说出来的话不伦不类。在技术层面，这意味着当我们用新领域的数据（比如医疗问答、法律条文）去微调一个预训练好的通用大模型（如Qwen、Llama）时，模型在新任务上表现提升的同时，其在原始预训练任务（如通用对话、代码生成）上的性能会急剧下降。这不仅仅是“偏科”，而是原有知识体系的崩塌。

为什么这个问题在今天如此关键？因为大模型的落地，几乎离不开微调。无论是企业想打造一个精通自家产品知识的客服助手，还是研究者想让模型适配一个全新的小众任务，微调都是成本相对可控的路径。但如果微调的结果是一个“健忘”的专家，其应用价值就大打折扣。更棘手的是，大模型参数动辄数十亿、数百亿，我们很难直观理解遗忘是如何在神经网络的海量连接中发生的。因此，深入拆解灾难性遗忘的内在机制，并掌握切实可行的缓解技术，尤其是近年来备受关注的自蒸馏方法，对于任何想要真正用好大模型的从业者来说，都是一门必修课。本文将结合我近期在Qwen、Llama等模型上的微调实战，深入探讨遗忘的根源，并手把手展示如何通过自蒸馏等技术来“加固”模型的记忆。

2. 灾难性遗忘的深层机制：不仅仅是覆盖那么简单

很多人将灾难性遗忘简单地理解为新数据覆盖了旧权重，但实际情况要复杂和微妙得多。要设计有效的缓解策略，必须首先理解遗忘是如何发生的。

2.1 神经网络的可塑性与稳定性困境

大语言模型本质上是一个极其复杂的函数拟合器。预训练过程通过在海量通用文本上学习，让模型参数收敛到一个能很好表征人类语言和知识的“盆地”中。这个盆地很宽，模型在其中处于一个相对稳定、泛化能力强的状态。

微调，尤其是全参数微调，可以看作是将模型从这个大盆地，推向一个针对特定任务的、更陡峭的“小山谷”。在这个过程中，优化器（如AdamW）根据新任务的损失梯度，对几乎所有参数进行更新。问题在于，这些参数中，只有一部分是专门用于新任务学习的“任务特定参数”，而更大一部分是承载了通用知识的“共享参数”。

当梯度更新作用于共享参数时，为了最小化新任务的损失，它们会被大幅度调整。这种调整虽然优化了新任务的目标，却无情地破坏了这些参数原先编码的、用于解决旧任务的函数映射关系。这并非简单的“擦除-写入”，而更像是“扭曲”或“覆盖”。原有的知识表征被新的、局部的优化方向所干扰和破坏。

2.2 从损失函数视角看遗忘

我们可以从优化目标上更形式化地理解这一点。假设预训练后的模型参数为 θ，其在原始任务上的损失为 L_old(θ)。微调时，我们使用新数据集，最小化新损失 L_new(θ)。标准的微调过程只关心最小化 L_new(θ)，对 L_old(θ) 没有任何约束。

从数学上看，这相当于在参数空间中进行如下搜索：θ* = argmin_θ L_new(θ)这个搜索过程完全无视了 L_old(θ) 的变化。由于 L_new 和 L_old 的梯度方向在参数空间的高维中几乎不可能一致，甚至常常是冲突的，因此最小化 L_new 必然导致 L_old 的增大，即性能下降。这就是遗忘在优化层面的直接体现。

2.3 参数更新中的“敏感神经元”

并非所有参数对遗忘的贡献度都相同。近年来的研究发现，模型中存在一些“敏感”的神经元或参数子集，它们对任务性能至关重要，且容易被微调过程改变。

一种理解方式是弹性权重巩固（EWC）理论的视角。该理论认为，每个参数 θ_i 对于旧任务的重要性是不同的，可以用费舍尔信息矩阵的对角线元素 F_i 来近似衡量。重要性高的参数（F_i 大），在微调时应该施加更大的约束，防止其偏离原始值。而在大模型微调中，我们通常没有精确计算 F_i，但可以通过观察发现，某些注意力头（Attention Head）或前馈网络（FFN）的中间层参数，对特定类型的知识（如事实、语法）的存储更为关键。当这些“要害部位”被新任务梯度猛烈冲击时，遗忘就会特别严重。

注意：这种敏感性也解释了为什么像LoRA（低秩适配）这类方法天生能部分缓解遗忘。因为LoRA只更新注入的低秩矩阵，冻结了绝大部分原始参数，相当于保护了那些敏感的“主干”神经元不被直接修改。但这并非万能，因为适配器本身也可能与原始参数产生交互干扰。

3. 主流缓解策略全景：从正则化到架构改造

理解了机制，我们来看应对策略。业界和学术界已经提出了多种方法来对抗灾难性遗忘，它们大致可以分为三类：基于正则化的方法、基于回放的方法和基于参数高效微调（PEFT）的方法。

3.1 基于正则化的方法：给旧知识“上锁”

这类方法的核心理念是在微调新任务时，对模型参数的变化施加约束，防止其过度偏离预训练状态。

L2正则化/权重衰减：最基础的方法。在损失函数中加入一项 λ * ||θ - θ_old||^2，其中 θ_old 是预训练权重。这相当于用一个“弹簧”把每个参数拉回原点。但问题在于，它对所有参数一视同仁，可能会过度约束那些需要适应新任务的参数，同时不足以保护真正重要的参数。
弹性权重巩固（EWC）：如前所述，这是一种更智能的正则化。它为每个参数引入一个基于其旧任务重要性的惩罚项：L_total = L_new + Σ_i (λ/2) * F_i * (θ_i - θ_old_i)^2。重要性 F_i 大的参数，偏离原值的代价就高。然而，为百亿参数的大模型计算和存储完整的费舍尔信息矩阵是不现实的，通常采用对角近似，但这仍会带来不小的计算和存储开销。
学习不遗忘（LwF）：这种方法非常巧妙。它利用模型自身的预测作为“软标签”来约束微调。具体来说，在微调前，先用旧数据（或无需旧数据，仅用模型自身）让模型对一批样本产生输出概率分布（软标签）。在微调新任务时，除了新任务的损失，还增加一个损失项，要求模型对新任务数据产生的、关于旧任务类别的输出概率，尽可能接近之前保存的软标签。这相当于让模型在学新东西时，尽量保持对旧问题的“看法”不变。

3.2 基于回放的方法：定期“复习”旧功课

这是最直观也往往最有效的方法之一，其思想是在训练新任务的同时，混合一部分旧任务的数据一起训练。

数据回放：保留一部分旧任务的训练数据（例如，从预训练数据中采样一个小子集，或保留之前任务的数据），在微调每个批次中，混合一定比例的旧数据和新数据。这样，优化器在降低新任务损失的同时，也必须兼顾旧任务损失，从而找到一个兼顾新旧任务的平衡点。
生成式回放：当旧数据无法获取或存储成本太高时，可以使用一个保存的旧模型（或当前模型在微调前的状态）来生成合成数据，然后用这些合成数据进行回放训练。这对于大语言模型尤其有吸引力，因为我们可以让原始模型生成各种文本，作为“旧知识”的代表。

实操心得：在实际微调大模型时，数据回放是我最常采用的基线策略。例如，在微调一个法律问答模型时，我会从预训练语料（如C4、Pile）中随机采样1%-5%的数据，与法律QA数据混合。关键技巧在于调整混合比例和学习率。通常，旧数据的比例不宜过高（否则会拖慢新任务学习），同时针对混合数据使用一个稍低的学习率，让更新更平滑。一个实用的起点是：新数据:旧数据 = 9:1，学习率设为标准微调学习率的 0.5 倍。

3.3 基于参数高效微调（PEFT）的方法：动得少，忘得少

这类方法通过大幅减少需要更新的参数数量，从根本上降低干扰原始知识结构的可能性。

LoRA及其变种：LoRA 冻结预训练模型权重，只在注意力模块中注入可训练的低秩分解矩阵。由于更新的参数量极少（通常不到原模型的0.1%），对原始权重的扰动极小，因此能显著减轻遗忘。QLoRA 更进一步，通过量化技术，使得在有限显存下进行微调成为可能。
前缀微调/提示微调：只在输入序列前添加可训练的“软提示”向量，模型主体完全冻结。这种方法对原始知识的保护最好，但通常需要更长的训练才能达到较好效果，且提示向量可能会占用较多的序列长度。
适配器：在Transformer层的内部插入小型的前馈网络模块，只训练这些适配器。与LoRA类似，它也能有效隔离变化。

策略对比与选型建议

策略类别	代表方法	优点	缺点	适用场景
正则化	EWC, LwF	无需旧数据（LwF），理论优雅	计算开销大（EWC），超参敏感，效果不稳定	旧数据完全无法获取，且对理论方法有探索需求
回放	数据回放	简单直接，通常效果显著	需要存储/生成旧数据，增加了数据管理成本	最通用、最推荐的实践起点，旧数据可获得或可生成
PEFT	LoRA, QLoRA	高效，显存友好，天然抗遗忘	性能上限可能略低于全参数微调	资源受限，快速迭代，多任务适配

对于大多数应用场景，我的建议是：优先考虑“LoRA + 轻量级数据回放”的组合策略。用LoRA控制可训练参数量，同时混合少量通用语料进行回放，这能在效果、效率和抗遗忘能力之间取得很好的平衡。

4. 自蒸馏技术详解：让模型成为自己的“老师”

自蒸馏是近年来在缓解灾难性遗忘方面展现出巨大潜力的技术，它属于基于正则化的方法，但思想更为精妙。其核心在于：利用微调前的原始模型（教师）来指导微调中的模型（学生），使学生既能学习新任务，又尽可能保留教师的知识。

4.1 自蒸馏的基本原理与损失函数设计

自蒸馏的实现框架非常清晰。假设我们有：

教师模型 (Teacher): 预训练好的原始模型，参数冻结。
学生模型 (Student): 从教师模型初始化，正在进行微调的模型。

在微调过程的每个训练步骤（或每隔若干步骤），我们同时进行以下操作：

前向传播：将同一批训练数据（新任务数据）分别输入教师模型和学生模型。
获取输出：获取教师模型和学生模型在最后一个隐藏层产生的输出（通常是logits，即未经过softmax的分数），或者经过softmax后的概率分布。
计算蒸馏损失：计算教师输出与学生输出之间的差异，作为额外的损失项。最常用的差异度量是KL散度。
联合优化：将新任务的标准损失（如交叉熵损失）与蒸馏损失加权求和，作为总损失来更新学生模型。

总损失函数通常如下：L_total = α * L_task + β * L_distill其中：

L_task是新任务损失（如分类交叉熵、生成式负对数似然）。
L_distill是蒸馏损失，常用KL_Divergence(Student_softmax(logits), Teacher_softmax(logits))。
α和β是超参数，用于平衡新任务学习和知识保留。通常α=1，β是一个需要调优的值（例如 0.5, 1.0）。

4.2 为什么自蒸馏有效？知识保存的“软目标”优势

与直接使用硬标签（one-hot向量）或简单的L2正则化相比，自蒸馏有几个关键优势：

知识丰富性：教师模型输出的概率分布（软目标）比硬标签包含了丰富得多的信息。例如，对于一个“苹果”的图片，硬标签只是“水果-苹果”，而教师模型的软目标可能包含了“类似梨”、“是一种食物”、“圆形物体”等隐式关联信息。让学生模型去匹配这个软目标，相当于在教它一种更细腻、更具关联性的知识表征方式。
优化平滑性：软目标提供了更平滑的梯度信号。硬标签的交叉熵损失在类别边界处梯度变化可能很尖锐，而匹配软分布的KL散度损失通常能提供更温和、更稳定的优化路径，有助于模型找到一个对新旧任务都友好的参数区域。
对抗过拟合：在微调数据有限时，学生模型容易过拟合到新任务的噪声中。教师模型作为在巨大通用语料上训练过的“先知”，其输出具有强大的正则化作用，能帮助学生模型保持更好的泛化性，从而间接保护了旧知识不被噪声更新所破坏。

4.3 实战配置：在LLM微调中集成自蒸馏

下面以使用 Hugging Facetransformers和peft库，结合LoRA对Qwen2-7B模型进行指令微调为例，展示如何集成自蒸馏。

步骤1：准备教师和学生模型

from transformers import AutoModelForCausalLM, AutoTokenizer import torch model_name = "Qwen/Qwen2-7B-Instruct" # 加载教师模型，并设置为评估模式，冻结参数 teacher_model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto") teacher_model.eval() for param in teacher_model.parameters(): param.requires_grad = False # 学生模型从同一个检查点加载，用于训练 student_model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")

步骤2：配置LoRA（以学生模型为对象）

from peft import LoraConfig, get_peft_model lora_config = LoraConfig( r=8, # LoRA秩 lora_alpha=32, target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], # 针对Qwen的模块名 lora_dropout=0.1, bias="none", task_type="CAUSAL_LM" ) student_model = get_peft_model(student_model, lora_config) student_model.print_trainable_parameters() # 确认只有少量参数可训练

步骤3：定义包含自蒸馏损失的总训练步骤这是训练循环中的核心部分：

import torch.nn.functional as F def compute_loss_with_distillation(batch, student_model, teacher_model, temperature=2.0, distill_weight=0.5): """ batch: 包含input_ids, attention_mask, labels的批次数据 temperature: 蒸馏温度，用于平滑概率分布 distill_weight: 蒸馏损失项的权重 β """ # 学生模型前向传播 student_outputs = student_model(**batch, output_hidden_states=False) student_logits = student_outputs.logits # [batch, seq_len, vocab_size] task_loss = student_outputs.loss # 标准的下一个token预测损失 # 教师模型前向传播 (no_grad) with torch.no_grad(): teacher_outputs = teacher_model(**batch) teacher_logits = teacher_outputs.logits # 计算蒸馏损失 (KL散度) # 只对非padding的部分计算损失，这里简化处理，计算所有token的平均 # 实际应用中可能需要更精细的masking student_logits_slice = student_logits[:, :-1, :].contiguous().view(-1, student_logits.size(-1)) # 忽略最后一个预测 teacher_logits_slice = teacher_logits[:, :-1, :].contiguous().view(-1, teacher_logits.size(-1)) # 应用温度缩放并计算KL散度 student_probs = F.log_softmax(student_logits_slice / temperature, dim=-1) teacher_probs = F.softmax(teacher_logits_slice / temperature, dim=-1) distill_loss = F.kl_div(student_probs, teacher_probs, reduction='batchmean') * (temperature ** 2) # 总损失 total_loss = task_loss + distill_weight * distill_loss return total_loss, task_loss, distill_loss

步骤4：集成到训练循环中在你的训练循环中，不再直接使用outputs.loss，而是调用上述函数计算损失。

# 在训练循环的每个step中 optimizer.zero_grad() total_loss, task_loss, distill_loss = compute_loss_with_distillation(batch, student_model, teacher_model, temperature=2.0, distill_weight=0.5) total_loss.backward() optimizer.step() # 可以记录task_loss和distill_loss以监控平衡情况

关键参数调优经验：
蒸馏权重 (distill_weight/β)：这是最重要的超参数。通常从0.5开始尝试。如果新任务数据量小、与预训练领域差异大，可以适当增大（如0.8-1.0），以更强地约束模型。如果新任务数据量大且希望快速收敛，可以减小（如0.2-0.3）。
温度 (temperature)：温度T控制输出分布的平滑程度。T越大，分布越平缓，蕴含的“暗知识”越多，但任务信号也越弱。对于大语言模型，T=2.0或3.0是常见的起点。可以尝试在[1.0, 5.0]范围内调整。
蒸馏目标层：上述例子蒸馏的是最终输出的logits。更高级的做法可以蒸馏中间隐藏层的特征（如最后一层Transformer层的输出），这被称为“特征蒸馏”，有时能捕获更结构化的知识。但这会显著增加计算和内存开销。

5. 进阶技巧与组合策略：构建更健壮的微调流程

单一技术往往有其局限，在实际工业级应用中，我们需要将多种策略组合使用，并辅以一些工程化技巧，才能达到最佳的抗遗忘效果。

5.1 自蒸馏与数据回放的协同

自蒸馏和数据回放是互补的。自蒸馏通过模型的内部表示进行约束，而数据回放提供了来自原始数据分布的直接信号。将两者结合，可以形成“软硬兼施”的监督。

操作方案：在每一个训练批次中，我们可以构建一个混合批次。例如，70%的数据来自新任务，30%的数据来自旧任务回放数据池。对于整个批次，我们都计算自蒸馏损失（教师模型对所有数据都有输出）。同时，对于那30%的旧数据，我们不仅计算蒸馏损失，还可以计算其原始的语言建模损失（如果标签可用），给予旧知识更强的监督信号。这相当于总损失由三部分组成：新任务损失 + 新旧数据上的蒸馏损失 + 旧数据上的任务损失。

5.2 动态权重调整与课程学习

固定的损失权重（α, β）可能不是最优的。一种改进思路是采用动态调整策略：

损失感知的动态权重：监控训练过程中task_loss和distill_loss的量级。如果distill_loss持续远大于task_loss，说明模型正在剧烈偏离教师，可以适当增大 β；反之，如果新任务学习缓慢，可以暂时减小 β。
课程学习式调度：在训练初期，给蒸馏损失一个较高的权重，让模型“站稳脚跟”，牢牢记住原有知识框架。随着训练进行，逐渐降低蒸馏权重，让模型有更多自由度去适应新任务。这可以通过一个简单的线性衰减或余弦衰减调度器来实现。

5.3 针对大模型特性的优化技巧

梯度裁剪与检查点：自蒸馏增加了前向传播（需要跑两次模型）和损失计算的开销。确保使用梯度裁剪来稳定训练，尤其是当蒸馏权重较大时。对于非常大的模型，可以考虑使用梯度检查点来节省显存，尽管会稍微增加训练时间。
选择性蒸馏：并非所有Token的蒸馏都同等重要。对于生成任务，模型在输出“事实性”内容（如日期、名称、术语）和“功能性”内容（如语法结构、连接词）时，前者对遗忘更敏感。可以尝试设计一个简单的启发式方法，对预测概率分布熵较低的Token（模型很确信的Token，可能包含重要事实）给予更高的蒸馏权重。
教师模型的更新：在持续学习（连续微调多个任务）的场景中，一个自然的想法是，在完成一个任务的微调后，将当前的学生模型作为下一个任务的教师模型。这被称为“渐进式自蒸馏”。但需要注意，教师模型的知识会在一次次迭代中逐渐漂移。一个折中方案是保留最初的预训练模型作为“锚点教师”，并与最新学生模型进行联合蒸馏。

6. 效果评估与常见问题排查

微调完成后，如何科学地评估灾难性遗忘是否被有效缓解？又会在实践中遇到哪些坑？

6.1 评估指标与方案设计

评估必须包含新旧两个方面的性能：

新任务性能：使用标准的评估指标，如准确率、F1分数、BLEU/ROUGE（生成任务）等。这是微调的首要目标，不能因为抗遗忘而牺牲太多。
旧任务性能：
- 通用能力基准测试：使用像MMLU（大规模多任务语言理解）、HellaSwag、ARC等基准测试集。这些测试涵盖了常识推理、阅读理解等多个维度，能全面反映模型通用能力的保留情况。
- 原始任务数据测试：如果可能，保留一部分预训练数据的子集（或类似分布的数据）作为测试集，评估其语言建模的困惑度（PPL）。PPL下降越少，说明遗忘越轻。
- 关键技能测试：针对业务场景，设计一些“技能测试”。例如，微调法律模型后，测试它是否还能正确编写Python代码、回答历史常识问题等。

理想的评估结果是：新任务性能相比基线微调（无抗遗忘措施）下降很少（例如<3%），而旧任务性能相比微调前下降幅度被显著抑制（例如，从暴跌50%改善到只下降10-20%）。

6.2 实战问题排查清单

问题现象	可能原因	排查与解决思路
新任务学习效果差	蒸馏权重β过大，过度约束了模型。	逐步降低β（如从1.0降至0.3），观察新任务验证集损失。确保新任务数据质量足够高。
旧任务遗忘依然严重	蒸馏权重β过小，或回放数据比例太低。蒸馏温度T不合适。	增大β或增加回放数据比例。尝试调整温度T（增大T可能让模型学习更通用的关系）。检查教师模型输出是否正常（例如，在回放数据上PPL是否合理）。
训练不稳定，损失震荡大	学习率可能过高，特别是结合了蒸馏损失后。批次内新旧数据混合导致梯度方向冲突剧烈。	降低学习率（通常为基线学习率的0.5-0.8倍）。尝试使用更稳定的优化器（如AdamW）。确保批次内数据混合均匀，或尝试梯度累积。
显存溢出（OOM）	同时加载教师和学生模型，且未使用优化技术。	使用`device_map=“auto”`让Transformers自动分配。启用梯度检查点（`model.gradient_checkpointing_enable()`）。如果使用LoRA，确保只启用学生模型的LoRA。考虑使用模型并行或更小的批次大小。
蒸馏效果不明显	教师和学生模型架构/分词器不一致。新任务与预训练任务差异极大。	确认教师和学生模型来自完全相同的预训练检查点。对于差异极大的任务，单纯输出logits的蒸馏可能不够，考虑结合中间层特征蒸馏或增加数据回放。

6.3 一个完整的评估案例：法律合同QA微调

假设我们使用Qwen2-7B-Instruct模型，在1万条法律合同问答数据上进行微调。

基线（无抗遗忘）：使用LoRA微调后，在合同QA测试集上准确率从10%提升至78%。但在MMLU基准上，平均准确率从68%暴跌至42%。
采用“LoRA + 自蒸馏 (β=0.5, T=2.0)”：合同QA准确率仍达到76%（仅下降2个百分点）。MMLU平均准确率保持在62%（仅下降6个百分点）。
采用“LoRA + 5%数据回放”：合同QA准确率77%，MMLU准确率60%。
采用“LoRA + 自蒸馏 + 2%数据回放”：合同QA准确率76.5%，MMLU准确率63.5%。

从这个简化案例可以看出，组合策略往往能在新旧任务间取得最好的平衡。自蒸馏在保护通用知识上表现突出，而少量数据回放能提供更坚实的锚点。

对抗大语言模型微调中的灾难性遗忘，没有一劳永逸的“银弹”，而是一个需要根据任务、数据和资源进行精细调优的工程问题。从理解遗忘的梯度冲突本质出发，到熟练运用自蒸馏、数据回放、PEFT等工具，再到设计合理的评估体系，每一步都考验着实践者的经验。我的体会是，将自蒸馏视为一种强大的正则化器，与轻量级的数据回放结合，并采用动态的损失平衡策略，是目前在效果和复杂度之间最实用的方案。尤其是在使用LoRA等高效微调方法时，增加自蒸馏带来的额外开销相对可控，但其对模型通用能力的保护收益却是非常显著的。最后，别忘了，任何技术手段都替代不了严谨的评估，务必在部署前，对你的模型进行新旧任务的全面“体检”。

大模型微调中的灾难性遗忘：机制、缓解策略与自蒸馏实战

1. 项目概述：当大模型学会“新知识”时，它为何会“忘记”旧本领？

2. 灾难性遗忘的深层机制：不仅仅是覆盖那么简单

2.1 神经网络的可塑性与稳定性困境

2.2 从损失函数视角看遗忘

2.3 参数更新中的“敏感神经元”

3. 主流缓解策略全景：从正则化到架构改造

3.1 基于正则化的方法：给旧知识“上锁”

3.2 基于回放的方法：定期“复习”旧功课

3.3 基于参数高效微调（PEFT）的方法：动得少，忘得少

4. 自蒸馏技术详解：让模型成为自己的“老师”

4.1 自蒸馏的基本原理与损失函数设计

4.2 为什么自蒸馏有效？知识保存的“软目标”优势

4.3 实战配置：在LLM微调中集成自蒸馏

5. 进阶技巧与组合策略：构建更健壮的微调流程

5.1 自蒸馏与数据回放的协同

5.2 动态权重调整与课程学习

5.3 针对大模型特性的优化技巧

6. 效果评估与常见问题排查

6.1 评估指标与方案设计

6.2 实战问题排查清单

6.3 一个完整的评估案例：法律合同QA微调

最新新闻

日新闻

周新闻

月新闻

1. 项目概述：当大模型学会“新知识”时，它为何会“忘记”旧本领？

2. 灾难性遗忘的深层机制：不仅仅是覆盖那么简单

2.1 神经网络的可塑性与稳定性困境

2.2 从损失函数视角看遗忘

2.3 参数更新中的“敏感神经元”

3. 主流缓解策略全景：从正则化到架构改造

3.1 基于正则化的方法：给旧知识“上锁”

3.2 基于回放的方法：定期“复习”旧功课

3.3 基于参数高效微调（PEFT）的方法：动得少，忘得少

4. 自蒸馏技术详解：让模型成为自己的“老师”

4.1 自蒸馏的基本原理与损失函数设计

4.2 为什么自蒸馏有效？知识保存的“软目标”优势

4.3 实战配置：在LLM微调中集成自蒸馏

5. 进阶技巧与组合策略：构建更健壮的微调流程

5.1 自蒸馏与数据回放的协同

5.2 动态权重调整与课程学习

5.3 针对大模型特性的优化技巧

6. 效果评估与常见问题排查

6.1 评估指标与方案设计

6.2 实战问题排查清单

6.3 一个完整的评估案例：法律合同QA微调

相关新闻

Java 14三大预览特性实战：Switch表达式、模式匹配与Records

Ubuntu 20.04 配置 MongoDB 远程访问三步法：bindIp、ufw、权限

Redux Beacon：基于 Redux 中间件的行为埋点方案

最新新闻

日新闻

周新闻

月新闻