大模型面试必备11-InfoNCE loss 和 Cross Entropy Loss

2026/6/16 12:48:17

面试必考：Cross Entropy Loss 与 InfoNCE Loss 到底有什么区别？

在深度学习的损失函数家族中，Cross Entropy Loss（交叉熵损失）绝对是老大哥，它统治了传统的分类任务。但在近年来爆火的大语言模型（LLM）、CLIP 图文匹配、推荐系统等领域，我们却经常看到一个新面孔：InfoNCE Loss。

为什么这些前沿模型纷纷抛弃传统的交叉熵，转而拥抱 InfoNCE？今天我们就用最通俗的语言，彻底讲透这两者的区别。

一、核心逻辑：做单选题 vs. 找不同

要理解这两个损失函数，我们可以把它们想象成两种不同的考试方式。

1. Cross Entropy Loss：做单项选择题

交叉熵是典型的“有监督学习”思维。它要求我们必须提前知道所有可能的选项（类别标签）。

怎么考：给定一张图片（比如猫），模型需要计算出它是狗、猫、鸟等所有已知类别的概率。然后通过公式让“猫”的概率无限逼近 100%，其他类别的概率逼近 0。
公式特征：LCE=−∑i=1Cyilog⁡(pi)\mathcal{L}_{CE} = -\sum_{i=1}^{C}y_i\log(p_i)LCE=−∑i=1Cyilog(pi)。注意这里的求和符号是CCC，代表必须遍历所有类别。
痛点：当你的类别只有 10 个（比如数字 0-9分类）时，它很好用。但如果在大语言模型里，词表有 10 万个词；或者在推荐系统里，商品有上百万个，这时候还要去计算所有类别的概率，计算量会直接爆炸！

2. InfoNCE Loss：玩“找不同”游戏 (对比学习)

InfoNCE 是对比学习（Contrastive Learning）的核心。它的思路非常巧妙：既然算所有类别的概率太累，那我就把它变成一个“二分类”问题。

怎么考：给定一个目标样本（比如一张猫的图），我再给你配对一张同款猫的图（正样本），和随便抽取的 10 张狗/车/树的图（负样本）。模型不需要知道它们叫什么名字，只要学会拉近目标和正样本的距离，推远目标和这 10 个负样本的距离就可以了。
公式特征：

L=−1N∑i=1Nlog⁡exp⁡(sim(qi,ki+)/τ)exp⁡(sim(qi,ki+)/τ)+∑j=1Kexp⁡(sim(qi,ki,j−)/τ)\mathcal{L} = -\frac{1}{N}\sum_{i=1}^{N}\log\frac{\exp(sim(q_i, k_{i+})/\tau)}{\exp(sim(q_i, k_{i+})/\tau) + \sum_{j=1}^{K}\exp(sim(q_i, k_{i, j}^-)/\tau)}L=−N1i=1∑Nlogexp(sim(qi,ki+)/τ)+∑j=1Kexp(sim(qi,ki,j−)/τ)exp(sim(qi,ki+)/τ)

注意分母里的求和符号是KKK，代表只需要计算KKK个负样本，大大降低了计算量。

二、三大维度深度对比 (面试高频点)

在面试中，如果被问到两者的区别，你可以按照以下三个维度展开，体现你的专业深度：

维度一：学习目标（特征分布的不同）

Cross Entropy (类别极化)：强制同类样本向固定的类别中心“坍缩”。训练出的特征高度聚集，不同类严格分离，但特征空间本身的多样性和细节信息被牺牲了。
InfoNCE (对齐与均匀分布)：它要求满足两个特性：
Alignment（对齐性）：正样本对（如相似的图文）紧密聚合。
Uniformity（均匀性）：负样本对不仅要推远，还要在整个特征空间中均匀分布，避免模型偷懒导致特征坍缩。这使得 InfoNCE 能更好地保留数据的细粒度语义和多样性。

维度二：数据依赖（标签成本）

Cross Entropy：严重依赖高质量的人工强标签。没有提前定义好的类别，就无法训练。
InfoNCE：完美适配自监督/无监督学习。它不需要人工打标签，完全利用数据自身的关联构造正负样本（例如：将同一张图剪裁两份作为正样本；一张图和它的描述文本作为正样本）。

维度三：计算效率

Cross Entropy：面临海量类别（如大模型词表、千万级商品库）时，全局 Softmax 会导致性能瓶颈。
InfoNCE：通过负采样（Negative Sampling）策略，仅需选取少量负样本（K≪CK \ll CK≪C）即可进行训练，是处理高维大规模匹配任务的唯一解。

三、总结：何时用谁？

用 Cross Entropy：任务明确，分类数量有限（比如判断图片是猫、狗、还是猪），且有充足的人工标注数据。
用 InfoNCE：面临大规模预训练、图文匹配（CLIP）、推荐系统或自监督学习时。因为在这些场景下，“每个物品/人物/Token 本身就是一个独立的类别”，类别数接近无限，这时候“找不同”比“做单选”高效得多。

一句话面试必杀技：
“Cross Entropy 侧重于通过全类别遍历让特征极化对齐，强依赖人工标签；而 InfoNCE 是对比学习的核心，通过局部负采样机制，不仅摆脱了强标签依赖，还能迫使特征在空间中保持均匀分布（Uniformity），是解决超大类别分类和自监督表征学习的利器。”