chunk重叠overlap设多少：切断上下文的坑

2026/6/30 2:36:03

一句话先说清：RAG 切文档的时候，相邻两块之间要不要留一段重叠（overlap），留多少，这事比很多人想的重要。重叠太小，一句关键的话被生生切两半，两边都召回不全；重叠太大，向量库里全是冗余，检索还容易把好几块几乎一样的段落一起捞回来。我拿一份运维手册实测过一组，今天把怎么定 overlap 讲透。

不留重叠会怎样

先看反面教材。我最早图省事，按固定 500 字硬切，零重叠。结果有个问题死活答不对：「数据库主从切换后，缓存要不要手动刷新」。扒日志发现，手册里这句话的答案——「主从切换后需手动执行 flush，否则会读到旧数据」——刚好被切在两个 chunk 的接缝上。前半块「主从切换后需手动」，后半块「执行 flush 否则读到旧数据」，单看哪一块向量都跟问题不够贴，两块都没进 top5。

这就是零重叠的典型坑：语义被物理切割截断。一个完整的因果、一组步骤、一个定义，被字数硬生生劈开，两半各自残缺。

overlap 怎么定，给个实测参考

我固定 chunk 大小 500 字，只动 overlap，拿同一份标注集量 recall@5：

overlap	recall@5	向量库膨胀	备注
0	0.78	基准	接缝处的答案捞不全
50（10%）	0.88	+11%	性价比最高
100（20%）	0.91	+25%	还在涨但变缓
200（40%）	0.92	+60%	几乎不涨了，纯浪费

规律很清楚：从 0 加到 10%~20%，召回明显往上走；再往上加，收益迅速摊平，存储和检索成本却线性涨。所以我现在的默认值就是chunk 大小的 15% 左右，比如 500 字的块留 75 字重叠，按句子边界对齐，别从字中间切。

def split_with_overlap(text, size=500, overlap=75): chunks, start = [], 0 while start < len(text): end = start + size chunks.append(text[start:end]) start = end - overlap # 回退 overlap，制造重叠 return chunks