跳到内容
术语表

分块

分块是在嵌入之前将源文档拆分为更小检索单元的过程。分块大小和边界策略决定了检索器能够多精确地定位相关事实,在知识库范围内权衡召回率、精确率和嵌入成本。

同义词:text chunking, document segmentation, passage splitting, chunk strategy

分块是检索质量被悄然赢得或失去的地方。策略可以是固定的 token 窗口、有重叠的滑动窗口,或遵循标题和章节等语义结构的边界。每个分块都连同元数据——来源、语言、时间戳、内容哈希——一起被嵌入和索引,以便检索能够增量地筛选、去重和刷新。由于每个下游答案的好坏取决于它检索到的段落,刻意的分块是获得有据可依、可引用答案的前提。

常见问题

什么样的分块才算好?
好的分块在语义上自成一体,其大小使单个事实不会被跨边界拆分,并带有稳定的元数据,以便能够可靠地被筛选、刷新和引用。
分块如何影响答案质量?
过大的分块会稀释相关性并浪费 token,而过小的分块则会割裂上下文并丢失含义。边界的选择直接塑造召回率和所生成答案的接地性。