分塊
Chunking 係將 source documents 喺 embedding 之前拆成較細嘅 retrieval units。Chunk size 同 boundary strategy 會決定 retriever 幾準確搵到 relevant fact,同時喺 knowledge base 入面平衡 recall、precision 同 embedding cost。
同義詞:text chunking, document segmentation, passage splitting, chunk strategy
Chunking 係 retrieval quality 靜靜贏或者輸嘅地方。Strategy 可以係 fixed token window、overlapping sliding window,或者跟隨 headings 同 sections 等 semantic structure 嘅 boundaries。每個 chunk 都會連 metadata 一齊 embedded 同 indexed — source、language、timestamps、content hash — 令 retrieval 可以 filter、deduplicate 同 incremental refresh。因為每個 downstream answer 嘅質素,只會同佢 retrieved 到嘅 passage 一樣好,所以有意識嘅 chunking 係 grounded、citable responses 嘅前提。
常見問題
點先係一個好 chunk?
好 chunk 要語義上自成一體,大小要避免單一 fact 被 boundary 切開,並帶有穩定 metadata,方便可靠咁 filter、refresh 同 cite。
chunking 點影響答案質素?
過大嘅 chunks 會稀釋 relevance 同浪費 tokens;過細嘅 chunks 會切碎 context 同失去意思。Boundary choices 會直接塑造 recall 同 generated answers 嘅 groundedness。