分塊 — 術語表

同義詞：text chunking, document segmentation, passage splitting, chunk strategy

Chunking 係 retrieval quality 靜靜贏或者輸嘅地方。Strategy 可以係 fixed token window、overlapping sliding window，或者跟隨 headings 同 sections 等 semantic structure 嘅 boundaries。每個 chunk 都會連 metadata 一齊 embedded 同 indexed — source、language、timestamps、content hash — 令 retrieval 可以 filter、deduplicate 同 incremental refresh。因為每個 downstream answer 嘅質素，只會同佢 retrieved 到嘅 passage 一樣好，所以有意識嘅 chunking 係 grounded、citable responses 嘅前提。

點先係一個好 chunk？

好 chunk 要語義上自成一體，大小要避免單一 fact 被 boundary 切開，並帶有穩定 metadata，方便可靠咁 filter、refresh 同 cite。

chunking 點影響答案質素？

過大嘅 chunks 會稀釋 relevance 同浪費 tokens；過細嘅 chunks 會切碎 context 同失去意思。Boundary choices 會直接塑造 recall 同 generated answers 嘅 groundedness。

分塊

常見問題

相關詞彙