콘텐츠로 건너뛰기
용어집

Chunking

Chunking은 원본 문서를 embedding하기 전에 더 작은 검색 단위로 나누는 과정입니다. chunk 크기와 경계 전략은 retriever가 관련 사실을 얼마나 정밀하게 찾을 수 있는지를 결정하며, knowledge base 전체에서 recall, precision, embedding 비용의 균형을 맞춥니다.

동의어: text chunking, document segmentation, passage splitting, chunk strategy

Chunking은 검색 품질이 조용히 결정되는 지점입니다. 전략은 고정 token 창, 겹치는 sliding window, 또는 제목과 섹션 같은 의미 구조를 따르는 경계일 수 있습니다. 각 chunk는 source, language, timestamp, content hash 같은 메타데이터와 함께 embedding되고 인덱싱되어, 검색이 필터링, 중복 제거, 증분 갱신을 할 수 있게 합니다. downstream 답변은 검색한 passage만큼만 좋기 때문에, 의도적인 chunking은 근거 있고 인용 가능한 응답의 전제 조건입니다.

자주 묻는 질문

좋은 chunk는 무엇인가요?
좋은 chunk는 의미적으로 독립적이고, 하나의 사실이 경계 사이에서 갈라지지 않을 크기이며, 안정적인 메타데이터를 가져 필터링, 갱신, 인용을 신뢰성 있게 할 수 있습니다.
Chunking은 답변 품질에 어떤 영향을 주나요?
너무 큰 chunk는 관련성을 희석하고 token을 낭비하며, 너무 작은 chunk는 맥락을 깨뜨려 의미를 잃게 합니다. 경계 선택은 recall과 생성 답변의 grounding을 직접 형성합니다.