Fragmentação
A fragmentação é o processo de dividir documentos fonte em unidades de recuperação menores antes de incorporá-los. O tamanho do fragmento e a estratégia de limites determinam com que precisão um recuperador pode localizar um fato relevante, equilibrando abrangência, precisão e custo de incorporação em uma base de conhecimento.
Sinónimos: text chunking, document segmentation, passage splitting, chunk strategy
A fragmentação é onde a qualidade da recuperação é silenciosamente ganha ou perdida. A estratégia pode ser uma janela fixa de tokens, uma janela deslizante com sobreposição ou limites que seguem a estrutura semântica, como títulos e seções. Cada fragmento é incorporado e indexado com metadados — fonte, idioma, carimbos de data e hora, hash de conteúdo — para que a recuperação possa filtrar, desduplicar e atualizar de forma incremental. Como cada resposta posterior é tão boa quanto o trecho que recupera, a fragmentação deliberada é um pré-requisito para respostas fundamentadas e citáveis.