Saltar para o conteúdo
Glossário

Fragmentação

A fragmentação é o processo de dividir documentos fonte em unidades de recuperação menores antes de incorporá-los. O tamanho do fragmento e a estratégia de limites determinam com que precisão um recuperador pode localizar um fato relevante, equilibrando abrangência, precisão e custo de incorporação em uma base de conhecimento.

Sinónimos: text chunking, document segmentation, passage splitting, chunk strategy

A fragmentação é onde a qualidade da recuperação é silenciosamente ganha ou perdida. A estratégia pode ser uma janela fixa de tokens, uma janela deslizante com sobreposição ou limites que seguem a estrutura semântica, como títulos e seções. Cada fragmento é incorporado e indexado com metadados — fonte, idioma, carimbos de data e hora, hash de conteúdo — para que a recuperação possa filtrar, desduplicar e atualizar de forma incremental. Como cada resposta posterior é tão boa quanto o trecho que recupera, a fragmentação deliberada é um pré-requisito para respostas fundamentadas e citáveis.

Perguntas frequentes

O que torna um fragmento bom?
Um bom fragmento é semanticamente autônomo, dimensionado de modo que um único fato não fique dividido entre limites, e carrega metadados estáveis para que possa ser filtrado, atualizado e citado de forma confiável.
Como a fragmentação afeta a qualidade das respostas?
Fragmentos grandes demais diluem a relevância e desperdiçam tokens, enquanto os pequenos demais fragmentam o contexto e perdem significado. As escolhas de limites moldam diretamente a abrangência e a fundamentação das respostas geradas.