Saltar al contenido
Glosario

Fragmentación

La fragmentación es el proceso de dividir los documentos fuente en unidades de recuperación más pequeñas antes de incrustarlas. El tamaño del fragmento y la estrategia de límites determinan con qué precisión un recuperador puede localizar un hecho relevante, equilibrando la exhaustividad, la precisión y el coste de incrustación en una base de conocimiento.

Sinónimos: text chunking, document segmentation, passage splitting, chunk strategy

La fragmentación es donde la calidad de la recuperación se gana o se pierde silenciosamente. La estrategia puede ser una ventana fija de tokens, una ventana deslizante con solapamiento o límites que sigan la estructura semántica, como encabezados y secciones. Cada fragmento se incrusta y se indexa con metadatos —fuente, idioma, marcas de tiempo, hash de contenido— para que la recuperación pueda filtrar, desduplicar y actualizar de forma incremental. Como cada respuesta posterior solo es tan buena como el pasaje que recupera, una fragmentación deliberada es un requisito previo para obtener respuestas fundamentadas y citables.

Preguntas frecuentes

¿Qué hace que un fragmento sea bueno?
Un buen fragmento es semánticamente autónomo, tiene un tamaño tal que un único hecho no quede dividido entre límites y lleva metadatos estables para poder filtrarlo, actualizarlo y citarlo de forma fiable.
¿Cómo afecta la fragmentación a la calidad de las respuestas?
Los fragmentos demasiado grandes diluyen la relevancia y desperdician tokens, mientras que los demasiado pequeños fracturan el contexto y pierden significado. Las elecciones de límites moldean directamente la exhaustividad y la fundamentación de las respuestas generadas.