Fragmentación
La fragmentación es el proceso de dividir los documentos fuente en unidades de recuperación más pequeñas antes de incrustarlas. El tamaño del fragmento y la estrategia de límites determinan con qué precisión un recuperador puede localizar un hecho relevante, equilibrando la exhaustividad, la precisión y el coste de incrustación en una base de conocimiento.
Sinónimos: text chunking, document segmentation, passage splitting, chunk strategy
La fragmentación es donde la calidad de la recuperación se gana o se pierde silenciosamente. La estrategia puede ser una ventana fija de tokens, una ventana deslizante con solapamiento o límites que sigan la estructura semántica, como encabezados y secciones. Cada fragmento se incrusta y se indexa con metadatos —fuente, idioma, marcas de tiempo, hash de contenido— para que la recuperación pueda filtrar, desduplicar y actualizar de forma incremental. Como cada respuesta posterior solo es tan buena como el pasaje que recupera, una fragmentación deliberada es un requisito previo para obtener respuestas fundamentadas y citables.