Saltar al contenido
Glosario

Incrustación

Una incrustación es un vector numérico que representa el significado de un texto, una imagen u otros datos en un espacio de alta dimensión. Los elementos con significado similar producen vectores que quedan próximos entre sí, lo que permite a los sistemas comparar, agrupar y recuperar contenido por similitud semántica en lugar de por coincidencias exactas.

Sinónimos: vector embedding, text embedding, semantic vector, dense representation

Las incrustaciones son el puente entre el lenguaje humano y la matemática de la similitud. Un modelo de incrustación asigna cada entrada a un vector de longitud fija de modo que los elementos semánticamente relacionados se agrupen, lo que habilita la búsqueda vectorial, la agrupación, la clasificación y la desduplicación. En una canalización de recuperación, tanto los fragmentos indexados como la consulta entrante se incrustan con el mismo modelo para que las distancias sean significativas. Como el modelo de incrustación define el espacio, su versión es un metadato que vale la pena rastrear para la reproducibilidad y la reindexación controlada.

Preguntas frecuentes

¿Por qué importa la versión del modelo de incrustación?
Los vectores de modelos diferentes no son comparables. Almacenar la versión del modelo con cada incrustación permite detectar desviaciones y reindexar de forma segura cuando se actualiza el modelo de incrustación.
¿Las incrustaciones son reversibles al texto original?
No exactamente, pero las incrustaciones pueden filtrar información sensible, por lo que deberían heredar el mismo aislamiento de inquilinos y los mismos controles de acceso que el contenido fuente que representan.