Saltar para o conteúdo
Glossário

Incorporação

Uma incorporação é um vetor numérico que representa o significado de um texto, imagem ou outros dados em um espaço de alta dimensão. Itens com significado semelhante produzem vetores que ficam próximos uns dos outros, o que permite aos sistemas comparar, agrupar e recuperar conteúdo por similaridade semântica em vez de correspondências exatas.

Sinónimos: vector embedding, text embedding, semantic vector, dense representation

As incorporações são a ponte entre a linguagem humana e a matemática da similaridade. Um modelo de incorporação mapeia cada entrada para um vetor de comprimento fixo de modo que itens semanticamente relacionados se agrupem, habilitando a busca vetorial, o agrupamento, a classificação e a desduplicação. Em um pipeline de recuperação, tanto os fragmentos indexados quanto a consulta recebida são incorporados com o mesmo modelo para que as distâncias sejam significativas. Como o modelo de incorporação define o espaço, sua versão é um metadado que vale a pena rastrear para reprodutibilidade e reindexação controlada.

Perguntas frequentes

Por que a versão do modelo de incorporação importa?
Vetores de modelos diferentes não são comparáveis. Armazenar a versão do modelo com cada incorporação permite detectar desvios e reindexar com segurança quando você atualiza o modelo de incorporação.
As incorporações são reversíveis ao texto original?
Não exatamente, mas as incorporações podem vazar informações sensíveis, então devem herdar o mesmo isolamento de inquilino e os mesmos controles de acesso do conteúdo fonte que representam.