콘텐츠로 건너뛰기
용어집

Embedding

Embedding은 텍스트, 이미지 또는 다른 데이터의 의미를 고차원 공간에서 나타내는 숫자 벡터입니다. 의미가 비슷한 항목은 서로 가까운 벡터를 만들기 때문에, 시스템은 정확한 일치가 아니라 의미적 유사성으로 콘텐츠를 비교, 군집화, 검색할 수 있습니다.

동의어: vector embedding, text embedding, semantic vector, dense representation

Embedding은 인간 언어와 유사도 수학 사이의 다리입니다. embedding 모델은 각 입력을 고정 길이 벡터로 매핑해 의미적으로 관련된 항목이 함께 모이게 하며, vector search, clustering, classification, deduplication을 가능하게 합니다. 검색 pipeline에서는 인덱싱된 chunk와 들어오는 query를 같은 모델로 embedding해야 거리가 의미를 갖습니다. embedding 모델이 공간을 정의하므로, 그 버전은 재현성과 통제된 재색인을 위해 추적할 가치가 있는 메타데이터입니다.

자주 묻는 질문

Embedding 모델 버전은 왜 중요한가요?
서로 다른 모델에서 나온 벡터는 비교할 수 없습니다. 각 embedding에 모델 버전을 저장하면 drift를 감지하고 embedding 모델을 업그레이드할 때 안전하게 재색인할 수 있습니다.
Embedding을 원래 텍스트로 되돌릴 수 있나요?
정확히는 아닙니다. 하지만 embedding은 민감한 정보를 노출할 수 있으므로, 그것이 나타내는 원본 콘텐츠와 동일한 tenant isolation과 access control을 상속해야 합니다.