콘텐츠로 건너뛰기
용어집

Vector Search

Vector search는 정확한 단어가 아니라 의미로 콘텐츠를 찾습니다. 텍스트는 고차원 embedding으로 변환되고, cosine distance 같은 similarity metric이 저장된 vector를 query vector와 얼마나 가까운지에 따라 순위화해, keyword가 일치하지 않아도 개념적으로 관련된 passage를 반환합니다.

동의어: semantic search, similarity search, nearest-neighbor search, embedding search

Vector search는 semantic retrieval을 구동합니다. 문자열을 매칭하는 대신 의미를 매칭합니다. query는 indexed content와 같은 vector space로 embedding되고, index는 distance metric에 따라 가장 가까운 vector를 반환합니다. scale에서도 빠르게 유지하기 위해 production system은 latency를 크게 줄이는 대신 아주 작은 accuracy trade-off를 받아들이는 approximate nearest-neighbor index를 사용합니다. vector search는 hybrid retriever에서 keyword search와 함께 사용할 때 가장 효과적입니다. 정확한 identifier가 순수 semantic matching에 사라지지 않기 때문입니다.

자주 묻는 질문

Vector search에서 embedding이란 무엇인가요?
Embedding은 embedding model이 만든 숫자 vector로, 텍스트 조각의 의미를 나타냅니다. 의미가 비슷한 텍스트는 vector space에서 가까운 위치에 놓입니다.
Approximate nearest neighbor (ANN) search란 무엇인가요?
ANN search는 저장된 vector 수가 수백만으로 늘어나도 similarity lookup이 빠르게 유지되도록 index structure를 사용하며, 큰 속도 향상을 위해 약간의 정확도를 교환합니다.