رفتن به محتوا
واژه‌نامه

Vector Search

Vector search محتوا را بر اساس معنا پیدا می‌کند، نه واژه‌های exact. متن به embeddingهای high-dimensional تبدیل می‌شود و similarity metric مانند cosine distance، vectorهای ذخیره‌شده را بر اساس نزدیکی به query vector رتبه‌بندی می‌کند و حتی وقتی keywordها match نمی‌شوند passageهای conceptually related را برمی‌گرداند.

مترادف‌ها: semantic search, similarity search, nearest-neighbor search, embedding search

Vector search نیروی semantic retrieval است: به‌جای match کردن stringها، معنا را match می‌کند. query به همان vector space محتوای index شده embedding می‌شود و index نزدیک‌ترین vectorها را بر اساس distance metric برمی‌گرداند. برای سریع ماندن در scale، سامانه‌های production از approximate nearest-neighbor index استفاده می‌کنند که trade-offهای tiny accuracy را برای برد latency بزرگ می‌پذیرد. vector search وقتی با keyword search در یک hybrid retriever همراه شود مؤثرتر است، چون identifierهای exact در matching صرفاً semantic گم نمی‌شوند.

پرسش‌های پرتکرار

embedding در vector search چیست؟
embedding یک vector عددی است که معنای یک قطعه متن را نمایش می‌دهد و توسط مدل embedding تولید می‌شود. متن‌هایی با معنای مشابه در vector space نزدیک هم قرار می‌گیرند.
approximate nearest neighbor (ANN) search چیست؟
ANN search مقدار کمی accuracy را با gainهای بزرگ speed معاوضه می‌کند و از index structure استفاده می‌کند تا similarity lookupها با رشد تعداد vectorهای ذخیره‌شده تا میلیون‌ها همچنان سریع بمانند.