跳至內容
術語表

嵌入

Embedding 係一個 numeric vector,用高維空間代表 text、images 或其他 data 嘅意思。意思相近嘅 items 會產生位置接近嘅 vectors,令 systems 可以按 semantic similarity 比較、cluster 同 retrieve content,而唔係只靠 exact matches。

同義詞:vector embedding, text embedding, semantic vector, dense representation

Embeddings 係人類語言同 similarity math 之間嘅橋樑。Embedding model 會將每個 input 映射成固定長度 vector,令語義相關嘅 items 聚埋一齊,支援 vector search、clustering、classification 同 deduplication。喺 retrieval pipeline 入面,indexed chunks 同 incoming query 都要用同一個 model embed,咁 distances 先有意義。因為 embedding model 定義咗個 space,所以佢嘅 version 係值得追蹤嘅 metadata,支援 reproducibility 同 controlled reindexing。

常見問題

點解 embedding model version 重要?
唔同 model 產生嘅 vectors 唔可以直接比較。將 model version 同每個 embedding 一齊儲存,可以偵測 drift,並喺升級 embedding model 時安全 reindex。
embeddings 可以還原返原文嗎?
唔可以完全還原,但 embeddings 可能洩漏敏感資訊,所以應該繼承同 source content 一樣嘅 tenant isolation 同 access controls。