本文へスキップ
用語集

埋め込み

埋め込みとは、テキスト・画像・その他のデータの意味を高次元空間で表現する数値ベクトルです。意味が近い項目は互いに近接するベクトルを生み、これによりシステムは完全一致ではなく意味的類似度でコンテンツを比較・クラスタリング・検索できます。

同義語: vector embedding, text embedding, semantic vector, dense representation

埋め込みは、人間の言語と類似度の数学との架け橋です。埋め込みモデルは各入力を固定長ベクトルへ写像し、意味的に関連する項目が一緒にクラスタ化されるようにして、ベクトル検索・クラスタリング・分類・重複排除を可能にします。検索パイプラインでは、索引付けされたチャンクと入力クエリの双方を同じモデルで埋め込み、距離が意味を持つようにします。埋め込みモデルが空間を定義するため、そのバージョンは再現性と制御された再索引のために追跡する価値のあるメタデータです。

よくある質問

埋め込みモデルのバージョンはなぜ重要ですか?
異なるモデルのベクトルは比較できません。各埋め込みとともにモデルバージョンを保存しておくと、ドリフトを検出でき、埋め込みモデルをアップグレードする際に安全に再索引できます。
埋め込みは元のテキストへ可逆ですか?
厳密には違いますが、埋め込みは機微な情報を漏らしうるため、それが表現するソースコンテンツと同じテナント分離とアクセス制御を継承すべきです。