İçeriğe atla

RAG için Parçalama Stratejileri

Web sitesi RAG'i için yüksek hassasiyetli parçalama tasarımı: sabit, anlamsal, hiyerarşik, uyarlanır stratejiler ve değerlendirme.

chunking • rag • retrieval • embeddings

Parçalama, normalleştirilmiş ham sayfa içeriğini geri getirme birimlerine dönüştürür. Kötü seçimler maliyeti şişirir (çok fazla parça), recall’ı düşürür (aşırı büyük bloklar) veya hassasiyeti seyreltir (sınır kopmaları). Evrensel olarak en iyi bir yöntem yoktur; strateji, korpusun yapısına, oynaklığına ve sorgu desenlerine uyum sağlar. Bu kılavuz, üretim RAG hatları için tasarım uzayını, ödünleşimleri, değerlendirme iş akışını ve optimizasyon kollarını haritalar.

Parçalama neden önemli

Hedefler:

  • İlgili olguların top‑k geri getirmede görünme olasılığını en üst düzeye çıkarmak.
  • Üretilen yanıtların temellendirilmiş olması için anlamsal bütünlüğü korumak.
  • Token kullanımını optimize etmek (kalıp metni tekrar tekrar gömmekten kaçınmak).
  • Belirlenimci artımlı güncellemeleri mümkün kılmak (kararlı parça ID’leri).

Hizalanmamış parçalama şu şekilde ortaya çıkar: yüksek fazlalık, düşük Recall@k, sınırda halüsinasyon olguları, şişmiş embedding harcaması.

Sabit Pencere Parçalama

Basit N‑token pencereleri (örneğin 500 token). Artılar: belirlenimci, uygulaması kolay, kararlı güncelleme davranışı. Eksiler: sınırlar kavramların ortasından keser; budamayı azaltmak için fazlalıklı örtüşme gerekir → maliyet artışı. İhtiyatla kullanın: anlamsal sinyallerin güvenilmez olduğu heterojen veya kötü yapılandırılmış içerik için iyi bir başlangıç temelidir.

Örtüşen Kayan Pencereler

Örtüşme O ile pencere boyutu W (örneğin 500 / 50 token), sınırlarda olgu budamasını azaltır. ~%15’in üzerindeki örtüşme, recall kazanımlarında azalma sağlarken indeks boyutunu da büyütür. O’yu aşağı doğru ayarlamak için duplication_ratio = distinct_token_count / total_token_count’u izleyin.

Anlamsal Sınır Algılama

Yapısal sinyaller boyunca bölümlere ayırın: H2/H3 başlıkları, liste gruplamaları, kod blokları, tablo sınırları. Minimum/maksimum token sınırları uygulayın (çok küçük kardeşleri birleştirin, çok büyük bölümleri ayırın). Yararları: daha yüksek bütünlük, daha az örtüşme. Riskler: bozuk biçimli işaretleme, tutarsız başlık hiyerarşisi. Hiyerarşi onarımı + başlıklar yokken paragraf ayırmaya geri dönüş ile hafifletin.

Hiyerarşik Parçalama

İki katmanlı indeks: kaba bölüm embedding’leri (örneğin tüm bir eğitim bölümü) + ince taneli alt parçalar. Geri getirme akışı: kaba ANN → en iyi N bölümü süzme → bunların içinde ince geri getirme. Avantajlar: büyük korpuslar için küresel arama uzayını azaltır, gecikmeyi iyileştirir. Karmaşıklık: daha fazla hareketli parça, art arda puanlama mantığı gerekir.

Uyarlanır / Dinamik Parçalama

Parça boyutlarını yerel anlamsal yoğunluğa ve yapısal ipuçlarına göre ayarlayın. Örnek mantık: bir başlık bölümünden başlayın, >800 token ise → anlamsal benzerliğe göre puanlanan paragraf kümelerine göre ayırın; <120 token ise → konu sapması bir eşiği aşmadığı sürece bir sonraki kardeşle birleştirin. Bir embedding veya benzerlik ön geçişi gerektirir; daha iyi uzun vadeli geri getirme verimliliği karşılığında maliyeti alımda bir kez ödeyin.

embedding ile İlgili Hususlar

Meta verileri koruyun: token_count, model_version, content_hash. Budamadan kaçının — token’ları önceden hesaplayın ve model çağrısından önce ayırın. Yoğun modeller aşırı kalıp metinle bozulur; parçalamadan önce gezinme yapaylıklarını temizleyin. Düşük sinyalli parçaları (yeniden birleştirme adaylarını) ortaya çıkarmak için vector_density’yi (benzersiz terimler / token) izleyin.

Değerlendirme Yöntemleri

Strateji başına karşılaştırmalar:

MetrikAmaç
Recall@kOlgu tutma
Precision@kBağlam gürültüsü
Parça SayısıMaliyet göstergesi
Yineleme OranıÖrtüşme ayarı
Parça Başına Ort. TokenPencere kullanımı
Gecikme (Geri getirme)İndeks verimliliği

Bir altın sorgu seti üzerinde çalıştırın; bir stratejiyi yalnızca recall kazanımları maliyet ve gecikme farklarından ağır basarsa benimseyin.

Uygulama El Kitabı

  1. Temel: sabit 500 + %10 örtüşme; karşılaştırmaları toplayın.
  2. Anlamsal Sınırları Tanıtın: başlıkların güvenilir olduğu yerlerde pencereleri değiştirin; yeniden ölçün.
  3. Korpus >250k parça ise veya gecikme hedefi aşıyorsa Hiyerarşik Katman ekleyin.
  4. Yüksek varyanslı bölüm boyutları için Uyarlanır mantığı dağıtın.
  5. Üç Aylık Yeniden Değerlendirme: kalite deltası başına maliyeti yeni model yeteneklerine karşı karşılaştırın.

Geri alma için her yinelemede parça manifestosu diff’ini saklayın.

Önemli Çıkarımlar

  • Anlamsal sınırlar hassasiyet/maliyet açısından genellikle saf sabit pencereleri geçer.
  • Örtüşme bir kadrandır — yinelemeyi ölçün, tahmin etmeyin.
  • Hiyerarşik geri getirme, doğrusal gecikme büyümesi olmadan ölçeklenmeye yardımcı olur.
  • Kararlı parça ID’leri, güvenli artımlı embedding yenilemesini sağlar.
  • Strateji değişikliklerini kod dağıtımları gibi değerlendirin: karşılaştırma, kıyaslama, günlükleme.