Parçalama, normalleştirilmiş ham sayfa içeriğini geri getirme birimlerine dönüştürür. Kötü seçimler maliyeti şişirir (çok fazla parça), recall’ı düşürür (aşırı büyük bloklar) veya hassasiyeti seyreltir (sınır kopmaları). Evrensel olarak en iyi bir yöntem yoktur; strateji, korpusun yapısına, oynaklığına ve sorgu desenlerine uyum sağlar. Bu kılavuz, üretim RAG hatları için tasarım uzayını, ödünleşimleri, değerlendirme iş akışını ve optimizasyon kollarını haritalar.
Parçalama neden önemli
Hedefler:
- İlgili olguların top‑k geri getirmede görünme olasılığını en üst düzeye çıkarmak.
- Üretilen yanıtların temellendirilmiş olması için anlamsal bütünlüğü korumak.
- Token kullanımını optimize etmek (kalıp metni tekrar tekrar gömmekten kaçınmak).
- Belirlenimci artımlı güncellemeleri mümkün kılmak (kararlı parça ID’leri).
Hizalanmamış parçalama şu şekilde ortaya çıkar: yüksek fazlalık, düşük Recall@k, sınırda halüsinasyon olguları, şişmiş embedding harcaması.
Sabit Pencere Parçalama
Basit N‑token pencereleri (örneğin 500 token). Artılar: belirlenimci, uygulaması kolay, kararlı güncelleme davranışı. Eksiler: sınırlar kavramların ortasından keser; budamayı azaltmak için fazlalıklı örtüşme gerekir → maliyet artışı. İhtiyatla kullanın: anlamsal sinyallerin güvenilmez olduğu heterojen veya kötü yapılandırılmış içerik için iyi bir başlangıç temelidir.
Örtüşen Kayan Pencereler
Örtüşme O ile pencere boyutu W (örneğin 500 / 50 token), sınırlarda olgu budamasını azaltır. ~%15’in üzerindeki örtüşme, recall kazanımlarında azalma sağlarken indeks boyutunu da büyütür. O’yu aşağı doğru ayarlamak için duplication_ratio = distinct_token_count / total_token_count’u izleyin.
Anlamsal Sınır Algılama
Yapısal sinyaller boyunca bölümlere ayırın: H2/H3 başlıkları, liste gruplamaları, kod blokları, tablo sınırları. Minimum/maksimum token sınırları uygulayın (çok küçük kardeşleri birleştirin, çok büyük bölümleri ayırın). Yararları: daha yüksek bütünlük, daha az örtüşme. Riskler: bozuk biçimli işaretleme, tutarsız başlık hiyerarşisi. Hiyerarşi onarımı + başlıklar yokken paragraf ayırmaya geri dönüş ile hafifletin.
Hiyerarşik Parçalama
İki katmanlı indeks: kaba bölüm embedding’leri (örneğin tüm bir eğitim bölümü) + ince taneli alt parçalar. Geri getirme akışı: kaba ANN → en iyi N bölümü süzme → bunların içinde ince geri getirme. Avantajlar: büyük korpuslar için küresel arama uzayını azaltır, gecikmeyi iyileştirir. Karmaşıklık: daha fazla hareketli parça, art arda puanlama mantığı gerekir.
Uyarlanır / Dinamik Parçalama
Parça boyutlarını yerel anlamsal yoğunluğa ve yapısal ipuçlarına göre ayarlayın. Örnek mantık: bir başlık bölümünden başlayın, >800 token ise → anlamsal benzerliğe göre puanlanan paragraf kümelerine göre ayırın; <120 token ise → konu sapması bir eşiği aşmadığı sürece bir sonraki kardeşle birleştirin. Bir embedding veya benzerlik ön geçişi gerektirir; daha iyi uzun vadeli geri getirme verimliliği karşılığında maliyeti alımda bir kez ödeyin.
embedding ile İlgili Hususlar
Meta verileri koruyun: token_count, model_version, content_hash. Budamadan kaçının — token’ları önceden hesaplayın ve model çağrısından önce ayırın. Yoğun modeller aşırı kalıp metinle bozulur; parçalamadan önce gezinme yapaylıklarını temizleyin. Düşük sinyalli parçaları (yeniden birleştirme adaylarını) ortaya çıkarmak için vector_density’yi (benzersiz terimler / token) izleyin.
Değerlendirme Yöntemleri
Strateji başına karşılaştırmalar:
| Metrik | Amaç |
|---|---|
| Recall@k | Olgu tutma |
| Precision@k | Bağlam gürültüsü |
| Parça Sayısı | Maliyet göstergesi |
| Yineleme Oranı | Örtüşme ayarı |
| Parça Başına Ort. Token | Pencere kullanımı |
| Gecikme (Geri getirme) | İndeks verimliliği |
Bir altın sorgu seti üzerinde çalıştırın; bir stratejiyi yalnızca recall kazanımları maliyet ve gecikme farklarından ağır basarsa benimseyin.
Uygulama El Kitabı
- Temel: sabit 500 + %10 örtüşme; karşılaştırmaları toplayın.
- Anlamsal Sınırları Tanıtın: başlıkların güvenilir olduğu yerlerde pencereleri değiştirin; yeniden ölçün.
- Korpus >250k parça ise veya gecikme hedefi aşıyorsa Hiyerarşik Katman ekleyin.
- Yüksek varyanslı bölüm boyutları için Uyarlanır mantığı dağıtın.
- Üç Aylık Yeniden Değerlendirme: kalite deltası başına maliyeti yeni model yeteneklerine karşı karşılaştırın.
Geri alma için her yinelemede parça manifestosu diff’ini saklayın.
Önemli Çıkarımlar
- Anlamsal sınırlar hassasiyet/maliyet açısından genellikle saf sabit pencereleri geçer.
- Örtüşme bir kadrandır — yinelemeyi ölçün, tahmin etmeyin.
- Hiyerarşik geri getirme, doğrusal gecikme büyümesi olmadan ölçeklenmeye yardımcı olur.
- Kararlı parça ID’leri, güvenli artımlı embedding yenilemesini sağlar.
- Strateji değişikliklerini kod dağıtımları gibi değerlendirin: karşılaştırma, kıyaslama, günlükleme.