İçeriğe atla
Sözlük

Parçalama

Parçalama, kaynak belgeleri gömmeden önce daha küçük geri getirme birimlerine bölme sürecidir. Parça boyutu ve sınır stratejisi, bir geri getiricinin ilgili bir gerçeği ne kadar kesin konumlandırabileceğini belirler; bir bilgi tabanı boyunca anımsama, kesinlik ve gömme maliyetini dengeler.

Eşanlamlılar: text chunking, document segmentation, passage splitting, chunk strategy

Parçalama, geri getirme kalitesinin sessizce kazanıldığı veya yitirildiği yerdir. Strateji, sabit bir token penceresi, örtüşen bir kayan pencere veya başlıklar ve bölümler gibi anlamsal yapıyı izleyen sınırlar olabilir. Her parça meta verilerle — kaynak, dil, zaman damgaları, içerik karması — gömülür ve dizinlenir; böylece geri getirme artımlı olarak filtreleyebilir, yinelenenleri kaldırabilir ve yenileyebilir. Her aşağı akış yanıt, ancak geri getirdiği pasaj kadar iyi olduğundan, kasıtlı parçalama, temellendirilmiş ve alıntılanabilir yanıtların ön koşuludur.

Sıkça sorulan sorular

İyi bir parçayı ne oluşturur?
İyi bir parça anlamsal olarak kendine yeter, tek bir gerçek sınırlar arasında bölünmeyecek boyuttadır ve kararlı meta veriler taşır; böylece güvenilir biçimde filtrelenebilir, yenilenebilir ve alıntılanabilir.
Parçalama yanıt kalitesini nasıl etkiler?
Aşırı büyük parçalar ilgililiği seyreltir ve token israf eder, aşırı küçük parçalar ise bağlamı parçalar ve anlamı yitirir. Sınır seçimleri, üretilen yanıtların anımsamasını ve temellendirmesini doğrudan biçimlendirir.