Parçalama
Parçalama, kaynak belgeleri gömmeden önce daha küçük geri getirme birimlerine bölme sürecidir. Parça boyutu ve sınır stratejisi, bir geri getiricinin ilgili bir gerçeği ne kadar kesin konumlandırabileceğini belirler; bir bilgi tabanı boyunca anımsama, kesinlik ve gömme maliyetini dengeler.
Eşanlamlılar: text chunking, document segmentation, passage splitting, chunk strategy
Parçalama, geri getirme kalitesinin sessizce kazanıldığı veya yitirildiği yerdir. Strateji, sabit bir token penceresi, örtüşen bir kayan pencere veya başlıklar ve bölümler gibi anlamsal yapıyı izleyen sınırlar olabilir. Her parça meta verilerle — kaynak, dil, zaman damgaları, içerik karması — gömülür ve dizinlenir; böylece geri getirme artımlı olarak filtreleyebilir, yinelenenleri kaldırabilir ve yenileyebilir. Her aşağı akış yanıt, ancak geri getirdiği pasaj kadar iyi olduğundan, kasıtlı parçalama, temellendirilmiş ve alıntılanabilir yanıtların ön koşuludur.