Chunking
Chunking to proces dzielenia dokumentów źródłowych na mniejsze jednostki retrieval przed ich osadzeniem. Rozmiar chunka i strategia granic określają, jak precyzyjnie retriever może znaleźć istotny fakt, równoważąc recall, precyzję i koszt embeddingów w bazie wiedzy.
Synonimy: dzielenie tekstu na chunki, segmentacja dokumentów, dzielenie pasaży, strategia chunków
Chunking to miejsce, w którym jakość retrieval cicho się wygrywa albo przegrywa. Strategią może być stałe okno tokenów, nakładające się okno przesuwne albo granice podążające za strukturą semantyczną, taką jak nagłówki i sekcje. Każdy chunk jest osadzany i indeksowany z metadanymi, źródłem, językiem, znacznikami czasu i hashem treści, aby retrieval mógł filtrować, deduplikować i odświeżać przyrostowo. Ponieważ każda downstreamowa odpowiedź jest tylko tak dobra jak pasaż, który pobierze, przemyślany chunking jest warunkiem odpowiedzi ugruntowanych i możliwych do cytowania.