Przejdź do treści
Glosariusz

Chunking

Chunking to proces dzielenia dokumentów źródłowych na mniejsze jednostki retrieval przed ich osadzeniem. Rozmiar chunka i strategia granic określają, jak precyzyjnie retriever może znaleźć istotny fakt, równoważąc recall, precyzję i koszt embeddingów w bazie wiedzy.

Synonimy: dzielenie tekstu na chunki, segmentacja dokumentów, dzielenie pasaży, strategia chunków

Chunking to miejsce, w którym jakość retrieval cicho się wygrywa albo przegrywa. Strategią może być stałe okno tokenów, nakładające się okno przesuwne albo granice podążające za strukturą semantyczną, taką jak nagłówki i sekcje. Każdy chunk jest osadzany i indeksowany z metadanymi, źródłem, językiem, znacznikami czasu i hashem treści, aby retrieval mógł filtrować, deduplikować i odświeżać przyrostowo. Ponieważ każda downstreamowa odpowiedź jest tylko tak dobra jak pasaż, który pobierze, przemyślany chunking jest warunkiem odpowiedzi ugruntowanych i możliwych do cytowania.

Najczęściej zadawane pytania

Co tworzy dobry chunk?
Dobry chunk jest semantycznie samowystarczalny, ma rozmiar, który nie przecina pojedynczego faktu granicą, i niesie stabilne metadane, aby można go było wiarygodnie filtrować, odświeżać i cytować.
Jak chunking wpływa na jakość odpowiedzi?
Zbyt duże chunki rozmywają trafność i marnują tokeny, a zbyt małe łamią kontekst i tracą znaczenie. Wybór granic bezpośrednio kształtuje recall oraz ugruntowanie generowanych odpowiedzi.