Chunking — Glosariusz

Synonimy: dzielenie tekstu na chunki, segmentacja dokumentów, dzielenie pasaży, strategia chunków

Chunking to miejsce, w którym jakość retrieval cicho się wygrywa albo przegrywa. Strategią może być stałe okno tokenów, nakładające się okno przesuwne albo granice podążające za strukturą semantyczną, taką jak nagłówki i sekcje. Każdy chunk jest osadzany i indeksowany z metadanymi, źródłem, językiem, znacznikami czasu i hashem treści, aby retrieval mógł filtrować, deduplikować i odświeżać przyrostowo. Ponieważ każda downstreamowa odpowiedź jest tylko tak dobra jak pasaż, który pobierze, przemyślany chunking jest warunkiem odpowiedzi ugruntowanych i możliwych do cytowania.

Co tworzy dobry chunk?

Dobry chunk jest semantycznie samowystarczalny, ma rozmiar, który nie przecina pojedynczego faktu granicą, i niesie stabilne metadane, aby można go było wiarygodnie filtrować, odświeżać i cytować.

Jak chunking wpływa na jakość odpowiedzi?

Zbyt duże chunki rozmywają trafność i marnują tokeny, a zbyt małe łamią kontekst i tracą znaczenie. Wybór granic bezpośrednio kształtuje recall oraz ugruntowanie generowanych odpowiedzi.

Powiązane pojęcia

Zacznij bezpłatnie Porozmawiaj ze sprzedażą

Przeglądaj wszystkie pojęcia ze słownika

Najczęściej zadawane pytania

Powiązane pojęcia