Ruka hadi kwenye maudhui
Kamusi

Chunking

Chunking ni mchakato wa kugawa hati chanzo kuwa vitengo vidogo vya retrieval kabla ya kuzi-embed. Ukubwa wa chunk na mkakati wa mipaka huamua jinsi retriever anavyoweza kupata ukweli unaohusika kwa usahihi, akilinganisha recall, precision, na gharama ya embedding katika knowledge base.

Visawe: text chunking, document segmentation, passage splitting, chunk strategy

Chunking ni mahali ambapo ubora wa retrieval hushinda au kupotea kimya kimya. Mkakati unaweza kuwa dirisha la tokens lisilobadilika, dirisha linalosogea kwa overlap, au mipaka inayofuata muundo wa maana kama vichwa na sehemu. Kila chunk hu-embed-iwa na kuwekwa kwenye index pamoja na metadata - chanzo, lugha, mihuri ya muda, content hash - ili retrieval iweze kuchuja, kuondoa marudio, na kusasisha hatua kwa hatua. Kwa sababu kila jibu la baadaye ni zuri tu kadiri passage iliyopatikana ilivyo nzuri, chunking ya makusudi ni sharti la majibu yenye msingi na yanayoweza kunukuliwa.

Maswali yanayoulizwa mara kwa mara

Chunk nzuri ina sifa gani?
Chunk nzuri ina maana inayojitosheleza, ina ukubwa ambao haukatishi ukweli mmoja katikati ya mipaka, na hubeba metadata thabiti ili ichujwe, isasishwe, na kunukuliwa kwa kutegemewa.
Chunking inaathirije ubora wa majibu?
Chunks kubwa kupita kiasi hupunguza uhusika na kupoteza tokens, huku chunks ndogo sana zikivunja muktadha na maana. Chaguo za mipaka huunda moja kwa moja recall na namna majibu yaliyotengenezwa yanavyoegemezwa kwenye ushahidi.