Chunking
Chunking ni mchakato wa kugawa hati chanzo kuwa vitengo vidogo vya retrieval kabla ya kuzi-embed. Ukubwa wa chunk na mkakati wa mipaka huamua jinsi retriever anavyoweza kupata ukweli unaohusika kwa usahihi, akilinganisha recall, precision, na gharama ya embedding katika knowledge base.
Visawe: text chunking, document segmentation, passage splitting, chunk strategy
Chunking ni mahali ambapo ubora wa retrieval hushinda au kupotea kimya kimya. Mkakati unaweza kuwa dirisha la tokens lisilobadilika, dirisha linalosogea kwa overlap, au mipaka inayofuata muundo wa maana kama vichwa na sehemu. Kila chunk hu-embed-iwa na kuwekwa kwenye index pamoja na metadata - chanzo, lugha, mihuri ya muda, content hash - ili retrieval iweze kuchuja, kuondoa marudio, na kusasisha hatua kwa hatua. Kwa sababu kila jibu la baadaye ni zuri tu kadiri passage iliyopatikana ilivyo nzuri, chunking ya makusudi ni sharti la majibu yenye msingi na yanayoweza kunukuliwa.