కంటెంట్‌కు వెళ్లండి
పదకోశం

Chunking

Chunking అనేది source documents ను embedding చేయడానికి ముందు చిన్న retrieval units గా విభజించే ప్రక్రియ. chunk size మరియు boundary strategy knowledge base లో recall, precision, embedding cost ను balance చేస్తూ retriever సంబంధిత fact ను ఎంత ఖచ్చితంగా గుర్తించగలదో నిర్ణయిస్తాయి.

పర్యాయపదాలు: text chunking, document segmentation, passage splitting, chunk strategy

Chunking అనేది retrieval quality నిశ్శబ్దంగా గెలిచే లేదా ఓడిపోయే స్థలం. Strategy fixed token window అయి ఉండవచ్చు, overlapping sliding window అయి ఉండవచ్చు, లేదా headings, sections వంటి semantic structure ను అనుసరించే boundaries అయి ఉండవచ్చు. ప్రతి chunk source, language, timestamps, content hash వంటి metadata తో embedded మరియు indexed అవుతుంది; retrieval filter, deduplicate, incrementally refresh చేయగలదు. Downstream answer దాని retrieve చేసిన passage ఎంత మంచిదో అంతే మంచిది కాబట్టి, deliberate chunking grounded, citable responses కు prerequisite.

తరచుగా అడిగే ప్రశ్నలు

మంచి chunk అంటే ఏమిటి?
మంచి chunk semantically self-contained గా ఉంటుంది, ఒకే fact boundaries మధ్య split కాకుండా size చేయబడుతుంది, filter, refresh, cite చేయడానికి stable metadata కలిగి ఉంటుంది.
chunking answer quality పై ఎలా ప్రభావం చూపుతుంది?
చాలా పెద్ద chunks relevance ను dilute చేసి tokens వృథా చేస్తాయి; చాలా చిన్న chunks context ను విరగదీసి meaning కోల్పోతాయి. Boundary choices generated answers యొక్క recall మరియు groundedness ను నేరుగా ప్రభావితం చేస్తాయి.