Chunking
Chunking అనేది source documents ను embedding చేయడానికి ముందు చిన్న retrieval units గా విభజించే ప్రక్రియ. chunk size మరియు boundary strategy knowledge base లో recall, precision, embedding cost ను balance చేస్తూ retriever సంబంధిత fact ను ఎంత ఖచ్చితంగా గుర్తించగలదో నిర్ణయిస్తాయి.
పర్యాయపదాలు: text chunking, document segmentation, passage splitting, chunk strategy
Chunking అనేది retrieval quality నిశ్శబ్దంగా గెలిచే లేదా ఓడిపోయే స్థలం. Strategy fixed token window అయి ఉండవచ్చు, overlapping sliding window అయి ఉండవచ్చు, లేదా headings, sections వంటి semantic structure ను అనుసరించే boundaries అయి ఉండవచ్చు. ప్రతి chunk source, language, timestamps, content hash వంటి metadata తో embedded మరియు indexed అవుతుంది; retrieval filter, deduplicate, incrementally refresh చేయగలదు. Downstream answer దాని retrieve చేసిన passage ఎంత మంచిదో అంతే మంచిది కాబట్టి, deliberate chunking grounded, citable responses కు prerequisite.