Chunking
Chunking என்பது source documents ஐ embedding செய்வதற்கு முன் சிறிய retrieval units ஆகப் பிரிக்கும் செயல்முறை. chunk size மற்றும் boundary strategy knowledge base முழுவதும் recall, precision, embedding cost ஆகியவற்றை balance செய்து, retriever தொடர்புடைய fact ஐ எவ்வளவு துல்லியமாக கண்டறிய முடியும் என்பதை நிர்ணயிக்கின்றன.
இணைச்சொற்கள்: text chunking, document segmentation, passage splitting, chunk strategy
Chunking என்பது retrieval quality அமைதியாக வெல்லப்படுகிறதா தோற்கப்படுகிறதா என்பதை தீர்மானிக்கும் இடம். Strategy fixed token window ஆக இருக்கலாம், overlapping sliding window ஆக இருக்கலாம், அல்லது headings மற்றும் sections போன்ற semantic structure ஐப் பின்பற்றும் boundaries ஆக இருக்கலாம். ஒவ்வொரு chunk ம் source, language, timestamps, content hash போன்ற metadata உடன் embedded மற்றும் indexed செய்யப்படும்; retrieval filter, deduplicate, incrementally refresh செய்ய முடியும். Downstream answer அது retrieve செய்த passage போலவே நல்லது; எனவே deliberate chunking grounded, citable responses க்கு prerequisite.