உள்ளடக்கத்திற்குச் செல்லவும்
சொற்களஞ்சியம்

Chunking

Chunking என்பது source documents ஐ embedding செய்வதற்கு முன் சிறிய retrieval units ஆகப் பிரிக்கும் செயல்முறை. chunk size மற்றும் boundary strategy knowledge base முழுவதும் recall, precision, embedding cost ஆகியவற்றை balance செய்து, retriever தொடர்புடைய fact ஐ எவ்வளவு துல்லியமாக கண்டறிய முடியும் என்பதை நிர்ணயிக்கின்றன.

இணைச்சொற்கள்: text chunking, document segmentation, passage splitting, chunk strategy

Chunking என்பது retrieval quality அமைதியாக வெல்லப்படுகிறதா தோற்கப்படுகிறதா என்பதை தீர்மானிக்கும் இடம். Strategy fixed token window ஆக இருக்கலாம், overlapping sliding window ஆக இருக்கலாம், அல்லது headings மற்றும் sections போன்ற semantic structure ஐப் பின்பற்றும் boundaries ஆக இருக்கலாம். ஒவ்வொரு chunk ம் source, language, timestamps, content hash போன்ற metadata உடன் embedded மற்றும் indexed செய்யப்படும்; retrieval filter, deduplicate, incrementally refresh செய்ய முடியும். Downstream answer அது retrieve செய்த passage போலவே நல்லது; எனவே deliberate chunking grounded, citable responses க்கு prerequisite.

அடிக்கடி கேட்கப்படும் கேள்விகள்

நல்ல chunk என்றால் என்ன?
நல்ல chunk semantically self-contained ஆக இருக்கும், ஒரு fact boundaries இடையில் split ஆகாத அளவில் size செய்யப்படும், மேலும் filter, refresh, cite செய்ய stable metadata உடையதாக இருக்கும்.
chunking answer quality ஐ எப்படி பாதிக்கிறது?
மிகப் பெரிய chunks relevance ஐ dilute செய்து tokens வீணாக்கும்; மிகச் சிறிய chunks context ஐ உடைத்து meaning இழக்கும். Boundary choices generated answers இன் recall மற்றும் groundedness ஐ நேரடியாக வடிவமைக்கின்றன.