কনটেন্টে যান
গ্লোসারি

চাঙ্কিং

চাঙ্কিং হলো উৎস নথিগুলোকে এম্বেড করার আগে ছোট পুনরুদ্ধার-একক-এ বিভক্ত করার প্রক্রিয়া। চাঙ্কের আকার ও সীমানা-কৌশল নির্ধারণ করে একটি পুনরুদ্ধারকারী কতটা সুনির্দিষ্টভাবে একটি প্রাসঙ্গিক তথ্য সনাক্ত করতে পারে, একটি জ্ঞানভাণ্ডার জুড়ে স্মৃতিধারণ, নির্ভুলতা ও এম্বেডিং-ব্যয়ের ভারসাম্য রক্ষা করে।

সমার্থক: text chunking, document segmentation, passage splitting, chunk strategy

চাঙ্কিং হলো সেই স্থান যেখানে পুনরুদ্ধারের মান নীরবে জেতা বা হারা হয়। কৌশলটি হতে পারে একটি স্থির টোকেন-উইন্ডো, একটি ওভারল্যাপিং স্লাইডিং উইন্ডো, বা শিরোনাম ও বিভাগের মতো শব্দার্থগত কাঠামো অনুসরণকারী সীমানা। প্রতিটি চাঙ্ক মেটাডেটাসহ — উৎস, ভাষা, টাইমস্ট্যাম্প, বিষয়বস্তু-হ্যাশ — এম্বেড ও সূচিবদ্ধ করা হয়, যাতে পুনরুদ্ধার ক্রমবর্ধমানভাবে ফিল্টার, ডিডুপ্লিকেট ও রিফ্রেশ করতে পারে। যেহেতু প্রতিটি পরবর্তী উত্তর ততটাই ভালো যতটা সেই অনুচ্ছেদ যা এটি পুনরুদ্ধার করে, ইচ্ছাকৃত চাঙ্কিং ভিত্তিযুক্ত, উদ্ধৃতিযোগ্য প্রতিক্রিয়ার পূর্বশর্ত।

সাধারণ জিজ্ঞাসা

একটি ভালো চাঙ্ক কী তৈরি করে?
একটি ভালো চাঙ্ক শব্দার্থগতভাবে স্বয়ংসম্পূর্ণ, এমন আকারের যাতে একটি একক তথ্য সীমানা পেরিয়ে বিভক্ত না হয়, এবং স্থিতিশীল মেটাডেটা বহন করে যাতে তা নির্ভরযোগ্যভাবে ফিল্টার, রিফ্রেশ ও উদ্ধৃত করা যায়।
চাঙ্কিং উত্তরের মান কীভাবে প্রভাবিত করে?
অতি-বড় চাঙ্ক প্রাসঙ্গিকতা পাতলা করে ও টোকেন অপচয় করে, যখন অতি-ছোট চাঙ্ক প্রসঙ্গ খণ্ডিত করে ও অর্থ হারায়। সীমানা-পছন্দ সরাসরি স্মৃতিধারণ ও জনিত উত্তরের ভিত্তি গঠন করে।