Чанкинг текста для RAG (Text chunking)

Содержание статьи

Зачем нужен чанкинг в системах RAG?
Как работает разделение на чанки?
Примеры использования чанкинга на практике
Интересный факт: Привет из когнитивной психологии

Чанкинг текста для RAG (Text chunking) — это процесс разделения больших массивов текста на небольшие, управляемые и осмысленные фрагменты (чанки), чтобы система искусственного интеллекта могла эффективно индексировать, искать и обрабатывать нужную информацию без перегрузки своей оперативной памяти.

Зачем нужен чанкинг в системах RAG?

Представьте, что вам нужно найти ответ на узкоспециализированный вопрос в многотомной энциклопедии. Вы не станете перечитывать все тома от корки до корки, а воспользуетесь предметным указателем, чтобы открыть нужный абзац. Именно по такому принципу работает архитектура RAG (Retrieval-Augmented Generation — генерация, дополненная поиском).

Современные большие языковые модели (LLM), такие как ChatGPT, Claude или Llama, имеют жесткое ограничение на объем текста, который они могут «запомнить» и проанализировать за один раз. Это ограничение называется контекстным окном. Если вы попытаетесь загрузить в нейросеть огромный корпоративный регламент или книгу целиком, модель либо выдаст ошибку из-за превышения лимита токенов, либо подвергнется эффекту «потери в середине» (lost in the middle), когда ИИ забывает важные детали из центральной части документа. Чанкинг элегантно решает эту проблему, позволяя подавать модели только ту информацию, которая релевантна запросу пользователя.

Как работает разделение на чанки?

Процесс фрагментации текста — это не просто механическое разрезание предложений ножницами. После того как текст разбит на чанки, каждый из них превращается в вектор (набор чисел) с помощью эмбеддингов и сохраняется в векторную базу данных. Существует несколько основных стратегий правильного чанкинга:

Фиксированный размер (Fixed-size chunking): Текст делится на равные блоки, например, по 500 или 1000 токенов (слов или слогов). Чтобы не разорвать смысл на полуслове и не потерять контекст, инженеры используют «перекрытие» (overlap) — например, последние 50 токенов первого чанка дублируются в начале второго.
Структурный чанкинг: Разделение происходит с учетом естественных границ документа. Алгоритм ориентируется на абзацы, знаки препинания (точки в конце предложений), заголовки глав или теги форматирования (в случае с HTML или Markdown). Это помогает сохранить изначальную логику повествования автора.
Семантический чанкинг: Самый продвинутый и сложный метод. Алгоритмы машинного обучения анализируют смысл написанного и объединяют предложения в один чанк только в том случае, если они посвящены одной микротеме. Как только тема или контекст меняются, система автоматически начинает новый блок.

Примеры использования чанкинга на практике

Без грамотного чанкинга текста невозможно создать по-настоящему умного AI-ассистента. Вот несколько примеров того, как этот процесс работает в реальной жизни:

Умный поиск по юридическим и финансовым документам

Представьте юриста, которому нужно срочно узнать условия форс-мажора из 300-страничного контракта. Система RAG, которая заранее разбила этот контракт на смысловые чанки, мгновенно находит тот самый блок текста, где упоминается форс-мажор, и передает его языковой модели. Нейросеть формулирует точный, юридически корректный ответ на основе этого небольшого фрагмента, экономя специалисту часы рутинной работы.

Служба поддержки клиентов нового поколения

База знаний крупного интернет-магазина содержит сотни статей о правилах возврата товаров, условиях доставки и гарантийном обслуживании. Когда клиент спрашивает в чате: «Как мне вернуть бракованный телевизор?», алгоритм векторного поиска находит конкретный чанк из статьи о возврате сложной бытовой техники. Бот генерирует ответ только на основе этого фрагмента. Если бы текст не был разбит на части, ИИ мог бы запутаться в общих правилах магазина и выдать неверную инструкцию.

Интересный факт: Привет из когнитивной психологии

Сам термин «чанкинг» (от английского слова chunk — кусок, ломоть или фрагмент) придумали вовсе не IT-специалисты и не программисты! В далеком 1956 году выдающийся американский психолог Джордж Армитаж Миллер опубликовал свою знаменитую статью «Магическое число семь плюс-минус два». В ходе экспериментов он доказал, что кратковременная память человека способна одновременно удерживать лишь около 7 (от 5 до 9) «чанков» — независимых смысловых единиц информации.

Спустя несколько десятилетий разработчики искусственного интеллекта столкнулись с удивительно похожей проблемой: «кратковременная память» нейросетей (то самое контекстное окно) тоже имеет свои жесткие пределы. Забавно, что для решения этой сугубо математической и технической задачи инженеры позаимствовали не только концепцию, но и само слово из психологии человека. Сегодня мы учим нейросети усваивать огромные объемы данных точно так же, как это делает наш собственный мозг — небольшими, логичными и понятными порциями.