Vocabulary Size (Размер словаря)

Содержание статьи

Как работает Vocabulary Size в нейросетях?
Примеры использования и значения
Интересный факт: Проблема токена [UNK]

Vocabulary Size (размер словаря) — это общее количество уникальных токенов (слов, частей слов или отдельных символов), которые нейросеть или языковая модель искусственного интеллекта способна распознавать, обрабатывать и генерировать.

В мире искусственного интеллекта и обработки естественного языка (NLP) этот параметр играет фундаментальную роль. Если для человека размер активного и пассивного словарного запаса определяет его эрудированность, богатство речи и способность выражать сложные концепции, то для нейросети Vocabulary Size определяет базовый набор "кирпичиков", из которых строится абсолютно всё её понимание текстовых данных.

Как работает Vocabulary Size в нейросетях?

Прежде чем любая текстовая информация попадает в языковую модель (будь то ChatGPT, Claude или другая система), она проходит обязательный процесс токенизации. Токенизация — это разделение сплошного текста на более мелкие фрагменты, которые называются токенами. Именно исчерпывающий набор всех возможных токенов, известных модели, и составляет её словарь (Vocabulary).

Определение правильного размера этого словаря — это всегда сложный компромисс для инженеров между производительностью вычислений и точностью понимания языка:

Слишком маленький Vocabulary Size: Если словарь ограничен, модели придется разбивать большинство слов на отдельные буквы или очень короткие слоги. Это сделает обрабатываемые тексты невероятно длинными с точки зрения машинной логики, а нейросеть потеряет смысловую связь между корнями, приставками и суффиксами. Кроме того, генерация текста по одной букве работает очень медленно.
Слишком большой Vocabulary Size: Если попытаться включить в словарь вообще все существующие слова всех языков мира, включая сленг и термины, модель потребует колоссальных объемов видеопамяти (VRAM). Матрица эмбеддингов (которая хранит веса для каждого токена) станет настолько огромной, что обучение и использование такой нейросети будет экономически нецелесообразным.

Примеры использования и значения

Современные большие языковые модели (LLM) используют продвинутые алгоритмы субсортной токенизации (например, Byte-Pair Encoding или WordPiece), которые позволяют находить идеальную золотую середину. Они сохраняют частые слова целиком, а редкие разбивают на части.

Вот несколько примеров размеров словаря у известных архитектур:

Модели серии OpenAI (GPT-3.5 и GPT-4): Используют Vocabulary Size около 100 000 токенов (в частности, токенизатор cl100k_base). Этого объема достаточно, чтобы эффективно кодировать английский язык целыми словами, а более редкие языки (включая русский) — комбинациями слогов.
LLaMA от Meta: В первых версиях имела размер словаря всего в 32 000 токенов. Это делало её архитектуру очень легкой и быстрой, но менее эффективной для работы с мультиязычными текстами, так как слова на кириллице разбивались на слишком большое количество мелких токенов.
Специализированные мультиязычные модели (например, XLM-R): Могут иметь Vocabulary Size до 250 000 токенов, чтобы одинаково хорошо и быстро понимать китайские иероглифы, арабскую вязь, латиницу и кириллицу.

Интересный факт: Проблема токена [UNK]

На заре развития систем обработки естественного языка словари нейросетей состояли исключительно из целых слов. Если в тексте попадалось слово, которого физически не было в словаре (например, редкая фамилия, неологизм или банальная опечатка), модель заменяла его специальным токеном [UNK] (от английского Unknown — неизвестно).

Представьте, что вы читаете захватывающий детектив, и имя главного злодея внезапно заменяется на "НЕИЗВЕСТНО". Это приводило к забавным, но критическим системным ошибкам при машинном переводе или анализе тональности текста. Именно для решения проблемы "Out-Of-Vocabulary" (OOV) были придуманы современные алгоритмы. Теперь, благодаря оптимальному Vocabulary Size и субтокенизации, современные LLM могут прочитать и сгенерировать даже те слова, которых никогда не существовало в природе, просто собирая их из известных слогов.

Почему это важно для бизнеса и разработчиков?

При развертывании собственной ИИ-модели выбор Vocabulary Size напрямую влияет на стоимость инфраструктуры. Чем больше словарь, тем больше параметров в эмбеддинг-слое. Разработчики тщательно анализируют корпус данных, на которых будет обучаться модель, чтобы подобрать оптимальный размер словаря. Грамотный выбор обеспечивает высокую скорость генерации текста, глубокое понимание контекста и экономию вычислительных ресурсов при использовании искусственного интеллекта.