Загрузка...

Base Model: фундамент современного искусственного интеллекта

Base Model (базовая или фундаментальная модель) — это нейросеть, обученная на гигантских объемах неразмеченных данных, которая усвоила базовые закономерности языка, логики или визуальных образов. Она служит универсальным «фундаментом» для создания более узких и специализированных ИИ-приложений.

Что такое базовая модель простыми словами?

Представьте себе невероятно начитанного выпускника университета. Он прочитал миллионы книг, статей, форумов и энциклопедий. Он знает понемногу обо всем: от квантовой физики до рецепта шарлотки. Однако этот выпускник еще не устроился на работу и не знает корпоративных правил. Он просто выдает информацию, основываясь на том, что видел раньше. Именно так работает Base Model.

В мире искусственного интеллекта (особенно в сфере больших языковых моделей, LLM) базовая модель — это результат первого, самого дорогого и долгого этапа машинного обучения, который называется pre-training (предварительное обучение). Модель учится одной простой задаче: предсказывать следующее слово в тексте или восстанавливать пропущенные пиксели на картинке.

Как это работает на практике?

Главная особенность базовой модели в том, что она не создана для диалога или выполнения команд пользователя «из коробки». Ее цель — продолжать текст так, как это было бы написано в интернете.

  • Пример с базовой моделью: Если вы напишете ей запрос: «Как сварить яйцо?», она может не дать вам ответ, а продолжить список вопросов: «Как пожарить картошку? Как испечь хлеб?». Она просто решает, что это тест или опросник с кулинарного сайта.
  • Пример с дообученной моделью (Instruct/Chat): Если задать тот же вопрос ChatGPT (который является дообученной версией базовой модели), он поймет, что вы ждете инструкцию, и выдаст пошаговый рецепт.

Чтобы базовая модель стала полезным помощником, ее подвергают Fine-tuning (тонкой настройке) и RLHF (обучению с подкреплением на основе отзывов людей). Только после этого она превращается в привычного нам чат-бота.

Примеры известных базовых моделей

Сегодня разработка таких систем требует огромных вычислительных мощностей, тысяч видеокарт (GPU) и миллионов долларов. Поэтому их создают преимущественно крупные технологические корпорации:

  • GPT-3 и GPT-4 от OpenAI: Изначально это чистые базовые модели, на основе которых затем создаются версии для ChatGPT.
  • LLaMA от Meta: Открытая базовая модель, которая произвела революцию в сообществе разработчиков, позволив энтузиастам создавать свои версии ИИ на домашних компьютерах.
  • Claude (Anthropic) и Gemini (Google): Также имеют в своей основе мощные фундаментальные модели.

Почему базовые модели так важны для Open Source сообщества?

Долгое время доступ к передовым технологиям искусственного интеллекта был только у закрытых лабораторий. Однако появление открытых базовых моделей изменило правила игры. Когда компания выпускает в открытый доступ Base Model, она дарит разработчикам по всему миру готовый «мозг», на обучение которого уже потрачены миллионы долларов и мегаватты электроэнергии.

Что делают энтузиасты с открытыми базовыми моделями?

  • Специализация: Врачи дообучают модель на медицинских справочниках, чтобы создать ИИ-диагноста.
  • Локализация: Программисты из разных стран добавляют поддержку редких языков, которых изначально не было в наборе данных.
  • Оптимизация: С помощью методов квантования тяжелую базовую модель «сжимают» так, чтобы она могла работать даже на обычном смартфоне или ноутбуке без интернета.

Таким образом, базовая модель выступает в роли холста, на котором любой разработчик может нарисовать именно тот инструмент, который нужен для решения его уникальной задачи.

Интересный факт: Как появилось название и почему они такие дорогие

Термин Foundation Model (фундаментальная, базовая модель) был популяризован исследователями из Стэнфордского университета в 2021 году. Они заметили сдвиг парадигмы: вместо того чтобы обучать нейросеть с нуля для каждой новой задачи (например, отдельно для перевода, отдельно для написания кода), ученые стали создавать одну гигантскую модель, которая умеет делать всё понемногу, а затем просто слегка адаптировать её.

Забавный парадокс заключается в том, что базовая модель часто бывает «слишком умной» и непредсказуемой. На ранних этапах тестирования одной из таких моделей инженеры заметили, что на просьбу написать код она могла выдать не только сам код, но и гневные комментарии разработчиков с форума StackOverflow, потому что именно такие паттерны она видела в обучающих данных. Чтобы отучить ИИ от вредных привычек интернета, требуются месяцы дополнительной работы.