Управление моделями на целевой машине

Каждая целевая машина в системе может быть задействована под разные задачи в зависимости от того, как системный администратор выполнил развертывание:

Машина для AI Текста: позволяет управлять жизненным циклом и конфигурировать инференс LLM-модели на конкретном узле.
Машина для Агентских систем: открывает доступ к управлению исполнителями конвейеров агентских систем и RAG-серверами.
Машина для Умного OCR: позволяет обучать и выполнять инференс CV-моделей. В данном разделе при этом осуществляется мониторинг за процессами, позволяя наблюдать за тем, как ресурсы машины распределяются между проектами распознавания в текущий момент.

machines

На рисунке выше отмечены:

1 — Область с общей информацией о целевой машине.
2 — Область конфигурации и запуска LLM-модели компонента AI Текст.
3 — Область, которая отражает, как машина используется в проектах компонента Умный OCR.

Область с информацией о машине

machines

Статус активности машины:
- разблокирована — машина удерживает лицензию агента и готова к запуску процессов обучения/инференса в Умном OCR или к запуску LLM-модели в AI Тексте.
- заблокирована — машина была заблокирована. Это значит, что она освободила лицензию агента и на ней невозможно запустить обучение/инференс в Умном OCR или запустить модель в AI Тексте.
Доступность машины для сервера: находится в сети или нет.
Наличие действующей лицензии агента: на каждой целевой машине установлен агент, который требует лицензии. Агенты управляет моделью: запускают, настраивают, останавливают, отправляют запросы от сервера. Если отправить запрос на машину без лицензии, то такой запрос завершится ошибкой.

Область AI Текст

Эта область предназначена для конфигурации и запуска больших языковых моделей и работы агентских систем. Она разделена на три блока: LLM, Исполнитель агентских систем и RAG-сервер

LLM Предназначен для настройки и запуска большой языковой модели, которая обрабатывает NLP-запросы, используется как OCR для Умного OCR или может быть использована в конвейере Агентских систем.
Исполнитель агентских систем Позволяет исполнять и тестировать конвейеры проектов Агентских систем.
RAG Позволяет наполнять собственную или внешнюю векторную БД (postgres + pgVector) данными на основе базы знаний, документов и т.д. Используется в конвейерах проектов Агентских систем.

Текущее состояние

Содержит информацию о статусе использования LLM-модели, также позволяет изменить этот статус с помощью кнопок управления.

Статус — текущее состояние использования модели. Для статуса Ошибка можно просмотреть всплывающую подсказку с детальной информацией, которая отображается при наведении курсора.
Стадии запуска модели. Отображаются после нажатия на кнопку Запустить.
Кнопки управления:
- Запустить — запускает LLM-модель на машине.
- Остановить — позволяет остановить запущенную модель.

Каждый блок (LLM, Исполнитель, RAG) содержит функционал управления состоянием:

Статус: показывает текущий режим использования («Запущена», «Бездействует», «Ошибка»). Если компонент находится в статусе «Ошибка», при наведении курсора на иконку вопроса отобразится всплывающая подсказка с детальной технической информацией.
Стадии запуска: после нажатия кнопки «Запустить» в левой части блока отображается пошаговый прогресс инициализации. Например, для LLM он включает такие этапы, как: Запуск, Подготовка хранилища, Скачивание модели, Распаковка модели, Конфигурация NLP-сервера/LLM-ядра и запуск инференса.
Кнопки управления: кнопка «Запустить» активирует модель/сервер на машине, а кнопка «Остановить» прекращает выполнение текущего процесса.

Проекты

В центральной части блока отображается список проектов, чьи навыки обслуживаются данной конфигурацией. Каждое название проекта является кликабельной ссылкой, которая ведет на страницу этого проекта.

Конфигурация

Конфигурировать можно только бездействующую модель. Настройки нельзя изменять, если модель/сервер уже исполняется.

Для LLM

machines

Параметры конфигурации:

Выбор базовой модели — выберите тип базовой модели из выпадающего списка. По умолчанию доступны следующие типы:

Название модели	Движок / Размер	Тип	Описание
`base-LLM-01-7b-safetensors-fp16`	vLLM, 7B	Текстовая	Формат safetensors fp16. Обновлённая версия (ранее: `base`-`LLM`-`01`).
`base-LLM-01-7b-gguf-q8`	Ollama, 7B	Текстовая	Квантование `GGUF q8`. Оптимизирована для слабых машин (ранее: `base-LLM-02`).
`base-LLM-06-7b-gguf-q8`	Ollama, 7B	Мультимодальная	Квантование `GGUF q8`. Поддерживает текст и изображения, используется как ViT (ранее: `base-LLM-05`).
`base-LLM-06-7b-safetensors-fp16`	vLLM, 7B	Мультимодальная	Формат `safetensors fp16`. Рекомендуется для работы с изображениями и ViT (ранее: `base-LLM-06`).
`base-LLM-07-8b-safetensors-fp16`	vLLM, 8B	Текстовая	Формат `safetensors fp16`. Дополнительно обучена на фактах русской культуры (ранее: `base-LLM-07`).
`base-LLM-06-7b-gguf-fp16`	GGUF FP16, 7B	Мультимодальная	Поддерживает изображения (ММ).
`base-LLM-08-27b-gguf-q4_k_m`	27B	Мультимодальная	Квантование `q4_k_m`. Поддержка изображений (ММ).
`base-LLM-09-30b-gguf-q4_k_m`	30B	Reasoning	Квантование `q4_k_m`. Оптимизирована под рассуждения.
`base-LLM-10-4b-gguf-fp16`	4B	Для FT	Компактная модель для файнтюнинга.

Размер контекстного окна — предельное количество токенов (текстовых единиц), которые могут быть указаны во входном тексте для обработки. Одно слово на русском языке ~ 2 токена. По умолчанию 4096.
Выбор устройства — тип устройства, который используется на целевой машине с сервером LLM. Доступные значения:
- CPU — значение по умолчанию. Центральный процессор, выполняющий основные операции и управляющий работой компьютера.
- CUDA — архитектура CUDA позволяет использовать графический процессор (GPU) от NVIDIA для повышения производительности параллельных вычислений. CUDA представляет собой набор инструментов и библиотек для работы с графическим процессором.
Если вы выбрали CPU, дополнительно установите:
- Кол-во используемых CPU — количество ядер CPU, которые будет использовать контейнер с выбранным движком для генерации ответов.
Если вы выбрали CUDA, дополнительно установите:
- Кол-во используемых GPU — количество видеокарт. Если модель не помещается в VRAM одной GPU, используйте несколько видеокарт.
- Загруженность видеокарты — процент использования памяти видеокарты.
- Кол-во памяти от хоста — если модель не помещается в VRAM одной GPU, оставьте часть слоев LLM на хосте.

Для исполнителя агентских систем

machines

Выберите кол-во используемых CPU — число ядер, выделяемых контейнеру.

Для RAG

machines

Настройка моделей Embed и Rerank Для работы системы необходимо указать параметры двух ключевых компонентов в соответствующих блоках конфигурации:

Embed-модель: выберите модель для создания векторных представлений текста из выпадающего списка. Ниже установите Выбор устройства (CPU или CUDA) и укажите количество выделяемых ресурсов (ядер или видеокарт).
Rerank-модель: выберите модель для повторного ранжирования результатов поиска. Аналогично настройте тип устройства и объем доступных вычислительных мощностей.

Настройка Postgres-сервера Для хранения и управления индексами данных используется база данных Postgres. В интерфейсе предусмотрено два сценария её подключения:

Автоматическое развертывание: активируйте переключатель «Запустить postgres сервер». В этом случае система самостоятельно инициализирует локальный экземпляр БД с необходимыми параметрами.
Использование внешней базы данных: если переключатель деактивирован, необходимо вручную заполнить поля для подключения к вашему стороннему серверу. Обязательными для заполнения являются:
- БД — название базы данных;
- Хост — сетевой адрес сервера;
- Порт — номер порта для подключения;
- Имя пользователя и Пароль — данные для авторизации.

Выберите тип вычислительного устройства для каждой из моделей отдельно (embed / rerank):

CPU: выполнение операций на центральном процессоре. Пользователь должен установить
- Кол-во используемых CPU — число ядер, выделяемых для инференса модели.
CUDA: использование графического процессора NVIDIA. Здесь настраиваются:
- Кол-во используемых GPU: количество видеокарт (если модель не помещается в одну).
- Загруженность видеокарты: процент используемой памяти GPU.
- Кол-во памяти от хоста: объем RAM хоста для хранения слоев LLM, не поместившихся в VRAM видеокарты.

Логирование

В нижней части блоков AI Текст предусмотрен раздел для работы с логами, который позволяет отслеживать технические процессы в реальном времени.

Вы можете просмотреть логи для следующих компонентов:

LLM (Inference): Журнал работы языковой модели.
RAG (Агентские системы): Логи системы поиска и генерации ответов на основе внешних данных.
Исполнитель агентских систем: Журнал выполнения агентских конвейеров.

В интерфейсе доступны кнопки для быстрого копирования содержимого логов в буфер обмена и скачивания лога в виде файла.

Как запустить модель на машине

Сконфигурируйте модель и нажмите Запустить. Начнется автоматический процесс запуска — он займет некоторое время:

Дождитесь, когда напротив всех стадий запуска будут проставлены галочки — это означает, что модель успешно запустилась и готова к работе.

alt

Когда все стадии запуска завершились успешно, вы увидите только один статус — Готова принимать запросы.

Ошибка при запуске модели:

Если процесс запуска завершился ошибкой, то вместо статуса Готова принимать запросы, вы увидите индикатор ошибки. Наведите курсор на индикатор, чтобы просмотреть текст ошибки.

Как остановить модель:

Вам может понадобиться остановить LLM-модель, чтобы выключить машину или изменить конфигурацию модели. Для этого нажмите кнопку Остановить и дождитесь полной остановки модели – ее статус сменится с Запущена на Бездействует.

Область OCR

Отображает список проектов Умного OCR, в которых используется целевая машина, в том случае, если:

это целевая машина с компонентом OCR;
это единая целевая машина для AI Текста и OCR.

В противном случае область с проектами OCR будет свернута.

Что дальше

Перейдите к настройке проекта с типом Задачи NLP .