Мониторинг загрузки целевых машин

На странице Мониторинг вы можете просмотреть загруженность целевых машин — сколько процессов разного вида выполняет машина на заданном промежутке времени и какое количество запросов к ней поступает. Это помогает определить, нужны ли вам дополнительные лицензии агентов и следует ли улучшить аппаратные характеристики целевой машины.

Просмотр загрузки машины

Перейдите на страницу Мониторинг, выбрав одноименный пункт в навигационном меню.
Сверху расположены фильтры:
- Дата события — начало и конец временного отрезка, за который вы хотите просмотреть график загруженности машины. Дата и время отображаются в веб-интерфейсе в соответствии с часовым поясом пользователя AI Server. После выбора даты и времени не забудьте нажать в календаре кнопку ОК.
- Компонент — компонент AI Server. Доступные значения:
  - Умный OCR — отобразится график загруженности машин для компонента Умный OCR.
  - NLP — отобразится график загруженности машин для компонента AI Текст, в рамках которого модели решают NLP-задачи.
- Целевая машина — название целевой машины, загруженность которой вы хотите просмотреть.
После указания фильтров, откроется график загруженности выбранной целевой машины.

Пример графика для машины AI Текст

alt

На графике ось X — выбранный отрезок времени, ось Y — количество запущенных процессов и запросов к целевой машине.

На графике отображаются события:

Процессов инференс (фиолетовая кривая) — какое количество процессов инференса выполняется на машине. Процесс инференса — это одна модель AI Текста, которая находится в статусе Запущена на целевой машине.
Запросов инференс (зеленая кривая) — какое количество NLP- или OCR-запросов (с движком ViT) на использование модели поступает к машине. Запросы инференса могут поступать, как от роботов, так и при тестировании модели (тестовые запросы).

Внимания требует график, на котором видно, что запросы инференса обрабатываются медленно:

наиболее быстро NLP-запросы обрабатывают модели с vLLM-движком: в течение нескольких секунд;
модели с движком ollama обрабатывают запросы медленнее, поскольку для него, как правило, используется низкопроизводительная машина.

Пример графика для машины Умного OCR

alt

На графике отображаются события:

Процессов инференс (фиолетовая кривая) — какое количество процессов инференса выполняется на машине. Для оптимального использования ресурсов целевой машины рекомендуется разделять по времени процессы обучения и процессы инференса. Для одного процесса инференса лучше всего использовать ~ 3-4 ядра.
Запросов инференс (зеленая кривая) — какое количество запросов на инференс, т.е. изображений для распознавания, поступает машине от роботов. Для машины с 16-ю виртуальными ядрами (соответствует 8-ми физическим ядрам) максимальной нагрузкой в рамках одного процесса инференса будет 7 запросов, если их больше 7-ми — значит, машина перегружена.
Процессов тест (оранжевая кривая) — какое количество тестовых процессов инференса выполняется на машине. Под тестовым процессом подразумевается инференс тестового датасета — он запускается кнопкой Запустить тест на странице процессов инференса. Тестовый инференс позволяет проверить на тестовом датасете, насколько хорошо обучена модель.
Процессов обучения (красная кривая) — какое количество процессов обучения выполняется на машине. Для оптимального использования ресурсов целевой машины рекомендуется разделять по времени процессы обучения и процессы инференса.

В настройках модели есть дополнительный параметр Multiprocessing, где вы можете указать количество процессов инференса, на которые должны быть выделены ядра целевой машины. Значение по умолчанию - 0, означает, что все ядра используются для одного процесса. Если вы хотите выполнять несколько процессов инференса на одной целевой машине, то рекомендуется установить значение вручную, чтобы разделить ресурсы для обработки OCR-запросов.