Мониторинг загрузки целевых машин
На странице Мониторинг вы можете просмотреть загруженность целевых машин — сколько процессов разного вида выполняет машина на заданном промежутке времени и какое количество запросов к ней поступает. Это помогает определить, нужны ли вам дополнительные лицензии агентов и следует ли улучшить аппаратные характеристики целевой машины.
Просмотр загрузки машины
-
Перейдите на страницу Мониторинг, выбрав одноименный пункт в навигационном меню.
-
Сверху расположены фильтры:
- Дата события — начало и конец временного отрезка, за который вы хотите просмотреть график загруженности машины. Дата и время отображаются в веб-интерфейсе в соответствии с часовым поясом пользователя AI Server. После выбора даты и времени не забудьте нажать в календаре кнопку ОК.
- Компонент — компонент AI Server. Доступные значения:
Умный OCR
— отобразится график загруженности машин для компонента Умный OCR.NLP
— отобразится график загруженности машин для компонента AI Текст, в рамках которого модели решают NLP-задачи.
- Целевая машина — название целевой машины, загруженность которой вы хотите просмотреть.
-
После указания фильтров, откроется график загруженности выбранной целевой машины.
Пример графика для машины AI Текст
На графике ось X — выбранный отрезок времени, ось Y — количество запущенных процессов и запросов к целевой машине.
На графике отображаются события:
- Процессов инференс (фиолетовая кривая) — какое количество процессов инференса выполняется на машине. Процесс инференса — это одна модель AI Текста, которая находится в статусе
Запущена
на целевой машине. - Запросов инференс (зеленая кривая) — какое количество NLP- или OCR-запросов (с движком ViT) на использование модели поступает к машине. Запросы инференса могут поступать, как от роботов, так и при тестировании модели (тестовые запросы).
Внимания требует график, на котором видно, что запросы инференса обрабатываются медленно:
- наиболее быстро NLP-запросы обрабатывают модели с vLLM-движком: в течение нескольких секунд;
- модели с движком ollama обрабатывают запросы медленнее, поскольку для него, как правило, используется низкопроизводительная машина.
Пример графика для машины Умного OCR
На графике ось X — выбранный отрезок времени, ось Y — количество запущенных процессов и запросов к целевой машине.
На графике отображаются события:
- Процессов инференс (фиолетовая кривая) — какое количество процессов инференса выполняется на машине. Для оптимального использования ресурсов целевой машины рекомендуется разделять по времени процессы обучения и процессы инференса. Для одного процесса инференса лучше всего использовать ~ 3-4 ядра.
- Запросов инференс (зеленая кривая) — какое количество запросов на инференс, т.е. изображений для распознавания, поступает машине от роботов. Для машины с 16-ю виртуальными ядрами (соответствует 8-ми физическим ядрам) максимальной нагрузкой в рамках одного процесса инференса будет 7 запросов, если их больше 7-ми — значит, машина перегружена.
- Процессов тест (оранжевая кривая) — какое количество тестовых процессов инференса выполняется на машине. Под тестовым процессом подразумевается инференс тестового датасета — он запускается кнопкой Запустить тест на странице процессов инференса. Тестовый инференс позволяет проверить на тестовом датасете, насколько хорошо обучена модель.
- Процессов обучения (красная кривая) — какое количество процессов обучения выполняется на машине. Для оптимального использования ресурсов целевой машины рекомендуется разделять по времени процессы обучения и процессы инференса.
В настройках шаблона
инференса
есть дополнительный параметр Multiprocessing, где вы можете указать
количество процессов инференса, на которые должны быть выделены ядра целевой
машины. Значение по умолчанию - 0
, означает, что все ядра используются для
одного процесса. Если вы хотите выполнять несколько процессов инференса на
одной целевой машине, то рекомендуется установить значение вручную, чтобы
разделить ресурсы для обработки OCR-запросов.