Мониторинг обучения
Last updated
Last updated
В Primo RPA AI Server cуществует возможность просмотреть график обучения модели. График иллюстрирует процесс обучения по эпохам и помогает понять, насколько успешно выполняется процесс.
Роль пользователя, который хочет просмотреть график, должна иметь права «Шаблоны процесса обучения — Просмотр», «Процессы обучения — Просмотр, «Процессы обучения — Управление».
Перейдите в раздел Обучение > Шаблоны обучения и выберите для вашего шаблона действие Процессы.
В таблице процессов найдите нужную запись и нажмите значок ☰ для вызова меню действий.
Выберите Мониторинг обучения.
На странице мониторинга отобразится следующий график:
Total Loss (Train_DS) — синяя кривая представляет собой общую ошибку на обучающем наборе данных. Она показывает, насколько хорошо модель обучается на этих данных. На рисунке выше видно, что потеря сначала быстро уменьшается, затем стабилизируется.
Average Precision (Test_DS) — красная кривая показывает среднюю точность на тестовом наборе данных. Эта метрика демонстрирует, насколько точно модель предсказывает на новых, ранее не виденных данных. На рисунке выше видно, что средняя точность сначала увеличивается, а затем стабилизируется.
Learning Rate (LR) — зеленая кривая отображает коэффициент обучения модели. Она демонстрирует, как изменяется коэффициент обучения по мере увеличения числа эпох. Обычно коэффициент обучения уменьшается с увеличением числа эпох, чтобы модель могла лучше подстраиваться под данные и минимизировать ошибку. На рисунке выше видно, что в самом начале коэффициент рос.
Дополнительная информация отображается в заголовке графика. Заголовок динамически меняется в процессе обучения и отображает текущие показатели:
AP (Average Precision) — средняя точность. На рисунке она равна 0.903, что является интегральным показателем качества модели на тестовом наборе данных.
t_loss — финальная ошибка равна 0.305 (некое относительное число).
LR — коэффициент обучения. На рисунке он равен 0.0000000561.
images — количество изображений. На рисунке количество равно 170.
bsize — размер пакета равен 2.
iter — общее количество итераций (15000).
epoch — количество эпох, т.е. количество проходов через весь весь обучающий датасет, состоящий из 170 изображений. На рисунке 176 эпох.
device — используется устройство CUDA, что означает, что обучение проводилось на графическом процессоре (GPU).
В целом, график демонстрирует, что модель стабильно обучалась, ошибки на обучающем наборе данных уменьшились и стабилизировались, а средняя точность на тестовом наборе данных показывает хорошие результаты.
Если модель не сходится, то есть не достигает желаемого уровня точности или имеет нестабильные метрики («скачущие» кривые), полезно обратить внимание на несколько ключевых аспектов графика:
Ошибка на обучающем наборе данных (Total Loss):
Снижение ошибки — если потери не уменьшаются или уменьшаются очень медленно, это может указывать на проблемы с обучением модели. Возможные причины могут включать некачественную разметку данных или слишком низкий коэффициент обучения — в этом случае его стоит увеличить.
Колебания — если ошибка слишком сильно скачет, это может быть признаком слишком высокого коэффициента обучения или наличия шума в данных (слишком разных изображений).
Обычно значение должно быть меньше 0.5.
Средняя точность на тестовом наборе данных (Average Precision):
Стабильность точности — если точность на тестовом наборе данных сильно колеблется или не увеличивается, это может указывать на проблемы с обобщающей способностью модели. Это может быть связано с переобучением или качеством данных.
Значение 0.75 можно считать хорошим, более 0.8 — отличным показателем.
Коэффициент обучения (Learning Rate):
Правила изменения LR в процессе обучения определены в исходном коде. Применяется период разогрева (плавного увеличения до LR), затем плавное снижение.