Инструкция по авторазметке

Автоматическая разметка данных позволяет ускорить процесс разметки за счёт применения временной обученной модели. Чтобы такая модель смогла самостоятельно размечать изображения, её следует обучить на примере ~10% изображений, которые пользователь разметил вручную. Тогда оставшуюся часть изображений модель сможет разметить автоматически.

Перед началом авторазметки:

На странице Данные добавьте все изображения, которые понадобятся для обучения модели.
На странице Разметка данных вручную разметьте не менее 10% от загруженных изображений и сохраните разметку в датасет Обучение.
На странице Разметка данных воспользуйтесь инструментом , чтобы перейти к шаблонам автоматической разметки.

Шаг 1. Создайте шаблон автоматической разметки

На странице Разметка данных выберите инструмент Автоматическая разметка, чтобы перейти на страницу шаблонов. Инструмент становится активным только при наличии размеченных изображений.
На странице Шаблоны автоматической разметки нажмите кнопку Добавить шаблон обучения.
В открывшейся форме укажите параметры:
- Название* — название шаблона автоматической разметки. Должно состоять только из букв и цифр, дефиса, подчеркивания и точки.
- Шаблон модели* — тип базовой модели. По умолчанию это универсальный тип base-SmartOCR-01.
- Описание — краткое описание шаблона.
- Искусственно расширить датасет — определите, следует ли расширять датасет с помощью модификации входящих в него изображений. Например, за счет поворотов на 90/180/270 градусов, изменения экспозиции случайным образом и добавления шума. Возможные значения:
  - повороты + экспозиция + шум — значение по умолчанию, которое повышает качество обучения модели.
  - экспозиция + шум — применять только изменение экспозиции и добавление шума.
  - нет — не применять модификацию изображений. Установка этого значения повысит скорость обучения, но может снизить его качество.
- Кол-во процессов для загрузки датасета — количество процессов для загрузки данных в модель, по умолчанию 8. Значение не должно превышать количество физических ядер CPU в целевой машине. Рекомендации:
  - если целевая машина обладает высокопроизводительными характеристиками, вы можете увеличить это значение;
  - не рекомендуется устанавливать значение ниже 4-х, так как это замедлит обучение.
- Кол-во картинок используемых в расчетах на одной итерации — количество изображений, которые загружаются в модель в одной итерации (batch size). По умолчанию 2. Рекомендации:
  - Увеличение количества изображений в итерации помогает ускорить обучение, но требует больше памяти. Если на целевой машине используется GPU, и вы столкнулись с ошибкой out of memory, то следует уменьшить значение в данном параметре.
- Кол-во итераций в расчетах — количество итераций в процессе обучения, по умолчанию 1000. Значение определяет, сколько раз требуется отправить изображение модели. Рекомендации:
  - Более высокое значение (3-5 тыс.) повышает точность предсказаний, но требует более производительных характеристик целевой машины и удлиняет процесс обучения. Не рекомендуется устанавливать значение выше 5000, чтобы избежать ситуации, когда модель переобучилась.
- Начальный коэф обучения (меняется по правилам определенным в scheduler) — по умолчанию 0,005. Начальный коэффициент (learning rate) определяет размер шага, с которым модель обновляет веса в процессе обучения. Параметр влияет на то, насколько быстро или медленно модель сходится к оптимальным весам, а также на результат обучения. Рекомендации:
  - Если выбрать слишком маленький начальный коэффициент (например, 0,0005), то процесс обучения значительно затянется.
  - Если выбрать слишком большой начальный коэффициент (например, 0,01), то скорость обучения повысится, но модель может "перепрыгнуть" оптимальные значения весов и, в худшем случае, не сойдется к правильному решению.
  - Время обновления файла (сек) — по умолчанию 60. Не рекомендуется изменять это значение.
- Device — определяет, какой компонент целевой машины требуется использовать для процесса обучения. Возможные значения:
  - CUDA — если на целевой машине нет CUDA, то автоматически будет использоваться CPU. Архитектура CUDA позволяет использовать графический процессор (GPU) от NVIDIA для повышения производительности параллельных вычислений. CUDA представляет собой набор инструментов и библиотек для работы с графическим процессором.
  - CPU — центральный процессор, выполняющий основные операции и управляющий работой компьютера.
Нажмите Сохранить.

Шаг 2. Создайте процесс автоматической разметки

На странице Шаблоны автоматической разметки выберите пункт Процессы в строке вашего шаблона.
На странице Процессы автоматической разметки нажмите Добавить процесс.
Выберите название целевой машины, на которой следует запустить процесс. Машина должна быть включена и доступна.
Нажмите Сохранить.

Примечание. На одной целевой машине можно создать только один процесс обучения. Целевая машина заранее настраивается администратором. Если в списке нет включённых и доступных целевых машин, обратитесь к вашему администратору AI Server.

Шаг 3. Запустите процесс и примените авторазметку

На странице Процессы автоматической разметки выберите действие Запустить в строке вашего процесса.
Дождитесь завершения процесса — в колонке Статус должно отобразиться значение Завершен.
Когда процесс обучения завершился, откройте меню действий процесса и выберите пункт Применить разметку.

Готово — модель применила автоматическую разметку к неразмеченным изображениям. Никаких дополнительных уведомлений об этом действии не появится.

После авторазметки

Перейдите на страницу Разметка данных и проверьте все изображения, для которых применилась автоматическая разметка. Скорректируйте регионы, если это необходимо.
Не забудьте поместить ~10% от всех размеченных изображений в датасет Тестовый, чтобы модель смогла тестировать на нём свои способности предсказания.

Дополнительные сведения

Если после применения авторазметки вы добавили новые изображения в проект, то либо разметьте их вручную, либо заново обучите модель согласно инструкции выше, чтобы воспользоваться авторазметкой.

Статусы процесса автоматической разметки

На странице Процессы автоматической разметки в колонке Статус возможны следующие значения:

Бездействует — процесс не запущен или был остановлен.
Готов к запуску — процесс был запущен по запросу пользователя.
Запуск обучения — запускается процесс обучения временной модели.
Обучение — выполняется обучение временной модели.
Запуск разметки — процесс переходит к фазе поиска полей на неразмеченных изображениях с помощью временной модели.
Разметка — выполняется поиск полей на неразмеченных изображениях с помощью временной модели.
Завершен — процесс успешно завершен.
Остановка — процесс останавливается по запросу пользователя.
Ошибка — запуск процесса завершился ошибкой.
Таймаут — срок ожидания состояния от процесса истек.

Примечание. Временная модель — это результат процесса обучения авторазметке. Временная модель удаляется с целевой машины после успешного завершения процесса — когда модель была успешно использована для поиска полей на неразмеченных изображениях.

Журнал

Все действия с автоматической разметкой логируются и доступны для просмотра в Журнале. Со списком событий автоматической разметки можно ознакомиться здесь.

Отмена применения авторазметки

При необходимости отменить автоматическую разметку, воспользуйтесь действием Откатить разметку.

Остановка процесса

Пользователь имеет право остановить запущенный процесс. Например, при необходимости добавить новые изображения в датасет.

Чтобы остановить процесс, используйте опцию Остановить в меню действий процесса.

PreviousИнструкция по разметке NextОбучение модели

Last updated 1 month ago

Was this helpful?