Как разметить изображения
Last updated
Last updated
Ознакомьтесь с рекомендациями по разметке данных.
Роль пользователя, производящего разметку, должна иметь права «Разметка — Просмотр», «Разметка — Создание», «Разметка — Удаление».
Разметка изображения производится на странице Разметка данных. На ней вы увидите следующую рабочую область.
Сверху расположена панель инструментов для работы с изображением. Слева направо:
Select (v) — позволяет выбрать регион, чтобы применить к нему какое-либо действие. Например, удалить клавишей Del
, скорректировать выделенную область, перетащить область в другое место (потянув за точку в центре).
Drag/Pan (right or middle click) (d) — перетаскивание изображения в пределах рабочей области.
Zoom In/Out (scroll) (z) — позволяет увеличить или уменьшить масштаб изображения в рабочей области. Также масштаб возможно изменить колесиком мыши.
Add Bounding Box (b) — описывающий прямоугольник. Основной инструмент для разметки данных, используется для обозначения местоположения и размера объекта на изображении. Bounding box должен минимально охватывать объект на изображении.
Fit to screen (f) — расположить изображение по размеру экрана.
Rotate image (r) — повернуть изображение. Выравнивание / поворот изображение позволяет выполнить разметку точнее.
В данном блоке вы можете:
Выбрать схему разметки, если вы ее создали заранее.
Создать схему разметки, если в проекте нет ни одной схемы.
Добавить в схему новые поля.
Выбрать поле для разметки.
Регион представляет собой поле, координаты которого модель обнаружила на изображении. Название региона — это название поля, которое вы выбрали при разметке. Справа от названия региона находятся кнопки:
Удалить — позволяет удалить регион из датасета.
Блокировать / Разблокировать — при блокировке размеченную область нельзя скорректировать. При разблокировке (замочек открыт), вы можете скорректировать область с данными, которую ранее выделили инструментом Add Bounding Box (b).
Скрыть / Отобразить — управляет видимостью региона на изображении.
Размеченные изображения помещаются в следующие датасеты:
Обучение — используется непосредственно для обучения модели. Поместите в этот датасет до 90% размеченных изображений.
Тестовый — изображения из тестового датасета не используются непосредственно для обучения, однако на каждой 100-й итерации процесса обучения изображения используются для оценки текущих способностей модели детектировать объекты. Рассчитанные в этот момент значения точности модели используются для построения кривой Accuracy (красная кривая на графике в разделе Мониторинг обучения). Поместите в этот датасет 10% размеченных изображений.
В галерее отображаются все изображения, которые вы загрузили в проект. После того, как вы закончили разметку одного изображения, кликните по другой миниатюре, чтобы переключиться между изображениями. При необходимости добавить новое изображение, нажмите +
.
Порядок выполнения шагов:
Создание либо выбор существующей схемы разметки.
Добавление полей в схему разметки.
Разметка данных по выбранным полям.
Сохранение размеченных изображений в датасеты для обучения и тестирования обучения.
Ручная валидация разметки.
🔶Важно. Если схема уже создана, просто выберите ее в списке значений.
В функциональном блоке Схема разверните список значений и, если он пуст, нажмите кнопку Создать схему. Схема определяет, какие поля должна находить модель на изображениях.
Укажите произвольное название* схемы и нажмите Сохранить.
*Название может состоять только из букв и цифр, дефиса, подчеркивания и точки.
🔶Важно. Пропустите данный шаг, если схема уже создана, и все необходимые поля добавлены.
Добавьте в схему поля:
Если вы используете модель-классификатор, то название поля должно соответствовать типу документа. Например, ваша цель классифицировать изображения по трем типам документов: паспорт, СНИЛС, Торг-12. Значит, поля должны называться аналогично этим типам.
Если вы используете модель для распознавания данных в документе, то название поля — это категория информации, которая должна быть извлечена из документа. Например, если вы обучаете модель для распознавания данных в паспортах, то поля «Фамилия» или «Дата рождения» будут являться категориями информации, которые необходимо извлечь и структурировать для использования моделью.
🔷Совет. Разметка должна быть выполнена одинаковым образом для всех изображений одного типа. Соблюдайте одинаковые зазоры между текстом и описывающим прямоугольником (bounding box).
В блоке Схема выберите тип поля, нажав на его название. Выбранное поле подсветится синим. Так, на рисунке ниже выбрано поле Грузополучатель
.
В панели инструментов выберите Add Bounding Box (b).
Выделите инструментом Add Bounding Box (b) значимую область документа:
Для модели-классификатора значимой областью будет весь документ. Например, на рисунке ниже прямоугольником выделен документ Торг-12.
Для модели, распознающей поля в документе, значимой областью будет часть изображения, которая содержит данные, относящиеся к выбранному полю. Так, на рисунке ниже для поля Грузоотправитель
выбрана область накладной, содержащая данные о грузоотправителе.
Если ваш документ содержит таблицу, то советуем размечать ее следующим образом:
Создайте в схеме разметки поле Шапка таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую заголовки таблицы.
Создайте в схеме разметки поле Тело таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую строки с данными таблицы.
Создайте в схеме разметки поле Подвал таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую нижнюю часть таблицы с результирующими данными.
Если шапка, тело или подвал таблицы может содержать разное количество строк, позаботьтесь о том, чтобы в вашем датасете было как можно больше изображений с примерами для каждого случая. Это позволит модели лучше обучиться и в дальнейшем понимать, что в документах одного типа могут быть разные варианты таблиц.
В блоке Датасет выберите тип датасета Обучение и нажмите кнопку Сохранить разметку.
Размеченные области отобразятся в функциональном блоке Регионы.
Перейдите к следующему изображению вашей галереи и разметьте его аналогичным образом.
Сохраняйте разметку для каждого изображения.
Оставьте примерно 10-20% изображений для тестового датасета. При сохранении разметки этих изображений указывайте датасет Тестовый. Изображения, добавленные в тестовый датасет, будут помечены зеленым цветом в вашей галерее.
После окончания разметки изображений проверьте еще раз соответствие областей с данными выбранным полям. Ошибка негативно повлияет на качество обучения и распознавания документов моделью.
Если вы хотите скорректировать какую-либо размеченную область, воспользуйтесь доступными действиями в функциональном блоке Регионы. После того, как вы скорректировали регион, повторно сохраните разметку для вашего изображения.