Как разметить изображения
Перед началом работы
Ознакомьтесь с рекомендациями по разметке данных.
Роль пользователя, производящего разметку, должна иметь права «Разметка — Просмотр», «Разметка — Создание», «Разметка — Удаление».
Описание рабочей области
Разметка изображения производится на странице Разметка данных. На ней вы увидите следующую рабочую область.
1. Панель инструментов
Сверху расположена панель инструментов для работы с изображением. Слева направо:
Select (v) — позволяет выбрать регион, чтобы применить к нему какое-либо действие. Например, удалить клавишей
Del
, скорректировать выделенную область, перетащить область в другое место (потянув за точку в центре).Drag/Pan (right or middle click) (d) — перетаскивание изображения в пределах рабочей области.
Zoom In/Out (scroll) (z) — позволяет увеличить или уменьшить масштаб изображения в рабочей области. Также масштаб возможно изменить колесиком мыши.
Add Bounding Box (b) — описывающий прямоугольник. Основной инструмент для разметки данных, используется для обозначения местоположения и размера объекта на изображении. Bounding box должен минимально охватывать объект на изображении.
Fit to screen (f) — расположить изображение по размеру экрана.
Rotate image (r) — повернуть изображение. Выравнивание / поворот изображение позволяет выполнить разметку точнее.
2. Функциональный блок для работы со схемой разметки
В данном блоке вы можете:
Выбрать схему разметки, если вы ее создали заранее.
Создать схему разметки, если в проекте нет ни одной схемы.
Добавить в схему новые поля.
Выбрать поле для разметки.
3. Функциональный блок для работы с регионами
Регион представляет собой поле, координаты которого модель обнаружила на изображении. Название региона — это название поля, которое вы выбрали при разметке. Справа от названия региона находятся кнопки:
Удалить — позволяет удалить регион из датасета.
Блокировать / Разблокировать — при блокировке размеченную область нельзя скорректировать. При разблокировке (замочек открыт), вы можете скорректировать область с данными, которую ранее выделили инструментом Add Bounding Box (b).
Скрыть / Отобразить — управляет видимостью региона на изображении.
4. Функциональный блок для работы с датасетами
Размеченные изображения помещаются в следующие датасеты:
Обучение — используется непосредственно для обучения модели. Поместите в этот датасет до 90% размеченных изображений.
Тестовый — изображения из тестового датасета не используются непосредственно для обучения, однако на каждой 100-й итерации процесса обучения изображения используются для оценки текущих способностей модели детектировать объекты. Рассчитанные в этот момент значения точности модели используются для построения кривой Accuracy (красная кривая на графике в разделе Мониторинг обучения). Поместите в этот датасет 10% размеченных изображений.
5. Галерея изображений проекта
В галерее отображаются все изображения, которые вы загрузили в проект. После того, как вы закончили разметку одного изображения, кликните по другой миниатюре, чтобы переключиться между изображениями. При необходимости добавить новое изображение, нажмите +
.
Как разметить изображение
Порядок выполнения шагов:
Создание либо выбор существующей схемы разметки.
Добавление полей в схему разметки.
Разметка данных по выбранным полям.
Сохранение размеченных изображений в датасеты для обучения и тестирования обучения.
Ручная валидация разметки.
Шаг 1. Создайте схему разметки
🔶Важно. Если схема уже создана, просто выберите ее в списке значений.
В функциональном блоке Схема разверните список значений и, если он пуст, нажмите кнопку Создать схему. Схема определяет, какие поля должна находить модель на изображениях.
Укажите произвольное название* схемы и нажмите Сохранить.
*Название может состоять только из букв и цифр, дефиса, подчеркивания и точки.
Шаг 2. Добавьте поля в схему разметки
🔶Важно. Пропустите данный шаг, если схема уже создана, и все необходимые поля добавлены.
Добавьте в схему поля:
Если вы используете модель-классификатор, то название поля должно соответствовать типу документа. Например, ваша цель классифицировать изображения по трем типам документов: паспорт, СНИЛС, Торг-12. Значит, поля должны называться аналогично этим типам.
Если вы используете модель для распознавания данных в документе, то название поля — это категория информации, которая должна быть извлечена из документа. Например, если вы обучаете модель для распознавания данных в паспортах, то поля «Фамилия» или «Дата рождения» будут являться категориями информации, которые необходимо извлечь и структурировать для использования моделью.
Шаг 3. Соотнесите поля с изображениями
🔷Совет. Разметка должна быть выполнена одинаковым образом для всех изображений одного типа. Соблюдайте одинаковые зазоры между текстом и описывающим прямоугольником (bounding box).
В блоке Схема выберите тип поля, нажав на его название. Выбранное поле подсветится синим. Так, на рисунке ниже выбрано поле
Грузополучатель
.В панели инструментов выберите Add Bounding Box (b).
Выделите инструментом Add Bounding Box (b) значимую область документа:
Для модели-классификатора значимой областью будет весь документ. Например, на рисунке ниже прямоугольником выделен документ Торг-12.
Для модели, распознающей поля в документе, значимой областью будет часть изображения, которая содержит данные, относящиеся к выбранному полю. Так, на рисунке ниже для поля
Грузоотправитель
выбрана область накладной, содержащая данные о грузоотправителе.
Если ваш документ содержит таблицу, то советуем размечать ее следующим образом:
Создайте в схеме разметки поле Шапка таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую заголовки таблицы.
Создайте в схеме разметки поле Тело таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую строки с данными таблицы.
Создайте в схеме разметки поле Подвал таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую нижнюю часть таблицы с результирующими данными.
Если шапка, тело или подвал таблицы может содержать разное количество строк, позаботьтесь о том, чтобы в вашем датасете было как можно больше изображений с примерами для каждого случая. Это позволит модели лучше обучиться и в дальнейшем понимать, что в документах одного типа могут быть разные варианты таблиц.
В блоке Датасет выберите тип датасета Обучение и нажмите кнопку Сохранить разметку.
Размеченные области отобразятся в функциональном блоке Регионы.
Перейдите к следующему изображению вашей галереи и разметьте его аналогичным образом.
Сохраняйте разметку для каждого изображения.
Шаг 4. Разделите датасеты
Оставьте примерно 10-20% изображений для тестового датасета. При сохранении разметки этих изображений указывайте датасет Тестовый. Изображения, добавленные в тестовый датасет, будут помечены зеленым цветом в вашей галерее.
Шаг 5. Проверьте качество разметки
После окончания разметки изображений проверьте еще раз соответствие областей с данными выбранным полям. Ошибка негативно повлияет на качество обучения и распознавания документов моделью.
Если вы хотите скорректировать какую-либо размеченную область, воспользуйтесь доступными действиями в функциональном блоке Регионы. После того, как вы скорректировали регион, повторно сохраните разметку для вашего изображения.
Last updated