Как разметить изображения

Перед началом работы

Ознакомьтесь с рекомендациями по разметке данных.

Роль пользователя, производящего разметку, должна иметь права «Разметка — Просмотр», «Разметка — Создание», «Разметка — Удаление».

Описание рабочей области

Разметка изображения производится на странице Разметка данных. На ней вы увидите следующую рабочую область.

1. Панель инструментов

Сверху расположена панель инструментов для работы с изображением. Слева направо:

  • Select (v) — позволяет выбрать регион, чтобы применить к нему какое-либо действие. Например, удалить клавишей Del, скорректировать выделенную область, перетащить область в другое место (потянув за точку в центре).

  • Drag/Pan (right or middle click) (d) — перетаскивание изображения в пределах рабочей области.

  • Zoom In/Out (scroll) (z) — позволяет увеличить или уменьшить масштаб изображения в рабочей области. Также масштаб возможно изменить колесиком мыши.

  • Add Bounding Box (b) — описывающий прямоугольник. Основной инструмент для разметки данных, используется для обозначения местоположения и размера объекта на изображении. Bounding box должен минимально охватывать объект на изображении.

  • Fit to screen (f) — расположить изображение по размеру экрана.

  • Rotate image (r) — повернуть изображение. Выравнивание / поворот изображение позволяет выполнить разметку точнее.

2. Функциональный блок для работы со схемой разметки

В данном блоке вы можете:

  • Выбрать схему разметки, если вы ее создали заранее.

  • Создать схему разметки, если в проекте нет ни одной схемы.

  • Добавить в схему новые поля.

  • Выбрать поле для разметки.

3. Функциональный блок для работы с регионами

Регион представляет собой поле, координаты которого модель обнаружила на изображении. Название региона — это название поля, которое вы выбрали при разметке. Справа от названия региона находятся кнопки:

  • Удалить — позволяет удалить регион из датасета.

  • Блокировать / Разблокировать — при блокировке размеченную область нельзя скорректировать. При разблокировке (замочек открыт), вы можете скорректировать область с данными, которую ранее выделили инструментом Add Bounding Box (b).

  • Скрыть / Отобразить — управляет видимостью региона на изображении.

4. Функциональный блок для работы с датасетами

Размеченные изображения помещаются в следующие датасеты:

  • Обучение — используется непосредственно для обучения модели. Поместите в этот датасет до 90% размеченных изображений.

  • Тестовый — изображения из тестового датасета не используются непосредственно для обучения, однако на каждой 100-й итерации процесса обучения изображения используются для оценки текущих способностей модели детектировать объекты. Рассчитанные в этот момент значения точности модели используются для построения кривой Accuracy (красная кривая на графике в разделе Мониторинг обучения). Поместите в этот датасет 10% размеченных изображений.

5. Галерея изображений проекта

В галерее отображаются все изображения, которые вы загрузили в проект. После того, как вы закончили разметку одного изображения, кликните по другой миниатюре, чтобы переключиться между изображениями. При необходимости добавить новое изображение, нажмите +.

Как разметить изображение

Порядок выполнения шагов:

  1. Создание либо выбор существующей схемы разметки.

  2. Добавление полей в схему разметки.

  3. Разметка данных по выбранным полям.

  4. Сохранение размеченных изображений в датасеты для обучения и тестирования обучения.

  5. Ручная валидация разметки.

Шаг 1. Создайте схему разметки

🔶Важно. Если схема уже создана, просто выберите ее в списке значений.

В функциональном блоке Схема разверните список значений и, если он пуст, нажмите кнопку Создать схему. Схема определяет, какие поля должна находить модель на изображениях.

Укажите произвольное название* схемы и нажмите Сохранить.

*Название может состоять только из букв и цифр, дефиса, подчеркивания и точки.

Шаг 2. Добавьте поля в схему разметки

🔶Важно. Пропустите данный шаг, если схема уже создана, и все необходимые поля добавлены.

Добавьте в схему поля:

  • Если вы используете модель-классификатор, то название поля должно соответствовать типу документа. Например, ваша цель классифицировать изображения по трем типам документов: паспорт, СНИЛС, Торг-12. Значит, поля должны называться аналогично этим типам.

  • Если вы используете модель для распознавания данных в документе, то название поля — это категория информации, которая должна быть извлечена из документа. Например, если вы обучаете модель для распознавания данных в паспортах, то поля «Фамилия» или «Дата рождения» будут являться категориями информации, которые необходимо извлечь и структурировать для использования моделью.

Шаг 3. Соотнесите поля с изображениями

🔷Совет. Разметка должна быть выполнена одинаковым образом для всех изображений одного типа. Соблюдайте одинаковые зазоры между текстом и описывающим прямоугольником (bounding box).

  1. В блоке Схема выберите тип поля, нажав на его название. Выбранное поле подсветится синим. Так, на рисунке ниже выбрано поле Грузополучатель.

  2. В панели инструментов выберите Add Bounding Box (b).

  3. Выделите инструментом Add Bounding Box (b) значимую область документа:

    • Для модели-классификатора значимой областью будет весь документ. Например, на рисунке ниже прямоугольником выделен документ Торг-12.

    • Для модели, распознающей поля в документе, значимой областью будет часть изображения, которая содержит данные, относящиеся к выбранному полю. Так, на рисунке ниже для поля Грузоотправитель выбрана область накладной, содержащая данные о грузоотправителе.

    Если ваш документ содержит таблицу, то советуем размечать ее следующим образом:

    • Создайте в схеме разметки поле Шапка таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую заголовки таблицы.

    • Создайте в схеме разметки поле Тело таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую строки с данными таблицы.

    • Создайте в схеме разметки поле Подвал таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую нижнюю часть таблицы с результирующими данными.

    Если шапка, тело или подвал таблицы может содержать разное количество строк, позаботьтесь о том, чтобы в вашем датасете было как можно больше изображений с примерами для каждого случая. Это позволит модели лучше обучиться и в дальнейшем понимать, что в документах одного типа могут быть разные варианты таблиц.

  4. В блоке Датасет выберите тип датасета Обучение и нажмите кнопку Сохранить разметку.

  5. Размеченные области отобразятся в функциональном блоке Регионы.

  6. Перейдите к следующему изображению вашей галереи и разметьте его аналогичным образом.

  7. Сохраняйте разметку для каждого изображения.

Шаг 4. Разделите датасеты

Оставьте примерно 10-20% изображений для тестового датасета. При сохранении разметки этих изображений указывайте датасет Тестовый. Изображения, добавленные в тестовый датасет, будут помечены зеленым цветом в вашей галерее.

Шаг 5. Проверьте качество разметки

После окончания разметки изображений проверьте еще раз соответствие областей с данными выбранным полям. Ошибка негативно повлияет на качество обучения и распознавания документов моделью.

Если вы хотите скорректировать какую-либо размеченную область, воспользуйтесь доступными действиями в функциональном блоке Регионы. После того, как вы скорректировали регион, повторно сохраните разметку для вашего изображения.

Last updated