Инструкция по разметке изображений
Роль пользователя должна иметь права «Разметка — Просмотр», «Разметка — Создание», «Разметка — Удаление».
Перед тем, как приступать к разметке, ознакомьтесь с рекомендациями по разметке и описанием рабочей области.
Порядок выполнения разметки
- Создание либо выбор существующей схемы разметки.
- Добавление полей в схему разметки.
- Разметка данных по выбранным полям.
- Сохранение размеченных изображений в датасеты для обучения и тестирования обучения.
- Ручная валидация разметки.
Шаг 1. Создайте схему разметки
Если схема уже создана, просто выберите ее в списке значений.
В функциональном блоке Схема разверните список значений. Схема определяет, какие поля должна находить модель на изображениях.
Если список значений пуст, то:
- Нажмите кнопку Создать схему.
- Укажите произвольное название схемы. Название может состоять только из букв и цифр, дефиса, подчеркивания и точки.
- Нажмите Сохранить.
Шаг 2. Добавьте поля в схему разметки
Пропустите данный шаг, если схема уже создана, и все необходимые поля в неё добавлены.
Добавьте в схему поля:
- Если вы используете модель-классификатор, то название поля должно соответствовать типу документа. Например, ваша цель классифицировать изображения по трем типам документов: паспорт, СНИЛС, Торг-12. Значит, поля должны называться аналогично этим типам.
- Если вы используете модель для распознавания данных в документе, то название поля — это категория информации, которая должна быть извлечена из документа. Например, если вы обучаете модель для распознавания данных в паспортах, то поля «Фамилия» или «Дата рождения» будут являться категориями информации, которые необходимо извлечь и структурировать для использования моделью.
Шаг 3. Соотнесите поля с изображениями
Разметка должна быть выполнена одинаковым образом для всех изображений одного типа. Соблюдайте одинаковые зазоры между текстом и описывающим прямоугольником (bounding box).
-
В блоке Схема выберите тип поля, нажав на его название. Выбранное поле подсветится синим. Так, на рисунке ниже выбрано поле
Грузополучатель
. -
В панели инструментов выберите Add Bounding Box (b).
-
Выделите инструментом Add Bounding Box (b) значимую область документа:
- Для модели-классификатора значимой областью будет весь документ. Например, на рисунке ниже прямоугольником выделен документ Торг-12.
- Для модели, распознающей поля в документе, значимой областью будет часть изображения, которая содержит данные, относящиеся к выбранному полю. Так, на рисунке ниже для поля
Грузоотправитель
выбрана область накладной, содержащая данные о грузоотправителе.
Если ваш документ содержит таблицу, то советуем размечать ее следующим образом:
- Создайте в схеме разметки поле Шапка таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую заголовки таблицы.
- Создайте в схеме разметки поле Тело таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую строки с данными таблицы.
- Создайте в схеме разметки поле Подвал таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую нижнюю часть таблицы с результирующими данными.
Если шапка, тело или подвал таблицы может содержать разное количество строк, позаботьтесь о том, чтобы в вашем датасете было как можно больше изображений с примерами для каждого случая. Это позволит модели лучше обучиться и в дальнейшем понимать, что в документах одного типа могут быть разные варианты таблиц.
-
В блоке Датасет выберите тип датасета Обучение и нажмите кнопку Сохранить разметку.
Размеченные области отобразятся в функциональном блоке Регионы.
-
Перейдите к следующему изображению вашей галереи и разметьте его аналогичным образом. Сохраняйте разметку для каждого изображения!
Шаг 4. Разделите датасеты
Оставьте примерно 10-20% изображений для тестового датасета. При сохранении разметки этих изображений указывайте датасет Тестовый. Изображения, добавленные в тестовый датасет, будут помечены зеленым цветом в вашей галерее.
Шаг 5. Проверьте качество разметки
После окончания разметки изображений проверьте еще раз соответствие областей с данными выбранным полям. Ошибка негативно повлияет на качество обучения и распознавания документов моделью.
Если вы хотите скорректировать какую-либо размеченную область, воспользуйтесь доступными действиями в функциональном блоке Регионы. После того, как вы скорректировали регион, повторно сохраните разметку для вашего изображения.
Дополнительные сведения
Вы можете разметить только ~10% изображений, а для оставшейся части использовать авторазметку, чтобы сократить время ручного труда.