Skip to Content

Инструкция по разметке изображений

Роль пользователя должна иметь права «Разметка — Просмотр», «Разметка — Создание», «Разметка — Удаление».

Перед тем, как приступать к разметке, ознакомьтесь с рекомендациями по разметке и описанием рабочей области.

Порядок выполнения разметки

  1. Создание либо выбор существующей схемы разметки.
  2. Добавление полей в схему разметки.
  3. Разметка данных по выбранным полям.
  4. Сохранение размеченных изображений в датасеты для обучения и тестирования обучения.
  5. Ручная валидация разметки.

Шаг 1. Создайте схему разметки

ℹ️

Если схема уже создана, просто выберите ее в списке значений.

В функциональном блоке Схема разверните список значений. Схема определяет, какие поля должна находить модель на изображениях.

Если список значений пуст, то:

  1. Нажмите кнопку Создать схему.
  2. Укажите произвольное название схемы. Название может состоять только из букв и цифр, дефиса, подчеркивания и точки.
  3. Нажмите Сохранить.

alt

Шаг 2. Добавьте поля в схему разметки

ℹ️

Пропустите данный шаг, если схема уже создана, и все необходимые поля в неё добавлены.

alt

Добавьте в схему поля:

  • Если вы используете модель-классификатор, то название поля должно соответствовать типу документа. Например, ваша цель классифицировать изображения по трем типам документов: паспорт, СНИЛС, Торг-12. Значит, поля должны называться аналогично этим типам.
  • Если вы используете модель для распознавания данных в документе, то название поля — это категория информации, которая должна быть извлечена из документа. Например, если вы обучаете модель для распознавания данных в паспортах, то поля «Фамилия» или «Дата рождения» будут являться категориями информации, которые необходимо извлечь и структурировать для использования моделью.

Шаг 3. Соотнесите поля с изображениями

ℹ️

Разметка должна быть выполнена одинаковым образом для всех изображений одного типа. Соблюдайте одинаковые зазоры между текстом и описывающим прямоугольником (bounding box).

  1. В блоке Схема выберите тип поля, нажав на его название. Выбранное поле подсветится синим. Так, на рисунке ниже выбрано поле Грузополучатель.

    alt

  2. В панели инструментов выберите Add Bounding Box (b).

    alt

  3. Выделите инструментом Add Bounding Box (b) значимую область документа:

    • Для модели-классификатора значимой областью будет весь документ. Например, на рисунке ниже прямоугольником выделен документ Торг-12.

    alt

    • Для модели, распознающей поля в документе, значимой областью будет часть изображения, которая содержит данные, относящиеся к выбранному полю. Так, на рисунке ниже для поля Грузоотправитель выбрана область накладной, содержащая данные о грузоотправителе.

    alt

    Если ваш документ содержит таблицу, то советуем размечать ее следующим образом:

    • Создайте в схеме разметки поле Шапка таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую заголовки таблицы.
    • Создайте в схеме разметки поле Тело таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую строки с данными таблицы.
    • Создайте в схеме разметки поле Подвал таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую нижнюю часть таблицы с результирующими данными.

    Если шапка, тело или подвал таблицы может содержать разное количество строк, позаботьтесь о том, чтобы в вашем датасете было как можно больше изображений с примерами для каждого случая. Это позволит модели лучше обучиться и в дальнейшем понимать, что в документах одного типа могут быть разные варианты таблиц.

  4. В блоке Датасет выберите тип датасета Обучение и нажмите кнопку Сохранить разметку.

    alt

    Размеченные области отобразятся в функциональном блоке Регионы.

  5. Перейдите к следующему изображению вашей галереи и разметьте его аналогичным образом. Сохраняйте разметку для каждого изображения!

Шаг 4. Разделите датасеты

Оставьте примерно 10-20% изображений для тестового датасета. При сохранении разметки этих изображений указывайте датасет Тестовый. Изображения, добавленные в тестовый датасет, будут помечены зеленым цветом в вашей галерее.

alt

Шаг 5. Проверьте качество разметки

После окончания разметки изображений проверьте еще раз соответствие областей с данными выбранным полям. Ошибка негативно повлияет на качество обучения и распознавания документов моделью.

Если вы хотите скорректировать какую-либо размеченную область, воспользуйтесь доступными действиями в функциональном блоке Регионы. После того, как вы скорректировали регион, повторно сохраните разметку для вашего изображения.

Дополнительные сведения

Вы можете разметить только ~10% изображений, а для оставшейся части использовать авторазметку, чтобы сократить время ручного труда.