Инструкция по разметке
Last updated
Last updated
Роль пользователя должна иметь права «Разметка — Просмотр», «Разметка — Создание», «Разметка — Удаление».
Перед тем, как приступать к разметке, ознакомьтесь с рекомендациями и описанием рабочей области.
Порядок выполнения шагов:
Создание либо выбор существующей схемы разметки.
Добавление полей в схему разметки.
Разметка данных по выбранным полям.
Сохранение размеченных изображений в датасеты для обучения и тестирования обучения.
Ручная валидация разметки.
Если схема уже создана, просто выберите ее в списке значений.
В функциональном блоке Схема разверните список значений и, если он пуст, нажмите кнопку Создать схему. Схема определяет, какие поля должна находить модель на изображениях.
Укажите произвольное название* схемы и нажмите Сохранить.
*Название может состоять только из букв и цифр, дефиса, подчеркивания и точки.
Пропустите данный шаг, если схема уже создана, и все необходимые поля добавлены.
Добавьте в схему поля:
Если вы используете модель-классификатор, то название поля должно соответствовать типу документа. Например, ваша цель классифицировать изображения по трем типам документов: паспорт, СНИЛС, Торг-12. Значит, поля должны называться аналогично этим типам.
Если вы используете модель для распознавания данных в документе, то название поля — это категория информации, которая должна быть извлечена из документа. Например, если вы обучаете модель для распознавания данных в паспортах, то поля «Фамилия» или «Дата рождения» будут являться категориями информации, которые необходимо извлечь и структурировать для использования моделью.
Совет. Разметка должна быть выполнена одинаковым образом для всех изображений одного типа. Соблюдайте одинаковые зазоры между текстом и описывающим прямоугольником (bounding box).
В блоке Схема выберите тип поля, нажав на его название. Выбранное поле подсветится синим. Так, на рисунке ниже выбрано поле Грузополучатель
.
В панели инструментов выберите Add Bounding Box (b).
Выделите инструментом Add Bounding Box (b) значимую область документа:
Для модели-классификатора значимой областью будет весь документ. Например, на рисунке ниже прямоугольником выделен документ Торг-12.
Для модели, распознающей поля в документе, значимой областью будет часть изображения, которая содержит данные, относящиеся к выбранному полю. Так, на рисунке ниже для поля Грузоотправитель
выбрана область накладной, содержащая данные о грузоотправителе.
Если ваш документ содержит таблицу, то советуем размечать ее следующим образом:
Создайте в схеме разметки поле Шапка таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую заголовки таблицы.
Создайте в схеме разметки поле Тело таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую строки с данными таблицы.
Создайте в схеме разметки поле Подвал таблицы, выберите это поле, после чего выделите инструментом Add Bounding Box (b) область, содержащую нижнюю часть таблицы с результирующими данными.
Если шапка, тело или подвал таблицы может содержать разное количество строк, позаботьтесь о том, чтобы в вашем датасете было как можно больше изображений с примерами для каждого случая. Это позволит модели лучше обучиться и в дальнейшем понимать, что в документах одного типа могут быть разные варианты таблиц.
В блоке Датасет выберите тип датасета Обучение и нажмите кнопку Сохранить разметку.
Размеченные области отобразятся в функциональном блоке Регионы.
Перейдите к следующему изображению вашей галереи и разметьте его аналогичным образом.
Сохраняйте разметку для каждого изображения.
Оставьте примерно 10-20% изображений для тестового датасета. При сохранении разметки этих изображений указывайте датасет Тестовый. Изображения, добавленные в тестовый датасет, будут помечены зеленым цветом в вашей галерее.
После окончания разметки изображений проверьте еще раз соответствие областей с данными выбранным полям. Ошибка негативно повлияет на качество обучения и распознавания документов моделью.
Если вы хотите скорректировать какую-либо размеченную область, воспользуйтесь доступными действиями в функциональном блоке Регионы. После того, как вы скорректировали регион, повторно сохраните разметку для вашего изображения.