Создание проекта с нуля

Общий порядок действий:

Права доступа

Для выполнения перечисленных действий воспользуйтесь учетной записью администратора либо записью пользователя, роль которого обладает следующими минимальными правами:

  • «Все проекты — Создание», «Все проекты — Просмотр».

  • «Разметка — Просмотр», «Разметка — Создание», «Разметка — Удаление».

  • «Схемы разметки — Создание», «Схемы разметки — Просмотр», «Схемы разметки — Редактирование».

  • «Шаблоны процесса обучения — Создание», «Шаблоны процесса обучения — Просмотр».

  • «Процессы обучения — Создание», «Процессы обучения — Просмотр», «Процессы обучения — Управление».

  • «Шаблоны инференс — Создание», «Шаблоны инференс — Просмотр».

  • «Процесс инференс — Создание», «Процесс инференс — Просмотр», «Процесс инференс — Управление».

Создание проекта

  1. На странице Проекты нажмите кнопку Добавить проект.

    Откроется форма добавления проекта.

  2. В поле Имя проекта* укажите название будущего проекта. Допустимы только буквы, цифры, дефис, подчеркивания и точки.

  3. При желании заполните поле Описание проекта. Оно отобразится под названием проекта и поможет быстрее понять его назначение другим пользователям.

  4. Укажите положение переключателя Классификатор:

    • переключатель выключен — положение по умолчанию. Параметр указывает на тип задач, которые предстоит решать модели. Если параметр выключен, модель будет использоваться для распознавания данных в определенном типе документа.

    • переключатель включен — модель будет использоваться для классификации изображений по типам документов. Типы документов задаются позднее в схеме разметки.

  5. В завершение нажмите Сохранить.

Созданный проект отобразится на главной странице Проекты. Чтобы перейти в проект, нажмите карточку проекта. В панели слева отобразится меню с разделами проекта. В этих разделах вы будете управлять ресурсами проекта: данными, схемой разметки, моделями и т. д.

Добавление изображений

Требования к изображениям

Изучите требования к формату, качеству и количеству изображений для обучения.

Как добавить изображения

  1. Находясь в выбранном проекте, перейдите на страницу Данные.

  2. Нажмите кнопку Добавить изображения — откроется форма для загрузки изображений.

  3. Выберите со своего диска все изображения, которые хотите добавить.

  4. Нажмите Сохранить.

Разметка изображений

Рекомендации по разметке данных

Чтобы избежать проблем при инференсе, обязательно изучите рекомендации по разметке данных. Качество разметки данных важнее размера датасета.

Описание рабочей области

Разметка изображения производится на странице Разметка данных. На ней вы увидите следующую рабочую область.

1. Панель инструментов

Сверху расположена панель инструментов для работы с изображением. Слева направо:

  • Select (v) — позволяет выбрать регион, чтобы применить к нему какое-либо действие. Например, удалить клавишей Del, скорректировать выделенную область, перетащить область в другое место (потянув за точку в центре).

  • Drag/Pan (right or middle click) (d) — перетаскивание изображения в пределах рабочей области.

  • Zoom In/Out (scroll) (z) — позволяет увеличить или уменьшить масштаб изображения в рабочей области. Также масштаб возможно изменить колесиком мыши.

  • Add Bounding Box (b) — описывающий прямоугольник. Основной инструмент для разметки данных, используется для обозначения местоположения и размера объекта на изображении. Bounding box должен минимально охватывать объект на изображении.

  • Fit to screen (f) — расположить изображение по размеру экрана.

  • Rotate image (r) — повернуть изображение. Выравнивание / поворот изображение позволяет выполнить разметку точнее.

2. Функциональный блок для работы со схемой разметки

В данном блоке вы сможете:

  • Выбрать схему разметки, если она уже создана.

  • Создать схему разметки, если в проекте нет ни одной схемы.

  • Добавить в схему новые поля.

  • Выбрать поле для разметки.

3. Функциональный блок для работы с регионами

Регион представляет собой поле, координаты которого модели удалось обнаружить на изображении. Название региона — это название поля, которое вы выбрали при разметке. Справа от названия региона находятся кнопки:

  • Удалить — позволяет удалить регион из датасета.

  • Блокировать / Разблокировать — при блокировке размеченную область нельзя скорректировать. При разблокировке (замочек открыт), вы можете скорректировать область с данными, которую ранее выделили инструментом Add Bounding Box (b).

  • Скрыть / Отобразить — управляет видимостью региона на изображении.

4. Функциональный блок для работы с датасетами

Размеченные изображения помещаются в следующие датасеты:

  • Обучение — используется непосредственно для обучения модели. Поместите в этот датасет до 90% размеченных изображений.

  • Тестовый — изображения из тестового датасета не используются непосредственно для обучения, однако на каждой 100-й итерации процесса обучения изображения используются для оценки текущих способностей модели детектировать объекты. Рассчитанные в этот момент значения точности модели используются для построения кривой Accuracy (красная кривая на графике в разделе Мониторинг обучения). Поместите в этот датасет 10% размеченных изображений.

5. Галерея изображений проекта

В галерее отображаются все изображения, которые вы загрузили в проект. После того, как вы закончили разметку одного изображения, кликните по другой миниатюре, чтобы переключиться между изображениями. При необходимости добавить новое изображение, нажмите +.

Как разметить изображения

Шаг 1. Создайте схему разметки

🔶Важно. Если схема уже создана, просто выберите ее в списке значений.

В функциональном блоке Схема разверните список значений и, если он пуст, нажмите кнопку Создать схему. Схема определяет, какие поля должна находить модель на изображениях.

Укажите произвольное название* схемы и нажмите Сохранить.

*Название может состоять только из букв и цифр, дефиса, подчеркивания и точки.

Шаг 2. Добавьте поля в схему разметки

🔶Важно. Пропустите данный шаг, если схема уже создана, и все необходимые поля добавлены.

Добавьте в схему поля:

  • Если вы используете модель-классификатор, то название поля должно соответствовать типу документа. Например, ваша цель классифицировать изображения по трем типам документов: паспорт, СНИЛС, Торг-12. Значит, поля должны называться аналогично этим типам.

  • Если вы используете модель для распознавания данных в документе, то название поля — это категория информации, которая должна быть извлечена из документа. Например, если вы обучаете модель для распознавания данных в паспортах, то поля «Фамилия» или «Дата рождения» будут являться категориями информации, которые необходимо извлечь и структурировать для использования моделью.

Шаг 3. Соотнесите поля с изображениями

🔷Совет. Разметка должна быть выполнена одинаковым образом для всех изображений одного типа. Соблюдайте одинаковые зазоры между текстом и описывающим прямоугольником (bounding box).

  1. В блоке Схема выберите тип поля, нажав на его название. Выбранное поле подсветится синим. Так, на рисунке ниже выбрано поле Грузополучатель.

  2. В панели инструментов выберите Add Bounding Box (b).

  3. Выделите инструментом Add Bounding Box (b) значимую область документа:

    • Для модели-классификатора значимой областью будет весь документ. Например, на рисунке ниже прямоугольником выделен документ Торг-12.

    • Для модели, распознающей поля в документе, значимой областью будет только та часть изображения, которая содержит данные, относящиеся к выбранному полю. Так, на рисунке ниже, для поля Грузоотправитель выбрана область накладной с данными о грузоотправителе.

    Если документ содержит таблицу, то советуем размечать ее следующим образом:

    • Создайте в схеме разметки поле Шапка таблицы, выберите это поле и выделите инструментом Add Bounding Box (b) область, содержащую заголовки таблицы.

    • Создайте в схеме разметки поле Тело таблицы, выберите это поле и выделите инструментом Add Bounding Box (b) область, содержащую строки с данными таблицы.

    • Создайте в схеме разметки поле Подвал таблицы, выберите это поле и выделите инструментом Add Bounding Box (b) область, содержащую нижнюю часть таблицы с результирующими данными.

    Если шапка, тело или подвал таблицы может содержать разное количество строк, позаботьтесь о том, чтобы в вашем датасете было как можно больше изображений с примерами для каждого случая. Это позволит модели лучше обучиться и в дальнейшем понимать, что в документах одного типа могут быть разные варианты таблиц.

  4. В блоке Датасет выберите тип датасета Обучение и нажмите кнопку Сохранить разметку.

  5. Размеченные области отобразятся в функциональном блоке Регионы.

  6. Перейдите к следующему изображению вашей галереи и разметьте его аналогичным образом.

  7. Сохраняйте разметку для каждого изображения.

Шаг 4. Разделите датасеты

Оставьте примерно 10-20% изображений для тестового датасета. При сохранении разметки этих изображений указывайте датасет Тестовый. Изображения, добавленные в тестовый датасет, будут помечены зеленым цветом в вашей галерее.

Шаг 5. Проверьте качество разметки

После окончания разметки изображений проверьте еще раз соответствие областей с данными выбранным полям. Ошибка негативно повлияет на качество обучения и распознавания документов моделью.

Если вы хотите скорректировать какую-либо размеченную область, воспользуйтесь доступными действиями в функциональном блоке Регионы. После того, как вы скорректировали регион, повторно сохраните разметку для вашего изображения.

Создание шаблона процесса обучения

  1. Перейдите на страницу Обучение > Шаблоны обучения.

  2. Нажмите кнопку Добавить шаблон обучения — откр