Рекомендации по разметке данных

‼️ Качество разметки данных важнее размера датасета.

Чтобы избежать проблем при инференсе, соблюдайте следующие рекомендации при разметке данных на изображениях, входящих в обучающий и тестовый датасеты.

Консистентность разметки

  • Разметка должна быть выполнена одинаковым образом для всех изображений одного типа. Соблюдайте одинаковые зазоры между текстом и описывающим прямоугольником (bounding box).

Баланс полей

  • Обеспечьте равномерное распределение различных типов полей по всему датасету.

  • Избегайте преобладания полей одного типа.

Например, если в накладной встречаются документы с отсутствующим полем "Основание" — постарайтесь обеспечить несколько десятков таких образцов. При этом они не должны быть доминирующими в количественном отношении.

Аугментация данных

  • Применяйте аугментацию* для увеличения разнообразия датасета — модифицируйте первоначальные изображения с помощью поворотов, изменения экспозиции, добавления шума и растяжения (сжатия) для создания дополнительных изображений.

Аугментацию можно выполнить автоматически — для этого, при создании шаблона обучения модели, укажите в параметре «Искуственно расширить датасет» значение повороты + экспозиция + шум.

Разделение на обучающий и тестовый датасеты

  • Разделите изображения на обучающий (90%) и тестовый (10%) датасеты.

  • Поместите в тестовый датасет проблемные, по вашему мнению, изображения для оценки качества обученной модели.

  • Убедитесь, что тестовый набор включает разнообразные типы форматов и полей.

Качество разметки

  • После завершения разметки проверьте еще раз соответствие значений выбранным полям.

  • Исправьте любые ошибки и неточности в разметке. Ошибки могут негативно повлиять на качество распознавания.

Заключение

Следуя данным рекомендациям, вы сможете создать датасет, который обеспечит эффективное обучение модели для определения полей в отсканированных документах.

Если у вас возникли вопросы или требуется дополнительная информация, пожалуйста, свяжитесь с разработчиками системы Primo RPA AI Server.

См. также:

  • Требования к изображениям для обучения

*Аугментация — методика создания дополнительных данных посредством модификации уже имеющихся. Аугментация применяется, если в первоначальном датасете содержится ограниченное количество изображений, поэтому требуется его расширить для лучшего обучения модели. Если у вас GPU, всегда используйте аугментацию.

Last updated