Рекомендации по разметке данных
‼️ Качество разметки данных важнее размера датасета.
Чтобы избежать проблем при инференсе, соблюдайте следующие рекомендации при разметке данных на изображениях, входящих в обучающий и тестовый датасеты.
Консистентность разметки
Разметка должна быть выполнена одинаковым образом для всех изображений одного типа. Соблюдайте одинаковые зазоры между текстом и описывающим прямоугольником (bounding box).
Баланс полей
Обеспечьте равномерное распределение различных типов полей по всему датасету.
Избегайте преобладания полей одного типа.
Например, если в накладной встречаются документы с отсутствующим полем "Основание" — постарайтесь обеспечить несколько десятков таких образцов. При этом они не должны быть доминирующими в количественном отношении.
Аугментация данных
Применяйте аугментацию* для увеличения разнообразия датасета — модифицируйте первоначальные изображения с помощью поворотов, изменения экспозиции, добавления шума и растяжения (сжатия) для создания дополнительных изображений.
Аугментацию можно выполнить автоматически — для этого, при создании шаблона обучения модели, укажите в параметре «Искуственно расширить датасет» значение повороты + экспозиция + шум
.
Разделение на обучающий и тестовый датасеты
Разделите изображения на обучающий (90%) и тестовый (10%) датасеты.
Поместите в тестовый датасет проблемные, по вашему мнению, изображения для оценки качества обученной модели.
Убедитесь, что тестовый набор включает разнообразные типы форматов и полей.
Качество разметки
После завершения разметки проверьте еще раз соответствие значений выбранным полям.
Исправьте любые ошибки и неточности в разметке. Ошибки могут негативно повлиять на качество распознавания.
Заключение
Следуя данным рекомендациям, вы сможете создать датасет, который обеспечит эффективное обучение модели для определения полей в отсканированных документах.
Если у вас возникли вопросы или требуется дополнительная информация, пожалуйста, свяжитесь с разработчиками системы Primo RPA AI Server.
См. также:
Требования к изображениям для обучения
*Аугментация — методика создания дополнительных данных посредством модификации уже имеющихся. Аугментация применяется, если в первоначальном датасете содержится ограниченное количество изображений, поэтому требуется его расширить для лучшего обучения модели. Если у вас GPU, всегда используйте аугментацию.
Last updated