Изображения для обучения

Для успешного обучения модели необходимо подготовить качественный датасет. В этом разделе изложены требования и рекомендации к таким изображениям.

Общие требования

1. Формат и качество изображений

  • JPEG, JPG, JPE, PNG, BPM, DIB, TIFF, TIF.

  • Разрешение должно быть не менее 100 DPI* — значение должно быть достаточным для четкого распознавания полей.

  • Избегайте изображений с размытостью, плохо читаемым текстом.

2. Количество изображений в датасете

  • Минимум несколько десятков изображений документов определенного формата/вида.

    Например, если у вас есть счета от разных клиентов, которые частично отличаются (со штрихкодом и без, с логотипом поставщика и без), то надо подготовить, как минимум, несколько десятков изображений каждого образца.

3. Количество страниц в изображении

  • Датасеты для обучения составляются из одностраничных документов. Многостраничные документы необходимо разбить на отдельные страницы и загружать в датасет постранично.

Дополнительно

  • Используйте темные, светлые, остканированные, сфотографированные, преобразованные из векторных форматов и прочие изображения — охватите все возможные варианты, которые будут поступать в систему на этапе инференса.

  • Убедитесь, что датасет отражает реальные сценарии использования — если на изображениях для инференса могут быть тени, шумы, изгибы бумаги, то изображения для обучения тоже должны их содержать.

Заключение

Подготовка качественного датасета — это ключевой шаг для успешного обучения нейросети. Чем больше изображений добавлено в датасет, тем выше будут способности обученной модели к распознаванию.

См. также:

*DPI — количество точек (пикселей) на дюйм.

Last updated