Требования к изображениям для обучения
Для успешного обучения модели необходимо подготовить качественный датасет. В этом разделе изложены требования и рекомендации к таким изображениям.
Общие требования
1. Формат и качество изображений
JPEG, JPG, JPE, PNG, BPM, DIB, TIFF, TIF.
Разрешение должно быть не менее 100 DPI* — значение должно быть достаточным для четкого распознавания полей.
Избегайте изображений с размытостью, плохо читаемым текстом.
2. Количество изображений в датасете
Минимум несколько десятков изображений документов определенного формата/вида.
Например, если у вас есть счета от разных клиентов, которые частично отличаются (со штрихкодом и без, с логотипом поставщика и без), то надо подготовить, как минимум, несколько десятков изображений каждого образца.
3. Количество страниц в изображении
Датасеты для обучения составляются из одностраничных документов. Многостраничные документы необходимо разбить на отдельные страницы и загружать в датасет постранично.
Дополнительно
Используйте темные, светлые, остканированные, сфотографированные, преобразованные из векторных форматов и прочие изображения — охватите все возможные варианты, которые будут поступать в систему на этапе инференса.
Убедитесь, что датасет отражает реальные сценарии использования — если на изображениях для инференса могут быть тени, шумы, изгибы бумаги, то изображения для обучения тоже должны их содержать.
Заключение
Подготовка качественного датасета — это ключевой шаг для успешного обучения нейросети. Чем больше изображений добавлено в датасет, тем выше будут способности обученной модели к распознаванию.
См. также:
*DPI — количество точек (пикселей) на дюйм.
Last updated