Рекомендации к качеству изображений
Общие положения
Эта статья устанавливает строго рекомендуемые требования к качеству входных изображений для корректной работы системы оптического распознавания символов (OCR). Соблюдение требований обеспечивает высокую точность распознавания при надлежащем качестве оригинала.
Требования разделены на три категории в соответствии с типом источника изображения: отсканированные документы, фотографии документов и рукописный текст.
Краткая памятка с примерами искажений приведена в п.4
Раздел 1. Отсканированные документы
Требования к качеству
Разрешение
Разрешение является главным параметром качества сканирования. Ниже приведены нормативные значения в зависимости от типа документа:
| Тип документа | Минимум dpi | Размер в пикс. А4 | Размер в пикс. А5 |
|---|---|---|---|
| Стандартный шрифт (≥10 пт) | 150 dpi | 1240 × 1754 | 874 × 1240 |
| Мелкий текст (6–9 пт), таблицы | 200 dpi | 1654 × 2339 | 1165 × 1654 |
Цветовой режим
- Чёрно-белый (1 бит, binarized) — допускается только при высоком качестве оригинала и разрешении ≥300 dpi. Пороговая бинаризация должна сохранять все штрихи символов без разрывов.
- Оттенки серого (8 бит) — предпочтительный режим для большинства документов. Позволяет системе самостоятельно выбрать оптимальный порог бинаризации.
- Цветной (24 бит, RGB) — используется при наличии цветных элементов, важных для распознавания (печати, выделения). Увеличивает объём файла.
Контрастность и яркость
- Контраст текст/фон — не менее 60% по шкале яркости: текст ≤100, фон ≥200.
- Равномерность фона: перепад яркости по площади листа — не более 15%.
- Недопустимы: засветы и тёмные пятна, перекрывающие текст.
Геометрия и ориентация
- Перспективные искажения недопустимы (при планшетном сканировании отсутствуют).
- Поля: не менее 5 мм со всех сторон для корректного определения текстовых блоков.
Aртефакты и помехи
- Муар (при сканировании полиграфии): недопустим на уровне, перекрывающем символы. Для устранения — использовать режим «устранение муара» сканера или подобрать разрешение сканирования, на котором эффект проявляется минимально.
- Пятна и полосы от сканера: недопустимы в зоне текста.
- Просвечивание с оборотной стороны: допустимо только если яркость просвечивающих символов на 40% слабее основного текста.
- Перфорация и дыроколы: допустимы на местах, не подлежащих распознаванию.
Форматы файлов
- TIFF (без потерь)
- PNG (без потерь)
- PDF (с нормативным разрешением).
- JPEG с коэффициентом сжатия quality >85.
Рекомендации
-
Калибровка сканера. Выполнять калибровку по эталонному листу не реже одного раза в месяц.
-
Очистка стекла. Протирать стекло планшета перед каждой сессией сканирования — пыль и отпечатки пальцев дают артефакты, неотличимые от знаков препинания.
-
Прижим страниц. При сканировании книг использовать прижимную рамку для устранения «бочкообразного» искажения у корешка.
-
Режим сканирования. Для деловых документов оптимален режим «оттенки серого, 300 dpi». Не использовать автоматический режим «для текста» с принудительной бинаризацией.
-
Пакетная обработка. Убедиться, что все страницы сориентированы в одном направлении до подачи в автоподатчик.
-
Хранение оригиналов. Не уничтожать бумажные оригиналы до верификации результатов распознавания — при ошибках потребуется повторное сканирование.
Раздел 2. Фотографии документов
Требования к качеству
Разрешение и плотность текста в кадре
Для фотографий требования формулируются в пикселях на символ, поскольку физическое разрешение зависит от расстояния съёмки. При съёмке листа А4 целиком минимальное разрешение итогового изображения — 2480×3508 px (эквивалент 300 dpi). Для смартфонов — не менее 8 Мп при правильном кадрировании.
- Стандартный печатный текст: минимум 15 px, рекомендуется 25–30 px на высоту строчной буквы.
- Мелкий текст: минимум 20 px, рекомендуется 35–40 px.
- Объект распознавания (документ) должен занимать как можно большую часть кадра!
Резкость и фокус
- Текст должен быть в фокусе по всей площади изображения.
- Недопустимо смазывание от движения камеры (motion blur). Края символов должны быть чёткими, без «ореолов» шириной более 1–2 px.
- Глубина резкости должна охватывать всю поверхность документа.
Освещение
- Равномерность: перепад яркости по поверхности документа — не более 30%.
- Блики от ламинированных документов (паспорт, пластиковые карты) — недопустимы в зоне текста. Устранение: съёмка под углом к источнику света или рассеянное освещение.
- Предпочтительна нейтральная цветовая температура: 5000–6500 K.
- Цифровой шум (зернистость при плохом освещении) — недопустим.
Геометрические искажения
- Перспективные искажения: следует избегать, насколько это возможно.
- Изгиб страниц: допустимый прогиб — не более 5 мм по центру при длине строки 200 мм.
Артефакты
- Тени от пальцев: недопустимы в зоне текста. Документ держать за края или использовать подставку.
- Отражения: при съёмке документов в прозрачных файлах или за стеклом — недопустимы.
- Засветка встроенной вспышкой: центральный блик — недопустим.
Форматы файлов
- Предпочтительные: JPEG (quality ≥90), PNG, HEIC/HEIF (с конвертацией перед обработкой).
- Не допускается JPEG с quality <80 и другие форматы с использованием сильного сжатия — блочные артефакты искажают символы.
Рекомендации
-
Съёмка перпендикулярно документу. Размещать камеру строго над документом. Использовать штатив или упор о твёрдую поверхность.
-
Фиксация документа. Укладывать документ на ровную тёмную поверхность — контрастный фон помогает точнее определить границы листа.
-
Источник освещения. Два боковых рассеянных источника под углом ~45° исключают блики и тени.
-
Отключение вспышки. Встроенная вспышка смартфона создаёт центральный блик. Использование вспышки оправдано только в случае съемки в темных помещениях.
-
Режим HDR. Не использовать HDR — он создаёт артефакты на границах контрастных областей.
-
Ручной фокус. Вручную указывать точку фокусировки на тексте (касанием экрана).
-
Ламинированные документы. Снимать под углом ~15–20° к поверхности документа для исключения бликов.
-
Проверка перед отправкой. Увеличить изображение до 100% и убедиться, что мелкий текст читаем. Если текст нечитаем глазом — распознан он не будет.
Раздел 3. Рукописный текст
Требования к качеству
Разрешение
Рукописный текст требует более высокого разрешения, чем печатный, поскольку тонкие штрихи и соединения букв нуждаются в детализации для однозначной интерпретации.
- Крупный чёткий почерк (≥5 мм): минимум 150 dpi / 20 px на букву, рекомендуется 200 dpi.
- Средний почерк (3–5 мм): минимум 200 dpi / 25 px, рекомендуется 300 dpi.
- Мелкий почерк (<3 мм): минимум 200 dpi / 30 px, рекомендуется 300 dpi.
- Печатные буквы (капс, блок): минимум 200 dpi, рекомендуется 300 dpi.
Контрастность и цвет чернил
- Контраст чернил с фоном — не менее 70%.
- Допустимые цвета: чёрный, тёмно-синий — обеспечивают максимальный контраст.
- Условно допустимые: тёмно-зелёный, тёмно-фиолетовый — точность снижается на 5–10%.
- Недопустимые: красный, оранжевый, жёлтый, светло-голубой — недостаточный контраст при преобразовании в оттенки серого.
- Карандаш (HB и темнее): допускается при разрешении ≥400 dpi и отсутствии следов стирания.
Бумага и фон
- Цвет фона: белый или светло-серый.
- Линии разлиновки допустимы при условии, что они светлее текста не менее чем в 2 раза.
- Грубая текстура бумаги (крафт, акварельная) — не рекомендуется: создаёт помехи, неотличимые от штрихов.
- Помятость и складки, пересекающие строки, — недопустимы.
Требования к почерку
- Раздельное написание: печатные буквы распознаются значительно лучше связного курсива.
- Однородность: резкое изменение размера, наклона или стиля написания снижает точность.
- Буквы не должны перекрываться по горизонтали; строки — по вертикали.
Исправления и помарки
- Зачёркивания, замазывания корректором, записи поверх ранее написанного — являются источником ошибок.
- Связный курсив (скоропись): точность распознавания 60–75% даже при идеальном качестве изображения — это алгоритмическое ограничение системы.
- Исторические почерки (уставное письмо, скоропись XVII–XIX вв.): требуют специализированных моделей; стандартная OCR-система для них не предназначена.
Рекомендации
-
Предпочитать печатные буквы курсиву. При разработке форм, предназначенных для OCR, предусматривать отдельные ячейки для каждой буквы. Это повышает точность вплоть до ~90%.
-
Использовать бланки с разметкой. Ячейки или пунктирные линии для каждого символа исключают проблемы с межбуквенным расстоянием и выравниванием.
-
Инструктировать авторов документов. Предоставлять заполнителям инструкцию: писать крупно, чёрной или синей гелевой ручкой, заглавными печатными буквами, не выходя за границы ячеек.
-
Обязательная верификация. Для рукописного текста обязательна ручная верификация. Показатель достоверности (confidence score) позволяет приоритизировать сомнительные поля.
-
Не применять сильную бинаризацию. Передавать рукописные изображения в оттенках серого — агрессивная бинаризация обрывает тонкие штрихи карандаша и светлых чернил.
-
Предпочитать сканирование фотосъёмке. Сканер обеспечивает равномерное освещение без теней и бликов, критичных для тонких рукописных штрихов.
Сводная таблица минимальных требований
| Параметр | Сканир. документ | Фото документа | Рукописный текст |
|---|---|---|---|
| Разрешение | 150–300 dpi | 2480×3508 px (А4) | 200–300 dpi |
| Контраст текст / фон | ≥ 60% | ≥ 60% | ≥ 70% |
| Допустимость наклона | + | + | - |
| Цветовой режим | Любой | Любой | Оттенки серого |
| Блики / тени в тексте | Недопустимы | Недопустимы | Недопустимы |
| Смазывание / расфокус | Недопустимо | Недопустимо | Недопустимо |
| Ожидаемая точность OCR (примерно) | 95+% | 80-90% | 60–80% |
Раздел 4. Краткая памятка
Рекомендации по качеству изображения
| Параметр | Рекомендации | Потенциальные проблемы при несоблюдении рекомендаций |
|---|---|---|
| Разрешение | 200 - 300 dpi | Низкое качество распознавания - ошибки в словах. |
| Размер изображения А4 | 1654 × 2339 пикселей и более | |
| Размер изображения А5 | 1165 × 1654 пикселей и более | |
| Искажение «поворот» | Допустимо | |
| Искажение «трапеция», «перспектива» | Допустимо при малой интенсивности для небольших фрагментов текста. Недопустимо для таблиц и больших текстов. | Ошибки в определении области распознавания - «перепутанные» данные. |
| Искажение «подушка» | Допустимо при малой интенсивности для небольших фрагментов текста. Недопустимо для таблиц и больших текстов. | |
| Графические артефакты (пятна, помехи, складки и т.д.) | Допустимо для областей, не подлежащих распознаванию. | Низкое качество распознавания - ошибки в словах, пропуски слов и предложений.Ошибки в определении области распознавания - «перепутанные» данные. |
| Контрастность текста | Необходимо избегать «бледного» и сливающегося с фоном текста. | |
| Цветной фон | Допустимо при высокой контрастности распознаваемого текста | |
| Площадь документа на изображении | Документ должен занимать наибольшую возможную площадь на изображении и размещаться по центру. Необходимо избегать большого количества лишнего фона, особенно, если на нем присутствуют другие объекты. | Ошибки в определении области распознавания - «перепутанные» данные. |
Рекомендации по улучшению качества
| Тип документа | Вид искажения | Рекомендации |
|---|---|---|
| Скан | Неравномерный фон | Плотно прижать документ при сканировании. |
| Пятна, полосы | Убедиться в чистоте сканируюющей поверхности. | |
| Сдвиги, «разрывы» | Исключить движение документа во время сканирования. | |
| Фотография | Искажение «трапеция» | Расположить камеру строго над документом, перпендикулярно его плоскости. |
| Искажение «подушка» | Не использовать широкий угол съемки (увеличить «приближение» камеры) | |
| Блики и отсветы | Немного сместить камеру относительно документа, изменить место съемки, отключить вспышку | |
| «Лишние» объекты на фоне, документ занимает меньше 80% площади кадра | Приблизить документ к камере, кадрировать полученный снимок по границам документа. | |
| Темное, «зернистое» изображение | Съемку необходимо проводить в хорошо освещенном месте | |
| Рукописный текст | Общая рекомендация | Текст должен быть максимально разборчивым. По возможности, использовать печатные буквы. Избегать выхода текста за отведенные поля, расположения поверх других элементов документа. Избегать использования ручек со светлыми чернилами. |
Виды графических искажений, снижающих точность OCR
| Вид искажения | Комментарий | Пример |
|---|---|---|
| Низкое разрешение | Характерно для: скан, фото Степень влияния: критическая | ![]() |
| Артефакты сканирования / печати | Характерно для: скан Степень влияния: высокая (в зависимости от силы искажений) | ![]() |
| Низкая контрастность | Характерно для: скан Степень влияния: средняя - высокая (в зависимости от силы искажений) | ![]() |
| Низкая освещенность | Характерно для: фото Степень влияния: критическая | ![]() |
| Трапеция (перспектива) | Характерно для: фото Степень влияния: критическая | ![]() |
| Подушка | Характерно для: фото Степень влияния: высокая | ![]() |
| Лишний фон | Характерно для: фото Степень влияния: высокая | ![]() |
| Тени | Характерно для: фото Степень влияния: высокая | ![]() |
| Изгибы, замятия | Характерно для: скан, фото Степень влияния: высокая | ![]() |









