Редактор шаблонов OCR
Last updated
Last updated
Eng: OCR Pattern Editor
Редактор шаблонов OCR является инструментом Студии и служит для разработки шаблонов чтения отсканированных документов. Для вызова редактора необходимо перейти в раздел меню Инструменты ➝ Редактор шаблонов OCR. На данный момент редактор поддерживает OCR компании Microsoft (встроен в ОС Windows, начиная с версии 8) и Yandex Vision. Этот инструмент постоянно совершенствуется по мере получения обратной связи от пользователей.
Создать шаблон
Открыть шаблон
Сохранить шаблон
Сохранить как
Протестировать шаблон
Протестировать изображение
Настройки
Главное окно распознанного образа шаблонного документа
Закладки поворота шаблонного документа
Группы текста
Свойства
Для создания нового шаблона нажмите кнопку Создать шаблон, после чего выберите файл с отсканированным эталонным документом. Данный файл будет распознан средствами OCR: в нем будут выделены текстовые блоки (помечены красными прямоугольниками), и полученное изображение вместе с блоками будет выведено на экран.
Якоря и Группы — это ключевые элементы, используемые в OCR-шаблонах для точного извлечения данных из документов.
Якорь — это область на документе, которая не изменяется от документа к документу. Например, в документах ПТС это может быть заголовок "Дата регистрации".
Примеры использования:
В паспорте транспортного средства (ПТС) якорем может быть заголовок "Идентификационный номер". Этот текст всегда присутствует в документе, и система использует его, чтобы найти рядом расположенный VIN-код автомобиля.
Если в документе присутствует таблица, якорь может быть привязан к заголовку столбца, чтобы извлекать значения из нужного столбца или строки.
Группа — это текстовые блоки, образующие полезные данные. Группа располагается в однозначной позиции относительно выбранных якорей либо находится в заданных координатах (пропорционально размерам изображения).
Уже имеющиеся имена групп расположены в алфавитном порядке. При создании новой группы список обновляется, и новая группа автоматически размещается в алфавитном порядке. Чтобы создать новую группу, дважды щелкните по значку звезды (*) и впишите название новой группы.
При выборе определенной группы на отсканированном документе соответствующая область выделяется зеленой рамкой, что позволяет легко идентифицировать её. Затем можно изменить параметры этой группы в панели "Свойства".
Для работы со свойствами текстовых блоков кликните мышью на красный прямоугольник нужного блока. Каждый найденный блок имеет следующие свойства:
OCR
Название (Name):
Название текстового блока для отображения в свойствах группы.
Текст (Text):
Значение текстового блока, распознанное при сканировании изображения. В случае ошибок значение можно отредактировать вручную.
Свойства Якорь (Anchor):
Якорь (Anchor):
Использовать текстовый блок как якорь для других блоков.
Регистр (Case sensitive):
Определяет, учитывать ли регистр букв при сопоставлении текста. Если опция включена, OCR будет различать строчные и прописные буквы.
Количество операций (Number of single-character edits):
Параметр определяет, насколько допускается отклонение текста от исходного шаблона при его распознавании. Основан на концепции расстояния Левенштейна, который измеряет, сколько минимальных изменений (вставок, удалений или замен символов) нужно, чтобы превратить один текст в другой. Доступно с версии 24.8
Регулярное выражение (Replace):
Позволяет задать регулярное выражение для замены найденного текста. Например, можно заменить все пробелы в номере телефона на тире.
Регулярное выражение (Match):
Позволяет задать регулярное выражение для поиска текста, соответствующего определенному шаблону. Можно использовать регулярные выражения для поиска дат, номеров или других специфических текстовых форматов.
Пробелы (Spaces):
Учитывать пробелы в распознанном значении.
С версии Студии 24.8 добавлено новое свойство Язык шаблона
, которое позволяет задавать и сохранять язык распознавания текста. При загрузке сохраненного шаблона язык автоматически устанавливается в настройках. Если пользователь изменяет язык шаблона вручную, перед сохранением система предложит пересканировать текст на новом языке, что может привести к изменению расположения якорей.
Для корректной работы выбранный язык OCR должен быть установлен в операционной системе. Если необходимо установить дополнительные языки посетите сайт поддержки Microsoft по следующей ссылке: Установка языка для Windows.
Свойства *Регулярное выражение (Replace), *Регулярное выражение (Match) и Количество операций > 0 не могут использоваться одновременно.
Если требуется строгое совпадение, значение "Количество операций" должно быть установлено на 0. Любое отклонение (даже одна буква или пробел) приведет к тому, что текст не будет считаться соответствующим шаблону.
Если параметр установлен на положительное число, это значение указывает, сколько изменений допускается в тексте, чтобы он всё равно считался соответствующим шаблону. Например, если "Количество операций" равно 2, то текст может отличаться на два символа (например, одна буква может быть заменена другой, или может быть добавлен/удален пробел), и он всё равно будет признан подходящим.
Важно учитывать, что технология OCR работает эффективно только с документами высокого качества и разрешения. В комплекте со Студией поставляются предустановленные шаблоны распознавания. Для тестирования шаблона нажмите кнопку "Протестировать шаблон" или "Протестировать изображение" в меню редактора. Тестирование шаблона проверяет изображение, прикрепленное к шаблону, в то время как Тестирование изображения требует выбора файла. Результаты обработки будут отображены на экране.
При загрузке старых шаблонов, созданных до добавления свойства "Язык шаблона", необходимо вручную указать язык, поскольку этого свойства не было ранее. Повторное сканирование не требуется, если язык не меняется, чтобы избежать сдвига якорей. Однако рекомендуется сохранить шаблон после указания языка для предотвращения возможных ошибок в будущем.
После завершения всех настроек шаблона необходимо его сохранить на диск. Сохраненный шаблон можно использовать в элементе Распознать форму для автоматизации процесса распознавания текста в документах.