Primo RPA
Search…
Редактор шаблонов OCR
Редактор шаблонов OCR является плагином студии и служит для разработки шаблонов чтения отсканированных документов. Для вызова редактора необходимо нажать меню Инструменты -> Редактор шаблонов OCR. На данный момент, редактор при работе с шаблонами поддерживает OCR компании Microsoft (встроен в ОС Windows начиная с версии 8) и Yandex Vision. Данный инструмент еще молод и будет совершенствоваться по мере получения обратной связи от пользователей.
Редактор состоит из следующих частей:
  • Главное меню
  • Распознанный образ шаблонного документа
  • Закладки переключения между поворотами шаблонного документа
  • Группы текста
  • Свойства
В главном меню находятся кнопки
  • Создать шаблон
  • Открыть шаблон
  • Сохранить шаблон
  • Сохранить шаблон как...
  • Протестировать шаблон
  • Протестировать изображение
  • Настройки
При создании нового шаблона, необходимо нажать кнопку "Создать шаблон", после чего выбрать файл с отсканированным эталонным документов. Данный файл будет распознан средствами OCR, в нем будут выделены текстовые блоки (помечены красными прямоугольниками) и полученное изображение вместе с блоками будет выведено на экран.
При работе с распознаваемыми документами, основными сущностями являются: якорь и группа. Якорь, это текстовый блок, являющийся точкой отсчета при поиске групп текста (сверху, снизу, слева, справа от якоря). Группа, это группа текстовых блоков, образующая полезные данные и располагающая в однозначной позиции относительно выбранных якорей, либо находящаяся в заданных координатах (пропорционально размерам изображения).
Для работы со свойствами блоков, необходимо кликнуть мышью на красный прямоугольник нужного блока. Каждый найденный текстовый блок имеет следующие свойства:
  • Наименование
  • Текст
  • Якорь
  • Регистр
  • Пробелы
  • Регулярное выражение (Match)
  • Регулярное выражение (Replace)
  • Fuzzy
Свойство Наименование является мнемоническим и используется при дальнейшей разработке шаблона. Свойство Текст является базисом при поиске якорей в распознаваемых документах. Свойство Якорь определяет, можно ли расценивать данный блок в качестве якоря. Свойство Регистр определяет, нужно ли учитывать регистр текста при поиске якоря. Свойство Пробелы определяет, нужно ли учитывать пробелы в тексту при поиске якоря. Свойство Регулярное выражение предоставляет ввести текст регулярного выражения, используемого во время сравнения текстов при поиске якоря. Свойство Fuzzy определяет, нужно ли использовать нечеткую логику при сравнении текстов во время поиска якоря. Якоря могут находиться на разных поворотах документа, поэтому имеет смысл пройти по всем закладками поворота (0, 90, 180, 270).
После первичного распознавания шаблона необходимо определить блоки-якоря (при помощи свойства Якорь) и в свойствах ввести значения, необходимые для поиска якорь в документах, которые будут распознаваться по данному шаблону. После определения якорей, необходимо создать Группы текста, для этого в панели Групп нужно кликнуть в пустую строку и ввести имя новой группы. Текстовые блоки попадают в группу только в случае, если они полностью находятся в области координат поиска. Каждая группа имеет следующие свойства:
  • Наименование
  • Поворот
  • Координаты
  • Якорь - *
Свойство Наименование является мнемоническим и используется при работе с документами из элемента Распознать форму. Свойство Поворот определяет, на каком из поворотов документа искать данную группу (0, 90, 180, 270). Свойство координаты определяет в какой области документа искать данную группу (% относительно размеров документа). Свойства Якорь определяют, какие якоря использовать при поиске данной группы. Всего таких якорей четыре: левый, правый, нижний и верхний и каждый обладает свойствами:
  • Наименование
  • Сверху
  • Слева
  • Снизу
  • Справа
Свойство Наименование определяет наименования якоря, используемого в данном поиске. Свойства Сверху, Снизу, Слева, Справа определяют сдвиги начала и конца области поиска относительно якоря (определяются в % относительно размеров блока якоря).
Если Вы используете координаты, важно помнить, что рамки и размеры обрабатываемых документов должны быть идентичными эталонному и обрезание частей, либо дополнительные пустые области в отсканированном изображении недопустимы. Также важно помнить, что технология OCR работает только с документами хорошего качества и высокого разрешения. В комплекте со студию поставляется несколько шаблонов распознавания. Данные шаблоны не являются окончательными и требуют донастройки под используемые у Вас форматы сканирования.
Чтобы протестировать шаблон, можно либо нажать кнопку Протестировать шаблон либо кнопку Протестировать изображение. После тестирования на экране отобразятся результаты обработки изображения по шаблону
Тестирование шаблона отличается от тестирования изображения тем, что в случае шаблона тестируется изображение, прикрепленное к шаблону, а в случае изображения, необходимо будет выбрать файл для тестирования.
Созданный шаблон необходимо сохранить на диск, после чего, его можно будет использовать в элементе Распознать форму.
Для настройки OCR, необходимо нажать кнопку Настройки, после чего, в открывшемся окне можно отредактировать свойства:
Microsoft OCR
  • Язык (определяет язык документа)
Yandex Vision
  • API-Key (ключ API сервиса)
  • OAuth-Токен (токен сервиса)
  • ID каталога (ID каталога сервиса)
Выбранный язык OCR должен быть установлен в операционной системе (см. описание элемента Microsoft OCR).
Copy link