Skip to Content

Tesseract OCR

alt

Элемент осуществляет подключение к ядру OCR Tesseract. Поддерживается только Tesseract 3-й версии — движок поставляется вместе с Primo RPA Studio и не требует дополнительной установки.

Элемент Tesseract OCR является контейнером для таких OCR-компонентов, как Клик текста мышью и Распознать текст.

Свойства

Описание общих свойств см. в разделе Свойства элемента.
Символ * в названии свойства указывает на обязательность его заполнения.

СвойствоТипОписание
OCR:
ЯзыкStringЯзык для извлечения текста из изображения или элемента UI. Указать можно только 1 язык. По умолчанию "eng" (коды можно просмотреть здесь). Папку с языковыми данными нейросети можно скачать и добавить в локальную папку Студии (например, C:\Program Files\Primo\Primo Studio_разрядность\tessdata). После локального добавления языковой папки требуется перезапустить Студию
Извлекать словаBooleanЕсли флажок установлен, то будет извлекаться положение каждого обнаруженного слова
МасштабDoubleКоэффициент масштабирования изображения. Рекомендуется использовать для небольших изображений. Значение 1.00 соответствует оригинальному размеру. Чем выше число, тем больше масштаб
Допустимые символыStringСтрока извлекается в соответствии с указанными символами
Запрещенные символыStringУказанные символы не принимаются во внимание при извлечении текста
ИнвертироватьBooleanОпределяет, нужно ли инвертировать цвета. Функция полезна в случае, когда фон темнее цвета текста
Профиль-Профиль предварительной обработки изображения, используется для улучшения распознавания текста. По умолчанию None - не выбран.

Доступные значения: 1) Screen - для приложений удаленного рабочего стола; 2) Scan - для сканируемых файлов; 3) Legasy - стандартные настройки

Вывод:
ПеременнаяPrimo.T1.OCR.OCRInstПеременная для сохранения ссылки на ядро OCR