Tesseract OCR
Элемент осуществляет подключение к ядру OCR Tesseract. Поддерживается только Tesseract 3-й версии — движок поставляется вместе с Primo RPA Studio и не требует дополнительной установки.
Элемент Tesseract OCR является контейнером для таких OCR-компонентов, как Клик текста мышью и Распознать текст.
Свойства
Описание общих свойств см. в разделе Свойства элемента.
Символ *
в названии свойства указывает на обязательность его заполнения.
Свойство | Тип | Описание |
---|---|---|
OCR: | ||
Язык | String | Язык для извлечения текста из изображения или элемента UI. Указать можно только 1 язык. По умолчанию "eng" (коды можно просмотреть здесь ). Папку с языковыми данными нейросети можно скачать и добавить в локальную папку Студии (например, C:\Program Files\Primo\Primo Studio_разрядность\tessdata ). После локального добавления языковой папки требуется перезапустить Студию |
Извлекать слова | Boolean | Если флажок установлен, то будет извлекаться положение каждого обнаруженного слова |
Масштаб | Double | Коэффициент масштабирования изображения. Рекомендуется использовать для небольших изображений. Значение 1.00 соответствует оригинальному размеру. Чем выше число, тем больше масштаб |
Допустимые символы | String | Строка извлекается в соответствии с указанными символами |
Запрещенные символы | String | Указанные символы не принимаются во внимание при извлечении текста |
Инвертировать | Boolean | Определяет, нужно ли инвертировать цвета. Функция полезна в случае, когда фон темнее цвета текста |
Профиль | - | Профиль предварительной обработки изображения, используется для улучшения распознавания текста. По умолчанию None - не выбран. Доступные значения: 1) Screen - для приложений удаленного рабочего стола; 2) Scan - для сканируемых файлов; 3) Legasy - стандартные настройки |
Вывод: | ||
Переменная | Primo.T1.OCR.OCRInst | Переменная для сохранения ссылки на ядро OCR |