Tesseract OCR

alt

Элемент осуществляет подключение к ядру OCR Tesseract. Поддерживается только Tesseract 3-й версии — движок поставляется вместе с Primo RPA Studio и не требует дополнительной установки.

Элемент Tesseract OCR является контейнером для таких OCR-компонентов, как Клик текста мышью и Распознать текст.

Свойства

Описание общих свойств см. в разделе Свойства элемента.
Символ * в названии свойства указывает на обязательность его заполнения.

Свойство	Тип	Описание
OCR:
Язык	String	Язык для извлечения текста из изображения или элемента UI. Указать можно только 1 язык. По умолчанию `"eng"` (коды можно просмотреть здесь ). Папку с языковыми данными нейросети можно скачать и добавить в локальную папку Студии (например, `C:\Program Files\Primo\Primo Studio_разрядность\tessdata`). После локального добавления языковой папки требуется перезапустить Студию
Извлекать слова	Boolean	Если флажок установлен, то будет извлекаться положение каждого обнаруженного слова
Масштаб	Double	Коэффициент масштабирования изображения. Рекомендуется использовать для небольших изображений. Значение `1.00` соответствует оригинальному размеру. Чем выше число, тем больше масштаб
Допустимые символы	String	Строка извлекается в соответствии с указанными символами
Запрещенные символы	String	Указанные символы не принимаются во внимание при извлечении текста
Инвертировать	Boolean	Определяет, нужно ли инвертировать цвета. Функция полезна в случае, когда фон темнее цвета текста
Профиль	-	Профиль предварительной обработки изображения, используется для улучшения распознавания текста. По умолчанию None - не выбран. Доступные значения: 1) Screen - для приложений удаленного рабочего стола; 2) Scan - для сканируемых файлов; 3) Legasy - стандартные настройки
Вывод:
Переменная	Primo.T1.OCR.OCRInst	Переменная для сохранения ссылки на ядро OCR