Skip to Content

Инструкция по началу использования модели

Шаг 0. Подготовка

В разделе Использование отображаются только модели, которые были успешно обучены в разделе Обучение. Перед началом убедитесь, что нужная модель действительно успешно обучена.

Если нужно добавить в проект модель, перенесённую из другого проекта, используйте функцию Импорт модели:

  1. Нажмите Импорт модели внизу каталога моделей:
    alt
  2. Укажите Название, загрузите файл модели и файл схемы разметки.
  3. Нажмите Импортировать.

После импорта модель появится в каталоге и будет доступна для настройки и использования так же, как модели, обученные в системе.

Шаг 1. Выбор модели

  1. Выберите модель из раздела Каталог моделей
    alt
  2. Нажмите Использовать, чтобы перейти к настройке.

Дополнительно при нажатии на три точки доступны опции: Скачать, Удалить, Автотест (см. раздел Автотест):

alt

Шаг 2. Настройка параметров использования

alt

В открывшейся форме Конфигурации доступны поля:

ПараметрОписание
Целевая машинаСервер, на котором будет запущено распознавание
Ключ маршрутизацииГенерируемая сервисом строковая константа (ранее также называлась «тип модели»). Используется при отправке запросов для извлечения данных из изображений: значение передается в заголовке modelType. По этому параметру система определяет, какая модель будет обрабатывать запрос и с какими параметрами.
УстройствоCPU или CUDA (GPU)
Удаление линийЕсли включено — модель попытается убрать горизонтальные/вертикальные линии, что может повысить качество распознавания текста
Определение ориентации страницыМодель определит поворот (90°, 180° и т.п.) перед распознаванием

Шаг 3. Дополнительные параметры

Описание параметров приведено в таблице ниже:

ПараметрОписаниеВлияниеПримерЗначение по умолчанию
BboxModeФормат задания координат для инструмента Bounding boxes (bbox)

Итоговый формат координат в результатах{minX": 624,"minY": 784,"maxX": 712,"maxY": 803}Не задано (0XYXY_ABS)
KeepAliveIntervalЧастота отправки процессом телеметрии (в секундах)

Запаздывание при обнаружении процесса неактивным30 (если требуется уменьшить задержку)60
MinLineHeightМинимальная высота строки

Насколько мелкой (в пикселях) должна быть строка, чтобы восприниматься как строка6 (при наличии мелкого шрифта)8
OptimalHeightОптимальная высота символов для OCR

Адаптация к масштабу текста45 (для высокого разрешения)35
BlackLineThresholdПорог распознавания тёмных линий

Порог яркости при определении тёмных линий95 (если изображение светлое и контрастное)75
WhiteThresholdПорог определения светлого фона

Порог яркости при определении фона

Параметр игнорируется
235 (для светлого документа)215
WhiteBackgroundЕсть ли светлый фон

Если выключено, происходит нормализация документаДля первичной бухгалтерской документации: Включен

Для паспорта РФ: Выключен
Выключен
PaddingОбрамление по периметру bounding boxes (bbox)

Улучшает распознавание, когда текст касается границ bbox15
ConfidenceМинимальный уровень уверенности OCR

Фильтрует сомнительные предсказания0.1 (для разнообразного датасета)0.45
MultiprocessingКоличество параллельных процессов

Дополнительное ограничение нагрузки

По умолчанию ограничено по формуле 0.5n - 1, где n — количество ядер ЦПУ.
Если указать значение выше, оно будет проигнорировано.
1 (отключает параллельность)Не задано
SmallTextFilterПорог фильтрации текста (в % от минимальной строки)

Исключение мелкого текста (примечания, сноски), шума0.20.55
MinWordHeightМинимальная высота символов

Игнорирует слишком мелкие буквы68

Шаг 4. Привязка полей к ViT или Tesseract

alt

В блоке Настройки распознавания текста доступны:

  • Tesseract — классический движок OCR.

  • ViT — механизм Vision Transformer для извлечения текста с помощью LLM. Дополнительно для ViT указывается:

    • ViT-модель — модель, использование которой на конкретной Целевой машине управляется в разделе Машины -> AI Текст.
      Для механизма Vision Transformer подходит только мультимодальная модель (поддерживающая обработку изображений)

    • Адрес модели — URL запроса (например: https://10.0.0.99:5002/api/NLP/process/...)

    • Кол-во параллельных запросов — сколько параллельных запросов может обрабатывать LLM.
      Обычно без потери производительности это число колеблется в пределах 1-5.

    • Системный промпт — базовая инструкция модели (You are a highly accurate program for digitizing images”). Выбранное значение далее в Редакторе полей будет фигурировать как Общий.

    • Запрос к модели — конкретный запрос, который модель будет обрабатывать для извлечения текста из фрагмента изображения.
      Варианты выбора:

      • Без заголовка: если модель обучена на разметке, где область выделения поля не включает его заголовок.
      • С заголовком: если модель обучена на разметке, где область выделения поля включает его заголовок.
      • Ручной: если значение отличается.

      Выбранное значение далее в Редакторе полей будет фигурировать как Общий.

      ⚠️

      Запрос к модели и системное сообщение целесообразно формулировать на английском языке, т.к. большинство используемых моделей обучались преимущественно на англоязычных текстах, и лучше его интерпретируют.

Перетаскивайте нужные поля между колонками, чтобы указать, какой механизм OCR будет извлекать данные для конкретного поля.

  • Выбор Tesseract перенесет вычисления на CPU (при наличии GPU) и подходит для простых полей без особых требований к качеству распознавания. При наличии ViT, выберите часть полей к распознаванию через Tesseract, чтобы разгрузить GPU.
  • Выбор ViT повысит качество обработки текста, особенно если детализировать запрос к модели для конкретного поля. Но механизм требователен к ресурсам. Время обработки 1 поля на самых производительных CPU составит десятки секунд.

Выбор механизма OCR следует производить на начальном этапе проекта. При наличии GPU рекомендуется использовать механизм ViT.

При нажатии кнопки Открыть редактор открывается интерфейс настройки распознавания. За подробным описанием работы редактора см. статью Настройка полей в редакторе SmartOCR.

Автотест

Автотест — встроенный инструмент для быстрой проверки качества обученной модели. Он автоматически разворачивает модель на выбранной целевой машине, выполняет тестовые запуски и выводит ключевые метрики точности.

Для запуска автотеста:

  1. У нужной модели нажмите на три точки:
    alt
  2. Выберите опцию Автотест.
  3. Укажите целевую машину, на которой будет выполняться тест.
  4. Нажмите Начать автотест.

Результаты
После завершения теста отображаются основные показатели точности:

  • AP (Average Precision) — средняя точность модели при разных порогах IoU (Intersection over Union).
  • AP50, AP75 — точность при фиксированных порогах IoU 0.50 и 0.75.
  • APS, APM, APL — точность на маленьких (s), средних (m) и больших (l) объектах.

Что дальше

Следующий шаг — Настройка полей в редакторе “Настройки распознавания полей”.