Инструкция по началу использования модели

Шаг 0. Подготовка

В разделе Использование отображаются только модели, которые были успешно обучены в разделе Обучение. Перед началом убедитесь, что нужная модель действительно успешно обучена.

Если нужно добавить в проект модель, перенесённую из другого проекта, используйте функцию Импорт модели:

Нажмите Импорт модели внизу каталога моделей:
Укажите Название, загрузите файл модели и файл схемы разметки.
Нажмите Импортировать.

После импорта модель появится в каталоге и будет доступна для настройки и использования так же, как модели, обученные в системе.

Шаг 1. Выбор модели

Выберите модель из раздела Каталог моделей
Нажмите Использовать, чтобы перейти к настройке.

Дополнительно при нажатии на три точки доступны опции: Скачать, Удалить, Автотест (см. раздел Автотест):

alt

Шаг 2. Настройка параметров использования

alt

В открывшейся форме Конфигурации доступны поля:

Параметр	Описание
Целевая машина	Сервер, на котором будет запущено распознавание
Ключ маршрутизации	Генерируемая сервисом строковая константа (ранее также называлась «тип модели»). Используется при отправке запросов для извлечения данных из изображений: значение передается в заголовке modelType. По этому параметру система определяет, какая модель будет обрабатывать запрос и с какими параметрами.
Устройство	`CPU` или `CUDA` (GPU)
Удаление линий	Если включено, модель попытается убрать горизонтальные/вертикальные линии, что может повысить качество распознавания текста
Определение ориентации страницы	Модель определит поворот (90°, 180° и т.п.) перед распознаванием

Шаг 3. Дополнительные параметры

Описание параметров приведено в таблице ниже:

Параметр	Описание	Влияние	Пример	Значение по умолчанию
`BboxMode`	Формат задания координат для инструмента Bounding boxes (bbox)	Итоговый формат координат в результатах	`{minX": 624,"minY": 784,"maxX": 712,"maxY": 803}`	Не задано (`0` — `XYXY_ABS`)
`KeepAliveInterval`	Частота отправки процессом телеметрии (в секундах)	Запаздывание при обнаружении процесса неактивным	`30` (если требуется уменьшить задержку)	`60`
`MinLineHeight`	Минимальная высота строки	Насколько мелкой (в пикселях) должна быть строка, чтобы восприниматься как строка	`6` (при наличии мелкого шрифта)	`8`
`OptimalHeight`	Оптимальная высота символов для OCR	Адаптация к масштабу текста	`45` (для высокого разрешения)	`35`
`BlackLineThreshold`	Порог распознавания тёмных линий	Порог яркости при определении тёмных линий	`95` (если изображение светлое и контрастное)	`75`
`WhiteBackground`	Есть ли светлый фон	Если выключено, происходит нормализация документа	Для первичной бухгалтерской документации: `Включен` Для паспорта РФ: `Выключен`	`Выключен`
`Padding`	Обрамление по периметру bounding boxes (bbox)	Улучшает распознавание, когда текст касается границ bbox	-	`15`
`Confidence`	Минимальный уровень уверенности OCR	Фильтрует сомнительные предсказания	`0.1` (для разнообразного датасета)	`0.45`
`Multiprocessing`	Количество параллельных процессов	Дополнительное ограничение нагрузки По умолчанию ограничено по формуле `0.5n - 1`, где `n` — количество ядер ЦПУ. Если указать значение выше, оно будет проигнорировано.	`1` (отключает параллельность)	Не задано
`SmallTextFilter`	Порог фильтрации текста (в % от минимальной строки)	Исключение мелкого текста (примечания, сноски), шума	`0.2`	`0.55`
`MinWordHeight`	Минимальная высота символов	Игнорирует слишком мелкие буквы	`6`	`8`
`LambdaSmooth`	Штраф за кривизну линий	При увеличении значения отдается предпочтение строго прямым линиям	-	-
`GapBudgetPercents`	Отношение пробелов (пропусков) в линиях к ее длине	Большее значение допускает больше пропусков (пунктирные линии), слишком высокое значение может привести к ложным срабатываниям на текстах	-	-
`MaxGapSizePixels`	Максимальный размер пробела в линии (в пикселях)	При увеличении параметра снижаются требования к непрерывности линии (например, в плохих сканах)	-	-
`D2Confidence`	Порог уверенности нейросети при распознавании символов	Чем выше значение, тем строже отбор распознанных символов	-	-
`BaseLanguage`	Основной язык словаря для проверки орфографии	Влияет на корректность распознавания текста на указанном языке	-	-
`ImArea`	Область интереса на изображении, в которой ведется поиск текста	Ограничивает зону обработки страницы, вне указанной области текст не ищется	-	-
`RowSpacing` / `ColumnSpacing`	Интервалы между строками и колонками для группировки текста	Влияет на то, как отдельные символы объединяются в строки и колонки, в том числе внутри табличной сетки	-	-
`RowPeakThreshold` / `ColumnPeakThreshold`	Чувствительность поиска границ строк и колонок по плотности пикселей	Влияет на точность определения границ строк и колонок	-	-
`TransitionPenalty`	Штраф за «переходы» при построении линий таблицы	Влияет на сглаживание границ ячеек и линий таблицы	-	-

Шаг 4. Привязка полей к ViT или Tesseract

alt

В блоке Настройки распознавания текста доступны:

Tesseract — классический движок OCR.
ViT — механизм Vision Transformer для извлечения текста с помощью LLM. Дополнительно для ViT указывается:
- ViT-модель — модель, использование которой на конкретной Целевой машине управляется в разделе Машины -> AI Текст.
  Для механизма Vision Transformer подходит только мультимодальная модель (поддерживающая обработку изображений).
  Помимо моделей, развернутых на целевых машинах AI Server, в качестве ViT-механизма поддерживается подключение внешних LLM, в частности через LiteLLM.
- Адрес модели — URL запроса (например: https://10.0.0.99:5002/api/NLP/process/...)
- Кол-во параллельных запросов — сколько параллельных запросов может обрабатывать LLM.
  Обычно без потери производительности это число колеблется в пределах 1-5.
- Системный промпт — базовая инструкция модели (“You are a highly accurate program for digitizing images”). Выбранное значение далее в Редакторе полей будет фигурировать как Общий.
- Запрос к модели — конкретный запрос, который модель будет обрабатывать для извлечения текста из фрагмента изображения.
  Варианты выбора:
  - Без заголовка: если модель обучена на разметке, где область выделения поля не включает его заголовок.
  - С заголовком: если модель обучена на разметке, где область выделения поля включает его заголовок.
  - Ручной: если значение отличается.
  Выбранное значение далее в Редакторе полей будет фигурировать как Общий.
  
  ⚠️
  Запрос к модели и системное сообщение целесообразно формулировать на английском языке, т.к. большинство используемых моделей обучались преимущественно на англоязычных текстах, и лучше его интерпретируют.
- Штраф за повторение — коэффициент, уменьшающий вероятность повторного выбора уже использованных токенов в генерируемом тексте. При слишком высоком значении из текста могут исчезать часто используемые слова. По умолчанию: 1.015.

Перетаскивайте нужные поля между колонками, чтобы указать, какой механизм OCR будет извлекать данные для конкретного поля.

Выбор Tesseract перенесет вычисления на CPU (при наличии GPU) и подходит для простых полей без особых требований к качеству распознавания. При наличии ViT, выберите часть полей к распознаванию через Tesseract, чтобы разгрузить GPU.
Выбор ViT повысит качество обработки текста, особенно если детализировать запрос к модели для конкретного поля. Но механизм требователен к ресурсам. Время обработки 1 поля на самых производительных CPU составит десятки секунд.

Выбор механизма OCR следует производить на начальном этапе проекта. При наличии GPU рекомендуется использовать механизм ViT.

При нажатии кнопки Открыть редактор открывается интерфейс настройки распознавания. За подробным описанием работы редактора см. статью Настройка полей в редакторе SmartOCR.

Автотест

Автотест — встроенный инструмент для быстрой проверки качества обученной модели. Он автоматически разворачивает модель на выбранной целевой машине, выполняет тестовые запуски и выводит ключевые метрики точности.

Для запуска автотеста:

У нужной модели нажмите на три точки:
Выберите опцию Автотест.
Укажите целевую машину, на которой будет выполняться тест.
Нажмите Начать автотест.

Результаты
После завершения теста отображаются основные показатели точности:

AP (Average Precision) — средняя точность модели при разных порогах IoU (Intersection over Union).
AP50, AP75 — точность при фиксированных порогах IoU 0.50 и 0.75.
APS, APM, APL — точность на маленьких (s), средних (m) и больших (l) объектах.

Что дальше

Следующий шаг — Настройка полей в редакторе “Настройки распознавания полей” .