Инструкция по началу использования модели
Шаг 0. Подготовка
В разделе Использование отображаются только модели, которые были успешно обучены в разделе Обучение. Перед началом убедитесь, что нужная модель действительно успешно обучена.
Если нужно добавить в проект модель, перенесённую из другого проекта, используйте функцию Импорт модели:
- Нажмите Импорт модели внизу каталога моделей:
- Укажите Название, загрузите файл модели и файл схемы разметки.
- Нажмите Импортировать.
После импорта модель появится в каталоге и будет доступна для настройки и использования так же, как модели, обученные в системе.
Шаг 1. Выбор модели
- Выберите модель из раздела Каталог моделей
- Нажмите Использовать, чтобы перейти к настройке.
Дополнительно при нажатии на три точки доступны опции: Скачать, Удалить, Автотест (см. раздел Автотест):
Шаг 2. Настройка параметров использования
В открывшейся форме Конфигурации доступны поля:
Параметр | Описание |
---|---|
Целевая машина | Сервер, на котором будет запущено распознавание |
Ключ маршрутизации | Генерируемая сервисом строковая константа (ранее также называлась «тип модели»). Используется при отправке запросов для извлечения данных из изображений: значение передается в заголовке modelType. По этому параметру система определяет, какая модель будет обрабатывать запрос и с какими параметрами. |
Устройство | CPU или CUDA (GPU) |
Удаление линий | Если включено — модель попытается убрать горизонтальные/вертикальные линии, что может повысить качество распознавания текста |
Определение ориентации страницы | Модель определит поворот (90°, 180° и т.п.) перед распознаванием |
Шаг 3. Дополнительные параметры
Описание параметров приведено в таблице ниже:
Параметр | Описание | Влияние | Пример | Значение по умолчанию |
---|---|---|---|---|
BboxMode | Формат задания координат для инструмента Bounding boxes (bbox) | Итоговый формат координат в результатах | {minX": 624,"minY": 784,"maxX": 712,"maxY": 803} | Не задано (0 — XYXY_ABS ) |
KeepAliveInterval | Частота отправки процессом телеметрии (в секундах) | Запаздывание при обнаружении процесса неактивным | 30 (если требуется уменьшить задержку) | 60 |
MinLineHeight | Минимальная высота строки | Насколько мелкой (в пикселях) должна быть строка, чтобы восприниматься как строка | 6 (при наличии мелкого шрифта) | 8 |
OptimalHeight | Оптимальная высота символов для OCR | Адаптация к масштабу текста | 45 (для высокого разрешения) | 35 |
BlackLineThreshold | Порог распознавания тёмных линий | Порог яркости при определении тёмных линий | 95 (если изображение светлое и контрастное) | 75 |
WhiteThreshold | Порог определения светлого фона | Порог яркости при определении фона Параметр игнорируется | 235 (для светлого документа) | 215 |
WhiteBackground | Есть ли светлый фон | Если выключено, происходит нормализация документа | Для первичной бухгалтерской документации: Включен Для паспорта РФ: Выключен | Выключен |
Padding | Обрамление по периметру bounding boxes (bbox) | Улучшает распознавание, когда текст касается границ bbox | — | 15 |
Confidence | Минимальный уровень уверенности OCR | Фильтрует сомнительные предсказания | 0.1 (для разнообразного датасета) | 0.45 |
Multiprocessing | Количество параллельных процессов | Дополнительное ограничение нагрузки По умолчанию ограничено по формуле 0.5n - 1 , где n — количество ядер ЦПУ.Если указать значение выше, оно будет проигнорировано. | 1 (отключает параллельность) | Не задано |
SmallTextFilter | Порог фильтрации текста (в % от минимальной строки) | Исключение мелкого текста (примечания, сноски), шума | 0.2 | 0.55 |
MinWordHeight | Минимальная высота символов | Игнорирует слишком мелкие буквы | 6 | 8 |
Шаг 4. Привязка полей к ViT или Tesseract
В блоке Настройки распознавания текста доступны:
-
Tesseract — классический движок OCR.
-
ViT — механизм Vision Transformer для извлечения текста с помощью LLM. Дополнительно для ViT указывается:
-
ViT-модель — модель, использование которой на конкретной Целевой машине управляется в разделе Машины -> AI Текст.
Для механизма Vision Transformer подходит только мультимодальная модель (поддерживающая обработку изображений) -
Адрес модели — URL запроса (например:
https://10.0.0.99:5002/api/NLP/process/
...
) -
Кол-во параллельных запросов — сколько параллельных запросов может обрабатывать LLM.
Обычно без потери производительности это число колеблется в пределах 1-5. -
Системный промпт — базовая инструкция модели (“
You are a highly accurate program for digitizing images”
). Выбранное значение далее в Редакторе полей будет фигурировать как Общий. -
Запрос к модели — конкретный запрос, который модель будет обрабатывать для извлечения текста из фрагмента изображения.
Варианты выбора:- Без заголовка: если модель обучена на разметке, где область выделения поля не включает его заголовок.
- С заголовком: если модель обучена на разметке, где область выделения поля включает его заголовок.
- Ручной: если значение отличается.
Выбранное значение далее в Редакторе полей будет фигурировать как Общий.
⚠️Запрос к модели и системное сообщение целесообразно формулировать на английском языке, т.к. большинство используемых моделей обучались преимущественно на англоязычных текстах, и лучше его интерпретируют.
-
Перетаскивайте нужные поля между колонками, чтобы указать, какой механизм OCR будет извлекать данные для конкретного поля.
- Выбор Tesseract перенесет вычисления на CPU (при наличии GPU) и подходит для простых полей без особых требований к качеству распознавания. При наличии ViT, выберите часть полей к распознаванию через Tesseract, чтобы разгрузить GPU.
- Выбор ViT повысит качество обработки текста, особенно если детализировать запрос к модели для конкретного поля. Но механизм требователен к ресурсам. Время обработки 1 поля на самых производительных CPU составит десятки секунд.
Выбор механизма OCR следует производить на начальном этапе проекта. При наличии GPU рекомендуется использовать механизм ViT.
При нажатии кнопки Открыть редактор открывается интерфейс настройки распознавания. За подробным описанием работы редактора см. статью Настройка полей в редакторе SmartOCR.
Автотест
Автотест — встроенный инструмент для быстрой проверки качества обученной модели. Он автоматически разворачивает модель на выбранной целевой машине, выполняет тестовые запуски и выводит ключевые метрики точности.
Для запуска автотеста:
- У нужной модели нажмите на три точки:
- Выберите опцию Автотест.
- Укажите целевую машину, на которой будет выполняться тест.
- Нажмите Начать автотест.
Результаты
После завершения теста отображаются основные показатели точности:
- AP (Average Precision) — средняя точность модели при разных порогах IoU (Intersection over Union).
- AP50, AP75 — точность при фиксированных порогах IoU 0.50 и 0.75.
- APS, APM, APL — точность на маленьких (s), средних (m) и больших (l) объектах.
Что дальше
Следующий шаг — Настройка полей в редакторе “Настройки распознавания полей” .