Создание проекта с нуля
Права доступа
Для создания проекта воспользуйтесь учетной записью администратора либо пользователя, роль которого обладает следующими минимальными правами:
- Проекты: Создание.
- Схемы разметки: Создание, Редактирование.
- Разметка: Создание, Удаление.
- Шаблоны процесса обучения: Создание.
- Процессы обучения: Создание, Управление.
Общий порядок действий
- Создайте проект
- Загрузите изображения для обучения модели
- Разметьте данные
- Запустите обучение
- Используйте обученную модель
Создание проекта
-
На странице Проекты нажмите кнопку Создать проект.

Откроется форма добавления проекта:

-
В поле Название укажите название будущего проекта. Допустимы только буквы, цифры, дефис, подчеркивания и точки.
-
При желании заполните поле Описание проекта. Оно отобразится под названием проекта и поможет быстрее понять его назначение другим пользователям.
-
Выберите нужный тип задачи:
- Распознавание документов утверждённой формы для работы с документами фиксированного шаблона.
- Распознавание документов произвольной формы для документов с неструктурированной структурой.
- Классификация для определения типа документа.
- Экспертная система для создания базы знаний и ответов на вопросы.
- Задачи NLP для генерации, анализа и извлечения текста.
Созданный проект отобразится на главной странице Проекты:

Чтобы перейти в проект, нажмите карточку проекта.
После перехода в проект в верхней панели появится меню с разделами: Датасет, Обучение, Использование и Тестирование.

Дальнейшие шаги
- Сформируйте датасет — загрузите изображения и выполните разметку данных.
- Обучите модель — выберите датасет, задайте параметры и запустите обучение.
- Настройте использование — активируйте модель и протестируйте её работу.
Добавление изображений
Изучите требования к формату, качеству и количеству изображений для обучения .
Как добавить изображения для обучения модели:
-
Находясь в выбранном проекте, перейдите на страницу Датасет.
-
На панели Изображения нажмите кнопку ”+”:

-
Выберите со своего диска все изображения, которые хотите добавить.
Разметка данных
Чтобы избежать проблем при использовании, обязательно изучите рекомендации по разметке данных .
В правой панели Поля нажмите кнопку ”+”, чтобы создать новое поле разметки:
Введите название нового поля в открывшемся окне (например: Дата рождения, Адрес, Имя).
Новое поле появится в списке и будет доступно для разметки:

Описание рабочей области
Панель инструментов
Снизу расположена панель инструментов для работы с датасетом:
-
⛶ Полноэкранный режим — разворачивает рабочую область на весь экран для более точной разметки.
-
Справка по горячим клавишам — отображает список доступных сочетаний клавиш. -
- F — масштабировать по размеру экрана.
- R — повернуть изображение.
- [ / ] — перейти к предыдущему/следующему полю.
- ← / → — перейти к предыдущему/следующему изображению.
- ESC — снять выбор.
- Delete / Backspace — удалить выбранный регион.
-
Корзина — удаляет файл из списка или из текущего раздела.
-
Повернуть изображение — кнопка предназначена для поворота загруженного изображения.
Блок для работы с изображениями
Изображения помещаются в следующие разделы:
- Обучение — используется непосредственно для обучения модели. Поместите в этот датасет до 90% размеченных изображений.
- Тестовый — изображения из тестового датасета не используются непосредственно для обучения, однако на каждой 100-й итерации процесса обучения изображения используются для оценки текущих способностей модели детектировать объекты. Рассчитанные в этот момент значения точности модели используются для построения кривой Accuracy (зеленая кривая на графике в разделе Мониторинг обучения ).
Поместите в этот датасет 10% размеченных изображений.
Блок для работы со схемой разметки
В данном блоке вы сможете:
- Создать схему разметки.
- Добавить в схему новые поля.
- Выбрать поле для разметки.
- Импортировать или экспортировать схему разметки.
Как разметить изображения
Шаг 1. Добавьте поля в схему разметки

Добавьте в схему поля:
-
Если вы используете модель-классификатор, то название поля должно соответствовать типу документа.
Например, ваша цель классифицировать изображения по трем типам документов: паспорт, СНИЛС, Торг-12. Значит, поля должны называться аналогично этим типам. -
Если вы используете модель для распознавания данных в документе, то название поля — это категория информации, которая должна быть извлечена из документа.
Например, если вы обучаете модель для распознавания данных в паспортах, то поля «Фамилия» или «Дата рождения» будут являться категориями информации, которые необходимо извлечь и структурировать для использования моделью.
Шаг 2. Соотнесите поля с изображениями
Разметка должна быть выполнена одинаковым образом для всех изображений одного типа. Соблюдайте одинаковые зазоры между текстом и описывающим прямоугольником (bounding box).
-
Выберите тип поля, нажав на его название.
-
Выделите значимую область документа:
-
Для модели-классификатора значимой областью будет весь документ.
-
Для модели, распознающей поля в документе, значимой областью будет только та часть изображения, которая содержит данные, относящиеся к выбранному полю. Так, на рисунке ниже, для поля `Имя` выбрана область паспорта с данными имени.

Если документ содержит таблицу, то советуем размечать ее следующим образом:
- Создайте в схеме разметки поле Шапка таблицы, выберите это поле и выделите область, содержащую заголовки таблицы.
- Создайте в схеме разметки поле Тело таблицы, выберите это поле и выделите область, содержащую строки с данными таблицы.
- Создайте в схеме разметки поле Подвал таблицы, выберите это поле и выделите область, содержащую нижнюю часть таблицы с результирующими данными.
Если шапка, тело или подвал таблицы может содержать разное количество строк, позаботьтесь о том, чтобы в вашем датасете было как можно больше изображений с примерами для каждого случая. Это позволит модели лучше обучиться и в дальнейшем понимать, что в документах одного типа могут быть разные варианты таблиц.
-
Шаг 3. Проверьте качество разметки
После окончания разметки изображений проверьте еще раз соответствие областей с данными выбранным полям. Ошибка негативно повлияет на качество обучения и распознавания документов моделью.
Чтобы скорректировать область выделения:
- Наведите курсор на угловую или боковую точку рамки и перетащите её, чтобы изменить размер выделения.
- Наведите курсор внутрь рамки и удерживая левую кнопку мыши, переместите выделение в нужное место.
Запуск обучения модели
-
Перейдите на страницу Обучение.

-
Проверьте качество датасета: откройте блок Качество датасета и убедитесь, что все нужные поля зелёные. Если какие-то подсвечены красным, то добавьте недостающие метки.
-
Выберите целевую машину.
В списке Целевая машина выберите доступный сервер (предпочтительно GPU). Если машин нет, то обратитесь к администратору AI Server. -
Укажите параметры обучения.
Задайте:
- Кол-во итераций (рекомендуется 5000+ для продакшна);
- Базовую модель (например, base-SmartOCR-01);
- Начальный коэффициент обучения (по умолчанию 0.005).
-
Настройте расширенные параметры (опционально).
Можно изменить:
- Кол-во процессов загрузки датасета;
- Способ расширения датасета (повороты, шум, экспозиция);
- Batch size (кол-во изображений на итерацию);
- Тип устройства (CUDA или CPU).
-
Укажите имя модели (опционально).
Можно ввести своё название или оставить поле пустым (имя создастся автоматически). -
Запустите обучение.
Нажмите Обучить.
Проверка результатов и мониторинг обучения
-
После завершения обучения откроется отчёт.

-
Проверьте статус и итоговую точность модели.
-
Просмотрите прогресс обучения.
-
При необходимости нажмите Перезапустить или Удалить обучение.
-
Ознакомьтесь с параметрами обучения и характеристиками датасета.
-
Отслеживайте метрики в блоке Мониторинг обучения. На странице мониторинга отображается график со следующими показателями:

- Зелёная кривая (Average Precision): точность (Accuracy) на тестовых данных.
- Красная кривая (Total Loss): ошибки (Loss) на обучающем наборе.
- Фиолетовая кривая (Learning Rate): скорость обучения, то есть изменение learning rate или его снижение по эпохам.
Более подробную информацию о мониторинге обучения вы можете просмотреть здесь .
-
Просмотрите и при необходимости скопируйте или скачайте логи.
Использование модели
- Убедитесь, что модель успешно обучена.
- Перейдите в раздел Использование:

- В каталоге моделей выберите нужную и нажмите Использовать.
- Задайте параметры: целевая машина, ключ маршрутизации, устройство, при необходимости включите удаление линий и определение ориентации.
- (Опционально) Настройте дополнительные параметры: высоту строк, фильтры, пороги, мультипроцессинг и др.
- В блоке Настройки распознавания текста привяжите поля к ViT или Tesseract.
Тестирование модели
- Активируйте нужную модель в разделе Использование.
- Перейдите в раздел Тестирование.
- Нажмите Добавить файлы и загрузите изображения.
- Нажмите Выполнить для запуска обработки.
- Ознакомьтесь с результатами в блоке Распознанные данные: поля подсвечиваются по уровню точности (красный, оранжевый, зелёный).
- При необходимости скачайте результат в .json или скопируйте данные в буфер обмена.