AI Server 1.25.4

Список изменений для версии 1.25.4, выпущенной в апреле 2025-го года.

Информацию об изменениях в минорных выпусках 1.25.4 можно найти в разделах:

Умный OCR

Поддержка многостраничного файла документов

Стала доступна обработка многостраничных документов в форматах PDF и TIFF. Функциональность упрощает работу с большим объемом данных и минимизирует ручной труд при подготовке RPA-проектов.

Многостраничные файлы документов поддерживаются в запросах инференса, а также на странице Тестирование в веб-интерфейсе AI Server. Результат классификации/распознавания будет разбит по страницам.

Важно: многостраничные документы не поддерживаются в датасетах для обучения моделей.

alt

Просмотр логов ядра Data Science

На страницах всех типов процессов (обучение/инференс/авторазметка) появилась возможность просматривать логи ядра Data Science. Логи помогут лучше отслеживать состояние процесса на финальных этапах старта, например, когда система долго не отвечает; или в случае, если запущенный процесс аварийно завершился — в некоторых случаях только в логах ядра Data Science может содержаться причина завершения.

Опция просмотра логов доступна в меню действий процесса. В случае, если логи содержат ошибки, вы можете скопировать список логов и отправить их разработчикам AI Server для получения консультации.

alt

Другие улучшения в Умном OCR

Повысили качество распознавания данных у модели неструктурированного документа (AnyText).
На странице Тестирование стало возможным просматривать качество распознавания данных:
- если точность распознавания меньше 0,2, то значение подсветится красным;
- если точность распознавания в диапазоне 0.2-0.79, то значение подсветится оранжевым;
- если точность выше 0,8, то значение подсветится зеленым — это хороший уровень уверенности распознавания.
На странице Тестирование добавили возможность автоматически определять ориентацию изображения. В случае, если изображение имело в запросе неправильную ориентацию (например, было повернуто набок), то система автоматически его исправит для корректного изучения результатов распознавания. Чтобы использовать эту функцию, включите в шаблоне инференса параметр Определение ориентации страницы перед распознаванием.
В форме импорта датасета появилась возможность указать, датасет какого типа необходимо импортировать в проект. Для этого в форме импорта появился переключатель Обучение / Тестовый. Ранее возможно было импортировать только обучающий датасет.
На страницу Данные добавили уведомления, которые сообщают о статусе загрузки архива изображений. В случае, если загрузка завершилась ошибкой, вы поймете это по тексту всплывающего уведомления.

AI Текст

Распознавание текста на изображении документа

Расширили набор LLM-моделей в поставке AI Server. Теперь вам доступна мультимодальная модель, которая умеет работать как с текстовой информацией, так и с изображениями документов.

Мультимодальная модель поддерживает все существующие навыки, а также дополнительный навык OCR. Если вы назначили модели навык OCR, то она сможет распознавать текст на изображении структурированного и неструктурированного документа, в том числе рукописный текст.

Чтобы использовать мультимодальную модель в проекте типа AI Текст > Задачи NLP:

Выберите базовую модель base-LLM-04 (Vllm, multimodal), движок Vllm и укажите технические характеристики устройства, на котором работает сервер LLM;
Запустите модель на целевой машине;
Добавьте модели навык OCR:

В запросе к мультимодальной модели с навыком OCR требуется обязательно указать файл изображения и, опционально, текст запроса. Например, в тексте запроса вы можете попросить модель найти значение какого-либо поля в паспорте.

Допустимые форматы изображений: JPG, JPEG, PNG. Ограничения по весу файла отсутствуют.

Важно: остальные навыки мультимодальной модели также работают с изображениями, но добавление изображения является для них опциональным. Другие LLM-модели с изображениями не работают.

Другие улучшения в AI Текст

Все базовые LLM-модели из комплекта поставки теперь поддерживают работу на CPU и GPU:
- Мультимодальная модель поддерживает работу на GPU и CPU. Требования к CPU: 12 физических ядер, поддержка расширений AVX-512, оперативная память > 24 Гб.
- Модели с движком Vllm стали запускаться на CPU.
- Модели с движком Llama стали запускаться на GPU.
Повысили стабильность запуска/остановки процессов Умного OCR и AI Текст.
Оптимизировали способ запуска моделей на движке Llama: теперь не требуется размещение файла docker-compose в системе.
Добавили мониторинг состояния процессов. Теперь, если агент недоступен, или физически процесс неожиданно остановился, это отразится на статусе процесса в веб-приложении.
Переименовали тип проекта С использованием LLM в тип AI Текст в соответствии с названием программного компонента.

Исправленные ошибки

Исправлены незначительные ошибки локализации в веб-интерфейсе на английском и русском языках.
Исправлена ошибка, из-за которой некорректно отображался размер загруженного шаблона модели на странице Настройки > Шаблоны моделей.
Исправлена ошибка растрирования PDF.
Исправлены ошибки обновления статуса процесса всех типов.