AI Server 1.25.4.1

Список изменений для патч-версии 1.25.4.1, выпущенной в мае 2025-го года.

Движок Ollama для моделей AI Текст

Для снижения системных требований к машинам добавили движок ollama в AI Текст. Теперь модель base-LLM-02 работает на ollama вместо llama-cpp-python.

Решение имеет ряд преимуществ:

снижает затраты на оборудование: модель на ollama может запускаться на CPU без AVX2/512 или GPU с видеопамятью в 16 Гбайт;
позволяет использовать более мощные модели: ollama позволяет запускать квантизованные модели со значительно большим количеством параметров на тех же мощностях.

Новые модели для AI Текст

Расширили набор базовых моделей, которые поставляются для компонента AI Текст. Добавили следующие модели:

base-LLM-05 (llama-cpp-python, 27B) — текстовая LLM для движка LlamaCppPython, которая имеет 27 миллиардов параметров и была специально оптимизирована для инференса с квантизованными весами. На текущий момент модель необходимо запускать на машине с графической картой или высокопроизводительном CPU.
base-LLM-06 (vLLM, multimodal, 7B) — новая мультимодальная LLM для движка Vllm, которая имеет 7 миллиардов параметров. Рекомендуется для обработки изображений в NLP-запросах, а также используется в качестве движка распознавания ViT для Умного OCR. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU.
base-LLM-07 (vLLM, 8B) — текстовая LLM для движка Vllm, которая имеет 8 миллиардов параметров и дополнительно обучалась на фактах русской культуры и истории. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU.

Просмотреть обновленные системные требования к машинам можно здесь.

Движок распознавания ViT

В проектах с типом Умный OCR появилась возможность выбирать движок распознавания текста в документах. Ранее в качестве движка использовался только Tesseract, возможность использовать другой движок отсутствовала.

С этой версии вы можете выбрать движок самостоятельно. Доступные значения:

Tesseract — движок оптического распознавания символов (OCR), который использует нейронные сети LSTM для решения задач распознавания.
ViT (Vision Transformer) — движок на основе мультимодальной модели base-LLM-06 (vLLM, multimodal, 7B). Движок ViT лучше справляется с задачами распознавания, умеет распознавать рукописный текст и работать со сложным фоном изображений. Однако ViT предъявляет более высокие требования к вычислительной мощности машины по сравнению с Tesseract: для сравнимой производительности с Tesseract рекомендуется запускать мультимодальную модель на GPU.

Чтобы использовать движок ViT в OCR-проекте, требуется:

Настроить и запустить модель base-LLM-06 (vLLM, multimodal, 7B) на целевой машине.
Перейти в OCR-проект и обучить модель для детекции объектов на изображениях.
Добавить шаблон инференса и указать в нем следующие настройки:
- в параметре Распознавание текста выбрать значение ViT;
- в параметре Используемая ViT-модель выбрать машину с запущенной мультимодальной моделью base-LLM-06 (vLLM, multimodal, 7B);
- в параметре Адрес модели система автоматически подставит URL-адрес модели;
- в параметре Максимальное количество параллельных запросов к ViT-модели указать максимальное количество параллельных запросов к ViT-модели. По умолчанию 2. Если с ростом нагрузки время обработки одного запроса растет нелинейно, рекомендуется уменьшить параметр.

Для целей классификации движок любого типа не применяется.

Страница Машины

Изменили процесс запуска LLM на машинах, чтобы вы могли использовать мультимодальную модель в качестве движка распознавания ViT для OCR-проектов.

Ранее конфигурация и запуск LLM настраивались в рамках NLP-проекта. С этой версии в веб-интерфейсе появилась страница Машины с карточками всех созданных целевых машин.

Каждая карточка содержит:

название машины;
информацию о состоянии машины: заблокирована/разблокирована, наличие лицензии агента и подключения к сети, статус (запущена/бездействует/ошибка);
привязанные к машине проекты, которые разделены по компонентам: AI Текст или Умный OCR.

Если нажать карточку, то станет доступным блок для конфигурации LLM, а также возможность изменить состояние запуска модели на машине.

Таким образом, в карточке машины вы можете единожды настроить конфигурацию LLM, запустить LLM безотносительно проекта и затем переиспользовать модель в разных проектах — NLP или OCR.

Привязка проекта к машине выполняется в настройках проекта, после чего становится видна в карточке машины.

Обновления в веб-интерфейсе

Изменился внешний вид главной страницы. Ранее на главной странице отображались только карточки проектов. Теперь при входе в AI Server вы увидите:

общие данные по проектам, машинам, ИИ-моделям в организации;
карточки машин;
карточки проектов;
навигационное меню в верхней части страницы.

alt

Чтобы перейти к обзору всех проектов, нужно выбрать в меню Проекты или нажать Смотреть все на главной странице.

Чтобы перейти к обзору всех машин, нужно выбрать в меню Машины или нажать Смотреть все на главной странице.

Улучшенный Классификатор

Улучшили встроенный OCR-проект Классификатор:

Расширили список типов документов, доступных для классификации. Ранее на странице проекта Инференс > Документы были доступны только типы: паспорт, СНИЛС, торг-12.

Обновленный список содержит:

При работе с проектом Классификатор следует учитывать, что для документов типа паспорт, СНИЛС, торг-12 имеются обученные модели из поставки и встроенные типы моделей, которые выполняют роль ключа маршрутизации запросов инференса.

Для остальных типов документов нужно либо предварительно обучить модели и создать соответствующие типы моделей. Либо использовать в качестве ключа маршрутизации встроенный тип модели anytext, который будет относить их к классу неструктурированных документов.
Добавили возможность классифицировать сразу несколько документов, размещенных на одном изображении:

Инструкция по обновлению AI Server

Обновление 1.25.4.0 → 1.25.4.1 — ограничивается вариантом установки через Docker.