Системные требования

Для работы системы требуется как минимум:

1 машина AI Server
1 целевая машина (для проектов Умный OCR / AI Текст)

Таблица: Поддерживаемые ОС.

ОС	Версия
Astra Linux Special Edition	1.7
Ubuntu	22.04, 24.04

Машина Центра управления AI Server

Параметр	Рекомендуемые
CPU	x86/x64, 8 ядер
RAM	8 ГБ
Хранилище	200 ГБ (ОС + базовые данные приложений) Дополнительно: + ~1-2 ГБ для обучения 1 модели; + ~1 ГБ в сутки при обработке 1000 изображений

Параметр

Рекомендуемые

CPU

x86/x64, 8 ядер

RAM

8 ГБ

Хранилище

200 ГБ (ОС + базовые данные приложений)

Дополнительно:

+ ~1-2 ГБ для обучения 1 модели;

+ ~1 ГБ в сутки при обработке 1000 изображений

Целевые машины

Компоненты	Вид LLM	CPU	RAM	HDD	GPU	Требования
Умный OCR	-	4 ядра AVX512	8 Гб	50 Гб	-	Минимальные
Умный OCR	-	16 ядер AVX512	32 Гб	1 Тб	-	Рекомендуемые
Умный OCR	-	16 ядер AVX512	32 Гб	1 Тб	NVIDIA (≥ 16 ГБ, 12.4 ≤ CUDA toolkit ≤ 13.0)	Рекомендуемые, оптимизация обучения
NLP	Ollama	2 ядра AVX512	16 Гб	250 Гб	-	Минимальные
NLP	Ollama	2 ядра AVX512	16 Гб	1 Тб	NVIDIA (≥ 24 ГБ, 12.4 ≤ CUDA toolkit ≤ 13.0)	Рекомендуемые
NLP	vLLM	8 ядра AVX512	32 Гб	1 Тб	NVIDIA (≥ 24 ГБ, 12.4 ≤ CUDA toolkit ≤ 13.0)	Рекомендуемые

⚠️

Если на 1 целевой машине установлены одновременно компоненты Умного OCR и NLP, то требования суммируются.

⚠️

Не рекомендуется использовать CPU с несколькими NUMA-узлами (например, многосокетные серверы или процессоры с раздельными кластерами ядер). Неравномерный доступ к памяти между NUMA-узлами значительно замедляет обучение и инференс ИИ-моделей.

Проверить наличие инструкций AVX512 можно командой:


grep avx /proc/cpuinfo

Если в выводе содержатся только AVX2-инструкции, обработка запросов моделью будет замедлена в разы, или, в зависимости от модели, невозможна. Если в выводе отсутствуют даже AVX2-инструкции, работа с LLM-моделями будет невозможна.

Работа на минимальных системных требованиях (без GPU, без AVX512)

⚠️

Файнтюнинг и обучение моделей без поддержки AVX512 невозможны. Описанные ниже рекомендации распространяются только на инференс.

Использование LLM на процессоре без AVX512 крайне неэффективно. Рекомендуется рассмотреть замену процессора: современные модели с небольшим числом ядер, но с поддержкой AVX512, обеспечат значительно лучшую производительность при невысокой стоимости.

Ограничения по движкам инференса

vLLM — дистрибутив для CPU-режима более не поставляется.
Ollama — работает, но с существенными ограничениями. Если модель загружается только со второй попытки, это означает, что при первом запросе не хватает времени на загрузку модели в память — необходимо дополнительно увеличить таймаут (см. ниже).

Настройки для стабильной работы

Для обеспечения работоспособности системы на процессоре без AVX512 выполните следующие настройки:

Конфигурация агента (/app/Primo.AI/Agent/appsettings.ProdLinux.json):

Секция	Параметр	Значение	Описание
`InferenceRequestQueue`	`MaxNlpPromptsLoad`	`1`	Не более 1 запроса NLP в параллельной обработке
`InferenceRequestQueue`	`MaxImagesLoad`	`1`	Не более 1 запроса Умного OCR в параллельной обработке
`Api`	`InferenceTimeoutSeconds`	`1800`	Таймаут ожидания ответа — 30 минут (для всех типов запросов)
`IdpProcess:HealthCheck`	`TimeoutSeconds`	`120`	Таймаут проверки состояния IDP-процесса (по умолчанию 30 сек)
`LlmEngineProcess:HealthCheck:Ollama`	`TimeoutSeconds`	`900`	Таймаут проверки состояния Ollama (по умолчанию 600 сек)

Конфигурация сервиса Api (/app/Primo.AI/Api/volumes/conf/Api/appsettings.ProdLinux.json):

Секция	Параметр	Значение	Описание
`Inferences`	`StartTimeoutSeconds`	`900`	Таймаут запуска инференса (по умолчанию 240 сек)
`TrainProcesses`	`StateTimeout`	`60`	Таймаут проверки состояния процесса обучения (по умолчанию 15 сек)

Конфигурация сервиса Inference (/app/Primo.AI/Api/volumes/conf/Inference/appsettings.ProdLinux.json):

Секция	Параметр	Значение	Описание
`ClearRequestsService`	`DefaultExpirationSeconds`	`21600`	Время жизни запроса — 6 часов. Если очередь накапливается на более длительный период, увеличьте это значение

Настройки в веб-интерфейсе:

В разделе Настройки распознавания текста (конфигурация Умного OCR) установите параметр Кол-во параллельных запросов в значение 1. Это обеспечит последовательное выполнение запросов к LLM в рамках каждого запроса Умного OCR.

Сокращение длины промптов (контекст NLP-запросов, системное сообщение, промпты Умного OCR в настройках ViT) может существенно ускорить обработку каждого запроса.