Skip to Content

Системные требования

Для работы системы требуется как минимум:

  • 1 машина AI Server
  • 1 целевая машина (для проектов Умный OCR / AI Текст)

Таблица: Поддерживаемые ОС.

ОСВерсия
Astra Linux Special Edition1.7
Ubuntu22.04, 24.04

Машина Центра управления AI Server

ПараметрРекомендуемые
CPUx86/x64, 8 ядер
RAM8 ГБ
Хранилище200 ГБ (ОС + базовые данные приложений)

Дополнительно:

+ ~1-2 ГБ для обучения 1 модели;

+ ~1 ГБ в сутки при обработке 1000 изображений

Целевые машины

КомпонентыВид LLMCPURAMHDDGPUТребования
Умный OCR-4 ядра AVX5128 Гб50 Гб-Минимальные
Умный OCR-16 ядер AVX51232 Гб1 Тб-Рекомендуемые
Умный OCR-16 ядер AVX51232 Гб1 ТбNVIDIA (≥ 16 ГБ, 12.4 ≤ CUDA toolkit ≤ 13.0)Рекомендуемые, оптимизация обучения
NLPOllama2 ядра AVX51216 Гб250 Гб-Минимальные
NLPOllama2 ядра AVX51216 Гб1 ТбNVIDIA (≥ 24 ГБ, 12.4 ≤ CUDA toolkit ≤ 13.0)Рекомендуемые
NLPvLLM8 ядра AVX51232 Гб1 ТбNVIDIA (≥ 24 ГБ, 12.4 ≤ CUDA toolkit ≤ 13.0)Рекомендуемые
⚠️

Если на 1 целевой машине установлены одновременно компоненты Умного OCR и NLP, то требования суммируются.

⚠️

Не рекомендуется использовать CPU с несколькими NUMA-узлами (например, многосокетные серверы или процессоры с раздельными кластерами ядер). Неравномерный доступ к памяти между NUMA-узлами значительно замедляет обучение и инференс ИИ-моделей.

Проверить наличие инструкций AVX512 можно командой:

grep avx /proc/cpuinfo

Если в выводе содержатся только AVX2-инструкции, обработка запросов моделью будет замедлена в разы, или, в зависимости от модели, невозможна. Если в выводе отсутствуют даже AVX2-инструкции, работа с LLM-моделями будет невозможна.

Работа на минимальных системных требованиях (без GPU, без AVX512)

⚠️

Файнтюнинг и обучение моделей без поддержки AVX512 невозможны. Описанные ниже рекомендации распространяются только на инференс.

Использование LLM на процессоре без AVX512 крайне неэффективно. Рекомендуется рассмотреть замену процессора: современные модели с небольшим числом ядер, но с поддержкой AVX512, обеспечат значительно лучшую производительность при невысокой стоимости.

Ограничения по движкам инференса

  • vLLM — дистрибутив для CPU-режима более не поставляется.
  • Ollama — работает, но с существенными ограничениями. Если модель загружается только со второй попытки, это означает, что при первом запросе не хватает времени на загрузку модели в память — необходимо дополнительно увеличить таймаут (см. ниже).

Рекомендуемые модели

Обработка изображений на процессоре без AVX512 возможна, но выполняется значительно медленнее:

  • base-LLM-06-7b-gguf-q8 — рекомендуемый вариант (оптимальный баланс скорости и качества);
  • base-LLM-06-7b-gguf-fp16 — повышенная точность при дополнительном снижении скорости.

Настройки для стабильной работы

Для обеспечения работоспособности системы на процессоре без AVX512 выполните следующие настройки:

Конфигурация агента (/app/Primo.AI/Agent/appsettings.ProdLinux.json):

СекцияПараметрЗначениеОписание
InferenceRequestQueueMaxNlpPromptsLoad1Не более 1 запроса NLP в параллельной обработке
InferenceRequestQueueMaxImagesLoad1Не более 1 запроса Умного OCR в параллельной обработке
ApiInferenceTimeoutSeconds1800Таймаут ожидания ответа — 30 минут (для всех типов запросов)
IdpProcess:HealthCheckTimeoutSeconds120Таймаут проверки состояния IDP-процесса (по умолчанию 30 сек)
LlmEngineProcess:HealthCheck:OllamaTimeoutSeconds900Таймаут проверки состояния Ollama (по умолчанию 600 сек)

Конфигурация сервиса Api (/app/Primo.AI/Api/volumes/conf/Api/appsettings.ProdLinux.json):

СекцияПараметрЗначениеОписание
InferencesStartTimeoutSeconds900Таймаут запуска инференса (по умолчанию 240 сек)
TrainProcessesStateTimeout60Таймаут проверки состояния процесса обучения (по умолчанию 15 сек)

Конфигурация сервиса Inference (/app/Primo.AI/Api/volumes/conf/Inference/appsettings.ProdLinux.json):

СекцияПараметрЗначениеОписание
ClearRequestsServiceDefaultExpirationSeconds21600Время жизни запроса — 6 часов. Если очередь накапливается на более длительный период, увеличьте это значение

Настройки в веб-интерфейсе:

В разделе Настройки распознавания текста (конфигурация Умного OCR) установите параметр Кол-во параллельных запросов в значение 1. Это обеспечит последовательное выполнение запросов к LLM в рамках каждого запроса Умного OCR.

Сокращение длины промптов (контекст NLP-запросов, системное сообщение, промпты Умного OCR в настройках ViT) может существенно ускорить обработку каждого запроса.