Системные требования
Для работы системы требуется как минимум:
- 1 машина AI Server
- 1 целевая машина (для проектов Умный OCR / AI Текст)
Таблица: Поддерживаемые ОС.
| ОС | Версия |
|---|---|
| Astra Linux Special Edition | 1.7 |
| Ubuntu | 22.04, 24.04 |
Машина Центра управления AI Server
| Параметр | Рекомендуемые |
|---|---|
| CPU | x86/x64, 8 ядер |
| RAM | 8 ГБ |
| Хранилище | 200 ГБ (ОС + базовые данные приложений) Дополнительно: + ~1-2 ГБ для обучения 1 модели; + ~1 ГБ в сутки при обработке 1000 изображений |
Целевые машины
| Компоненты | Вид LLM | CPU | RAM | HDD | GPU | Требования |
|---|---|---|---|---|---|---|
| Умный OCR | - | 4 ядра AVX512 | 8 Гб | 50 Гб | - | Минимальные |
| Умный OCR | - | 16 ядер AVX512 | 32 Гб | 1 Тб | - | Рекомендуемые |
| Умный OCR | - | 16 ядер AVX512 | 32 Гб | 1 Тб | NVIDIA (≥ 16 ГБ, 12.4 ≤ CUDA toolkit ≤ 13.0) | Рекомендуемые, оптимизация обучения |
| NLP | Ollama | 2 ядра AVX512 | 16 Гб | 250 Гб | - | Минимальные |
| NLP | Ollama | 2 ядра AVX512 | 16 Гб | 1 Тб | NVIDIA (≥ 24 ГБ, 12.4 ≤ CUDA toolkit ≤ 13.0) | Рекомендуемые |
| NLP | vLLM | 8 ядра AVX512 | 32 Гб | 1 Тб | NVIDIA (≥ 24 ГБ, 12.4 ≤ CUDA toolkit ≤ 13.0) | Рекомендуемые |
Если на 1 целевой машине установлены одновременно компоненты Умного OCR и NLP, то требования суммируются.
Не рекомендуется использовать CPU с несколькими NUMA-узлами (например, многосокетные серверы или процессоры с раздельными кластерами ядер). Неравномерный доступ к памяти между NUMA-узлами значительно замедляет обучение и инференс ИИ-моделей.
Проверить наличие инструкций AVX512 можно командой:
grep avx /proc/cpuinfoЕсли в выводе содержатся только AVX2-инструкции, обработка запросов моделью будет замедлена в разы, или, в зависимости от модели, невозможна. Если в выводе отсутствуют даже AVX2-инструкции, работа с LLM-моделями будет невозможна.
Работа на минимальных системных требованиях (без GPU, без AVX512)
Файнтюнинг и обучение моделей без поддержки AVX512 невозможны. Описанные ниже рекомендации распространяются только на инференс.
Использование LLM на процессоре без AVX512 крайне неэффективно. Рекомендуется рассмотреть замену процессора: современные модели с небольшим числом ядер, но с поддержкой AVX512, обеспечат значительно лучшую производительность при невысокой стоимости.
Ограничения по движкам инференса
- vLLM — дистрибутив для CPU-режима более не поставляется.
- Ollama — работает, но с существенными ограничениями. Если модель загружается только со второй попытки, это означает, что при первом запросе не хватает времени на загрузку модели в память — необходимо дополнительно увеличить таймаут (см. ниже).
Рекомендуемые модели
Обработка изображений на процессоре без AVX512 возможна, но выполняется значительно медленнее:
base-LLM-06-7b-gguf-q8— рекомендуемый вариант (оптимальный баланс скорости и качества);base-LLM-06-7b-gguf-fp16— повышенная точность при дополнительном снижении скорости.
Настройки для стабильной работы
Для обеспечения работоспособности системы на процессоре без AVX512 выполните следующие настройки:
Конфигурация агента (/app/Primo.AI/Agent/appsettings.ProdLinux.json):
| Секция | Параметр | Значение | Описание |
|---|---|---|---|
InferenceRequestQueue | MaxNlpPromptsLoad | 1 | Не более 1 запроса NLP в параллельной обработке |
InferenceRequestQueue | MaxImagesLoad | 1 | Не более 1 запроса Умного OCR в параллельной обработке |
Api | InferenceTimeoutSeconds | 1800 | Таймаут ожидания ответа — 30 минут (для всех типов запросов) |
IdpProcess:HealthCheck | TimeoutSeconds | 120 | Таймаут проверки состояния IDP-процесса (по умолчанию 30 сек) |
LlmEngineProcess:HealthCheck:Ollama | TimeoutSeconds | 900 | Таймаут проверки состояния Ollama (по умолчанию 600 сек) |
Конфигурация сервиса Api (/app/Primo.AI/Api/volumes/conf/Api/appsettings.ProdLinux.json):
| Секция | Параметр | Значение | Описание |
|---|---|---|---|
Inferences | StartTimeoutSeconds | 900 | Таймаут запуска инференса (по умолчанию 240 сек) |
TrainProcesses | StateTimeout | 60 | Таймаут проверки состояния процесса обучения (по умолчанию 15 сек) |
Конфигурация сервиса Inference (/app/Primo.AI/Api/volumes/conf/Inference/appsettings.ProdLinux.json):
| Секция | Параметр | Значение | Описание |
|---|---|---|---|
ClearRequestsService | DefaultExpirationSeconds | 21600 | Время жизни запроса — 6 часов. Если очередь накапливается на более длительный период, увеличьте это значение |
Настройки в веб-интерфейсе:
В разделе Настройки распознавания текста (конфигурация Умного OCR) установите параметр Кол-во параллельных запросов в значение 1. Это обеспечит последовательное выполнение запросов к LLM в рамках каждого запроса Умного OCR.
Сокращение длины промптов (контекст NLP-запросов, системное сообщение, промпты Умного OCR в настройках ViT) может существенно ускорить обработку каждого запроса.