Установка LLM-ядра

Установка Docker

Выбор устройства

LLM-модели отличаются высокой требовательностью к производительности. Время генерации токенов на графическом ускорителе на порядок выше, чем на CPU.

Выбор ядра

Primo RPA AI Server поддерживает 2 разновидности LLM-ядра — vLLM и Llama.cpp. Для высокопроизводительных вычислений на графической карте подходит vLLM, тогда как Llama.cpp лучше работает на CPU (отличается меньшим временем генерации первого токена).

Выбор ядра также влияет на выбор модели. Модель base-LLM-03 поддерживается только движком vLLM, тогда как модель base-LLM-01/base-LLM-02 – это версии одной модели для разных движков.

Для работы с LLM-ядром необходимо выбрать хотя бы 1 вариант из представленных. При выборе нескольких вариантов, повторите для каждого из них шаги 1-4 настоящей статьи.

Установка LLM-ядра

1. Файлы из комплекта поставки

Скопируйте на целевую машину файлы в зависимости от выбранного движка, приведенные в таблице ниже — они находятся в комплекте поставки Primo RPA AI Server. Остальное ПО должно быть предустановлено в Astra Linux.

Файл	Описание
`distr/ai-server-vllm-gpu.tar`	Образ LLM-ядра на движке vLLM для GPU
`distr/ai-server-vllm-cpu.tar`	Образ LLM-ядра на движке vLLM для CPU
`distr/ai-server-llama-cpp-python-cpu.tar`	Образ LLM-ядра на движке llama-cpp-python для CPU
`distr/ai-server-llama-cpp-python-gpu.tar`	Образ LLM-ядра на движке llama-cpp-python для GPU
`distr/ai-server-ollama.tar`	Образ LLM-ядра на движке Ollama

2. Загрузка образа

Для vLLM для GPU:


docker load -i /srv/samba/shared/install/docker/agents/NLP/vllm/ai-server-vllm-gpu.tar

Для vLLM для CPU:


docker load -i /srv/samba/shared/install/docker/agents/NLP/vllm/ai-server-vllm-cpu.tar

Для llama-cpp-python для CPU:


docker load -i /srv/samba/shared/install/docker/agents/NLP/llama/ai-server-llama-cpp-python-cpu.tar

Для llama-cpp-python для GPU:


docker load -i /srv/samba/shared/install/docker/agents/NLP/llama/ai-server-llama-cpp-python-gpu.tar

Для Ollama:


docker load -i /srv/samba/shared/install/docker/agents/NLP/llama/ai-server-ollama.tar

3. Создание рабочей папки


sudo mkdir -p /app/Primo.AI/NLP/


sudo chown -R agent /app/Primo.AI/NLP

Что дальше

См. Шаги после установки