Установка LLM-ядра
Установка Docker
Выбор устройства
LLM-модели отличаются высокой требовательностью к производительности. Время генерации токенов на графическом ускорителе на порядок выше, чем на ЦПУ.
Выбор ядра
Primo RPA AI Server поддерживает 2 разновидности LLM-ядра - vLLM и Llama.cpp. Для высокопроизводительных вычислений на графической карте подходит vLLM, тогда как Llama.cpp лучше работает на CPU (отличается меньшим временем генерации первого токена). Llama.cpp на текущий момент не поддерживается для GPU.
Выбор ядра также влияет на выбор модели. Модель base-LLM-03 поддерживается только движком vLLM, тогда как модель base-LLM-01/base-LLM-02 – это версии одной модели для разных движков.
Для работы с LLM-ядром необходимо выбрать хотя бы 1 вариант из представленных. При выборе нескольких вариантов, повторите для каждого из них шаги 1-4 настоящей статьи.
Установка LLM-ядра
1. Файлы из комплекта поставки
Скопируйте на целевую машину файлы в зависимости от выбранного движка, приведенные в таблице ниже — они находятся в комплекте поставки Primo RPA AI Server. Остальное ПО должно быть предустановлено в Astra Linux.
docker/agents/NLP/vllm/vllm-gpu.tar
Дистрибутив LLM-ядра на движке vLLM для GPU
docker/agents/NLP/vllm/vllm-cpu.tar
Образ LLM-ядра на движке vLLM для CPU
docker/agents/NLP/llama/llama_cpu_server.tar
Образ LLM-ядра на движке Llama.cpp для CPU
docker/agents/NLP/llama/docker-compose-cpu.yml
Файл с инструкциями для запуска Llama.cpp на CPU
2. Загрузка образа
Для vLLM для GPU:
Для vLLM для CPU:
Для Llama.cpp:
3. Создание рабочей папки
4. Размещение docker-compose
Только для Llama.cpp.
Выполните команды:
Должна получиться следующая иерархия папок для соответствия стандартному docker-compose.yaml:
Last updated
Was this helpful?