Skip to Content

Установка LLM-ядра

Выбор устройства

LLM-модели отличаются высокой требовательностью к производительности. Время генерации токенов на графическом ускорителе на порядок ниже, чем на CPU.

Выбор ядра

Primo RPA AI Server поддерживает 2 разновидности LLM-ядра — vLLM и Ollama. Для высокопроизводительных вычислений на графической карте подходит vLLM, тогда как Ollama лучше работает на CPU (отличается меньшим временем генерации первого токена). Свежие видеокарты с высокой compute capability несколько месяцев поддерживаются только движком Ollama.

Выбор ядра также влияет на выбор модели. Модель base-LLM-01 поддерживается только движком vLLM, тогда как модель base-LLM-02 только Ollama. Модели base-LLM-01/base-LLM-02, а также base-LLM-06/base-LLM-05 – это версии одной модели для разных движков.

Для работы с LLM-ядром необходимо выбрать хотя бы 1 вариант из представленных.

Установка LLM-ядра

Выберите образ(ы) в соответствии с таблицей:

LLM-ядроРазновидностьФайлОбраз
Ollama*distr/ai-server-ollama.tar.7znexus.primo-rpa.ru:8000/primo-rpa/ai-server-ollama
vLLMCPUdistr/ai-server-vllm-cpu.tar.7znexus.primo-rpa.ru:8000/primo-rpa/ai-server-vllm-cpu
vLLMGPUdistr/ai-server-vllm-gpu.tar.7znexus.primo-rpa.ru:8000/primo-rpa/ai-server-vllm-gpu

Загрузка образа на целевую машину осуществляется здесь.

Что дальше

Выполните установку агента LLM-ядра на текущей или иной машине.