Установка LLM-ядра

Выбор устройства

LLM-модели отличаются высокой требовательностью к производительности. Время генерации токенов на графическом ускорителе на порядок ниже, чем на CPU.

Выбор ядра

Primo RPA AI Server поддерживает 2 разновидности LLM-ядра — vLLM и Ollama. Для высокопроизводительных вычислений на графической карте подходит vLLM, тогда как Ollama лучше работает на CPU (отличается меньшим временем генерации первого токена). Свежие видеокарты с высокой compute capability несколько месяцев поддерживаются только движком Ollama.

Выбор ядра также влияет на выбор модели. Модель base-LLM-01 поддерживается только движком vLLM, тогда как модель base-LLM-02 только Ollama. Модели base-LLM-01/base-LLM-02, а также base-LLM-06/base-LLM-05 – это версии одной модели для разных движков.

Для работы с LLM-ядром необходимо выбрать хотя бы 1 вариант из представленных.

Установка LLM-ядра

Выберите образ(ы) в соответствии с таблицей:

LLM-ядро	Разновидность	Файл	Образ
Ollama	*	`distr/ai-server-ollama.tar.7z`	`nexus.primo-rpa.ru:8000/primo-rpa/ai-server-ollama`
vLLM	CPU	`distr/ai-server-vllm-cpu.tar.7z`	`nexus.primo-rpa.ru:8000/primo-rpa/ai-server-vllm-cpu`
vLLM	GPU	`distr/ai-server-vllm-gpu.tar.7z`	`nexus.primo-rpa.ru:8000/primo-rpa/ai-server-vllm-gpu`

Загрузка образа на целевую машину осуществляется здесь.

Что дальше

Выполните установку агента LLM-ядра на текущей или иной машине.

FT-сервер