Установка LLM-ядра
Выбор устройства
LLM-модели отличаются высокой требовательностью к производительности. Время генерации токенов на графическом ускорителе на порядок ниже, чем на CPU.
Выбор ядра
Primo RPA AI Server поддерживает 2 разновидности LLM-ядра — vLLM и Ollama. Для высокопроизводительных вычислений на графической карте подходит vLLM, тогда как Ollama лучше работает на CPU (отличается меньшим временем генерации первого токена). Свежие видеокарты с высокой compute capability несколько месяцев поддерживаются только движком Ollama.
Выбор ядра также влияет на выбор модели. Модель base-LLM-01 поддерживается только движком vLLM, тогда как модель base-LLM-02 только Ollama. Модели base-LLM-01/base-LLM-02, а также base-LLM-06/base-LLM-05 – это версии одной модели для разных движков.
Для работы с LLM-ядром необходимо выбрать хотя бы 1 вариант из представленных.
Установка LLM-ядра
Выберите образ(ы) в соответствии с таблицей:
| LLM-ядро | Разновидность | Файл | Образ |
|---|---|---|---|
| Ollama | * | distr/ai-server-ollama.tar.7z | nexus.primo-rpa.ru:8000/primo-rpa/ai-server-ollama |
| vLLM | CPU | distr/ai-server-vllm-cpu.tar.7z | nexus.primo-rpa.ru:8000/primo-rpa/ai-server-vllm-cpu |
| vLLM | GPU | distr/ai-server-vllm-gpu.tar.7z | nexus.primo-rpa.ru:8000/primo-rpa/ai-server-vllm-gpu |
Загрузка образа на целевую машину осуществляется здесь.
Что дальше
Выполните установку агента LLM-ядра на текущей или иной машине.