Установка LLM-ядра

Установка Docker

Выбор устройства

LLM-модели отличаются высокой требовательностью к производительности. Время генерации токенов на графическом ускорителе на порядок ниже, чем на CPU.

Выбор ядра

Primo RPA AI Server поддерживает 2 разновидности LLM-ядра — vLLM и Ollama. Для высокопроизводительных вычислений на графической карте подходит vLLM, тогда как Ollama лучше работает на CPU (отличается меньшим временем генерации первого токена). Свежие видеокарты с высокой compute capability несколько месяцев поддерживаются только движком Ollama.

Выбор ядра также влияет на выбор модели. Модель base-LLM-01 поддерживается только движком vLLM, тогда как модель base-LLM-02 только Ollama. Модели base-LLM-01/base-LLM-02, а также base-LLM-06/base-LLM-05 – это версии одной модели для разных движков.

Для работы с LLM-ядром необходимо выбрать хотя бы 1 вариант из представленных.

Установка LLM-ядра

См. размещение образов

Что дальше

См. Шаги после установки