Установка LLM-ядра
Установка Docker
Выбор устройства
LLM-модели отличаются высокой требовательностью к производительности. Время генерации токенов на графическом ускорителе на порядок ниже, чем на CPU.
Выбор ядра
Primo RPA AI Server поддерживает 2 разновидности LLM-ядра — vLLM и Ollama. Для высокопроизводительных вычислений на графической карте подходит vLLM, тогда как Ollama лучше работает на CPU (отличается меньшим временем генерации первого токена). Свежие видеокарты с высокой compute capability несколько месяцев поддерживаются только движком Ollama.
Выбор ядра также влияет на выбор модели. Модель base-LLM-01 поддерживается только движком vLLM, тогда как модель base-LLM-02 только Ollama. Модели base-LLM-01/base-LLM-02, а также base-LLM-06/base-LLM-05 – это версии одной модели для разных движков.
Для работы с LLM-ядром необходимо выбрать хотя бы 1 вариант из представленных. При выборе нескольких вариантов, повторите для каждого из них шаги 1-4 настоящей статьи.