Общая информация
Базовая модель — это предобученная модель нейронной сети, готовая извлекать определенные свойства из изображений или текста. Без базовой модели невозможно:
- обучить модель для обработки OCR-запросов (компонент Умный OCR);
- сконфигурировать большую языковую модель для обработки NLP-запросов (компонент AI Текст).
Администратор управляет базовыми моделями на странице Настройки > Базовая модель. Он имеет право добавлять модели, скачивать файлы загруженных моделей, удалять неиспользуемые модели, изменять названия и описание базовых моделей.
Пользователь выбирает ту или иную базовую модель, когда выполняет настройки в проекте Умного OCR или когда конфигурирует целевую машину для запуска модели компонента AI Текст.

Шаблоны из поставки
В поставку AI Server входят предустановленные базовые модели для компонентов Умный OCR и AI Текст. Для модели из поставки не требуется совершать никаких действий на странице Настройки ➝ Базовая модель. Достаточно ознакомиться с описанием модели, чтобы учитывать эту информацию при настройках OCR-проекта или при конфигурации машины для работы моделей AI Текста.
В поставку входят базовые модели LLM для компнента AI Текст и одна для сверточной модели, которая используется только в компоненте Умный OCR.
Базовые модели LLM разделяются на текстовые и мультимодальные. Текстовые работают с NLP-запросами — обрабатывают текст на естественном языке. Мультимодальные обучались на разных типах данных, поэтому могут обрабатывать текст и изображения документов. Таким образом, мультимодальные модели можно использовать как для NLP-запросов, так и для OCR-запросов.
Каждая модель LLM работает только на определенном движке и обладает набором уникальных параметров:
- Движок — это отдельный сервер, который выполняет инференс (обработку запросов) от клиента к модели, то есть генерирует выходные данные на основе входных запросов. От типа движка зависят требования к производительности машины. Доступные типы движков:
Ollama— позволяет запускать модель на низкопроизводительной целевой машине: CPU без AVX2/512 или GPU с видеопамятью в 8 Гбайт.vllM— требует наличия графической карты или высокопроизводительного CPU.
- Параметры (или веса) — это условная числовая метрика, которая показывает, сколько переменных было задействовано при обучении LLM. С увеличением параметров модель, как правило, становится сложнее и точнее, но при этом замедляется инференс и растут требования к вычислительной мощности.
С версии AI Server 1.25.4 все базовые LLM-модели поддерживают работу на CPU и GPU. С системными требованиями к машинам можно ознакомиться здесь .
Таблица «Базовые модели из поставки»
| Название базовой модели | Компонент | Описание |
|---|---|---|
base-SmartOCR-01 | Умный OCR | Базовая сверточная модель для компонента Умный OCR, которая подходит как для обучения моделей-классификаторов, так и для моделей распознавания данных в изображениях документов |
base-LLM-01-7b-safetensors-fp16 (vLLM, 7B) | AI Текст | Базовая екстовая модель LLM для движка vLLM. Используйте для работы с любым текстом (ранее: base-LLM-01). |
base-LLM-01-7b-gguf-q8 (Ollama, 7B) | AI Текст | Базовая текстовая LLM для движка Ollama. Может запускаться на менее производительных CPU/GPU (ранее: base-LLM-02). |
base-LLM-06-7b-gguf-q8 (Ollama, 7B) | AI Текст | Базовая мультимодальная LLM для движка Ollama. Используйте для обработки изображений. Может запускаться на менее производительных CPU/GPU (ранее: base-LLM-05). |
base-LLM-06-7b-safetensors-fp16 (vLLM, 7B) | AI Текст | Базовая мультимодальная LLM для движка vLLM. Используйте для обработки изображений, а также как ViT для Умного OCR (ранее: base-LLM-06). |
base-LLM-07-8b-safetensors-fp16 (vLLM, 8B) | AI Текст | Базовая текстовая LLM для движка vLLM. Дотренирована на знание фактов русской культуры и истории (ранее: base-LLM-07). |
base-LLM-06-7b-gguf-fp16 (GGUF FP16, 7B) | AI Текст | Базовая мультимодальная модель для движка Ollama. Используйте для обработки изображений. Может запускаться на менее производительных CPU/GPU. Аналог модели base-LLM-07-8b-safetensors-fp16 для Ollama |
base-LLM-08-27b-gguf-q4_k_m (27B) | AI Текст | Базовая мультимодальная модель для движка Ollama. Используйте для обработки сложных текстовых запросов |
base-LLM-09-30b-gguf-q4_k_m (30B) | AI Текст | Базовая мультимодальная LLM модель. Используйте для обработки сложных текстовых запросов. Поддерживат флаг Рассуждение |
base-LLM-06-32b-gguf-q4_k_m (Ollama, multimodal, 32B) | AI Текст | Базовая мультимодальная LLM модель для движка Ollama. Используйте для обработки изображений. Может запускаться на менее производительных CPU/GPU. Требует более 24 Гб RAM/VRAM |
base-LLM-10-4b-gguf-fp16 (4B) | AI Текст | Базовая текстовая модель для движка vLLM. Используйте как базовую модель для файнтюнинга |