Общая информация

Базовая модель — это предобученная модель нейронной сети, готовая извлекать определенные свойства из изображений или текста. Без базовой модели невозможно:

обучить модель для обработки OCR-запросов (компонент Умный OCR);
сконфигурировать большую языковую модель для обработки NLP-запросов (компонент AI Текст).

Администратор управляет базовыми моделями на странице Настройки > Базовая модель. Он имеет право добавлять модели, скачивать файлы загруженных моделей, удалять неиспользуемые модели, изменять названия и описание базовых моделей.

alt

Пользователь выбирает ту или иную базовую модель, когда выполняет настройки в проекте Умного OCR или когда конфигурирует целевую машину для запуска модели компонента AI Текст.

Шаблоны из поставки

В поставку AI Server входят предустановленные базовые модели для компонентов Умный OCR и AI Текст:

одна сверточная модель — используется только в компоненте Умный OCR;
несколько базовых моделей LLM — используются в компоненте AI Текст.

Для модели из поставки не требуется совершать никаких действий на странице Настройки ➝ Базовая модель. Достаточно ознакомиться с описанием модели, чтобы учитывать эту информацию при настройках OCR-проекта или при конфигурации машины для работы моделей AI Текста.

Базовые модели LLM разделяются на два типа:

Текстовые — работают с NLP-запросами, то есть обрабатывают текст на естественном языке.
Мультимодальные — обучены на разных типах данных, поэтому могут обрабатывать и текст, и изображения документов. Благодаря этому их можно использовать как для NLP-запросов, так и для OCR-запросов.

Каждая модель LLM работает только на определенном движке и обладает набором уникальных параметров:

Движок — это отдельный сервер, который выполняет инференс (обработку запросов) от клиента к модели, то есть генерирует выходные данные на основе входных запросов. От типа движка зависят требования к производительности машины. Доступные типы движков:
- Ollama — позволяет запускать модель на низкопроизводительной целевой машине: CPU без AVX2/512 или GPU с видеопамятью в 8 Гбайт.
- vLLM — требует наличия графической карты или высокопроизводительного CPU.
Параметры (или веса) — это условная числовая метрика, которая показывает, сколько переменных было задействовано при обучении LLM. С увеличением параметров модель, как правило, становится сложнее и точнее, но при этом замедляется инференс и растут требования к вычислительной мощности.

С версии AI Server 1.25.4 все базовые LLM-модели поддерживают работу на CPU и GPU. С системными требованиями к машинам можно ознакомиться здесь .

Базовые модели из поставки

Название базовой модели	Компонент	Движок	Параметры	Описание
`base-SmartOCR-01`	Умный OCR	-	-	Базовая сверточная модель для компонента Умный OCR, которая подходит как для обучения моделей-классификаторов, так и для моделей распознавания данных в изображениях документов
`base-LLM-06-7b-gguf-q8`	AI Текст	Ollama	7B	Базовая мультимодальная LLM. Используйте для обработки изображений. Может запускаться на менее производительных CPU/GPU (ранее: `base-LLM-05`)
`base-LLM-06-7b-safetensors-fp16`	AI Текст	vLLM	7B	Базовая мультимодальная LLM. Используйте для обработки изображений, а также как ViT для Умного OCR (ранее: `base-LLM-06`)
`base-LLM-07-8b-safetensors-fp16`	AI Текст	vLLM	8B	Базовая текстовая LLM. Дотренирована на знание фактов русской культуры и истории (ранее: `base-LLM-07`)
`base-LLM-06-7b-gguf-fp16`	AI Текст	Ollama	7B	Базовая мультимодальная модель. Используйте для обработки изображений. Может запускаться на менее производительных CPU/GPU. Аналог модели `base-LLM-07-8b-safetensors-fp16` для Ollama
`base-LLM-08-27b-gguf-q4_k_m`	AI Текст	Ollama	27B	Базовая мультимодальная модель. Используйте для обработки сложных текстовых запросов
`base-LLM-09-30b-gguf-q4_k_m`	AI Текст	Ollama	30B	Базовая мультимодальная LLM модель. Используйте для обработки сложных текстовых запросов. Поддерживает флаг Рассуждение
`base-LLM-11-30b-gguf-q4_k_m`	AI Текст	Ollama	30B	Базовая мультимодальная LLM модель. Используйте для обработки изображений, а также как ViT для Умного OCR
`base-LLM-12-35b-gguf-q4_k_m`	AI Текст	Ollama	35B	Базовая мультимодальная LLM модель. Используйте для обработки изображений. Поддерживает флаг Рассуждение
`base-LLM-13-26b-gguf-q4_k_m`	AI Текст	Ollama	26B	Базовая мультимодальная LLM модель. Используйте для обработки изображений. Поддерживает флаг Рассуждение
`ft-base-0.6b-fp16`	AI Текст	vLLM	0.6B	Компактная базовая модель. Используйте для файнтюнинга
`ft-base-2b-fp16`	AI Текст	vLLM	2B	Компактная базовая модель. Используйте для файнтюнинга

Дополнительная информация

Операции управления базовыми моделями