Общая информация

Шаблон модели (или базовая модель) — это предобученная модель нейронной сети, готовая извлекать определенные свойства из изображений или текста. Без шаблона модели невозможно:

обучить модель для обработки OCR-запросов (компонент Умный OCR);
сконфигурировать большую языковую модель для обработки NLP-запросов (компонент AI Текст).

Администратор управляет базовыми моделями на странице Настройки > Шаблоны моделей. Он имеет право добавлять шаблоны, скачивать файлы загруженных шаблонов, удалять неиспользуемые шаблоны, изменять названия и описание шаблонов моделей.

Пользователь выбирает ту или иную базовую модель, когда выполняет настройки в проекте Умного OCR или когда конфигурирует целевую машину для запуска модели компонента AI Текст.

alt

Шаблоны из поставки

В поставку AI Server входят предустановленные шаблоны моделей для компонентов Умный OCR и AI Текст. Для шаблона из поставки не требуется совершать никаких действий на странице Настройки ➝ Шаблоны моделей. Достаточно ознакомиться с описанием шаблонов, чтобы учитывать эту информацию при настройках OCR-проекта или при конфигурации машины для работы моделей AI Текста.

В поставку входят шаблоны LLM-моделей для компнента AI Текст и один шаблон сверточной модели, который используется только в компоненте Умный OCR.

Шаблоны LLM разделяются на текстовые и мультимодальные. Текстовые работают с NLP-запросами — обрабатывают текст на естественном языке. Мультимодальные обучались на разных типах данных, поэтому могут обрабатывать текст и изображения документов. Таким образом, мультимодальные модели можно использовать как для NLP-запросов, так и для OCR-запросов.

Каждый шаблон LLM работает только на определенном движке и обладает набором уникальных параметров:

Движок — это отдельный сервер, который выполняет инференс (обработку запросов) от клиента к модели, то есть генерирует выходные данные на основе входных запросов. От типа движка зависят требования к производительности машины. Доступные типы движков:
- Ollama — позволяет запускать модель на низкопроизводительной целевой машине: CPU без AVX2/512 или GPU с видеопамятью в 8 Гбайт.
- vllM — требует наличия графической карты или высокопроизводительного CPU.
Параметры (или веса) — это условная числовая метрика, которая показывает, сколько переменных было задействовано при обучении LLM. С увеличением параметров модель, как правило, становится сложнее и точнее, но при этом замедляется инференс и растут требования к вычислительной мощности.

С версии AI Server 1.25.4 все базовые LLM-модели поддерживают работу на CPU и GPU. С системными требованиями к машинам можно ознакомиться здесь.

Таблица «Шаблоны моделей из поставки»

Название шаблона	Компонент	Описание
`base-SmartOCR-01`	Умный OCR	Базовая сверточная модель для компонента Умный OCR, которая подходит как для обучения моделей-классификаторов, так и для моделей распознавания данных в изображениях документов
`base-LLM-01 (vllM, 8B)`	AI Текст	Базовая текстовая LLM для движка vLLM, которая имеет 8 миллиардов параметров. Способна быстро и точно обрабатывать запросы на естественном языке, но требовательна к аппаратным характеристикам целевой машины: требуется графическая карта или высокопроизводительный CPU
`base-LLM-02 (Ollama, 8B)`	AI Текст	Базовая текстовая LLM для движка Ollama, которая имеет 8 миллиардов параметров. Эту модель можно запускать на низкопроизводительной целевой машине
`base-LLM-03 (vllM, 7B)`	AI Текст	Базовая текстовая LLM для движка vLLM, которая имеет 7 миллиардов параметров. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU
`base-LLM-04 (vllM, multimodal, 7B)`	AI Текст	Базовая мультимодальная LLM для движка vLLM, которая имеет 7 миллиардов параметров. умеет работать с текстом и изображениями в NLP-запросах, а также может использоваться как движок распознавания ViT в проектах Умного OCR. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU
`base-LLM-05 (Ollama, multimodal, 7B)`	AI Текст	Базовая мультимодальная LLM для движка Ollama, которая имеет 7 миллиардов параметров и была специально оптимизирована для инференса с квантизованными весами. Модель умеет работать с текстом и изображениями в NLP-запросах, а также может использоваться как движок распознавания ViT в проектах Умного OCR. Модель можно запускать на низкопроизводительной целевой машине
`base-LLM-06 (vLLM, multimodal, 7B)`	AI Текст	Базовая мультимодальная LLM для движка vLLM, которая имеет 7 миллиардов параметров. Умеет работать с текстом и изображениями в NLP-запросах, а также может использоваться как движок распознавания ViT в проектах Умного OCR — рекомендованная модель для достижения лучших результатов распознавания в OCR-запросах. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU
`base-LLM-07 (vLLM, 8B)`	AI Текст	Базовая текстовая LLM для движка vLLM, которая имеет 8 миллиардов параметров. Дополнительно обучалась на фактах русской культуры и истории. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU

Дополнительная информация о квантизованных моделях base-LLM-02, base-LLM-05. Квантизация — это процесс преобразования параметров модели из представления с высокой точностью (обычно 32-битных чисел с плавающей точкой) в формат с меньшей разрядностью (например, 8 или 4-х битные целые числа). Это значительно уменьшает объем памяти, необходимый для хранения модели, и иногда ускоряет вычисления при наличии соответствующей аппаратной поддержки.

См. также

Операции управления шаблонами