Skip to Content

Общая информация

Шаблон модели (или базовая модель) — это предобученная модель нейронной сети, готовая извлекать определенные свойства из изображений или текста. Без шаблона модели невозможно:

  • обучить модель для обработки OCR-запросов (компонент Умный OCR);
  • сконфигурировать большую языковую модель для обработки NLP-запросов (компонент AI Текст).

Администратор управляет базовыми моделями на странице Настройки > Шаблоны моделей. Он имеет право добавлять шаблоны, скачивать файлы загруженных шаблонов, удалять неиспользуемые шаблоны, изменять названия и описание шаблонов моделей.

Пользователь выбирает ту или иную базовую модель, когда выполняет настройки в проекте Умного OCR или когда конфигурирует целевую машину для запуска модели компонента AI Текст.

alt

Шаблоны из поставки

В поставку AI Server входят предустановленные шаблоны моделей для компонентов Умный OCR и AI Текст. Для шаблона из поставки не требуется совершать никаких действий на странице Настройки ➝ Шаблоны моделей. Достаточно ознакомиться с описанием шаблонов, чтобы учитывать эту информацию при настройках OCR-проекта или при конфигурации машины для работы моделей AI Текста.

В поставку входят шаблоны LLM-моделей для компнента AI Текст и один шаблон сверточной модели, который используется только в компоненте Умный OCR.

Шаблоны LLM разделяются на текстовые и мультимодальные. Текстовые работают с NLP-запросами — обрабатывают текст на естественном языке. Мультимодальные обучались на разных типах данных, поэтому могут обрабатывать текст и изображения документов. Таким образом, мультимодальные модели можно использовать как для NLP-запросов, так и для OCR-запросов.

Каждый шаблон LLM работает только на определенном движке и обладает набором уникальных параметров:

  • Движок — это отдельный сервер, который выполняет инференс (обработку запросов) от клиента к модели, то есть генерирует выходные данные на основе входных запросов. От типа движка зависят требования к производительности машины. Доступные типы движков:
    • Ollama — позволяет запускать модель на низкопроизводительной целевой машине: CPU без AVX2/512 или GPU с видеопамятью в 8 Гбайт.
    • vllM — требует наличия графической карты или высокопроизводительного CPU.
  • Параметры (или веса) — это условная числовая метрика, которая показывает, сколько переменных было задействовано при обучении LLM. С увеличением параметров модель, как правило, становится сложнее и точнее, но при этом замедляется инференс и растут требования к вычислительной мощности.

С версии AI Server 1.25.4 все базовые LLM-модели поддерживают работу на CPU и GPU. С системными требованиями к машинам можно ознакомиться здесь.

Таблица «Шаблоны моделей из поставки»

Название шаблонаКомпонентОписание
base-SmartOCR-01Умный OCRБазовая сверточная модель для компонента Умный OCR, которая подходит как для обучения моделей-классификаторов, так и для моделей распознавания данных в изображениях документов
base-LLM-01-7b-safetensors-fp16 (vLLM, 7B) AI ТекстБазовая екстовая модель LLM для движка vLLM. Используйте для работы с любым текстом (ранее: base-LLM-01).
base-LLM-01-7b-gguf-q8 (Ollama, 7B)AI ТекстБазовая текстовая LLM для движка Ollama. Может запускаться на менее производительных CPU/GPU (ранее: base-LLM-02).
base-LLM-06-7b-gguf-q8 (Ollama, 7B)AI ТекстБазовая мультимодальная LLM для движка Ollama. Используйте для обработки изображений. Может запускаться на менее производительных CPU/GPU (ранее: base-LLM-05).
base-LLM-06-7b-safetensors-fp16 (vLLM, 7B)AI ТекстБазовая мультимодальная LLM для движка vLLM. Используйте для обработки изображений, а также как ViT для Умного OCR (ранее: base-LLM-06).
base-LLM-07-8b-safetensors-fp16 (vLLM, 8B)AI ТекстБазовая текстовая LLM для движка vLLM. Дотренирована на знание фактов русской культуры и истории (ранее: base-LLM-07).
base-LLM-06-7b-gguf-fp16 (GGUF FP16, 7B)AI ТекстБазовая мультимодальная модель для движка Ollama. Используйте для обработки изображений. Может запускаться на менее производительных CPU/GPU. Аналог модели base-LLM-07-8b-safetensors-fp16 для Ollama
base-LLM-08-27b-gguf-q4_k_m (27B)AI ТекстБазовая мультимодальная модель для движка Ollama. Используйте для обработки сложных текстовых запросов
base-LLM-09-30b-gguf-q4_k_m (30B)AI ТекстБазовая мультимодальная LLM модель. Используйте для обработки сложных текстовых запросов. Поддерживат флаг Рассуждение
base-LLM-06-32b-gguf-q4_k_m (Ollama, multimodal, 32B)AI ТекстБазовая мультимодальная LLM модель для движка Ollama. Используйте для обработки изображений. Может запускаться на менее производительных CPU/GPU. Требует более 24 Гб RAM/VRAM
base-LLM-10-4b-gguf-fp16 (4B)AI ТекстБазовая текстовая модель для движка vLLM. Используйте как базовую модель для файнтюнинга

См. также