Skip to Content

Общая информация

Шаблон модели (или базовая модель) — это предобученная модель нейронной сети, готовая извлекать определенные свойства из изображений или текста. Без шаблона модели невозможно:

  • обучить модель для обработки OCR-запросов (компонент Умный OCR);
  • сконфигурировать большую языковую модель для обработки NLP-запросов (компонент AI Текст).

Администратор управляет базовыми моделями на странице Настройки > Шаблоны моделей. Он имеет право добавлять шаблоны, скачивать файлы загруженных шаблонов, удалять неиспользуемые шаблоны, изменять названия и описание шаблонов моделей.

Пользователь выбирает ту или иную базовую модель, когда выполняет настройки в проекте Умного OCR или когда конфигурирует целевую машину для запуска модели компонента AI Текст.

alt

Шаблоны из поставки

В поставку AI Server входят предустановленные шаблоны моделей для компонентов Умный OCR и AI Текст. Для шаблона из поставки не требуется совершать никаких действий на странице Настройки ➝ Шаблоны моделей. Достаточно ознакомиться с описанием шаблонов, чтобы учитывать эту информацию при настройках OCR-проекта или при конфигурации машины для работы моделей AI Текста.

В поставку входят шаблоны LLM-моделей для компнента AI Текст и один шаблон сверточной модели, который используется только в компоненте Умный OCR.

Шаблоны LLM разделяются на текстовые и мультимодальные. Текстовые работают с NLP-запросами — обрабатывают текст на естественном языке. Мультимодальные обучались на разных типах данных, поэтому могут обрабатывать текст и изображения документов. Таким образом, мультимодальные модели можно использовать как для NLP-запросов, так и для OCR-запросов.

Каждый шаблон LLM работает только на определенном движке и обладает набором уникальных параметров:

  • Движок — это отдельный сервер, который выполняет инференс (обработку запросов) от клиента к модели, то есть генерирует выходные данные на основе входных запросов. От типа движка зависят требования к производительности машины. Доступные типы движков:
    • Ollama — позволяет запускать модель на низкопроизводительной целевой машине: CPU без AVX2/512 или GPU с видеопамятью в 8 Гбайт.
    • vllM — требует наличия графической карты или высокопроизводительного CPU.
    • llama-cpp-python — требует наличия графической карты или высокопроизводительного CPU. На данном движке работала модель base-LLM-05 в версии 1.25.4.1. С версии 1.25.4.2 эта модель перешла на движок ollama, а движок llama-cpp-python перестал использоваться.
  • Параметры (или веса) — это условная числовая метрика, которая показывает, сколько переменных было задействовано при обучении LLM. С увеличением параметров модель, как правило, становится сложнее и точнее, но при этом замедляется инференс и растут требования к вычислительной мощности.

С версии AI Server 1.25.4 все базовые LLM-модели поддерживают работу на CPU и GPU. С системными требованиями к машинам можно ознакомиться здесь.

Таблица «Шаблоны моделей из поставки»

Название шаблонаКомпонентОписание
base-SmartOCR-01Умный OCRБазовая сверточная модель для компонента Умный OCR, которая подходит как для обучения моделей-классификаторов, так и для моделей распознавания данных в изображениях документов
base-LLM-01 (vllM, 8B)AI ТекстБазовая текстовая LLM для движка vLLM, которая имеет 8 миллиардов параметров. Способна быстро и точно обрабатывать запросы на естественном языке, но требовательна к аппаратным характеристикам целевой машины: требуется графическая карта или высокопроизводительный CPU
base-LLM-02 (Ollama, 8B)AI ТекстБазовая текстовая LLM для движка Ollama, которая имеет 8 миллиардов параметров. Эту модель можно запускать на низкопроизводительной целевой машине
base-LLM-03 (vllM, 7B)AI ТекстБазовая текстовая LLM для движка vLLM, которая имеет 7 миллиардов параметров. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU
base-LLM-04 (vllM, multimodal, 7B)AI ТекстБазовая мультимодальная LLM для движка vLLM, которая имеет 7 миллиардов параметров. умеет работать с текстом и изображениями в NLP-запросах, а также может использоваться как движок распознавания ViT в проектах Умного OCR. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU
base-LLM-05 (Ollama, multimodal, 27B)AI ТекстБазовая мультимодальная LLM для движка Ollama, которая имеет 27 миллиардов параметров и была специально оптимизирована для инференса с квантизованными весами. Модель умеет работать с текстом и изображениями в NLP-запросах, а также может использоваться как движок распознавания ViT в проектах Умного OCR. Модель можно запускать на низкопроизводительной целевой машине
base-LLM-06 (vLLM, multimodal, 7B)AI ТекстБазовая мультимодальная LLM для движка vLLM, которая имеет 7 миллиардов параметров. Умеет работать с текстом и изображениями в NLP-запросах, а также может использоваться как движок распознавания ViT в проектах Умного OCR — рекомендованная модель для достижения лучших результатов распознавания в OCR-запросах. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU
base-LLM-07 (vLLM, 8B)AI ТекстБазовая текстовая LLM для движка vLLM, которая имеет 8 миллиардов параметров. Дополнительно обучалась на фактах русской культуры и истории. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU

Дополнительная информация о модели base-LLM-05 (Ollama, multimodal, 27B). Квантизация — это процесс преобразования параметров модели из представления с высокой точностью (обычно 32-битных чисел с плавающей точкой) в формат с меньшей разрядностью (например, 8 или 4-х битные целые числа). Это значительно уменьшает объем памяти, необходимый для хранения модели, и иногда ускоряет вычисления при наличии соответствующей аппаратной поддержки.

См. также