Skip to Content

Общая информация

Шаблон модели (или базовая модель) — это предобученная модель нейронной сети, готовая извлекать определенные свойства из изображений или текста. Без шаблона модели невозможно:

  • обучить собственную модель для обработки OCR-запросов (компонент Умный OCR);
  • сконфигурировать большую языковую модель (LLM) для обработки NLP-запросов (компонент AI Текст).

Администратор управляет базовыми моделями на странице Настройки > Шаблоны моделей. Он имеет право добавлять шаблоны, скачивать файлы загруженных шаблонов, удалять неиспользуемые шаблоны, изменять названия и описание шаблонов моделей.

Пользователь выбирает ту или иную базовую модель, когда выполняет настройки в проектах Умного OCR или конфигурирует целевую машину для запуска LLM.

alt

Шаблоны из поставки

В поставку AI Server входят предустановленные шаблоны моделей для компонентов Умный OCR и AI Текст. При использовании шаблона из поставки не требуется совершать никаких действий на странице Настройки ➝ Шаблоны моделей. Достаточно ознакомиться с описанием шаблонов, чтобы учитывать эту информацию при настройках OCR-проекта или при конфигурации машины с LLM.

В поставку входит набор шаблонов LLM-моделей и один шаблон сверточной модели, который используется только в компоненте Умный OCR.

Шаблоны LLM разделяются на текстовые и мультимодальные. Текстовые работают только с NLP-запросами, то есть с текстом на естественном языке. Мультимодальные обучались на разных типах данных, поэтому могут обрабатывать текст и изображения документов. Мультимодальные модели можно использовать как для NLP-запросов, так и OCR-запросов.

Каждый шаблон LLM работает только на определенном движке и обладает набором уникальных параметров:

  • Движок — это отдельный сервер, который выполняет инференс (обработку запросов) от клиента к модели, то есть генерирует выходные данные на основе входных запросов. От типа движка зависят требования к производительности машины.
  • Параметры (или веса) — это условная числовая метрика, которая показывает, сколько переменных было задействовано при обучении LLM. С увеличением параметров модель, как правило, становится сложнее и точнее, но при этом замедляется инференс и растут требования к вычислительной мощности.

С версии AI Server 1.25.4 все базовые LLM-модели поддерживают работу на CPU и GPU. С системными требованиями к машинам можно ознакомиться здесь.

Подробное описание шаблонов моделей из поставки представлено в таблице ниже.

Название шаблонаКомпонентОписание
base-SmartOCR-01Умный OCRБазовая сверточная модель для компонента Умный OCR, которая подходит как для обучения моделей-классификаторов, так и для моделей, занимающихся распознаванием данных в документах
base-LLM-01 (vllM, 8B)AI ТекстБазовая текстовая LLM для движка Vllm, которая имеет 8 миллиардов параметров. Способна быстро и точно обрабатывать запросы на естественном языке, но требовательна к аппаратным характеристикам целевой машины: требуется графическая карта или высокопроизводительный CPU
base-LLM-02 (Ollama, 8B)AI ТекстБазовая текстовая LLM для движка Ollama, которая имеет 8 миллиардов параметров. Эту модель можно запускать на низкопроизводительной целевой машине
base-LLM-03 (vllM, 7B)AI ТекстБазовая текстовая LLM для движка Vllm, которая имеет 7 миллиардов параметров. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU
base-LLM-04 (vllM, multimodal, 7B)AI ТекстБазовая мультимодальная LLM для движка Vllm, которая имеет 7 миллиардов параметров. Умеет работать как с текстовой информацией, так и с изображениями документов. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU
base-LLM-05 (llama-cpp-python, 27B)AI ТекстБазовая текстовая LLM для движка LlamaCppPython, которая имеет 27 миллиардов параметров и была специально оптимизирована для инференса с квантизованными весами. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU
base-LLM-06 (vLLM, multimodal, 7B)AI ТекстБазовая мультимодальная LLM для движка Vllm, которая имеет 7 миллиардов параметров. Рекомендуется для обработки изображений в NLP-запросах, а также в качестве движка распознавания ViT для Умного OCR. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU
base-LLM-07 (vLLM, 8B)AI ТекстБазовая текстовая LLM для движка Vllm, которая имеет 8 миллиардов параметров. Дополнительно обучалась на фактах русской культуры и истории. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU

Дополнительная информация о модели base-LLM-05 (llama-cpp-python, 27B). Квантизация — это процесс преобразования параметров модели из представления с высокой точностью (обычно 32-битных чисел с плавающей точкой) в формат с меньшей разрядностью (например, 8 или 4-х битные целые числа). Это значительно уменьшает объем памяти, необходимый для хранения модели, и иногда ускоряет вычисления при наличии соответствующей аппаратной поддержки.

См. также