Общая информация
Шаблон модели (или базовая модель) — это предобученная модель нейронной сети, готовая извлекать определенные свойства из изображений или текста. Без шаблона модели невозможно:
- обучить модель для обработки OCR-запросов (компонент Умный OCR);
- сконфигурировать большую языковую модель для обработки NLP-запросов (компонент AI Текст).
Администратор управляет базовыми моделями на странице Настройки > Шаблоны моделей. Он имеет право добавлять шаблоны, скачивать файлы загруженных шаблонов, удалять неиспользуемые шаблоны, изменять названия и описание шаблонов моделей.
Пользователь выбирает ту или иную базовую модель, когда выполняет настройки в проекте Умного OCR или когда конфигурирует целевую машину для запуска модели компонента AI Текст.
Шаблоны из поставки
В поставку AI Server входят предустановленные шаблоны моделей для компонентов Умный OCR и AI Текст. Для шаблона из поставки не требуется совершать никаких действий на странице Настройки ➝ Шаблоны моделей. Достаточно ознакомиться с описанием шаблонов, чтобы учитывать эту информацию при настройках OCR-проекта или при конфигурации машины для работы моделей AI Текста.
В поставку входят шаблоны LLM-моделей для компнента AI Текст и один шаблон сверточной модели, который используется только в компоненте Умный OCR.
Шаблоны LLM разделяются на текстовые и мультимодальные. Текстовые работают с NLP-запросами — обрабатывают текст на естественном языке. Мультимодальные обучались на разных типах данных, поэтому могут обрабатывать текст и изображения документов. Таким образом, мультимодальные модели можно использовать как для NLP-запросов, так и для OCR-запросов.
Каждый шаблон LLM работает только на определенном движке и обладает набором уникальных параметров:
- Движок — это отдельный сервер, который выполняет инференс (обработку запросов) от клиента к модели, то есть генерирует выходные данные на основе входных запросов. От типа движка зависят требования к производительности машины. Доступные типы движков:
Ollama
— позволяет запускать модель на низкопроизводительной целевой машине: CPU без AVX2/512 или GPU с видеопамятью в 8 Гбайт.vllM
— требует наличия графической карты или высокопроизводительного CPU.llama-cpp-python
— требует наличия графической карты или высокопроизводительного CPU. На данном движке работала модельbase-LLM-05
в версии 1.25.4.1. С версии 1.25.4.2 эта модель перешла на движок ollama, а движок llama-cpp-python перестал использоваться.
- Параметры (или веса) — это условная числовая метрика, которая показывает, сколько переменных было задействовано при обучении LLM. С увеличением параметров модель, как правило, становится сложнее и точнее, но при этом замедляется инференс и растут требования к вычислительной мощности.
С версии AI Server 1.25.4 все базовые LLM-модели поддерживают работу на CPU и GPU. С системными требованиями к машинам можно ознакомиться здесь.
Таблица «Шаблоны моделей из поставки»
Название шаблона | Компонент | Описание |
---|---|---|
base-SmartOCR-01 | Умный OCR | Базовая сверточная модель для компонента Умный OCR, которая подходит как для обучения моделей-классификаторов, так и для моделей распознавания данных в изображениях документов |
base-LLM-01 (vllM, 8B) | AI Текст | Базовая текстовая LLM для движка vLLM, которая имеет 8 миллиардов параметров. Способна быстро и точно обрабатывать запросы на естественном языке, но требовательна к аппаратным характеристикам целевой машины: требуется графическая карта или высокопроизводительный CPU |
base-LLM-02 (Ollama, 8B) | AI Текст | Базовая текстовая LLM для движка Ollama, которая имеет 8 миллиардов параметров. Эту модель можно запускать на низкопроизводительной целевой машине |
base-LLM-03 (vllM, 7B) | AI Текст | Базовая текстовая LLM для движка vLLM, которая имеет 7 миллиардов параметров. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU |
base-LLM-04 (vllM, multimodal, 7B) | AI Текст | Базовая мультимодальная LLM для движка vLLM, которая имеет 7 миллиардов параметров. умеет работать с текстом и изображениями в NLP-запросах, а также может использоваться как движок распознавания ViT в проектах Умного OCR. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU |
base-LLM-05 (Ollama, multimodal, 27B) | AI Текст | Базовая мультимодальная LLM для движка Ollama, которая имеет 27 миллиардов параметров и была специально оптимизирована для инференса с квантизованными весами. Модель умеет работать с текстом и изображениями в NLP-запросах, а также может использоваться как движок распознавания ViT в проектах Умного OCR. Модель можно запускать на низкопроизводительной целевой машине |
base-LLM-06 (vLLM, multimodal, 7B) | AI Текст | Базовая мультимодальная LLM для движка vLLM, которая имеет 7 миллиардов параметров. Умеет работать с текстом и изображениями в NLP-запросах, а также может использоваться как движок распознавания ViT в проектах Умного OCR — рекомендованная модель для достижения лучших результатов распознавания в OCR-запросах. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU |
base-LLM-07 (vLLM, 8B) | AI Текст | Базовая текстовая LLM для движка vLLM, которая имеет 8 миллиардов параметров. Дополнительно обучалась на фактах русской культуры и истории. Модель требуется запускать на машине с графической картой или высокопроизводительном CPU |
Дополнительная информация о модели base-LLM-05 (Ollama, multimodal, 27B)
.
Квантизация — это процесс преобразования параметров модели из представления с
высокой точностью (обычно 32-битных чисел с плавающей точкой) в формат с
меньшей разрядностью (например, 8 или 4-х битные целые числа). Это значительно
уменьшает объем памяти, необходимый для хранения модели, и иногда ускоряет
вычисления при наличии соответствующей аппаратной поддержки.