Глоссарий
Базовые термины и сокращения, которые используются в Primo RPA AI Server.
Общие понятия
AI Текст
AI Текст — программный компонент AI Server, который использует большие языковые модели для решения задач обработки естественного языка (NLP).
Bounding Box
Bounding Box — описывающий прямоугольник. Понятие используется в проектах Умного OCR, где представляет собой встроенный инструмент для разметки данных, который минимально охватывает объект на изображении. Bounding box позволяет обозначить местоположение и размер объекта на изображении.
IDP
IDP — data science-ядро с нейронными сетями и OCR. Предназначено для интеллектуальной обработки изображений документов. IDP входит в поставку AI Server и размещается на целевой машине с Умным OCR.
LLM
LLM — Large Language Model, большая языковая модель. Подтип нейронных сетей, специально разработанный для работы с текстовыми данными. Базовые модели LLM входят в поставку компонента AI Текст.
NLP
NLP — Natural Language Processing, обработка естественного языка. В AI Server NLP-задачи решают большие языковые модели, входящие в поставку AI Текста.
Агент
Агент — приложение, входящее в поставку AI Server. Устанавливается на целевой машине для взаимодействия с сервером и служит для управления моделями Умного OCR или AI Текста.
Аннотация
Аннотация — используется в моделях Умного OCR, которые решают задачи компьютерного зрения (CV). Это процесс маркировки (или разметки) объектов на изображениях, которые модель должна научиться детектировать. Аннотация включает в себя указание местоположения (локализация объектов) и классов объектов на изображении. Основная цель аннотации — предоставить модели обучающие данные, которые помогут ей научиться идентифицировать и локализовать различные объекты на новых изображениях.
Базовая модель
Базовая модель — предобученная модель нейронной сети, готовая извлекать определенные свойства из изображений или текста.
Датасет
Датасет — набор изображений документов, который используется для обучения и тестирования модели Умного OCR. Датасет обычно состоит из изображений и аннотаций, описывающих местоположение и классы объектов (поля в документах) на изображениях. Датасеты делятся на обучающие и тестовые.
Инференс
Инференс — процесс использования обученной модели Умного OCR или AI Текста для создания предсказания или выводов на основе новых данных.
Мультимодальная модель
Мультимодальная модель — большая языковая модель из поставки компонента AI Текст, которая умеет работать с текстом и изображениями.
Навык
Навык — способности большой языковой модели выполнять различные NLP-задачи. Например, генерировать текст на естественном (человеческом) языке, извлекать из него ключевые данные, суммировать, классифицировать текст по заданным классам.
Обучение
Обучение — процесс тренировки модели на обучающей выборке данных для оптимизации параметров нейронной сети (например, весов модели и нейронов смещения). В ходе обучения сеть постепенно улучшает свои предсказания, минимизируя ошибки.
Обученная модель
Обученная модель — модель, которая прошла процесс обучения и теперь может использоваться для инференса (предсказания) на новых данных. Обученная модель имеет настроенные веса и параметры, оптимизированные в ходе тренировки.
Поле
Поле — область изображения, содержащая интересующий объект для обнаружения и распознавания моделью.
Разметка данных
Разметка данных — процесс присвоения меток набору данных, который используется для обучения модели Умного OCR. Например, для решения задачи распознавания изображений модель обучают на большом датасете, на каждом изображении которого проставлены метки. Метки указывают, объекты какого класса присутствуют на изображении.
Регион
Регион — поле, координаты которого модель обнаружила на изображении.
Схема разметки
Схема разметки — объект системы, который хранит заданные пользователем поля для разметки изображений датасета.
Умный OCR
Умный OCR — программный компонент AI Server, предназначенный для обработки отсканированных документов.
Целевая машина
Целевая машина — физическая или виртуальная машина, на которой развернуты базовые модели Умного OCR или AI Текста, а также программные компоненты, которые обеспечивают их работу.
Понятия процесса обучения
Average precision (AP)
Average precision — средняя точность. Метрика, используемая для оценки качества модели обнаружения объектов. Рассчитывается как среднее значение точности для различных уровней полноты.
Batch Size
Batch Size — размер пакета. Количество изображений, одновременно проходящих через модель при единовременном обновлении градиента. Увеличение размера пакета помогает ускорить обучение, но требует больше памяти.
Learning Rate (LR)
Learning Rate — скорость обучения. Определет размер шага, с которым обновляются параметры модели во время обучения. LR влияет на скорость сходимости и качество итоговой модели.
Max iterations
Max iterations — максимальное количество итераций, за которое обучается модель. Одна итерация включает один шаг обновления параметров модели на основе одной или нескольких партий данных (batch size).
Model Weights
Model Weights — веса модели. Параметры, которые модель рассчитывает в процессе обучения. Веса модели сохраняются и используются при инференсе для предсказания на новых данных.
Num workers
Num workers — количество потоков, используемых для загрузки данных. Увеличение числа потоков помогает ускорить обучение, особенно при использовании больших датасетов.
Аугментация
Аугментация — методика искусственного увеличения обучающих данных при помощи модификации уже имеющихся. Для этого к исходным изображениям применяются такие изменения, как поворот, изменение яркости, добавление шума и другие. Аугментация помогает улучшить обобщающую способность модели, предотвращая переобучение.
Переобучение
Переобучение — ситуация, когда модель слишком хорошо запоминает обучающие данные, но плохо обобщает новые данные. Переобученная модель имеет высокую точность на обучающем наборе, но низкую точность на тестовом наборе.
Эпоха
Эпоха — один полный проход через весь набор обучающих изображений. Во время одной эпохи модель видит каждую картинку в обучающем наборе данных один раз.
Понятия процесса инференса
Обобщение
Обобщение — способность модели успешно предсказывать новые данные. Хорошо обобщающая модель успешно справляется с задачей на различных наборах данных, а не только на тех, которые использовались для обучения.
Локализация
Локализация — процесс определения точного местоположения объекта на изображении путем предсказания координат описывающего прямоугольника (bounding box), окружающего объект.
Детекция объектов
Детекция объектов — обнаружение объектов. Процесс идентификации и локализации объектов на изображении. Система не только определяет, что на изображении находится объект определенного класса (например, поле «Наименование поставщика» в документе), но и указывает его точное местоположение.
Тестирование
Тестирование — процесс оценки точности обученной модели на отдельном наборе данных (тестовом датасете), который не использовался для обучения. Тестирование помогает определить, насколько хорошо модель может предсказывать новые данные.