Обучение модели классификации

Classification model training

Элемент позволяет обучить модель классификации данных. Модель обучается на основе входных данных (файл CSV), где должны быть заданы категории классификации и относящиеся к ним наборы данных. Для обучения модель будет использовать алгоритм, указанный вами в свойствах элемента.

В результате выполнения элемента вы получите обученную модель — файл, который способен распознавать определенные типы закономерностей.

Свойства

Символ * в названии свойства указывает на обязательность заполнения. Описание общих свойств см. в разделе Свойства элемента.

Входные данные

  1. Имя файла* [String] — путь к файлу CSV, содержащему данные для обучения. Пример: System.IO.Path.Combine(_Workflow.ProjectPath, "Data\\file_name.csv").

  2. Номер основной колонки* [Int32] — номер колонки, содержащей категории классификации (классы). Значение по умолчанию: 0.

  3. Номер колонок данных* [String] — номера колонок, содержащих данные. Значение по умолчанию: "1-4".

  4. Разделитель* [String] — разделитель колонок CSV. Значение по умолчанию: ";".

  5. Путь к модели* [String] — путь сохранения файла модели. Пример: System.IO.Path.Combine(_Workflow.ProjectPath, "Models\\model.ml").

  6. Тип алгоритма* — тип алгоритма обучения модели. Чтобы выбрать нужный тип, кликните по списку значений параметра. Доступные значения:

    • Maximum_Entropy — значение по умолчанию. Максимальная энтропия — это метод машинного обучения, основанный на принципе максимизации энтропии (несоразмерности) для получения наиболее вероятностного распределения данных. Метод позволяет учесть все доступные данные при построении модели и делает ее более обобщенной. Алгоритм максимальной энтропии широко используется в области обработки естественного языка, классификации текстов, анализа тональности и других задач, где важна точность предсказания и учет всех доступных данных.

    • Naive_Bayes — метод машинного обучения, основанный на теореме Байеса. Использует вероятностные методы. Метод предполагает независимость между признаками (наивное предположение), что позволяет эффективно работать с данными, имеющими большое количество признаков. Применение алгоритма Naive Bayes широко распространено в задачах классификации текстов, фильтрации спама, анализе тональности текстов, а также в других областях, где важно эффективно работать с большим количеством признаков.

    • One_Versus_All_Averaged_Perceptron — метод «Один против всех, усредненный персептрон» используется для решения задач многоклассовой классификации и эффективен в случаях, когда количество классов велико. Этот алгоритм является модификацией классического алгоритма персептрона и позволяет работать с множеством классов, разделяя их на пары «один против всех». Метод позволяет строить несколько бинарных классификаторов, что упрощает задачу классификации объектов, относящихся к разным классам.

    • One_Versus_All_Fast_Forest — алгоритм обучения «Один против всех, быстрый лес» является модификацией алгоритма случайного леса, который используется для решения задач многоклассовой классификации. Сочетает в себе преимущества метода случайного леса (устойчивость к переобучению, способность работать с большими объемами данных) и метода One-Versus-All (эффективное решение задач многоклассовой классификации). Этот алгоритм может быть эффективным инструментом для решения сложных задач классификации с множеством классов.

Вывод

Как использовать модель

Чтобы применить обученную модель для классификации данных, воспользуйтесь элементом Классификация.

Пример использования

На странице Learning доступен RPA-проект, демонстрирующий работу элемента.

  1. Скачайте архив со всеми обучающими материалами по ссылке: Скачать архив Learning.

  2. Распакуйте архив и откройте в Primo Studio проект MachineLearning.

  3. Выберите процесс Classification.ltw для просмотра.

Last updated