Skip to Content

Операции с DataFrame (DataFrame Operations)

Описание

Компонент DataFrame Operations предназначен для работы с табличными данными. Он позволяет изменять структуру таблиц (схему), редактировать записи, выполнять сортировку и фильтрацию.

Результатом работы является новый объект DataFrame, содержащий преобразованные данные.

Использование в потоке

Ниже описаны шаги по настройке компонента DataFrame Operations. Вы можете следовать примеру или использовать собственный поток. Единственное условие: предыдущий компонент должен выдавать данные типа DataFrame.

  1. Создайте новый поток или откройте существующий. Пример: Поток извлечения данных из API-ответа.

  2. Разместите DataFrame Operations и подключите выход DataFrame другого компонента к его входу.

    ⚠️

    Для работы всех операций требуется хотя бы один вход типа DataFrame. Если ваш компонент выдает данные в другом формате, используйте Type Convert для переформатирования. Также можно использовать Parser или Data Operations, если они лучше подходят для вашего исходного типа данных.

  3. В поле Operations выберите нужное действие. Например, операция Filter фильтрует строки на основе заданного столбца и значения.

    ℹ️

    Один компонент выполняет только одну операцию. Для последовательного выполнения нескольких действий соединяйте компоненты DataFrame Operations в цепочку. Для сложных задач (изменение схемы или сводные таблицы) используйте компоненты на базе ИИ, такие как Structured Output или Smart Transform.

  4. Проверьте входящие данные (на примере):

    • Чтобы увидеть содержимое входящего DataFrame, нажмите Run component на предыдущем компоненте (например, Type Convert), а затем Inspect output.
    • Если данные выглядят некорректно, проверьте всю цепочку компонентов выше, чтобы найти ошибку. Если Smart Transform извлек не те поля, скорректируйте инструкции для него.
  5. Настройте параметры: Набор полей зависит от выбранной операции. Например, для Filter необходимо заполнить:

    • Column Name (Имя столбца)
    • Filter Value (Значение фильтра)
    • Filter Operator (Оператор фильтрации)

Параметры компонента

Обязательные параметры:

ПараметрОписание
DataFrame (df)Входной порт для табличных данных.
OperationСписок доступных действий над таблицей.

Необязательные параметры:

ПараметрОписание
Add ColumnОперация Add Column позволяет добавить новый столбец в DataFrame с константным (постоянным) значением. Параметрами являются New Column Name (new_column_name) и New Column Value (new_column_value).
Drop ColumnОперация Drop Column позволяет удалить столбец из DataFrame, указав его в поле Column Name (column_name).
FilterОперация Filter позволяет фильтровать DataFrame на основе заданного условия. На выходе получается DataFrame, содержащий только те строки, которые соответствуют условию фильтрации. Укажите следующие параметры: Column Name (column_name): имя столбца, по которому будет выполняться фильтрация. Filter Value (filter_value): значение, по которому будет происходить фильтрация. Filter Operator (filter_operator): оператор, используемый для фильтрации; один из следующих: равно (по умолчанию), не равно, содержит, не содержит, начинается с, заканчивается на, больше или меньше.
HeadОперация Head позволяет получить первые n строк из DataFrame, где n задается в параметре Number of Rows (num_rows). Значение по умолчанию: 5. На выходе получается DataFrame, содержащий только выбранные строки.
Rename ColumnОперация Rename Column позволяет изменить название существующего столбца в DataFrame. Параметрами являются Column Name (column_name), которое указывает текущее имя, и New Column Name (new_column_name).
Replace ValueОперация Replace Value позволяет изменять значения в определенном столбце DataFrame. Эта операция заменяет целевое значение на новое. Все ячейки, соответствующие целевому значению, заменяются на новое значение в выходном DataFrame. Укажите следующие параметры: Column Name (column_name): имя столбца, в котором необходимо произвести изменения. Value to Replace (replace_value): значение, которое вы хотите заменить. Replacement Value (replacement_value): значение, которое будет вставлено вместо старого.
Select ColumnsОперация Select Columns позволяет выбрать один или несколько определенных столбцов из DataFrame. Укажите список имен столбцов в поле Columns to Select (columns_to_select). В визуальном редакторе нажмите Add More («Добавить еще»), чтобы добавить несколько полей, а затем введите по одному имени столбца в каждое поле. На выходе получается DataFrame, содержащий только указанные столбцы.
SortОперация Sort позволяет сортировать DataFrame по определенному столбцу в порядке возрастания или убывания. Укажите следующие параметры: Column Name (column_name): имя столбца, по которому будет выполнена сортировка. Sort Ascending (ascending): выполнять сортировку по возрастанию или по убыванию. Если включено (true), сортирует по возрастанию; если выключено (false), сортирует по убыванию. По умолчанию: Включено (true).
TailОперация Tail позволяет извлечь последние n строк из DataFrame, где n задается в параметре Number of Rows (num_rows). Значение по умолчанию: 5. Результатом является DataFrame, содержащий только выбранные строки.
Drop DuplicatesОперация Drop Duplicates удаляет строки из DataFrame, выявляя все повторяющиеся значения в пределах одного столбца. Единственным параметром является Column Name (column_name). При запуске потока все строки с дублирующимися значениями в указанном столбце удаляются. Результатом является DataFrame, содержащий все столбцы исходной таблицы, но только с уникальными (не повторяющимися) строками.