Операции с DataFrame (DataFrame Operations)
Описание
Компонент DataFrame Operations предназначен для работы с табличными данными. Он позволяет изменять структуру таблиц (схему), редактировать записи, выполнять сортировку и фильтрацию.
Результатом работы является новый объект DataFrame, содержащий преобразованные данные.
Использование в потоке
Ниже описаны шаги по настройке компонента DataFrame Operations. Вы можете следовать примеру или использовать собственный поток. Единственное условие: предыдущий компонент должен выдавать данные типа DataFrame.
-
Создайте новый поток или откройте существующий. Пример: Поток извлечения данных из API-ответа.
-
Разместите DataFrame Operations и подключите выход
DataFrameдругого компонента к его входу.⚠️Для работы всех операций требуется хотя бы один вход типа
DataFrame. Если ваш компонент выдает данные в другом формате, используйте Type Convert для переформатирования. Также можно использовать Parser или Data Operations, если они лучше подходят для вашего исходного типа данных. -
В поле Operations выберите нужное действие. Например, операция Filter фильтрует строки на основе заданного столбца и значения.
ℹ️Один компонент выполняет только одну операцию. Для последовательного выполнения нескольких действий соединяйте компоненты DataFrame Operations в цепочку. Для сложных задач (изменение схемы или сводные таблицы) используйте компоненты на базе ИИ, такие как Structured Output или Smart Transform.
-
Проверьте входящие данные (на примере):
- Чтобы увидеть содержимое входящего
DataFrame, нажмите Run component на предыдущем компоненте (например, Type Convert), а затем Inspect output. - Если данные выглядят некорректно, проверьте всю цепочку компонентов выше, чтобы найти ошибку. Если Smart Transform извлек не те поля, скорректируйте инструкции для него.
- Чтобы увидеть содержимое входящего
-
Настройте параметры: Набор полей зависит от выбранной операции. Например, для Filter необходимо заполнить:
- Column Name (Имя столбца)
- Filter Value (Значение фильтра)
- Filter Operator (Оператор фильтрации)
Параметры компонента
Обязательные параметры:
| Параметр | Описание |
|---|---|
| DataFrame (df) | Входной порт для табличных данных. |
| Operation | Список доступных действий над таблицей. |
Необязательные параметры:
| Параметр | Описание |
|---|---|
| Add Column | Операция Add Column позволяет добавить новый столбец в DataFrame с константным (постоянным) значением. Параметрами являются New Column Name (new_column_name) и New Column Value (new_column_value). |
| Drop Column | Операция Drop Column позволяет удалить столбец из DataFrame, указав его в поле Column Name (column_name). |
| Filter | Операция Filter позволяет фильтровать DataFrame на основе заданного условия. На выходе получается DataFrame, содержащий только те строки, которые соответствуют условию фильтрации. Укажите следующие параметры: Column Name (column_name): имя столбца, по которому будет выполняться фильтрация. Filter Value (filter_value): значение, по которому будет происходить фильтрация. Filter Operator (filter_operator): оператор, используемый для фильтрации; один из следующих: равно (по умолчанию), не равно, содержит, не содержит, начинается с, заканчивается на, больше или меньше. |
| Head | Операция Head позволяет получить первые n строк из DataFrame, где n задается в параметре Number of Rows (num_rows). Значение по умолчанию: 5. На выходе получается DataFrame, содержащий только выбранные строки. |
| Rename Column | Операция Rename Column позволяет изменить название существующего столбца в DataFrame. Параметрами являются Column Name (column_name), которое указывает текущее имя, и New Column Name (new_column_name). |
| Replace Value | Операция Replace Value позволяет изменять значения в определенном столбце DataFrame. Эта операция заменяет целевое значение на новое. Все ячейки, соответствующие целевому значению, заменяются на новое значение в выходном DataFrame. Укажите следующие параметры: Column Name (column_name): имя столбца, в котором необходимо произвести изменения. Value to Replace (replace_value): значение, которое вы хотите заменить. Replacement Value (replacement_value): значение, которое будет вставлено вместо старого. |
| Select Columns | Операция Select Columns позволяет выбрать один или несколько определенных столбцов из DataFrame. Укажите список имен столбцов в поле Columns to Select (columns_to_select). В визуальном редакторе нажмите Add More («Добавить еще»), чтобы добавить несколько полей, а затем введите по одному имени столбца в каждое поле. На выходе получается DataFrame, содержащий только указанные столбцы. |
| Sort | Операция Sort позволяет сортировать DataFrame по определенному столбцу в порядке возрастания или убывания. Укажите следующие параметры: Column Name (column_name): имя столбца, по которому будет выполнена сортировка. Sort Ascending (ascending): выполнять сортировку по возрастанию или по убыванию. Если включено (true), сортирует по возрастанию; если выключено (false), сортирует по убыванию. По умолчанию: Включено (true). |
| Tail | Операция Tail позволяет извлечь последние n строк из DataFrame, где n задается в параметре Number of Rows (num_rows). Значение по умолчанию: 5. Результатом является DataFrame, содержащий только выбранные строки. |
| Drop Duplicates | Операция Drop Duplicates удаляет строки из DataFrame, выявляя все повторяющиеся значения в пределах одного столбца. Единственным параметром является Column Name (column_name). При запуске потока все строки с дублирующимися значениями в указанном столбце удаляются. Результатом является DataFrame, содержащий все столбцы исходной таблицы, но только с уникальными (не повторяющимися) строками. |