URL (Компонент URL)
Описание
Компонент URL извлекает содержимое по одному или нескольким URL-адресам, обрабатывает его и возвращает в различных форматах. Он поддерживает рекурсивный переход по ссылкам до заданной глубины, а также позволяет выводить результат в виде простого текста или необработанного (raw) HTML.
Параметры компонента
Некоторые параметры по умолчанию скрыты в визуальном редакторе. Вы можете изменить все параметры через меню
Controls (Управление) в заголовке компонента.
| Имя (Name) | Отображаемое имя | Информация |
|---|---|---|
urls | URLs | Входной параметр. Один или несколько URL для рекурсивного сканирования. В визуальном редакторе нажмите + Add URL, чтобы добавить несколько адресов. |
max_depth | Depth (Глубина) | Входной параметр. Управляет обходом ссылок: на сколько «кликов» вглубь от начальной страницы уйдет краулер. Глубина 1 ограничивает сканирование только указанным URL. Глубина 2 означает сканирование первой страницы и всех страниц, на которые она ссылается напрямую. |
prevent_outside | Prevent Outside | Входной параметр. Если включено, сканируются только URL в пределах того же домена, что и исходный. Это предотвращает переход краулера на сторонние сайты. |
use_async | Use Async | Входной параметр. Если включено, используется асинхронная загрузка, которая может быть значительно быстрее, но потребляет больше системных ресурсов. |
format | Output Format | Входной параметр. Устанавливает желаемый формат вывода: Text (текст) или HTML. По умолчанию: Text. |
timeout | Timeout | Входной параметр. Время ожидания запроса в секундах. |
headers | Headers | Входной параметр. Заголовки, отправляемые с запросом, если они необходимы для аутентификации или иных целей. |
Выходные данные компонента URL
Формат вывода (Output Format)
Данный необязательный параметр устанавливает тип контента, который будет извлечен непосредственно со сканируемых веб-страниц:
- Text (по умолчанию) Компонент выполняет извлечение исключительно текстовой информации, очищенной от элементов HTML-кода.
- HTML Модуль извлекает полное содержимое страниц, сохраняя его в виде необработанного исходного кода HTML.
Тип выходных данных (Output data type)
В поле вывода, расположенном рядом с соответствующим портом на корпусе компонента, можно выбрать структуру данных для передачи в последующие узлы:
-
Extracted Pages (Извлеченные страницы)
Система формирует таблицу (DataFrame), в которой текстовое содержимое и метаданные (например,urlиtitle) распределены по отдельным столбцам. Данный вариант оптимален для дальнейшей фильтрации или записи в базу данных. -
Raw Content (Необработанное содержимое)
Система генерирует сообщение (Message), которое объединяет весь текст или HTML-код со сканированных страниц вместе с метаданными в рамках единого текстового блока.
Использование в потоке
При использовании в качестве стандартного узла в схеме, компонент URL необходимо подключать к модулям, которые поддерживают выбранный тип данных (DataFrame или Message).
Существует возможность прямого соединения с совместимым компонентом либо использования Type Convert для трансформации вывода в другой формат в ситуациях, когда типы данных не совпадают напрямую.
Специализированные инструменты обработки данных приобретают особую значимость при работе с компонентом URL, поскольку он способен извлекать значительные массивы информации.
В сценариях, требующих передачи только определенных полей, целесообразно интегрировать компонент Parser. Это позволяет изолировать конкретные сведения из результатов сканирования перед их направлением в последующие звенья потока.
Использование в режиме инструментов (Tool Mode)
В режиме инструментов при работе с агентом (Agent), компонент URL можно подключать напрямую к порту Tools агента без предварительной конвертации. Агент сам решит, нужно ли использовать компонент URL (исходя из запроса пользователя), и сможет обработать вывод в формате DataFrame или Message напрямую.