Skip to Content

URL (Компонент URL)

Описание

Компонент URL извлекает содержимое по одному или нескольким URL-адресам, обрабатывает его и возвращает в различных форматах. Он поддерживает рекурсивный переход по ссылкам до заданной глубины, а также позволяет выводить результат в виде простого текста или необработанного (raw) HTML.

Параметры компонента

Некоторые параметры по умолчанию скрыты в визуальном редакторе. Вы можете изменить все параметры через меню component1Controls (Управление) в заголовке компонента.

Имя (Name)Отображаемое имяИнформация
urlsURLsВходной параметр. Один или несколько URL для рекурсивного сканирования. В визуальном редакторе нажмите + Add URL, чтобы добавить несколько адресов.
max_depthDepth (Глубина)Входной параметр. Управляет обходом ссылок: на сколько «кликов» вглубь от начальной страницы уйдет краулер. Глубина 1 ограничивает сканирование только указанным URL. Глубина 2 означает сканирование первой страницы и всех страниц, на которые она ссылается напрямую.
prevent_outsidePrevent OutsideВходной параметр. Если включено, сканируются только URL в пределах того же домена, что и исходный. Это предотвращает переход краулера на сторонние сайты.
use_asyncUse AsyncВходной параметр. Если включено, используется асинхронная загрузка, которая может быть значительно быстрее, но потребляет больше системных ресурсов.
formatOutput FormatВходной параметр. Устанавливает желаемый формат вывода: Text (текст) или HTML. По умолчанию: Text.
timeoutTimeoutВходной параметр. Время ожидания запроса в секундах.
headersHeadersВходной параметр. Заголовки, отправляемые с запросом, если они необходимы для аутентификации или иных целей.

Выходные данные компонента URL

Формат вывода (Output Format)

Данный необязательный параметр устанавливает тип контента, который будет извлечен непосредственно со сканируемых веб-страниц:

  • Text (по умолчанию) Компонент выполняет извлечение исключительно текстовой информации, очищенной от элементов HTML-кода.
  • HTML Модуль извлекает полное содержимое страниц, сохраняя его в виде необработанного исходного кода HTML.

Тип выходных данных (Output data type)

В поле вывода, расположенном рядом с соответствующим портом на корпусе компонента, можно выбрать структуру данных для передачи в последующие узлы:

  • Extracted Pages (Извлеченные страницы)
    Система формирует таблицу (DataFrame), в которой текстовое содержимое и метаданные (например, url и title) распределены по отдельным столбцам. Данный вариант оптимален для дальнейшей фильтрации или записи в базу данных.

  • Raw Content (Необработанное содержимое)
    Система генерирует сообщение (Message), которое объединяет весь текст или HTML-код со сканированных страниц вместе с метаданными в рамках единого текстового блока.

Использование в потоке

При использовании в качестве стандартного узла в схеме, компонент URL необходимо подключать к модулям, которые поддерживают выбранный тип данных (DataFrame или Message).

Существует возможность прямого соединения с совместимым компонентом либо использования Type Convert для трансформации вывода в другой формат в ситуациях, когда типы данных не совпадают напрямую.

Специализированные инструменты обработки данных приобретают особую значимость при работе с компонентом URL, поскольку он способен извлекать значительные массивы информации.

В сценариях, требующих передачи только определенных полей, целесообразно интегрировать компонент Parser. Это позволяет изолировать конкретные сведения из результатов сканирования перед их направлением в последующие звенья потока.

Использование в режиме инструментов (Tool Mode)

В режиме инструментов при работе с агентом (Agent), компонент URL можно подключать напрямую к порту Tools агента без предварительной конвертации. Агент сам решит, нужно ли использовать компонент URL (исходя из запроса пользователя), и сможет обработать вывод в формате DataFrame или Message напрямую.