URL (Компонент URL)

Описание

Компонент URL извлекает содержимое по одному или нескольким URL-адресам, обрабатывает его и возвращает в различных форматах. Он поддерживает рекурсивный переход по ссылкам до заданной глубины, а также позволяет выводить результат в виде простого текста или необработанного (raw) HTML.

Параметры компонента

Некоторые параметры по умолчанию скрыты в визуальном редакторе. Вы можете изменить все параметры через меню Контролы (Управление) в заголовке компонента.

Имя (Name)	Отображаемое имя	Информация
`urls`	URLs	Входной параметр. Один или несколько URL для рекурсивного сканирования. В визуальном редакторе нажмите + Add URL, чтобы добавить несколько адресов.
`max_depth`	Depth (Глубина)	Входной параметр. Управляет обходом ссылок: на сколько «кликов» вглубь от начальной страницы уйдет краулер. Глубина 1 ограничивает сканирование только указанным URL. Глубина 2 означает сканирование первой страницы и всех страниц, на которые она ссылается напрямую.
`prevent_outside`	Prevent Outside	Входной параметр. Если включено, сканируются только URL в пределах того же домена, что и исходный. Это предотвращает переход краулера на сторонние сайты.
`use_async`	Use Async	Входной параметр. Если включено, используется асинхронная загрузка, которая может быть значительно быстрее, но потребляет больше системных ресурсов.
`format`	Output Format	Входной параметр. Устанавливает желаемый формат вывода: Text (текст) или HTML. По умолчанию: Text.
`timeout`	Timeout	Входной параметр. Время ожидания запроса в секундах.
`headers`	Headers	Входной параметр. Заголовки, отправляемые с запросом, если они необходимы для аутентификации или иных целей.

Выходные данные компонента URL

Формат вывода (Output Format)

Данный необязательный параметр устанавливает тип контента, который будет извлечен непосредственно со сканируемых веб-страниц:

Text (по умолчанию) Компонент выполняет извлечение исключительно текстовой информации, очищенной от элементов HTML-кода.
HTML Модуль извлекает полное содержимое страниц, сохраняя его в виде необработанного исходного кода HTML.

Тип выходных данных (Output data type)

В поле вывода, расположенном рядом с соответствующим портом на корпусе компонента, можно выбрать структуру данных для передачи в последующие узлы:

Extracted Pages (Извлеченные страницы)
Система формирует таблицу (DataFrame), в которой текстовое содержимое и метаданные (например, url и title) распределены по отдельным столбцам. Данный вариант оптимален для дальнейшей фильтрации или записи в базу данных.
Raw Content (Необработанное содержимое)
Система генерирует сообщение (Message), которое объединяет весь текст или HTML-код со сканированных страниц вместе с метаданными в рамках единого текстового блока.

Использование в конвейере

При использовании в качестве стандартного узла в схеме, компонент URL необходимо подключать к модулям, которые поддерживают выбранный тип данных (DataFrame или Message).

Существует возможность прямого соединения с совместимым компонентом либо использования Type Convert для трансформации вывода в другой формат в ситуациях, когда типы данных не совпадают напрямую.

Специализированные инструменты обработки данных приобретают особую значимость при работе с компонентом URL, поскольку он способен извлекать значительные массивы информации.

В сценариях, требующих передачи только определенных полей, целесообразно интегрировать компонент Parser. Это позволяет изолировать конкретные сведения из результатов сканирования перед их направлением в последующие звенья конвейера.

Использование в режиме инструментов (Tool Mode)

В режиме инструментов при работе с агентом (Agent), компонент URL можно подключать напрямую к порту Tools агента без предварительной конвертации. Агент сам решит, нужно ли использовать компонент URL (исходя из запроса пользователя), и сможет обработать вывод в формате DataFrame или Message напрямую.