Чтение файла (Read File)
Описание
Данный компонент предназначен для загрузки и первичной обработки документов. Он преобразует содержимое файлов в структурированные массивы данных (Data, DataFrame) или в формат текстовых сообщений (Message).
Компонент поддерживает как простую загрузку текста, так и продвинутый анализ сложных документов (PDF, таблицы) с сохранением структуры.
Поддерживаемые форматы и ограничения
- Текстовые:
.txt,.md,.markdown - Документы:
.pdf,.docx,.pptx - Таблицы и данные:
.csv,.xlsx,.parquet,.json - Веб-страницы:
.html,.htm
Лимиты: По умолчанию максимальный размер одного файла составляет 1024 МБ.
Параметры компонента
Некоторые параметры по умолчанию скрыты в визуальном редакторе. Вы можете изменить все параметры через меню
Controls (Управление) в заголовке компонента.
| Имя (Name) | Отображаемое имя | Информация |
|---|---|---|
path | Files | Входной параметр. Путь к файлам для загрузки. Может быть локальным или в управлении файлами конструктора. Поддерживает отдельные файлы и архивы. |
file_path | Server File Path | Входной параметр. Объект Data со свойством file_path, указывающим на файл в конструкторе, или объект Message с путем. Имеет приоритет над полем Files, но поддерживает те же типы файлов. |
separator | Separator | Входной параметр. Разделитель, используемый между несколькими выходными данными в формате Message. |
silent_errors | Silent Errors | Входной параметр. Если true, ошибки в компоненте не вызывают исключение. По умолчанию: Выключено (false). |
delete_server_file_after_processing | Delete Server File After Processing | Входной параметр. Если true (по умолчанию), файл по пути file_path удаляется после обработки. |
ignore_unsupported_extensions | Ignore Unsupported Extensions | Входной параметр. Если true, файлы с неподдерживаемыми расширениями принимаются, но не обрабатываются. Если false, компонент выдаст ошибку. По умолчанию: true. |
ignore_unspecified_files | Ignore Unspecified Files | Входной параметр. Если true, объект Data без свойства file_path игнорируется. Если false (по умолчанию), компонент выдает ошибку, если файл не указан. |
concurrency_multithreading | Processing Concurrency | Входной параметр. Количество файлов для одновременной обработки. Значения больше 1 включают параллельную обработку. Игнорируется для одиночных файлов. |
advanced_parser | Advanced Parser | Входной параметр. Если true, включает расширенный парсинг. Доступно только для одиночных загрузок совместимых типов файлов. По умолчанию: Выключено (false). |
Компонента расширенного парсинга (Advanced Parser)
Некоторые параметры по умолчанию скрыты в визуальном редакторе. Вы можете изменить все параметры через меню
Controls (Управление) в заголовке компонента.
| Имя (Name) | Отображаемое имя | Информация |
|---|---|---|
pipeline | Pipeline | Входной параметр расширенного парсинга. Используемый конвейер Docling: либо standard (по умолчанию, рекомендуется), либо vlm (может давать противоречивые результаты). |
ocr_engine | OCR Engine | Входной параметр расширенного парсинга. Движок OCR (оптического распознавания текста), используемый, если выбран конвейер standard. Доступные опции: None (по умолчанию) или EasyOCR. При значении None распознавание не используется, что может привести к неполным результатам в некоторых документах. Эта настройка не влияет на работу конвейера vlm. |
md_image_placeholder | Markdown Image Placeholder | Входной параметр расширенного парсинга. Определяет заполнитель (placeholder) для изображений, если выбран формат вывода Markdown. По умолчанию: \. |
md_page_break_placeholder | Markdown Page Break Placeholder | Входной параметр расширенного парсинга. Определяет заполнитель для разрывов страниц, если выбран формат вывода Markdown. По умолчанию: "" (пустая строка). |
doc_key | Document Key | Входной параметр расширенного парсинга. Ключ для колонки DoclingDocument, которая содержит структурированную информацию, извлеченную из исходного документа. По умолчанию: doc. |
Выходные данные файла (File output)
Отсутствие файлов (No files)
Если вы запустите компонент Read File, не выбрав ни одного файла, он выдаст ошибку. Однако, если включен параметр Silent Errors (Беззвучные ошибки), компонент просто не выдаст никаких выходных данных.
Один файл без расширенного парсинга (One file without advanced parsing)
Если расширенный парсинг отключен и вы загружаете один файл, доступны следующие типы выходных данных:
- Структурированный контент (Structured Content): Доступно только для файлов форматов
.csv,.xlsx,.parquetи.json.- Для файлов .csv создается DataFrame, представляющий табличные данные.
- Для файлов .json создается объект Data с проанализированными данными JSON.
- Необработанный контент (Raw Content): Объект Message, содержащий необработанный текстовый контент файла.
- Путь к файлу (File Path): Объект Message, содержащий путь к файлу в системе управления файлами Langflow.
Один файл с расширенным парсингом (One file with advanced parsing)
Если расширенный парсинг включен и вы загружаете один файл, доступны следующие типы выходных данных:
- Структурированный вывод (Structured Output): Объект DataFrame, содержащий обработанные через Docling данные документа, включая текстовые элементы, номера страниц и метаданные.
- Markdown: Объект Message, содержащий содержимое загруженного документа в формате Markdown с заполнителями (placeholders) для изображений.
- Путь к файлу (File Path): Объект Message, содержащий путь к файлу в системе управления файлами конструктора.
Несколько файлов (Multiple files)
Если вы загружаете несколько файлов, компонент выдает результат Files, который представляет собой таблицу (DataFrame), содержащую содержимое и метаданные всех выбранных файлов.
Расширенный парсинг (Advanced parsing) не поддерживает работу с несколькими файлами; в этом режиме будет обработан только первый файл из списка.