Skip to Content

Чтение файла (Read File)

Описание

Данный компонент предназначен для загрузки и первичной обработки документов. Он преобразует содержимое файлов в структурированные массивы данных (Data, DataFrame) или в формат текстовых сообщений (Message).

Компонент поддерживает как простую загрузку текста, так и продвинутый анализ сложных документов (PDF, таблицы) с сохранением структуры.

Поддерживаемые форматы и ограничения

  • Текстовые: .txt, .md, .markdown
  • Документы: .pdf, .docx, .pptx
  • Таблицы и данные: .csv, .xlsx, .parquet, .json
  • Веб-страницы: .html, .htm

Лимиты: По умолчанию максимальный размер одного файла составляет 1024 МБ.

Параметры компонента

Некоторые параметры по умолчанию скрыты в визуальном редакторе. Вы можете изменить все параметры через меню component1Controls (Управление) в заголовке компонента.

Имя (Name)Отображаемое имяИнформация
pathFilesВходной параметр. Путь к файлам для загрузки. Может быть локальным или в управлении файлами конструктора. Поддерживает отдельные файлы и архивы.
file_pathServer File PathВходной параметр. Объект Data со свойством file_path, указывающим на файл в конструкторе, или объект Message с путем. Имеет приоритет над полем Files, но поддерживает те же типы файлов.
separatorSeparatorВходной параметр. Разделитель, используемый между несколькими выходными данными в формате Message.
silent_errorsSilent ErrorsВходной параметр. Если true, ошибки в компоненте не вызывают исключение. По умолчанию: Выключено (false).
delete_server_file_after_processingDelete Server File After ProcessingВходной параметр. Если true (по умолчанию), файл по пути file_path удаляется после обработки.
ignore_unsupported_extensionsIgnore Unsupported ExtensionsВходной параметр. Если true, файлы с неподдерживаемыми расширениями принимаются, но не обрабатываются. Если false, компонент выдаст ошибку. По умолчанию: true.
ignore_unspecified_filesIgnore Unspecified FilesВходной параметр. Если true, объект Data без свойства file_path игнорируется. Если false (по умолчанию), компонент выдает ошибку, если файл не указан.
concurrency_multithreadingProcessing ConcurrencyВходной параметр. Количество файлов для одновременной обработки. Значения больше 1 включают параллельную обработку. Игнорируется для одиночных файлов.
advanced_parserAdvanced ParserВходной параметр. Если true, включает расширенный парсинг. Доступно только для одиночных загрузок совместимых типов файлов. По умолчанию: Выключено (false).

Компонента расширенного парсинга (Advanced Parser)

Некоторые параметры по умолчанию скрыты в визуальном редакторе. Вы можете изменить все параметры через меню component1Controls (Управление) в заголовке компонента.

Имя (Name)Отображаемое имяИнформация
pipelinePipelineВходной параметр расширенного парсинга. Используемый конвейер Docling: либо standard (по умолчанию, рекомендуется), либо vlm (может давать противоречивые результаты).
ocr_engineOCR EngineВходной параметр расширенного парсинга. Движок OCR (оптического распознавания текста), используемый, если выбран конвейер standard. Доступные опции: None (по умолчанию) или EasyOCR. При значении None распознавание не используется, что может привести к неполным результатам в некоторых документах. Эта настройка не влияет на работу конвейера vlm.
md_image_placeholderMarkdown Image PlaceholderВходной параметр расширенного парсинга. Определяет заполнитель (placeholder) для изображений, если выбран формат вывода Markdown. По умолчанию: \.
md_page_break_placeholderMarkdown Page Break PlaceholderВходной параметр расширенного парсинга. Определяет заполнитель для разрывов страниц, если выбран формат вывода Markdown. По умолчанию: "" (пустая строка).
doc_keyDocument KeyВходной параметр расширенного парсинга. Ключ для колонки DoclingDocument, которая содержит структурированную информацию, извлеченную из исходного документа. По умолчанию: doc.

Выходные данные файла (File output)

Отсутствие файлов (No files)

Если вы запустите компонент Read File, не выбрав ни одного файла, он выдаст ошибку. Однако, если включен параметр Silent Errors (Беззвучные ошибки), компонент просто не выдаст никаких выходных данных.

Один файл без расширенного парсинга (One file without advanced parsing)

Если расширенный парсинг отключен и вы загружаете один файл, доступны следующие типы выходных данных:

  • Структурированный контент (Structured Content): Доступно только для файлов форматов .csv, .xlsx, .parquet и .json.
    • Для файлов .csv создается DataFrame, представляющий табличные данные.
    • Для файлов .json создается объект Data с проанализированными данными JSON.
  • Необработанный контент (Raw Content): Объект Message, содержащий необработанный текстовый контент файла.
  • Путь к файлу (File Path): Объект Message, содержащий путь к файлу в системе управления файлами Langflow.

Один файл с расширенным парсингом (One file with advanced parsing)

Если расширенный парсинг включен и вы загружаете один файл, доступны следующие типы выходных данных:

  • Структурированный вывод (Structured Output): Объект DataFrame, содержащий обработанные через Docling данные документа, включая текстовые элементы, номера страниц и метаданные.
  • Markdown: Объект Message, содержащий содержимое загруженного документа в формате Markdown с заполнителями (placeholders) для изображений.
  • Путь к файлу (File Path): Объект Message, содержащий путь к файлу в системе управления файлами конструктора.

Несколько файлов (Multiple files)

Если вы загружаете несколько файлов, компонент выдает результат Files, который представляет собой таблицу (DataFrame), содержащую содержимое и метаданные всех выбранных файлов.
Расширенный парсинг (Advanced parsing) не поддерживает работу с несколькими файлами; в этом режиме будет обработан только первый файл из списка.