Skip to main content

Docling

AgentBuilder 透過Components bundle 與 Docling 整合,用於解析文件。

先決條件

  • 為 Windows 啟用開發者模式

如果您在 Windows 上運行 AgentBuilder Desktop,您必須 啟用開發者模式 才能使用 Docling Components。 此設定的位置取決於您的 Windows OS 版本。 在您的 Windows 設定中找到 For developers,或在 Windows 搜尋列中搜尋 "Developer",然後啟用 Developer mode。 您可能需要重新啟動您的電腦或 AgentBuilder 來套用變更。

  • 安裝 Docling 依賴: 需要在 AgentBuilder 中使用 Docling Components時安裝 Docling 依賴。

    • AgentBuilder 1.6 及更高版本:Docling 依賴預設包含在除 macOS Intel (x86_64) 外的所有作業系統中。

      對於 macOS Intel (x86_64),請使用 Docling 安裝指南 安裝 Docling 依賴。

    • 較早版本:早於 1.6 的 AgentBuilder 版本不包含 Docling 依賴。 對於 AgentBuilder OSS,請使用 uv pip install 'langflow[docling]' 安裝 Docling 額外套件。 對於 AgentBuilder Desktop,請將 Docling 依賴新增到 AgentBuilder Desktop 的 requirements.txt。 如需詳細資訊,請參閱安裝自訂依賴

在 Flow中使用 Docling Components

tip

如需深入了解使用 Docling 進行內容擷取,請參閱影片教學 Docling + AgentBuilder: Document Processing for AI Workflows

此範例示範如何在 Flow中使用 Docling Components分割 PDF:

  1. DoclingExport DoclingDocument Components連接到 Split Text Components

    Docling Components載入文件,Export DoclingDocument Components將 DoclingDocument 轉換為您選擇的格式。此範例將文件轉換為 Markdown,圖片以佔位符表示。 Split Text Components會將 Markdown 分割成區塊,供向量資料庫在 Flow的下一部分儲存。

  2. Chroma DB 向量儲存Components 連接到 Split Text Components的 Chunks 輸出。

  3. 嵌入模型Components連接到 Chroma DB Components的 Embedding 連接埠,並將 Chat Output Components連接到以檢視擷取的 DataFrame

  4. 在嵌入模型Components中,選擇您偏好的模型,提供憑證,並根據需要配置其他設定。

    Docling and ExportDoclingDocument extracting and splitting text to vector database

  5. 將檔案新增到 Docling Components。

  6. 要執行 Flow,請點擊 Playground

    分塊的文件會作為向量載入到您的向量資料庫中。

Docling Components

以下各節描述 Docling bundle 中每個Components的用途和配置選項。

Docling 語言模型

Docling 語言模型Components擷取文件,然後使用 Docling 透過在本機執行 Docling 模型來處理它們。

它輸出 files,這是帶有 DoclingDocument 資料的已處理檔案。

如需詳細資訊,請參閱 Docling IBM models 專案儲存庫

Docling 參數

NameTypeDescription
filesFile要處理的檔案。
pipelineString要使用的 Docling 管道(standard, vlm)。
ocr_engineString要使用的 OCR 引擎(easyocr, tesserocr, rapidocr, ocrmac)。

Docling Serve

Docling Serve Components將 Docling 作為 API 服務執行。

它輸出 files,這是帶有 DoclingDocument 資料的已處理檔案。

如需詳細資訊,請參閱 Docling serve 專案儲存庫

Docling Serve 參數

NameTypeDescription
filesFile要處理的檔案。
api_urlStringDocling Serve 實例的 URL。
max_concurrencyInteger伺服器的最大並發請求數。
max_poll_timeoutFloat文件轉換完成的最大等待時間。
api_headersDict連接到 Docling Serve 所需的可選額外標頭字典。
docling_serve_optsDictDocling Serve 的可選額外選項字典。

Chunk DoclingDocument

Chunk DoclingDocument Components使用 DoclingDocument 分塊器將文件分割成區塊。

它將分塊的文件作為 DataFrame 輸出。

如需詳細資訊,請參閱 Docling core 專案儲存庫

Chunk DoclingDocument 參數

NameTypeDescription
data_inputsData/DataFrame包含要分割成區塊的文件資料。
chunkerString要使用哪個分塊器(HybridChunker, HierarchicalChunker)。
providerString要使用哪個 tokenizer 提供者(Hugging Face, OpenAI)。
hf_model_nameString當選擇 Hugging Face 時,與 HybridChunker 一起使用的 tokenizer 模型名稱。
openai_model_nameString當選擇 OpenAI 時,與 HybridChunker 一起使用的 tokenizer 模型名稱。
max_tokensIntegerHybridChunker 的最大 token 數。
doc_keyString用於 DoclingDocument 欄的鍵。

Export DoclingDocument

Export DoclingDocument Components將 DoclingDocument 匯出為 Markdown、HTML 和其他格式。

它可以將匯出的資料作為 DataDataFrame 輸出。

如需詳細資訊,請參閱 Docling core 專案儲存庫

Export DoclingDocument 參數

NameTypeDescription
data_inputsData/DataFrame包含要匯出的文件的資料。
export_formatString選擇要轉換輸入的匯出格式(Markdown, HTML, Plaintext, DocTags)。
image_modeString指定圖片在輸出中的匯出方式(placeholder, embedded)。
md_image_placeholderString指定 markdown 匯出的圖片佔位符。
md_page_break_placeholderString在 markdown 輸出中的頁面之間新增此佔位符。
doc_keyString用於 DoclingDocument 欄的鍵。

另請參閱

Search