Docling
AgentBuilder 透過Components bundle 與 Docling 整合,用於解析文件。
先決條件
- 為 Windows 啟用開發者模式:
如果您在 Windows 上運 行 AgentBuilder Desktop,您必須 啟用開發者模式 才能使用 Docling Components。 此設定的位置取決於您的 Windows OS 版本。 在您的 Windows 設定中找到 For developers,或在 Windows 搜尋列中搜尋 "Developer",然後啟用 Developer mode。 您可能需要重新啟動您的電腦或 AgentBuilder 來套用變更。
-
安裝 Docling 依賴: 需要在 AgentBuilder 中使用 Docling Components時安裝 Docling 依賴。
-
AgentBuilder 1.6 及更高版本:Docling 依賴預設包含在除 macOS Intel (x86_64) 外的所有作業系統中。
對於 macOS Intel (x86_64),請使用 Docling 安裝指南 安裝 Docling 依賴。
-
較早版本:早於 1.6 的 AgentBuilder 版本不包含 Docling 依賴。 對於 AgentBuilder OSS,請使用
uv pip install 'langflow[docling]'安裝 Docling 額外套件。 對於 AgentBuilder Desktop,請將 Docling 依賴新增到 AgentBuilder Desktop 的requirements.txt。 如需詳細資訊,請參閱安裝自訂依賴。
-
在 Flow中使用 Docling Components
如需深入了解使用 Docling 進行內容擷取,請參閱影片教學 Docling + AgentBuilder: Document Processing for AI Workflows。
此範例示範如何在 Flow中使用 Docling Components分割 PDF:
-
將 Docling 和 Export DoclingDocument Components連接到 Split Text Components。
Docling Components載入文件,Export DoclingDocument Components將
DoclingDocument轉換為您選擇的格式。此範例將文件轉換為 Markdown,圖片以佔位符表示。 Split Text Components會將 Markdown 分割成區塊,供向量資料庫在 Flow的下一部分儲存。 -
將 Chroma DB 向量儲存Components 連接到 Split Text Components的 Chunks 輸出。
-
將嵌入模型Components連接到 Chroma DB Components的 Embedding 連接埠,並將 Chat Output Components連接到以檢視擷取的
DataFrame。 -
在嵌入模型Components中,選擇您偏好的模型,提 供憑證,並根據需要配置其他設定。

-
將檔案新增到 Docling Components。
-
要執行 Flow,請點擊 Playground。
分塊的文件會作為向量載入到您的向量資料庫中。
Docling Components
以下各節描述 Docling bundle 中每個Components的用途和配置選項。
Docling 語言模型
Docling 語言模型Components擷取文件,然後使用 Docling 透過在本機執行 Docling 模型來處理它們。
它輸出 files,這是帶有 DoclingDocument 資料的已處理檔案。
如需詳細資訊,請參閱 Docling IBM models 專案儲存庫。
Docling 參數
| Name | Type | Description |
|---|---|---|
| files | File | 要處理的檔案。 |
| pipeline | String | 要使用的 Docling 管道(standard, vlm)。 |
| ocr_engine | String | 要使用的 OCR 引擎(easyocr, tesserocr, rapidocr, ocrmac)。 |
Docling Serve
Docling Serve Components將 Docling 作為 API 服務執行。
它輸出 files,這是帶有 DoclingDocument 資料的已處理檔案。
如需詳細資訊,請參閱 Docling serve 專案儲存庫。
Docling Serve 參數
| Name | Type | Description |
|---|---|---|
| files | File | 要處理的檔案。 |
| api_url | String | Docling Serve 實例的 URL。 |
| max_concurrency | Integer | 伺服器的最大並發請求數。 |
| max_poll_timeout | Float | 文件轉換完成的最大等待時間。 |
| api_headers | Dict | 連接到 Docling Serve 所需的可選額外標頭字典。 |
| docling_serve_opts | Dict | Docling Serve 的可選額外選項字典。 |
Chunk DoclingDocument
Chunk DoclingDocument Components使用 DoclingDocument 分塊器將文件分割成區塊。
它將分塊的文件作為 DataFrame 輸出。
如需詳細資訊,請參閱 Docling core 專案儲存庫。
Chunk DoclingDocument 參數
| Name | Type | Description |
|---|---|---|
| data_inputs | Data/DataFrame | 包含要分割成區塊的文件資料。 |
| chunker | String | 要使用哪個分塊器(HybridChunker, HierarchicalChunker)。 |
| provider | String | 要使用哪個 tokenizer 提供者(Hugging Face, OpenAI)。 |
| hf_model_name | String | 當選擇 Hugging Face 時,與 HybridChunker 一起使用的 tokenizer 模型名稱。 |
| openai_model_name | String | 當選擇 OpenAI 時,與 HybridChunker 一起使用的 tokenizer 模型名稱。 |
| max_tokens | Integer | HybridChunker 的最大 token 數。 |
| doc_key | String | 用於 DoclingDocument 欄的鍵。 |
Export DoclingDocument
Export DoclingDocument Components將 DoclingDocument 匯出為 Markdown、HTML 和其他格式。
它可以將匯出的資料作為 Data 或 DataFrame 輸出。
如需詳細資訊,請參閱 Docling core 專案儲存庫。
Export DoclingDocument 參數
| Name | Type | Description |
|---|---|---|
| data_inputs | Data/DataFrame | 包含要匯出的文件的資料。 |
| export_format | String | 選擇要轉換輸入的匯出格式(Markdown, HTML, Plaintext, DocTags)。 |
| image_mode | String | 指定圖片在輸出中的匯出方式(placeholder, embedded)。 |
| md_image_placeholder | String | 指定 markdown 匯出的圖片佔位符。 |
| md_page_break_placeholder | String | 在 markdown 輸出中的頁面之間新增此佔位符。 |
| doc_key | String | 用於 DoclingDocument 欄的鍵。 |