Skip to main content

KnowFlow 牵手百度 PaddleOCR-VL,开启高精度文档解析新时代

前言

KnowFlow v2.1.8 正式发布!本版本最大的亮点是与百度飞桨团队深度合作,集成了业界领先的 PaddleOCR-VL 视觉语言模型,为用户带来更高精度的文档解析能力。同时,我们在产品易用性和用户体验方面也做了诸多优化,让企业级知识库管理更加便捷高效。

KnowFlow 是专注于私有化高准确率的企业级知识库产品,将结构化与非结构化数据治理成对大模型更可信的输入,致力于构建 AI 时代的数据根基。

新功能

1. 强强联合:集成 PaddleOCR-VL 模型

KnowFlow v2.1.8 正式支持百度飞桨的 PaddleOCR-VL 视觉语言模型,这是继 MinerU 和 DOTS 之后,我们接入的第三款高性能 OCR 引擎。

为什么选择 PaddleOCR-VL 模型?

PaddleOCR-VL 是百度飞桨团队打造的开源 OCR 工具,在业界享有盛誉:

  • 超高识别率:支持 109 种语言,在文档解析任务中取得当前最先进的性能
  • 版面分析强大:在识别包含表格、公式和图表等元素的复杂文档方面表现优异,擅长手写文本与历史文档在内的多种挑战性内容类型
  • 产业级应用:已在金融、政务、教育等多个行业大规模落地
  • 完全开源:Apache 2.0 许可证,可商用无忧

三大引擎对比

特性PaddleOCR-VLMinerUDOTS
识别精度⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
解析速度极快Pipline 极快,VLM 一般一般
标题识别默认自带额外配置 LLM默认自带
表格识别HTML 结构HTML 结构HTML 结构
公式支持✅ LaTeX✅ LaTeX✅ LaTeX
图表理解强大基础基础
多语言支持109种语言中英为主中英为主
适用场景多语言文档、复杂版面学术论文、研报通用文档

技术架构

PaddleOCR 作为独立的布局解析器,与 KnowFlow 的智能分块方法无缝衔接:

快速开始

在前端创建知识库时,选择 PaddleOCR 作为布局解析器:

  1. 布局解析器: PaddleOCR(使用PaddleOCR-VL模型)
  2. 分块方法: Smart / Title / Parent-Child / Regex
  3. 分块大小: 256 tokens(可自定义)

系统会自动调用 PaddleOCR-VL 服务进行解析,无需额外配置。

2. 父子分块可视化编辑

父子分块(Parent-Child Chunking)是 KnowFlow 的特色功能,通过构建"父块-子块"的层级关系,实现更精准的上下文检索。

v2.1.8 新增功能:

  • 实时预览:在分块页面直观查看父子关系
  • 可视化编辑:支持调整父子映射关系
  • 结构展示:树形视图展示文档层级结构

使用场景

  • 📚 长篇技术文档:按章节构建父子关系
  • 📋 合规制度文件:按条款层级组织内容
  • 📊 研究报告:按主题分类管理段落

3. Markdown 文件全面支持

MinerU、DOTS、PaddleOCR-VL 三大引擎现已全面支持 Markdown 文件格式!

工作流程

Markdown  → 智能分块

优势

  • 保留标题层级结构(H1-H6)
  • 识别列表、引用、代码块等格式
  • 支持 LaTeX 公式渲染
  • 表格结构完整还原

4. 聊天页面图片放大预览

在聊天界面回复的图片现在支持点击放大预览,方便用户查看图表、示意图等细节内容。

交互优化

  • 单击图片:全屏预览
  • 支持缩放、拖拽
  • ESC 键快速关闭
  • 移动端友好适配

缺陷修复

修复 RBAC 重复初始化问题

原 docker 部署场景下,Flask 默认开启了 Debug 模式,RBAC 权限系统可能被重复初始化,导致超级管理员账号数据异常。

v2.1.8 将默认关闭 docker 部署场景的 debug 模式。

优化项

1. 系统页面显示版本号

在系统设置页面新增版本信息展示,方便用户和运维人员快速确认当前版本。

显示内容

  • KnowFlow 版本号
  • RAGFlow 核心版本
  • 构建时间
  • Git Commit Hash

2. UI 主界面微调

遵循企业级 2B 产品设计规范,对主界面进行细节优化:

优化项调整内容
主色调统一使用 #3b82f6 品牌蓝
圆角统一 8px 圆角,视觉更柔和
阴影轻量化阴影效果,减少视觉负担
间距基于 8px 网格系统,布局更规范
动画200ms 过渡动画,交互更流畅

产品细节

PaddleOCR 部署架构

KnowFlow 的 PaddleOCR-VL 集成采用微服务架构,确保高可用和高性能:

┌─────────────────────────────────────────────────────────┐
│ KnowFlow 主服务 │
│ ┌──────────────┐ ┌──────────────┐ │
│ │ RAGFlow │◄────►│ KnowFlow │ │
│ │ (端口 9380) │ │ Server │ │
│ │ │ │ (端口 5000) │ │
│ └──────────────┘ └───────┬──────┘ │
└────────────────────────────────┼────────────────────────┘
│ HTTP API
┌─────────────┼─────────────┐
│ │
┌────────▼─────────┐ ┌─────────▼─────────┐
│ PaddleOCR-VL API │ │ MinerU / DOTS │
│ (端口 8888) │ │ (端口 8000) │
│ │ │ │
│ ┌────────────┐ │ └───────────────────┘
│ │ VL Model │ │
│ │ (vLLM后端) │ │
│ └────────────┘ │
└──────────────────┘

部署说明

  1. PaddleOCR-VL API 服务(端口 8888)

    • 负责文档解析和版面分析
    • 支持 GPU 加速(CUDA 12.6)
    • 自动下载 PaddleOCR-VL 模型
  2. vLLM 推理后端(内部端口 8080)

    • 为 PaddleOCR-VL 提供高性能推理
    • 支持批量处理优化
    • GPU 内存动态管理
  3. Docker Compose 一键部署

    cd docker/paddleocr
    docker-compose up -d

分块方法选择指南

不同的文档类型适合不同的分块策略,以下是推荐配置:

文档类型推荐解析器推荐分块方法原因
学术论文MinerUSmart复杂版面,需要行级精度
技术手册PaddleOCR-VLTitle + 父子分块标题层级清晰,需要上下文
合规文件PaddleOCR-VLParent-Child条款结构化,需要层级检索
通用文档DOTSSmart追求速度,版面简单
多语言文档PaddleOCR-VLSmart支持 109 种语言
扫描件PaddleOCR-VLRegexOCR 识别为主

未来展望

v2.1.8 是 KnowFlow 在文档解析领域的又一次重要升级。通过引入 PaddleOCR-VL ,我们为用户提供了更多选择,满足不同场景下的解析需求。

围绕着我们的愿景:

将结构化与非结构化数据治理成对大模型更可信的输入,构建面向未来的数据治理平台,重塑 AI 时代的数据根基。

基于此定位,后续我们将围绕以下方向持续迭代:

🎯 近期规划

  1. 智能问数

    • 支持 Excel、CSV 等表格数据自然语言查询
    • 集成主流数据库(MySQL、PostgreSQL、MongoDB)
    • 提供 SQL 自动生成能力
  2. 知识库导入导出

    • 支持一键离线导入指定知识库,方便离线场景下进行增量导入
  3. 多模态增强

    • 视频内容理解与检索
    • 音频转录与语义搜索
    • 跨模态关联分析

🚀 技术优化

  1. 性能提升
    • 多并发场景专项优化

开源社区

本项目社区版已同步更新至 v2.1.2,支持 RBAC 权限管理、Markdown 解析等全部功能。

新版本为商业版本专有,有商务需求的同学可关注公众号 KnowFlow 企业知识库 进行联系。

📥 快速体验

# 克隆仓库
git clone https://github.com/your-org/knowflow.git
cd knowflow

# 启动 PaddleOCR 服务(需要 GPU)
cd docker/paddleocr
docker-compose up -d

# 启动 KnowFlow 主服务
cd ../
docker-compose -f docker-compose-gpu.yml up -d

访问 http://localhost 即可开始使用!

🤝 参与贡献

我们欢迎社区开发者参与 KnowFlow 的建设:

  • 🐛 提交 Bug 反馈
  • 💡 提出功能建议
  • 📝 完善文档
  • 🔧 贡献代码

📚 学习资源

  • 官方文档:https://knowflowchat.cn
  • B 站教程:搜索"KnowFlow 企业知识库"
  • 微信公众号:KnowFlow 企业知识库

关注公众号 KnowFlow 企业知识库 加入技术交流群,与 1000+ 开发者一起探讨 RAG 技术:

致谢

感谢百度飞桨团队在技术对接过程中的大力支持,感谢社区开发者的宝贵建议,感谢每一位 KnowFlow 用户的信任与陪伴。

让我们一起,用技术的力量重塑知识管理的未来!


KnowFlow v2.1.8 现已发布,立即体验 PaddleOCR-VL 带来的高精度解析能力!