Skip to content

【Feature】支持扫描件 OCR 识别 + ETL 能力 MCP 化 #640

@Clawiee

Description

@Clawiee

需求背景

目前 Clawith 不支持上传扫描件(如 PDF 图片、扫描的合同/发票/报表等)进行文字识别。用户希望平台能够识别扫描件中的文字内容,并进行后续的数据处理。

需求描述

  1. 支持上传扫描件(PDF/图片格式)进行 OCR 文字识别
  2. 将 ETL(Extract-Transform-Load)能力封装为 MCP Server 接入 Clawith

功能要求

OCR 识别能力

  • 支持上传扫描件(PDF、JPG、PNG 等格式)
  • 自动进行 OCR 文字识别
  • 支持中文、英文等多语言识别
  • 支持表格结构识别(保持原有行列结构)
  • 支持批量上传与异步处理
  • 提供识别进度查询
  • 支持识别结果校对与修正

ETL 能力 MCP 化

  • 将 ETL 能力封装为标准 MCP Server
  • Extract:从扫描件/文件中提取数据
  • Transform:数据清洗、格式化、结构化处理
  • Load:将处理后的数据加载到目标系统(数据库、表格、API 等)
  • 支持配置 ETL 流程模板
  • 支持 ETL 任务调度与监控

集成方式

  • 通过 MCP 协议接入 Clawith 工具链
  • Agent 可直接调用 OCR/ETL 工具
  • 支持在对话中直接上传文件并触发识别

技术建议

  • OCR 服务可选:飞书开放平台 OCR、百度 OCR、阿里云 OCR、Tesseract 等
  • ETL 框架可参考:Airbyte、dbt、Pandas 等
  • 注意文件存储安全与隐私保护
  • 考虑大文件处理的性能与超时问题

应用场景

  • 发票/报销单自动识别与录入
  • 合同关键信息提取
  • 报表数据自动化处理
  • 名片/证件信息识别
  • 历史纸质文档数字化

优先级

中高 - 提升平台数据处理能力,扩展 Agent 应用场景

报告信息

  • 报告人:蔡斯扬
  • 报告时间:2026-06-02

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions