# DeepParseX **Repository Path**: leke_code/DeepParseX ## Basic Information - **Project Name**: DeepParseX - **Description**: DeepParseX 是一个强大的多模态文档解析与知识管理平台,支持 PDF、Word、Excel、PPT、图片、视频、音频 等多种文件格式的智能解析,自动提取关键信息,并构建 检索增强生成(RAG) 和 知识图谱(Knowledge Graph) 系统,实现结构化数据的智能检索与推理。 - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2026-03-18 - **Last Updated**: 2026-03-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # **DeepParseX** - 多模态文档解析与知识图谱构建平台 **🚀 项目简介** **DeepParseX** 是一个强大的多模态文档解析与知识管理平台,支持 **PDF、Word、Excel、PPT、图片、视频、音频** 等多种文件格式的智能解析,自动提取关键信息,并构建 **检索增强生成(RAG)** 和 **知识图谱(Knowledge Graph)** 系统,实现结构化数据的智能检索与推理。 前端实现:https://github.com/Arterning/DeepParseXWeb --- ## **✨ 核心功能** ✅ **多模态文件解析** - 支持 **文本、表格、图像、语音、视频** 等内容的提取 - 集成 **外部 OCR 接口、ASR、NLP** 技术解析非结构化数据 ✅ **关键信息提取(KIE)** - 基于 **大模型提示词工程** 抽取实体、关系、摘要 - 支持 **自定义Schema**,适应不同行业需求(如法律、医疗、金融) ✅ **检索增强生成(RAG)** - 使用 **ParadeDB 向量数据库** 实现高性能语义搜索 - 结合 **LLM(GPT、Llama、Claude)** 提供智能问答 ✅ **知识图谱(KG)构建** - 自动抽取 **实体-关系**,构建结构化知识网络 - 使用 **NetworkX** 进行图分析与可视化 ✅ **可扩展架构** - 模块化设计,支持 **自定义解析器、嵌入模型、LLM** - 提供 **REST API** 和 **Python SDK**,方便集成 --- ## **🛠 技术栈** - **文件解析**:PyPDF2, pdfplumber, Apache Tika, PIL, OpenCV, 外部 OCR 接口 - **NLP/ML**:LangChain, LlamaIndex, 大模型提示词工程 - **向量存储**:ParadeDB - **知识图谱**:NetworkX - **后端**:FastAPI, Docker, MinIO - **前端**:Vue --- ## **📌 适用场景** 🔍 **企业知识管理**:自动整理合同、报告、邮件等文档 💡 **智能问答机器人**:基于文档的精准AI问答 📊 **数据分析**:从非结构化数据中提取结构化信息 🎓 **学术研究**:文献综述、知识发现 --- ## **🚧 未来规划** - **实时协作编辑**:支持多人标注与知识图谱优化 - **低代码配置**:可视化定义信息抽取规则 - **多语言支持**:中文、英文、西班牙语等 --- ## **💡 为什么选择 DeepParseX?** ✔ **全格式支持**:不仅仅是文本,还能处理图片、语音、视频 ✔ **端到端知识管理**:从原始文件 → 结构化数据 → 智能应用 ✔ **灵活可扩展**:轻松集成新解析器、LLM、数据库 ---