# DocumentAnalysis **Repository Path**: cloudczheng/document-analysis ## Basic Information - **Project Name**: DocumentAnalysis - **Description**: 出版编辑工作专用 文档分析工具 - **Primary Language**: C# - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-07-22 - **Last Updated**: 2024-11-18 ## Categories & Tags **Categories**: Uncategorized **Tags**: 桌面应用 ## README # DocumentAnalysis #### 介绍 出版编辑工作中经常要处理电子文档,其中的错别字让人烦躁,于是写了一个控制台程序用来批量查找文档中的指定错词,同时附带一个可编辑的词条库用于管理自定义错词。 现在给它增加了图形界面,使用更加直观、方便 增加了模糊位置查找和精确位置查找两种工作模式 暂时仅支持pdf、docx文档处理 #### 软件架构 使用C# winform 开发,使用iText包处理PDF文件,使用DocX包处理docx文件,使用Sqlite数据库管理错词 #### 功能特性 错词查找、重复连词查找 #### 安装教程 **需要先安装Microsoft Desktop Runtime** 下载发行版安装 #### 使用说明 ##### 文档分析功能 ![File3](readmePic/file3.png) 1. **双击**选择文档或拖拽文档 2. 选择分析选项,默认为模糊位置查找 - 模糊位置查找:查找输出全文存在的错误词条 - 精确位置查找:查找输出全文存在的错误词条,并输出所在位置 - pdf文档可输出页码、行数、所在上下文 - docx文档可输出所在上下文 - 查重功能:勾选**查重**,字符数设置 1~100,可搜索字符数长度内的重复连字 3. 点击**开始分析**按钮 4. 分析完成后,在文档所在目录生成文件夹“1”存放分析结果 ##### 数据管理功能 ![File2](readmePic/file2.png) - **添加**框种输入内容,点击**添加/更新**按钮保存数据 - 点击**删除选中项**可删除表中选中行数据 - 点击**删除全部**可删除表中全部数据 ##### 数据导入导出 数据导出:**添加**框中**右键**菜单,点击**导出数据**,可导出数据文件***dbExported.txt**到软件安装目录 数据导入:支持批量数据导入,导入格式为 ``` 错误词1:正确词1:说明1 错误词2:正确词2:说明2 ... ``` 保存为txt文件后,拖拽到**添加**框处即可导入文件中全部数据 **文件导入后出现卡顿是正常现象**