# 文本分类 **Repository Path**: qm2c/text_classification ## Basic Information - **Project Name**: 文本分类 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2019-02-18 - **Last Updated**: 2020-12-19 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 文本分类 #### 组员:徐林韬 朱海尔 李崇贵 ## 项目概要: 项目采用多模型混合方案进行训练,通过投票的方式取得最终结果,模型预测结果均不同,采用准确度最高的结果。 模型分为三类:xgboost svm 朴素贝叶斯。每个模型的原始训练数据相同,但特征提取部分不同。当前有tf-idf、word2vec两个方案来提取特征。 从校验集准确率来看,svm表现最佳,最终的预测结果也基本与svm bayes相近。 #### 详细说明: [朱海尔](https://gitee.com/qm2c/text_classification/blob/master/%E4%BB%BB%E5%8A%A1%E6%80%9D%E8%B7%AF-%E6%9C%B1%E6%B5%B7%E5%B0%94.docx) [徐林韬](https://gitee.com/qm2c/text_classification/blob/master/svm%E6%80%9D%E8%B7%AF-%E5%BE%90%E6%9E%97%E9%9F%AC.docx) [李崇贵](https://gitee.com/qm2c/text_classification/blob/master/%E6%96%87%E6%9C%AC%E5%88%86%E7%B1%BBbayes%E6%80%9D%E8%B7%AF.docx) ## 项目文件说明 ### 调试代码: svm部分:[EDA_TF-IDF_skl.ipynb](https://gitee.com/qm2c/text_classification/blob/master/EDA_TF-IDF_skl.ipynb) [ SVM_skl.ipynb](https://gitee.com/qm2c/text_classification/blob/master/SVM_skl.ipynb) [testing.csv预处理](https://gitee.com/qm2c/text_classification/blob/master/testdataopt.py) xgboost部分:[ xgboost.ipynb](https://gitee.com/qm2c/text_classification/blob/master/xgboost.ipynb) [Full_Code.ipynb ](https://gitee.com/qm2c/text_classification/blob/master/Full_Code.ipynb) bayes部分:[bayes.rar](https://gitee.com/qm2c/text_classification/blob/master/bayes.rar) ### 预测结果: [投票文件](https://gitee.com/qm2c/text_classification/blob/master/result/predict_result.py) 各模型预测结果:[xgboost](https://gitee.com/qm2c/text_classification/blob/master/result_xgboost.csv) [svm](https://gitee.com/qm2c/text_classification/blob/master/result/svm.csv) [bayes](https://gitee.com/qm2c/text_classification/blob/master/bayes.rar) [最终提交的结果(result.csv)](https://gitee.com/qm2c/text_classification/blob/master/result/result.csv) ### 汇报文件 [1](https://gitee.com/qm2c/text_classification/blob/master/%E7%AC%AC%E4%B8%80%E6%AC%A1%E6%B1%87%E6%8A%A5.ipynb) [2](https://gitee.com/qm2c/text_classification/blob/master/%E7%AC%AC%E4%BA%8C%E6%AC%A1%E6%B1%87%E6%8A%A5.ipynb ) [3](https://gitee.com/qm2c/text_classification/blob/master/w3%E6%B1%87%E6%8A%A5.pptx) [4](https://gitee.com/qm2c/text_classification/blob/master/%E7%AC%AC%E5%9B%9B%E6%AC%A1%E6%B1%87%E6%8A%A5.zip) 注:由于部分数据文件较大,所以只上传预测结果 ------------old-------------- ## 项目计划 ### 一、特征工程 1.jieba分词 2.去除低频词、停用词 3.特征提取(tf-idf) 4.数据预处理 ### 二、模型训练 1.单模型训练 2.多模型融合 3.卷积神经网络