# 51job数据爬取与分析 **Repository Path**: wenhaha8/job51_analysis ## Basic Information - **Project Name**: 51job数据爬取与分析 - **Description**: 从51job上爬取了10万条职位数据,抽取“数据分析”岗,进行数据清洗,然后做了分析 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 20 - **Forks**: 3 - **Created**: 2021-07-29 - **Last Updated**: 2025-06-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: Spider, 数据分析 ## README # 51job数据爬取与分析 #### 介绍 从51job上爬取了10万条(耗时50秒左右)职位数据,抽取“数据分析”岗,进行数据清洗,然后做了分析 #### 使用说明 1. get_data.py :获取数据的爬虫程序,将爬取的数据存储在本地mysql数据库中。 2. 数据清洗.ipynb :从数据库中读取数据并清洗,将结果输出到Excel表格 - 获取工作名中包含“数据”的工作信息 - 从‘6-8千/月’等工资格式中提取出有效薪资salary如:7000。 - 根据salary做一次分箱,方便之后进行分析 - 提取工作的城市信息 - 提取工作要求中的“学历要求” - 参照provinces.py中提供的省份字典,获取工作对应的省份 - 根据工作福利条数生成福利得分treatment_score 3. job1.pbix :使用powerBI 对数据进行大致分析 - 月薪的描述性统计信息 - 月薪范围计数对比 - 不同学历的月薪均值 - 热门城市热力图、地图 - 福利词云图 #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 扩展 1. 可以分析其他职位的数据 2. 实习岗和全职岗可分开 ## 预览 ### 数据预览 清洗前: ![1](/imgs/1.png) 清洗后: ![1](/imgs/2.png) ### 数据分析结果 ![1](/imgs/3.png)![1](/imgs/4.png) ![1](/imgs/5.png)