# WebPageSample

**Repository Path**: uh3ng/web-page-sample

## Basic Information

- **Project Name**: WebPageSample
- **Description**: 硕士毕设的一部分，获取网页标签流量
- **Primary Language**: Python
- **License**: GPL-3.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2022-02-16
- **Last Updated**: 2024-05-15

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## 下载网站主页
将网站主页保存在Html_files目录下，可以在浏览时向下滑动多加载一些条目。
## 提取URL链接
运行`extract_urls.py`从保存的文件中提取URL链接，URL链接的正则表达式需要人工写到`config.json`文件中
## 自动化采集
配置`config.json`中的参数：
```
  // tshark路径，因人而异
  "tshark_path": "C:\\Program Files\\Wireshark\\tshark.exe",
  // 采集时pcap保存路径
  "initial_store_path": "D:\\Code\\GraduationPrj\\Dataset\\CSDN\\InitialTraffic",
  // 根据标签报文切分后的保存路径
  "label_store_path": "D:\\Code\\GraduationPrj\\Dataset\\CSDN\\LabelTraffic",
  // webdriver路径，因人而异
  "webdriver_path": "D:\\Runtime\\Chrome\\chromedriver.exe",
  // 主页链接
  "index_url": "https://blog.csdn.net/",
  "url_file_path": "Url_dir/csdn文章.html_04-15_105231.txt",
  // 循环次数，建议4到5次重复采集样本全貌
  "loop_num": "1",
```
运行`main.py`开始
## 其他注意
1.本程序仅用于加密流量网页标签样本构建，勿用他途
2.如果URL列表过长，建议切分后再采集，避免运行时间长导致的不确定错误，也避免长时间运行反PaChong机制检测