# WebPageSample **Repository Path**: uh3ng/web-page-sample ## Basic Information - **Project Name**: WebPageSample - **Description**: 硕士毕设的一部分,获取网页标签流量 - **Primary Language**: Python - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2022-02-16 - **Last Updated**: 2024-05-15 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## 下载网站主页 将网站主页保存在Html_files目录下,可以在浏览时向下滑动多加载一些条目。 ## 提取URL链接 运行`extract_urls.py`从保存的文件中提取URL链接,URL链接的正则表达式需要人工写到`config.json`文件中 ## 自动化采集 配置`config.json`中的参数: ``` // tshark路径,因人而异 "tshark_path": "C:\\Program Files\\Wireshark\\tshark.exe", // 采集时pcap保存路径 "initial_store_path": "D:\\Code\\GraduationPrj\\Dataset\\CSDN\\InitialTraffic", // 根据标签报文切分后的保存路径 "label_store_path": "D:\\Code\\GraduationPrj\\Dataset\\CSDN\\LabelTraffic", // webdriver路径,因人而异 "webdriver_path": "D:\\Runtime\\Chrome\\chromedriver.exe", // 主页链接 "index_url": "https://blog.csdn.net/", "url_file_path": "Url_dir/csdn文章.html_04-15_105231.txt", // 循环次数,建议4到5次重复采集样本全貌 "loop_num": "1", ``` 运行`main.py`开始 ## 其他注意 1.本程序仅用于加密流量网页标签样本构建,勿用他途 2.如果URL列表过长,建议切分后再采集,避免运行时间长导致的不确定错误,也避免长时间运行反PaChong机制检测