# tfdata **Repository Path**: TengOne/tfdata ## Basic Information - **Project Name**: tfdata - **Description**: tf-data使用文档 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2025-04-13 - **Last Updated**: 2026-03-02 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 平台使用文档 > 在使用平台进行数据采集时,应该先了解平台的一些概念, 这样在接下来的文档学习时会更加简单。 ## 站点 > 是网站名的一个简称, 常见的站点如: 今日头条、澎湃新闻、微博、京东、淘宝等等, 这些在 tf-data 平台中都简称站点 ## 模板管理 > 平台在采集到原始数据(html、json、text 等等)后会直接去模板中进行规则匹配, 符合规则的会使用对应的模板进行内容抽取, **模板分类:** > 你在哪个类目中创建模板,此模板就归属于当前类目, 切记!切记!切记! - 列表页 - 详情页 ## 脚本管理 > 脚本是采集内容抽取时运行的脚本, 一切内容的抽取的操作都是在脚本中进行的(包括:详情页采集任务的生成) 注意: 当前还不支持 js 脚本部署 ## 任务管理 > 采集任务一览表, 显示当前空间的所有采集任务, 你可以根据相关的条件进行任务过滤 ## 定时任务管理 > 定时任务为周期任务, 会一直循环执行。 目前不支持:延迟任务 ## 采集结果管理 > 采集任务的结果, 用户可以通过种子id(seed_id)对结果进行过滤, 也可以通过指定的结果储存表进行过滤 - 全部删除: 删除 - 选中的任务结果 - 支持多选 - 下载: 下载 - 选中的任务结果 - 支持多选 - 全量下载: 直接从数据库中 - 下载当前种子id(seed_id)- 下的所有任务结果 - 数据清洗: - 用户可以选择需要的数据字段, 清洗任务创建后需要前往【数据清洗】任务管理中 - 执行清洗。 - 清洗完成后 - 可以创建下载任务 - 下载任务:点击 - 开始 即可开始下载数据 ## 系统管理 > 用户采集资源管理 ### 代理管理 > - 采集任务的代理设置, 可以设置多个代理。 > - 设置 - 获取代理URL 后,用户需要编写一个python 提取方法,用来从代理商返回的数据中提取代理的ip 和 port 注意: 提取函数名 与 返回值 是固定的, 平台不支持更改。 ### 用户空间 > - 平台通过空间对用户的资源进行隔离, 同一空间资源共享。 > - 每一个注册的用户都会自动加入一个 - 共享空间(作者会在该空间创建一些示例共大家参考,用户只拥有基础的 1级权限) > - 空间管理员可以对空间成员进行权限控制, 也可指定多个空间管理员(只需赋予用户4级权限) 空间存在的意义: 方便团队或企业使用 **赋权建议:赋予空间成员 - 空间管理权限: 至少 - 1级权限, 否则该成员无法自由切换至该空间**