# tfdata

**Repository Path**: TengOne/tfdata

## Basic Information

- **Project Name**: tfdata
- **Description**: tf-data使用文档
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2025-04-13
- **Last Updated**: 2026-03-02

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 平台使用文档

> 在使用平台进行数据采集时，应该先了解平台的一些概念, 这样在接下来的文档学习时会更加简单。


## 站点

> 是网站名的一个简称,  常见的站点如:  今日头条、澎湃新闻、微博、京东、淘宝等等, 这些在 tf-data 平台中都简称站点


## 模板管理

> 平台在采集到原始数据（html、json、text 等等）后会直接去模板中进行规则匹配， 符合规则的会使用对应的模板进行内容抽取，

**模板分类：**

> 你在哪个类目中创建模板，此模板就归属于当前类目， 切记！切记！切记！ 

- 列表页
- 详情页


## 脚本管理

> 脚本是采集内容抽取时运行的脚本， 一切内容的抽取的操作都是在脚本中进行的（包括：详情页采集任务的生成）

注意： 当前还不支持 js 脚本部署


## 任务管理

> 采集任务一览表, 显示当前空间的所有采集任务, 你可以根据相关的条件进行任务过滤


## 定时任务管理

> 定时任务为周期任务， 会一直循环执行。 

目前不支持：延迟任务


## 采集结果管理

> 采集任务的结果， 用户可以通过种子id（seed_id）对结果进行过滤， 也可以通过指定的结果储存表进行过滤

- 全部删除： 删除 - 选中的任务结果 - 支持多选
- 下载： 下载 - 选中的任务结果 - 支持多选
- 全量下载： 直接从数据库中 - 下载当前种子id（seed_id）- 下的所有任务结果
- 数据清洗： 
  - 用户可以选择需要的数据字段， 清洗任务创建后需要前往【数据清洗】任务管理中 - 执行清洗。
  - 清洗完成后 - 可以创建下载任务
- 下载任务：点击 - 开始 即可开始下载数据


## 系统管理

> 用户采集资源管理


### 代理管理

> - 采集任务的代理设置， 可以设置多个代理。
> - 设置 - 获取代理URL 后，用户需要编写一个python 提取方法，用来从代理商返回的数据中提取代理的ip 和 port

注意： 提取函数名 与 返回值 是固定的， 平台不支持更改。


### 用户空间

> - 平台通过空间对用户的资源进行隔离， 同一空间资源共享。 
> - 每一个注册的用户都会自动加入一个 - 共享空间（作者会在该空间创建一些示例共大家参考，用户只拥有基础的 1级权限）
> - 空间管理员可以对空间成员进行权限控制， 也可指定多个空间管理员（只需赋予用户4级权限）

空间存在的意义： 方便团队或企业使用

**赋权建议：赋予空间成员 - 空间管理权限: 至少 - 1级权限， 否则该成员无法自由切换至该空间**