# Tell-Seq-bacteria **Repository Path**: ust_cn/tell_bacteria ## Basic Information - **Project Name**: Tell-Seq-bacteria - **Description**: Tell-Seq QC and Assembly pipline - **Primary Language**: Unknown - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2022-12-19 - **Last Updated**: 2024-06-04 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Tell-Seq-bacteria #### 介绍 Tell-Seq QC and Assembly pipline #### 软件架构 本软件脚本整合了Tell-Seq对应的Tell-Read(v1.1)(下载链接:http://223.112.44.110:48080/s/CeH8WdcNpibx5eD ,安装说明:http://223.112.44.110:48080/s/5sj8edpCt7qDQTp )和Tell-Link(v1.1.1u4)(http://223.112.44.110:48080/s/R4ofMpzARJR55pN ,安装说明:http://223.112.44.110:48080/s/szHqP37QQSA7jPC )软件脚本。能比较方便的得到常见参数的结果。 #### 安装教程 1. 注意本软件脚本默认服务器上已经安装好Tell-Read和Tell-Link的docker镜像,并且账号有运行docker镜像的权限。服务器已经安装好bwa,samtools软件,并且在可执行路径下。 2. 解压压缩包,并编译cloud-spades软件 ``` unzip tell_bacteria.zip cd bin/spades-cloudspades-paper/assembler/ sh spades_compile.sh ``` 3. 安装spades组装软件。 #### 使用说明 1. 运行脚本需要整备配置文件。fastq数据路径fq.list,参考基因组路径ref.list,不设置ref.list时Tell-Read按照无参方法运行,将没有SLF分子大小评估。可以设置脚本线程数,默认30线程。可以设置输出路径,默认路径为当前路径。 ``` usage: Tell_bacteria_step1_qcassembly.py [-h] [-refls REFLS] [-c C] [-t T] [-ass ASS] [-cutoff CUTOFF] [-output OUTPUT] [--notrun] fqlist Tell-Seq QC and Assembly pipline. Version: 0.0.3 Author: Chen Yiwen E-mail: ywchen@universalsequencing.com.cn positional arguments: fqlist raw fastq file list. List format: SampleID \path\R1.fq \path\R2.fq \path\I1.fq optional arguments: -h, --help show this help message and exit -refls REFLS reference list. If not set, running Tell-Read without references List format: SampleID \path\ref.fa -c C number of CPU cores for every job [default: 12] -t T number of parallel jobs [default: 5] -ass ASS Assembly software. tellink, cloudspades, spadestellseqscaffolder, all [default: spadestellseqscaffolder ] -cutoff CUTOFF spadestellseqscaffolder assembly contigs depth cut off [default: 5 ] -output OUTPUT output result dir [default: pwd] --notrun Run the script with one click or not [default: run] ``` 2. read的列表fq.list格式 ``` Sample1 /your_data_path/Sample1_R1.fastq[.gz] /your_data_path/Sample1_R2.fastq[.gz] /your_data_path/Sample1_I1.fastq[.gz] Sample2 /your_data_path/Sample2_R1.fastq[.gz] /your_data_path/Sample2_R2.fastq[.gz] /your_data_path/Sample2_I1.fastq[.gz] ... ``` 第一列是样本ID,第二列是对应样本的read的R1,第三列是对应样本的read的R2,第四列是对应样本的read的I1。列表可以包含多个样本。 3. 参考基因组的列表ref.list格式 ``` Sample1 /your_reference_path/reference1.fasta Sample2 /your_reference_path/reference2.fasta ... ``` #### 结果说明 1. 00.Ref/ 该文件是参考基因生成的用于Tell-Read评估SLF的输入文件。 2. 01.QC/Sample1/ 该文件是Tell-Read对reads进行质控产生的文件。其中Full文件夹下的fastq文件为质控后的数据。 3. 02.Assembly/1.tell_link/Sample1 该文件是Tell-Link运行的结果。 4. 02.Assembly/2.cloud_spades/Sample1 该文件是cloud-spades的运行结果,scaffolds.fasta为原始结果。 5. 02.Assembly/3.spades_tellseqscaffolder/Sample1_result 该文件是spades加tellseqscaffolder组装的结果。 #### TODO 1. 基因组的基因预测 2. 基因功能注释