# CellAUC **Repository Path**: coding_playground/cellauc ## Basic Information - **Project Name**: CellAUC - **Description**: CellAUC 是一个专为评价化合物抑制细胞系活性而设计的Python分析工具包。它基于曲线下面积(AUC)方法,可处理时间依赖性和剂量依赖性细胞实验数据,提供全面的统计分析和高质量可视化功能。 - **Primary Language**: Python - **License**: GPL-3.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-11-06 - **Last Updated**: 2025-12-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # CellAUC: 化合物抑制细胞系活性评价工具 **CellAUC** 是一个专为评价化合物抑制细胞系活性而设计的Python分析工具包。它基于曲线下面积(AUC)方法,可处理剂量依赖性细胞实验数据,提供全面的统计分析和高质量可视化功能,支持多化合物、多浓度和多细胞株的复杂实验设计。 ## 功能特点 ### 核心分析功能 - **总AUC计算**:计算完整浓度范围内的曲线下面积 - **统计比较**:使用曼-惠特尼U检验进行组间比较,自动标记显著性差异 - **多细胞株分析**:支持按细胞株分组计算AUC,生成细胞株×化合物AUC矩阵 - **无对照组支持**:支持在没有对照组的情况下进行分析,提高灵活性 - **完整工作流**:整合数据预处理、AUC计算、细胞信息合并和可视化功能于一体 ### 可视化功能 - **AUC汇总图表**:提供多种图表类型(箱型图、柱状图、散点图、小提琴图、蜂群图) - **热力图展示**:生成细胞株×化合物AUC热力图,直观展示化合物在不同细胞株上的活性 ### 数据处理与输出 - **完整结果导出**:自动生成CSV数据文件和高质量PNG图表 - **统计显著性标记**:自动计算并标记与对照组的显著性差异 - **矩阵数据导出**:导出细胞株×化合物AUC矩阵,方便进一步分析 - **数据格式转换**:支持将简化格式的数据转换为标准输入格式 - **细胞信息整合**:自动合并细胞株信息到AUC矩阵中 ## 安装 ### 前提条件 - Python 3.8 或更高版本 - 必要的Python库 ### 安装步骤 1. 克隆或下载此仓库到本地 2. 安装所需的Python库 ```bash pip install -r requirements.txt ``` ## 使用方法 ### 命令行接口 CellAUC提供了命令行接口,可直接运行完整工作流: ```bash python cellauc.py --input test.csv --info cell_info.csv --palette husl --plot-type box ``` #### 命令行参数 - `--input`: 输入CSV文件路径(必需,如test.csv) - `--info`: 细胞信息CSV文件路径(必需,如cell_info.csv) - `--palette`: 颜色方案(`husl`, `tab10`, `Set2`, `viridis`, `plasma`等,默认为husl) - `--plot-type`: 绘图类型(`scatter`, `box`, `bar`,默认为box) #### 使用示例 基础工作流执行: ```bash python cellauc.py --input test.csv --info cell_info.csv ``` 自定义配色方案: ```bash python cellauc.py --input test.csv --info cell_info.csv --palette tab10 ``` 使用散点图可视化: ```bash python cellauc.py --input test.csv --info cell_info.csv --plot-type scatter ``` ## 输入数据格式 ### 1. 简化格式(输入格式) CellAUC支持从简化格式的数据开始处理,这种格式包含细胞系和复合列名(化合物_浓度): | cell_line | 43158_0.001 | 43158_0.01 | Gilteritinib_0.001 | Gilteritinib_0.01 | |-----------|-------------|------------|-------------------|--------------------| | MV411 | 0.877554 | 0.475342 | 0.844067 | 0.506541 | | MOLM13 | 0.988488 | 0.695523 | 1.015700 | 0.790896 | | Kasumi1 | 0.999595 | 1.002235 | 0.958084 | 0.948653 | ### 2. 剂量依赖性实验数据格式(内部处理格式) 系统会自动将简化格式转换为剂量依赖性数据格式,包含以下列: | cell_line | compound | concentration_um | well_id | viability_percentage | |-----------|-------------|------------------|-----------------------|----------------------| | MV411 | 43158 | 0.001 | MV411_43158_0.001_Rep1 | 87.755399 | | MV411 | 43158 | 0.010 | MV411_43158_0.01_Rep1 | 47.534227 | | MV411 | Gilteritinib| 0.001 | MV411_Gilteritinib_0.001_Rep1 | 84.406712 | | MOLM13 | 43158 | 0.001 | MOLM13_43158_0.001_Rep1 | 98.848756 | ### 3. 细胞信息文件格式 细胞信息文件包含细胞系的生物学背景信息,用于合并到AUC矩阵中: | cell_Line | lineage | disease | |-----------|-----------|-----------| | MV411 | Leukemia | AML | | MOLM13 | Leukemia | AML | | Kasumi1 | Leukemia | AML | | THP1 | Leukemia | AML | ## 输出结果说明 当以命令行方式运行时,CellAUC会在`result/[timestamp]`目录下生成以下结果: ### 数据文件 - `complex_output.csv`:转换后的剂量依赖性数据,包含完整的细胞系、化合物、浓度和活力百分比信息 - `cell_line_compound_auc_matrix.csv`:细胞株×化合物AUC值矩阵,展示每个化合物在不同细胞株上的活性 - `merged_auc_matrix_with_info.csv`:合并了细胞信息(lineage、disease)的AUC矩阵,便于进一步分析 ### 图表文件 - `auc_visualization_[plot_type].png`:根据指定的plot-type生成的可视化结果,展示化合物AUC值按疾病类型着色的分布 - `auc_visualization_box.png`:箱线图 - `auc_visualization_bar.png`:条形图 - `auc_visualization_scatter.png`:散点图 ## 完整工作流 CellAUC整合了完整的工作流,从原始数据到最终可视化结果: ### 工作流步骤 1. **数据格式转换**:将简化格式的数据(test.csv)转换为剂量依赖性数据格式(complex_output.csv) 2. **AUC计算**:基于转换后的数据计算每个细胞系-化合物组合的AUC值,生成细胞株×化合物AUC矩阵 3. **细胞信息合并**:将细胞信息(lineage、disease)合并到AUC矩阵中,增强数据的生物学背景 4. **可视化**:根据合并后的数据生成按疾病类型着色的可视化图表 ### 工作流示意图 ``` test.csv → complex_output.csv → AUC矩阵 → 合并细胞信息的AUC矩阵 → 可视化结果 ``` ### 自动化处理 整个工作流自动执行,无需用户干预,所有结果自动保存到`result/[timestamp]`目录下,包括: - 中间数据文件 - 最终分析结果 - 高质量可视化图表 ## 应用场景 ### 剂量-响应关系研究 - 比较不同化合物的效力 - 评估化合物的剂量-效应关系 - 分析化合物在不同浓度下的细胞抑制效果 ### 多细胞株筛选研究 - 高通量筛选化合物对多种细胞株的活性 - 识别化合物的细胞株特异性效应 - 分析化合物在不同细胞背景下的效力差异 - 生成细胞株×化合物AUC矩阵,支持药物重定位和靶点验证研究 ### 生物学背景整合分析 - 结合细胞株的谱系、疾病类型等信息,深入分析化合物活性与细胞生物学特征的关系 - 通过合并细胞信息,支持更复杂的分层分析和生物标志物发现 - 识别与特定疾病类型相关的化合物活性模式 ### 药物开发与优化 - 评估先导化合物在多种细胞模型上的活性 - 比较不同化合物类似物的细胞抑制效果 - 支持基于细胞活性的药物候选物选择 ## 与TumorAUC的关系 CellAUC是基于TumorAUC项目的扩展,针对细胞系活性评价进行了优化: 1. **更适合细胞数据**:修改了数据结构和分析逻辑,更适合细胞实验数据 2. **增强的可视化**:优化了图表样式和统计标记 ## 技术依赖 - **pandas**: 数据处理和分析 - **numpy**: 数值计算 - **scipy**: 科学计算(包括统计检验和曲线拟合) - **matplotlib**: 基础绘图功能 - **seaborn**: 高级统计可视化 ## 许可证 GPL-3.0 ## 联系方式 如有问题或建议,请在此项目页面提交issue。