# ModelLink **Repository Path**: helloMr997/ModelLink ## Basic Information - **Project Name**: ModelLink - **Description**: 昇腾LLM大模型训练框架 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: https://gitee.com/ascend/ModelLink/ - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1209 - **Created**: 2024-09-03 - **Last Updated**: 2024-09-03 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README
| 模型 | 参数 | 序列 | 实现 | 集群 | 模式 | 性能 | 性能2 | 参考 | 贡献方 | 认证 |
|---|---|---|---|---|---|---|---|---|---|---|
| Aquila | 7B | 2K | Legacy | 1x8 | BF16 | 2849 | -- | 2874 | 【Pass】 | |
| Aquila2 | 7B | 2K | Legacy | 1x8 | FP16 | 3323 | -- | 2673 | 【Test】 | |
| 34B | 4K | Legacy | 2x8 | BF16 | 854 | -- | 732 | 【Test】 | ||
| Baichuan | 7B | 4K | Legacy | 1x8 | FP16 | 2685 | -- | 2036 | 【Pass】 | |
| 13B | 4K | Legacy | 1x8 | FP16 | 1213 | -- | 862 | 【Pass】 | ||
| Baichuan2 | 7B | 4K | Legacy | 1x8 | BF16 | 2664 | -- | 3969 | 【Pass】 | |
| 13B | 4K | Legacy | 1x8 | BF16 | 1668 | -- | 2062 | 【Pass】 | ||
| Bloom | 7B1 | 2K | Legacy | 1x8 | FP16 | 2034 | -- | 2525 | 【Pass】 | |
| 176B | 2K | Legacy | 12x8 | BF16 | 100 | -- | 107 | 【Pass】 | ||
| ChatGLM3 | 6B | 8K | Mcore | 1x8 | FP16 | 4611 | -- | 4543 | 【昇腾】 | 【Test】 |
| 6B | 32K | Mcore | 1x8 | FP16 | 2650 | -- | 2887 | 【昇腾】 | 【Test】 | |
| 6B | 64K | Mcore | 2x8 | FP16 | 1724 | -- | 2097 | 【昇腾】 | 【Test】 | |
| CodeLlama | 34B | 4K | Legacy | 2x8 | BF16 | 837 | -- | 762 | 【Test】 | |
| InternLM | 7B | 2K | Legacy | 1x8 | BF16 | 2776 | -- | 2854 | 【Pass】 | |
| 65B | 2K | Legacy | 4x8 | BF16 | 341 | -- | 414 | 【Pass】 | ||
| LLaMA | 7B | 2K | Legacy | 1x8 | FP16 | 3600 | -- | 3804 | 【Pass】 | |
| 13B | 2K | Legacy | 1x8 | FP16 | 1895 | -- | 2012 | 【Pass】 | ||
| 33B | 2K | Legacy | 4x8 | FP16 | 621 | -- | 776 | 【Pass】 | ||
| 65B | 2K | Legacy | 4x8 | BF16 | 348 | -- | 426 | 【Pass】 | ||
| LLaMA2 | 7B | 4K | Mcore | 1x8 | BF16 | 4672 | -- | 3850 | 【Pass】 | |
| 13B | 4K | Mcore | 1x8 | BF16 | 2016 | -- | 1920 | 【Pass】 | ||
| 34B | 4K | Legacy | 2x8 | BF16 | 749 | -- | 796 | 【Pass】 | ||
| 70B | 4K | Legacy | 4x8 | BF16 | 420 | -- | 430 | 【Pass】 | ||
| LLaMA3 | 8B | 8K | Legacy | 1x8 | BF16 | 2483 | -- | 2674 | 【Pass】 | |
| 70B | 8K | Legacy | 8x8 | BF16 | 283 | -- | 355 | 【Pass】 | ||
| LLaMA3.1 | 8B | 8K | Mcore | 1x8 | BF16 | 2280 | -- | 2520 | 【Test】 | |
| 8B | 128K | Mcore | 4x8 | BF16 | 1297 | -- | -- | 【Test】 | ||
| 70B | 8K | Mcore | 4x8 | BF16 | 399 | -- | -- | 【Test】 | ||
| Qwen | 7B | 8K | Legacy | 1x8 | BF16 | 2499 | -- | 2867 | 【Pass】 | |
| 14B | 2K | Legacy | 1x8 | BF16 | 1560 | -- | 1578 | 【Pass】 | ||
| 72B | 8K | Legacy | 16x8 | BF16 | 285 | -- | 345 | 【Pass】 | ||
| Qwen1.5 | 0.5B | 8K | Legacy | 1x8 | BF16 | 22834 | -- | 25306 | 【Test】 | |
| 1.8B | 8K | Legacy | 1x8 | BF16 | 13029 | -- | 12181 | 【Test】 | ||
| 4B | 8K | Legacy | 1x8 | BF16 | 5033 | -- | 5328 | 【Test】 | ||
| 7B | 8K | Legacy | 1x8 | BF16 | 2862 | -- | 2621 | 【Test】 | ||
| 14B | 8K | Legacy | 1x8 | BF16 | 1717 | -- | 1702 | 【Test】 | ||
| 32B | 8K | Legacy | 4x8 | BF16 | 751 | -- | 708 | 【Test】 | ||
| 72B | 8K | Legacy | 8x8 | BF16 | 301 | -- | 317 | 【Pass】 | ||
| 110B | 8K | Mcore | 8x8 | BF16 | 223 | -- | -- | 【Test】 | ||
| Qwen2 | 0.5B | 4K | Mcore | 1x8 | BF16 | 28618 | -- | 34859 | ||
| 32K | Mcore | 1x8 | BF16 | 11338 | -- | 【Test】 | ||||
| 1.5B | 4K | Mcore | 1x8 | BF16 | 15456 | -- | 15603 | |||
| 32K | Mcore | 1x8 | BF16 | 7281 | -- | 【Test】 | ||||
| 7B | 4K | Mcore | 1x8 | BF16 | 4034 | -- | 4241 | 【Test】 | ||
| 32K | Mcore | 1x8 | BF16 | 2040 | -- | 2045 | 【Test】 | |||
| 72B | 4K | Mcore | 4x8 | BF16 | 368 | -- | 【Test】 | |||
| Yi | 34B | 4K | Legacy | 2x8 | BF16 | 768 | -- | 730 | 【Test】 | |
| Mixtral | 8x7B | 32K | Mcore | 8x8 | BF16 | 706 | -- | 837 | 【Pass】 | |
| 8x22B | 32K | Mcore | 8x8 | BF16 | 239 | 254 | -- | 【Test】 | ||
| 64K | Mcore | 8x8 | BF16 | -- | 215 | -- | 【Test】 | |||
| Mistral | 7B | 32K | Mcore | 1x8 | BF16 | 2900 | -- | 2734 | 【Pass】 | |
| Gemma | 2B | 8K | Mcore | 1x8 | BF16 | 7067 | -- | 7602 | 【Test】 | |
| 7B | 8K | Mcore | 1x8 | BF16 | 2939 | -- | 2607 | 【Test】 | ||
| Gemma2 | 9B | 8K | Mcore | 1x8 | BF16 | 1713 | -- | 1595 | 【Test】 | |
| 27B | 8K | Mcore | 2x8 | BF16 | 827 | -- | 800 | 【Test】 | ||
| GPT3 | 175B | 2K | Legacy | 16x8 | FP16 | 153 | -- | -- | 【Test】 | |
| 15B | 2K | Legacy | 1x8 | FP16 | 1890 | -- | 1840 | 【Test】 | ||
| GPT4 | 4x13B | 128K | Mcore | 8x8 | BF16 | 424 | 1066 | -- | 【Test】 | |
| 4x16B | 128K | Mcore | 8x8 | BF16 | 351 | 918 | -- | 【Test】 | ||
| Grok1 | 8x5B | 8K | Mcore | 2x8 | BF16 | 1646 | -- | 2057 | 【Pass】 |
| 源格式 | 目标格式 | 支持特性 | 特性入参 |
|---|---|---|---|
| HuggingFace | Megatron-Legacy | 张量并行 | --target-tensor-parallel-size |
| 流水并行 | --target-pipeline-parallel-size | ||
| 流水并行动态划分 | --num-layer-list | ||
| 虚拟流水并行 | --num-layers-per-virtual-pipeline-stage | ||
| Megatron-Core | 张量并行 | --target-tensor-parallel-size | |
| 流水并行 | --target-pipeline-parallel-size | ||
| 流水并行动态划分 | --num-layer-list | ||
| 虚拟流水并行 | --num-layers-per-virtual-pipeline-stage | ||
| 专家并行 | --expert-model-parallel-size | ||
| Megatron-Legacy | Huggingface | 张量并行 | --target-tensor-parallel-size |
| 流水并行 | --target-pipeline-parallel-size | ||
| 流水并行动态划分 | --num-layer-list | ||
| 虚拟流水并行 | --num-layers-per-virtual-pipeline-stage | ||
| LoRA训练模块 | --lora-target-modules | ||
| LoRA权重 | --lora-load | ||
| LoRA r | --lora-r | ||
| LoRA alpa | --lora-alpha | ||
| Megatron-Core | 张量并行 | --target-tensor-parallel-size | |
| 流水并行 | --target-pipeline-parallel-size | ||
| 流水并行动态划分 | --num-layer-list | ||
| 虚拟流水并行 | --num-layers-per-virtual-pipeline-stage | ||
| Megatron-Legacy | 张量并行 | --target-tensor-parallel-size | |
| 流水并行 | --target-pipeline-parallel-size | ||
| LoRA训练模块 | --lora-target-modules | ||
| LoRA权重 | --lora-load | ||
| LoRA r | --lora-r | ||
| LoRA alpa | --lora-alpha | ||
| Megatron-Core | Huggingface | 张量并行 | --target-tensor-parallel-size |
| 流水并行 | --target-pipeline-parallel-size | ||
| 流水并行动态划分 | --num-layer-list | ||
| 虚拟流水并行 | --num-layers-per-virtual-pipeline-stage | ||
| Megatron-Legacy | 张量并行 | --target-tensor-parallel-size | |
| 流水并行 | --target-pipeline-parallel-size | ||
| 流水并行动态划分 | --num-layer-list | ||
| 虚拟流水并行 | --num-layers-per-virtual-pipeline-stage | ||
| Megatron-Core | 张量并行 | --target-tensor-parallel-size | |
| 流水并行 | --target-pipeline-parallel-size | ||
| 专家并行 | --expert-model-parallel-size |
| 使用场景 | 特性名称 | 具体参数 | Mcore | Legacy |
|---|---|---|---|---|
| PTD并行 | 张量并行 | --tensor-model-parallel-size | Yes | Yes |
| 流水线并行 | --pipeline-model-parallel-size | Yes | Yes | |
| 流水线并行动态划分 | --num-layer-list | Yes | Yes | |
| 虚拟流水并行 | --num-layers-per-virtual-pipeline-stage | Yes | Yes | |
| 序列并行 | --sequence-parallel | Yes | Yes | |
| 分布式优化器 | --use-distributed-optimizer | Yes | Yes | |
| 长序列并行 | 长序列并行 | --context-parallel-size | Yes | No |
| 多并行方案 | --context-parallel-algo | Yes | No | |
| Send/recv掩盖加速 | --cp-send-recv-overlap | Yes | No | |
| MOE | MOE专家并行 | --expert-model-parallel-size | Yes | No |
| MOE重排通信优化 | --moe-permutation-async-comm | Yes | No | |
| 显存优化 | 参数副本复用 | --reuse-fp32-param | Yes | Yes |
| 激活函数重计算 | --recompute-activation-function | Yes | Yes | |
| 重计算程度 | --recompute-granularity | Yes | Yes | |
| 重计算层数 | --recompute-num-layers | Yes | Yes | |
| 重计算方法 | --recompute-method | Yes | Yes | |
| PP-Stage重计算 | --enable-recompute-layers-per-pp-rank | Yes | Yes | |
| 融合算子 | Flash attention | --use-flash-attn | Yes | Yes |
| Fused rmsnorm | --use-fused-rmsnorm | Yes | Yes | |
| Fused swiglu | --use-fused-swiglu | Yes | Yes | |
| Fused rotary position embedding | --use-fused-rotary-pos-emb | Yes | Yes | |
| Sliding window attention | --sliding-window | Yes | Yes | |
| 通信 | 梯度reduce通算掩盖 | --overlap-grad-reduce | Yes | Yes |
| 权重all-gather通算掩盖 | --overlap-param-gather | Yes | No | |
| MC2 | --use-mc2 | Yes | Yes |