# algorithm **Repository Path**: Uni-Create-Link/algorithm ## Basic Information - **Project Name**: algorithm - **Description**: 算法组 - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-12-20 - **Last Updated**: 2026-04-06 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # MMVD 项目模型文件说明 本项目使用 HuggingFace 开源预训练模型,由于模型文件较大,未上传至代码仓库,请自行下载并放置到指定目录。 ## 一、需要下载的模型 1. **bert-base-chinese**(中文BERT预训练模型) 2. **whisper**(语音识别模型) --- ## 二、下载地址 ### 1. bert-base-chinese - 官方地址:https://huggingface.co/bert-base-chinese - 国内镜像(推荐,速度快):https://modelscope.cn/models/damo/bert-base-chinese/summary ### 2. whisper 模型 - OpenAI 官方:https://huggingface.co/openai/whisper-base - 国内镜像:https://modelscope.cn/models/openai/whisper-base/summary > 可根据需求下载:tiny / small / base / medium / large --- ## 三、本地存放路径 下载完成后,请**严格按照以下目录结构放置模型文件**: ### 必须放入的模型文件(以 bert-base-chinese 为例) 需要包含以下核心文件: - config.json - pytorch_model.bin / model.safetensors - tokenizer_config.json - vocab.txt --- ## 四、使用说明 1. 下载模型 → 新建 `models` 文件夹 2. 分别放入 `bert-base-chinese` 和 `whisper` 子文件夹 3. 运行代码即可自动加载本地模型,无需联网 --- ## 五、项目架构图 ```text MMVD/ # 项目根目录 ├─ data/ # 数据目录(存放原始音视频素材) │ └─ sub-001.mp4 # 示例音视频文件 ├─ features/ # 特征提取脚本目录 │ ├─ Audio_Features.py # 音频特征提取代码 │ ├─ BERT_Features.py # 文本特征提取代码(BERT) │ └─ Media_Features.py # 多模态媒体特征提取代码 ├─ features_result/ # 特征提取结果目录(存放生成的特征文件) │ ├─ audio_features.npy # 音频特征文件 │ ├─ text_features.npy # 文本特征文件 │ └─ video_features.npy # 视频特征文件 ├─ models/ # 预训练模型目录(存放 bert、whisper 等模型) │ ├─ bert-base-chinese/ # 中文BERT预训练模型 │ └─ whisper/ # whisper 语音识别模型 ├─ result/ # 结果输出目录(存放处理后的成品/中间结果) │ └─ 我的音频.mp3 # 示例输出音频文件 ├─ utils/ # 工具函数目录(通用工具类) │ └─ M2A.py # 示例工具脚本(多模态相关工具) └─ README.md # 项目说明文档(介绍项目、使用方法等) ``` ### 结构说明 - **核心代码层**:`features/` 是特征提取核心代码,`utils/` 是通用工具辅助代码,`models/` 存放预训练模型。 - **数据/结果层**:`data/` 存原始输入数据,`features_result/` 存特征提取中间产物,`result/` 存最终处理结果。