目标
:基于pytorch
、transformers
做中文领域的nlp开箱即用的训练框架,提供全套的训练、微调模型(包括大模型、文本转向量、文本生成、多模态等模型)的解决方案;数据
:
百GB
规模的数据,也是轻而易举;流程
:每一个项目有完整的模型训练步骤,如:数据清洗、数据处理、模型构建、模型训练、模型部署、模型图解;模型
:当前已经支持gpt2
、clip
、gpt-neox
、dolly
、llama
、chatglm-6b
、VisionEncoderDecoderModel
等多模态大模型;多卡串联
训练时
、推理时
模型工具
:添加了大模型的词表裁切
和词表扩充
中文名称 | 文件夹名称 | 数据 | 数据清洗 | 大模型 | 模型部署 | 图解 |
---|---|---|---|---|---|---|
中文文本分类 | chinese_classifier | ✅ | ✅ | ✅ | ❌ | ✅ |
中文gpt2
|
chinese_gpt2 | ✅ | ✅ | ✅ | ✅ | ❌ |
中文clip
|
chinese_clip | ✅ | ✅ | ✅ | ❌ | ✅ |
图像生成中文文本 | VisionEncoderDecoderModel | ✅ | ✅ | ✅ | ❌ | ✅ |
vit核心源码介绍 | vit model | ❌ | ❌ | ❌ | ❌ | ✅ |
Thu-ChatGlm-6b (v1 版本 作废) |
simple_thu_chatglm6b | ✅ | ✅ | ✅ | ✅ | ❌ |
🌟chatglm-v2 -6b🎉 |
chatglm_v2_6b_lora | ✅ | ✅ | ✅ | ❌ | ❌ |
中文dolly_v2_3b
|
dolly_v2_3b | ✅ | ✅ | ✅ | ❌ | ❌ |
中文llama (作废) |
chinese_llama | ✅ | ✅ | ✅ | ❌ | ❌ |
中文bloom
|
chinese_bloom | ✅ | ✅ | ✅ | ❌ | ❌ |
中文falcon (注意:falcon模型和bloom结构类似) |
chinese_bloom | ✅ | ✅ | ✅ | ❌ | ❌ |
中文预训练代码 | model_clm | ✅ | ✅ | ✅ | ❌ | ❌ |
百川大模型 | model_baichuan | ✅ | ✅ | ✅ | ✅ | ❌ |
模型修剪✂️ | model_modify | ✅ | ✅ | ✅ | ||
llama2 流水线并行 | pipeline | ✅ | ✅ | ✅ | ❌ | ❌ |
百川2-7b-chat的dpo
|
DPO baichuan2-7b-chat | ✅ | ✅ | ✅ | ❌ | ❌ |
训练时候,数据占比发生变化 | train_data_sample | ✅ | ✅ | ✅ | ❌ | ❌ |
internlm-base sft | internlm-sft | ✅ | ✅ | ✅ | ❌ | ❌ |
train qwen2 | train_qwen2 | ✅ | ✅ | ✅ | ✅ | ❌ |
train llava | train_llava | ✅ | ✅ | ✅ | ✅ | ✅ |
我一直觉得,数据流程通过图解的形式表达出来,其实是最清楚的,因此我都会尽可能的把每一个任务的都图解出来。
一直在做transformers的源码解读,可以去B站查看视频👉良睦路程序员