本仓库致力于知错和整理各大语言模型的部署、微调和使用教程。我们为每个支持的模型提供了详细的部署指南、API调用示例、LangChain集成方案、WebDemo实现以及微调方法。所有教程均经过实践验证,确保能够在实际环境中顺利运行。欢迎贡献新的模型教程或改进现有文档!
- Kimi-K2.5
- Step-3.5-Flash
- GLM-4.7-Flash
- 谷歌-Gemma3
- MiniMax-M2.5
- MiniMax-M2
- Qwen3-VL-4B-Instruct
- BGE-M3
- gpt-oss-20b
- GLM-4.1-Thinking
- GLM-4.5-Air
- ERNIE-4.5
- Hunyuan-A13B-Instruct
- Qwen3
- Kimi
- Llama4
- SpatialLM
- Hunyuan3D-2
- Gemma3
- DeepSeek-R1-Distill
- MiniCPM-o-2_6
- InternLM3
- phi4
- Qwen2.5-Coder
- Qwen2-vl
- Qwen2.5
- Apple OpenELM
- Llama3_1-8B-Instruct
- Gemma-2-9b-it
- Yuan2.0
- Yuan2.0-M32
- DeepSeek-Coder-V2
- 哔哩哔哩 Index-1.9B
- Qwen2
- GLM-4
- Qwen 1.5
- phi-3
- CharacterGLM-6B
- LLaMA3-8B-Instruct
- XVERSE-7B-Chat
- TransNormerLLM
- BlueLM Vivo 蓝心大模型
- InternLM2
- DeepSeek 深度求索
- MiniCPM
- Qwen-Audio
- Qwen
- Yi 零一万物
- Baichuan 百川智能
- InternLM
- Atom (llama2)
- ChatGLM3
- 通用环境配置
- Step-3.5-Flash vLLM 部署调用及 Docker 镜像 @郑远婧
- Step-3.5-Flash SGLang 部署调用及 Docker 镜像 @陈辅元
- Step-3.5-Flash Lora 微调及 Docker 镜像
- GLM-4.7-Flash vLLM 部署调用及 Docker 镜像 @谢好冉
- GLM-4.7-Flash SGLang 部署调用及 Docker 镜像 @三水
- GLM-4.7-Flash Lora 微调及 Docker 镜像 @余洋
- gemma-2b-it FastApi 部署调用 @陈榆
- gemma-2b-it langchain 接入 @陈榆
- gemma-2b-it WebDemo 部署 @陈榆
- gemma-2b-it Peft Lora 微调 @陈榆
- gemma3-4b-it AMD 环境准备 @陈榆
- gemma3-4b-it AMD 模型服务部署 @陈榆
- MiniMax-M2.5 在线体验地址
- MiniMax-M2.5 Hugging Face 地址
- MiniMax-M2.5 Text Generation Guide
- MiniMax-M2.5 vLLM 部署调用
- MiniMax-M2.5 SGLang 部署调用
- MiniMax-M2.5 Transformers 部署调用
- MiniMax-M2 在线体验地址
- MiniMax-M2 Hugging Face 地址
- MiniMax-M2 Text Generation Guide
- MiniMax-M2 模型结构解析 Blog @王泽宇
- MiniMax-M2 vllm 部署调用 @姜舒凡
- MiniMax-M2 SGLang 部署调用 @姜舒凡
- MiniMax-M2 evalscope 智商情商评测及并发评测 @姜舒凡
- AutoDL MiniMax-M2 vllm部署及evalscope镜像 @姜舒凡
- Qwen3-VL 模型结构解析(DeepStack解析) @王泽宇
- Qwen3-VL-4B-Instruct FastApi 部署调用 @王嘉鹏
- Qwen3-VL-4B-Instruct vLLM 部署 @姜舒凡
- Qwen3-VL-4B-Instruct Lora 可视化微调案例-LaTexOCR @李秀奇
- gpt-oss-20b vllm 部署调用@郭宣伯
- gpt-oss-20b EvalScope 并发评测 @郭宣伯
- gpt-oss-20b lmstudio 本地部署调用 @郭
- gpt-oss-20b Lora 微调及 SwanLab 可视化记录 @郭宣伯
- gpt-oss-20b DPO 微调及 SwanLab 可视化记录 @郭宣伯
- GLM-4.1V-Thinking vLLM 部署调用 @林恒宇
- GLM-4.1V-Thinking Gradio部署 @林恒宇
- GLM-4.1V-Thinking Lora 微调及 SwanLab 可视化记录 @林恒宇
- GLM-4.1V-Thinking Docker 镜像 @林恒宇
- GLM-4.5-Air vLLM 部署调用 @不要葱姜蒜
- GLM-4.5-Air EvalScope 智商情商 && 并发评测 @不要葱姜蒜
- GLM-4.5-Air Lora 微调 @不要葱姜蒜
- GLM-4.5-Air Ucloud Docker 镜像 @不要葱姜蒜
- Hunyuan-A13B-Instruct 模型架构解析 Blog @卓堂越
- Hunyuan-A13B-Instruct SGLang 部署调用 @fancy
- Hunyuan-A13B-Instruct Lora SwanLab 可视化微调 @谢好冉
- Hunyuan-A13B-Instruct Lora Docker 镜像 @谢好冉
- Qwen3 模型结构解析 Blog @王泽宇
- Qwen3-8B vllm 部署调用 @李娇娇
- Qwen3-8B Windows LMStudio 部署调用 @王熠明
- Qwen3-8B Evalscope 智商情商评测 @李娇娇
- Qwen3-8B Lora 微调及SwanLab 可视化记录 @姜舒凡
- Qwen3-30B-A3B 微调及SwanLab 可视化记录 @高立业
- Qwen3 Think 解密 Blog @樊奇
- Qwen3-8B Docker 镜像 @高立业
- Qwen3-0.6B 的小模型有什么用 @不要葱姜蒜
- Qwen3-1.7B 医学推理式对话微调 及 SwanLab 可视化记录 @林泽毅
- Qwen3-8B GRPO微调及通过swanlab可视化 @郭宣伯
- Qwen3-8B-AMD部署调用 @陈榆
- Llama4 对话助手 @姜舒凡
- Hunyuan3D-2 系列模型部署 @林恒宇
- Hunyuan3D-2 系列模型代码调用 @林恒宇
- Hunyuan3D-2 系列模型Gradio部署 @林恒宇
- Hunyuan3D-2 系列模型API Server @林恒宇
- Hunyuan3D-2 Docker 镜像 @林恒宇
- gemma-3-4b-it FastApi 部署调用 @杜森
- gemma-3-4b-it ollama + open-webui部署 @孙超
- gemma-3-4b-it evalscope 智商情商评测 @张龙斐
- gemma-3-4b-it Lora 微调 @荞麦
- gemma-3-4b-it Docker 镜像 @姜舒凡
- gemma-3-4b-it GRPO微调及通过swanlab可视化 @郭宣伯
- DeepSeek-R1-Distill-Qwen-7B FastApi 部署调用 @骆秀韬
- DeepSeek-R1-Distill-Qwen-7B Langchain 接入 @骆秀韬
- DeepSeek-R1-Distill-Qwen-7B WebDemo 部署 @骆秀韬
- DeepSeek-R1-Distill-Qwen-7B vLLM 部署调用 @骆秀韬
- DeepSeek-R1-0528-Qwen3-8B-GRPO及swanlab可视化 @郭宣伯
- minicpm-o-2.6 FastApi 部署调用 @林恒宇
- minicpm-o-2.6 WebDemo 部署 @程宏
- minicpm-o-2.6 多模态语音能力 @邓恺俊
- minicpm-o-2.6 可视化 LaTeX_OCR Lora 微调 @林泽毅
- internlm3-8b-instruct FastApi 部署调用 @苏向标
- internlm3-8b-instruct Langchian接入 @赵文恺
- internlm3-8b-instruct WebDemo 部署 @王泽宇
- internlm3-8b-instruct Lora 微调 @程宏
- internlm3-8b-instruct o1-like推理链实现 @陈睿
- phi4 FastApi 部署调用 @杜森
- phi4 langchain 接入 @小罗
- phi4 WebDemo 部署 @杜森
- phi4 Lora 微调 @郑远婧
- phi4 Lora 微调 NER任务 SwanLab 可视化记录版 @林泽毅
- phi4 GRPO微调及通过swanlab可视化 @郭宣伯
- Qwen2.5-Coder-7B-Instruct FastApi部署调用 @赵文恺
- Qwen2.5-Coder-7B-Instruct Langchian接入 @杨晨旭
- Qwen2.5-Coder-7B-Instruct WebDemo 部署 @王泽宇
- Qwen2.5-Coder-7B-Instruct vLLM 部署 @王泽宇
- Qwen2.5-Coder-7B-Instruct Lora 微调 @荞麦
- Qwen2.5-Coder-7B-Instruct Lora 微调 SwanLab 可视化记录版 @杨卓
- Qwen2-vl-2B FastApi 部署调用 @姜舒凡
- Qwen2-vl-2B WebDemo 部署 @赵伟
- Qwen2-vl-2B vLLM 部署 @荞麦
- Qwen2-vl-2B Lora 微调 @李柯辰
- Qwen2-vl-2B Lora 微调 SwanLab 可视化记录版 @林泽毅
- Qwen2-vl-2B Lora 微调案例 - LaTexOCR @林泽毅
- Qwen2.5-7B-Instruct FastApi 部署调用 @娄天奥
- Qwen2.5-7B-Instruct langchain 接入 @娄天奥
- Qwen2.5-7B-Instruct vLLM 部署调用 @姜舒凡
- Qwen2.5-7B-Instruct WebDemo 部署 @高立业
- Qwen2.5-7B-Instruct Lora 微调 @左春生
- Qwen2.5-7B-Instruct o1-like 推理链实现 @姜舒凡
- Qwen2.5-7B-Instruct Lora 微调 SwanLab 可视化记录版 @林泽毅
- Llama3_1-8B-Instruct FastApi 部署调用 @不要葱姜蒜
- Llama3_1-8B-Instruct langchain 接入 @张晋
- Llama3_1-8B-Instruct WebDemo 部署 @张晋
- Llama3_1-8B-Instruct Lora 微调 @不要葱姜蒜
- 动手转换GGUF模型并使用Ollama本地部署 @Gaoboy
- Gemma-2-9b-it FastApi 部署调用 @不要葱姜蒜
- Gemma-2-9b-it langchain 接入 @不要葱姜蒜
- Gemma-2-9b-it WebDemo 部署 @不要葱姜蒜
- Gemma-2-9b-it Peft Lora 微调 @不要葱姜蒜
- Yuan2.0-2B FastApi 部署调用 @张帆
- Yuan2.0-2B Langchain 接入 @张帆
- Yuan2.0-2B WebDemo部署 @张帆
- Yuan2.0-2B vLLM部署调用 @张帆
- Yuan2.0-2B Lora微调 @张帆
- DeepSeek-Coder-V2-Lite-Instruct FastApi 部署调用 @姜舒凡
- DeepSeek-Coder-V2-Lite-Instruct langchain 接入 @姜舒凡
- DeepSeek-Coder-V2-Lite-Instruct WebDemo 部署 @Kailigithub
- DeepSeek-Coder-V2-Lite-Instruct Lora 微调 @余洋
- Index-1.9B-Chat FastApi 部署调用 @邓恺俊
- Index-1.9B-Chat langchain 接入 @张友东
- Index-1.9B-Chat WebDemo 部署 @程宏
- Index-1.9B-Chat Lora 微调 @姜舒凡
- Qwen2-7B-Instruct FastApi 部署调用 @康婧淇
- Qwen2-7B-Instruct langchain 接入 @不要葱姜蒜
- Qwen2-7B-Instruct WebDemo 部署 @三水
- Qwen2-7B-Instruct vLLM 部署调用 @姜舒凡
- Qwen2-7B-Instruct Lora 微调 @散步
- GLM-4-9B-chat FastApi 部署调用 @张友东
- GLM-4-9B-chat langchain 接入 @谭逸珂
- GLM-4-9B-chat WebDemo 部署 @何至轩
- GLM-4-9B-chat vLLM 部署 @王熠明
- GLM-4-9B-chat Lora 微调 @肖鸿儒
- GLM-4-9B-chat-hf Lora 微调 @付志远
- Qwen1.5-7B-chat FastApi 部署调用 @颜鑫
- Qwen1.5-7B-chat langchain 接入 @颜鑫
- Qwen1.5-7B-chat WebDemo 部署 @颜鑫
- Qwen1.5-7B-chat Lora 微调 @不要葱姜蒜
- Qwen1.5-72B-chat-GPTQ-Int4 部署环境 @byx020119
- Qwen1.5-MoE-chat Transformers 部署调用 @丁悦
- Qwen1.5-7B-chat vLLM推理部署 @高立业
- Qwen1.5-7B-chat Lora 微调 接入SwanLab实验管理平台 @黄柏特
- Phi-3-mini-4k-instruct FastApi 部署调用 @郑皓桦
- Phi-3-mini-4k-instruct langchain 接入 @郑皓桦
- Phi-3-mini-4k-instruct WebDemo 部署 @丁悦
- Phi-3-mini-4k-instruct Lora 微调 @丁悦
- CharacterGLM-6B Transformers 部署调用 @孙健壮
- CharacterGLM-6B FastApi 部署调用 @孙健壮
- CharacterGLM-6B webdemo 部署 @孙健壮
- CharacterGLM-6B Lora 微调 @孙健壮
- LLaMA3-8B-Instruct FastApi 部署调用 @高立业
- LLaMA3-8B-Instruct langchain 接入 @不要葱姜蒜
- LLaMA3-8B-Instruct WebDemo 部署 @不要葱姜蒜
- LLaMA3-8B-Instruct Lora 微调 @高立业
- XVERSE-7B-Chat transformers 部署调用 @郭志航
- XVERSE-7B-Chat FastApi 部署调用 @郭志航
- XVERSE-7B-Chat langchain 接入 @郭志航
- XVERSE-7B-Chat WebDemo 部署 @郭志航
- XVERSE-7B-Chat Lora 微调 @郭志航
- TransNormerLLM-7B-Chat FastApi 部署调用 @王茂霖
- TransNormerLLM-7B-Chat langchain 接入 @王茂霖
- TransNormerLLM-7B-Chat WebDemo 部署 @王茂霖
- TransNormerLLM-7B-Chat Lora 微调 @王茂霖
- BlueLM-7B-Chat FatApi 部署调用 @郭志航
- BlueLM-7B-Chat langchain 接入 @郭志航
- BlueLM-7B-Chat WebDemo 部署 @郭志航
- BlueLM-7B-Chat Lora 微调 @郭志航
- InternLM2-7B-chat FastApi 部署调用 @不要葱姜蒜
- InternLM2-7B-chat langchain 接入 @不要葱姜蒜
- InternLM2-7B-chat WebDemo 部署 @郑皓桦
- InternLM2-7B-chat Xtuner Qlora 微调 @郑皓桦
- DeepSeek-7B-chat FastApi 部署调用 @不要葱姜蒜
- DeepSeek-7B-chat langchain 接入 @不要葱姜蒜
- DeepSeek-7B-chat WebDemo @不要葱姜蒜
- DeepSeek-7B-chat Lora 微调 @不要葱姜蒜
- DeepSeek-7B-chat 4bits量化 Qlora 微调 @不要葱姜蒜
- DeepSeek-MoE-16b-chat Transformers 部署调用 @Kailigithub
- DeepSeek-MoE-16b-chat FastApi 部署调用 @Kailigithub
- DeepSeek-coder-6.7b finetune colab @Swiftie
- Deepseek-coder-6.7b webdemo colab @Swiftie
- MiniCPM-2B-chat transformers 部署调用 @Kailigithub
- MiniCPM-2B-chat FastApi 部署调用 @Kailigithub
- MiniCPM-2B-chat langchain 接入 @不要葱姜蒜
- MiniCPM-2B-chat webdemo 部署 @Kailigithub
- MiniCPM-2B-chat Lora && Full 微调 @不要葱姜蒜
- 官方友情链接:面壁小钢炮MiniCPM教程 @OpenBMB
- 官方友情链接:MiniCPM-Cookbook @OpenBMB
- Qwen-Audio FastApi 部署调用 @陈思州
- Qwen-Audio WebDemo @陈思州
- Qwen-7B-chat Transformers 部署调用 @李娇娇
- Qwen-7B-chat FastApi 部署调用 @李娇娇
- Qwen-7B-chat WebDemo @李娇娇
- Qwen-7B-chat Lora 微调 @不要葱姜蒜
- Qwen-7B-chat ptuning 微调 @肖鸿儒
- Qwen-7B-chat 全量微调 @不要葱姜蒜
- Qwen-7B-Chat 接入langchain搭建知识库助手 @李娇娇
- Qwen-7B-chat 低精度训练 @肖鸿儒
- Qwen-1_8B-chat CPU 部署 @散步
- Yi-6B-chat FastApi 部署调用 @李柯辰
- Yi-6B-chat langchain接入 @李柯辰
- Yi-6B-chat WebDemo @肖鸿儒
- Yi-6B-chat Lora 微调 @李娇娇
- Baichuan2-7B-chat FastApi 部署调用 @惠佳豪
- Baichuan2-7B-chat WebDemo @惠佳豪
- Baichuan2-7B-chat 接入 LangChain 框架 @惠佳豪
- Baichuan2-7B-chat Lora 微调 @惠佳豪
- InternLM-Chat-7B Transformers 部署调用 @小罗
- InternLM-Chat-7B FastApi 部署调用 @不要葱姜蒜
- InternLM-Chat-7B WebDemo @不要葱姜蒜
- Lagent+InternLM-Chat-7B-V1.1 WebDemo @不要葱姜蒜
- 浦语灵笔图文理解&创作 WebDemo @不要葱姜蒜
- InternLM-Chat-7B 接入 LangChain 框架 @Logan Zou
- Atom-7B-chat WebDemo @Kailigithub
- Atom-7B-chat Lora 微调 @Logan Zou
- Atom-7B-Chat 接入langchain搭建知识库助手 @陈思州
- Atom-7B-chat 全量微调 @Logan Zou
- ChatGLM3-6B Transformers 部署调用 @丁悦
- ChatGLM3-6B FastApi 部署调用 @丁悦
- ChatGLM3-6B chat WebDemo @不要葱姜蒜
- ChatGLM3-6B Code Interpreter WebDemo @不要葱姜蒜
- ChatGLM3-6B 接入 LangChain 框架 @Logan Zou
- ChatGLM3-6B Lora 微调 @肖鸿儒
-
pip、conda 换源 @不要葱姜蒜
-
AutoDL 开放端口 @不要葱姜蒜
-
模型下载
- hugging face @不要葱姜蒜
- hugging face 镜像下载 @不要葱姜蒜
- modelscope @不要葱姜蒜
- git-lfs @不要葱姜蒜
- Openxlab
-
Issue && PR