项目简介
本项目是一个结合了FastChat和vLLM技术的大模型推理系统,能够为用户提供高效、快速的聊天机器人和大型语言模型推理服务。系统支持基于Web UI和OpenAI兼容的RESTful API的分布式多模型服务,借助vLLM技术可显著加速大模型的推理速度。
项目的主要特性和功能
- 大模型训练与评估:具备训练和评估大模型聊天机器人的功能,支持通过Gradio和OpenAI API与之交互。
- 多分布多模型服务:可支持多个分布式模型,同时提供Web UI及OpenAI API接口,满足多样化用户需求。
- vLLM加速推理:集成vLLM技术,利用PagedAttention高效管理注意力中的缓存张量,实现大模型推理加速。
- 便捷安装与使用:提供详细的安装和使用指南,方便用户快速完成系统部署与使用。
安装使用步骤
假设用户已下载本项目的源码文件,按以下步骤操作:
1. 安装依赖:打开终端,执行以下命令安装FastChat和vLLM:
bash
pip3 install "fschat[model_worker,webui]"
pip install vllm
2. 运行服务
- 创建Controller:
bash
python3 -m fastchat.serve.controller --host 0.0.0.0
- 加载model_worker(使用vLLM加载):
bash
python -m fastchat.serve.vllm_worker --host 0.0.0.0 --model-path /root/autodl-tmp/Models/Qwen1.5-4B-Chat --trust-remote-code --dtype bfloat16
- 启动Gradio,实现demo展示:
bash
python -m fastchat.serve.gradio_web_server --host 0.0.0.0 --port 8000
- 启动OpenAI的接口服务:
bash
python3 -m fastchat.serve.openai_api_server --host 0.0.0.0 --port 8000
3. 配置模型路径:在运行相关服务时,通过--model-path
参数设置模型的路径,如上述示例中的/root/autodl-tmp/Models/Qwen1.5-4B-Chat
,以便系统能够正确加载和使用模型。
4. 使用API:通过OpenAI API或其他接口与系统进行交互。例如,使用curl
命令发送请求:
bash
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen1.5-4B-Chat",
"messages": [{"role": "user", "content": "你会做计算题吗?99+123="}]
}'
注意事项
- 确保系统满足硬件和软件要求,如配备GPU并安装相应的依赖库。
- 使用前请仔细阅读文档和指南,确保正确配置和使用系统。
- 关注系统的性能和安全性,避免未经授权的访问和使用。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】