项目简介
本项目是基于PyTorch和TurboMind构建的高效本地大语言模型(LLM)部署系统。借助lmdeploy工具,用户能够便捷地把Huggingface上的模型转换为TurboMind格式,并在本地实现高效的推理与对话。
项目的主要特性和功能
- 环境配置:提供详细的依赖库版本列表,保证项目在各类环境下稳定运行。
- 模型转化:支持在线和离线两种方式将模型转换为TurboMind格式。
- 本地运行:提供命令行和API服务两种模型推理方式,满足不同场景需求。
安装使用步骤
1. 环境配置
确保环境中已安装所有必要的依赖库,通过以下命令安装主要依赖:
bash
pip install torch transformers lmdeploy
2. 模型转化
在线转化
使用lmdeploy直接读取Huggingface模型权重进行在线转化:
bash
lmdeploy chat turbomind internlm/internlm-chat-20b-4bit --model-name internlm-chat-20b
离线转化
先将模型转为lmdeploy TurboMind的格式:
bash
lmdeploy convert internlm2-chat-7b /path
3. 本地运行
命令行本地对话
通过命令行直接执行TurboMind进行本地对话:
bash
lmdeploy chat turbomind ./workspace
API服务
启动API服务并通过API进行交互:
bash
lmdeploy serve api_server ./workspace --server-name 0.0.0.0 --server-port ${server_port} --tp 1
详细内容请参考文档。
注意事项
- 确保模型转换过程中网络环境通畅,以便访问Huggingface模型库。
- 使用API服务时,确保服务器的安全设置,防止未授权访问。
- 根据需要调整模型配置参数以获得最佳性能。
下载地址
点击下载 【提取码: 4003】【解压密码: www.makuang.net】