CentOS7 服务器上使用T4显卡部署大型AI模型的详细教程
环境准备
服务器配置CPU:Platinum8225c 显卡T4 GPU:T4 16GB CPU:8核 内存32GB
操作系统:Centos7.6
英伟达显卡驱动
Docker容器环境
Docker使用的NVIDIA驱动
Ollama容器镜像,Ollama支持的显卡型号:点击查看
查看运行环境的资源使用率
使用OpenAI-WebUI调用本地本地部署的大模型。
操作步骤:
1 如下为腾讯云部署,登录后系统会自动安装英伟达驱动,安装完成后使用如下命令查看。
2 安装Docker容器环境
因为现在Docker镜像已经停止对中国地区提供镜像服务,可以已修改docker下载源地址为腾讯云。
vim /etc/docker/daemon.json { "registry-mirrors": [ "https://mirror.ccs.tencentyun.com" ] } # 重启Docker服务 sudo systemctl restart docker
运行如下命令,开始安装Docker容器。
yum-config-manager --add-repo=https://mirrors.cloud.tencent.com/docker-ce/linux/centos/docker-ce.repo yum list docker-ce yum install docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin -y systemctl start docker
如下图,已安装完成
3 安装Docker使用的NVIDIA驱动
1 先配置仓库,直接运行下载即可。
curl -s -L https://nvidia.github.io/libnvidia-container/stable/rpm/nvidia-container-toolkit.repo | \ sudo tee /etc/yum.repos.d/nvidia-container-toolkit.repo
2 安装NVIDIA容器工具包
sudo yum install -y nvidia-container-toolkit
3 配置Docker使用NVIDIA驱动
sudo nvidia-ctk runtime configure --runtime=docker sudo systemctl restart docker
4 运行Ollama容器并下载大模型镜像
注意:由于Ollama需要科学上网下载,这里直接准备好离线的容器镜像导入使用。需要镜像的请留言的你的邮箱。
1 上传Ollama镜像到服务器后,使用命令导入Ollama容器。
docker load -i ollama.tar.gz
2 导入镜像后,启动Ollama容器
docker run -d --gpus=all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama
3 运行Ollama容器命令下载AI大模型,注意:如下载到最后一点速度变慢了,可以取消重新下载即可快速完成后面下载。
# 先下载llama3模型 docker exec -it ollama ollama pull llama3 #查看ollama已下载的模型 docker exec -it ollama ollama list llama3 # 下载完成后,使用命令运行llama3模型 docker exec -it ollama ollama run llama3 #查看ollama正在运行的大模型 docker exec -it ollama ollama ps llama3
如下图提问,回答速度非常快。
5 查看T4显卡运行后,系统资源使用率
方法:分别使用 watch -n 1 nvidia-smi 命令和 top 命令观察GPU和CPU使用情况。
1 在AI大模型运行后,会占用显存5G,CPU使用率比较低,如下图
2 当进行提问的时候,显存使用率会增高,GPU使用率会增高到85%,同时CPU的用户空间和系统空间使用率有增高。