Dell服务器安装vGPU

环境信息

服务器型号	系统版本	驱动版本
Dell R740xd	ESXi6.5u3 15177306	NVIDIA-VMware-440.87-1OEM.650.0.0.4598673.x86
Dell R940xa	ESXi6.5u3 15177306	NVIDIA-VMware-440.87-1OEM.650.0.0.4598673.x86
GPU型号	Nvidia Tesla V100
备注：驱动版本和系统版本一定要对应，系统版本必须是ESXi6.5u3或以上，建议使用6.7版本

一、ESXi主机配置

1、ESXi主机安装GPU驱动

ESXi主机开启ssh，用winscp软件将驱动传到主机下，迁移或者关闭主机上所有虚拟机，然后将主机置入维护模式，并安装驱动

安装驱动，返回值successfully则表示安装成

卸载驱动用如下命令

查看驱动是否安装成功

2、修改BIOS设置

将 Memory Mapped I/O Base 设置为 512 GB（默认为 56 TB）或 12 TB（如果服务器的 RAM 大于 512 GB）：重新引导系统后生效

此问题在 R740 用户硬件手册中介绍如下：

Memory Mapped I/O above 4 GB – 启用或禁用要求大量内存的 PCIe 设备支持。仅 64 位操作系统可启用此选项。此选项默认为已启用。

Memory Mapped I/O above Base – 当设置为 12 TB 时，系统将 MMIO 库映射到 12 TB。需要 44 位 PCIe 寻址的操作系统可启用此选项。
当设置为 512 GB 时，系统将 MMIO 库映射到 512 GB，并将最大内存支持减少到低于 512 GB。仅针对 4 GPU DGMA 问题启用此选项。此选项默认设置为 56 TB

注意：设置此选项会将内存限制为512GB（如果已设置为512GB）

3、查看GPU信息

使用命令nvidia-smi查看是否显示GPU信息，如下：

4、vCenter设置图形共享模式

在确认驱动状态没问题以后，我们登陆vCenter，定位到主机–配置–图形，编辑主机图形设置，可以看到默认是共享模式，也就是vsga，我们需要切换到“直接共享“才能使用vGPU。

2种GPU分配策略，在有多个GPU的时候生效。

默认最佳性能模式，会在所有可能的GPU上去运行虚拟机，即VM1运行在GPU1、VM2运行在GPU2，以此类推，尽可能平均的分布虚拟机，不会让GPU闲着。

GPU整合模式，会在一个GPU核心上运行先启动的虚拟机，直到当前GPU没有资源才会去使用下一个GPU核心，这个模式多用在同一台服务器上运行多个vGPU profile的情况下。

除了主机的图形选项，针对每个GPU也都可以单独设置共享模式，第一次使用需要在这里再切换一下，主要是需要重启xorg服务来改变配置，不同vSphere版本界面可能不能，部分vSphere 6.5早期版本需要手动重启xorg服务

二、虚拟机配置vGPU

版本兼容性列表

1、windows配置vGPU

系统版本：win2008R2、win2012R2、win2016R2（win2012R2官网没有企业版，所以只能安装标准版）

系统安装完成后关闭防火墙，打开远程桌面。

注：虚拟机添加vGPU安装驱动后，虚拟桌面连接失效，必须开启远程桌面连接或删除共享pci直通

安装驱动后Nvidia控制面板打不开或者报错，解决办法：安装驱动精灵，升级显卡驱动后重启。

授权vGPU，打开Nvidia控制面板，输入License Server 的IP以及固定的端口号7070 ，重启后查看授权服务器是否生效

2、Centos7.8配置vGPU

2.1、关闭防火墙和selinux

修改/etc/selinux/config文件

SELINUX=disabled

2.2、查看最新内核版本并更新

当前版本为3.10.0-1127.el7，最新版为以下3.10.0-1127.13.1.el7

安装以下更新包，重启后查看是否生效

检测NVIDIA驱动是否存在

2.3、禁用Nouveau驱动

查看nouveau是否运行，如有输出结果即为运行

修改/lib/modprobe.d/dist-blacklist.conf 文件

将blacklist nvidiafb注释，并添加以下两行内容

blacklist nouveau

options nouveau modeset=0

2.4、重建 initramfs image

# mv /boot/initramfs-$(uname -r).img /boot/initramfs-$(uname -r).img.bak

# dracut /boot/initramfs-$(uname -r).img $(uname -r)

安装gcc、gcc-c++包

2.5、安装NVIDIA驱动

添加可执行权限

# chmod +x NVIDIA-Linux-x86_64-440.87-grid.run

退出X-server图形，进入文本模式

# init 3

进入驱动目录安装驱动程序

默认Yes

选Install and overwrite exis

结束安装后重启虚拟机

2.6、修改授权配置文件

进入/etc/nvidia目录，查看是否有gridd.conf文件

如果没有，复制gridd.conf.template此文件，然后命名gridd.conf，在修改此文件内容

添加vGPU授权服务器IP和端口号

2.7、vGPU授权

重启nvidia服务，登录授权服务器查看是否已有授权

# systemctl restart nvidia-gridd.service

登陆license服务器查看是否有授权

http://10.86.192.8:8080/licserver

关于单个VM使用多个vGPU，ESXi版本必须是6.7u3及以上，首先ESXi需要升级到6.7U3的版本才支持，其次虚拟机兼容性也需要修改为vSphere 6.7 Update 2或之后的版本，第三只有多个Q或者C系列的vGPU能添加到单个虚拟机上，而且也会有最低显存设置。

Published by

风君子

独自遨游何稽首揭天掀地慰生平 View all posts by 风君子

发表回复取消回复