gpu共享调研整理

本文是对GPU共享方案调研之后的简单整理

盘点来自工业界的GPU共享方案：https://zhuanlan.zhihu.com/p/398369404

GPU虚拟化，算力隔离，和qGPU：https://zhuanlan.zhihu.com/p/377073683

腾讯 GPUManager虚拟化方案：https://cloud.tencent.com/developer/article/1685122

总体来讲，GPU共享没有完美的解决方案。

一类解决方案是Nvidia官方提供的Nvidia MPS，和Nvidia vGPU。Nvidia MPS在容器中应用需要进一步学习，Nvidia vGPU需要使用高端计算卡，不支持消费级游戏显卡，并且只能在虚拟机使用，不支持容器。

另一类是第三方研发的方案。分为两种思路，一种是CUDA劫持。因为CUDA库是公开的，所以这种技术较容易实现。但是CUDA库升级频繁，每当CUDA升级时劫持方案也需要升级。隔离不准确，且无法提供算力精准限制的能力。另一种是内核劫持。因为Nvidia Driver的更新更小，所以适配需求很小，但是研发比较困难。

GPU共享方案目前来看还是各大厂商的核心技术能力，更是有趋动科技这样专门做GPU集群管理的公司。内核劫持的技术方案没有哪家厂商开源其代码，唯一可以使用的是CUDA劫持的方案。

https://virtaitech.com/product/index
https://github.com/4paradigm/k8s-device-plugin