直播吧9月8日讯 GPU计算云服务提供商CloudRift在上个月发布公告,GeForceRTX5090和RTXPRO6000已被证实存在可复现的虚拟化故障,导致显卡无法使用,直到整个系统重新上电,将悬赏1000美元(约7128元人民币)解决这个问题。
CloudRift表示,在一些配备RTX5090和RTXPRO6000显卡的节点上,这些显卡偶尔会完全无响应——通常在使用虚拟机几天后,或在启动/关闭过程中看似随机的时间点。一旦发生这种情况,显卡就无法重新分配。唯一的解决办法是重启整个节点。
CloudRift已经排除了大多数常见问题:IOMMU的quirks、内核版本、驱动绑定以及libvirt的配置错误。该公司的H100s、B200s和较旧的RTX4090都在运行稳定,但这些较新的RTX显卡给他们带来了大麻烦。
据Tom'sHardware昨日报道,Proxmox论坛和Level1Techs上的用户也报告了类似的问题。在其中一个案例中,Windows虚拟机关闭后系统挂起,即使操作系统重启后GPU也无法重新初始化。另一位用户描述了Linux虚拟机关闭时FLR超时后主机CPU软锁,切换PCIeASPM或ACS设置等尝试未能解决问题。