IT之家9月8日消息,GPU计算云服务提供商CloudRift在上个月发布公告,GeForceRTX5090和RTXPRO6000已被证实存在可复现的虚拟化故障,导致显卡无法使用,直到整个系统重新上电,将悬赏1000美元(IT之家注:现汇率约合7128元人民币)解决这个问题。
CloudRift表示,在一些配备RTX5090和RTXPRO6000显卡的节点上,这些显卡偶尔会完全无响应——通常在使用虚拟机几天后,或在启动/关闭过程中看似随机的时间点。一旦发生这种情况,显卡就无法重新分配。唯一的解决办法是重启整个节点。
CloudRift已经排除了大多数常见问题:IOMMU的quirks、内核版本、驱动绑定以及libvirt的配置错误。该公司的H100s、B200s和较旧的RTX4090都在运行稳定,但这些较新的RTX显卡给他们带来了大麻烦。
据Tom'sHardware昨日报道,Proxmox论坛和Level1Techs上的用户也报告了类似的问题。在其中一个案例中,Windows虚拟机关闭后系统挂起,即使操作系统重启后GPU也无法重新初始化。另一位用户描述了Linux虚拟机关闭时FLR超时后主机CPU软锁,切换PCIeASPM或ACS设置等尝试未能解决问题。
CloudRift正提供1000美元(现汇率约合7128元人民币)的悬赏,用于确认的缓解措施或修复方案。如果找不到直接修复方法,奖励将给予任何帮助揭示根本原因或提供可复现测试的人。
目前,英伟达尚未就重置故障发表任何声明,该故障似乎仅限于基于Blackwell的显卡。一位受影响的用户表示,英伟达已经意识到这个问题,并且能够复现它。