在过去一年多的时间里,人工智能(AI)热潮席卷全球,各大科技公司纷纷大规模投资数据中心GPU。这让市场上占据主导地位的数据中心GPU供应商英伟达收获颇丰。尽管高性能的数据中心GPU价格高昂,但它们的使用寿命却相对较短。这是因为在日常运行中,这些GPU要承受AI推理训练带来的繁重工作负载,其老化速度往往比其他组件更快。

据相关报道,近期有报告显示,云服务提供商(CSP)运营的数据中心里,GPU在AI工作负载中的利用率大约在60%至70%。按照这样的利用率,GPU通常只能使用1到2年,即便在较为理想的状况下,最多也就能使用3年。值得注意的是,当前用于AI和HPC应用的数据中心GPU功耗极大,可达700W甚至更高,这给芯片带来了巨大压力,在一定程度上也缩短了其使用寿命。
若想延长数据中心GPU的使用寿命,一种可行的方法是降低其利用率。不过,这会导致GPU以更慢的速度贬值,企业收回成本所需的时间也会更长,这对于投入了高昂成本的企业而言并非好事。所以,大部分云服务提供商在权衡收益之后,最常见的做法依旧是让GPU以高利用率运行。
此外,报告依据数据统计结果指出,数据中心GPU的年化故障率约为9%,使用3年后故障率大概会达到27%,而且通常在使用一年后,GPU更有可能频繁出现故障。


























