【图片】为什么AI性能测试，5090和5090D没有区别？【显卡吧】

众所周知，由于美国对华AI芯片出口限制，英伟达不得不针对大陆地区推出带有D后缀的消费级GPU，比如RTX 4090 D和RTX 5090 D。通常带D后缀的芯片在性能上都会有一些限制，例如RTX 4090 D相比海外版的RTX 4090，在芯片规模上缩水了11%，游戏和AI性能都有明显的差距，因此玩家们习惯把D后缀的型号称为“阉割版”，而没有D后缀的型号为“满血版”。

然而奇怪的是，英伟达最新的旗舰级型号RTX 5090 D，却在硬件规格上和海外版的RTX 5090一模一样，唯一区别是AI算力少了30%。更奇怪的是，在多项AI性能测试中，RTX 5090 D和RTX 5090的AI性能竟然没有区别。
这是知名科技博主“极客湾”做的测试，他们用Ollama部署了一个23B参数的通义千问2.5模型进行推理测试，结果5090 D跑出了和5090几乎完全相同的成绩。比上一代旗舰RTX 4090快了近50%。

如果说Ollama更吃显存带宽不吃核心算力，那么UL Procyon AI绘画测试又是怎么回事呢？5090 D竟然还反超了5090，简直倒反天罡！这里不得不说一下，RTX 4090由于不支持FP4，因此在FP4量化的模型测试中，落后RTX 5090 D四倍还多。

同样，知乎大V林大大在Linux下做的测试显示，RTX 5090D显卡FP16的能力相当突出，对比RTX 4090最高有77%的增幅，最低也有34%增幅。

那有人要说了，AI推理和AI训练是两个东西啊，不能简单地用一个词“AI性能”笼统地概括。AI推理是在原有的模型上，给定输入然后计算输出的过程，这个过程其实不怎么消耗算力。尤其是现代AI模型（如LLM、AIGC生成模型）通常会对推理进行优化（如量化、剪枝等），以减少计算量。
而AI训练，是通过对大量给定数据的计算，提取特征，得出普遍规律的过程。这个过程非常消耗算力，AI算力的高低直接影响训练速度和模型收敛的效率。因此，RTX 5090 D可能锁的是AI训练的性能，而非推理性能。

这个说法的确有一定道理。可是，在很多AI训练（微调）测试中，依旧还是测不出5090 D那“本该消失”的30%性能。也许，可能，5090 D只有在特别消耗核心算力的部分模型训练中才能看得出两者的区别。
那么可能的结论是什么呢？显存容量和带宽限制！
现代AI模型，尤其是大语言模型或高分辨率图像生成模型，首先对显存容量的需求非常高。显存容量不足会导致模型无法加载，或者需要与内存频繁数据交换，从而拖累整体的AI性能。英伟达虽然对RTX 5090 D的AI算力进行了限制（减少30%），但是显存容量和显存带宽却未作限制。

RTX 5090 D搭载的32GB 512bit GDDR7显存能够提供1792GB/s的带宽，这一点与海外版5090完全一致（美国只限制了GPU算力，没有限制显存带宽）。因此在应对现代AI模型，无论是推理还是训练，GPU根本就没有跑满情况下，显存上的优势就发挥了出来，领先上代RTX 4090近50%合情合理（4090为24GB 384bit GDDR6X显存，带宽1008GB/s）。尤其是在推理任务中，模型需要快速访问权重和输入数据，显存的高带宽可以显著提升推理效率。这也是RTX 5090 D与RTX 5090拉不开差距的重要原因。

然而，大多数AI应用场景，例如文案撰写、代码生成、机器翻译、机器人客服、数学推理、金融分析等，90%以上应用都是基于AI推理，即便有少量的训练也不过是模型微调而已。所以对于大多数希望通过购买消费级显卡来节省预算的AI用户来说，买RTX 5090 D和RTX 5090其实性能没有任何区别，5090 D反而有质保方面的优势，是非常高性价比的选择。而真正需要进行AI训练的用户，还是推荐A100、H100这类的芯片，毕竟高复杂度的、企业级的应用效率才是第一位的。