我发现了这个受欢迎的 ~ 9 岁SO question,并决定仔细检查它的结果。
所以,我有 AMD Ryzen 9 5950X、clang++ 10 和 Linux,我从问题中复制粘贴了代码,这就是我得到的:
排序 - 0.549702s:
~/d/so_sorting_faster$ cat main.cpp | grep "std::sort" && clang++ -O3 main.cpp && ./a.out
std::sort(data, data + arraySize);
0.549702
sum = 314931600000
未排序 - 0.546554s:
~/d/so_sorting_faster $ cat main.cpp | grep "std::sort" && clang++ -O3 main.cpp && ./a.out
// std::sort(data, data + arraySize);
0.546554
sum = 314931600000
我很确定未排序的版本比原来快 3 毫秒的事实只是噪音,但它似乎不再慢了。
那么,CPU 的架构发生了哪些变化(使其不再慢一个数量级)?
以下是多次运行的结果:
Unsorted: 0.543557 0.551147 0.541722 0.555599
Sorted: 0.542587 0.559719 0.53938 0.557909
以防万一,这是我的 main.cpp:
#include <algorithm>
#include <ctime>
#include <iostream>
int main()
{
// Generate data
const unsigned arraySize = 32768;
int data[arraySize];
for (unsigned c = 0; c < arraySize; ++c)
data[c] = std::rand() % 256;
// !!! With this, the next loop runs faster.
// std::sort(data, data + arraySize);
// Test
clock_t start = clock();
long long sum = 0;
for (unsigned i = 0; i < 100000; ++i)
{
// Primary loop
for (unsigned c = 0; c < arraySize; ++c)
{
if (data[c] >= 128)
sum += data[c];
}
}
double elapsedTime = static_cast<double>(clock() - start) / CLOCKS_PER_SEC;
std::cout << elapsedTime << std::endl;
std::cout << "sum = " << sum << std::endl;
return 0;
}
更新
使用大量元素(627680):
Unsorted
cat main.cpp | grep "std::sort" && clang++ -O3 main.cpp && ./a.out
// std::sort(data, data + arraySize);
10.3814
Sorted:
cat main.cpp | grep "std::sort" && clang++ -O3 main.cpp && ./a.out
std::sort(data, data + arraySize);
10.6885
我认为这个问题仍然相关——几乎没有区别。
-O1
都包含矢量化优化。那很有意思!
-O2
来自动矢量化,但 even at -O1
it generates branchless scalar code:请参阅第 40 行的条件移动 cmovle
,其中 edx
包含 data[c]
并且 r15d
为零。
您链接的问题中的几个答案谈到将代码重写为无分支,从而避免任何分支预测问题。这就是您更新的编译器正在做的事情。
具体来说,clang++ 10 与 -O3
vectorizes 内部循环。 See the code on godbolt,程序集的第 36-67 行。代码有点复杂,但您绝对看不到的一件事是 data[c] >= 128
测试中的任何条件分支。相反,它使用向量比较指令 (pcmpgtd
),其输出是一个掩码,其中 1 表示匹配元素,0 表示不匹配。带有此掩码的后续 pand
将不匹配的元素替换为 0,因此当它们无条件地添加到总和时,它们不会做出任何贡献。
粗略的 C++ 等价物是
sum += data[c] & -(data[c] >= 128);
代码实际上为数组的偶数和奇数元素保留了两个运行的 64 位 sum
,以便它们可以并行累加,然后在循环结束时相加。
一些额外的复杂性是负责将 32 位 data
元素符号扩展为 64 位;这就是像 pxor xmm5, xmm5 ; pcmpgtd xmm5, xmm4 ; punpckldq xmm4, xmm5
这样的序列完成的。打开 -mavx2
,您会看到一个更简单的 vpmovsxdq ymm5, xmm5
。
代码看起来也很长,因为循环已展开,每次迭代处理 data
的 8 个元素。
-fno-unroll-loops
。 godbolt.org/z/z6WYG9。 (我投入了-march=nehalem
以启用包括pmovsxdq
符号扩展的 SSE4,使其比手动符号扩展更简单。奇怪的是,即使没有它,它仍然一次只执行 8 个字节,而不使用 {5 } +punpckhdq
使用负载的低半部分和高半部分 + 比较结果。公平地说,有时 GCC 在必须加宽时使用较窄的负载 而不是 将自己踢到脚上 :/)-march=nehalem
的 SSE4.2)可能会更好地使用pmovsxdq xmm, [mem]
加载并将比较扩大到 64 位,而不是扩大比较结果。 GCC 执行 16 字节加载,就像我在第一条评论中提到的那样。使用 SSE4 需要 2 次 shuffle 来对高两个被屏蔽元素进行符号扩展(仍然可能值得),而没有 SSE4,对于每个 pcmpgtd / pand 在初始数据上完成两倍的工作,这是纯粹的胜利与 clang,甚至符号扩展可以在两半之间共享一些工作。 godbolt.org/z/nWhz3n-fno-tree-vectorize
编译。