首頁(yè) 猿問(wèn) 涉及Intel...

涉及Intel SnB系列CPU上的微編碼指令的循環(huán)分支對(duì)齊

C++ 性能測(cè)試

鳳凰求蠱 2019-09-03 16:51:37

這與此問(wèn)題有關(guān)，但不一樣：x86-64匯編的性能優(yōu)化 - 對(duì)齊和分支預(yù)測(cè)與我之前的問(wèn)題略有關(guān)系：無(wú)符號(hào)64位到雙倍轉(zhuǎn)換：為什么這個(gè)算法來(lái)自g ++以下是一個(gè)不真實(shí)的測(cè)試用例。這種素性測(cè)試算法是不明智的。我懷疑任何真實(shí)世界的算法都不會(huì)執(zhí)行如此多的小內(nèi)循環(huán)（num大概是2 ** 50的大?。?。在C ++ 11中：using nt = unsigned long long;bool is_prime_float(nt num){ for (nt n=2; n<=sqrt(num); ++n) { if ( (num%n)==0 ) { return false; } } return true;}然后g++ -std=c++11 -O3 -S生成以下內(nèi)容，包含RCX n和包含XMM6 sqrt(num)。請(qǐng)參閱我之前發(fā)布的剩余代碼（在此示例中從未執(zhí)行過(guò)，因?yàn)镽CX永遠(yuǎn)不會(huì)變得足夠大，不能被視為帶符號(hào)的否定）。jmp .L20.p2align 4,,10.L37:pxor %xmm0, %xmm0cvtsi2sdq %rcx, %xmm0ucomisd %xmm0, %xmm6jb .L36 // Exit the loop.L20:xorl %edx, %edxmovq %rbx, %raxdivq %rcxtestq %rdx, %rdxje .L30 // Failed divisibility testaddq $1, %rcxjns .L37// Further code to deal with case when ucomisd can't be used我用這個(gè)時(shí)間std::chrono::steady_clock。我一直在進(jìn)行奇怪的性能變化：從添加或刪除其他代碼。我最終將其追蹤到一個(gè)對(duì)齊問(wèn)題。該命令.p2align 4,,10試圖對(duì)齊2 ** 4 = 16字節(jié)邊界，但只使用最多10個(gè)字節(jié)的填充來(lái)實(shí)現(xiàn)，我想在對(duì)齊和代碼大小之間取得平衡。我寫了一個(gè)Python腳本，用.p2align 4,,10手動(dòng)控制的nop指令數(shù)替換。下面的散點(diǎn)圖顯示了20次運(yùn)行中最快的15次，以秒為單位的時(shí)間，在x軸上填充的字節(jié)數(shù)：散點(diǎn)圖從objdump沒(méi)有填充，將發(fā)生在偏移0x402f5f的PXOR指令。在筆記本電腦上運(yùn)行，Sandybridge i5-3210m，turboboost 禁用，我發(fā)現(xiàn)了對(duì)于0字節(jié)填充，性能較慢（0.42秒）對(duì)于1-4字節(jié)填充（偏移0x402f60到0x402f63）稍微好一點(diǎn)（0.41s，在圖上可見(jiàn)）。對(duì)于5-20個(gè)字節(jié)填充（偏移0x402f64到0x402f73）獲得快速性能（0.37s）對(duì)于21-32字節(jié)填充（偏移0x402f74到0x402f7f）緩慢性能（0.42秒）然后循環(huán)一個(gè)32字節(jié)的樣本因此，16字節(jié)對(duì)齊不能提供最佳性能 - 它使我們處于稍微好一點(diǎn)（或者從散點(diǎn)圖中稍微變化）的區(qū)域。32加4到19的對(duì)齊可以提供最佳性能。為什么我看到這種性能差異？為什么這似乎違反了將分支目標(biāo)與16字節(jié)邊界對(duì)齊的規(guī)則（參見(jiàn)例如英特爾優(yōu)化手冊(cè)）我沒(méi)有看到任何分支預(yù)測(cè)問(wèn)題。這可能是一個(gè)uop緩存怪癖？通過(guò)將C ++算法更改為sqrt(num)64位整數(shù)緩存然后使循環(huán)純粹基于整數(shù)，我刪除了問(wèn)題 - 對(duì)齊現(xiàn)在沒(méi)有任何區(qū)別。

查看完整描述

3 回答

藍(lán)山帝景

TA貢獻(xiàn)1843條經(jīng)驗(yàn) 獲得超7個(gè)贊

從我在你的算法中看到的，你肯定沒(méi)有太多可以改進(jìn)它。

你遇到的問(wèn)題可能不是分支到一個(gè)對(duì)齊的位置，盡管這仍然有幫助，你當(dāng)前的問(wèn)題更可能是管道機(jī)制。

當(dāng)你一個(gè)接一個(gè)地寫兩條指令時(shí)，例如：

mov %eax, %ebx

add 1, %ebx

為了執(zhí)行第二條指令，必須完成第一條指令。因此，編譯器傾向于混合指令。假設(shè)你需要設(shè)置%ecx為零，你可以這樣做：

mov %eax, %ebx

xor %ecx, %ecx

add 1, %ebx

在這種情況下，mov和xor都可以并行執(zhí)行。這使得事情變得更快......并行處理的指令數(shù)量在處理器之間變化很大（Xeons通常更好）。

分支添加另一個(gè)參數(shù)，其中最佳處理器可以同時(shí)開(kāi)始執(zhí)行分支的兩側(cè)（true和false ...）。但實(shí)際上大多數(shù)處理器都會(huì)猜測(cè)并希望它們是正確的。

最后，很明顯，轉(zhuǎn)換sqrt()結(jié)果的整數(shù)將使事情很多更快，因?yàn)槟銜?huì)避免一切無(wú)感與SSE2代碼，如果只用于轉(zhuǎn)換+比較時(shí)，這兩個(gè)指令可以用做是明確慢整數(shù)。

現(xiàn)在......你可能仍然想知道為什么對(duì)齊與整數(shù)無(wú)關(guān)。事實(shí)是，如果您的代碼適合L1指令緩存，那么對(duì)齊并不重要。如果你丟失了L1緩存，那么它必須重新加載代碼，這就是對(duì)齊變得非常重要的地方，因?yàn)樵诿總€(gè)循環(huán)上它可能會(huì)加載無(wú)用的代碼（可能是15個(gè)字節(jié)的無(wú)用代碼......）并且內(nèi)存訪問(wèn)仍然死慢。

反對(duì) 回復(fù) 2019-09-03