第七色在线视频,2021少妇久久久久久久久久,亚洲欧洲精品成人久久av18,亚洲国产精品特色大片观看完整版,孙宇晨将参加特朗普的晚宴

為了賬號(hào)安全,請(qǐng)及時(shí)綁定郵箱和手機(jī)立即綁定
已解決430363個(gè)問(wèn)題,去搜搜看,總會(huì)有你想問(wèn)的

涉及Intel SnB系列CPU上的微編碼指令的循環(huán)分支對(duì)齊

涉及Intel SnB系列CPU上的微編碼指令的循環(huán)分支對(duì)齊

鳳凰求蠱 2019-09-03 16:51:37
這與此問(wèn)題有關(guān),但不一樣:x86-64匯編的性能優(yōu)化 - 對(duì)齊和分支預(yù)測(cè)與我之前的問(wèn)題略有關(guān)系:無(wú)符號(hào)64位到雙倍轉(zhuǎn)換:為什么這個(gè)算法來(lái)自g ++以下是一個(gè)不真實(shí)的測(cè)試用例。這種素性測(cè)試算法是不明智的。我懷疑任何真實(shí)世界的算法都不會(huì)執(zhí)行如此多的小內(nèi)循環(huán)(num大概是2 ** 50的大?。?。在C ++ 11中:using nt = unsigned long long;bool is_prime_float(nt num){   for (nt n=2; n<=sqrt(num); ++n) {      if ( (num%n)==0 ) { return false; }   }   return true;}然后g++ -std=c++11 -O3 -S生成以下內(nèi)容,包含RCX n和包含XMM6 sqrt(num)。請(qǐng)參閱我之前發(fā)布的剩余代碼(在此示例中從未執(zhí)行過(guò),因?yàn)镽CX永遠(yuǎn)不會(huì)變得足夠大,不能被視為帶符號(hào)的否定)。jmp .L20.p2align 4,,10.L37:pxor    %xmm0, %xmm0cvtsi2sdq   %rcx, %xmm0ucomisd %xmm0, %xmm6jb  .L36   // Exit the loop.L20:xorl    %edx, %edxmovq    %rbx, %raxdivq    %rcxtestq   %rdx, %rdxje  .L30   // Failed divisibility testaddq    $1, %rcxjns .L37// Further code to deal with case when ucomisd can't be used我用這個(gè)時(shí)間std::chrono::steady_clock。我一直在進(jìn)行奇怪的性能變化:從添加或刪除其他代碼。我最終將其追蹤到一個(gè)對(duì)齊問(wèn)題。該命令.p2align 4,,10試圖對(duì)齊2 ** 4 = 16字節(jié)邊界,但只使用最多10個(gè)字節(jié)的填充來(lái)實(shí)現(xiàn),我想在對(duì)齊和代碼大小之間取得平衡。我寫了一個(gè)Python腳本,用.p2align 4,,10手動(dòng)控制的nop指令數(shù)替換。下面的散點(diǎn)圖顯示了20次運(yùn)行中最快的15次,以秒為單位的時(shí)間,在x軸上填充的字節(jié)數(shù):散點(diǎn)圖從objdump沒(méi)有填充,將發(fā)生在偏移0x402f5f的PXOR指令。在筆記本電腦上運(yùn)行,Sandybridge i5-3210m,turboboost 禁用,我發(fā)現(xiàn)了對(duì)于0字節(jié)填充,性能較慢(0.42秒)對(duì)于1-4字節(jié)填充(偏移0x402f60到0x402f63)稍微好一點(diǎn)(0.41s,在圖上可見(jiàn))。對(duì)于5-20個(gè)字節(jié)填充(偏移0x402f64到0x402f73)獲得快速性能(0.37s)對(duì)于21-32字節(jié)填充(偏移0x402f74到0x402f7f)緩慢性能(0.42秒)然后循環(huán)一個(gè)32字節(jié)的樣本因此,16字節(jié)對(duì)齊不能提供最佳性能 - 它使我們處于稍微好一點(diǎn)(或者從散點(diǎn)圖中稍微變化)的區(qū)域。32加4到19的對(duì)齊可以提供最佳性能。為什么我看到這種性能差異?為什么這似乎違反了將分支目標(biāo)與16字節(jié)邊界對(duì)齊的規(guī)則(參見(jiàn)例如英特爾優(yōu)化手冊(cè))我沒(méi)有看到任何分支預(yù)測(cè)問(wèn)題。這可能是一個(gè)uop緩存怪癖?通過(guò)將C ++算法更改為sqrt(num)64位整數(shù)緩存然后使循環(huán)純粹基于整數(shù),我刪除了問(wèn)題 - 對(duì)齊現(xiàn)在沒(méi)有任何區(qū)別。
查看完整描述

3 回答

?
藍(lán)山帝景

TA貢獻(xiàn)1843條經(jīng)驗(yàn) 獲得超7個(gè)贊

從我在你的算法中看到的,你肯定沒(méi)有太多可以改進(jìn)它。


你遇到的問(wèn)題可能不是分支到一個(gè)對(duì)齊的位置,盡管這仍然有幫助,你當(dāng)前的問(wèn)題更可能是管道機(jī)制。


當(dāng)你一個(gè)接一個(gè)地寫兩條指令時(shí),例如:


  mov %eax, %ebx

  add 1, %ebx

為了執(zhí)行第二條指令,必須完成第一條指令。因此,編譯器傾向于混合指令。假設(shè)你需要設(shè)置%ecx為零,你可以這樣做:


  mov %eax, %ebx

  xor %ecx, %ecx

  add 1, %ebx

在這種情況下,mov和xor都可以并行執(zhí)行。這使得事情變得更快......并行處理的指令數(shù)量在處理器之間變化很大(Xeons通常更好)。


分支添加另一個(gè)參數(shù),其中最佳處理器可以同時(shí)開(kāi)始執(zhí)行分支的兩側(cè)(true和false ...)。但實(shí)際上大多數(shù)處理器都會(huì)猜測(cè)并希望它們是正確的。


最后,很明顯,轉(zhuǎn)換sqrt()結(jié)果的整數(shù)將使事情很多更快,因?yàn)槟銜?huì)避免一切無(wú)感與SSE2代碼,如果只用于轉(zhuǎn)換+比較時(shí),這兩個(gè)指令可以用做是明確慢整數(shù)。


現(xiàn)在......你可能仍然想知道為什么對(duì)齊與整數(shù)無(wú)關(guān)。事實(shí)是,如果您的代碼適合L1指令緩存,那么對(duì)齊并不重要。如果你丟失了L1緩存,那么它必須重新加載代碼,這就是對(duì)齊變得非常重要的地方,因?yàn)樵诿總€(gè)循環(huán)上它可能會(huì)加載無(wú)用的代碼(可能是15個(gè)字節(jié)的無(wú)用代碼......)并且內(nèi)存訪問(wèn)仍然死慢。


查看完整回答
反對(duì) 回復(fù) 2019-09-03
  • 3 回答
  • 0 關(guān)注
  • 943 瀏覽
慕課專欄
更多

添加回答

舉報(bào)

0/150
提交
取消
微信客服

購(gòu)課補(bǔ)貼
聯(lián)系客服咨詢優(yōu)惠詳情

幫助反饋 APP下載

慕課網(wǎng)APP
您的移動(dòng)學(xué)習(xí)伙伴

公眾號(hào)

掃描二維碼
關(guān)注慕課網(wǎng)微信公眾號(hào)