首頁猿問為什么MATLAB在矩陣乘法中速度...

為什么MATLAB在矩陣乘法中速度這么快？

源碼

撒科打諢 2019-06-16 16:14:45

為什么MATLAB在矩陣乘法中速度這么快？我正在使用CUDA、C+、C#和Java編寫一些基準，并使用MATLAB進行驗證和矩陣生成。但當我用MATLAB進行乘法時，2048x2048甚至更大的矩陣幾乎立即被乘以。 1024x1024 2048x2048 4096x4096 --------- --------- --------- CUDA C (ms) 43.11 391.05 3407.99 C++ (ms) 6137.10 64369.29 551390.93 C# (ms) 10509.00 300684.00 2527250.00 Java (ms) 9149.90 92562.28 838357.94 MATLAB (ms) 75.01 423.10 3133.90只有CUDA是有競爭力的，但我認為至少C+會有點接近，而不是60x慢點。所以我的問題是-MATLAB是怎么做到這么快的？C+代碼：float temp = 0;timer.start();for(int j = 0; j < rozmer; j++){ for (int k = 0; k < rozmer; k++) { temp = 0; for (int m = 0; m < rozmer; m++) { temp = temp + matice1[j][m] * matice2[m][k]; } matice3[j][k] = temp; }}timer.stop();編輯：我也不知道如何看待C#結(jié)果。算法與C+和Java完全相同，但是有一個巨大的飛躍2048從…1024?編輯2：最新的MATLAB和4096x4096結(jié)果

查看完整描述

3 回答

梵蒂岡之花

TA貢獻1900條經(jīng)驗獲得超5個贊

這是我使用MATLABR2011a+的結(jié)果并行計算工具箱在一臺帶有特斯拉C 2070的機器上：

>> A = rand(1024); gA = gpuArray(A);% warm up by executing the operations a couple of times, and then:>> tic, C = A * A; 
tocElapsed time is 0.075396 seconds.>> tic, gC = gA * gA; tocElapsed time is 0.008621 seconds.

MATLAB在矩陣乘法中使用了高度優(yōu)化的庫，這就是為什么普通MATLAB矩陣乘法速度如此之快的原因。這個gpuArray版本使用巖漿.

使用R2014a更新在一臺帶有特斯拉K20c的機器上timeit和gputimeit職能：

>> A = rand(1024); gA = gpuArray(A);>> timeit(@()A*A)ans =
    0.0324>> gputimeit(@()gA*gA)ans =
    0.0022

使用R2018b更新在一臺WIN 64機上，它有16個物理內(nèi)核和一個Tesla V 100：

>> timeit(@()A*A)ans =
    0.0229>> gputimeit(@()gA*gA)ans =
   4.8019e-04

反對回復(fù) 2019-06-16

小唯快跑啊

TA貢獻1863條經(jīng)驗獲得超2個贊

這類問題是反復(fù)出現(xiàn)的，應(yīng)該比“Matlab使用高度優(yōu)化的庫”或“Matlab使用MKL”一次更清楚地回答堆棧溢出。

歷史：

矩陣乘法(與矩陣向量、向量乘法和許多矩陣分解一起)是線性代數(shù)中最重要的問題。工程師們從早期就開始用計算機解決這些問題。

我不是歷史專家，但很顯然，當時每個人都用簡單的循環(huán)重寫了他的Fortran版本。隨后出現(xiàn)了一些標準化，識別了大多數(shù)線性代數(shù)問題需要解決的“核”(基本例程)。然后，這些基本操作在一個名為：基本線性代數(shù)子程序(BLAS)的規(guī)范中標準化。然后，工程師可以在他們的代碼中調(diào)用這些標準的、經(jīng)過良好測試的blas例程，從而使他們的工作更加容易。

BLAS：

BLAS從第一級(定義標量向量和向量操作的第一個版本)發(fā)展到第二級(向量矩陣運算)到第三級(矩陣運算)，并提供了越來越多的“核”，使越來越多的基本線性代數(shù)運算標準化。最初的Fortran 77實現(xiàn)仍然可以在Netlib網(wǎng)站.

爭取更好的業(yè)績：

因此，多年來(特別是在BLAS第1級和第2級發(fā)布之間：80年代初)，隨著向量操作和緩存層次結(jié)構(gòu)的出現(xiàn)，硬件發(fā)生了變化。這些進化使BLAS子例程的性能大大提高成為可能。然后，不同的供應(yīng)商來實現(xiàn)越來越有效率的BLAS例程。

我不知道所有的歷史實現(xiàn)(我不是天生的，也不是那個時候的孩子)，但最著名的兩個實現(xiàn)出現(xiàn)在21世紀初：Intel MKL和GotoBLAS。您的Matlab使用Intel MKL，這是一個非常好的，優(yōu)化的BLAS，這解釋了您看到的偉大性能。

矩陣乘法的技術(shù)細節(jié)：

那么，為什么Matlab(MKL)在dgemm(雙精度一般矩陣-矩陣乘法)？簡單地說：因為它使用了矢量化和良好的數(shù)據(jù)緩存。更復(fù)雜的術(shù)語：參見文章由喬納森·摩爾提供。

基本上，當您在所提供的C+代碼中執(zhí)行乘法時，您對緩存一點也不友好。由于我懷疑您創(chuàng)建了一個指向行數(shù)組的指針數(shù)組，所以您在內(nèi)部循環(huán)中訪問“matice 2”的第k列：matice2[m][k]都很慢。實際上，當你訪問matice2[0][k]，您必須得到矩陣數(shù)組0的k元素。然后在下一次迭代中，您必須訪問matice2[1][k]，它是另一個數(shù)組(數(shù)組1)的第k個元素.然后在下一次迭代中訪問另一個數(shù)組，依此類推.因為整個矩陣matice2不能放在最高的緩存中(它是8*1024*1024)，程序必須從主內(nèi)存中獲取所需的元素，從而損失大量時間。

如果您只是轉(zhuǎn)換了矩陣，以便訪問將位于連續(xù)的內(nèi)存地址中，那么您的代碼將運行得更快，因為現(xiàn)在編譯器可以同時在緩存中加載整個行。只需嘗試這個修改后的版本：

timer.start();float temp = 0;//transpose matice2for (int p = 0; p < rozmer; p++){
    for (int q = 0; q < rozmer; q++)
    {
        tempmat[p][q] = matice2[q][p];
    }}for(int j = 0; j < rozmer; j++){
    for (int k = 0; k < rozmer; k++)
    {
        temp = 0;
        for (int m = 0; m < rozmer; m++)
        {
            temp = temp + matice1[j][m] * tempmat[k][m];
        }
        matice3[j][k] = temp;
    }}timer.stop();

因此，您可以看到緩存局部性如何極大地提高了代碼的性能?，F(xiàn)在是真實的dgemm實現(xiàn)將其利用到了一個非常廣泛的層次：它們在由TLB(TransferingLookAbout緩沖器，長話短說：可以有效緩存的內(nèi)容)定義的矩陣塊上執(zhí)行乘法，從而將處理的數(shù)據(jù)量準確地流到處理器。另一方面是矢量化，它們使用處理器的向量化指令來優(yōu)化指令吞吐量，這在跨平臺C+代碼中是無法做到的。

最后，人們聲稱這是因為Strassen‘s或CoppersSmith-Winograd算法是錯誤的，這兩種算法在實踐中都是不可實現(xiàn)的，因為上面提到的硬件考慮因素。

反對回復(fù) 2019-06-16