-
輸入單個節(jié)點的處理也可以有一個預測輸出,通過選定損失函數(shù)對預測結(jié)果進行評估,并進行反向?qū)W習進一步修改線性組合的參數(shù)W和b
查看全部 -
邏輯回歸是一種最簡化的網(wǎng)絡(luò)結(jié)構(gòu)
查看全部 -
神經(jīng)網(wǎng)絡(luò)比普通的函數(shù)具有結(jié)構(gòu)性的順序——網(wǎng)絡(luò)結(jié)構(gòu)
深層網(wǎng)絡(luò)比淺層網(wǎng)絡(luò)的所需結(jié)點數(shù)要少,而且理解力會更強
線性結(jié)構(gòu)可以解決線性問題,非線性就可以解決非線性問題
神經(jīng)元結(jié)構(gòu)
查看全部 -
課程安排1
查看全部 -
圖像、語音:密集型矩陣,非零值
文本:稀疏型矩陣,零值居多,需要預處理
查看全部 -
神經(jīng)網(wǎng)絡(luò)
起源:
????20世紀中葉
查看全部 -
神經(jīng)網(wǎng)絡(luò)的主要組件
查看全部 -
梯度下降同步更新神經(jīng)元線性部分的參數(shù)W和b,J(W,b)為損失函數(shù)
查看全部 -
正向傳播-->網(wǎng)絡(luò)向量化
反向傳播-->網(wǎng)絡(luò)梯度下降
對a^n求導,輸出dW^n、db^n、dz^n,得到da^n-1
y-->a^n-->a^n-1-->……-->a(x層不需要調(diào)教)
訓練過程:正向傳播計算損失-->反向傳播更新參數(shù)-->反復以上步驟
注意:傳播按層進行,中間沒有交叉,所有層全部算好后再一次性更新參數(shù)
查看全部 -
梯度下降是通過一種漸進性的方式來調(diào)整函數(shù)的形態(tài)(W,b),使學習結(jié)果與實際結(jié)果一致。
通過正向運算得到y(tǒng)^,此時W、b是初始值,y^與真實y值有差異,通過損失函數(shù)反向調(diào)整參數(shù)W、b。用損失函數(shù)分別對W、b求導,同步更新W、b,使在損失函數(shù)變化方向上漸進減小直到Global Minimum(全局最小值),此時W、b趨向于穩(wěn)定。如果損失函數(shù)趨近于全局最小值,則預測y值與真實y值差異最小。
查看全部 -
損失函數(shù)判斷學習產(chǎn)生的函數(shù)值和訓練集給出的函數(shù)值之間的差異性。
不使用歐幾里得距離(預測值與真實值做差)而使用log函數(shù)是因為,通過激勵函數(shù)學習出的平面并不是凸函數(shù)平面,在后期做梯度下降(與是否是凸函數(shù)有關(guān))時有多個局部極小值時,學習結(jié)果不準確。
-->使用log變成凸函數(shù)。
查看全部 -
激勵函數(shù)的作用是提供規(guī)模化的非線性化能力,模擬神經(jīng)元被激發(fā)后非線性狀態(tài)的變化。
Sigmoid:區(qū)間[0,1]
優(yōu)點:整個區(qū)間段可導。
缺點:不是原點中心對稱,對稱點(0,0.5)-->數(shù)據(jù)中心化(0,0)
tanh:區(qū)間[-1,1]
優(yōu)點:sigmoid函數(shù)平移后得到,中心對稱。
缺點:趨向于較大或較小時,導數(shù)為0,函數(shù)變化平緩,神經(jīng)網(wǎng)絡(luò)學習效率受影響,學習周期變長。
ReLU(較為普遍):
缺點:小于0時,導數(shù)為0,出現(xiàn)問題-->可改為斜率較小的斜線
查看全部 -
圖像、語音:密集型矩陣,非零值
文本:稀疏型矩陣,零值居多,需要預處理
查看全部 -
權(quán)重 偏置值查看全部
-
:=? ?同步更新
查看全部
舉報