2 回答

TA貢獻1770條經(jīng)驗 獲得超3個贊
神經(jīng)網(wǎng)絡(luò)實現(xiàn)圖像識別的過程很復雜。但是大概過程很容易理解。我也是節(jié)選一篇圖像識別技術(shù)的文章,大概說一下。
圖像識別技術(shù)主要是通過卷積神經(jīng)網(wǎng)絡(luò)來實現(xiàn)的。這種神經(jīng)網(wǎng)絡(luò)的優(yōu)勢在于,它利用了“同一圖像中相鄰像素的強關(guān)聯(lián)性和強相似度”這一原理。具體而言就是,在一張圖像中的兩個相鄰像素,比圖像中兩個分開的像素更具有關(guān)聯(lián)性。但是,在一個常規(guī)的神經(jīng)網(wǎng)絡(luò)中,每個像素都被連接到了單獨的神經(jīng)元。這樣一來,計算負擔自然加重了。卷積神經(jīng)網(wǎng)絡(luò)通過削減許多不必要的連接來解決圖像識別技術(shù)中的這一問題。運用圖像識別技術(shù)中的術(shù)語來說就是,卷積神經(jīng)網(wǎng)絡(luò)按照關(guān)聯(lián)程度篩選不必要的連接,進而使圖像識別過程在計算上更具有可操作性。卷積神經(jīng)網(wǎng)絡(luò)有意地限制了圖像識別時候的連接,讓一個神經(jīng)元只接受來自之前圖層的小分段的輸入(假設(shè)是3×3或5×5像素),避免了過重的計算負擔。因此,每一個神經(jīng)元只需要負責處理圖像的一小部分。大大加快了速度和準確率。
卷積神經(jīng)網(wǎng)絡(luò)在實施的過程中,實際上是分為兩層,一個是卷積層,一個是匯聚層,簡單理解就是
卷積層將圖片分散成一個一個或者3*3/5*5的小像素塊,然后把這些輸出值排列在圖組中,用數(shù)字表示照片中各個區(qū)域的內(nèi)容,數(shù)軸分別代表高度、寬度和顏色。那么,我們就得到了每一個圖塊的三維數(shù)值表達。匯聚層是將這個三維(或是四維)圖組的空間維度與采樣函數(shù)結(jié)合起來,輸出一個僅包含了圖像中相對重要的部分的聯(lián)合數(shù)組。這一聯(lián)合數(shù)組不僅能使卷積神經(jīng)網(wǎng)絡(luò)計算負擔最小化,還能有效避免過度擬合的問題。
以上大概就是使用卷積神經(jīng)網(wǎng)絡(luò)進行圖像識別的過程。具體可以關(guān)注ATYUN人工智能平臺的文章:揭秘圖像識別技術(shù),機器如何利用卷積神經(jīng)網(wǎng)絡(luò)“看見”這個世界
- 2 回答
- 0 關(guān)注
- 1186 瀏覽
添加回答
舉報