1 回答

TA貢獻1820條經(jīng)驗 獲得超10個贊
1) 假設(shè)您將一個序列輸入到 LSTM(正常用例):
它不會相同,因為 LSTM 返回一個序列 (?return_sequences=True
),從而不會降低輸入維度。因此,輸出形狀為(Batch, Sequence, Hid)
。這被饋送到在維度(即 )Convolution1D
上執(zhí)行卷積的層。因此,實際上,一維卷積的目的是在 LSTM 之后提取局部一維子序列/補丁。Sequence
(Sequence, Hid)
如果有的話return_sequences=False
,LSTM 將返回最終狀態(tài)h_t
。為了確保與密集層具有相同的行為,您需要一個完全連接的卷積層,即長度為長度的內(nèi)核Sequence
,并且我們需要與Hid
輸出形狀中一樣多的濾波器。這將使一維卷積相當(dāng)于密集層。
2)假設(shè)您沒有向 LSTM 輸入序列(您的示例):
在您的示例中,LSTM 用作密集層的替代品。它具有相同的功能,但它給出的結(jié)果略有不同,因為門會進行額外的轉(zhuǎn)換(即使我們沒有序列)。
(Sequence, Hid)
由于隨后在=上執(zhí)行卷積(1, Hid)
,因此它確實是按時間步進行操作的。由于我們有 128 個輸入和 128 個過濾器,因此它是完全連接的,并且內(nèi)核大小足以在單個元素上進行操作。這符合上面定義的一維卷積相當(dāng)于密集層的標準,所以你是對的。
附帶說明一下,這種類型的架構(gòu)通常是通過神經(jīng)架構(gòu)搜索獲得的。這里使用的“替代品”并不常見,并且通常不能保證比更成熟的替代品更好。然而,在很多情況下,使用強化學(xué)習(xí)或進化算法可以使用“非傳統(tǒng)”解決方案獲得稍微更高的準確性,因為非常小的性能提升可能只是偶然發(fā)生,并且不一定反映架構(gòu)的有用性。
添加回答
舉報