首頁猿問在pytorch中為ASR加載li...

在pytorch中為ASR加載librispeech

Python

慕田峪4524236 2021-04-05 12:19:49

我最近正在研究使用神經(jīng)網(wǎng)絡(luò)和CTC損失訓(xùn)練自動語音識別機。但是我要做的第一件事是準備用于訓(xùn)練模型的數(shù)據(jù)。由于Librispeech包含大量數(shù)據(jù)，因此一開始我將使用一個名為“ Mini LibriSpeech ASR語料庫”的子集。（http://www.openslr.org/31/）。我也正在使用Warn-ctc的SeanNaren Pytorch綁定（https://github.com/SeanNaren/warp-ctc）。讀取音頻文件及其對應(yīng)的成績單后，我使用Spicy包來計算每個音頻文件的聲譜圖。當我將頻譜圖饋送到卷積層以進行特征提取時，就會出現(xiàn)問題。每個頻譜圖的長度與其他頻譜圖的長度不同。在對該問題進行了更多搜索之后，我發(fā)現(xiàn)我應(yīng)該將特定數(shù)量的幀傳遞給網(wǎng)絡(luò)，但是要達到此目的，我需要用相應(yīng)的字符（也包含空白符號）標記聲音文件的每個幀。有沒有辦法在python中做到這一點？

查看完整描述