我最近正在研究使用神經(jīng)網(wǎng)絡(luò)和CTC損失訓(xùn)練自動語音識別機。但是我要做的第一件事是準備用于訓(xùn)練模型的數(shù)據(jù)。由于Librispeech包含大量數(shù)據(jù),因此一開始我將使用一個名為“ Mini LibriSpeech ASR語料庫”的子集。(http://www.openslr.org/31/)。我也正在使用Warn-ctc的SeanNaren Pytorch綁定(https://github.com/SeanNaren/warp-ctc)。讀取音頻文件及其對應(yīng)的成績單后,我使用Spicy包來計算每個音頻文件的聲譜圖。當我將頻譜圖饋送到卷積層以進行特征提取時,就會出現(xiàn)問題。每個頻譜圖的長度與其他頻譜圖的長度不同。在對該問題進行了更多搜索之后,我發(fā)現(xiàn)我應(yīng)該將特定數(shù)量的幀傳遞給網(wǎng)絡(luò),但是要達到此目的,我需要用相應(yīng)的字符(也包含空白符號)標記聲音文件的每個幀。有沒有辦法在python中做到這一點?
在pytorch中為ASR加載librispeech
慕田峪4524236
2021-04-05 12:19:49