我對音頻檢測不太了解,我今天才開始學(xué)習(xí)它,遇到了 webrtcvad(這感覺記錄不足 :'( ) 和 LibROSA。我要做的任務(wù)是給定一個音頻文件,(它可以是空的或者它可以有噪音但沒有語音),我必須檢測它是否包含任何語音。知道我如何開始它嗎?任何幫助將不勝感激。提前致謝。
3 回答

海綿寶寶撒
TA貢獻1809條經(jīng)驗 獲得超8個贊
聽起來像是一個籠統(tǒng)的問題。雖然有幾種可能的解決方案:
將其傳遞給語音以進行文本識別。如果你有文字,就會有語音。
在更多的音頻分析方法中,使用僅檢查人聲范圍的頻率濾波器。
編輯:這里有一些用于處理音頻的庫
librosa ( https://github.com/librosa/librosa ) - 有很多功能,但文檔讓初學(xué)者很難理解
pydub ( https://github.com/jiaaro/pydub ) - 與 librosa 相比更易于使用,但只有很少的功能,并且與 librosa 不同地表示音頻(不易與 librosa 集成)
spleeter ( https://github.com/deezer/spleeter ) - 分離人聲和其他樂器

哈士奇WWW
TA貢獻1799條經(jīng)驗 獲得超6個贊
該speechmetrics
軟件包提供了兩種絕對語音質(zhì)量測量方法,即 MOSNet 和 SRMR。您可以將音頻摘錄傳遞給這些包,檢查返回的靜音/噪音/語音質(zhì)量并相應(yīng)地設(shè)置閾值。

添加回答
舉報
0/150
提交
取消