我制作了一個(gè)程序,它允許我說(shuō)話并將其轉(zhuǎn)換為文本。在我停止說(shuō)話后,它會(huì)轉(zhuǎn)換我的聲音。我想要做的是在我說(shuō)話時(shí)將我的聲音轉(zhuǎn)換為文本。https://www.youtube.com/watch?v=96AO6L9qp2U&t=2s&ab_channel=StormHack在 2:31 分。注意托尼顯示器的右上角。它在說(shuō)話時(shí)將他的聲音轉(zhuǎn)換為文本。我想做同樣的事情。可以做到嗎?這是我的整個(gè)程序:import speech_recognition as sr import pyaudior = sr.Recognizer()with sr.Microphone() as source: print("Listening...") audio = r.listen(source) try: text = r.recognize_google(audio) print("You said : {}".format(text)) except: print("Sorry could not recognize what you said")解決方案、提示、提示或任何內(nèi)容將不勝感激,在此先感謝您。
2 回答

鴻蒙傳說(shuō)
TA貢獻(xiàn)1865條經(jīng)驗(yàn) 獲得超7個(gè)贊
為了做到這一點(diǎn),你必須做所謂的 VAD:語(yǔ)音音頻檢測(cè),一個(gè)簡(jiǎn)單的方法是從音頻中獲取一組樣本并獲取它們的強(qiáng)度,如果它們高于某個(gè)閾值,那么你應(yīng)該開(kāi)始錄制,一旦強(qiáng)度在給定的時(shí)間段內(nèi)低于某個(gè)閾值,您就可以結(jié)束錄制并將其發(fā)送給服務(wù)。您可以在此處找到一個(gè)示例。
更復(fù)雜的系統(tǒng)使用更好的啟發(fā)式方法來(lái)決定用戶是否在說(shuō)話,例如頻率以及應(yīng)用降噪等功能,其他系統(tǒng)也能夠像 DeepSpeech 2 一樣在用戶說(shuō)話時(shí)對(duì)文本執(zhí)行實(shí)時(shí)語(yǔ)音。
添加回答
舉報(bào)
0/150
提交
取消