首頁(yè) 猿問(wèn) 用python說(shuō)話時(shí)將語(yǔ)音轉(zhuǎn)換為文本

用python說(shuō)話時(shí)將語(yǔ)音轉(zhuǎn)換為文本

Python

躍然一笑 2021-09-14 10:21:03

我制作了一個(gè)程序，它允許我說(shuō)話并將其轉(zhuǎn)換為文本。在我停止說(shuō)話后，它會(huì)轉(zhuǎn)換我的聲音。我想要做的是在我說(shuō)話時(shí)將我的聲音轉(zhuǎn)換為文本。https://www.youtube.com/watch?v=96AO6L9qp2U&t=2s&ab_channel=StormHack在 2:31 分。注意托尼顯示器的右上角。它在說(shuō)話時(shí)將他的聲音轉(zhuǎn)換為文本。我想做同樣的事情。可以做到嗎？這是我的整個(gè)程序：import speech_recognition as sr import pyaudior = sr.Recognizer()with sr.Microphone() as source: print("Listening...") audio = r.listen(source) try: text = r.recognize_google(audio) print("You said : {}".format(text)) except: print("Sorry could not recognize what you said")解決方案、提示、提示或任何內(nèi)容將不勝感激，在此先感謝您。

查看完整描述

2 回答

鴻蒙傳說(shuō)

TA貢獻(xiàn)1865條經(jīng)驗(yàn) 獲得超7個(gè)贊

為了做到這一點(diǎn)，你必須做所謂的 VAD：語(yǔ)音音頻檢測(cè)，一個(gè)簡(jiǎn)單的方法是從音頻中獲取一組樣本并獲取它們的強(qiáng)度，如果它們高于某個(gè)閾值，那么你應(yīng)該開(kāi)始錄制，一旦強(qiáng)度在給定的時(shí)間段內(nèi)低于某個(gè)閾值，您就可以結(jié)束錄制并將其發(fā)送給服務(wù)。您可以在此處找到一個(gè)示例。

更復(fù)雜的系統(tǒng)使用更好的啟發(fā)式方法來(lái)決定用戶是否在說(shuō)話，例如頻率以及應(yīng)用降噪等功能，其他系統(tǒng)也能夠像 DeepSpeech 2 一樣在用戶說(shuō)話時(shí)對(duì)文本執(zhí)行實(shí)時(shí)語(yǔ)音。

反對(duì) 回復(fù) 2021-09-14