目前我正在使用此代碼將音頻文件切成小塊:sound = AudioSegment.from_mp3("1.WAV")f=open("decoded.txt", "a+")chunks = split_on_silence(sound,min_silence_len=280,silence_thresh=-33,keep_silence=150)for i, chunk in enumerate(chunks): print(i) print("\n") chunk.export(folder+"/chunk{0}.wav".format(i), format="wav") AUDIO_FILE = path.join(path.dirname(path.realpath(__file__)), folder+"/chunk{0}.wav".format(i)) r = sr.Recognizer() with sr.AudioFile(AUDIO_FILE) as source: print("Listening...") audio = r.record(source) # read the entire audio file f.write((r.recognize_google(audio) +" "))f.close();這會創(chuàng)建根據(jù)靜音分割的文件塊......但我想要的是,每當(dāng)音頻被分割時(shí),下一個切片從 2 秒開始,以便任何可能被剪切的單詞都可能出現(xiàn)。就像如果沉默是在 10,13,18,22 時(shí)間那么我的切片應(yīng)該是 0-10,8-13,11-18,16-22。我正在使用 pydub 根據(jù)沉默進(jìn)行拆分。我可以在 pydub 中更改某些內(nèi)容,還是有其他一些可以執(zhí)行此操作的軟件包?
如何基于靜音分割音頻文件并在python中重疊最后說2秒
慕無忌1623718
2021-07-14 17:14:07