音声を文字起こし後のJSONファイルのタイムスタンプに沿って結合 #6

tomo-spring · 2024-10-26T04:52:23Z

音声を文字起こし後のJSONファイルに記載された開始時刻と終了時刻のタイムスタンプに沿って結合する。
結合する際に、元動画とのずれをなくすため、各チャンクの開始時刻と終了時刻に沿って音声を合わせたい。

各チャンクごとの音声ファイルの長さについて、それぞれ以下のケースを考える。
音声ファイルの操作はpydubで行う。

元動画の音声 > 生成音声

生成音声の前後に無音音声を追加する
追加する無音音声の長さは、それぞれ
(元動画の音声 - 生成音声) / 2

例えば、生成音声が4秒で、元動画での長さが5秒の場合の時は
生成音声の前後に0.5秒の無音区間を追加

速度因子 = 生成音声 / 元動画の音声

例えば、生成音声が5秒で、元動画での長さが4秒の場合の時は
5 / 4 = 1.25倍
に再生速度を調整

The text was updated successfully, but these errors were encountered: