Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

音声を文字起こし後のJSONファイルのタイムスタンプに沿って結合 #6

Open
tomo-spring opened this issue Oct 26, 2024 · 0 comments

Comments

@tomo-spring
Copy link
Collaborator

tomo-spring commented Oct 26, 2024

音声を文字起こし後のJSONファイルに記載された開始時刻と終了時刻のタイムスタンプに沿って結合する。
結合する際に、元動画とのずれをなくすため、各チャンクの開始時刻と終了時刻に沿って音声を合わせたい。

各チャンクごとの音声ファイルの長さについて、それぞれ以下のケースを考える。
音声ファイルの操作はpydubで行う。

元動画の音声 > 生成音声

生成音声の前後に無音音声を追加する
追加する無音音声の長さは、それぞれ
(元動画の音声 - 生成音声) / 2

例えば、生成音声が4秒で、元動画での長さが5秒の場合の時は
生成音声の前後に0.5秒の無音区間を追加

生成音声 > 元動画の音声

速度因子 = 生成音声 / 元動画の音声

例えば、生成音声が5秒で、元動画での長さが4秒の場合の時は
5 / 4 = 1.25倍
に再生速度を調整

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

No branches or pull requests

1 participant