Skip to content

Commit

Permalink
Update README.md
Browse files Browse the repository at this point in the history
Signed-off-by: 熊鑫伟 Xinwei Xiong <[email protected]>
  • Loading branch information
cubxxw authored Nov 4, 2024
1 parent e48a363 commit 53d7e5c
Showing 1 changed file with 10 additions and 0 deletions.
10 changes: 10 additions & 0 deletions README.md
Original file line number Diff line number Diff line change
Expand Up @@ -207,6 +207,16 @@ logging:
• WebSocket 通信:前端通过 WebSocket 与服务器通信,发送音频数据,接收处理结果。
• 音频播放:接收到服务器返回的音频 URL 后,使用 HTML5 Audio 播放。
### TODO
+ 使用同一神经网络和模型处理语音:在此之前语音的实现是:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将该文本转换回音频。相当于就是 `ASR -> LM -> TTS` 的这个过程。 这样做当然好, 但是也有一系列的缺陷,比如说延迟很高,比如说丢掉了细节,LLM 并不知道你的用户情感是什么。
+ 允许对接和调用自己的 AI 中台。

### 参考

+ [https://openai.com/index/hello-gpt-4o/](https://openai.com/index/hello-gpt-4o/)
+ [https://medium.com/@artificial--intelligence/the-differences-between-asr-and-tts-c85a08269c98](https://medium.com/@artificial--intelligence/the-differences-between-asr-and-tts-c85a08269c98#:~:text=We%20are%20familiar%20with%20the,analogous%20to%20the%20human%20mouth.)

### 🤝 参与贡献

我们欢迎任何形式的贡献!请阅读 CONTRIBUTING.md 了解更多信息。
Expand Down

0 comments on commit 53d7e5c

Please sign in to comment.