Update README.md

Signed-off-by: 熊鑫伟 Xinwei Xiong <[email protected]>
telepace · Nov 4, 2024 · 53d7e5c · 53d7e5c
1 parent e48a363
commit 53d7e5c
Showing 1 changed file with 10 additions and 0 deletions.
diff --git a/README.md b/README.md
@@ -207,6 +207,16 @@ logging:
 	•	WebSocket 通信：前端通过 WebSocket 与服务器通信，发送音频数据，接收处理结果。
 	•	音频播放：接收到服务器返回的音频 URL 后，使用 HTML5 Audio 播放。
 
+### TODO
+
++ 使用同一神经网络和模型处理语音：在此之前语音的实现是：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将该文本转换回音频。相当于就是 `ASR -> LM -> TTS` 的这个过程。 这样做当然好， 但是也有一系列的缺陷，比如说延迟很高，比如说丢掉了细节，LLM 并不知道你的用户情感是什么。
++ 允许对接和调用自己的 AI 中台。
+
+### 参考
+
++ [https://openai.com/index/hello-gpt-4o/](https://openai.com/index/hello-gpt-4o/)
++ [https://medium.com/@artificial--intelligence/the-differences-between-asr-and-tts-c85a08269c98](https://medium.com/@artificial--intelligence/the-differences-between-asr-and-tts-c85a08269c98#:~:text=We%20are%20familiar%20with%20the,analogous%20to%20the%20human%20mouth.)
+
 ### 🤝 参与贡献
 
 我们欢迎任何形式的贡献！请阅读 CONTRIBUTING.md 了解更多信息。