Transcreva localmente seus áudios e vídeos com esta ferramenta offline. Baseada no modelo open source fast-whisper, ela converte a fala humana em texto, exportando em formatos json, srt com timestamps e texto puro. Após implantada, substitui com precisão similar serviços de reconhecimento de fala online como OpenAI ou Baidu.
Recursos:
- Totalmente offline: Implante em redes internas.
- Modelos flexíveis: O fast-whisper oferece versões base/small/medium/large-v3. A qualidade aumenta do base para large-v3, mas exige mais recursos. Baixe e descompacte outros modelos na pasta
models
. - Aceleração CUDA: Se tiver uma GPU Nvidia e o ambiente CUDA configurado, use a aceleração CUDA automaticamente.
302.AI: A Plataforma de IA Sob Demanda
A 302.AI é a plataforma que reúne as melhores IAs do mundo em um só lugar, com pagamento sob demanda e sem mensalidades. Experimente diversas ferramentas de IA sem barreiras de entrada!
Benefícios:
- Funcionalidades completas: Chat de IA, geração de imagens e vídeos, processamento de imagens e muito mais.
- Fácil de usar: Robôs, ferramentas e APIs para atender a todos os níveis de usuário.
- Pagamento sob demanda: Sem planos mensais, sem barreiras para produtos, pague apenas pelo que usar. Seu saldo nunca expira!
- Separação de administradores e usuários: Especialistas em IA configuram tudo para você, simplificando o uso.
🎁 Bônus Exclusivo:
Clique para se registrar e ganhe 1 PTC (1 PTC = 1 dólar americano, cerca de 7 yuans) imediatamente. Além disso, ganhe 5 PTC por dia experimentando a plataforma através do link.
Junte-se à 302.AI e explore o mundo da inteligência artificial sem limites!
cn-stt.mp4
- Baixe os arquivos: Acesse a página de lançamentos e baixe os arquivos pré-compilados.
- Descompacte: Extraia os arquivos em um local de sua preferência (ex:
E:/stt
). - Execute: Dê um duplo clique em
start.exe
e aguarde a abertura automática da janela do navegador. - Utilize a interface:
- Clique na área de upload da página.
- Selecione o arquivo de áudio ou vídeo desejado (ou arraste-o para a área).
- Escolha o idioma da fala, o formato de saída do texto e o modelo.
- Clique em "Iniciar Reconhecimento".
- O resultado será exibido na caixa de texto inferior no formato escolhido.
- Aceleração CUDA (opcional): Se o seu computador possui uma GPU Nvidia e o ambiente CUDA está configurado corretamente, a aceleração CUDA será utilizada automaticamente.
Requisitos:
- Python 3.9, 3.10 ou 3.11
Passos:
- Crie um diretório: Crie um diretório vazio (ex:
E:/stt
). - Clone o repositório: Abra o terminal (ou prompt de comando) neste diretório e execute:
git clone https://github.com/jianchang512/stt.git
- Crie um ambiente virtual:
python -m venv venv
- Ative o ambiente virtual:
- Windows:
%cd%/venv/scripts/activate
- Linux/Mac:
source ./venv/bin/activate
- Windows:
- Instale as dependências:
pip install -r requirements.txt
- Em caso de erro de conflito de versão, execute:
pip install -r requirements.txt --no-deps
- Para suporte à aceleração CUDA:
pip uninstall -y torch pip install torch --index-url [https://download.pytorch.org/whl/cu121](https://download.pytorch.org/whl/cu121)
- Em caso de erro de conflito de versão, execute:
- Instale o FFmpeg:
- Windows: Descompacte
ffmpeg.7z
e coloqueffmpeg.exe
effprobe.exe
no diretório do projeto. - Linux/Mac: Consulte as instruções de instalação do FFmpeg para sua distribuição.
- Windows: Descompacte
- Baixe os modelos:
- Método 01:
Baixe o pacote de modelos compactado e coloque as pastas descompactadas na pasta
models
no diretório raiz do projeto. - Método 02: Use esta tabela de modelos fast-whisper para baixar os modelos diretamente.
- Método 01:
Baixe o pacote de modelos compactado e coloque as pastas descompactadas na pasta
- Execute:
python start.py
Aguarde a abertura automática da janela do navegador.
- Endereço:
http://127.0.0.1:9977/api
- Método: POST
- Parâmetros:
language
(código do idioma):- Chinês:
zh
- Inglês:
en
- Francês:
fr
- Alemão:
de
- Japonês:
ja
- Coreano:
ko
- Russo:
ru
- Espanhol:
es
- Tailandês:
th
- Italiano:
it
- Português:
pt
- Vietnamita:
vi
- Árabe:
ar
- Turco:
tr
- Chinês:
model
(nome do modelo):base
: corresponde amodels/models--Systran--faster-whisper-base
small
: corresponde amodels/models--Systran--faster-whisper-small
medium
: corresponde amodels/models--Systran--faster-whisper-medium
large-v3
: corresponde amodels/models--Systran--faster-whisper-large-v3
response_format
(formato de legenda):text
,json
ousrt
file
(arquivo de áudio ou vídeo)
Exemplo de Requisição (Python):
import requests
# Endereço da API
url = "http://127.0.0.1:9977/api"
# Parâmetros da requisição
files = {"file": open("C:/Users/c1/Videos/2.wav", "rb")}
data = {"language": "zh", "model": "base", "response_format": "json"}
# Faz a requisição POST
response = requests.post(url, timeout=600, data=data, files=files)
# Imprime a resposta em formato JSON
print(response.json())
# Interpretação da resposta:
# - code == 0: sucesso
# - code != 0: falha
# - msg == "sucesso": reconhecimento bem-sucedido
# - msg != "sucesso": motivo da falha
# - data: texto retornado após o reconhecimento (se houver)
Instalação de Ferramentas CUDA: Para detalhes sobre o processo de instalação, consulte este guia detalhado.
Se o seu computador possui uma placa gráfica Nvidia, siga estes passos:
- Atualize o driver da placa gráfica para a versão mais recente.
- Instale o CUDA Toolkit e o cudnn for CUDA11.x correspondentes:
- Verifique a instalação:
- Pressione
Win + R
, digitecmd
e pressione Enter. - Na janela de comando, digite
nvcc --version
e confirme se as informações da versão são exibidas (similar à imagem abaixo). - Digite
nvidia-smi
e verifique se as informações de saída incluem o número da versão CUDA (similar à imagem abaixo). - Execute
python testcuda.py
. Se exibir uma mensagem de sucesso, a instalação está correta. Caso contrário, revise e reinstale cuidadosamente.
- Pressione
Habilitando a Aceleração CUDA:
Por padrão, a CPU é usada para cálculos. Se você confirmou que está usando uma placa gráfica Nvidia e o ambiente CUDA está configurado corretamente, altere devtype=cpu
para devtype=cuda
no arquivo set.ini
e reinicie o programa para utilizar a aceleração CUDA.
- Modelos e Requisitos: Se você não possui uma placa gráfica Nvidia ou o ambiente CUDA não está configurado corretamente, evite usar os modelos large/large-v3, pois eles podem consumir muita memória e travar o sistema.
- Exibição de Caracteres: Em alguns casos, o texto em chinês pode ser exibido em caracteres tradicionais.
- Erro "cublasxx.dll não existe": Baixe o cuBLAS neste link: cuBLAS Download. Descompacte o arquivo e copie os arquivos DLL para
C:/Windows/System32
. - Mensagem de Aviso no Console: Se o console exibir a mensagem "[W:onnxruntime:Default, onnxruntime_pybind_state.cc:1983 onnxruntime::python::CreateInferencePybindStateModule] Init provider bridge failed.", ignore-a, pois não afeta o uso do programa.
- Falha na Execução com CUDA Habilitado:
- Possível Causa: Se o CUDA estiver habilitado, mas o cudnn não foi instalado e configurado manualmente, pode ocorrer falha na execução.
- Solução: Instale a versão do cudnn que corresponde à sua versão do CUDA. Consulte o guia detalhado para instruções: Guia de Instalação.
- Memória de Vídeo Insuficiente: Se o problema persistir após a instalação do cudnn, a memória de vídeo da GPU pode ser insuficiente. Nesse caso, tente usar o modelo medium e evite o modelo large-v3, especialmente se a memória de vídeo for inferior a 8GB e o vídeo tiver mais de 20MB.
Lembre-se de que este guia fornece informações básicas e você pode precisar consultar recursos adicionais para solucionar problemas específicos.
Este projeto utiliza: