A API Voice Transcribe é uma tecnologia sofisticada que converte a linguagem falada em texto escrito com alta precisão. Usando redes neurais e grandes conjuntos de dados, ela pode interpretar e transcrever uma ampla variedade de idiomas, sotaques e dialetos.
Projetada para ser escalável, esta API lida eficientemente com tudo, desde comandos de voz curtos até longas passagens faladas. Sua versatilidade apoia tanto necessidades individuais como aplicações em grande escala, tornando-a ideal para uma variedade de casos de uso.
Em essência, a API Voice Transcribe representa um avanço significativo em processamento de linguagem natural e reconhecimento de fala. Sua tecnologia de ponta e design centrado no usuário fazem dela uma poderosa ferramenta de conversão de fala para texto, oferecendo precisão, adaptabilidade e aplicabilidade excepcionais para comunicação cotidiana e necessidades especializadas da indústria.
A API recebe um arquivo de áudio e retorna um texto.
Assistentes de Voz: Aumentando a funcionalidade de assistentes virtuais como Siri, Alexa e Google Assistant, permitindo que entendam e processem comandos e consultas dos usuários em linguagem natural.
Serviços de Transcrição: Convertendo automaticamente áudios de reuniões, entrevistas e palestras em texto para fins de documentação e registro.
Atendimento ao Cliente: Melhorando o suporte ao cliente ao transcrever interações de voz entre clientes e agentes de serviço, permitindo melhor análise e acompanhamento.
Analytics de Fala: Analisando interações faladas para insights sobre o sentimento do cliente, padrões comportamentais e níveis de engajamento em call centers ou durante campanhas de marketing.
Aprendizado de Idiomas: Apoio a aprendizes de idiomas ao transcrever sessões de prática falada e fornecer feedback sobre pronúncia e fluência.
Criação de Conteúdo: Auxiliando criadores de conteúdo e jornalistas na transcrição de entrevistas, podcasts ou discursos, que podem ser usados para artigos, blogs ou outros conteúdos escritos.
Além do número de chamadas à API, não há outra limitação.
Para usar este endpoint você deve especificar um arquivo mp3 para receber o texto de áudio
Obter Texto - Recursos do endpoint
| Objeto | Descrição |
|---|---|
Corpo da requisição |
[Obrigatório] Arquivo binário |
{
"text": "Have a great day!"
}
curl --location 'https://zylalabs.com/api/4916/voice+transcribe+api/6188/get+text' \
--header 'Content-Type: multipart/form-data' \
--form 'image=@"FILE_PATH"'
| Cabeçalho | Descrição |
|---|---|
Authorization
|
[Obrigatório] Deve ser Bearer access_key. Veja "Sua chave de acesso à API" acima quando você estiver inscrito. |
Sem compromisso de longo prazo. Faça upgrade, downgrade ou cancele a qualquer momento. O teste gratuito inclui até 50 requisições.
Para usar esta API os usuários devem especificar um arquivo de áudio
A API de Transcrição de Voz converte a linguagem falada em texto escrito usando algoritmos avançados permitindo a transcrição precisa e a compreensão de entradas de áudio
Zyla oferece uma ampla gama de métodos de integração para quase todas as linguagens de programação Você pode usar esses códigos para integrar ao seu projeto conforme necessário
Existem diferentes planos que atendem a todos, incluindo um plano gratuito para uma pequena quantidade de solicitações por dia, mas sua taxa é limitada para evitar o abuso do serviço
Recebe o texto de um arquivo de áudio em formato JSON
A API Voice Transcribe retorna o texto transcrito do arquivo de áudio fornecido em formato JSON. A saída principal é um único par chave-valor onde a chave é "text" e o valor é o conteúdo transcrito
Os dados de resposta contêm uma chave chamada "text" que armazena o texto transcrito da entrada de áudio. Este campo fornece a transcrição completa do conteúdo falado
Os dados da resposta estão estruturados no formato JSON, com um par de chave-valor simples. Por exemplo, uma resposta típica se parece com: `{"text": "Tenha um ótimo dia!"}` que indica claramente a saída transcrita
O parâmetro principal para a API Voice Transcribe é o arquivo de áudio que deve estar no formato mp3 Os usuários devem garantir que o arquivo de áudio esteja devidamente codificado para uma transcrição precisa
Os usuários podem personalizar suas solicitações fornecendo diferentes arquivos de áudio para transcrição No entanto a API não suporta atualmente parâmetros adicionais para seleção de idioma ou estilo de transcrição
Casos de uso típicos incluem transcrever reuniões, entrevistas e palestras, aprimorar assistentes de voz e apoiar o aprendizado de línguas ao fornecer feedback escrito sobre a prática falada
A precisão dos dados é mantida por meio de algoritmos avançados e redes neurais que foram treinados em conjuntos de dados diversificados permitindo que a API lide efetivamente com vários idiomas sotaques e dialetos
Se a API retornar resultados parciais ou vazios os usuários devem verificar a qualidade do áudio e a clareza Garantir uma fala clara e um ruído de fundo mínimo pode melhorar a precisão da transcrição
Nível de serviço:
100%
Tempo de resposta:
59ms
Nível de serviço:
100%
Tempo de resposta:
646ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
888ms
Nível de serviço:
100%
Tempo de resposta:
1.148ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
731ms
Nível de serviço:
100%
Tempo de resposta:
13.953ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
3.177ms
Nível de serviço:
100%
Tempo de resposta:
3.454ms
Nível de serviço:
100%
Tempo de resposta:
5.413ms
Nível de serviço:
100%
Tempo de resposta:
2.151ms
Nível de serviço:
100%
Tempo de resposta:
2.946ms
Nível de serviço:
100%
Tempo de resposta:
3.050ms
Nível de serviço:
100%
Tempo de resposta:
16ms
Nível de serviço:
100%
Tempo de resposta:
17.563ms
Nível de serviço:
100%
Tempo de resposta:
19ms
Nível de serviço:
100%
Tempo de resposta:
15ms