A API de Conversão de Áudio para Texto é uma ferramenta poderosa e precisa, projetada para transformar a linguagem falada em texto estruturado. Utilizando reconhecimento de fala de ponta e inteligência artificial, ela oferece transcrições de alta qualidade adequadas para várias indústrias e aplicações. Seja lidando com áudio ao vivo ou arquivos pré-gravados, esta API garante conversão de texto precisa e confiável com erros mínimos Uma vantagem chave dessa API é sua capacidade multilíngue, permitindo que os usuários transcrevam áudio em vários idiomas com precisão excepcional. Isso a torna um recurso inestimável para aqueles que necessitam de transcrições em diferentes idiomas
Para usar este ponto de extremidade você deve indicar a URL de um áudio no parâmetro
Conversão - Recursos do endpoint
| Objeto | Descrição |
|---|---|
url |
[Obrigatório] Indicates a URL |
{"success":true,"audio_file":"https://s21.aconvert.com/convert/p3r68-cdx67/wma8s-k9scl.mp3","output":{"text":"Oggi che il sole.","result":{"text":"Oggi che il sole.","word_count":4,"vtt":"WEBVTT\n\n00.000 --> 01.120\nOggi che il sole.","words":[{"word":"Oggi","start":0,"end":0.3400000035762787},{"word":"che","start":0.3400000035762787,"end":0.5400000214576721},{"word":"il","start":0.5400000214576721,"end":0.7200000286102295},{"word":"sole.","start":0.7200000286102295,"end":1.1200000047683716}]}}}
curl --location --request POST 'https://zylalabs.com/api/6372/audio+to+text+converter+api/9137/conversion?url=https://s21.aconvert.com/convert/p3r68-cdx67/wma8s-k9scl.mp3' --header 'Authorization: Bearer YOUR_API_KEY'
| Cabeçalho | Descrição |
|---|---|
Authorization
|
[Obrigatório] Deve ser Bearer access_key. Veja "Sua chave de acesso à API" acima quando você estiver inscrito. |
Sem compromisso de longo prazo. Faça upgrade, downgrade ou cancele a qualquer momento. O teste gratuito inclui até 50 requisições.
O endpoint de Conversão retorna uma saída de texto estruturada derivada da entrada de áudio Isso inclui o texto transcrito juntamente com metadados como idioma detectado, pontuação de confiança e quaisquer timestamps, se aplicável
Os campos principais nos dados de resposta normalmente incluem "transcrição" (o texto convertido) "idioma" (idioma detectado do áudio) "confiança" (pontuação de precisão) e "carimbos de data/hora" (se ativado indicando quando as palavras foram faladas)
O endpoint de Conversão requer principalmente o parâmetro "audio_url" que especifica a URL do arquivo de áudio a ser transcrito Parâmetros opcionais adicionais podem incluir "language" para especificar o idioma desejado para a transcrição
Os dados da resposta estão organizados em um formato JSON, com pares de chave-valor representando a transcrição e os metadados associados. Essa estrutura permite uma fácil análise e integração em aplicativos
Os casos de uso típicos incluem transcrever reuniões gerar legendas para vídeos criar registros escritos de entrevistas e converter podcasts em texto para acessibilidade e SEO
A precisão dos dados é mantida através de algoritmos avançados de reconhecimento de fala e treinamento contínuo em conjuntos de dados de áudio diversos Atualizações regulares e verificações de qualidade garantem alta confiabilidade na transcrição em várias línguas e sotaques
Os usuários podem personalizar suas solicitações especificando parâmetros opcionais como "idioma" para direcionar idiomas específicos para transcrição melhorando a precisão para conteúdo de áudio multilíngue
Padrões de dados padrão incluem uma transcrição clara do conteúdo falado com potenciais variações em comprimento e estrutura com base na qualidade e complexidade do áudio Os usuários devem esperar um texto coerente que corresponda de perto às palavras faladas
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
13.953ms
Nível de serviço:
100%
Tempo de resposta:
4.790ms
Nível de serviço:
100%
Tempo de resposta:
1.277ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
96%
Tempo de resposta:
735ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
888ms