A API de Transcrição de Voz é uma solução avançada e confiável para converter palavras faladas em texto estruturado. Aproveitando a tecnologia de reconhecimento de fala de ponta e inteligência artificial, ela fornece transcrições precisas adaptadas a uma ampla gama de indústrias e aplicações. Seja processando fala em tempo real ou áudio gravado, esta API garante conversão de texto precisa e eficiente com o mínimo de erros Uma de suas características marcantes é o suporte multilíngue, permitindo que os usuários transcrevam áudio em vários idiomas com notável precisão. Isso a torna uma ferramenta essencial para aqueles que precisam de transcrições de alta qualidade em diferentes contextos linguísticos
Para usar este ponto de extremidade, você deve indicar a URL de um áudio no parâmetro
Transcrição - Recursos do endpoint
| Objeto | Descrição |
|---|---|
url |
[Obrigatório] Indicates a URL |
{"success":true,"audio_file":"https://s31.aconvert.com/convert/p3r68-cdx67/s49sb-3bftf.mp3","output":{"text":"Ciao a tutti, come state?","result":{"text":"Ciao a tutti, come state?","word_count":5,"vtt":"WEBVTT\n\n00.000 --> 01.860\nCiao a tutti, come state?","words":[{"word":"Ciao","start":0,"end":0.23999999463558197},{"word":"a","start":0.23999999463558197,"end":0.4000000059604645},{"word":"tutti,","start":0.4000000059604645,"end":1.0800000429153442},{"word":"come","start":1.0800000429153442,"end":1.2799999713897705},{"word":"state?","start":1.2799999713897705,"end":1.8600000143051147}]}}}
curl --location --request GET 'https://zylalabs.com/api/6376/voice+transcription+api/9143/transcription?url=https://imgv3.fotor.com/images/blog-richtext-image/make-a-watermark-for-a-landscape-image.jpg' --header 'Authorization: Bearer YOUR_API_KEY'
| Cabeçalho | Descrição |
|---|---|
Authorization
|
[Obrigatório] Deve ser Bearer access_key. Veja "Sua chave de acesso à API" acima quando você estiver inscrito. |
Sem compromisso de longo prazo. Faça upgrade, downgrade ou cancele a qualquer momento. O teste gratuito inclui até 50 requisições.
A API de Análise de Fala retorna texto transcrito a partir de entrada de áudio O resultado inclui a fala reconhecida em formato de texto que pode ser utilizado para várias aplicações como legendas documentação ou análise
Os campos chave nos dados de resposta geralmente incluem "transcrição" para o texto convertido "idioma" indicando o idioma detectado e "confiança" refletindo a precisão da transcrição
O parâmetro principal para o endpoint POST Obter Texto é o "audio_url", que especifica a URL do arquivo de áudio a ser transcrito. Parâmetros adicionais podem incluir "language" para especificar o idioma desejado para a transcrição
Os dados de resposta estão organizados em um formato JSON, contendo pares de chave-valor. A estrutura principal inclui campos para a transcrição, idioma e pontuação de confiança, permitindo uma fácil análise e integração em aplicações
Os casos de uso típicos incluem gerar legendas para vídeos criar transcrições para reuniões ou entrevistas melhorar a acessibilidade para usuários com deficiência auditiva e analisar conteúdo falado em busca de insights em várias indústrias
A precisão dos dados é mantida por meio de algoritmos avançados de reconhecimento de fala e treinamento contínuo em conjuntos de dados diversos A API também emprega verificações de qualidade para minimizar erros e melhorar a confiabilidade da transcrição
Os usuários podem personalizar seus pedidos especificando o parâmetro "idioma" para direcionar idiomas específicos para a transcrição Isso permite saídas personalizadas com base no contexto linguístico do conteúdo de áudio
Padrões de dados padrão incluem frases coerentes com pontuação e capitalização adequadas Os usuários podem esperar variações na precisão com base na qualidade do áudio nos sotaques dos falantes e nos níveis de ruído de fundo
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
646ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
1.148ms
Nível de serviço:
100%
Tempo de resposta:
84ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
731ms
Nível de serviço:
100%
Tempo de resposta:
13.953ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
254ms
Nível de serviço:
100%
Tempo de resposta:
654ms
Nível de serviço:
100%
Tempo de resposta:
592ms
Nível de serviço:
100%
Tempo de resposta:
301ms
Nível de serviço:
100%
Tempo de resposta:
196ms
Nível de serviço:
100%
Tempo de resposta:
429ms
Nível de serviço:
100%
Tempo de resposta:
844ms
Nível de serviço:
100%
Tempo de resposta:
37ms
Nível de serviço:
100%
Tempo de resposta:
577ms
Nível de serviço:
100%
Tempo de resposta:
1.437ms