API de Extração de Tabelas PDF permite que os desenvolvedores extraíam de maneira confiável dados tabulares estruturados de documentos PDF e os convertem em formatos legíveis por máquinas como JSON, Excel ou CSV.
Esta API se concentra exclusivamente na extração verdadeira de tabelas, não na análise de texto geral de PDF. Detecta automaticamente estruturas tabulares baseadas em grades dentro dos PDFs e ignora o conteúdo não tabular, como títulos, cabeçalhos, rodapés e parágrafos. Isso a torna ideal para automação, pipelines ETL, fluxos de trabalho de ingestão de dados e sistemas backend que exigem saída limpa e previsível.
Detecta e extrai uma ou várias tabelas de um único PDF
Suporta tabelas que abrangem múltiplas páginas
Retorna resultados em JSON, Excel (.xlsx) ou CSV
Múltiplas tabelas são retornadas como:
Um array em JSON
Planilhas separadas em Excel
Arquivos CSV separados empacotados em um arquivo ZIP
Saída determinística: a mesma entrada sempre produz o mesmo resultado
Pontuações de confiança opcionais por tabela
Projetada para automação e casos de uso em backend
Identifica dados tabulares com base no layout e na estrutura
Preserva o alinhamento de linhas e colunas
Lida com tabelas irregulares, células vazias e linhas desiguais
Retorna uma saída estruturada adequada para processamento programático
Não extrai texto livre fora das tabelas
Não realiza OCR em PDFs digitalizados
Não tenta interpretar semanticamente o conteúdo da tabela
Não modifica nem enriquece os valores dos dados
Extrair itens de faturas de documentos PDF
Converter relatórios financeiros em conjuntos de dados estruturados
Ingerir dados tabulares de PDFs enviados pelos clientes
Automatizar pipelines de dados a partir de fontes PDF
Substituir fluxos de trabalho manuais de copiar e colar
JSON
Tabelas retornadas como um array
Cada tabela inclui linhas, intervalo de páginas e pontuação de confiança
Excel (.xlsx)
Um livro de trabalho por solicitação
Cada tabela colocada em uma planilha separada
CSV
Cada tabela exportada como um arquivo CSV separado
Todos os arquivos CSV retornados em um arquivo ZIP
Sem estado e respeitosa com a privacidade
Nenhum dado é armazenado após o processamento
Comunicação segura apenas por HTTPS
Adequada para cargas de trabalho em produção
Aplicam limites de tamanho máximo para PDF
Apenas PDFs baseados em texto (sem suporte para OCR)
As tabelas devem estar estruturadas visualmente (grades ou filas alinhadas)
Esta API é projetada para desenvolvedores que necessitam de uma extração de tabelas confiável, saída previsível e integração limpa em sistemas automatizados — sem a complexidade ou o custo de grandes plataformas de documentos empresariais.
Se você precisa de dados estruturados de tabelas PDF — não blobs de texto, não imagens e não limpeza manual — esta API fornece uma solução rápida, determinística e amigável para os desenvolvedores.
Extrair Dados - Recursos do endpoint
| Objeto | Descrição |
|---|---|
pages |
Opcional Pages to extract. Examples: "all", "1,3-5", or [1,3,4,5] |
fileBase64 |
Opcional Base64-encoded PDF (alternative to multipart upload) |
Corpo da requisição |
[Obrigatório] Arquivo binário |
{"tables":[{"tableIndex":0,"pageRange":[1,1],"rows":[["Lorem ipsum","","","","","","","",""],["condimentum.","Vivamus","dapibus","sodales","ex,","vitae","malesuada","ipsum","cursus"],["convallis. Maecenas sed egestas nulla, ac condimentum orci.","Mauris diam felis,","","","","","","",""],["ac accumsan nunc vehicula vitae.","Nulla eget justo in felis tristique fringilla. Morbi sit amet","","","","","","",""],["","Maecenas non lorem quis tellus placerat varius.","","","","","","",""],["","Aenean congue fringilla justo ut aliquam.","","","","","","",""],["","Mauris id ex erat.","Nunc vulputate neque vitae justo facilisis, non condimentum ante","","","","","",""],["sagittis.","","","","","","","",""],["","Morbi viverra semper lorem nec molestie.","","","","","","",""],["","Maecenas tincidunt est efficitur ligula euismod, sit amet ornare est vulputate.","","","","","","",""],["12","","","","","","","",""],["10","","","","","","","",""],["8","","","","","","","",""],["Column 1","","","","","","","",""],["6","","","","","","","",""],["Column 2","","","","","","","",""],["4 Column 3","","","","","","","",""],["2","","","","","","","",""],["0","","","","","","","",""],["Row 1","Row 2","Row 3","Row 4","","","","",""]],"rowCount":20,"columnCount":9,"strategyUsed":"stream","warnings":[],"confidence":0.85},{"tableIndex":1,"pageRange":[2,2],"rows":[["velit.","Pellentesque","fermentum","nisl","vitae","fringilla","venenatis.","Etiam","id","mauris","vitae","orci"],["a.","","","","","","","","","","",""],["Lorem ipsum","Lorem ipsum","Lorem ipsum","","","","","","","","",""],["1","In eleifend velit vitae libero sollicitudin euismod.","Lorem","","","","","","","","",""],["2","Cras fringilla ipsum magna, in fringilla dui commodo Ipsum","","","","","","","","","",""],["a.","","","","","","","","","","",""],["3","Aliquam erat volutpat.","Lorem","","","","","","","","",""],["4","Fusce vitae vestibulum velit.","Lorem","","","","","","","","",""],["5","Etiam vehicula luctus fermentum.","Ipsum","","","","","","","","",""],["et","pulvinar","nunc.","Pellentesque","fringilla","mollis","efficitur.","Nullam","venenatis","commodo","",""]],"rowCount":10,"columnCount":12,"strategyUsed":"stream","warnings":[],"confidence":0.85},{"tableIndex":2,"pageRange":[3,3],"rows":[["elit.","","","","","","","","","","",""],["dictum tellus.","","","","","","","","","","",""],["Aliquam","erat","volutpat.","Vestibulum","in","egestas","velit.","Pellentesque","fermentum","nisl","vitae",""],["fringilla","venenatis.","Etiam","id","mauris","vitae","orci","maximus","ultricies.","Cras","fringilla","ipsum"],["et","pulvinar","nunc.","Pellentesque","fringilla","mollis","efficitur.","Nullam","venenatis","commodo","",""]],"rowCount":5,"columnCount":12,"strategyUsed":"stream","warnings":[],"confidence":0.85}],"summary":{"tableCount":3,"pageCount":4}}
curl --location 'https://zylalabs.com/api/11754/pdf+table+extraction+api/22299/extract+data' \
--header 'Content-Type: application/json' \
--form 'image=@"FILE_PATH"'
| Cabeçalho | Descrição |
|---|---|
Authorization
|
[Obrigatório] Deve ser Bearer access_key. Veja "Sua chave de acesso à API" acima quando você estiver inscrito. |
Sem compromisso de longo prazo. Faça upgrade, downgrade ou cancele a qualquer momento. O teste gratuito inclui até 50 requisições.
A API retorna dados tabulares estruturados extraídos de documentos PDF Isso inclui várias tabelas cada uma representada como um array em formato JSON com opções para receber os dados em formatos Excel (.xlsx) ou CSV
A resposta inclui campos chave como `tableIndex`, `pageRange`, `rows`, `rowCount`, `columnCount`, `strategyUsed` e `confidence`. Os dados de cada tabela são organizados para facilitar o processamento programático fácil
Os dados da resposta estão organizados em uma seção de resumo que inclui o número total de tabelas e páginas, seguidos por um array de tabelas. Cada tabela contém suas linhas, intervalo de páginas e pontuação de confiança, facilitando a navegação e utilização
O parâmetro principal para o endpoint é o próprio arquivo PDF que pode ser enviado diretamente Parâmetros adicionais podem incluir opções para formato de saída JSON Excel CSV e configurações para pontuação de confiança
A precisão dos dados é mantida por meio de uma saída determinística, significando que a mesma entrada produz consistentemente o mesmo resultado. A API também fornece pontuações de confiança opcionais para cada tabela, indicando a confiabilidade da extração
Casos de uso típicos incluem extrair itens de linha de faturas, converter relatórios financeiros em conjuntos de dados estruturados, automatizar pipelines de dados e ingerir dados tabulares de PDFs enviados pelos clientes, otimizando fluxos de trabalho de processamento de dados
Os usuários podem aproveitar a saída estruturada para integração em pipelines de dados processos ETL ou sistemas de backend O formato organizado permite fácil manipulação e análise das tabelas extraídas em várias aplicações
Os usuários podem esperar padrões de dados que refletem a estrutura original da tabela, incluindo o alinhamento de linhas e colunas. A API lida com tabelas irregulares e células vazias, garantindo que a saída permaneça estruturada e utilizável para processamento adicional
A API pode extrair vários tipos de tabelas estruturadas, incluindo aquelas com layouts irregulares, células vazias e linhas desiguais. Ela detecta automaticamente tabelas únicas ou múltiplas dentro de um PDF, garantindo que apenas estruturas tabulares baseadas em grades sejam processadas
A API suporta tabelas que se estendem por várias páginas, capturando com precisão toda a estrutura da tabela e retornando-a em uma única saída. O intervalo de páginas de cada tabela é incluído na resposta para fácil referência
Sim os usuários podem personalizar suas solicitações de dados especificando o formato de saída desejado JSON Excel (.xlsx) ou CSV Essa flexibilidade permite a integração em várias aplicações e fluxos de trabalho
A API oferece escores de confiança opcionais para cada tabela extraída indicando a confiabilidade da extração Essa funcionalidade ajuda os usuários a avaliar a qualidade dos dados retornados
A API é projetada para ser sem estado e amigável à privacidade garantindo que nenhum dado seja armazenado após o processamento Ela utiliza comunicação segura apenas em HTTPS para proteger os dados do usuário durante a transmissão
Os usuários podem esperar que a API trate células vazias de forma elegante, preservando a estrutura geral da tabela. A saída refletirá o layout original, permitindo uma manipulação de dados simples, apesar de quaisquer valores ausentes
Os scores de confiança variam de 0 a 1 indicando a probabilidade de que a tabela extraída seja precisa Um score mais alto sugere maior confiabilidade ajudando os usuários a determinar quais tabelas confiar para processamento adicional
O campo `strategyUsed` indica o método empregado pela API para extrair os dados da tabela. Essa informação pode ajudar os usuários a entender o processo de extração e avaliar a adequação da saída para suas necessidades específicas
Nível de serviço:
91%
Tempo de resposta:
2.513ms
Nível de serviço:
100%
Tempo de resposta:
1.156ms
Nível de serviço:
100%
Tempo de resposta:
1.716ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
157ms
Nível de serviço:
100%
Tempo de resposta:
1.945ms
Nível de serviço:
100%
Tempo de resposta:
1.812ms
Nível de serviço:
100%
Tempo de resposta:
3.321ms
Nível de serviço:
100%
Tempo de resposta:
1.184ms
Nível de serviço:
100%
Tempo de resposta:
0ms
Nível de serviço:
100%
Tempo de resposta:
60ms
Nível de serviço:
100%
Tempo de resposta:
13ms
Nível de serviço:
100%
Tempo de resposta:
246ms
Nível de serviço:
100%
Tempo de resposta:
13ms
Nível de serviço:
100%
Tempo de resposta:
43ms
Nível de serviço:
100%
Tempo de resposta:
485ms
Nível de serviço:
100%
Tempo de resposta:
134ms
Nível de serviço:
100%
Tempo de resposta:
94ms
Nível de serviço:
100%
Tempo de resposta:
86ms
Nível de serviço:
100%
Tempo de resposta:
226ms