文档转文本 API

通过DocToText API解锁数据的强大功能 - 您无缝文档转换的终极解决方案 从DOC和PDF到图像和电子邮件,轻松将各种格式转换为纯文本和HTML 无论是小任务还是大规模项目,体验顶级的光学字符识别和电子邮件解析能力 简化您的数据提取之旅今天
通过 MCP 从您的 AI 代理使用此 API
支持 OpenClaw、Claude Code/Desktop、Cursor、Windsurf、Cline 以及任何兼容 MCP 的 AI 客户端。
文档和设置
通过封装此 MCP 创建技能: https://mcp.zylalabs.com/mcp?apikey=YOUR_ZYLA_API_KEY

关于API:  

 

通过DocToText API赋能您的数据之旅

DocToText API是高效数据提取的基石,适用于小任务和大规模项目。这款多功能工具可以将包括DOC、XLS、PPT、PDF、各种电子邮件格式和图像在内的广泛格式无缝转换为纯文本和HTML。

先进的数据提取能力:

DocToText API的核心是其尖端的OCR技术。无论是处理扫描文档、图像,还是复杂的PDF,其高品质、可编写和可训练的OCR确保准确可靠的文本提取。这一切都得益于强大的电子邮件解析功能,允许无缝处理EML、PST、OST以及其他电子邮件格式。

全面的格式支持:

DocToText API支持令人印象深刻的各种格式,从常见的办公文件如DOCX和XLSX到专业格式如iWork(PAGES、NUMBERS、KEYNOTE)和Outlook(PST、OST)。其灵活性还扩展到JPG、PNG和TIFF等图像格式,使得可以从多种来源提取内容。

每个项目的无缝集成:

无论您是在管理一个数据密集型的企业应用程序、进行研究,还是自动化日常办公任务,DocToText API都能无缝集成到您的工作流程中。其适应性允许轻松融入多种平台,确保数据处理的流畅性而不会干扰您现有的系统。

可定制和可扩展:

DocToText API的可编写和可训练的OCR能力使其可以针对特定项目需求进行定制。它能够无缝扩展,适应小规模任务和大容量的数据提取项目。其稳健性确保在严苛的环境中依然准确和一致。

可靠且面向未来:

DocToText API不仅满足您当前的需求,还能面向未来,适应新兴格式和技术。持续的更新和增强确保您始终拥有最新的高效数据提取工具,使其成为企业和开发者不可或缺的资产。使用DocToText API简化您的数据提取挑战,这是您获取准确、可靠和可扩展文本提取解决方案的关键。

 

此API接收什么以及您的API提供什么(输入/输出)?

传递您选择的任何文档并接收识别的文本。 

格式: DOC、XLS、XLSB、PPT、RTF、ODF(ODT、ODS、ODP)、OOXML(DOCX、XLSX、PPTX)、iWork(PAGES、NUMBERS、KEYNOTE)、ODFXML(FODP、FODS、FODT)、PDF、EML、HTML、Outlook(PST、OST)、图像(JPG、JPEG、JFIF、BMP、PNM、PNG、TIFF、WEBP)

 

此API最常见的用例是什么?

  1. 数字归档和文档管理:企业和组织可以使用DocToText API将大量文档(包括扫描图像和PDF)转换为可搜索和可编辑的文本。这促进了高效的数字归档和文档管理,使信息的检索和编辑变得更加容易。图书馆、历史学会和政府组织可以数字化历史文档以便保存和研究。

  2. 商业智能和数据分析:企业可以使用DocToText API从各种报告、发票和财务文档中提取文本数据。通过将这些数据转换为结构化格式,如CSV或JSON,企业可以进行深入的数据分析。这一用例对金融机构、市场研究公司和电子商务平台尤为重要,帮助他们从文本数据中获得有价值的见解。

  3. 内容聚合和分析:媒体监测公司、新闻机构和内容聚合器可以利用DocToText API从文章、博客和社交媒体帖子中提取文本。通过将这些非结构化数据转换为可读文本,这些组织可以自动化内容聚合的过程。然后,可以应用自然语言处理(NLP)算法进行情感分析、主题建模和其他形式的内容分析。

  4. 自动化客户支持和服务:与客户互动量大的公司(例如电子邮件和支持票据)可以受益于DocToText API。通过将客户查询和反馈转换为纯文本,企业可以利用聊天机器人和自动系统提供快速和准确的回应。这样不仅提高了客户满意度,提供及时支持,还减少了人工客户支持代理的工作负担。

  5. 机器学习模型的数据增强:机器学习开发者和数据科学家可以使用DocToText API处理文本数据,以便训练机器学习模型。通过将文档转换为纯文本,该API确保数据处于一致的格式,准备进行特征提取和模型训练。这一用例在各种应用中至关重要,包括情感分析、语言翻译和文本摘要。

 

您的计划是否有任何限制?

除了计划中可用的API调用次数外,没有其他限制。

API 文档

端点


发送文件以提取

格式包括:

DOC XLS XLSB PPT RTF ODF ODT ODS ODP
OOXML DOCX XLSX PPTX iWork PAGES NUMBERS KEYNOTE
ODFXML FODP FODS FODT PDF EML HTML Outlook PST OST
图像 JPG JPEG JFIF BMP PNM PNG TIFF WEBP



                                                                            
POST https://zylalabs.com/api/2677/%e6%96%87%e6%a1%a3%e8%bd%ac%e6%96%87%e6%9c%ac+api/2781/%e6%8f%90%e5%8f%96%e6%96%87%e6%9c%ac
                                                                            
                                                                        

提取文本 - 端点功能

对象 描述
请求体 [必需] 文件二进制
测试端点

API 示例响应

       
                                                                                                        
                                                                                                                                                                                                                                                                                                                                        

IP Address Classes Range:

Class                           IP Address Range (Theoretical)  Application / Used for        
A                               0.0.0.0 to 127.255.255.255      Very large networks           
B                               128.0.0.0 to 191.255.255.255    Medium networks               
C                               192.0.0.0 to 223.255.255.255    Small networks                
D                               224.0.0.0 to 239.255.255.255    Multicast                     



                                                                                                                                                                                                                    
                                                                                                    

提取文本 - 代码片段


    curl --location 'https://zylalabs.com/api/2677/%e6%96%87%e6%a1%a3%e8%bd%ac%e6%96%87%e6%9c%ac+api/2781/%e6%8f%90%e5%8f%96%e6%96%87%e6%9c%ac' \
    --header 'Content-Type: application/json' \ 
    --form 'image=@"FILE_PATH"'


API 访问密钥和身份验证

注册后,每个开发者都会被分配一个个人 API 访问密钥,这是一个唯一的字母和数字组合,用于访问我们的 API 端点。要使用 文档转文本 API 进行身份验证,只需在 Authorization 标头中包含您的 bearer token。
标头
标头 描述
授权 [必需] 应为 Bearer access_key. 订阅后,请查看上方的"您的 API 访问密钥"。

简单透明的定价

无长期承诺。随时升级、降级或取消。 免费试用包括最多 50 个请求。

🚀 企业版

起价
$ 10,000/年


  • 自定义数量
  • 自定义速率限制
  • 专业客户支持
  • 实时 API 监控

客户喜爱的功能

  • ✔︎ 仅支付成功请求
  • ✔︎ 7 天免费试用
  • ✔︎ 多语言支持
  • ✔︎ 一个 API 密钥,所有 API。
  • ✔︎ 直观的仪表板
  • ✔︎ 全面的错误处理
  • ✔︎ 开发者友好的文档
  • ✔︎ Postman 集成
  • ✔︎ 安全的 HTTPS 连接
  • ✔︎ 可靠的正常运行时间

文档转文本 API FAQs

DocToText API 是一个数据提取工具,可将多种文档格式转换为纯文本和 HTML,包括 DOC PDF 图像和电子邮件它利用先进的 OCR 和电子邮件解析功能从扫描的文档和电子邮件中提取文本,使内容易于进一步处理

DocToText API支持多种格式,包括DOC XLS PPT PDF 各种电子邮件格式(EML PST OST)以及图像格式(JPG PNG TIFF)它还处理专业格式如iWork(PAGES NUMBERS KEYNOTE)和Outlook(PST OST),确保与各种数据源的兼容性

DocToText API集成的OCR技术质量高端 旨在准确识别扫描文档 图像和PDF中的文本 确保即使从复杂或低质量的输入源中也能可靠提取

是的,DocToText API 非常适合小任务和大规模数据提取项目。它的可扩展性使其能够高效处理大量文档,非常适合需要广泛数据提取的应用

DocToText API的主要功能是从文档中提取纯文本和HTML。虽然它专注于文本内容,但在转换过程中可能无法保留复杂的格式或图像

DocToText API以纯文本和HTML格式返回提取的文本。这包括来自各种文档类型的识别文本,例如DOC、PDF和图像,使用户能够轻松访问和处理内容

响应数据主要包括提取的文本内容 根据文档类型 也可能包含元数据 如原始文件名 格式以及任何相关的处理信息

响应数据以JSON格式组织,通常包含提取文本的字段、文件元数据以及任何适用的错误消息。这种结构使得解析和集成到应用程序中变得简单

该端点接受参数,例如文档文件(支持的格式),以及用于OCR自定义的可选设置,例如语言选择或特定提取选项以提高准确性

用户可以通过指定参数来自定义请求,例如所需的输出格式(纯文本或HTML)以及选择OCR设置,如语言或提取偏好,以根据其需求定制结果

该API提供对从文档中提取的文本数据的访问,包括扫描图像、电子邮件和各种文件格式。这使用户能够获取信息用于数字归档、数据分析和内容聚合

数据准确性通过先进的OCR技术得到维护,该技术可以编写脚本并进行训练。持续的更新和增强确保API能够适应新格式,并随着时间的推移提高提取的可靠性

典型的用例包括文档的数字归档 商业智能的数据分析 媒体监测的内容聚合以及机器学习应用的文本预处理 提升数据的可访问性和可用性

一般常见问题

Zyla API Hub 就像一个大型 API 商店,您可以在一个地方找到数千个 API。我们还为所有 API 提供专门支持和实时监控。注册后,您可以选择要使用的 API。请记住,每个 API 都需要自己的订阅。但如果您订阅多个 API,您将为所有这些 API 使用相同的密钥,使事情变得更简单。

价格以 USD(美元)、EUR(欧元)、CAD(加元)、AUD(澳元)和 GBP(英镑)列出。我们接受所有主要的借记卡和信用卡。我们的支付系统使用最新的安全技术,由 Stripe 提供支持,Stripe 是世界上最可靠的支付公司之一。如果您在使用卡片付款时遇到任何问题,请通过 [email protected]


此外,如果您已经以这些货币中的任何一种(USD、EUR、CAD、AUD、GBP)拥有有效订阅,该货币将保留用于后续订阅。只要您没有任何有效订阅,您可以随时更改货币。

定价页面上显示的本地货币基于您 IP 地址的国家/地区,仅供参考。实际价格以 USD(美元)为单位。当您付款时,即使您在我们的网站上看到以本地货币显示的等值金额,您的卡片对账单上也会以美元显示费用。这意味着您不能直接使用本地货币付款。

有时,银行可能会因其欺诈保护设置而拒绝收费。我们建议您首先联系您的银行,检查他们是否阻止了我们的收费。此外,您可以访问账单门户并更改关联的卡片以进行付款。如果这些方法不起作用并且您需要进一步帮助,请通过 [email protected]

价格由月度或年度订阅决定,具体取决于所选计划。

API 调用根据成功请求从您的计划中扣除。每个计划都包含您每月可以进行的特定数量的调用。只有成功的调用(由状态 200 响应指示)才会计入您的总数。这确保失败或不完整的请求不会影响您的月度配额。

Zyla API Hub 采用月度订阅系统。您的计费周期将从您购买付费计划的那一天开始,并在下个月的同一日期续订。因此,如果您想避免未来的费用,请提前取消订阅。

要升级您当前的订阅计划,只需转到 API 的定价页面并选择您要升级到的计划。升级将立即生效,让您立即享受新计划的功能。请注意,您之前计划中的任何剩余调用都不会转移到新计划,因此在升级时请注意这一点。您将被收取新计划的全部金额。

要检查您本月剩余多少 API 调用,请参考响应标头中的 "X-Zyla-API-Calls-Monthly-Remaining" 字段。例如,如果您的计划允许每月 1,000 个请求,而您已使用 100 个,则响应标头中的此字段将显示 900 个剩余调用。

要查看您的计划允许的最大 API 请求数,请检查 "X-Zyla-RateLimit-Limit" 响应标头。例如,如果您的计划包括每月 1,000 个请求,此标头将显示 1,000。

"X-Zyla-RateLimit-Reset" 标头显示您的速率限制重置之前的秒数。这告诉您何时您的请求计数将重新开始。例如,如果它显示 3,600,则意味着还有 3,600 秒直到限制重置。

是的,您可以随时通过访问您的账户并在账单页面上选择取消选项来取消您的计划。请注意,升级、降级和取消会立即生效。此外,取消后,您将不再有权访问该服务,即使您的配额中还有剩余调用。

您可以通过我们的聊天渠道联系我们以获得即时帮助。我们始终在线,时间为上午 8 点至下午 5 点(EST)。如果您在该时间之后联系我们,我们将尽快回复您。此外,您可以通过 [email protected]

为了让您有机会在没有任何承诺的情况下体验我们的 API,我们提供 7 天免费试用,允许您免费进行最多 50 次 API 调用。此试用只能使用一次,因此我们建议将其应用于您最感兴趣的 API。虽然我们的大多数 API 都提供免费试用,但有些可能不提供。试用在 7 天后或您进行了 50 次请求后结束,以先发生者为准。如果您在试用期间达到 50 次请求限制,您需要"开始您的付费计划"以继续发出请求。您可以在个人资料中的订阅 -> 选择您订阅的 API -> 定价标签下找到"开始您的付费计划"按钮。或者,如果您在第 7 天之前不取消订阅,您的免费试用将结束,您的计划将自动计费,授予您访问计划中指定的所有 API 调用的权限。请记住这一点以避免不必要的费用。

7 天后,您将被收取试用期间订阅的计划的全额费用。因此,在试用期结束前取消很重要。因忘记及时取消而提出的退款请求不被接受。

当您订阅 API 免费试用时,您可以进行最多 50 次 API 调用。如果您希望超出此限制进行额外的 API 调用,API 将提示您执行"开始您的付费计划"。您可以在个人资料中的订阅 -> 选择您订阅的 API -> 定价标签下找到"开始您的付费计划"按钮。

付款订单在每月 20 日至 30 日之间处理。如果您在 20 日之前提交请求,您的付款将在此时间范围内处理。

 服务级别
100%
 响应时间
0ms

类别:


相关 API


您可能还喜欢