HTML代码提取API为开发者提供了一种简单而强大的方式来检索和处理任何网页的原始HTML。无需手动设置抓取器、处理用户代理或担心被封锁,该API提供了干净且一致的HTML数据,可以直接集成到您的应用中。
使用此API,您可以:
从任何公开可访问的URL获取完整的HTML源代码。
为数据管道、爬虫和内容分析工具提供支持,无需额外设置。
使用提取的HTML作为构建网络抓取器、搜索引擎、SEO工具或AI驱动分析的基础。
自动化工作流程,如元数据提取、DOM解析和结构化内容生成。
无论您是在进行数据挖掘、监控网站,还是增强SEO工具,HTML提取API通过处理所有HTTP请求、头部和网站获取,节省了时间。它快速、可靠,并且设计为与您的需求扩展。
允许用户输入URL并提取格式化的HTML代码和额外的元数据
提取HTML - 端点功能
| 对象 | 描述 |
|---|---|
url |
[必需] The URL of the page you want to extract the HTML code from. |
{"link_count":1,"image_count":0,"heading_tag_count":{"h1":1,"h2":0,"h3":0,"h4":0,"h5":0,"h6":0},"p_count":2,"character_encoding":"utf-8","page_language":null,"total_size_kb":1.25,"character_count":1283,"word_count":127,"line_count":54,"title":"Example Domain","description":null,"keywords":null,"final_url":"https://www.example.com/","status_code":200,"headers":{"headers":{"date":"Fri, 05 Sep 2025 14:58:16 GMT","content-length":"648","vary":"Accept-Encoding","content-encoding":"gzip","last-modified":"Mon, 13 Jan 2025 20:11:20 GMT","content-range":"bytes 0-647/648","content-type":"text/html","etag":"\"84238dfc8092e5d9c0dac8ef93371a07:1736799080.121134\"","connection":"keep-alive","accept-ranges":"bytes","cache-control":"max-age=86000","alt-svc":"h3=\":443\"; ma=93600,h3-29=\":443\"; ma=93600","x-status-normalized":"206->200"}},"html_code":"<html>"}
curl --location --request GET 'https://zylalabs.com/api/10189/html+code+extractor+api/19560/extract+html?url=https://forkthis.io/' --header 'Authorization: Bearer YOUR_API_KEY'
| 标头 | 描述 |
|---|---|
授权
|
[必需] 应为 Bearer access_key. 订阅后,请查看上方的"您的 API 访问密钥"。 |
无长期承诺。随时升级、降级或取消。 免费试用包括最多 50 个请求。
HTML提取API通过一次API调用检索任何公开可访问网页的原始HTML源代码
您只需提供一个有效的URL API将获取并返回页面的HTML
API返回一个包含完整HTML内容作为字符串的JSON响应。此外还包括其他数据,例如link_count、image_count、heading_tag_count、p_count、character_encoding、page_language、total_size_kb、character_count、word_count、line_count、title、description、keywords、final_url、status_code和headers
API返回结构化的HTML,通过BeautifulSoup库进行解析
绝对可以 它可以直接从HTML中分析元数据 标题 标签和页面SEO元素
当前版本每次请求提取一页,但您可以在应用程序中批量请求以处理多个 URL
该API经过优化以提高速度,通常在几毫秒内响应,具体取决于网站的复杂性和加载时间
网络爬虫和数据收集 SEO审计和元数据分析 内容监测和归档 研究和机器学习数据集 构建搜索或爬虫工具
是的 API 遵循重定向(301/302)并返回最终目标页面的 HTML
该API仅获取公开可用的数据 用户有责任遵守目标网站的服务条款和robots.txt
提取HTML端点返回一个JSON对象,其中包含请求网页的完整HTML代码,以及链接数量、图像数量、标题标签、字符编码等元数据
关键字段包括 `link_count`、`image_count`、`heading_tag_count`、`title`、`description`、`final_url`、`status_code` 和 `html_code` 这些提供了页面结构和内容的洞察
响应被结构化为一个具有嵌套字段的JSON对象 主要属性包括HTML内容和元数据 允许轻松访问特定数据点如标题和链接计数
该端点提供有关网页结构的信息,包括链接、图像、标题和段落的计数,以及HTML内容本身和HTTP响应详细信息
用户可以通过指定不同的URL来自定义请求,从多个页面提取HTML API自动处理提供的URL的获取和解析
例如 `link_count` 表示页面上的超链接数量 而 `heading_tag_count` 提供不同标题级别的细分(h1 h2 等)帮助用户理解页面的内容层次
该API直接从指定的URL获取实时数据,确保HTML和元数据反映网页的当前状态,但需受网站可用性的限制
典型的用例包括数据分析的网络抓取 SEO审计以评估页面元素 内容监控以检测变化 以及为搜索引擎或爬虫构建工具
典型的用例包括用于数据分析的网络爬虫 优化内容的SEO审计 以及需要结构化HTML数据进行处理的爬虫或搜索引擎
服务级别:
100%
响应时间:
7,660ms
服务级别:
100%
响应时间:
68ms
服务级别:
100%
响应时间:
8,219ms
服务级别:
100%
响应时间:
3,107ms
服务级别:
100%
响应时间:
2,507ms
服务级别:
100%
响应时间:
2,697ms
服务级别:
100%
响应时间:
1,332ms
服务级别:
100%
响应时间:
4,048ms
服务级别:
100%
响应时间:
2,680ms
服务级别:
100%
响应时间:
10,154ms
服务级别:
100%
响应时间:
1,926ms
服务级别:
100%
响应时间:
4,048ms
服务级别:
100%
响应时间:
263ms
服务级别:
100%
响应时间:
3,408ms
服务级别:
100%
响应时间:
129ms
服务级别:
100%
响应时间:
3,107ms
服务级别:
100%
响应时间:
127ms
服务级别:
100%
响应时间:
1,341ms
服务级别:
100%
响应时间:
2,466ms
服务级别:
100%
响应时间:
1,711ms