एचटीएमएल एक्सट्रैक्टर एपीआई एक उन्नत उपकरण है जिसे वेब पृष्ठों से डेटा की निकासी और विश्लेषण को सुविधाजनक बनाने के लिए डिज़ाइन किया गया है, जो उन पृष्ठों की पूरी एचटीएमएल सामग्री को पुनः प्राप्त करता है। यह एपीआई उन उपयोगकर्ताओं के लिए उपयोगी है, जिन्हें विभिन्न उद्देश्यों के लिए वेब साइटों में निहित जानकारी तक पहुँचने की आवश्यकता होती है, जैसे कि बाजार अनुसंधान, प्रतियोगिता निगरानी, या वेब एप्लिकेशन विकास।
मुख्य विशेषताएँ:
पूर्ण एचटीएमएल कोड पुनः प्राप्त करना: एचटीएमएल एक्सट्रैक्टर एपीआई का मुख्य कार्य एक विशिष्ट वेब पृष्ठ का संपूर्ण एचटीएमएल कोड पकड़ना है। इसमें पृष्ठ की पूरी संरचनात्मक सामग्री शामिल होती है, जैसे कि टैग, विशेषताएँ और अंतर्निहित तत्व। पूर्ण एचटीएमएल प्राप्त करके, उपयोगकर्ता पृष्ठ पर सभी दृश्य और छिपी हुई जानकारी तक पहुँच सकते हैं, जो सामग्री का व्यापक विश्लेषण करने की अनुमति देती है।
विभिन्न प्रकार के वेब पृष्ठों के लिए समर्थन: यह एपीआई बहुपरकारी है और स्थिर पृष्ठों से लेकर उन गतिशील साइटों तक व्यापक वेब साइटों की एक श्रृंखला का समर्थन करता है जो जावास्क्रिप्ट का उपयोग करके सामग्री उत्पन्न करते हैं। विभिन्न प्रकार की सामग्री को संभालने की क्षमता एपीआई को विभिन्न अनुप्रयोगों के लिए उपयुक्त बनाती है, जैसे कि समाचार डेटा संग्रह, सोशल नेटवर्क निगरानी, और जटिल वेब पृष्ठ संरचना विश्लेषण।
विशिष्ट डेटा निकासी: हालांकि एपीआई पूर्ण एचटीएमएल प्रदान करता है, इसे विशिष्ट पृष्ठ डेटा निकालने के लिए भी उपयोग किया जा सकता है। उपयोगकर्ता एचटीएमएल पार्सिंग तकनीकों के साथ एपीआई को संयोजित कर सकते हैं, जैसे नियमित अभिव्यक्तियों या एचटीएमएल प्रोसेसिंग लाइब्रेरी का उपयोग, विशेष जानकारी जैसे उत्पाद की कीमतें, संपर्क विवरण या अन्य प्रासंगिक डेटा निकालने के लिए।
संक्षेप में, एचटीएमएल एक्सट्रैक्टर एपीआई वेब पृष्ठों से एचटीएमएल सामग्री निकालने के लिए एक शक्तिशाली और लचीला उपकरण है। यह विश्लेषण, अनुसंधान या विकास के लिए वेब पृष्ठ सामग्री तक पूर्ण पहुंच की आवश्यकता वाले लोगों के लिए एक प्रभावी समाधान प्रदान करता है। इसका विभिन्न प्रकार के पृष्ठों को संभालने की क्षमता और आसान एकीकरण इसे वेब डेटा प्रबंधन और विश्लेषण में अनेक उपयोग मामलों के लिए एक मूल्यवान विकल्प बनाती है।
एपीआई एक वेब पृष्ठ का यूआरएल प्राप्त करता है और उस पृष्ठ की पूरी एचटीएमएल सामग्री को विश्लेषण और डेटा निकासी के लिए प्रदान करता है।
प्रतिस्पर्धी अनुसंधान: प्रतिस्पर्धियों की वेबसाइटों से सामग्री एकत्र करें ताकि कीमतों, उत्पादों, प्रचार और विपणन रणनीतियों का विश्लेषण किया जा सके।
समाचार निगरानी: समाचार साइटों से सामग्री निकालें ताकि वास्तविक समय में नवीनतम घटनाओं और अपडेट के साथ बने रहें।
शैक्षिक अनुसंधान के लिए डेटा संग्रह: शैक्षिक अनुसंधान या केस स्टडीज के लिए कई वेबसाइटों से सामग्री प्राप्त करें और उसका विश्लेषण करें।
वेब एप्लिकेशन विकास: विकास और परीक्षण के दौरान स्वयं वेब एप्लिकेशनों से एचटीएमएल निकालने और पार्स करने के लिए एपीआई का उपयोग करें।
एसईओ विश्लेषण: महत्वपूर्ण एसईओ तत्वों जैसे मेटा टैग, शीर्षक, और लिंक संरचना का विश्लेषण करने के लिए वेब पृष्ठों से एचटीएमएल निकालें।
प्रति माह अनुमत एपीआई कॉल की संख्या के अलावा, कोई अन्य सीमाएँ नहीं हैं।
स्रोत यूआरएल - एंडपॉइंट फीचर्स
| ऑब्जेक्ट | विवरण |
|---|---|
urlSupplier |
[आवश्यक] String |
forceCache |
[आवश्यक] boolean |
{"method":"GET","urlSupplier":"https:\/\/www.reuters.com\/article\/us-usa-economy-idUSKBN2A40BO","redirectedUrlSupplier":"https:\/\/www.reuters.com\/article\/us-usa-economy-idUSKBN2A40BO\/","_note":"Response truncated for documentation purposes"}
curl --location --request GET 'https://zylalabs.com/api/5079/html+extractor+api/6470/source+url?urlSupplier=https://www.reuters.com/article/us-usa-economy-idUSKBN2A40BO&forceCache=True' --header 'Authorization: Bearer YOUR_API_KEY'
| हेडर | विवरण |
|---|---|
Authorization
|
[आवश्यक] होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें। |
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें। फ्री ट्रायल में 50 रिक्वेस्ट तक शामिल हैं।
इस एपीआई का प्रयोग करने के लिए, आप एक अनुरोध भेजते हैं जिसमें वेब पृष्ठ का यूआरएल होता है और पूर्ण HTML सामग्री प्राप्त करते हैं जिसे पार्स और निकालने के लिए प्रयोग किया जाता है
HTML एक्सट्रैक्टर एपीआई एक वेब पृष्ठ से पूरा HTML कोड लाता है जिससे सामग्री से डेटा पार्स और निकालना आसान हो जाता है
विभिन्न योजनाएँ हैं जो प्रत्येक के लिए उपयुक्त हैं जिसमें छोटे अनुरोधों के लिए एक मुफ़्त परीक्षण शामिल है लेकिन इसकी दर का सीमित करना सेवा के दुरुपयोग को रोकने के लिए है
Zyla लगभग सभी प्रोग्रामिंग भाषाओं के लिए एक विस्तृत रेंज के एकीकरण विधियों की पेशकश करता है आप अपनी आवश्यकता के अनुसार इन कोड का उपयोग करके अपने प्रोजेक्ट के साथ एकीकृत कर सकते हैं
एपीआई एक डोमेन की उम्र और इतिहास के बारे में विस्तृत जानकारी लौटाता है जिसमें इसके निर्माण से लेकर वर्षों, महीनों और दिनों के अलावा समाप्ति और अद्यतन तिथियाँ भी शामिल हैं
एपीआई निर्दिष्ट वेब पृष्ठ का संपूर्ण एचटीएमएल सामग्री लौटाता है जिसमें सभी टैग, विशेषताएँ और अंतर्निहित तत्व शामिल होते हैं यह उपयोगकर्ताओं को विश्लेषण के लिए दृश्य और अदृश्य जानकारी दोनों तक पहुँचने की अनुमति देता है
प्रतिक्रिया में "पद्धति" (उपयोग की गई HTTP पद्धति), "urlSupplier" (मांग की गई मूल URL), "redirectedUrlSupplier" (पुनर्निर्देशन के बाद का अंतिम URL), और "pageSource" (पृष्ठ की संपूर्ण HTML सामग्री) जैसे क्षेत्र शामिल हैं
प्रतिक्रिया JSON प्रारूप में संरचित है जिसमें कुंजी-मूल्य जोड़े हैं जो HTTP विधि URLs और पूर्ण HTML स्रोत प्रदान करते हैं यह संगठन पार्सिंग और अनुप्रयोगों में समाकलन को आसान बनाता है
एपीआई वेब पृष्ठों की पूरी एचटीएमएल संरचना तक पहुंच प्रदान करता है जिससे उपयोगकर्ता पाठ सामग्री चित्र लिंक और मेटाडेटा जैसे विभिन्न प्रकार की जानकारी निकाल सकते हैं ताकि आगे के विश्लेषण के लिए
उपयोगकर्ता विभिन्न वेब पृष्ठों से HTML सामग्री प्राप्त करने के लिए अलग-अलग यूआरएल निर्दिष्ट करके अनुरोधों को कस्टमाइज़ कर सकते हैं एपीआई किसी भी मान्य यूआरएल को संसाधित करता है जो उपयोगकर्ता की आवश्यकताओं के आधार पर लचीले डेटा निष्कर्षण की अनुमति देता है
सामान्य उपयोग के मामलों में प्रतियोगी अनुसंधान समाचार मॉनिटरिंग शैक्षणिक डेटा संग्रह वेब अनुप्रयोग विकास और SEO विश्लेषण शामिल हैं जहां उपयोगकर्ताओं को वेब पृष्ठों की संरचना और सामग्री का विश्लेषण करने की आवश्यकता होती है
API निर्दिष्ट URLs से सीधे लाइव HTML सामग्री प्राप्त करता है जिससे यह सुनिश्चित होता है कि डेटा वेब पेज के सबसे वर्तमान संस्करण को दर्शाता है इस वास्तविक समय की पहुंच सटीकता बनाए रखने में मदद करती है
उपयोगकर्ता एक सुसंगत JSON प्रतिक्रिया संरचना की उम्मीद कर सकते हैं जिसमें विधि, URLs और HTML सामग्री के लिए फ़ील्ड होंगे HTML पृष्ठ के डिज़ाइन के आधार पर भिन्न होगा लेकिन प्रतिक्रिया प्रारूप अनुरोधों में समान रहता है
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
137ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
255ms
सर्विस लेवल:
99%
रिस्पॉन्स टाइम:
23ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,389ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
16ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
76ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
8,434ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
10,182ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
151ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
180ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
3,250ms
सर्विस लेवल:
50%
रिस्पॉन्स टाइम:
1,896ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,597ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,384ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
8,257ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,908ms
सर्विस लेवल:
50%
रिस्पॉन्स टाइम:
1,445ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
4,358ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
3,062ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,572ms