उच्च प्रदर्शन समानता API एक उच्च गति धुंधले मिलान और डुप्लिकेट API है, जिसे वास्तविक दुनिया में अव्यवस्थित डेटा के लिए बनाया गया है। यह आपको लगभग दोहराई गई प्रविष्टियों की पहचान करने में मदद करता है और जब मान पूरी तरह से मेल नहीं खाते हैं तो संस्थाओं को समेटता है - वर्तनी की गलतियाँ, मामले के प्रकार में अंतर, लापता विराम चिह्न, स्थान की समस्या, संक्षेपण और हल्की शब्द क्रम में बदलाव
आपको अपने धुंधले मिलान पाइपलाइन का निर्माण और समायोजन करने की आवश्यकता नहीं है, बस स्ट्रिंग (या रिकॉर्ड) API को भेजें और भरोसेमंद समानता स्कोर मिलान परिणाम प्राप्त करें। सामान्य आउटपुट में मिलान जोड़े (उदाहरण के लिए "Apple" ↔ "apple inc."), समानता स्कोर और डेटा सफाई कार्यप्रवाह, CRM, ETL कार्य और विश्लेषण पाइपलाइन में समाहित करने के लिए संरचित परिणाम शामिल हैं
सामान्य उपयोग के मामले:
डुप्लिकेट सूची को हटाना : डेटा सेट में डुप्लिकेट की पहचान करें (पूर्ण मिलान के लिए पूर्ण मिलान) और संभावित डुप्लिकेट जोड़े लौटाएं
मुख्य सूची के साथ संगतता : आने वाली सूची का मानक सेट के साथ मिलान करें (सूची को मुख्य के साथ)
CRM और ग्राहक डेटा का स्वच्छता : संभावित ग्राहकों/खातों/कंपनियों को साफ करें जो डुप्लिकेट के कारण रिपोर्ट और प्रचार में बाधा डालते हैं
संस्थान पहचान और रिकॉर्ड कड़ी : स्रोत में एक ही वास्तविक दुनिया की संस्थाओं के संदर्भों को जोड़ना
टीम इसका उपयोग क्यों करती है:
बिना किसी प्रयास के अव्यवस्थित टेक्स्ट को हैंडल करें (प्रत्येक सीमांकित मामले के लिए नियम मैन्युअल रूप से बनाने की आवश्यकता नहीं है)
रैंकिंग और थ्रेशोल्ड के लिए समानता स्कोर (आप कठोरता का स्तर चुन सकते हैं)
स्केल और स्वचालन के लिए बनाया गया (पाइपलाइन में चलाने के लिए डिज़ाइन किया गया, केवल एक बार के स्क्रिप्ट के लिए नहीं)
डिडूप एक सभी के लिए सभी फजी मिलान बिंदु है जो एकल स्ट्रिंग की सूची में डुप्लिकेट खोजने के लिए है। API कॉल में केवल दो इनपुट की तुलना करने के बजाय, आप एक डेटा सेट भेजते हैं और यह पूरे सेट में समान जोड़े और/या बिना डुप्लिकेट समूह लौटाता है।
वास्तविक दुनिया के वॉल्यूम के लिए बना: हर संभव तुलना को बलात्कृत करने के बजाय, यह ओ(n^2) विस्फोट से बचने के लिए अनुक्रमण और अनुमानित खोज का उपयोग करता है जबकि अभी भी उच्च गुणवत्ता वाले मैच को सामने लाता है। इसका उपयोग CRM साफ़ करने, कैटलॉग मानकीकरण, और संपर्क/कंपनी डिडुप्लिकेशन के लिए करें।
बेंचमार्क: समानता-api/ब्लॉग/गति-बेंचमार्क (1M रिकॉर्ड लगभग 7 मिनट में; सामान्य पायथन फजी मिलान लाइब्रेरी की तुलना में तेज)।
अनुरोध शरीर (JSON)
डेटा (आवश्यक)
डुप्लिकेट करने के लिए स्ट्रिंग्स का ऐरे
प्रत्येक अनुरोध के लिए अधिकतम 1000 स्ट्रिंग्स
कन्फ़िग (ऐच्छिक)
ट्यूनिंग पैरामीटर वाला ऐच्छिक ऑब्जेक्ट
config.similarity_threshold (संख्या, डिफ़ॉल्ट 0.75)
समानता कट ऑफ 0 से 1 तक
config.remove_punctuation (बूलियन, डिफ़ॉल्ट सच)
मिलान से पहले विराम चिह्न हटाएं
config.to_lowercase (बूलियन, डिफ़ॉल्ट सच)
मिलान से पहले स्ट्रिंग्स को लोअरकेस करें
config.use_token_sort (बूलियन, डिफ़ॉल्ट झूठ)
मिलान से पहले प्रत्येक स्ट्रिंग के भीतर टोकन को सॉर्ट करें (जब शब्द का क्रम भिन्न होता है तो मदद करता है)
config.output_format (स्ट्रिंग, डिफ़ॉल्ट स्ट्रिंग_जोड़े)
आउटपुट प्रारूप। समर्थित मान:
index_pairs
मेलों की सूची के रूप में [i, j, स्कोर] जहां i और j इनपुट डेटा ऐरे में अनुक्रमांक हैं
string_pairs
मूल इनपुट स्ट्रिंग्स का उपयोग करके मेलों की सूची के रूप में [string_i, string_j, स्कोर]
deduped_strings
डुप्लिकेट हटाए गए स्ट्रिंग्स की सूची (प्रत्येक डुप्लिकेट समूह के लिए एक प्रतिनिधि रखता है)
deduped_indices
मूल डेटा में निर्देशांक की सूची जो डिडुप्लिकेट सेट का प्रतिनिधित्व करती है (प्रत्येक समूह के लिए एक प्रतिनिधि)
membership_map
डेटा के समान लंबाई की पूर्णांकों की ऐरे जिसमें हर स्थिति i उस पंक्ति के डुप्लिकेट समूह के लिए प्रतिनिधि अनुक्रमांक है
row_annotations
प्रतिनिधि जानकारी के साथ प्रति-पंक्ति ऑब्जेक्ट्स की ऐरे: अनुक्रमांक, मूल_स्ट्रिंग, rep_index, rep_string, similarity_to_rep
config.top_k (स्ट्रिंग या पूर्णांक, डिफ़ॉल्ट सभी)
पूर्ण डिडूप के लिए सभी का उपयोग करें, या एक सकारात्मक पूर्णांक केवल निकटतम मेल्स को लौटाने के लिए प्रति इनपुट
उदाहरण अनुरोध
{
"data": ["Microsoft", "Micsrosoft", "Apple Inc", "Apple", "Google LLC"],
"config": {
"similarity_threshold": 0.75,
"remove_punctuation": true,
"to_lowercase": true,
"use_token_sort": false,
"output_format": "string_pairs",
"top_k": "all"
}
}
प्रतिक्रिया
JSON ऑब्जेक्ट प्रदान करता है जिसमें:
status: सफलता या त्रुटि
response_data: चयनित output_format में परिणाम
डीडुप्लिकेट - एंडपॉइंट फीचर्स
| ऑब्जेक्ट | विवरण |
|---|---|
data |
[आवश्यक] JSON array of strings to deduplicate (max 1000). Example: ["a","b","c"] |
similarity_threshold |
वैकल्पिक Similarity cutoff from 0 to 1. Higher values are stricter (fewer matches). Default is 0.75. |
remove_punctuation |
वैकल्पिक If true, punctuation is removed before matching. Default is true. |
to_lowercase |
वैकल्पिक If true, strings are lowercased before matching. Default is true. |
use_token_sort |
वैकल्पिक If true, tokens in each string are sorted before matching. Useful when word order varies. Default is false. |
output_format |
वैकल्पिक Default: string_pairs Allowed values (and what each means): index_pairs List of matches as [i, j, score] where i and j are indices in the input list. string_pairs List of matches as [string_i, string_j, score] using original strings. deduped_strings List of strings with duplicates removed (one representative per group). deduped_indices List of indices representing the deduplicated set (one representative per group). membership_map Array of length N where entry i is the representative index for the group of data[i]. row_annotations Array of objects (one per input row) with fields: index, original_string, rep_index, rep_string, similarity_to_rep. |
top_k |
वैकल्पिक Limits how many neighbors are returned per input string. Use all for full dedupe, or a positive integer for top matches per row. |
{"status":"success","response_data":[["Apple","appl!e",1.0]]}
curl --location --request POST 'https://zylalabs.com/api/11917/similarity+api+-+batch+text+similarity+processing/22650/dedupe?data=["Apple", "appl!e"]' --header 'Authorization: Bearer YOUR_API_KEY'
| हेडर | विवरण |
|---|---|
Authorization
|
[आवश्यक] होना चाहिए Bearer access_key. जब आप सब्सक्राइब हों तो ऊपर "Your API Access Key" देखें। |
कोई लंबी अवधि की प्रतिबद्धता नहीं। कभी भी अपग्रेड, डाउनग्रेड या कैंसल करें। फ्री ट्रायल में 50 रिक्वेस्ट तक शामिल हैं।
डिडुप endpoint एक JSON ऑब्जेक्ट लौटाता है जिसमें मेल खाने वाले स्ट्रिंग्स के जोड़, समानता स्कोर और वैकल्पिक डिडुप्लीकेटेड परिणाम होते हैं आउटपुट को स्ट्रिंग जोड़ों, इंडेक्स जोड़ या डिडुप्लीकेटेड स्ट्रिंग्स के रूप में स्वरूपित किया जा सकता है जो निर्दिष्ट कॉन्फ़िगरेशन पर निर्भर करता है
प्रतिक्रिया डेटा में प्रमुख क्षेत्र "स्थिति" (सफलता या त्रुटि इंगीत करने वाला) और "प्रतिक्रिया_data" शामिल हैं, जिसमें उपयोगकर्ता के अनुरोध के अनुसार स्वरूपित परिणाम होते हैं, जैसे कि मिलान जोड़े या डिडुप्लिकेटेड स्ट्रिंग्स
उपयोगकर्ता "config" ऑब्जेक्ट में पैरामीटर को समायोजित करके अनुरोधों को कस्टमाइज़ कर सकते हैं जैसे "similarity_threshold" मैच की सख्ती के लिए "remove_punctuation" पूर्व-संसाधन के लिए और "output_format" वांछित परिणाम संरचना चुनने के लिए
प्रतिक्रिया डेटा परिणामों के एक एरे के रूप में व्यवस्थित है जहां प्रत्येक प्रविष्टि एक मिलान या डेडुप्लिकेटेड स्ट्रिंग के अनुरूप होती है आउटपुट प्रारूप के आधार पर प्रविष्टियों में मूल स्ट्रिंग्स इंडices और समानता स्कोर शामिल हो सकते हैं जिससे कार्यप्रवाह में आसान एकीकरण की सुविधा मिलती है
विशिष्ट उपयोग के मामलों में ग्राहक सूचियों से डुप्लिकेट निकालना मास्टर सूची के खिलाफ रिकॉर्ड को सामंजस में लाना सीआरएम डेटा को साफ करना और विभिन्न डेटा स्रोतों के बीच इकाई समाधान करना शामिल है ताकि डेटा की पूर्ति और सटीकता सुनिश्चित हो सके
डेटा की सटीकता उन्नत फजी मिलान एल्गोरिदम के माध्यम से बनाए रखी जाती है जो टाइपो और केस में भिन्नताओं जैसी सामान्य डेटा समस्याओं का ध्यान रखती है एपीआई को गंदे डेटा को प्रभावी ढंग से संभालने के लिए डिजाइन किया गया है जो विश्वसनीय मिलान परिणाम सुनिश्चित करता है
स्वीकृत पैरामीटर मानों में "similarity_threshold" (0 से 1), "remove_punctuation" (बूलियन), "to_lowercase" (बूलियन), "use_token_sort" (बूलियन), और "top_k" (पूर्णांक या "all") शामिल हैं ये पैरामीटर उपयोगकर्ताओं को उनके विशिष्ट आवश्यकताओं के अनुसार मिलान प्रक्रिया को अनुकूलित करने की अनुमति देते हैं
यदि ड्यूप एंडपॉइंट आंशिक या खाली परिणाम लौटाता है तो उपयोगकर्ताओं को गुणवत्ता मुद्दों के लिए इनपुट डेटा की जांच करनी चाहिए जैसे अत्यधिक डुप्लिकेट या बहुत कम समानता थ्रेशहोल्ड समायोजित करना समानता थ्रेशहोल्ड या इनपुट सूची की समीक्षा करना परिणामों में सुधार करने में मदद कर सकता है
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,815ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
3,742ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
4,565ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
6,392ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
22ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
853ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
55ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
357ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
6,283ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
534ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
749ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
3,976ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,697ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
878ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
2,507ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
8,360ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
12,980ms
सर्विस लेवल:
99%
रिस्पॉन्स टाइम:
461ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
1,302ms
सर्विस लेवल:
100%
रिस्पॉन्स टाइम:
764ms