वेबसाइटें एआई स्टार्टअप एंथ्रोपिक पर उनके एंटी-स्क्रैपिंग नियमों और प्रोटोकॉल को दरकिनार करने का आरोप लगाती हैं

फ्रीलांसर ने बड़े क्लाउड भाषा मॉडल के पीछे कृत्रिम बुद्धिमत्ता स्टार्टअप एंथ्रोपिक पर अपनी वेबसाइटों से डेटा स्क्रैप करने के लिए अपने robots.txt “क्रॉल न करें” प्रोटोकॉल की अनदेखी करने का आरोप लगाया है। वहीं, आईफिक्सिट के सीईओ काइल विएन्स ने कहा कि एंथ्रोपिक ने एआई मॉडल के प्रशिक्षण के लिए अपनी सामग्री के उपयोग पर रोक लगाने वाली वेबसाइट की नीति को नजरअंदाज कर दिया। फ्रीलांसर के प्रबंध निदेशक मैट बैरी ने कहा जानकारी एंथ्रोपिक का क्लाउडबॉट “अब तक का सबसे आक्रामक स्क्रैपर है।” कथित तौर पर इसकी वेबसाइट को चार घंटे के अंतराल में कंपनी के क्रॉलर से 3.5 मिलियन हिट मिले, जो “संभवतः एआई क्रॉलर नंबर दो की मात्रा का लगभग पांच गुना है।” इसी तरह, वियन्स एक्स/ट्विटर पर प्रकाशित एंथ्रोपिक बॉट ने 24 घंटों में आईफिक्सिट सर्वर पर दस लाख बार हमला किया। उन्होंने लिखा, “न केवल आप बिना भुगतान किए हमारी सामग्री ले रहे हैं, बल्कि आप हमारे DevOps संसाधनों पर एकाधिकार भी जमा रहे हैं।”

जून में, वायर्ड आरोपी एक अन्य AI कंपनी, Perplexity, रोबोट एक्सक्लूजन प्रोटोकॉल, या robots.txt की उपस्थिति के बावजूद अपनी वेबसाइट को क्रॉल करने में कामयाब रही। robots.txt फ़ाइल में आम तौर पर वेब क्रॉलर के लिए निर्देश होते हैं कि वे किन पृष्ठों तक पहुंच सकते हैं और किन पृष्ठों तक नहीं पहुंच सकते हैं। हालाँकि इस नियम का अनुपालन स्वैच्छिक है, लेकिन आम तौर पर दुर्भावनापूर्ण बॉट्स द्वारा इसे अनदेखा कर दिया जाता है। वायर्ड टुकड़ा टोलबिट नामक एक स्टार्टअप, जो एआई कंपनियों को सामग्री प्रकाशकों से जोड़ता है, ने घोषणा की कि रोबोट.txt सिग्नल को बायपास करने में पर्प्लेक्सिटी अकेली नहीं है। हालाँकि उसने किसी का नाम नहीं बताया, व्यापार अंदरूनी सूत्र कहा कि इससे पता चला कि ओपनएआई और एंथ्रोपिक भी प्रोटोकॉल से अनजान थे।

बैरी ने कहा कि फ्रीलांसर ने शुरू में बॉट के एक्सेस अनुरोधों को अस्वीकार करने की कोशिश की, लेकिन अंततः एंथ्रोपिक के क्रॉलर को पूरी तरह से ब्लॉक करना पड़ा। उन्होंने कहा, “यह ज़बरदस्त स्क्रैपिंग है (जो) इस पर काम करने वाले सभी लोगों के लिए साइट को धीमा कर देती है और अंततः हमारे राजस्व को प्रभावित करती है।” जहां तक आईफिक्सिट का सवाल है, विएन्स ने कहा कि वेबसाइट ने उच्च ट्रैफिक के लिए अलार्म सेट किया था और उसके कर्मचारियों को एंथ्रोपिक की गतिविधियों के कारण सुबह 3 बजे जगाया गया था। कंपनी के क्रॉलर ने iFixit में एक लाइन जोड़ने के बाद उसे स्क्रैप करना बंद कर दिया robots.txt फ़ाइल जो विशेष रूप से एंथ्रोपिक के बॉट पर प्रतिबंध लगाता है।

एआई स्टार्टअप ने कहा जानकारी iFixit ने कहा कि वह robots.txt फ़ाइल का सम्मान करता है और उसके क्रॉलर ने “जब iFixit ने इसे लागू किया तो उसने इस सिग्नल का सम्मान किया।” उन्होंने यह भी कहा कि उनका लक्ष्य “यह सोचकर व्यवधान को कम करना है कि वह कितनी जल्दी उन्हीं क्षेत्रों का पता लगाते हैं”, यही कारण है कि वह अब मामले की जांच कर रहे हैं।

एआई कंपनियां वेबसाइटों से सामग्री एकत्र करने के लिए क्रॉलर का उपयोग करती हैं जिनका उपयोग वे अपनी जेनरेटिव एआई प्रौद्योगिकियों को प्रशिक्षित करने के लिए कर सकते हैं। परिणामस्वरूप वे कई मुकदमों का निशाना बने हैं, प्रकाशकों ने उन पर कॉपीराइट उल्लंघन का आरोप लगाया है। अधिक मुकदमे दायर होने से रोकने के लिए, OpenAI जैसी कंपनियों ने प्रकाशकों और वेबसाइटों के साथ सौदे किए हैं। OpenAI के कंटेंट पार्टनर्स में अब तक न्यूज कॉर्प, वॉक्स मीडिया शामिल हैं। द फाइनेंशियल टाइम्स और रेडिट. iFixit के Wiens भी मरम्मत वेबसाइट के लेखों के लिए एक समझौते पर हस्ताक्षर करने के विचार के लिए खुले दिखाई देते हैं, उन्होंने एक ट्वीट में एंथ्रोपिक को बताया कि वह वाणिज्यिक उपयोग के लिए सामग्री को लाइसेंस देने के बारे में बातचीत करने के लिए तैयार हैं।

यदि इनमें से किसी भी अनुरोध के पास हमारी सेवा की शर्तों तक पहुंच होती, तो वे आपको बता देते कि हमारी सामग्री का उपयोग स्पष्ट रूप से निषिद्ध है। लेकिन मुझसे मत पूछो, क्लाउड से पूछो!

यदि आप व्यावसायिक उद्देश्यों के लिए हमारी सामग्री को लाइसेंस देने पर चर्चा करना चाहते हैं, तो हम आपके लिए यहां हैं। pic.twitter.com/CAkOQDnLjD

– काइल वीन्स (@kwiens) 24 जुलाई 2024