बड़े पैमाने पर वेब स्क्रैपिंग या डेटा माइनिंग कार्यों से निपटने के लिए एक कुशल प्रॉक्सी रोटेशन तंत्र बनाना आवश्यक है। जबकि वेब स्क्रैपिंग परियोजनाओं के शुरुआती चरण या न्यूनतम पैमाने पर क्रॉल एक बुनियादी सेटअप के साथ पर्याप्त हो सकते हैं, वास्तविक चुनौती स्केलिंग के दौरान उत्पन्न होती है। आईपी ब्लॉकिंग जैसे जोखिमों को कम करने और आपके स्क्रैपिंग बुनियादी ढांचे की मजबूती सुनिश्चित करने के लिए, एक परिष्कृत प्रॉक्सी रोटेशन सिस्टम का उपयोग करना अनिवार्य हो जाता है।
ऐसे उद्देश्यों के लिए, OneProxy जैसे पेशेवर प्रॉक्सी सेवा प्रदाता का उपयोग अमूल्य हो जाता है। डेटा सेंटर प्रॉक्सी सर्वर के विविध पूल के साथ, ऐसी सेवाएँ आपके स्क्रैपिंग कार्यों की विश्वसनीयता और दक्षता को काफी हद तक बढ़ा सकती हैं।
नीचे, हम इष्टतम परिणामों के लिए वनप्रॉक्सी की सेवाओं का लाभ उठाते हुए, पायथन और ब्यूटीफुल सूप का उपयोग करके एक अधिक उन्नत प्रॉक्सी रोटेटर के विकास पर चर्चा करेंगे।
प्रारंभिक सेटअप
शुरू करने से पहले, सुनिश्चित करें कि आपके पास सुंदर सूप और requests
आपके पायथन वातावरण में लाइब्रेरी स्थापित है। ये उपकरण आपको HTML सामग्री को पार्स करने और HTTP अनुरोधों को आसानी से प्रबंधित करने में सक्षम बनाएंगे।
हमारी प्रॉक्सी रोटेशन स्क्रिप्ट OneProxy के मुफ्त प्रॉक्सी पूल से सार्वजनिक प्रॉक्सी लाएगी, जिसे यहां एक्सेस किया जा सकता है वनप्रॉक्सी फ्री प्रॉक्सी सूचीयह सूची नियमित रूप से अपडेट की जाती है, तथा विभिन्न आवश्यकताओं के लिए प्रॉक्सी का नया सेट उपलब्ध कराती है।
मूल फ़ेच कोड
सबसे पहले, हमें OneProxy की निःशुल्क प्रॉक्सी सूची से HTML सामग्री लाने के लिए मूल कोड स्थापित करने की आवश्यकता है। हम एक वेब ब्राउज़र का अनुकरण करने के लिए उपयोगकर्ता-एजेंट स्ट्रिंग का उपयोग करते हैं, जो बुनियादी उपयोगकर्ता-एजेंट आधारित बॉट डिटेक्शन को बायपास करने में मदद करता है।
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests
url = https://oneproxy.pro/free-proxy/
def fetch_proxies(url):
header = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) ' +
'AppleWebKit/601.3.9 (KHTML, like Gecko) Version/9.0.2 Safari/601.3.9'
}
response = requests.get(url, headers=header)
return response.content
यह फ़ंक्शन बस दिए गए URL से HTML सामग्री पुनर्प्राप्त करता है।
प्रॉक्सी सूची को पार्स करना
The BeautifulSoup
प्रॉक्सी निकालने के लिए लाइब्रेरी HTML सामग्री को पार्स करेगी। प्रॉक्सी को आम तौर पर वेब पेज पर एक तालिका संरचना के भीतर सूचीबद्ध किया जाता है, जिसे विशिष्ट HTML टैग और विशेषताओं द्वारा पहचाना जाता है।
def parse_proxies(html_content):
soup = BeautifulSoup(html_content, 'lxml')
proxy_table = soup.select_one('#proxy-list-table') # Replace with the correct ID
proxies = []
for row in proxy_table.select('tr'):
columns = row.select('td')
if columns:
ip, port = columns[0].get_text(), columns[1].get_text()
proxies.append({'ip': ip, 'port': port})
return proxies
घूर्णनशील प्रॉक्सी
निम्नलिखित फ़ंक्शन प्राप्त सूची से उपलब्ध प्रॉक्सी को यादृच्छिक रूप से चुनकर प्रॉक्सी रोटेशन को व्यवस्थित करता है:
from random import choice
def rotate_proxies(proxies):
if proxies:
return choice(proxies)
else:
return None
यह सब एक साथ डालें
सभी कार्यों को मिलाकर, अंतिम स्क्रिप्ट प्रॉक्सी फ़ेचिंग, पार्सिंग और रोटेशन को एकीकृत करती है, जो एक निर्बाध प्रॉक्सी रोटेशन प्रणाली प्रदान करती है।
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
from random import choice
# Functions previously defined: fetch_proxies, parse_proxies, rotate_proxies
proxies = [] # This will hold our list of proxies
def refresh_proxies():
global proxies
proxies = parse_proxies(fetch_proxies('https://oneproxy.pro/free-proxy/'))
def get_random_proxy():
if not proxies:
refresh_proxies()
return rotate_proxies(proxies)
# Main execution
refresh_proxies()
proxy = get_random_proxy()
print(proxy['ip'], proxy['port'])
OneProxy के साथ व्यावसायिक स्केलिंग
उत्पादन परिवेशों के लिए जहां पैमाने हजारों अनुरोधों तक फैले हुए हैं, विश्वसनीयता और गति के कारण मुफ़्त प्रॉक्सी पूल पर्याप्त नहीं हो सकते हैं। इस मोड़ पर, घूर्णनशील प्रॉक्सी सेवा आवश्यक हो जाता है.
OneProxy निम्नलिखित सुविधाओं के साथ एक मजबूत समाधान प्रदान करता है:
- ग्लोबल हाई-स्पीड प्रॉक्सीदुनिया भर में लाखों डेटा सेंटर प्रॉक्सी निर्बाध और तीव्र कनेक्शन सुनिश्चित करते हैं।
- स्वचालित आईपी रोटेशन: पहचान और प्रतिबंध को रोकने के लिए आईपी पते को निर्बाध रूप से घुमाया जाता है।
- उपयोगकर्ता-एजेंट स्ट्रिंग रोटेशन: विभिन्न वेब ब्राउज़रों और संस्करणों से अनुरोधों की नकल करता है, जिससे बॉट्स की गैर-पहचान क्षमता बढ़ जाती है।
- कैप्चा सॉल्विंग: कैप्चा को स्वचालित रूप से हल करने के लिए प्रौद्योगिकी को एकीकृत करता है, जिससे स्क्रैपिंग प्रक्रिया सुव्यवस्थित होती है।
OneProxy के साथ, ग्राहकों ने आईपी ब्लॉकिंग की चुनौतियों का सफलतापूर्वक सामना किया है, जिससे उनकी वेब डेटा निष्कर्षण प्रक्रियाएँ सुव्यवस्थित हो गई हैं।
OneProxy की सेवाएँ बहुमुखी हैं और परियोजनाओं और आवश्यकताओं की एक विस्तृत श्रृंखला को पूरा करते हुए, किसी भी प्रोग्रामिंग भाषा में कार्यान्वित की जा सकती हैं।
विशेष पेशकश: OneProxy के साथ पेशेवर प्रॉक्सी रोटेशन की शक्ति का अनुभव करें। बिना किसी लागत के 50,000 अनुरोधों के साथ आरंभ करें