
Tạo cơ chế xoay vòng proxy hiệu quả là điều cần thiết khi xử lý các tác vụ khai thác dữ liệu hoặc quét web quy mô lớn. Mặc dù giai đoạn đầu của dự án quét web hoặc thu thập dữ liệu ở quy mô tối thiểu có thể đủ với thiết lập cơ bản, nhưng thách thức thực sự nảy sinh khi mở rộng quy mô. Để giảm thiểu rủi ro như chặn IP và đảm bảo tính mạnh mẽ của cơ sở hạ tầng thu thập dữ liệu của bạn, việc sử dụng hệ thống xoay vòng proxy tinh vi trở nên bắt buộc.
Vì những mục đích như vậy, việc sử dụng nhà cung cấp dịch vụ proxy chuyên nghiệp như OneProxy trở nên vô giá. Với nhóm máy chủ proxy trung tâm dữ liệu đa dạng, các dịch vụ như vậy có thể nâng cao đáng kể độ tin cậy và hiệu quả của các tác vụ thu thập dữ liệu của bạn.
Dưới đây, chúng tôi đi sâu vào việc phát triển công cụ quay vòng proxy nâng cao hơn bằng cách sử dụng Python và Beautiful Soup, tận dụng các dịch vụ từ OneProxy để có kết quả tối ưu.

Thiết lập sơ bộ
Trước khi bắt đầu, hãy đảm bảo rằng bạn có Beautiful Soup và requests
thư viện được cài đặt trong môi trường Python của bạn. Những công cụ này sẽ cho phép bạn phân tích nội dung HTML và quản lý các yêu cầu HTTP một cách dễ dàng.
Tập lệnh xoay vòng proxy của chúng tôi sẽ tìm nạp các proxy công khai từ nhóm proxy miễn phí của OneProxy, có thể truy cập tại Danh sách proxy miễn phí OneProxy. Danh sách này được cập nhật thường xuyên, cung cấp một bộ proxy mới cho nhiều nhu cầu khác nhau.
Mã tìm nạp cơ bản
Trước tiên, chúng ta cần thiết lập mã cơ bản để tìm nạp nội dung HTML từ danh sách proxy miễn phí của OneProxy. Chúng tôi sử dụng chuỗi tác nhân người dùng để mô phỏng trình duyệt web, giúp bỏ qua các hoạt động phát hiện bot cơ bản dựa trên tác nhân người dùng.
# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests
url = https://oneproxy.pro/free-proxy/
def fetch_proxies(url):
header = {
'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) ' +
'AppleWebKit/601.3.9 (KHTML, like Gecko) Version/9.0.2 Safari/601.3.9'
}
response = requests.get(url, headers=header)
return response.content
Hàm này chỉ lấy nội dung HTML từ URL được cung cấp.
Phân tích danh sách proxy
Các BeautifulSoup
thư viện sẽ phân tích nội dung HTML để trích xuất proxy. Các proxy thường được liệt kê trong cấu trúc bảng trên trang web, được xác định bằng các thuộc tính và thẻ HTML cụ thể.
def parse_proxies(html_content):
soup = BeautifulSoup(html_content, 'lxml')
proxy_table = soup.select_one('#proxy-list-table') # Replace with the correct ID
proxies = []
for row in proxy_table.select('tr'):
columns = row.select('td')
if columns:
ip, port = columns[0].get_text(), columns[1].get_text()
proxies.append({'ip': ip, 'port': port})
return proxies
Proxy luân phiên
Hàm sau điều phối việc xoay proxy bằng cách chọn ngẫu nhiên một proxy có sẵn từ danh sách được tìm nạp:
from random import choice
def rotate_proxies(proxies):
if proxies:
return choice(proxies)
else:
return None
Để tất cả chúng cùng nhau
Kết hợp tất cả các chức năng, tập lệnh cuối cùng tích hợp tìm nạp, phân tích cú pháp và xoay proxy, cung cấp một hệ thống xoay proxy liền mạch.
# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
from random import choice
# Functions previously defined: fetch_proxies, parse_proxies, rotate_proxies
proxies = [] # This will hold our list of proxies
def refresh_proxies():
global proxies
proxies = parse_proxies(fetch_proxies('https://oneproxy.pro/free-proxy/'))
def get_random_proxy():
if not proxies:
refresh_proxies()
return rotate_proxies(proxies)
# Main execution
refresh_proxies()
proxy = get_random_proxy()
print(proxy['ip'], proxy['port'])
Mở rộng quy mô chuyên nghiệp với OneProxy
Đối với các môi trường sản xuất có quy mô mở rộng lên tới hàng nghìn yêu cầu, nhóm proxy miễn phí có thể không đủ do cần cân nhắc về độ tin cậy và tốc độ. Vào thời điểm này, một dịch vụ proxy luân phiên trở nên thiết yếu.
OneProxy cung cấp giải pháp mạnh mẽ với các tính năng như:
- Proxy tốc độ cao toàn cầu: Hàng triệu proxy trung tâm dữ liệu trên toàn thế giới đảm bảo kết nối nhanh chóng và không bị gián đoạn.
- Xoay IP tự động: Địa chỉ IP được luân chuyển liền mạch để tránh bị phát hiện và cấm.
- Xoay chuỗi tác nhân người dùng: Bắt chước các yêu cầu từ nhiều trình duyệt và phiên bản web khác nhau, nâng cao khả năng không bị phát hiện của bot.
- Giải mã CAPTCHA: Tích hợp công nghệ giải CAPTCHA tự động, từ đó tinh giản quá trình tìm kiếm.
Với OneProxy, khách hàng đã vượt qua thành công các thách thức của việc chặn IP, từ đó hợp lý hóa quy trình trích xuất dữ liệu web của họ.
Các dịch vụ của OneProxy rất linh hoạt và có thể được triển khai bằng bất kỳ ngôn ngữ lập trình nào, đáp ứng nhiều dự án và yêu cầu.
Đề nghị đặc biệt: Trải nghiệm sức mạnh của việc xoay vòng proxy chuyên nghiệp với OneProxy. Bắt đầu với 50.000 yêu cầu miễn phí