Các kỹ thuật nâng cao để xoay vòng proxy bằng Python

Pichai Nurjanah
Gửi bởi
Pichai Nurjanah

Chọn và mua proxy

Các kỹ thuật nâng cao để xoay vòng proxy bằng Python
0 Bình luận

Tạo cơ chế xoay vòng proxy hiệu quả là điều cần thiết khi xử lý các tác vụ khai thác dữ liệu hoặc quét web quy mô lớn. Mặc dù giai đoạn đầu của dự án quét web hoặc thu thập dữ liệu ở quy mô tối thiểu có thể đủ với thiết lập cơ bản, nhưng thách thức thực sự nảy sinh khi mở rộng quy mô. Để giảm thiểu rủi ro như chặn IP và đảm bảo tính mạnh mẽ của cơ sở hạ tầng thu thập dữ liệu của bạn, việc sử dụng hệ thống xoay vòng proxy tinh vi trở nên bắt buộc.

Vì những mục đích như vậy, việc sử dụng nhà cung cấp dịch vụ proxy chuyên nghiệp như OneProxy trở nên vô giá. Với nhóm máy chủ proxy trung tâm dữ liệu đa dạng, các dịch vụ như vậy có thể nâng cao đáng kể độ tin cậy và hiệu quả của các tác vụ thu thập dữ liệu của bạn.

Dưới đây, chúng tôi đi sâu vào việc phát triển công cụ quay vòng proxy nâng cao hơn bằng cách sử dụng Python và Beautiful Soup, tận dụng các dịch vụ từ OneProxy để có kết quả tối ưu.

Xoay proxy với Python

Thiết lập sơ bộ

Trước khi bắt đầu, hãy đảm bảo rằng bạn có Beautiful Soup và requests thư viện được cài đặt trong môi trường Python của bạn. Những công cụ này sẽ cho phép bạn phân tích nội dung HTML và quản lý các yêu cầu HTTP một cách dễ dàng.

Tập lệnh xoay vòng proxy của chúng tôi sẽ tìm nạp các proxy công khai từ nhóm proxy miễn phí của OneProxy, có thể truy cập tại Danh sách proxy miễn phí OneProxy. Danh sách này được cập nhật thường xuyên, cung cấp một bộ proxy mới cho nhiều nhu cầu khác nhau.

Mã tìm nạp cơ bản

Trước tiên, chúng ta cần thiết lập mã cơ bản để tìm nạp nội dung HTML từ danh sách proxy miễn phí của OneProxy. Chúng tôi sử dụng chuỗi tác nhân người dùng để mô phỏng trình duyệt web, giúp bỏ qua các hoạt động phát hiện bot cơ bản dựa trên tác nhân người dùng.

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests
url = https://oneproxy.pro/free-proxy/

def fetch_proxies(url):
    header = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) ' +
        'AppleWebKit/601.3.9 (KHTML, like Gecko) Version/9.0.2 Safari/601.3.9'
    }
    response = requests.get(url, headers=header)
    return response.content

Hàm này chỉ lấy nội dung HTML từ URL được cung cấp.

Phân tích danh sách proxy

Các BeautifulSoup thư viện sẽ phân tích nội dung HTML để trích xuất proxy. Các proxy thường được liệt kê trong cấu trúc bảng trên trang web, được xác định bằng các thuộc tính và thẻ HTML cụ thể.

def parse_proxies(html_content):
    soup = BeautifulSoup(html_content, 'lxml')
    proxy_table = soup.select_one('#proxy-list-table')  # Replace with the correct ID
    proxies = []
    for row in proxy_table.select('tr'):
        columns = row.select('td')
        if columns:
            ip, port = columns[0].get_text(), columns[1].get_text()
            proxies.append({'ip': ip, 'port': port})
    return proxies

Proxy luân phiên

Hàm sau điều phối việc xoay proxy bằng cách chọn ngẫu nhiên một proxy có sẵn từ danh sách được tìm nạp:

from random import choice

def rotate_proxies(proxies):
    if proxies:
        return choice(proxies)
    else:
        return None

Để tất cả chúng cùng nhau

Kết hợp tất cả các chức năng, tập lệnh cuối cùng tích hợp tìm nạp, phân tích cú pháp và xoay proxy, cung cấp một hệ thống xoay proxy liền mạch.

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
from random import choice

# Functions previously defined: fetch_proxies, parse_proxies, rotate_proxies

proxies = []  # This will hold our list of proxies

def refresh_proxies():
    global proxies
    proxies = parse_proxies(fetch_proxies('https://oneproxy.pro/free-proxy/'))

def get_random_proxy():
    if not proxies:
        refresh_proxies()
    return rotate_proxies(proxies)

# Main execution
refresh_proxies()
proxy = get_random_proxy()
print(proxy['ip'], proxy['port'])

Mở rộng quy mô chuyên nghiệp với OneProxy

Đối với các môi trường sản xuất có quy mô mở rộng lên tới hàng nghìn yêu cầu, nhóm proxy miễn phí có thể không đủ do cần cân nhắc về độ tin cậy và tốc độ. Vào thời điểm này, một dịch vụ proxy luân phiên trở nên thiết yếu.

OneProxy cung cấp giải pháp mạnh mẽ với các tính năng như:

  • Proxy tốc độ cao toàn cầu: Hàng triệu proxy trung tâm dữ liệu trên toàn thế giới đảm bảo kết nối nhanh chóng và không bị gián đoạn.
  • Xoay IP tự động: Địa chỉ IP được luân chuyển liền mạch để tránh bị phát hiện và cấm.
  • Xoay chuỗi tác nhân người dùng: Bắt chước các yêu cầu từ nhiều trình duyệt và phiên bản web khác nhau, nâng cao khả năng không bị phát hiện của bot.
  • Giải mã CAPTCHA: Tích hợp công nghệ giải CAPTCHA tự động, từ đó tinh giản quá trình tìm kiếm.

Với OneProxy, khách hàng đã vượt qua thành công các thách thức của việc chặn IP, từ đó hợp lý hóa quy trình trích xuất dữ liệu web của họ.

Các dịch vụ của OneProxy rất linh hoạt và có thể được triển khai bằng bất kỳ ngôn ngữ lập trình nào, đáp ứng nhiều dự án và yêu cầu.

Đề nghị đặc biệt: Trải nghiệm sức mạnh của việc xoay vòng proxy chuyên nghiệp với OneProxy. Bắt đầu với 50.000 yêu cầu miễn phí

Mua proxy luân phiên

ĐỂ LẠI BÌNH LUẬN

Proxy trung tâm dữ liệu
Proxy được chia sẻ

Một số lượng lớn các máy chủ proxy đáng tin cậy và nhanh chóng.

Bắt đầu tại$0.06 mỗi IP
Proxy luân phiên
Proxy luân phiên

Proxy luân phiên không giới hạn với mô hình trả tiền theo yêu cầu.

Bắt đầu tại$0,0001 mỗi yêu cầu
Proxy riêng
Proxy UDP

Proxy có hỗ trợ UDP.

Bắt đầu tại$0.4 mỗi IP
Proxy riêng
Proxy riêng

Proxy chuyên dụng cho mục đích sử dụng cá nhân.

Bắt đầu tại$5 mỗi IP
Proxy không giới hạn
Proxy không giới hạn

Máy chủ proxy với lưu lượng truy cập không giới hạn.

Bắt đầu tại$0.06 mỗi IP
Bạn đã sẵn sàng sử dụng máy chủ proxy của chúng tôi ngay bây giờ chưa?
từ $0.06 mỗi IP