Teknik Lanjutan untuk Putaran Proksi dengan Python

Pichai Nurjanah
Dihantar oleh
Pichai Nurjanah

Pilih dan Beli Proksi

Teknik Lanjutan untuk Putaran Proksi dengan Python
0 Komen

Mewujudkan mekanisme penggiliran proksi yang cekap adalah penting apabila menangani tugas mengikis web atau perlombongan data berskala besar. Walaupun peringkat awal projek mengikis web atau merangkak berskala minimum mungkin mencukupi dengan persediaan asas, cabaran sebenar timbul apabila meningkat. Untuk mengurangkan risiko seperti penyekatan IP dan untuk memastikan keteguhan infrastruktur pengikisan anda, menggunakan sistem penggiliran proksi yang canggih menjadi penting.

Untuk tujuan sedemikian, penggunaan penyedia perkhidmatan proksi profesional seperti OneProxy menjadi tidak ternilai. Dengan kumpulan pelayan proksi pusat data yang pelbagai, perkhidmatan sedemikian boleh meningkatkan kebolehpercayaan dan kecekapan tugas mengikis anda.

Di bawah, kami menyelidiki pembangunan pemutar proksi yang lebih maju menggunakan Python dan Beautiful Soup, memanfaatkan perkhidmatan daripada OneProxy untuk hasil yang optimum.

Putaran Proksi Dengan Python

Persediaan Awal

Sebelum anda memulakan, pastikan anda mempunyai Sup Cantik dan requests perpustakaan dipasang dalam persekitaran Python anda. Alat ini akan membolehkan anda menghuraikan kandungan HTML dan mengurus permintaan HTTP dengan mudah.

Skrip penggiliran proksi kami akan mengambil proksi awam daripada kumpulan proksi percuma OneProxy, yang boleh diakses di Senarai Proksi Percuma OneProxy. Senarai ini dikemas kini dengan kerap, menawarkan set proksi baharu untuk pelbagai keperluan.

Kod Ambil Asas

Pertama, kita perlu mewujudkan kod asas untuk mengambil kandungan HTML daripada senarai proksi percuma OneProxy. Kami menggunakan rentetan ejen pengguna untuk mencontohi penyemak imbas web, yang membantu dalam memintas pengesanan bot berasaskan ejen pengguna asas.

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests
url = https://oneproxy.pro/free-proxy/

def fetch_proxies(url):
    header = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) ' +
        'AppleWebKit/601.3.9 (KHTML, like Gecko) Version/9.0.2 Safari/601.3.9'
    }
    response = requests.get(url, headers=header)
    return response.content

Fungsi ini hanya mengambil semula kandungan HTML daripada URL yang disediakan.

Menghuraikan Senarai Proksi

The BeautifulSoup perpustakaan akan menghuraikan kandungan HTML untuk mengekstrak proksi. Proksi biasanya disenaraikan dalam struktur jadual pada halaman web, yang dikenal pasti oleh teg dan atribut HTML tertentu.

def parse_proxies(html_content):
    soup = BeautifulSoup(html_content, 'lxml')
    proxy_table = soup.select_one('#proxy-list-table')  # Replace with the correct ID
    proxies = []
    for row in proxy_table.select('tr'):
        columns = row.select('td')
        if columns:
            ip, port = columns[0].get_text(), columns[1].get_text()
            proxies.append({'ip': ip, 'port': port})
    return proxies

Proksi Berputar

Fungsi berikut mengatur penggiliran proksi dengan memilih proksi yang tersedia secara rawak daripada senarai yang diambil:

from random import choice

def rotate_proxies(proxies):
    if proxies:
        return choice(proxies)
    else:
        return None

Menyatukan Semuanya

Menggabungkan semua fungsi, skrip akhir menyepadukan pengambilan proksi, penghuraian dan putaran, menyediakan sistem putaran proksi yang lancar.

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
from random import choice

# Functions previously defined: fetch_proxies, parse_proxies, rotate_proxies

proxies = []  # This will hold our list of proxies

def refresh_proxies():
    global proxies
    proxies = parse_proxies(fetch_proxies('https://oneproxy.pro/free-proxy/'))

def get_random_proxy():
    if not proxies:
        refresh_proxies()
    return rotate_proxies(proxies)

# Main execution
refresh_proxies()
proxy = get_random_proxy()
print(proxy['ip'], proxy['port'])

Penskalaan Profesional dengan OneProxy

Untuk persekitaran pengeluaran yang skalanya meluas kepada beribu-ribu permintaan, kumpulan proksi percuma mungkin tidak mencukupi kerana pertimbangan kebolehpercayaan dan kelajuan. Pada ketika ini, a perkhidmatan proksi berputar menjadi penting.

OneProxy menawarkan penyelesaian yang mantap dengan ciri seperti:

  • Proksi Kelajuan Tinggi Global: Berjuta-juta proksi pusat data di seluruh dunia memastikan sambungan tidak terganggu dan pantas.
  • Putaran IP Automatik: Alamat IP diputar dengan lancar untuk mengelakkan pengesanan dan larangan.
  • Putaran Rentetan Ejen Pengguna: Meniru permintaan daripada pelbagai penyemak imbas dan versi web, meningkatkan ketidakbolehkesan bot.
  • Penyelesaian CAPTCHA: Mengintegrasikan teknologi untuk menyelesaikan CAPTCHA secara automatik, dengan itu memperkemas proses mengikis.

Dengan OneProxy, pelanggan telah berjaya mengharungi cabaran penyekatan IP, dengan itu memperkemas proses pengekstrakan data web mereka.

Perkhidmatan OneProxy adalah serba boleh dan boleh dilaksanakan dalam mana-mana bahasa pengaturcaraan, memenuhi pelbagai projek dan keperluan.

Tawaran istimewa: Alami kuasa putaran proksi profesional dengan OneProxy. Mulakan dengan 50,000 permintaan tanpa sebarang kos

Beli Proksi Berputar

TINGGALKAN KOMEN

Proksi Pusat Data
Proksi Dikongsi

Sebilangan besar pelayan proksi yang boleh dipercayai dan pantas.

Bermula pada$0.06 setiap IP
Proksi Berputar
Proksi Berputar

Proksi berputar tanpa had dengan model bayar setiap permintaan.

Bermula pada$0.0001 setiap permintaan
Proksi Persendirian
Proksi UDP

Proksi dengan sokongan UDP.

Bermula pada$0.4 setiap IP
Proksi Persendirian
Proksi Persendirian

Proksi khusus untuk kegunaan individu.

Bermula pada$5 setiap IP
Proksi tanpa had
Proksi tanpa had

Pelayan proksi dengan trafik tanpa had.

Bermula pada$0.06 setiap IP
Bersedia untuk menggunakan pelayan proksi kami sekarang?
daripada $0.06 setiap IP