Técnicas avançadas para rotação de proxy com Python

Pichai Nurjanah
postado por
Pichai Nurjanah

Escolha e compre proxies

Técnicas avançadas para rotação de proxy com Python
0 Comentários

A criação de um mecanismo eficiente de rotação de proxy é essencial ao lidar com tarefas de web scraping ou mineração de dados em grande escala. Embora os estágios iniciais de projetos de web scraping ou rastreamentos em escala mínima possam ser suficientes com uma configuração básica, o verdadeiro desafio surge durante a expansão. Para mitigar riscos como o bloqueio de IP e garantir a robustez de sua infraestrutura de scraping, a utilização de um sofisticado sistema de rotação de proxy torna-se imperativa.

Para tais fins, o uso de um provedor de serviços de proxy profissional como o OneProxy torna-se inestimável. Com um conjunto diversificado de servidores proxy de data center, esses serviços podem aumentar enormemente a confiabilidade e a eficiência de suas tarefas de scraping.

Abaixo, nos aprofundamos no desenvolvimento de um rotador de proxy mais avançado usando Python e Beautiful Soup, aproveitando os serviços do OneProxy para obter melhores resultados.

Rotação de proxy com Python

Configuração preliminar

Antes de começar, certifique-se de ter Beautiful Soup e o requests biblioteca instalada em seu ambiente Python. Essas ferramentas permitirão analisar conteúdo HTML e gerenciar solicitações HTTP facilmente.

Nosso script de rotação de proxy buscará proxies públicos do pool de proxy gratuito do OneProxy, que pode ser acessado em Lista de proxy grátis OneProxy. Esta lista é atualizada regularmente, oferecendo um novo conjunto de proxies para diversas necessidades.

Código de busca básico

Primeiro, precisamos estabelecer o código básico para buscar o conteúdo HTML da lista de proxy gratuito do OneProxy. Usamos uma string de agente de usuário para emular um navegador da web, o que ajuda a contornar detecções básicas de bot baseadas em agente de usuário.

# -*- coding: utf-8 -*-
from bs4 import BeautifulSoup
import requests
url = https://oneproxy.pro/free-proxy/

def fetch_proxies(url):
    header = {
        'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_2) ' +
        'AppleWebKit/601.3.9 (KHTML, like Gecko) Version/9.0.2 Safari/601.3.9'
    }
    response = requests.get(url, headers=header)
    return response.content

Esta função simplesmente recupera o conteúdo HTML do URL fornecido.

Analisando a lista de proxy

O BeautifulSoup biblioteca analisará o conteúdo HTML para extrair os proxies. Os proxies normalmente são listados em uma estrutura de tabela na página da web, identificada por tags e atributos HTML específicos.

def parse_proxies(html_content):
    soup = BeautifulSoup(html_content, 'lxml')
    proxy_table = soup.select_one('#proxy-list-table')  # Replace with the correct ID
    proxies = []
    for row in proxy_table.select('tr'):
        columns = row.select('td')
        if columns:
            ip, port = columns[0].get_text(), columns[1].get_text()
            proxies.append({'ip': ip, 'port': port})
    return proxies

Proxies rotativos

A função a seguir orquestra a rotação do proxy selecionando aleatoriamente um proxy disponível na lista obtida:

from random import choice

def rotate_proxies(proxies):
    if proxies:
        return choice(proxies)
    else:
        return None

Juntando tudo

Combinando todas as funções, o script final integra busca, análise e rotação de proxy, fornecendo um sistema de rotação de proxy contínuo.

# -*- coding: utf-8 -*-
import requests
from bs4 import BeautifulSoup
from random import choice

# Functions previously defined: fetch_proxies, parse_proxies, rotate_proxies

proxies = []  # This will hold our list of proxies

def refresh_proxies():
    global proxies
    proxies = parse_proxies(fetch_proxies('https://oneproxy.pro/free-proxy/'))

def get_random_proxy():
    if not proxies:
        refresh_proxies()
    return rotate_proxies(proxies)

# Main execution
refresh_proxies()
proxy = get_random_proxy()
print(proxy['ip'], proxy['port'])

Dimensionamento profissional com OneProxy

Para ambientes de produção onde a escala se estende a milhares de solicitações, os pools de proxy gratuitos podem não ser suficientes devido a considerações de confiabilidade e velocidade. Nesta conjuntura, um serviço de proxy rotativo torna-se essencial.

OneProxy oferece uma solução robusta com recursos como:

  • Proxies globais de alta velocidade: Milhões de proxies de data centers em todo o mundo garantem conexões rápidas e ininterruptas.
  • Rotação automática de IP: os endereços IP são alternados perfeitamente para evitar detecção e banimentos.
  • Rotação de sequência de usuário-agente: imita solicitações de vários navegadores e versões da Web, aumentando a não detectabilidade de bots.
  • Resolução de CAPTCHA: Integra tecnologia para resolver CAPTCHAs automaticamente, agilizando assim o processo de raspagem.

Com o OneProxy, os clientes navegaram triunfantemente pelos desafios do bloqueio de IP, agilizando assim seus processos de extração de dados da web.

Os serviços do OneProxy são versáteis e podem ser implementados em qualquer linguagem de programação, atendendo a uma ampla gama de projetos e requisitos.

Oferta especial: Experimente o poder da rotação de proxy profissional com OneProxy. Comece com 50.000 solicitações sem nenhum custo

Compre proxies rotativos

DEIXE UM COMENTÁRIO

Proxies de datacenter
Proxies Compartilhados

Um grande número de servidores proxy confiáveis e rápidos.

Começando às$0.06 por IP
Proxies rotativos
Proxies rotativos

Proxies rotativos ilimitados com um modelo de pagamento por solicitação.

Começando às$0.0001 por solicitação
Proxies privados
Proxies UDP

Proxies com suporte UDP.

Começando às$0.4 por IP
Proxies privados
Proxies privados

Proxies dedicados para uso individual.

Começando às$5 por IP
Proxies Ilimitados
Proxies Ilimitados

Servidores proxy com tráfego ilimitado.

Começando às$0.06 por IP
Pronto para usar nossos servidores proxy agora?
de $0.06 por IP