Wie verwendet man Proxies in Python Scraping?

Bei der Automatisierung von Online-Prozessen können Proxyserver Ihnen helfen, Ratenbeschränkungen zu umgehen, Drosselungen zu vermeiden und Ihre echte IP-Adresse zu verschleiern. In diesem Beitrag sehen wir uns an, wie man Proxys in Python-Skripten für Web-Scraping, API-Abfragen und Web-Automatisierung verwendet. Mit dem richtigen Einsatz von Proxy-Servern können Ihre Python-Skripte skaliert werden, um mehr Daten zu extrahieren und über längere Zeiträume hinweg zu arbeiten. Wir werden alle grundlegenden Möglichkeiten zur Verwendung von Proxys in Ihren eigenen Web-Scraping-, API-Abfragen und Web-Automatisierungsanwendungen durchgehen.

Neela Schmidt

2023-03-25T14:45:52+00:00

5 Minuten lesen

Einführung

Mit dem richtigen Einsatz von Proxy-Servern können Ihre Python-Skripte skaliert werden, um mehr Daten zu extrahieren und über längere Zeiträume hinweg zu arbeiten. Wir werden alle grundlegenden Möglichkeiten zur Verwendung von Proxys in Ihren eigenen Web-Scraping-, API-Abfragen und Web-Automatisierungsanwendungen durchgehen.

Was genau sind Proxys?

Ein Proxyserver fungiert als Vermittler zwischen einem Client-Gerät (z. B. einem Computer) und dem Internet. Er ermöglicht es Kunden, sich über eine indirekte Netzwerkverbindung mit anderen Systemen zu verbinden.

Im Folgenden sind einige der wichtigsten Vorteile des Einsatzes von Proxys aufgeführt:

Anonymität – Proxys können Ihre echte IP-Adresse und Ihren Standort verbergen, so dass Sie anonym im Internet surfen können.
Sicherheit – Durch die Verschleierung Ihrer echten IP-Adresse bieten Proxys eine zusätzliche Sicherheitsebene.
Umgehung von Beschränkungen – Proxys können Ihnen dabei helfen, Website-Sperren und Beschränkungen aufgrund Ihrer IP-Adresse zu umgehen.
Automatisierung – Bei der Automatisierung von Vorgängen können Sie mit Proxys viele IP-Adressen durchlaufen, um Erkennungs- und Drosselungsbeschränkungen zu umgehen.

Wie funktionieren Proxys?

Wenn Sie eine Internetverbindung zu einem Proxyserver herstellen, wird Ihr gesamter ein- und ausgehender Internetverkehr über die IP-Adresse des Proxyservers geleitet und nicht über Ihre eigene. Für externe Systeme und Websites scheint es so, als kämen die Anfragen vom Proxyserver und nicht von Ihnen selbst.

Der Proxy dient jedoch lediglich als Vermittler, der Ihre Anfragen an die Ziel-Website weiterleitet, die Antwort abruft und sie an Sie zurückschickt.

Sie können Ihre Identität effizient verheimlichen und die IPs wechseln, um automatisierte Aufgaben unbemerkt auszuführen, indem Sie sich mit verschiedenen Proxyservern mit unterschiedlichen IP-Adressen verbinden. Dies ist hilfreich für Web Scraping, API-Automation und Web Crawling.

Verwendung von Python-Proxys

Um Proxies in Python-Projekten zu verwenden, müssen Sie zunächst eine Bibliothek importieren, die eine Verbindung zu Proxy-Servern herstellt.

Zur Veranschaulichung wird die Requests Proxy-Bibliothek verwendet:

import requests
import requests_proxy

Als Nächstes geben Sie die Proxy-URL an, mit der Sie sich verbinden möchten:

proxy_url = "100.100.10.10:3000"

Konfigurieren Sie dann Requests so, dass dieser Proxy verwendet wird:

proxies = {
   "http": proxy_url,  
   "https": proxy_url    
}
requests_proxy.proxy(proxies)

Nun werden alle Requests über diesen Proxy-Server geleitet.

Sie können einen Requests-Aufruf über den Proxy wie folgt durchführen:

response = requests.get("http://icanhazip.com")
print(response.text) # Shows proxy's IP

Scraping von Daten von Amazon.de mit Proxies

In diesem Abschnitt sehen wir uns ein Beispiel für ein Python-Skript an, das Produktdaten von Amazon.de über mehrere Proxys abruft.

Wir gehen darauf ein:

Importieren der notwendigen Bibliotheken
Importieren einer Liste von Proxys aus einer Datei
Zufällige Auswahl eines Proxys aus der Liste
Konfigurieren von Anfragen zur Verwendung des ausgewählten Proxys
Eine Anfrage an eine Amazon-Produktseite stellen, die über den Proxy geleitet wird
Ausdrucken der gescrapten Daten
Entfernen des aktuell verwendeten Proxys und Auswählen eines anderen

Dieses vollständige Arbeitsbeispiel zeigt Ihnen, wie Sie Daten von Amazon.de scrapen und dabei die Drosselung und Erkennung durch Proxy-Rotation vermeiden können.

Schritt 1: Importieren der erforderlichen Bibliotheken

import requests 
from bs4 import BeautifulSoup
import random
import requests_proxy

Schritt 2: Importieren einer Liste von Proxys aus einer Datei

with open("proxies.txt") as f:
     proxies = f.readlines()

Schritt 3: Zufällige Auswahl eines Proxys

proxy = random.choice(proxies).strip()

Schritt 4: Konfigurieren Sie Requests zur Verwendung dieses Proxys.

requests_proxy.proxy({'http': proxy, 'https': proxy})

Schritt 5: Stellen Sie eine Anfrage an eine Amazon-Produkt-URL

url = "https://www.amazon.de/product-details/123"
response = requests.get(url)

Schritt 6: Parsen des HTML und Extrahieren der Produktdaten

soup = BeautifulSoup(response.text)
price = soup.select_one(".price").text
title = soup.select_one("h1").text

Schritt 7: Drucken Sie die Ergebnisse

print(title)
print(price)

Schritt 8: Entfernen Sie den verwendeten Proxy und wählen Sie einen anderen

proxies.remove(proxy)  
proxy = random.choice(proxies).strip()

Zusammenfassung

Zusammenfassend lässt sich sagen, dass der Einsatz von Proxys in der Python-Automatisierung Ihnen helfen kann, Web-Scraping, API-Abfragen und andere Aufgaben zu verbessern:

Umgehung von Ratenbeschränkungen und IP-Sperren
Verschleierung Ihrer tatsächlichen Identität und Ihres Standorts
Vermeidung von Entdeckung durch regelmäßige IP-Rotation

Bei der ordnungsgemäßen Verwendung müssen jedoch die Sicherheit, die Betriebszeit und die Einhaltung von Gesetzen berücksichtigt werden. Die Nutzung eines kostenpflichtigen Proxy-Dienstes und eines Proxy-Pool-Managers kann Ihnen helfen, die Vor- und Nachteile abzuwägen.

Ziehen Sie Octoparse in Erwägung, eine visuelle Online-Scraping-Anwendung, die Proxys und DMCA-Compliance für Sie verwaltet, um mühelos eine zuverlässige Extraktion von Webdaten in großen Mengen zu erreichen. Melden Sie sich für eine kostenlose Octoparse-Testversion an, um zu sehen, wie einfach es ist, unendlich viele Online-Daten in großem Umfang zu extrahieren.

Hier bekommen Sie Octoparse! 🤩

Preis: $0~$249 pro Monat

Packet & Preise:Octoparse Premium-Preise & Verpackung

Kostenlose Testversion: 14-tägige kostenlose Testversion

Herunterladen:Octoparse für Windows und MacOs

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬

Autor*in: Das Octoparse Team ❤️

Neela Schmidt

Neela ist die Spezialistin für digitales Marketing bei Octoparse. Als Liebhaberin aller Dinge rund um Technologie, Kultur und das Internet verfügt Abigail über umfangreiche Erfahrung in der Datenextraktion und -analyse. https://www.linkedin.com/in/octoparse-deutschland/