logo
languageDEdown
menu

Verwenden RegEx-Tool zum Passen der HTML-Tags  

5 Minuten lesen

Was ist RegEx?

In der allgemeinen Informatik ist eine Regular Expression (abgekürzt als RegEx oder RegExp) ein regulärer Ausdruck. Also eine Zeichenfolge, mit der eine Reihe von Zeichenfolgen mithilfe einiger Syntaxregeln beschrieben wird. Diese sind vor allem in der Softwareentwicklung und im Webdesign in Verwendung. RegEx ist zum Beispiel bei Anwendungen wichtig, die Eingaben des Benutzers erwarten. Das ist etwa bei bei Online-Formularen der Fall.

“Ein regulärer Ausdruck (englisch regular expression, Abkürzung RegExp oder RegEx) ist in der theoretischen Informatik eine Zeichenkette, die der Beschreibung von Mengen von Zeichenketten mithilfe bestimmter syntaktischer Regeln dient.” 

——Zitiert von Wikipedia.de

Die RegEx-Grundregeln

Wenn Sie Telefonnummern mithilfe von RegEx Ausdrücken extrahieren möchten, aber nicht wissen, wie man einen solchen Ausdruck schreibt, kann Ihnen dieser Artikel dabei helfen.

Es kostet Zeit, RegEx von Grund auf zu erlernen. Wenn Sie RegEx jedoch häufig bei Ihrer täglichen Arbeit verwenden und dadurch Ihre Produktivität erheblich steigern können, lohnt es dann die Mühe.

ZeichenErklärung
[abc]Mit den eckigen Klammern [ und ] wird eine Zeichenauswahl definiert. Das Beispiel findet eines dieser Zeichen.
[a-e]Ein Bindestrich definiert einen bestimmten Bereich. Das Beispiel findet die Zeichen a, b, c, d und e. Auch hier muss nur eines der Zeichen zutreffen.
[a-zA-Z0-9]Innerhalb einer Zeichenauswahl können auch mehrere Gruppen und Einzelzeichen stehen. Im Beispiel entspricht die Zeichenauswahl den Kleinbuchstaben a bis z, den Großbuchstaben A bis Z und sowie den Ziffern 0 bis 9.
[0-9]Der Bindestrich lässt sich auch nur auf Zahlen anwenden. Das Beispiel steht für die Ziffern 0 bis 9
[^a]Durch das ^ Zeichen am Anfang einer Zeichenauswahl wird diese negiert. Das bedeutet, dass es jedes Zeichen finden würde bis auf das nach dem ^.
^aSteht dieses Zeichen nicht innerhalb einer Klammer, so bedeutet es, dass es für den Anfang eines Textes steht.
a$Dieses Zeichen steht für das Ende einer Zeile oder einer Zeichenkette.
.Der Punkt steht für ein beliebiges Zeichen und kann somit jedes Zeichen finden.
a*Das Zeichen vor dem Stern darf beliebig oft vorkommen.
.*Punkt und Stern in Kombination findet X-beliebig viele Zeichen.
a+Das Zeichen vor dem + muss mindestens einmal vorkommen.
ab{2}Die Buchstaben die davor stehen, müssen exakt 2 Mal gefunden werden.
ab?Das Fragezeichen bedeutet, dass das Zeichen vorkommen kann aber es muss nicht vorkommen.
(a|A)Die Pipe | agiert als ODER. Es darf nur eines der beiden Zeichen(-ketten) vorkommen.
$1Ist die Rückwärtsreferenz auf eine Gruppe bzw. ein Teilmuster. Vor allem für das Suchen und Ersetzen wichtig. $1 bezieht sich auf die erste Klammer- Gruppe.

Beispiele für Extraktion von HTML

Wir können RegEx verwenden, um auch HTML-Tags zu passen und die Daten in HTML-Dokumenten zu extrahieren.

HTML ist eigentlich aus Zeichenketten zusammengesetzt. RegEx ist mächtig, denn die auf verschiedene Zeichenketten passen kann. Ehrlich gesagt, reguläre Ausdrücke sind nicht die einzige Wahl, um HTML korrekt zu parsen, und beim Parsen von HTML mit regulären Ausdrücken gibt es einige häufige Fehler, wie z. B. fehlende schließende Tags, falsches Passen der Tags usw. Außerdem verwenden Programmierer eher andere HTML-Parser wie PHPQuery, BeautifulSoup, html5lib-Python, usw. Aber wenn Sie schnell HTML-Tags passen möchten und wenige Kenntnis über die Syntax von RegEx wissen, können Sie das praktische Tool verwenden, um Muster in HTML-Dokumenten zu erkennen. Für jeden Programmierer oder jemanden, der Webdaten extrahieren möchte, lohnt es sich, reguläre Ausdrücke zu lernen, denn das Tool Ihre Arbeitseffizienz und Produktivität merklich steigern kann.

Schauen wir uns ein paar Beispiele an:

Reguläre Ausdrücke zum Passen der HTML-Tags:

<(.*)>.*?|<(.*) />
<(\S*?)[^>]*>.*?</\1>|<.*?/>

Regulärer Ausdruck, der zum Passen aller TD-Tags:

<td\s*.*>\s*.*<\/td>

Regulärer Ausdruck zum Passen <img src=”test.gif”/>:

<[a-zA-Z]+(\s+[a-zA-Z]+\s*=\s*("([^"]*)"|'([^']*)'))*\s*/>

RegEx-Tool von Octoparse

Octoparse, ein visuelles Web-Scraping-tool, bietet ein RegEx-Tool zur Generierung regulärer Ausdrücke. Es kann einfache reguläre Ausdrücke generieren, die meisten Ihre Bedürfnisse erfüllen können. Außerdem bietet Octoaprse auch die Überprüfung von eigenen regulären Ausdrücken. Mithilfe RegEx-Tool von Octoparse können wir HTML-Tags passen und somit einfach Daten in HTML-Dokumenten extrahieren.

Hier bekommen Sie Octoparse! 🤩

Preis: $0~$249 pro Monat

Packet & Preise:Octoparse Premium-Preise & Verpackung

Kostenlose Testversion: 14-tägige kostenlose Testversion

Herunterladen:Octoparse für Windows und MacOs

Wenn Sie Probleme bei der Datenextraktion haben, oder uns etwas Vorschlägen geben möchten, kontaktieren Sie bitte uns per E-Mail (support@octoparse.com). 💬

Autor*in: Das Octoparse Team ❤️

Themen untersuchen

Starten mit Octoparse heute

Download

Verwandte Artikel

  • avatarNeela Schmidt
    In diesem Artikel stelle ich 3 kostenlose und nützliche Tools zum Extrahieren der Bilder auf der Website vor, damit Sie die Bilder aus einer Website problemlos herunterladen können.
    13. April 2023 · 1 Minuten lesen
  • avatarNeela Schmidt
    Octoparse ist eine moderne visuelle Webdaten-Extraktionssoftware. Sowohl erfahrene als auch unerfahrene Benutzer können damit mühelos Informationen aus Websites extrahieren. Für die meisten Scraping-Aufgaben ist keine Kodierung erforderlich.
    13. April 2023 · 5 Minuten lesen
  • avatarNeela Schmidt
    Bevor Sie Text aus HTML Datei extrahieren, sollen Sie zuerst es genau wissen, wie Text oder andere Arten von Daten in HTML Datei dargestellt sind. Der Hauptteil einer HTML Datei ist eine Reihe von Elementen, die nach einer bestimmten Regel als Code angeordnet sind, damit das Layout einer Website gestaltet wird.
    14. Dezember 2022 · 3 Minuten lesen
  • avatarNeela Schmidt
    XPath spielt eine sehr wichtige Rolle in Octoparse, wenn Sie dabei Daten scrapen. In diesem Artikel würde ich detailliert XPath vorstellen, damit Sie verstehen können, was XPath ist und wie sie verwendet wird, um durch genaue und präzise Bauaufgaben Ihre gewünschten Daten zu scrapen.
    19. Oktober 2022 · 13 Minuten lesen