undefined
Blog > Post

Verwenden RegEx-Tool zum Passen der HTML-Tags  

Thursday, June 24, 2021

Sie werden wissen, wie mächtig der reguläre Ausdruck (RegEx) ist, wenn Sie ihn einmal benutzen." - Ein Entwickler schreibt so.

 

„Ein regulärer Ausdruck (englisch regular expression, Abkürzung RegExp oder Regex) ist in der theoretischen Informatik eine Zeichenkette, die der Beschreibung von Mengen von Zeichenketten mithilfe bestimmter syntaktischer Regeln dient. Reguläre Ausdrücke finden vor allem in der Softwareentwicklung Verwendung. Neben Implementierungen in vielen Programmiersprachen verarbeiten auch viele Texteditoren reguläre Ausdrücke in der Funktion „Suchen und Ersetzen“. Reguläre Ausdrücke können als Filterkriterien in der Textsuche verwendet werden, indem der Text mit dem Muster des regulären Ausdrucks abgeglichen wird.“ Dies ist ein Zitat aus Wikipedia, der zur Definition des regulären Ausdrucks verwendet wird.

 

Verwandte Artikel (Englisch):

 

Using RegEx to extract emails

Using RegEx to extract phone numbers

RegEx to reformat data extracted

 

 

 

Wir können also RegEx verwenden, um HTML-Tags zu passen und die Daten in HTML-Dokumenten zu extrahieren.

 

HTML ist eigentlich aus Zeichenketten zusammengesetzt. RegEx ist mächtig, denn die auf verschiedene Zeichenketten passen kann. Ehrlich gesagt, reguläre Ausdrücke sind nicht die einzige Wahl, um HTML korrekt zu parsen, und beim Parsen von HTML mit regulären Ausdrücken gibt es einige häufige Fehler, wie z. B. fehlende schließende Tags, falsches Passen der Tags usw. Außerdem verwenden Programmierer eher andere HTML-Parser wie PHPQuery, BeautifulSoup, html5lib-Python, usw. Aber wenn Sie schnell HTML-Tags passen möchten und wenige Kenntnis über die Syntax von RegEx wissen, können Sie das praktische Tool verwenden, um Muster in HTML-Dokumenten zu erkennen. Für jeden Programmierer oder jemanden, der Webdaten extrahieren möchte, lohnt es sich, reguläre Ausdrücke zu lernen, denn das Tool Ihre Arbeitseffizienz und Produktivität merklich steigern kann.

 

Schauen wir uns ein paar Beispiele an:

 

  • Reguläre Ausdrücke zum Passen der HTML-Tags:

 

<(.*)>.*?|<(.*) />

<(\S*?)[^>]*>.*?</\1>|<.*?/>

 

  • Regulärer Ausdruck, der zum Passen aller TD-Tags:

 

<td\s*.*>\s*.*<\/td>

 

  • Regulärer Ausdruck zum Passen <img src="test.gif"/>:

 

<[a-zA-Z]+(\s+[a-zA-Z]+\s*=\s*("([^"]*)"|'([^']*)'))*\s*/>

 

 

Mithilfe RegEx können wir HTML-Tags passen und somit einfach Daten in HTML-Dokumenten extrahieren.

 

 Regular expression tool

 

(Laden Sie Octoparse 8 herunter - Öffnen Sie die Software - Klicken Sie auf das Symbol )

 

Octoparse

Octoparse, ein visuelles Web-Scraping-tool, bietet ein RegEx-Tool zur Generierung regulärer Ausdrücke. Es kann einfache reguläre Ausdrücke generieren, die meisten Ihre Bedürfnisse erfüllen können. Außerdem bietet Octoaprse auch die Überprüfung von eigenen regulären Ausdrücken.

 

>>Lesen Sie unsere Kundengeschichten

 

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen