undefined
Blog > Big Data > Post

8 Schlüsselwörter über maschinelles Lernen

Thursday, September 30, 2021

 

Sie haben wahrscheinlich schon tausendmal von maschinellem Lernen gehört, aber wissen Sie wirklich, was es ist? In diesem Artikel habe ich 8 wichtigste Begriffe vorgestellt, die direkt mit dem maschinellen Lernen zusammenhängen. Ich habe versucht, die Fachbegriffe einfach zu erklären und das Fachchinesisch zu vermeiden, so dass hoffentlich jeder, der sich für maschinelles Lernen interessiert, ein paar nützliche Punkte aus diesem Beitrag mitnehmen kann. 

 

Die 8 Begriffe, die in diesem Artikel vorgestellt werden, sind:

Natural language processing (NLP, Computerlinguistik)
Datenbank
Computer Vision
Überwachtes Lernen
Unüberwachtes Lernen
Verstärkungslernen
Neuronales Netz
Überanpassung

 

1. Natural language processing (NLP, Computerlinguistik)

 

NLP ist ein sehr verbreitetes Konzept für maschinelles Lernen. Es hat es einem Computer ermöglicht, menschliche Sprache zu lesen und sie in alle möglichen Prozesse einzubinden. 

 

 

 

Die bekanntesten Anwendungen von NLP sind:


(a) Klassifizierung und Sortierung von Texten

Dabei geht es um die Klassifizierung von Texten in verschiedene Kategorien oder die Sortierung einer Liste von Texten nach Relevanz. Es kann zum Beispiel verwendet werden, um Spam-Mails auszusortieren (indem analysiert wird, ob es sich um Spam-Mails handelt oder nicht), oder es kann auch verwendet werden, um Informationen über Ihre Konkurrenten zu ermitteln und zu extrahieren.

 

(b) Stimmungsanalyse

Bei der Stimmungsanalyse ist ein Computer in der Lage, Gefühle wie Wut, Traurigkeit, Freude usw. durch die Analyse von Textzeichenfolgen zu entschlüsseln. Grundsätzlich kann ein Computer also erkennen, ob Menschen sich glücklich, traurig oder wütend fühlen, während sie die Wörter oder Sätze eingeben. Dies wird häufig bei Umfragen zur Kundenzufriedenheit verwendet, um zu analysieren, wie die Kunden ein Produkt empfinden.  

 

(c) Extraktion von Informationen

Dies dient hauptsächlich dazu, einen langen Absatz in einem kurzen Text zusammenzufassen, ähnlich wie die Erstellung einer Zusammenfassung.

 

(d) Erkennung benannter Entitäten

Nehmen wir an, dass Sie viele unordentliche Profildaten extrahiert haben, wie z. B. Adresse, Telefon, Name usw., die alle miteinander vermischt sind. Die Extraktion von benannten Einheiten hilft dabei, unordentliche Informationen in strukturierte Daten zu verwandeln, indem alle Daten identifiziert und den richtigen Datentypen zugeordnet werden. 

 

(e) Spracherkennung

Ein gutes Beispiel dafür ist Siri von Apple.

 

(f) Verstehen und Generieren natürlicher Sprache

NLU bedeutet, dass der Computer menschliche Ausdrücke in Computerausdrücke umwandelt. Im Gegensatz dazu geht es bei der Erzeugung natürlicher Sprache darum, Computerausdrücke in menschliche Ausdrücke umzuwandeln. Diese Technologie wird häufig für die Kommunikation zwischen Menschen und Robotern eingesetzt.

 

(g) Maschinelle Übersetzung

Maschinelle Übersetzung bedeutet, dass Texte automatisch in eine andere Sprache (oder in eine bestimmte Sprache) übersetzt werden.

 

2. Datenbank

 

Datenbanken sind eine notwendige Komponente des maschinellen Lernens. Wenn Sie ein System für maschinelles Lernen einrichten wollen, müssen Sie entweder Daten aus öffentlichen Ressourcen sammeln oder neue Daten erzeugen. Alle Datensätze, die für das maschinelle Lernen verwendet werden, bilden zusammen die Datenbank. Im Allgemeinen teilen Wissenschaftler die Daten in drei Kategorien ein:

 

Trainingsdatensatz: Der Train-Datensatz wird zum Trainieren von Modellen verwendet. Durch das Training können die Modelle für maschinelles Lernen die wichtigen Merkmale der Daten erkennen

 

Validierungsdatensatz: Der Validierungsdatensatz wird zum Trimmen der Koeffizienten der Modelle und zum Vergleich der Modelle verwendet, um das optimale Modell auszuwählen. Der Validierungsdatensatz unterscheidet sich vom Trainingsdatensatz und kann nicht im Trainingsabschnitt verwendet werden, da es zu einer Überanpassung kommen kann, die sich nachteilig auf die Generierung neuer Daten auswirkt.

 

Testdatensatz: Sobald das Modell bestätigt ist, wird der Testdatensatz verwendet, um die Leistung des Modells in einem neuen Datensatz zu testen.

 

Beim traditionellen maschinellen Lernen ist das Verhältnis dieser drei Datensätze 50/25/25; einige Modelle benötigen jedoch nur wenig Tuning und der Trainingsdatensatz kann tatsächlich eine Kombination aus Training und Validierung (Kreuzvalidierung) sein, sodass das Verhältnis von Training/Test 70/30 sein kann.

 

 

3. Computer Vision

 

Computer Vision ist ein Bereich der künstlichen Intelligenz, der sich mit der Analyse und dem Verständnis von Bild- und Videodaten beschäftigt. Auf die folgenden Probleme treffen wir häufig beim Computer Vision:

 

Bildklassifizierung: Die Bildklassifizierung ist eine Aufgabe der Computer Vision, bei der der Computer lernt, bestimmte Bilder zu erkennen. Zum Beispiel wird ein Modell trainiert, um bestimmte Objekte an bestimmten Orten zu erkennen.

 

Zielerkennung: Die Zielerkennung besteht darin, dem Modell beizubringen, eine bestimmte Klasse aus einer Reihe von vordefinierten Kategorien zu erkennen und diese mit Hilfe von Rechtecken einzukreisen. Die Zielerkennung kann zum Beispiel zur Konfiguration eines Gesichtserkennungssystems verwendet werden. Das Modell kann alle vordefinierten Dinge erkennen und sie hervorheben.

Bildsegmentierung: Unter Bildsegmentierung versteht man die Aufteilung eines digitalen Bildes in mehrere Segmente (Gruppen von Pixeln, auch Superpixel genannt). Ziel der Segmentierung ist es, die Darstellung eines Bildes zu vereinfachen und/oder zu ändern, so dass es aussagekräftiger und leichter zu analysieren ist.

 

Signifikanztest: Sobald Stichprobendaten durch eine Beobachtungsstudie oder ein Experiment gesammelt wurden, können Analysten mithilfe statistischer Schlussfolgerungen Beweise bestätigen oder Behauptungen über die Population, aus der die Stichprobe gezogen wurde, bewerten. Die Methoden, die zur Unterstützung oder zum Widerspruch der Behauptungen auf der Grundlage von Stichprobendaten verwendet werden, sind als Signifikanztests bekannt.

 

4. Überwachtes Lernen

 

Überwachtes Lernen ist die Aufgabe des maschinellen Lernens, eine Funktion aus markierten Trainingsdaten abzuleiten. Ein überwachter Lernalgorithmus analysiert die Trainingsdaten und erzeugt eine abgeleitete Funktion, die für die Zuordnung neuer Beispiele verwendet werden kann. Ein optimales Szenario ermöglicht es dem Algorithmus, die Klassenbezeichnungen für unbekannte Instanzen korrekt zu bestimmen. Dies setzt voraus, dass der Lernalgorithmus auf "vernünftige" Weise von den Trainingsdaten auf ungesehene Situationen verallgemeinert werden kann.

 

 

5. Unüberwachtes Lernen

 

Unüberwachtes maschinelles Lernen ist die Aufgabe des maschinellen Lernens, eine Funktion zur Beschreibung einer verborgenen Struktur aus "unmarkierten" Daten abzuleiten (eine Klassifizierung oder Kategorisierung ist in den Beobachtungen nicht enthalten). Da die Beispiele, die dem Lernenden gegeben werden, nicht gekennzeichnet sind, gibt es keine Bewertung der Genauigkeit der Struktur, die vom entsprechenden Algorithmus ausgegeben wird - dies ist eine Möglichkeit, unüberwachtes Lernen von überwachtem Lernen und Verstärkungslernen zu unterscheiden.

 

 

6. Reinforcement learning

 

Verstärkungslernen ist etwas anderes als das, was wir gerade besprochen haben. Verstärkungslernen ähnelt dem Prozess des Spielens mit Computern und zielt darauf ab, Computer so zu trainieren, dass sie Aktionen in einer Umgebung ausführen, um eine bestimmte Art von kumulativer Belohnung zu maximieren. In einer Reihe von Experimenten lernt der Computer viele Spielmustern, und während eines Spiels kann der Computer das optimale Muster verwenden, um die Belohnung zu maximieren.
Ein bekanntes Beispiel ist Alpha Go, das den besten menschlichen Schachspieler geschlagen hat. Kürzlich wurde das Verstärkungslernen auch auf Echtzeitgebote angewandt.

 

7. Neural network

 

Neuronale Netze sind Rechensysteme, die sich an den biologischen neuronalen Netzen orientieren, die die Gehirne von Tieren bilden. Genau wie im Gehirn, wo viele Nervenzellen miteinander verbunden sind und ein Netz bilden, besteht ein künstliches neuronales Netz aus vielen Schichten. Jede Schicht besteht aus einer Reihe von Neuronen. Ein künstliches neuronales Netz kann Daten nacheinander verarbeiten, d. h. nur die erste Schicht ist mit den Eingaben verbunden. Wenn die Anzahl der Schichten sehr groß wird, wird das Modell zu einem Deep-Learning-Modell. Es ist schwierig, ein ein künstliches neuronales Netz mit einer bestimmten Anzahl von Schichten zu definieren. Vor 10 Jahren war es mit nur 3 Schichten tief genug, jetzt brauchen wir normalerweise 20 Schichten.

 

 

NNs haben viele Variante, die häufig benutzt sind:

  • Convolutional Neural Network - ein großer Durchbruch in der Computer Vision
  • Rekurrentes neuronales Netzwerk - zur Verarbeitung von Daten mit Sequenzmerkmalen, wie z. B. Text und Aktienkurse.
  • Vollständig verbundenes Netzwerk - es ist das einfachste Modell für die Verarbeitung statischer/tabellarischer Daten.

 

 

8. Überanpassung

 

Unter Überanpassung versteht man "die Erstellung einer Analyse, die einem bestimmten Datensatz zu sehr oder genau entspricht und daher möglicherweise nicht in der Lage ist, zusätzliche Daten zu berücksichtigen oder zukünftige Beobachtungen zuverlässig vorherzusagen". Mit anderen Worten: Wenn ein Modell aus unzureichenden Daten lernt, kommt es zu Abweichungen, die sich negativ auf das Modell auswirken können.

 

Dies ist ein häufiges, aber kritisches Problem.

Wenn es zu einer Überanpassung kommt, bedeutet dies im Allgemeinen, dass das Modell zufällige Geräusche als Dateneingabe annimmt und sie als wichtiges Signal für die Anpassung betrachtet, weshalb sich das Modell bei neuen Daten schlechter verhält (auch bei zufälligen Geräuschen gibt es Abweichungen). Dies geschieht häufig bei einigen komplizierten Modellen wie neuronalen Netzen oder Beschleunigungsgradientenmodellen.

 

 

 

Autor: Das Octoparse Team 

 

Relative Artikel

Leadgenerierung mit Web Scraping

Die 15 bestbezahlten Programmiersprachen im Jahr 2021

RegEx: Extrahieren aller Telefonnummern aus Zeichenketten 

30 beste Tools zur Datenvisualisierung im Jahr 2021

Die besten Programmiersprachen für Web Crawler: PHP, Python oder Node.js?

 

 

 

 

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen