undefined
Blog > Big Data > Post

10 unerlässliche Fähigkeiten für Data Mining

Saturday, September 18, 2021

Unter Data Mining versteht man die systematische Anwendung statistischer Methoden auf große Datenbestände (insbesondere „Big Data“ bzw. Massendaten) mit dem Ziel, neue Querverbindungen und Trends zu erkennen (Wikipedia). Data Mining umfasst nicht nur die Datenverarbeitung und -verwaltung, sondern auch die intelligenten Methoden des maschinellen Lernens, der Statistik und der Datenbanksysteme.

 

Um unseren Lesern dabei zu helfen, die Technologie der Datenwissenschaft zu beherrschen, haben wir die 80 besten Bücher über Datenwissenschaft, und 88 Ressourcen sowie Tools, um ein Datenwissenschaftler zu werden, zusammenfasst. In diesem Artikel konzentriere ich mich auf den Bereich des Data-Minings und fasse 10 wichtige Fähigkeiten dafür zusammen.

 

data mining

 

  

Computerkenntnisse 

1. Programmier-/Statistiksprache: R, Python, C++, Java, Matlab, SQL, SAS, shell/awk/sed…

Data Mining beruht in hohem Maße auf Programmierung, aber es gibt keine einstimmige Meinung, welche die beste Sprache für Data Mining ist. Es hängt alles von dem Datensatz ab, mit dem Sie arbeiten. Peter Gleeson hat vier Spektren vorgeschlagen: Spezifität, Allgemeinheit, Produktivität und Leistung. Sie können als Achsenpaar betrachtet werden (Spezifität - Allgemeinheit, Leistung - Produktivität). Die meisten Sprachen lassen sich irgendwo auf dieser Karte einordnen. Laut einer Untersuchung von KD Nuggets sind R und Python die beliebtesten Programmiersprachen für Data Science (Datenwissenschaft).

Weitere Ressourcen:

Which Languages Should You Learn for Data Science [Freecode Camp]

Data Mining Algorithms in R [Wikibooks]

Best Python Modules for Data Mining [KD Nuggets]

 

2. Big data Verarbeitungsrahmen: Hadoop, Storm, Samza, Spark, Flink

Verarbeitungsrahmen verarbeiten die Daten im System, z. B. durch Auslesen aus nichtflüchtigen Speichern (NVM) und Einlesen von Daten in Ihr Datensystem. Dies ist der Prozess der Extraktion von Informationen und Erkenntnissen aus großen Mengen einzelner Datenpunkte.  Er kann in 3 Kategorien eingeteilt werden: Batch-only, Stream-only und Hybrid.

 

big data processing framework

 

Hadoop und Spark sind die bisher am häufigsten implementierten Frameworks, da Hadoop eine gute Option für nicht zeitkritische Batch-Workloads ist, die weniger kostspielig zu implementieren ist als andere. Spark hingegen ist eine gute Option für gemischte Arbeitslasten und bietet eine schnellere Batch-Verarbeitung und Mikro-Batch-Verarbeitung für Streams.

Weitere Ressourcen:

Hadoop, Storm, Samza, Spark, and Flink: Big Data Frameworks Compared [Digital Ocean]

Data Processing Framework for Data Mining [Google Scholar]

 

3. Betriebssystem: Linux

Linux ist ein beliebtes Betriebssystem für Data-Mining-Wissenschaftler, das viel stabiler und effizienter für den Betrieb großer Datensätze ist. Es ist von Vorteil, wenn Sie die gängigen Linux-Befehle kennen und in der Lage sind, ein verteiltes Spark-System für maschinelles Lernen unter Linux einzusetzen.

 

4. Datenbank-Kenntnisse: Relationale Datenbanken und nicht-relationale Datenbanken

Um große Datenmengen zu verwalten und zu verarbeiten, sollen Sie entweder über Kenntnisse in relationalen Datenbanken wie SQL oder Oracle verfügen, oder die nicht-relationale Datenbanken kennen, z.B.  Column: Cassandra, HBase; Dokument: MongoDB, CouchDB; Schlüsselwert: Redis, Dynamo.

 

Statistik- und Algorithmus-Kenntnisse

5. Grundlegende Statistikkenntnisse: Wahrscheinlichkeit, Wahrscheinlichkeitsverteilung, Korrelation, Regression, Lineare Algebra, Stochastische Prozesse...

Wenn wir uns an die Definition des Begriffs Data Mining erinnern, wissen wir, dass es beim Data Mining nicht nur um Kodierung oder Informatik geht. Es geht um die Schnittstellen zwischen mehreren Bereichen, von denen die Statistik ein wesentlicher Bestandteil ist. Grundlegende Kenntnisse der Statistik sind für einen Data Miner unerlässlich, da sie ihm helfen, Fragen zu identifizieren, genauere Schlussfolgerungen zu ziehen, zwischen Kausalität und Korrelation zu unterscheiden und die Sicherheit seiner Ergebnisse zu quantifizieren.

Weitere Ressourcen:

What Statistics Should I Know to do Data Science [Quora]

Statistical Methods for Data Mining [Research Gate]

 

6. Datenstruktur und Algorithmen

Zu den Datenstrukturen gehören Arrays, verknüpfte Listen, Stapel, Warteschlangen, Bäume, Hashtabellen, Mengen usw., und zu den gängigen Algorithmen gehören Sortieren, Suchen, dynamische Programmierung, Rekursion usw.

 

Die Beherrschung von Datenstrukturen und Algorithmen ist für das Data Mining von entscheidender Bedeutung, denn sie ermöglicht es Ihnen, bei der Verarbeitung großer Datenmengen kreativere und effizientere algorithmische Lösungen zu finden.

Weitere Ressourcen:

Data, Structure, and the Data Science Pipeline [IBM Developer]

Cousera: Data Structures and Algorithms [UNIVERSITY OF CALIFORNIA SAN DIEGO]

 

7. Maschinelles Lernen/Tiefes Lernen Algorithmus

Dies ist einer der wichtigsten Teile des Data-Minings. Algorithmen des maschinellen Lernens erstellen ein mathematisches Modell von Beispieldaten, um Vorhersagen oder Entscheidungen zu treffen, ohne für die Durchführung der Aufgabe zu programmieren. Und Deep Learning ist Teil einer breiteren Familie von Methoden des maschinellen Lernens. Maschinelles Lernen und Data Mining verwenden oft dieselben Methoden und überschneiden sich erheblich.

Weitere Ressourcen:

Essentials of Machine Learning Algorithms with Python and R Codes [Analytics Vidhya]

A Curated List of Awesome Machine Learning Frameworks, Libraries, and Software (by language) [Github josephmisiti]

 

8. Verarbeitung natürlicher Sprache

Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP), ein Teilgebiet der Informatik und der künstlichen Intelligenz. Die Technik hilft Computern, die menschliche Sprache zu verstehen, zu interpretieren und zu manipulieren. NLP wird häufig für die Segmentierung von Wörtern, die syntaktische und semantische Analyse, automatische Zusammenfassungen und textuelle Folgerungen verwendet. Für Data Miner, die mit großen Textmengen umgehen müssen, ist es ein Muss, die NLP-Algorithmen zu kennen.

Weitere Ressourcen:

10 NLP Tasks for Data Scientists [Analytics Vidhya]

A Curated List of Awesome Machine Learning Frameworks, Libraries, and Software (by language) [Github josephmisiti]

Open Source NLP Libraries: Standford NLP; Apache OpenNLP; Naturel Language Toolkit

 

Andere

9. Projekt-Erfahrung

Ihre Projekt-Erfahrung ist der wichtigste Beweis für Ihre Data-Mining-Fähigkeiten. Auf die Frage, wie man den ersten Job in der Datenwissenschaft bekommt, sagte David Robinson, der Chief Data Scientist bei DataCamp: "Die effektivste Strategie für mich war, öffentlich zu arbeiten. Ich habe gebloggt und viel Open-Source-Entwicklung betrieben, was mir geholfen hat, meine datenwissenschaftlichen Fähigkeiten öffentlich unter Beweis zu stellen." Wenn Sie mehr Erfahrung im Data Mining sammeln möchten, versuchen Sie, die besten Projekte in den 12 beliebtesten Data-Science-Programmplattformen zu finden.

 

10. Kommunikations- und Präsentationsfähigkeiten

Data Miner befassen sich nicht nur mit Daten, sondern sind auch dafür verantwortlich, anderen die Ergebnisse und Erkenntnisse zu erklären, die sie aus den Daten ziehen. Manchmal müssen sie diese auch einem nichttechnischen Publikum erklären, z. B. dem Marketingteam. Sie sollten in der Lage sein, Datenergebnisse zu interpretieren und zu erzählen, sowohl mündlich als auch schriftlich und in Form von Präsentationen.

 

 

Autor: Surie M.(Octoparse Team)

Bearbeitet von: Milly

 

 

Relative Artikel

 

Laden Sie Octoparse herunter, um mit Web-Scraping zu beginnen, oder kontaktieren Sie uns
für die Fragen über Web Scraping!

Kontaktieren Sie uns Herunterladen
btnImg
Diese Website verwendet Cookies um Ihnen ein besseres Internet-Erlebnis zu ermöglichen. Lesen Sie wie wir Cookies verwenden und Sie können sie kontrollieren, indem Sie auf Cookie-Einstellungen klicken. Wenn Sie die Website weiter nutzen, akzeptieren Sie unsere Verwendung von Cookies.
Akzeptieren Ablehnen