[Data Mining Definition] ⏩ Was ist Data Mining?

Big Data, Business Intelligence, Digitale Transformation, Data Mining und viele weitere ähnliche Begriffe sind schon lange in aller Munde. Doch was genau versteckt sich hinter dem Begriff Data Mining eigentlich? Das und was mit Data-Mining erreicht werden kann, wie typischerweise in Projekten vorgegangen wird und wo die Vorteile und Herausforderungen liegen, erfahren Sie im folgenden Beitrag.

‍

Was ist Data Mining? (Definition)

Data Mining bezeichnet die systematische und computergestützte Anwendung von statistischen Algorithmen, um möglichst automatisiert in sehr großen Datenbeständen (Big Data / Large Data Sets) Zusammenhänge, Muster, Trends und Verbindungen zu erkennen. Die Ergebnisse werden anschließend in verwendbare Datenstrukturen überführt und für die weitere Verarbeitung bereitgestellt.

Data Mining beschreibt im engeren Sinne den Analyseschritt des „Knowledge Discovery in Databases“ (deutsch „Wissensentdeckung in Datenbanken“) Prozesses, der es zum Ziel hat, neue Zusammenhänge in bestehenden Datenmengen zu erkennen. In der Praxis werden die Begriffe allerdings oft gleichgesetzt und beschreiben dann neben der eigentlichen Analyse auch die Vorbereitung der Daten (z.B. über Warehousing / Data Warehouses), sowie die Bewertung und Interpretation der Ergebnisse.

Data Mining ist ein Teilbereich des Themenkomplexes Business Intelligence (BI) und ist zudem eng verzahnt mit Predictive Analytics, also der Voraussage von Situationen in der Zukunft auf Basis der vorliegenden Daten aus der Vergangenheit.

Anwendungsbeispiele

Eingesetzt wird Data-Mining vor allem, um die vorhandenen Datenmengen zu analysieren, Muster zu erkennen und, basierend auf den Auswertungen, Entscheidungen treffen zu können.

Ziel ist es, in der Praxis z.B. Vorhersagen über die Zukunft zu erstellen, sich abzeichnende Trends früh zu erkennen, Vermutungen über Zusammenhänge zu bestätigen bzw. zu widerlegen sowie Geschäftsprozesse zu verbessern.

Konkrete Anwendungsfälle wären beispielsweise die Bonität von Kunden zu ermitteln, den verfügbaren Kreditrahmen zu berechnen, Kaufmuster und Trends zu entdecken (Warenkorbanalyse wie etwa „zu Produkt X wird oft Y gekauft“), den Zusammenhang von Krankheiten und der Effektivität von Behandlungen in der Medikamentenentwicklung zu bewerten oder Betrugsfälle zu erkennen, wie etwa anhand der Muster von Kreditkartentransaktionen.

‍

Zu den Leistungen

Jetzt Demo buchen

Mehr über uns

kostenfrei Webinar-Aufzeichnung downloaden

kostenfrei am Webinar teilnehmen

Fact Sheet kostenfrei downloaden

Checkliste kostenfrei downloaden

Infopaper herunterladen

Case Studies downloaden

Heading

Jetzt anfragen

‍

Wie funktioniert Data Mining?

Je nach Anwendungsfall und Aufgabe werden von Data Mining Software Tools unterschiedliche Algorithmen, Machine Learning und KI eingesetzt, um Informationen aus den Daten zu gewinnen. Im Speziellen unterscheidet man zwischen den folgenden Mining-Methoden, die jeweils ein bestimmtes Ziel verfolgen:

‍

Data Mining Methoden

Ausreißer-Erkennung / anomaly detection:

Ziel ist die Erkennung von ungewöhnlichen Datensätzen, wie etwa Ausreißern oder Datenfehlern, die weitere Nachforschungen erfordern. Im Fall von Datenfehlern oder unbrauchbaren Anomalien versucht man diese Werte für die weitere Analyse auszublenden, da sie das Ergebnis verschlechtern. In manchen Fällen sind aber genau diese Ausreißer die gesuchten Werte (z. B. bei der Erkennung von Betrugsfällen).

Clusteranalyse / clustering:

Die Clusteranalyse versucht, Datensätze aufgrund von Ähnlichkeiten zu gruppieren ohne die Datenstrukturen zu kennen bzw. die bekannten Strukturen zu verwenden.

Klassifikation / classification:

Klassifikation meint die Zuordnung von Daten zu bestimmten übergeordneten Klassen, z.B. die Einordnung von Emails als Spam oder die Einteilung in Risikogruppen bei der Bonität von Kunden.

Assoziationsanalyse / association rule learning:

Die Assoziationsanalyse wird verwendet, um Zusammenhänge und Abhängigkeiten in den Daten zu finden. Ein Beispiel ist hier die klassische Warenkorbanalyse, also die Analyse, welches Produkt oft in Kombination mit einem anderen gekauft wird.

Regressionsanalyse / regression:

Die Regressionsanalyse soll Beziehungen zwischen Datensätzen erkennen, wie etwa, dass Preis und Kaufkraft der Kunden einen Einfluss auf die Verkaufsmenge hat.

‍

Der Data Mining Prozess (Erklärung Ablauf)

Der Data Mining Prozess orientiert sich in der Regel am sogenannten Cross Industry Standard Process for Data Mining (kurz CRISP-DM), der im Rahmen eines EU Förderprojekts durch namhafte Firmen der Industrie entwickelt wurde. Ziel war es, ein standardisiertes Prozessmodell für das Data Mining zu erschaffen, um nach diesem Vorgehen beliebige Datenbestände durchsuchen und analysieren zu können.

Das Prozessmodell definiert sechs Phasen, die zum Teil mehrfach durchlaufen werden müssen:

Data Mining Definiton: Data Mining Prozess (Prozessdiagramm) — Abb. 1: Data Mining Definition: Das Prozessdiagramm stellt die Beziehung zwischen den verschiedenen Phasen des CRISP-DMa dar. Illustration von Kenneth Jensen,basierend auf IBN SPSS Modeler CRISP-DM Guide [CC BY-SA 3.0 (*https://creativecommons.org/licenses/by-sa/3.0)], via Wikimedia Commons*

‍

1. Phase: Business Understanding (Geschäftsverständnis)

In der ersten Phase findet die Definition der Ziele und Business-Anforderungen statt. Es wird festgelegt, was konkret erreicht werden soll und wie dabei vorgegangen wird.

2. Phase: Data Understanding (Datenverständnis, Auswahl relevanter Daten)

Nachdem die Ziele und das Vorgehen geklärt sind, kann die Analyse der vorhandenen Daten durchgeführt werden. Es findet zudem eine Prüfung der Datenqualität statt sowie eine Bewertung, ob die Qualität für die gewählten Ziele ausreichend ist. Sollte das nicht der Fall sein, müssen Ziele und Anforderungen gegebenenfalls überarbeitet werden.

3. Phase: Data Preparation (Datenaufbereitung)

Sobald Ziele und Daten bereitstehen, können die Daten für die Auswertung aufbereitet werden. Die Datenaufbereitung erfordert in der Regel die meiste Zeit.

4. Phase: Modeling (Auswahl und Anwendung von Methoden)

Auf Basis der vorbereiteten Daten können eines oder mehrere Datenmodelle erstellt werden, indem eine oder mehrere Data Mining Methoden ausgewählt und angewandt werden. Bei der Modellierung wird oft festgestellt, dass die Datenaufbereitung angepasst werden muss, um die gewählten Methoden anwenden zu können.

5. Phase: Evaluation (Bewertung und Interpretation der Ereignisse)

Nach der Modellierung folgt die Bewertung der erstellten Datenmodelle in Bezug auf die Erreichung der gewählten Ziele. Es wird das geeignetste Modell ausgewählt oder – falls die Ergebnisse nicht zufriedenstellend sind – der Schritt zurück zu Phase 1 gewählt, um Ziele und Anforderungen zu überarbeiten.

6. Phase: Deployment (Bereitstellung der Ergebnisse)

Am Ende des Prozesses steht die Aufbereitung der gewonnen Erkenntnisse und die Bereitstellung in einem geeigneten Format.

‍

Vorteile und Probleme beim Einsatz von Data Mining

Vorteile

Entscheidungsfindung:

Die Auswertung der Daten sowie die gewonnen Zusammenhänge und Erkenntnisse können genutzt werden, um Trends zu entdecken, zukünftige Entwicklungen vorherzusagen und damit dem Management bei der Entscheidungsfindung zu helfen.

Effizienzsteigerung:

Die effiziente Analyse großer Datenmengen, sowie die Gewinnung von Informationen, kann genutzt werden, um sich einen Wettbewerbsvorteil zu verschaffen. Das Erkennen von Fehlern und Problemen in den Abläufen führt zu einer Minimierung der Kosten.

Verbesserung von Geschäftsprozessen:

Mithilfe von Data Mining können Annahmen zu Problemen in Geschäftsprozessen bestätigt bzw. widerlegt werden und Schwächen in Prozessen aufgedeckt werden. Im Laufe der Zeit hat sich der Spezialbereich Process Mining entwickelt, der gezielt die Analyse und Optimierung von Geschäftsprozessen verfolgt.

‍

Probleme und Herausforderungen

Hoch qualifizierte Data Mining Experten benötigt:

Die mächtigen Tools sind das eine – die richtige Anwendung das andere. Um mit Data Mining zu wertvollen und richtigen Ergebnissen zu kommen ist es essenziell, dass die entsprechende Software von Spezialisten bedient wird. Diese benötigen sowohl das Verständnis der Quelldaten, um diese korrekt vor- bzw. aufbereiten zu können. Ebenso bedarf es der Fähigkeit, eine Einschätzung treffen zu können, ob die von der Software gelieferten Muster, Verbindungen, Zusammenhänge und Ergebnisse im Allgemeinen korrekt sind und Relevanz haben.

Mangelhafte Datenqualität:

Wie bei allen Auswertungsmethoden ist die Qualität der Daten eine entscheidende Voraussetzung für ein gutes Ergebnis. Jeder Fehler und jeder unvollständige Datensatz führt unweigerlich zu einer Verschlechterung des Ergebnisses und birgt sogar die Gefahr, falsche Ergebnisse zu liefern. Verlässt man sich in Folge auf diese Ergebnisse können falsche Entscheidungen getroffen werden.

Privacy & Security:

Das Sammeln großer Datenmengen birgt zwangsläufig auch immer Gefahren in Bezug auf Privatsphäre und Sicherheit. In den Datenmengen können viele benutzerbezogene Daten enthalten sein, die nicht verwendet oder in Verbindung gebracht werden sollten. Andererseits ergeben sich auch Chancen, indem Sicherheitsrisiken und Verstöße erkannt und in Folge behoben werden können.

‍

Fazit

Für Unternehmen kann Data Mining eine erhebliche Verbesserung im operativen Geschäft bedeuten. Die gesammelten Daten, die von Jahr zu Jahr steigen, können ausgewertet und zur Erkenntnisgewinnung herangezogen werden. BI und damit auch Data Mining steckt jetzt schon in vielen Softwareprodukten und wird von Firmen weltweit eingesetzt, oftmals ohne sich genauer Gedanken darüber zu machen, welches Verbesserungspotenzial wirklich damit verbunden ist. Dieser Trend wird weiterhin ansteigen, gerade in Verbindung mit der Analyse von Geschäftsprozessen, dem Process Mining, bekommen Unternehmen die Möglichkeit, ihre Geschäftsprozesse massiv zu optimieren und damit Kosten enorm zu reduzieren.

‍

Zu den Leistungen

kostenfreie & unverbindliche Demo buchen