KDD vs Data Mining
KDD (Knowledge Discovery in Databases) ist ein Bereich der Informatik, der Werkzeuge und Theorien enthält, die dem Menschen helfen, nützliche und bisher unbekannte Informationen (dh Wissen) aus großen Sammlungen digitalisierter Daten zu extrahieren. KDD besteht aus mehreren Schritten, und Data Mining ist einer davon. Data Mining ist die Anwendung eines bestimmten Algorithmus, um Muster aus Daten zu extrahieren. Trotzdem werden KDD und Data Mining synonym verwendet.
Was ist KDD?
Wie oben erwähnt, ist KDD ein Bereich der Informatik, der sich mit der Extraktion bisher unbekannter und interessanter Informationen aus Rohdaten befasst. KDD ist der gesamte Prozess des Versuchs, Daten durch die Entwicklung geeigneter Methoden oder Techniken zu verstehen. Dieser Prozess befasst sich mit der Zuordnung von Daten auf niedriger Ebene zu anderen Formen, die kompakter, abstrakter und nützlicher sind. Dies wird erreicht, indem kurze Berichte erstellt, der Prozess der Datengenerierung modelliert und Vorhersagemodelle entwickelt werden, die zukünftige Fälle vorhersagen können. Aufgrund des exponentiellen Datenwachstums, insbesondere in Bereichen wie der Geschäftswelt, ist KDD zu einem sehr wichtigen Prozess geworden, um diese große Datenmenge in Business Intelligence umzuwandeln, da die manuelle Extraktion von Mustern in den letzten Jahrzehnten scheinbar unmöglich geworden ist. Beispielsweise,Es wird derzeit für verschiedene Anwendungen wie Analyse sozialer Netzwerke, Betrugserkennung, Wissenschaft, Investitionen, Fertigung, Telekommunikation, Datenbereinigung, Sport, Informationsabruf und hauptsächlich für Marketingzwecke verwendet. KDD wird normalerweise verwendet, um Fragen zu beantworten, wie z. B. welche Hauptprodukte dazu beitragen könnten, im nächsten Jahr in Wal-Mart einen hohen Gewinn zu erzielen. Dieser Prozess besteht aus mehreren Schritten. Zunächst wird ein Verständnis für die Anwendungsdomäne und das Ziel entwickelt und anschließend ein Zieldatensatz erstellt. Anschließend werden die Daten bereinigt, vorverarbeitet, reduziert und projiziert. Der nächste Schritt ist die Verwendung von Data Mining (siehe unten), um das Muster zu identifizieren. Schließlich wird entdecktes Wissen durch Visualisieren und / oder Interpretieren konsolidiert. Sport, Informationsbeschaffung und vor allem für Marketing. KDD wird normalerweise verwendet, um Fragen zu beantworten, wie z. B. welche Hauptprodukte dazu beitragen könnten, im nächsten Jahr in Wal-Mart einen hohen Gewinn zu erzielen. Dieser Prozess besteht aus mehreren Schritten. Zunächst wird ein Verständnis für die Anwendungsdomäne und das Ziel entwickelt und anschließend ein Zieldatensatz erstellt. Anschließend werden die Daten bereinigt, vorverarbeitet, reduziert und projiziert. Der nächste Schritt ist die Verwendung von Data Mining (siehe unten), um das Muster zu identifizieren. Schließlich wird entdecktes Wissen durch Visualisieren und / oder Interpretieren konsolidiert. Sport, Informationsbeschaffung und vor allem für Marketing. KDD wird normalerweise verwendet, um Fragen zu beantworten, wie z. B. welche Hauptprodukte dazu beitragen könnten, im nächsten Jahr in Wal-Mart einen hohen Gewinn zu erzielen. Dieser Prozess besteht aus mehreren Schritten. Zunächst wird ein Verständnis für die Anwendungsdomäne und das Ziel entwickelt und anschließend ein Zieldatensatz erstellt. Anschließend werden die Daten bereinigt, vorverarbeitet, reduziert und projiziert. Der nächste Schritt ist die Verwendung von Data Mining (siehe unten), um das Muster zu identifizieren. Schließlich wird entdecktes Wissen durch Visualisieren und / oder Interpretieren konsolidiert. Zunächst wird ein Verständnis für die Anwendungsdomäne und das Ziel entwickelt und anschließend ein Zieldatensatz erstellt. Anschließend werden die Daten bereinigt, vorverarbeitet, reduziert und projiziert. Der nächste Schritt ist die Verwendung von Data Mining (siehe unten), um das Muster zu identifizieren. Schließlich wird entdecktes Wissen durch Visualisieren und / oder Interpretieren konsolidiert. Zunächst wird ein Verständnis für die Anwendungsdomäne und das Ziel entwickelt und anschließend ein Zieldatensatz erstellt. Anschließend werden die Daten bereinigt, vorverarbeitet, reduziert und projiziert. Der nächste Schritt ist die Verwendung von Data Mining (siehe unten), um das Muster zu identifizieren. Schließlich wird entdecktes Wissen durch Visualisieren und / oder Interpretieren konsolidiert.
Was ist Data Mining?
Wie oben erwähnt, ist Data Mining nur ein Schritt innerhalb des gesamten KDD-Prozesses. Es gibt zwei Hauptziele von Data Mining, die durch das Ziel der Anwendung definiert werden, nämlich Verifizierung oder Ermittlung. Bei der Überprüfung wird die Hypothese des Benutzers zu Daten überprüft, während bei der Erkennung automatisch interessante Muster gefunden werden. Es gibt vier Hauptaufgaben im Bereich Data Mining: Clustering, Klassifizierung, Regression und Zuordnung (Zusammenfassung). Beim Clustering werden ähnliche Gruppen aus unstrukturierten Daten identifiziert. Klassifizierung sind Lernregeln, die auf neue Daten angewendet werden können. Bei der Regression werden Funktionen mit minimalen Fehlern für Modelldaten gefunden. Und die Assoziation sucht nach Beziehungen zwischen Variablen. Dann muss der spezifische Data Mining-Algorithmus ausgewählt werden. Je nach Ziel unterschiedliche Algorithmen wie lineare Regression, logistische Regression,Entscheidungsbäume und naive Bayes können ausgewählt werden. Dann werden interessierende Muster in einer oder mehreren Darstellungsformen gesucht. Schließlich werden Modelle entweder anhand der Vorhersagegenauigkeit oder der Verständlichkeit bewertet.
Was ist der Unterschied zwischen KDD und Data Mining?
Obwohl die beiden Begriffe KDD und Data Mining häufig synonym verwendet werden, beziehen sie sich auf zwei verwandte, jedoch leicht unterschiedliche Konzepte. KDD ist der Gesamtprozess zum Extrahieren von Wissen aus Daten, während Data Mining ein Schritt innerhalb des KDD-Prozesses ist, der sich mit der Identifizierung von Mustern in Daten befasst. Mit anderen Worten, Data Mining ist nur die Anwendung eines bestimmten Algorithmus, der auf dem Gesamtziel des KDD-Prozesses basiert.