Ursprünglich veröffentlicht am 09. Juli 2021.
Verfasst von: Anja Kaup (PR und Marketing Managerin) – anja.kaup@infocient.de
Die Entwicklung von Algorithmen zur Verknüpfung von Datensätzen und leistungsfähigere Computer ermöglichen umfassendere Analysen als je zuvor. Data Science beschreibt die Methoden, mit denen nützliche Informationen aus den Daten gewonnen werden können. Zur Data Science gehören Prinzipien, Prozesse und Verfahrensweisen, die durch automatisierte Datenanalyse zum besseren Verständnis von Phänomenen beitragen.
Daten sind heute fast grenzenlos verfügbar und werden in Produktion, im Lieferkettenmanagement, für Kundenverhalten oder Arbeitsabläufe gesammelt. Richtig genutzt können Unternehmen damit Wettbewerbsvorteile erzielen.
Kundenbindung ist dabei eines der Hauptanwendungsgebiete – v.a. in der Telekommunikations- und Finanzbranche. Diese beiden Branchen haben als erste und am umfassendsten Data-Mining-Technologien eingesetzt.
Ziel des Buches
Eine gute Verständigung zwischen Managern, Entwicklern und Data Scientists zu erzielen ist ein Hauptanliegen des Buches. Daher möchten die Autoren ein echtes Verständnis von Data Science vermitteln und nicht nur einen Überblick über das Thema geben.
Der Inhalt ist aus diesem Grund etwas technisch, besondere mathematische Kenntnisse sind aber nicht notwendig, die Mathematik wird auf ein Minimum beschränkt. Auch können sich Manager besser auf Bewerbungsgespräche mit Data Scientists vorbereiten.
Die Autoren möchten die datenanalytische Sichtweise der Leser schulen und einen Handlungsrahmen zur Strukturierung der systematsichen Analyse von Daten entwickeln.
Dafür wird ein Beispiel eines Telekommunikationsunternehmens gewählt, bei dem der Grund für Kundenabwanderungen gesucht werden soll. Ein vereinfachtes Szenario wird nach und nach weiterentwickelt, um den tatsächlichen Aufwand besser widerzuspiegeln.
Zielgruppen des Buches
Das Buch richtet sich an Führungskräfte und Projektmanager, die mit Data Scientists zusammenarbeiten oder Data-Science-orientierte Projekte managen. Auch Entwickler, die Data-Science-Lösungen implementieren und angehende Data Scientists erfahren mehr über grundlegende Konzepte der Data Science.
Aufbau des Buches
Das Buch ist in 14 Kapitel gegliedert
Kapitel 1, Datenanalytisches Denken, erklärt die fundamentale Konzepte, auf denen Data Science basiert und dass Daten als strategisches Gut betrachtet werden müssen, in das auch investiert werden muss,.
Kapitel 2, Geschäftliche Aufgaben und Data-Science-Lösungen, beschreibt dass das automatische Aufspüren von Mustern in Daten ein Prozess klar abgegrenzter Phasen ist. Bei einigen Phasen wird Infomationstechnologie verwendet zum Erkennen von Mustern, bei anderen Phasen sind Kreativität und Fachkenntnis gefragt.
Kapitel 3, Einführung in die Vorhersagemodellbildung: Von der Korrelation zur überwachten Segmentierung, gibt einen Abriss über grundlegende Konzepte der Vorhersagemodellbildung und exemplarische Verfahren, wie Korrelationen erkennen, Merkmale und Variablen auszuwählen und das Entscheidungsbaumverfahren. Die Entwicklung eines Modells, das den Wert einer Zielvariablen vorhersagen kann, ist eines der wichtigsten Aufgaben der Data Science.
Kapitel 4, Ein Modell an Daten anpassen, stellt einen zweiten Typ von Vorhersageverfahren vor, der als Funktionsanpassung oder parametrisierte Modellbildung beschrieben wird. Dieses Vorgehen führt zu einem Problem des Data Minings: dass immer Strukturen in Daten zu finden sind, auch wenn diese zufällig entstanden sind – es führt zu Verzerrung oder Überanpassung.
Kapitel 5, Überanpassung erkennen und vermeiden, geht darauf ein, diese Verzerrung oder Überanpassung zu erkennen und zu vermeiden mit exemplarischen Verfahren wir Kreuzvalidierung, Merkmalsauswahl, Bäume „stutzen“ und Regularisierung.
Kapitel 6, Ähnlichkeit, Nachbarn und Cluster, berechnet die Ähnlichkeit von durch Daten beschriebenen Objekten – am Beispiel der Whiskey-Analyse, wo ähnlich schmeckende Whiskeys gefunden werden sollen.
Kapitel 7, Entscheidungsanalyse I: Was ist ein gutes Modell?, greift das Anfangsbeispiel wieder auf und berechnet die zu erwartenden Profite und unternimmt eine Kosten-Nutzen-Abschätzung mit Folgen für Investitionen in Daten.
Kapitel 8, Visualisierung der Leistung von Modellen, geht auf exemplarische Verfahren wie Profitkurven, Lift- und ROC-Kurven ein, um den beteiligten Interessengruppen Informationen zu vermitteln.
Kapitel 9, Evidenz und Wahrscheinlichkeiten, stellt neue Methoden vor (generative Modelle), die versuchen nachzubilden, wie Daten erzeugt wurden (welche Klasse hat diese Instanz wahrscheinlich erzeugt?) Angewandt wird der Lift einer Evidenz z.B. auf Facebook-Likes. Was Mitgliedern des Netzwerks gefällt, lässt Rückschlüsse auf andere Eigenschaften zu, z.B. das Abschneiden bei Intelligenztests.
Kapitel 10, Texte repräsentieren und auswerten, zeigt wie Texte für Data Mining repräsentiert werden und exemplarischen Verfahren, wie das „Bag-of-words-Modell“, Berechnung des TFIDF-Maßes oder Topic Models.
Kapitel 11, Entscheidungsanalyse II, Analytisches Engineering, untersucht, wie sich Erfahrungswerte bei der Formulierung geschäftlicher Aufgaben einsetzen lassen und welche Rolle Data Mining bei der Lösung spielt. Konkret wird hier auf das Eingangsbeispiel eingegangen und die Minimierung von Verlust als eigentliches Ziel erkannt – nicht, möglichst viele Kunden zu halten. Dafür muss der Wert eines Kunden ermittelt werden.
Kapitel 12, Weitere Verfahren und Methoden der Data Science, geht auf weitere exemplarische Verfahren ein, wie Profiling des Verhaltens, Datenreduzierung, Assoziationen und Gruppierung nach gleichzeitigem Auftreten (genutzt für Film- und Kaufempfehlungen), Bias und Varianz
Kapitel 13, Data Science und Geschäftsstrategie, erörtert die Wechselwirkung von Data Science und Geschäftsstrategie und geht wieder auf das Beispiel des Telekommunikationsunternehmens ein. Sowohl Analytisches Engineering als auch den Vorgang als „Erkunden und Entdecken“ zu begreifen sind für erfolgreiche Projekte wichtig.
Kapitel 14, Schlussfolgerungen, geht auf die Grenzen der Data Science und den menschlichen Faktor ein. Menschliches Wissen und computergestütztes Verfahren müssen verknüpft werden
Besonderheiten des Buches
- Das Beispiel, als Analytiker bei MegaTelCo, dem größten Telekommunikationsunternehmen der USA, den Grund für Kundenabwanderung zu erkennen und Lösungen zu finden, zieht sich durch das gesamte Buch. Während die Lösung Schritt für Schritt verbessert wird, entwickelt sich gleichzeitig das Verständnis für die fundamentalen Konzepte der Data Science.
- Der Leitfaden zur Beurteilung von Projektvorschlägen im Anhang listet die wichtigsten Fragen zu Aufgaben- und Datenverständnis, zur Datenaufbereitung, Modellbildung und Beurteilung auf.
- Ein weiterer Anhang zeigt bei einem weiteren beispielhaften Projektvorschlag die Mängel und bessere Lösungsmethoden auf.
- Das Buch ist klar gegliedert, jedes Kapitel wird von einer Zusammenfassung abgeschlossen.
- Die Sprache ist einfach und leicht zu verstehen – gerade bei komplexen Inhalten wichtig, um nicht die Lust am Lesen zu verlieren.
Fazit
Am Beispiel der kleinen regionalen Signet Bank zeigen die Autoren, welchen Wettbewerbsvorteil Unternehmen gewinnen können, wenn sie in Daten investieren und die Grundlagen der Data Science anwenden:
1990 war die IT ausgereift genug, um bessere Vorhersagemodelle für die Vorhersage von Kreditausfällen zu ermöglichen. Allerdings fehlten Daten für ein Profitabilitätsmodell mit dessen Hilfe verschiedene Kunden unterschiedliche Angebote erhalten sollten. Die Bank führte Experimente durch, indem sie verschiedenen Kunden unterschiedliche Kreditkartenkonditionen anbot. Zunächst stieg die Anzahl überschuldeter Konten, während die Data Scientists daran arbeiteten, aus den Daten Vorhersagemodelle zu erarbeiten, bis die Kreditkartensparte so erfolgreich wurde, dass sie als Capital One abgespalten wurde, einer der größten Kreditkartenaussteller der USA.
Dann widmet das Buch sein Hauptaugenmerk allerdings dem Erklären von Verfahren zur Modellbildung, dem Stellenwert des Erkundens und Verfeinerns von Modellen und dem analytischen Prozess der Entscheidungsfindung. Auch wenn es leicht lesbar beschrieben ist, sind die Verfahren und mathematischen Gleichungen komplex.
Wer sich fragt, wie auf der Basis von Marketing-, Vertriebs- oder Produktentwicklungsdaten mit Data Science eine optimierte Zukunft abgeleitet werden kann, erkennt, dass ein großer Aufwand dafür erforderlich ist.
Es werden wenig typische Beispiele genannt, abgesehen von Film- und Kaufempfehlungen auf Einkaufsportalen oder dem Finden ähnlicher Whiskey-Sorten. Zur Verfolgung dieser Fragen sollte man sich ein anderes Buch aussuchen.
Data Science für Unternehmen: Data Mining und datenanalytisches Denken praktisch anwenden. Autor: Foster Provost, Tom Fawcett, Frechen: mitp Verlags GmbH & Co. KG, 1. Auflage 2017, 432 Seiten