FlexITCS e.u.
Data Science   -  Digitalisierung gestalten

Was - Data Science? [rɪ'zʌlt]

Data Science ist eine handwerklich hochwertige Dienstleistung, die die nutzbringende Verwertung von Datenstrukturierte und unstrukturierte Daten, unstrukturierte Daten beinhalten u.a. Bilder und Texte aller Art anstrebt. Ziele von Data Science sind ErkenntnisgewinnDaten --> Informationen --> Wissen, Prognoseerstellung und Systemautomatisierung. Verwandte Disziplinen sind Data AnalyticsData Analytics: Teilgebiet von Data Science mit dem Fokus auf der statistischen/mathematischen Analyse vorhandener Datensätze, Data MiningData Mining: Teilgebiet von Data Science mit dem Fokus auf der Datenanalyse/Mustererkennung und der darauf aufbauenden modellgetriebenen Vorhersage zukünftiger Ereignisse, Begriff wird teilweise auch synonym zu 'Data Science' verwendet, Business AnalyticsBusiness Analytics: Data Analytics mit dem Schwerpunkt auf Business Daten, Business Intelligence (BI)Business Intelligence: Datengetriebenes Reporting (Dashboars u.ä.) - Intepretation historischer Daten, DMAICDMAIC: Define - Measure - Analyse - Improve - Control; Datengetriebenes Framework des Qualitätsmanagement-Ansatzes Lean Six Sigma (LSS) zur Optimierung von Prozessen und Big DataBig Data: Teilgebiet von Data Science mit dem Fokus auf der Verarbeitung großer Mengen unstrukturierter Daten in kurzer Zeit (Abgrenzungen fließend).

Obwohl die heute allgemein anerkannten Grundprinzipien von Data Science u.a. im Rahmen von datengetriebenen Arbeiten aus dem Bereich der Naturwissenschaften bereits lange Zeit methodisch vorweggenommen wurden, hat die Disziplin Data Science erst in den letzten Jahren die heutige enorme Aufmerksamkeit erreicht. Dazu beigetragen haben:

Data Science Projekte basieren idealerweise immer auf einer konkreten fachlichen Frage- oder Problemstellung. Von dieser Fragestellung ausgehend, werden relevante Daten gesammelt resp. ausgewählt, bereinigt, ggf. aggregiert / aufbereitet, sowie analysiert und visualisiert (Mustererkennung). Aus den aufbereiteten Daten werden Modelle unterschiedlicher Komplexität abgeleitet, die die Abbildung von unabhängigen Input-Variablen auf ein oder mehrere Ziel-Variablen implementieren. Die abgeleiteten Modelle erlauben Voraussagen für zukünftige Entwicklungen resp. für bisher nicht erprobte Konstellationen sowie - darauf aufbauend - die Formulierung von Handlungsempfehlungen.

Modelle können für entsprechende Anwendungsfälle in IT-Systemen integriert und regelmäßig automatisiert ausgeführt werden. Werden die abgeleiteten Modelle regelmäßig automatisiert ausgeführt, ist eine kontinuierliche Prüfung, Wartung und ggf. Weiterentwicklung der Modelle notwendig.

Begriffliche Einordnung

Die einzelnen Ausprägungen werden begrifflich eingeordnet:

Künstliche Intelligenz

Der Begriff der Künstlichen Intelligenz stellt einen Sonderfall dar, da er bereits in den 50er Jahren geprägt wurde und primär empirisch (nicht-technisch) definiert ist: Eine Maschine wird als 'intelligent' bezeichnet, wenn eine Testperson bei der Kommunikation mit dieser Maschine nicht unterscheiden kann, ob der Kommunikationspartner ein Mensch oder ein Programm ist (sogenannter 'Turing-Test').

Eine in diesem Sinne intelligente Maschine muss nicht zwingend datenbasiert funktionieren. Vielmehr ist bis zu einem bestimmten Umfang eine regelbasierte Umsetzung möglich, in dem Fakten, Ereignisse oder Aktionen mit konkreten und eindeutigen Repräsentationen erfasst werden und auf diesen Symbolen mathematische Operationen definiert werden (symbolische KIwas the dominant paradigm in AI from the 1950s to the late 1980s. It reached its peak popularity during the expert systems boom of the 1980s). Für komplexere Probleme werden jedoch datenbasierte, in der Regel selbstlernende Ansätze benötigt (statistische KI). Die beiden Bereiche Data Science und Künstliche Intelligenz überschneiden sich somit gegenseitig, ohne dass einer der beiden Bereiche den anderen vollumfänglich abdecken würde.

EU-Datenschutz-Grundverordnung

Durch kontinuierliches Aufzeichnen von Benutzeraktivitäten und -positionen sowie die systematische Verknüpfung großer Datenmengen mithilfe leistungsfähiger Algorithmen können detaillierte personenbezogene Benutzerprofilez.B. Bewegungsprofile, Kaufverhalten abgeleitet und missbräuchlich verwendet werden. Die DSGVOEU-Datenschutz-Grundverordnung, engl.: European privacy regulations, GDPR schräkt deshalb die Sammlung, Speicherung, Verarbeitung und Weitergabe personenbezogener Daten ein:

Die DSGVO gilt unabhängig vom Sitz der Institution/vom Wohnort der Person, die Daten sammelt und/oder verarbeitet, wenn die Daten europäische Personen betreffen. Sie zielt auch auf Datensätze, die selbst keine personenbezogenen Daten enthalten aber die Ableitung solcher Daten über die Kombination mehrerer Datensätze erlauben.

Data Science und DSGVO stehen in einem offensichtlichen Spannungsfeld zueinander, nicht zuletzt auch durch die fehlende detaillierte Nachvollziehbarkeit der Funktionalität Neuronaler Netze. Lösungen werden z.B. mit Ansätzen einer Explainable Artificial IntelligenceXAI, erklärbare künstliche Intelligenz/erklärbares Maschinenlernen diskutiert.

Warum Data Science? ['pə:(r)pəs]

Date Science erklärt einerseits beobachtete/gemessene Phänomene und ermöglicht andererseits nachvollziehbare, datengetriebene operative und strategische Entscheidungen - auch automatisiert und in Echtzeit. Wo eine Vollautomatisierung nicht möglich oder nicht erwünscht ist, können Digitale Assistenzen menschliche Experten in Echtzeit unterstützen.

  
Webseiten können datenbasiert optimiert werden, Kaufempfehlungenproduct recommendation benutzerspezifisch formuliert werden, Preise dynamisch gestaltet werden, Werbeanzeigen zielgenau eingeblendet werden und Informationen priorisiert/selektiv kommuniziert werden ('gläserner Kunde', Warenkorbanalyse, Bewertungssysteme). Die praktische Anwendung von Data Science in diesen Feldern ist weit fortgeschritten, was zur Forderung nach einem 'digitalen Verbraucherschutz' und einer verstärkten Awareness der Benutzer für den Umgang mit den eigenen Daten geführt hat.

Verbale Sprache, Texte und Bilder können mit SpracherkennungSpeech Recognition, Voice Recognition, Handschriftenerkennunghandwriting transcription: Ziffernerkennung / Digit Recognition; seit den 1990 Jahren ('LeNet', Yann LeCun, Bell Labs), Texterkennung (OCR)optical character recognition, Text MiningErkennung von Bedeutungsstrukturen in un- oder schwachstrukturierten Textdaten und Image Processingmaschinelles Sehen/computer vision: u.a. Gesichtserkennung, image classification, Object detection automatisch analysiert, klassifiziert und (vor)verarbeitet werden. Call Center Tätigkeiten werden damit zukünftig in Teilen von Software übernommen werden, digitale Simultandolmetscher übernehmen Übersetzungsarbeitenwird u.a. von Google Translate und beim Kölner Technologieunternehmen DeepL realisiert.

In der Medizin können Röntgenbilder und andere Bilder automatisch analysiert und bewertet werden. Erkrankungswahrscheinlichkeiten und erwartete Krankheitsverläufe können z.B. durch eine Protein-Analyse vorhergesagt werden.

Im Online-, Kreditkarten- oder Versicherungsgeschäft werden mit Data-Science-Techniken Betrugsversuche bei Finanztransaktionen detektiert (Fraud Detection, Anomalie-Erkennung). Die Analyse von wiederkehrenden Mustern im Bereich der Kriminalität ermöglicht eine vorausschauende Polizeiarbeit. Date Science ermöglicht aber auch eine effiziente und u.U. problematische Überwachung und Leistungsbewertung von Mitarbeitern, Bürgern, Sportlern usw.. Problematisch sind hier insbesondere (Einzel-)Fälle, wo die verwendeten Algorithmen 'irren', trotzdem aber automatisiert Maßnahmen mit negativen Auswirkungen für ggf. unbescholtene Betroffene ausgelöst werden.

Im Mobilitätssektor hilft Date Science Bedürfnisse von Fahrgästen und Kunden zu analysieren / zu verstehen / zu prognostizieren und die Angebotsplanung zu optimieren. Flotten und Infrastrukturen werden bedarfsgerecht ad hoc disponiert sowie Fahrgäste und Autolenker situationsgerecht geleitet (Smart Public Transport, Smart Cities). Etwaige Störungen können frühzeitig erkannt, etwaige Fahrzeug- und Infrastrukturausfälle mit Predictive Maintenancevorausschauende Wartung minimiert werden.

Datenbasierte Geschäftsmodelle bilden zusammen mit dem IoTInternet der Dinge - Internet of Things und Blockchaindezentrales Buchführungssystem über kryptografisch abgesicherte Verkettung von Blöcken die Basis für die moderne Sharing Economygeteilte Nutzung von freien Ressourcen.

Datenbasierte KI ist die Basis für komplexe autonome Systeme und für autonomes Fahren. Allgemein wird angenommen, dass Maschinen mit datenbasierter KI die menschliche Intelligenz in absehbarer Zeit "erreichen" und "übertreffen" können und damit ein neues Kapitel in der Zusammenarbeit Mensch / Maschine aufgeschlagen werden wird. Der Sieg des Programms AlphaGo über mehrere (menschliche) Meister gilt als Meilenstein auf diesem Weg. Andererseits hat es der Geschichte der KI seit den 1950er Jahren bereits mehrfach Phasen gegeben, in denen hochgesteckte ErwartungenMarvin Minsky, 1970: 'In from three to eight years we will have a machine with the general intelligence of an average human being.' geweckt aber dann doch nicht erfüllt wurden. Heute sind (vermeintlich) fehlende Business Cases als auch kulturell begründete Einschränkungen limitierende Faktoren für den Einsatz von KI in traditionellen Branchen und Gesellschaftsbereichen.

Wie - Data Science? ['meϴəd]

fachlich

Bei der am Anfang von Data Science Projekten stehenden Exploratory Data Analysis (EDA)Begriff von John Tukey, 1970er Jahre, alternativer neuerer Begriff 'Deskriptive und Diagnostische Analytics' werden sowohl Erkenntnisse zu den beobachteten fachlichen Fragestellungen (Prozesse, Ereignisse, Beobachtungen usw.) als auch Beobachtungen zum untersuchten Datensatz (verfügbare Daten, Datenvollständigkeit, Datenqualität) zusammengetragen und begutachtet.

Hierzu werden relevante statische Kennzahlen (Wertebereiche, Mittelwerte, Verteilung: Varianz, Schiefe, Wölbung, zeitliche und räumliche Verteilung, Zusammenhänge: Kovarianz und Korrelation, Unregelmäßigkeiten: Fehlwerte, Anomalien) möglichst vollständig und systematisch erfasst. Die gewonnenen Erkenntnisse werden optisch mit geeigneten Grafiken (Box-Plot, Histogramm, Streudiagramm, Zeitreihen, Correlation Plot Matrices) visualisiert.

Bei der Modellbildung stehen ja nach Art der zu lösenden Fragestellung unterschiedliche Modellarten zur Auswahl:

Die konkrete Wahl des einzusetzenden Modells ist von mehreren Faktoren abhängig, u.a. von der Größe/Menge der Datensätze, der Qualität der Daten (Linearität usw.) und der konkreten Fragestellung. Darüber hinaus gibt es eine historische Komponente, da einige Modelle erst seit kurzer Zeit, andere Ansätze schon viele Jahrzehnte zur Verfügung stehen.

Soll ein Künstliches Neuronales NetzArtificial Neural Networks, Deep Learning als Spezialisierung von ML, auch: 'layered representations learning' oder 'hierarchical representations learning' / Convolutional Neural Network (CNN)auch: 'ConvNet', deutsch etwa „faltendes neuronales Netzwerk“, von lat. "convolvere" = zusammenrollen verwendet werden, so muss dessen Struktur entsprechend der konkreten Aufgabenstellung festgelegt werden. Die Netz-Topologie basiert auf einer Folge von Schichten künstlicher Neuronen (Nodes). Zwischen einer 'Eingabeschicht' und einer 'Ausgabeschicht' existieren ein oder mehrere Zwischenschichten ('hidden layer') - je mehr Zwischenschichten eingefügt werden desto 'tiefer' das Neuronale Netz. Über gewichtete Verknüpfungen zwischen den Neuronen werden durch das Netz Informationen (Aktivierungssignale) schrittweise von der Eingabeschicht bis zur Ausgabeschicht transferiert. Für jeden Node wird aus der Summe der lokalen Eingangssignale mithilfe der Aktivierungsfunktionz.B. Sigmoidfunktion oder ReLu (Rectified Linear Unit) Funktion ein lokales Ausgangssignal ermittelt und an die folgenden Neuronen weitergeleitet. Die Verknüpfung der Neuronen untereinander erfolgt im einfachsten Fall ausschließlich vorwärts in Verarbeitungsrichtung (Feedforward Neural Networks), während rekurrente bzw. rückgekoppelte neuronale Netze auch Verbindungen von Neuronen einer Schicht zu Neuronen derselben oder einer vorangegangenen Schicht vorsehen.

Die Ausgestaltung der Zwischenschichten (Anzahl der Schichten und Anzahl der Neuronen pro Schicht) beeinflussen Leistungsfähigkeit und notwendigen Rechenbedarf Neuronaler Netze in signifikanter Art und Weise und sind damit der Schlüsselfaktor für die Umsetzung in einem Data Science Projekt. Weitere relevante Parameter sind u.a. die Auswahl der Aktivierungsfunktion und die Festlegung der Learning Rate. Die spezifischen Wichtungsfaktoren werden dagegen automatisch über den Backpropagation'Backpropagation of Error' bzw. 'Fehlerrückführung' / 'Rückpropagierung' Mechanismus justiert, in dem für Trainingsdaten die Abweichung zwischen berechnetem und tatsächlichem Ausgangswert mit Hilfe einer Cost functionDie Cost function beschreibt die mittlere Abweichung für die gesamten Trainingsdaten. Die Abweichung für den individuellen Datensatz wird über die 'Loss function' beschrieben; im Sinne einer übergeordnete Sichtweise wird auch der Begriff 'Objective function' verwendet. Ziel der Trainingsphase ist die Minimierung der Cost function. ermittelt wird und auf Basis dieser Information die Wichtungsfaktoren unter Nutzung des GradientenverfahrenGradient-descent optimization: effiziente Lösung eines Optimierungsproblems, hier konkret die Minimierung der Cost funktion; Varianten: Batch Gradient Descent und Stochastic Gradient Descent angepasst werden.

Querschnittsaspekte jeder Modellierung sind Normalisierung und Feature Engineering, wobei letzteres bei der Verwendung neuronaler Netze teilweise bereits implizit erfolgt.

Modelle (und Neuronale Netze), die für Prognosen verwendet werden, müssen zunächst in Abhängigkeit der gewählten Modellklasse geeignet "trainiert", "evaluiert" (getestet) und schrittweise "optimiert" werden. Die dabei erreichte Genauigkeit eines Modells wird mit Metriken beschrieben (RMSERoot Mean Square Error, MAEaverage of the absolute difference between the predicted values and observed values). Die geeignete Wahl von Trainings- und Testdatensätze sowie die Einschränkung der Anzahl von Parametern und Freiheitsgraden helfen ÜberanpassungOverfitting zu vermeiden. Je komplexer ein Modell ist, umso aufwendiger ist die Trainingsphase: bei neuronalen Netzen werden typischerweise tausende von Trainingsdatensätze in zehn oder mehr Iteration durchgerechnet.

technisch

Data Scientists programmieren mit R1992, Ross Ihaka und Robert Gentleman, Auckland University: first public announcement in 1993, first release as open source software in 1995, version 1.0.0 in 2000, Pythonvon Guido van Rossum im Jahr 1989 entwickelt, heute (auch außerhalb von Data Science) eines der beliebtesten Sprachen von Software-Entwicklern weltweit, SASSAS Institute, weltweit größtes Softwareunternehmen / größter Business-Analytics-Anbieter in Privatbesitz, SPSSIBM SPSS Software für Predictive Analytics, STATAStata | Data Analysis and Statistical Software, IDLInteractive Data Language, Software von Exelis-VIS, insbesondere im wissenschaftlichen Umfeld, ANARichard Shine, Lockheed Martin Solar and Astrophysics Lab in Palo Alto, California und Matlab. Ergänzend kommen übergeordnete Tools, Sprachen und Frameworks für das Datenmanagement zum Einsatz, insbesondere im Kontext der Verarbeitung großer Datenmengen (Big Data/Big Computing, verteilte Cluster/Parallel Computing): HadoopFramework für skalierbare, verteilt arbeitende Software basierend auf dem MapReduce-Algorithmus und dem Google File System/Hadoop Distributed File System, seit 2006, Apache Sparkopen-source, in-memory analytics engine for large-scale data processing (machine learning), seit 2010, im Vergleich zu Hadoop signifikant schneller und einfacher zu handhaben , Scala, DBI, ODBC. Wenn eine eigene Rechner-Infrastruktur fehlt, können Cluster (Data Science and Machine-Learning Platforms) u.a. von Databricks, Amazon, Google und Azure verwendet werden. Am anderen Ende der Skala sind einfachere Data Science Anwendungen auch mit Tableau oder Excel (Schwerpunkt Visualisierung) resp. JavaScriptz.B. mit brain.js (Schwerpunkt einfache Integration in vorhandene Systemlandschaft) möglich.

Die beiden zentralen Sprachen R und Python sind populäre Open Source Sprachen mit einer großen Community und zahlreichen frei verfügbaren Erweiterungen (Packages, Bibliotheken). Die Anwendungsfelder der beiden Sprachen überlappen sich, wobei die Schwerpunkte von R eher in der Analyse und Visualisierung (Mustererkennung) sowie im akademischen Bereich liegen, während Python in komplexeren Anwendungen zum Einsatz kommt.

R Code ist über den Pipe Operator %>% und weiteren Eigenschaften von dplyr ausgesprochen gut nachvollziehbar programmierbar, gleichzeitig aber weniger intuitiv in Funktionen strukturierbar (non-standard evaluation / NSE). Für R funktioniert das Package Management sehr zuverlässig (CRAN), während unter Python mehrere konkurrierende Manager existieren (u.a. Conda) und insbesondere unter Windows die Installation von Entwicklungs- und Ablaufumgebungen sehr zeitintensiv sein kann. Interaktive, webbasierte R-Applikationen lassen sich in R über Shiny direkt erstellen, während bei Python eine maßgeschneiderte HTML/Javascript Ergänzung benötigt wird.

Grundlegende R-Packages sind

Als Tidyverse Collection wird ein Set ausgewählter, aufeinander abgestimmter R-Packages bereitgestellt, welche u.a. den gleichen Workflow referenzieren. Zugriffe auf Python-Module und -Funktionen von R aus sind mit reticulate möglich. sparklyr, mlflow und cloudml ermöglichen den Zugriff auf Apache Sparkin-memory analytics engine for large-scale data processing (machine learning), seit 2010, mlflowAn open source platform for the machine learning lifecycle und Google CloudMLGoogle Cloud Machine Learning Engine.

Wichtige Python-Bibliotheken sind Dask, NumPy, pandas, Numba, SKLearn (scikit-learn), Matplotlib, Bokeh, Datashader, HoloViews, Scipy, NLTK und PySpark. Mit Anaconda steht eine Python-Distribution zur Verfügung, die die wichtigsten für Data Science relevanten Bibliotheken bereits integriert hat.

Sowohl für R als auch für Python stehen proprietäre IDEs zur Verfügung: RStudio, Jupyter Notebook, Spyder, PyCharm. Darüber hinaus werden sprachunabhängige, integrierte Data Science Plattformen sowohl cloudbasiert (Azure Machine Learning platform, Microsoft Cortana Intelligence Suite, Kaggle) als auch on premises (wie RapidMiner) angeboten.

Für die effektive Umsetzung Neuronaler Netze stehen inzwischen mehrere Open Source Deep Learning Frameworks zur Verfügung, wie:

Die Keras API, ab 2015 entwickelt von François Chollet, bietet eine einheitliche Schnittstelle auf die unterschiedlichen Architekturen von TensorFlow, CNTK und Theano. Die Berechnungen erfolgen wahlweise über CPU (unter Nutzung der low-level Bibliothek für tensor operations 'Eigen') oder GPU (unter Nutzung der NVIDIA CUDA Deep Neural Network Bibliothek 'cuDNN').

Der Mensch

Während Standard-Anwendungsfälle der Datenaufbereitung durch KI immer stärker automatisiert werden, liefern individuelle Data Science Lösungen maßgeschneiderte Ergebnisse. Auch strategische und inhaltliche Führung können Maschinen nicht wirklich gut. Hier wie dort besteht zukünftig weiter Bedarf, die neue Welt individuell gestalten zu helfen.

Data Scientists benötigen Expertise in statistischen Methoden, programmiertechnische Fähigkeiten sowie Businessanalyse/Domänenwissen. Eine proaktive bereichsübergreifende Kommunikation ist der notwendige Schlüssel zum Erfolg von Data Science-Projekten, insbesondere im kommerziellen (nicht-akademischen) Umfeld.

In umfassenden Projekten wird zwischen Data Scientists, Data Architects, Data Engineers und Data Analysts unterschieden.

Data Scientists bilden weltweit eine aktive und offene Community, die sich über einschlägige Plattformen wie Kaggle, Towards Data Science, R-Ladies, KDnuggets, DataCamp u.a. austauschen.

 Bücher (Online-Books):
 Podcasts:
 Blogs:
 Artikel:

Impressum und Datenschutzerklärung

Diensteanbieter, Autor und Gestalter:  Dr. Matthias Bleyl, flexITCS e.u., Sportplatzstr. 4, A 3385 Markersdorf
Firmenbuchnummer 391425a
Haftung:  Sämtliche Texte auf der Website wurden sorgfältig geprüft.
Dessen ungeachtet kann jedoch keine Garantie für Richtigkeit, Vollständigkeit und Aktualität der Angaben übernommen werden.
Copyright:  Sämtliche Texte, Grafiken und Bilder sind urheberrechtlich geschützt.
Eine Verwendung ist nur mit ausdrücklicher Genehmigung des Erstellers Dr. Matthias Bleyl zulässig.
Datenschutzerklärung
Erklärung zur Informationspflicht
  Der Schutz Ihrer persönlichen Daten ist uns ein besonderes Anliegen. Wir verarbeiten Ihre Daten daher ausschließlich auf Grundlage der gesetzlichen Bestimmungen (DSGVO, TKG 2003).
In diesen Datenschutzinformationen informieren wir Sie über die wichtigsten Aspekte der Datenverarbeitung im Rahmen unserer Website.

Kontakt mit uns
Wenn Sie per Formular auf der Website oder per E-Mail Kontakt mit uns aufnehmen, werden Ihre angegebenen Daten zwecks Bearbeitung der Anfrage und für den Fall von Anschlussfragen maximal sechs Monate bei uns gespeichert. Diese Daten geben wir nicht ohne Ihre Einwilligung weiter.

Ihre Rechte
Ihnen stehen grundsätzlich die Rechte auf Auskunft, Berichtigung, Löschung, Einschränkung, Datenübertragbarkeit, Widerruf und Widerspruch zu. Wenn Sie glauben, dass die Verarbeitung Ihrer Daten gegen das Datenschutzrecht verstößt oder Ihre datenschutzrechtlichen Ansprüche sonst in einer Weise verletzt worden sind, können Sie sich bei der Aufsichtsbehörde beschweren. In Österreich ist dies die Datenschutzbehörde.
Kontakt:  Sie erreichen uns unter folgenden Kontaktdaten: