Übersicht zu wichtigen Packages und IDEs für R und Python (Data Science)

R-Packages

Grundlegende R-Packages werden in der folgenden Liste genannt. Pakete der Tidyverse Collection – ein Set ausgewählter, aufeinander abgestimmter R-Packages, die einfach miteinander kombiniert werden können – sind dabei mit # (Kernbibliotheken) resp. mit + (ergänzende Pakete) gekennzeichnet. Pakete mit HTML Output (HTML Widgets) sind mit HTML gekennzeichnet – diese Pakete können für RMarkdown HTML und Shiny dashboards verwendet werden.

Daten einlesen / schreiben

Daten manipulieren

Daten visualisieren

  • ggplot2# (und abgeleitete Extensions) sowie WVPlots für die Datenvisualisierung / für die Erstellung von Graphiken
    (unabhängig davon erlaubt das interne graphics Package die Erstellung von verschiedenen generischen Plots, ohne dass ein externes Package notwendig wäre)
  • ggvis, plotly HTML und rbokeh HTML für interaktive Graphiken (letztere auf unter Verwendung der JS-Bibliothek Bokeh)
  • corrplot für die Darstellung von Correlation Plots
  • DT HTML für die Tabellen-Darstellung unter Verwendung der JS-Bibliothek DataTables
  • tmap für (statische) Kartendarstellungen, Leaflet (for R) HTML für (interaktive) Kartendarstellung
    (Leaflet unter Verwendung der JS-Bibliothek Leaflet )

Daten analysieren

  • factoextra für Multivariate Data Analyses
  • igraph für die Analyse von Netzwerken / Graphen (Visualisierung: ggraph, alternativ/ergänzend: graphlayouts)
  • tidytext für Text Mining
  • caret (Classification And REgression Training) und h2o für Machine Learning
  • forecastLM für forecasting regular time series data with a linear regression model
  • bwimage, autothresholdr und caiman für Bildanalysen
  • imager für die Bildverarbeitung
  • nlrx für die Modellierung komplexer Systeme (Multi-Agenten-Simulationen, unter Verwendung von NetLogo)

Daten präsentieren

Anwendungen effizient entwickeln

Darüber hinaus existieren zahlreiche sehr spezifische Pakete, wie gh für den Zugriff auf die GitHub API, wbstats und WDI für den Zugriff auf Daten und Statistiken der Weltbank, rmangal für den Zugriff auf die Mangal Datenbank, RSAGA für den Zugriff auf das open-source GIS SAGA oder bdvis für die Visualisierung von Biodiversitäts-Informationen.

rOpenSci verwaltet weitere R-Packeges mit dem Fokus auf offene und reproduzierbare Forschung, Datenzugang und einfach zu bedienende Tools für Datenanalysen.

Zugriffe auf Python-Module und -Funktionen von R aus sind mit reticulate möglich. C++ Code kann mit Hilfe des Rcpp Package integriert werden.

sparklyr und mlflow ermöglichen die Nutzung der Frameworks Apache Spark (Cluster Computing) und databricks mlflow (Lebenszyklus-Management von Machine-Learning-Projekten). Der Zugriff auf Plattformen erfolgt u.a. mit cloudml (Google CloudML) und RAthena/paws (Amazon Web Services). dockr ist ein einfaches Werkzeug, um ein lightweight Docker Container – Image für eine R-Umgebung zu erstellen.

Python-Bibliotheken

Data Science relevante externe Python-Packages sind insbesondere:

Mit Anaconda steht eine Python-Distribution zur Verfügung, die die wichtigsten für Data Science relevanten externen Bibliotheken bereits integriert hat.

Python verfügt daneben über interne Built-in Module (interne Bibliotheken), die die Standard Funktionen ergänzen. Für Data Science Anwendungen sind dies insbesondere die Module:

  • Collections: das Module stellt zusätzlich zu den Standard Daten-Container (List, [ordinary] Tuple, Set, [unordered] Dictionary) weitere Containertypen bereit, insbesondere: namedtuple, deque (eine optimierte Liste), Counter, OrderedDict, defaultdict und ChainMap

IDEs

Sowohl für R als auch für Python stehen Entwicklungsumgebungen (IDEs) zur Verfügung: