Übersicht zu den wichtigsten Packages und IDEs für R und Python

R-Packages

Grundlegende R-Packages werden in der folgenden Liste genannt. Pakete der Tidyverse Collection – ein Set ausgewählter, aufeinander abgestimmter R-Packages, welche u.a. den gleichen Workflow referenzieren und deshalb einfach miteinander kombiniert werden können – sind dabei mit # (Kernbibliotheken) resp. mit + (ergänzende Pakete) gekennzeichnet. Pakete mit HTML Output (HTML Widgets) sind mit HTML gekennzeichnet – diese Pakete können für RMarkdown HTML und Shiny dashboards verwendet werden.

  • readr# (CSV), readxl+ (XSL), XML, jsonlite (JSON), curl (file transfer), httr (http request) und data.table für das Einlesen von Daten(Streams)
  • skimr für Descriptive statistics
    (ergänzend zu den internen Funktion: summary, str und dim)
  • ggplot2# (und abgeleitete Extensions) sowie WVPlots für die Datenvisualisierung / für die Erstellung von Graphiken
    (unabhängig davon erlaubt das interne graphics Package die Erstellung von verschiedenen generischen Plots, ohne dass ein externes Package notwendig wäre)
  • plotly HTML und rbokeh HTML für interaktive Graphiken (letztere auf unter Verwendung der JS-Bibliothek Bokeh)
  • DT HTML für die Tabellen-Darstellung unter Verwendung der JS-Bibliothek DataTables
  • Leaflet (for R) HTML für die (interaktive) Kartendarstellung unter Verwendung der JS-Bibliothek Leaflet
  • rmarkdown, flexdashboard, shinydashboard, bookdown und pandoc für Präsentationen / Dashboards resp. für Dokumentenerstellung und -konversionen, ergänzend: tufte und tint (Edward Tufte Style) sowie rticles (Formate für Veröffentlichungen in verschiedenen Journals)
  • Cairo für die Erstellung von Graphikdateien (PNG, JPEG, TIFF etc.)
  • Shiny (Web-Apps), plumber (REST APIs) und mailR (Mailversand) für die Implementierung externer Schnittstellen

Darüber hinaus existieren zahlreiche sehr spezifische Pakete, wie gTrendsR für den Zugriff auf Google Trend Daten, gh für den Zugriff auf die GitHub API, wbstats und WDI für den Zugriff auf Daten und Statistiken der Weltbank, rmangal für den Zugriff auf die Mangal Datenbank, RSAGA für den Zugriff auf das open-source GIS SAGA oder bdvis für die Visualisierung von Biodiversitäts-Informationen.

rOpenSci verwaltet weitere R-Packeges mit dem Fokus auf offene und reproduzierbare Forschung, Datenzugang und einfach zu bedienende Tools für Datenanalysen.

Zugriffe auf Python-Module und -Funktionen von R aus sind mit reticulate möglich. C++ Code kann mit Hilfe des Rcpp Package integriert werden.

sparklyr und mlflow ermöglichen die Nutzung der Frameworks Apache Spark (Cluster Computing) und databricks mlflow (Lebenszyklus-Management von Machine-Learning-Projekten). Der Zugriff auf Plattformen erfolgt u.a. mit cloudml (Google CloudML) und RAthena/paws (Amazon Web Services). dockr ist ein einfaches Werkzeug, um ein lightweight Docker Container – Image für eine R-Umgebung zu erstellen.

Python-Bibliotheken

Wichtige Python-Bibliotheken sind

Mit Anaconda steht eine Python-Distribution zur Verfügung, die die wichtigsten für Data Science relevanten Bibliotheken bereits integriert hat.

IDEs

Sowohl für R als auch für Python stehen proprietäre IDEs zur Verfügung:

Darüber hinaus werden sprachunabhängige, integrierte Data Science Plattformen sowohl cloudbasiert (Azure Machine Learning platform, Microsoft Cortana Intelligence Suite, Kaggle) als auch on premises (wie RapidMiner) angeboten.