[Lecture] R pour les Data Sciences

R, vous avez dit R ? 

Lingua franca de la Data Science, R est devenu un langage de programmation de prédilection d'un bon paquet d'entreprises : Airbnb, BBC, Booking, Ebay, Facebook, Google, Microsoft, Netflix, Twitter, Uber... (entre autre). Outil référant pour les industriels, les chercheurs et les universitaires, R est LE langage à mettre dans votre bagage si vous souhaitez vous lancer dans les data sciences. D'ailleurs, c'est un langage qu'on connait bien, chez Data Bzh, puisque c'est celui que l'on utilise pour créer nos articles de blog, et de nombreuses méthodes utilisées par notre équipe sont d'ailleurs expliquées à l'intérieur de l'ouvrage que nous allons vous présenter aujourd'hui.

R, ce langage n'est pas tout neuf : il soufflait cet été ses 25 bougies. Un anniversaire qui a aussi été marqué par la sortie de la traduction de l'ouvrage qui fait aujourd'hui référence dans le secteur : "R for Data Science", ou "R pour les data sciences" dans la langue de Molière.

R pour les data sciences: Importer, classer, transformer, visualiser et modéliser les données

Le bouquin du jour n'est pas n'importe quel bouquin : il s'agit de votre nouveau livre de chevet si vous souhaitez découvrir R. Et pour cause, les auteurs savent de quoi il en retourne : Hadley Wickham (Chief Scientist chez RStudio) et Garett Grolemund  (Data Scientist and Master Instructor chez RStudio) font partie des pointures modernes du langage. Alors, de quoi parle-t-on dans ce livre ?

Explorer ses données

La première partie de l'ouvrage se concentre sur l'analyse exploratoire.

Quel workflow pour mon code (rédaction, scripting, projet) ? Comment visualiser ses données avec {ggplot2} ? Comment transformer mes données avec {dplyr} et explorer les entrailles de nos dataset — visualiser les distributions, identifier des valeurs spécifiques, traiter les données manquantes... ?

"Démêler" ses données

C'est bien connu, les données importées sont rarement propres.

Alors, comment faire pour triturer tout ça pour faire de mon jeu de données une table analysable ? Dans cette partie, il est traité d'importation de données avec {readr}, de reconfiguation et de réarrangement avec {tidyr}, de jointures de tables avec {dplyr}, de manipulation de chaines de caractères avec {stringr}, de gestion des facteurs avec {forcats}, et de mise en forme des dates avec {lubridate}.

Programmer

Dans cette troisième partie du livre est abordée l'une des questions centrales de R : programmer, et programmer proprement.

Après une introduction de l'enchainement de commandes avec le pipe (%>%), l'ouvrage aborde la question de la rédaction de fonctions, le format vecteur, et l'itération avec {purrr}.

Modélisation

Une quatrième partie sous le signe des modèles aborde leur création par le biais du package {modelr}, et leur manipulatin avec {broom} et {purrr}.

Une mise en pratique claire sur le jeu de données diamonds permet de visualiser immédiatement la méthodologie à privilégier. Dans cette partie est également abordée le format list-column, un format de tableau spécifique, bien utile quand on crée des modèles !

Communiquer

Analyser des données, c'est bien, pouvoir les partager, c'est mieux !

Cette dernière partie s'intérese à la communication de vos résultats : comment aller encore plus loin avec {ggplot2} ? Et comment rendre son travail partageable avec RMarkdown ? Deux questions qui trouveront des réponses en conclusion de cet ouvrage.

Un indispensable

Bref, vous l'avez compris, vous pourrez découvrir un workflow de data science avec R, de A à Z : importer, nettoyer, manipuler, visualiser, communiquer. Et une fois cet ouvrage lu, vous aurez toutes les clés en main pour vous lancer 😉

Sur Amazon : R pour les data sciences: Importer, classer, transformer, visualiser et modéliser les données

Colin FAY

Rédigé par: Colin FAY

Créateur et rédacteur en chef de Data Bzh.