Logiciel — Découvrez R

Quand il est question de traitement de données, le panel d'outils disponibles est large. Parmi eux, R, logiciel libre d'analyse statistique et de visualisation.

R, un peu d'histoire

Avec bientôt 25 ans d'existence, R a vu le jour en tant que projet GNU au début des années 90 dans les laboratoires Bell, et perdure aujourd'hui par le soutien d'une communauté passionnée de développeurs et de statisticiens regroupé au sein du R Development Core Team. Basé sur le langage de programmation S, ce logiciel de traitement de données a connu ces dernières années une popularité grandissante parmi les statisticiens et des data miners.

Pour télécharger R, rien de plus simple : rendez-vous sur la page dédiée du Comprehensive R Archive Network.

 

R, qu'est-ce que c'est ?

Environnement de traitement statistique, ce logiciel open source affiche une interface qui vous permet de charger, d'organiser et de manipuler des jeux de données. Ses points forts ? Vous pouvez traiter des volumes conséquents de données, créer des graphiques entièrement paramétrables, mais surtout installer de nombreux packages (des "options" supplémentaires) afin d'effectuer les calculs que vous souhaitez. En d'autres termes, même si la solution de départ est déjà très puissante, vous pouvez toujours y ajouter des extensions pour (entre autres) effectuer certains calculs, pour du text-mining ou encore vous pour connecter à des API — et les possibilités sont presque illimitées !

À noter, R est un langage interprété et non compilé — en d'autres termes, les commandes que vous tapez au clavier seront directement exécutées, vous n'aurez pas à construire un programme complet avant de vous lancer.

 

R, en pratique

Lors du lancement de R, vous affichez une console, qui vous permettra d'entrer vos premières lignes de codes : par exemple, si vous y tapez "78-8", l'interface vous donnera le résultat de cette soustraction. Mais vous vous en doutez, R est bien plus puissant qu'une simple calculatrice ! En effet, ce logiciel vous permet de travailler avec des objets, qui sont des "cases mémoires". Attention, en R, tout est objet — ces derniers sont utilisés pour contenir des données ou pour effectuer des actions.

En R, tous les objets ont un nom, un contenu, mais aussi des attributs, qui vont décrire le type de données que l'on y trouve — les deux attributs minimum étant le mode (numérique, caractère, logique ou complexe), indiquant ce que peut contenir l'objet, et la longueur, affichant la taille des données. Beaucoup d'autres attributs peuvent venir compléter la définition.

Interface du logiciel R

R, quelques lignes basiques

En pratique, comment ça se passe ? C'est l'heure de mettre la main à la pâte ! À l'heure qu'il est, vous avez probablement déjà téléchargé et installé R. Non ? Eh bien c'est le moment. Nous allons travailler sur un jeu de données simple, la population bretonne en 2009, disponible sur data.gouv.

Charger le csv en R

Une fois en R, nous allons d'abord charger le document csv dans l'environnement. Pour cela, voici la commande à entrer :

pop <- read.csv("emplacement\du\document\insee_pop_2009.csv")

Qu'est-ce que cela veut dire, tout ça ? pop est le nom de l'objet que vous créez pour contenir vos données. L'opérateur <- assigne à l'intérieur de l'objet tout ce qui se trouve à sa droite. read.csv est la commande indiquant à R qu'il faut lire un fichier csv, et le chemin entre ("") spécifie l'endroit où R doit aller chercher votre document sur votre disque dur.

Trouver le nom des colonnes.

Avant de travailler des données, il faut savoir dans quelle colonne chercher ! Pour cela, rien de plus simple, il suffit de taper la commande :

names(pop)

Lorsque vous chargez votre csv en R, read.csv prend par défaut la valeur header=TRUE. En d'autres termes, si vous ne modifiez pas cet attribut, la première ligne de votre document sera lue comme un en-tête. La commande names permet d'afficher nom de colonnes.

Vous obtenez donc :

[1] "gml_id"     "ID_DEPT"    "ID_ARROND"  "ID_CANTON"  "INSEE"      "COMMUNE"
[7] "MUNICIPALE" "POP_A_PART" "TOTALE"     "Surf_ha"

Effectuer la moyenne et la médiane de ces colonnes

Chaque ligne représente une commune, et la colonne regroupant le nombre d'habitants est "TOTALE". Pour obtenir la moyenne, voici la commande à taper dans votre interface :

mean(pop$TOTALE)

Ici, l'opérateur mean fait appel à la fonction de moyenne. L'opérateur $ vous permet de sélectionner la colonne qui vous intéresse. Pour une médiane, il vous suffit de replacer mean par.... median, tout simplement ! sd et var, quant à eux, affichent respectivement l'écart-type et la variance.

N'hésitez pas à faire le tour de ce jeu de données, qui pourra vous servir de point de départ pour votre exploration de ce puissant logiciel — de nombreuses manipulations peuvent être effectuées. Un peu perdu ? N'hésitez pas à consulter l'aide en ligne, disponible en tapant la commande help.start().

 

Colin FAY

Rédigé par: Colin FAY

Créateur et rédacteur en chef de Data Bzh.