L’expression « Big Data » est dans toutes les bouches, et sous toutes les plumes. Des usages nombreux dans des domaines tout aussi variés, pour une notion qui reste difficile à cerner. Alors, concrètement, de quoi parle-t-on ?
Un peu d’histoire
Si l’on devait ouvrir avec une évidence, ça serait celle-ci : l’histoire des données n’est pas nouvelle. Pourtant, celle du Big Data l’est. Indissociable de la généralisation des technologies informatiques de connexion et de stockage, la production de données a explosé avec l’expansion du web. Vous connaissez l’adage : désormais, en une année, nous créons plus de données que toute l’histoire de l’humanité combinée.
Aujourd’hui, on compte plus de 3 milliards d’internautes, qui envoient chaque minute 4 millions de requêtes Google, 277 000 tweets, ou encore 204 millions d’emails, et 822 240 sites sont créés chaque jour. Et la tendance n’est pas en passe de s’inverser : accès au web de plus en plus rapide et mobile, objets connectés s’insérant graduellement dans nos quotidiens, tous les signaux portent à croire que la production massive de données n’en est qu’à ses balbutiements. D’où l’avènement, depuis les débuts des années 2000, de la notion de « Big Data ».
Les cinq « Big V’s » du Big Data
Alors, à quel moment parle-t-on de « Big Data » ? On considère qu’un dataset entre dans cette catégorie lorsqu’il ne peut pas être traité via les structures et processus classiques, et lorsqu’il est nécessaire de mettre en place des structures (physiques, logicielles et d’analyse) particulières, afin de faire face à un jeu de données affichant comme « massive » l’une ou plusieurs des ces cinq caractéristiques.
Le volume
Le volume est la première caractéristique d’un projet de Big Data. Le chiffrer précisément est complexe, tant la quantité de données produites et disponibles évolue constamment, et là où il y a quelques années un giga pouvait être considéré comme une grosse base de données, aujourd’hui le peta peut devenir la mesure de référence (1000 téra).
Par convention, on estime qu’un dataset entre dans la catégorie du Big Data dès lors qu’il dépasse un tera (1 000 000 000 000 octets), même si la taille dépend fortement des données que l’on collecte — certains environnements sont plus propices à fournir du contenu que d’autres, et donc atteignent le statut de Big Data bien plus rapidement, et dans des dimensions très différentes.
La variété
Les données collectées dans un projet de Big Data sont par nature extrêmement variées, sous des formats différents. Sur Twitter, par exemple, une collecte de tweets n’est pas uniquement composée de textes, mais aussi de photos, ou encore de vidéos, de liens, d’identifiants, de géolocalisation…
La vélocité
Un dataset de mégadonnées présente la particularité de s’accroître à une vitesse exponentielle, enrichissant les bases à un rythme qui demande des architectures spécifiques. Par exemple, sur YouTube chaque jour, des milliards d’heures de vidéos sont regardées — des données de visionnage qui s’accumulent à une vitesse insaisissable pour l’homme, nécessitant donc des processus précis.
La véracité
Les données qui entrent dans votre système doivent être évaluées afin de définir leur qualité et leur véracité — en d’autres termes la structure devra intégrer un système de collecte qui n’engendre pas trop de bruit, un ratio « signal-to-noise » qui n’est pas trop élevé. Pour pouvoir lire vos Big Data, il est indispensable de nettoyer vos données, pour les rendre les plus propres et les plus pertinentes possible. Autrement dit, qu’elles aient une véracité massive, ou elles n’auront aucune valeur.
La valeur
Enfin, pas de Big Data sans valeur, définie par l’utilité que ces données peuvent avoir pour votre entreprise ou votre projet — une valeur dépendante des caractéristiques vues précédemment : sans volume, sans vélocité, sans véracité, pas de valeur. C’est parce que votre système de traitement pourra prendre en compte un volume important en peu de temps pour vous communiquer des informations pertinentes que vous pourrez donner de la valeur au système.
En pratique
Ces « mégadonnées » (pour les puristes de la langue de Molière) impactent un champ de pratiques spécifiques, regroupant la collecte, le stockage, le traitement et l’analyse d’immenses quantités de données, à partir d’usages humains ou informatiques.
La collecte
De par son immensité, la collecte des données est automatisée, et nécessite la mise en place de processus adéquats. Typiquement, là où la collecte d’informations pouvait se faire à la main il y a 20 ans (pour donner des résultats par extrapolation depuis un échantillon représentatif), il s’agit aujourd’hui de collecter le maximum (voire l’ensemble) du corpus.
Le stockage
Toujours de par leur volume, les données ne peuvent être stockées dans des systèmes classiques. De ce besoin sont nées les immenses fermes de données, que l’on connaît sous le nom de « data centers ».
Le traitement
Qu’elles soient structurées, non structurées ou semi-structurées, les données ne se laissent pas lire d’elles-mêmes. Beaucoup de datasets, en fonction du but final de leur usage, doivent être nettoyés des résultats parasites — également appelés « noise ».
Un exemple simple ? La collecte massive automatique d’une recherche sur Twitter inscrira dans votre dataset certains textes qui répondent à vos critères de recherche, mais qui n’ont pas de pertinence dans votre lecture. Il faut pouvoir les trier.
L’analyse
Même s’il s’agit de la dernière étape, l’analyse est le but premier du Big Data — à quoi bon avoir des données si nous ne leur donnons pas de sens ? Ainsi, une fois les données collectées, stockées et nettoyées, elles vont être analysées afin de faire émerger des tendances et répondre à des questions .
Les résultats peuvent être des descriptions, des diagnostics, des analyses prédictives ou prescriptives — ces quatre niveaux allant, dans cet ordre, du plus simple au plus complexe, et donc du plus commun au plus précieux. Mais nous verrons cela dans un autre billet.
Lecture complémentaire :
Rédigé par: Colin FAY
Créateur et rédacteur en chef de Data Bzh.
Une réponse sur “Le Big Data — de quoi parle-t-on ?”
Les commentaires sont fermés.