Notre monde est devenu largement numérique. Depuis quinze ans que l’informatique s’est démocratisée, nous avons enregistré un nombre incroyables d’informations, des relevés de températures aux opérations bancaires, des photos partagées au génome humain tout entier. Nous ne rendons pas compte que toutes ces données sont intimement liées par une chose : nous, les Humains.

On enregistre, on sauvegarde

Digital ageOn estime qu’en 1987, le monde entier avait stocké 2,6 exabytes de données, que ce soit sur des cassettes VHS, des disquettes ou des vinyles.
Un exabyte correpond à un milliard de Giga (Go) ou un million de terabyte (To). En comparaison, aujourd’hui n’importe quel ordinateur portable possède un disque dur d’un Tera.
En 2007, les données enregistrées étaient passées à 300 exabytes.

Depuis, la progression est encore exponentielle. Il y a deux ans, en 2013, le trafic mensuel de données était de 2 exabytes (soit 24 par an). En 2015, on estime l’échange à 25 exabytes par mois (soit 1000 par an).

Il est difficile de se rendre compte de l’ampleur du phénomène devant des chiffres aussi importants et impalpables. Mais surtout quelles sont ces données enregistrées? Qui les génère et que peut-on en faire?

Les 3V: Volume, Vélocité et Variété

Le Big Data, c’est l’analyse de très grandes quantités de données. Et comme la discipline est nouvelle, il a fallu poser des bases, créer une nouvelle science.
Trois caractéristiques décrivent la nature des informations traitées.

Le Volume

Comme son nom l’indique, on caractérise les données par leur nombre. Plus il y en a et plus il est difficile et long de les traiter. Avec la puissance des ordinateurs actuels, gérer les données de plusieurs millions d’utilisateurs prend du temps mais cela reste faisable.
Le Big Data représente vraiment un niveau au-dessus de ce qu’on peut imaginer. Aujourd’hui, les plus gros générateurs d’informations sont les stations météorologiques ou les installations spatiales. Le radiotéléscospe « Square Kilometer Array » situé en Australie devrait générer 7 téraoctets de données brutes par seconde. Hallucinant! Avec de tels volumes, il faut à la fois la capacité de les traiter mais aussi la pertinence, l’organisation pour ne pas analyser n’importe quoi.

La Vélocité

Il s’agit de la fréquence à laquelle les données sont générées, enregistrées, partagées et mises à jour. On ne gère pas une prise de mesures de température chaque heure au Pôle Nord comme les valeurs que toutes les bourses mondiales génèrent simultanément. Aujourd’hui, des robots traders sont capables d’acheter et de vendre des actions à la nanoseconde près, des matières premières suivant des algorithmes très puissants.

La Variété

Evidemment, toutes les données recueillies ne sont pas toutes du même format. Il serait trop facile de ne trier que des mots ou des chiffres. La tâche devient nettement plus compliquée quand il s’agit d’organiser des formats différents et qu’il faut reconnaître des coordonnées géographiques, des heures de connexion, de la RFID, des flux, des images, de la vidéo…
On le voit donc, s’attaquer à des données toujours plus importantes, toujours plus variées devient une tâche colossale.

Du Big Data à l’Open Data

Open dataQuand on pense aux données, on imagine de la musique, des films ou plus simplement des tableaux Excel appartenant à des entreprises privées.
Mais en réalité, ce sont les pouvoirs publics qui possèdent et génèrent le plus d’informations au travers des mairies, des agences Pôle Emploi, de l’Education nationale, des Impôts, des Transports, etc…
Les gouvernements et les mairies sont très intéressés par l’exploitation de ces données afin d’optimiser la gestion de leurs villes, de leurs rues ou de leurs infrastructures.
Dans ces cas-là, on parle d’Open Data car les données générées par les municipalités sont (théoriquement) libres d’accès et chacun est libre de les exploiter.
L’Open Data est une révolution en soi puisqu’il permet à n’importe qui de croiser les données de l’espace publique et qui jusqu’à présent n’étaient pas exploitées par manque de temps et/ou de coordinations entre services.
Par exemple, une région peut savoir rapidement comment se répartit sa population sur son territoire, quel est l’âge de ces habitants, les transports qu’elle utilise et localiser les écoles afin de savoir si le maillage est correct et cohérent avec les volontés politiques. Elle pourrait même anticiper les impacts liés à la construction d’un nouveau lycée.

On peut s’amuser à jouer avec ces données sur dataFrance, qui recoupe une cinquantaine de critères différents. Le site propose ainsi la carte des logements vacants à Paris ou celle des vols de voiture. Parfois, les chiffres contredisent nos préjugés.

Open data 2Par exemple, l’exploitation de données publiques a permis aux Anglais de comprendre que, lors des émeutes de 2011 à Londres, les peines étaient 25% plus lourdes que celles données en temps normal pour des faits identiques.
Lors de ces mêmes émeutes, Twitter n’a été massivement utilisé qu’une fois les événements produits, loin de l’idée que le réseau social est un précurseur ou un découvreur de tendances.

L’Open Data est une source inépuisable de recherches. Il suffit de s’y pencher et de voir les choses globalement. Par exemple, il est désormais possible de « prédire » les zones où statistiquement les accidents de la route ou les cambriolages vont se dérouler. On peut réaffecter les forces de l’ordre aux bons endroits.
Il est également possible de connaître les taux de réussite des auto-écoles ou le portrait robot de certains quartiers en fonction de l’âge, des revenus des habitants ou de la densité des commerces, des écoles…
Ceux qui réalisent ces études en profitent alors pour les revendre à des agences immobilières, des banques ou des assureurs. Savoir traiter et ordonner des informations devient une compétence qui se monnaie.

De forts enjeux autour du Big Data

big data1Le Big Data est aujourd’hui principalement utilisé par des entreprises privées pour définir des profils marketing très pointus de clients. En compilant des milliers de données sur un terme assez long et sur une très grande quantité de personnes, certaines compagnies sont capables par exemple, de relier votre lieu de connexion aux sites Internet consultés, aux heures à laquelle vous comparez et celles où vous achetez, etc…
L’avantage est assez évident. Les entreprises sont en mesure de vous proposer exactement le service, la publicité ou le produit qui vous intéresse au moment exact où vous serez réceptif. Quant à vous, vous y verrez l’avantage de ne plus être pollués par des produits pour enfants si vous n’en avez pas ou des articles sur la voile si vous aimez la pétanque.
La contrepartie, c’est l’absence totale de surprises, de découvertes liées à la sérendipité. Le hasard et la surprise vont disparaître de votre quotidien. Vous ne verrez que le Web que l’on souhaite vous vendre…

Pour le meilleur ou pour le pire?

Mais le Big Data est un outil formidable quand il s’agit de traiter des grandes quantités d’informations sur des sujets universellement intéressants. La recherche contre le Cancer en profite (en croisant tous les profils dans le monde, leur alimentation, leurs lieux de vie, etc…) tout comme la lutte contre les épidémies ou le suivi de flux migratoires.

Le Big Data n’en est qu’à ses balbutiements. Avec l’avènement de l’Internet des objets, des milliards de nouvelles données vont apparaître et chaque entreprise sera libre d’en disposer à sa guise. Le cas de l’Apple Watch pose d’ailleurs des questions. Vos battements de coeur, votre activité physique, le nombre de pas que vous faites, tout ceci est enregistré par votre montre et sera relié à l’utilisation de votre téléphone, votre localisation, vos goûts musicaux, vos centres d’intérêts (via vos applis). Que fera Apple de toutes ces données? Les gardera-t-elle pour de la pub ciblée ou pourrait-elle les vendre à votre compagnie d’Assurance, qui saura que vous ne faites pas assez d’activité physique…?

Pour le moment, les données sont toujours anonymes. Votre nom, votre adresse ou votre numéro de sécu n’apparaissent pas dans le Big Data. Mais l’intérêt n’est plus là, vous l’avez compris. Vous n’êtes plus un nom et un prénom, vous êtes un profil de consommation.

Join the conversation! 3 Comments

  1. C’est clair que les données stockés n’ont pas de comparaison avec les années 2000, regardes les téléphones déjà, la progression de la mémoire en ayant des mobiles de plus en plus petits même si la tendance actuelle est plus vers l’agrandissement des ecrans.

  2. Enfin un article claire, net et précis sur le Big Data .
    Je l’attendais depuis longtemps !

    Merci pour ce post.

  3. Merci beaucoup. Ca fait plaisir.
    Si tu as d’autres idées, n’hésite pas à demander!

Comments are closed.

Category

Web

Tags

, , ,