Bilan

Une bataille s’engage pour maîtriser le flot des données informatiques

Comment tirer parti des informations contenues dans les milliards de milliards d’octets créés chaque jour par nos sociétés? Les techniques du Big Data promettent des outils inédits.

Le Big Data, c’est un peu le monstre du Loch Ness des technologies de l’information, le yéti du traitement informatique. Certains assurent avoir vu la bête et même savoir comment l’attraper et l’apprivoiser pour générer des milliards de dollars de revenus. Ils s’appellent Teradata, IBM, Microsoft, Oracle ou encore HP. D’autres affichent une moue sceptique devant ce qui leur semble être une sorte de flou artistique, dangereux à certains égards. Les définitions de ce qu’est le Big Data diffèrent encore, soulignant la jeunesse de ce concept dont l’origine remonte au plus tôt à 2008, mais qui essaime réellement depuis 2010. Il se rapporte à la fois à un phénomène et aux techniques qui permettent de l’appréhender et de le maîtriser. Big Data ou littéralement Grosse Donnée. Le français se révèle une fois encore en retard d’une guerre sur l’anglais en matière de raccourci coup-de-poing. «Chaque jour, nous donnons naissance à des milliards de milliards d’octets de données, rappelle Ton Engbersen, qui travaille au centre de recherche d’IBM à Zurich; 90% des données créées dans le monde aujourd’hui l’ont été dans les deux dernières années. Les entreprises qui veulent rester compétitives vont devoir prendre en compte ce flot d’informations. Cela réclame de nouveaux outils, capables de puiser, dans ces énormes nappes de données, celles susceptibles d’intéresser l’entreprise pour lui permettre d’agir plus vite ou plus finement par rapport à la concurrence.» Pour mieux illustrer sa définition du Big Data, le spécialiste d’IBM cite le cerveau humain. Celui-ci intègre les données statiques, toutes celles en somme que l’individu a accumulées au cours de son histoire et qui forment son expérience. Mais il doit aussi faire face aux données en mouvement, celles qui surgissent devant lui. La capacité du cerveau à réagir face à ces dernières est fonction de son habileté à les mettre en rapport avec l’expérience acquise. Les techniques du Big Data permettraient aux entreprises de réaliser ce lien entre l’expérience et le flot des nouvelles données.

Outre leur quantité qui dépasse l’imagination, ces informations possèdent une autre caractéristique. Elles sont la plupart du temps non structurées. Une sorte de fatras aussi indéfinissable qu’un rata militaire. Sauf pour ceux qui savent s’y frayer un chemin. En octobre dernier, à la conférence des partenaires de Teradata, à San Diego, son CEO Darryl Mc Donald filait la métaphore pour décrire le potentiel du Big Data: «Ces données recèlent des pépites d’or. Et même si entre deux pépites il y a beaucoup de sable, la particularité de ce filon, c’est que deux grains de sable combinés ensemble peuvent donner une pépite d’or.» Le spécialiste en Big Data ne doit donc pas seulement fournir le matériel pour l’extraction de ce minerai virtuel, mais également les formules qui permettent d’associer différents composants anodins pour qu’ils se changent en un alliage précieux. Le rêve de la transmutation enfin réalisé. des économies énormes Les analystes du bureau McKinsey ne pensent pas autrement. Dans une étude publiée en 2011, les auteurs commencent par rappeler quelques évidences évoquant cette inflation de données: avec un disque dur coûtant 600 dollars, il est désormais possible de stocker l’intégralité de la musique produite sur la planète; 30 milliards d’éléments sont échangés chaque mois sur Facebook; la croissance annuelle de la quantité de données atteint 40%. Ce constat posé, l’étude McKinsey aborde les questions d’argent: le secteur privé pourrait dégager un surplus de chiffre d’affaires de 600 milliards de dollars s’il savait tirer parti correctement des données de localisation personnelle. Avec une bonne maîtrise de ces données, les détaillants pourraient accroître leur marge opérationnelle de 60%.

Apprivoiser le Big Data n’est pas seulement synonyme de monnaie sonnante et trébuchante. Il serait aussi la solution pour réaliser des économies plus que substantielles. Si le système de santé américain utilisait mieux le monceau de données qu’il accumule, il pourrait réduire ses dépenses de 300 milliards de dollars. On est loin de l’anecdotique. De même, si les administrations européennes réussissaient à mettre de l’ordre dans la mer de données sur laquelle elles surnagent, leurs dépenses chuteraient de 250 milliards de dollars. Une somme qui équivaut au produit intérieur de la Grèce, rappellent les auteurs de l’étude, non sans un certain sens de l’à-propos. Les géants de l’informatique mondiale se battent déjà pour profiter de cette fabuleuse manne. Il n’est qu’à suivre l’actuelle vague de rachats qui caractérise le secteur. Le 18 octobre dernier, Oracle a acquis l’entreprise Endeca Technologies, connue pour ses instruments d’analyse des grandes banques de données en vrac, mais également pour son savoir-faire dans le domaine de l’e-commerce et de l’intelligence économique. Un trio de compétences qui a su convaincre Larry Ellison. Le CEO d’Oracle avait à cœur de répondre aux manœuvres de ses concurrents. Plus tôt dans l’année, Hewlett-Packard avait déboursé 12 milliards de dollars pour racheter la société britannique Autonomy dont l’un des logiciels sait trier des amas d’e-mails, d’appels téléphoniques et de tweets pour leur conférer un intérêt économique. Quant à la société EMC, elle ne cesse d’investir des sommes colossales pour affûter ses compétences dans le Big Data.

Manne  Les géants de l’informatique mondiale se battent pour apprivoiser le flux des données.

Et le côté éthique?

Face au développement de ce phénomène, certains émettent tout de même certains avertissements. A l’image de Giovanna Di Marzo Serugendo, professeur à l’Université de Genève et spécialiste du cloud computing: «La gestion de ces énormes quantités de données va forcément poser des questions éthiques liées à la protection des données. On le voit déjà avec certains sites de réseaux sociaux. Et cela ne fera que s’amplifier quand on prendra réellement conscience des revenus considérables engrangés par ceux qui sauront les exploiter.» Philippe Nieuwbourg doute, lui, de la réelle nouveauté du concept de Big Data. Directeur du Musée de l’informatique à Sophia-Antipolis, il a signé une tribune titrée «Big Data: on n’attire pas les mouches avec du vinaigre.» Il y confie ne pas voir de saut qualitatif entre les outils d’exploration et de tri des données d’hier et d’aujourd’hui, du simple fait de l’inflation des données. Sur toutes les plates-formes, souligne-t-il encore, on sait depuis longtemps manipuler des téraoctets de données. Certains secteurs travaillent depuis longtemps avec ces outils: grande distribution, banque, assurance, transport, télécommunication. Le Big Data recouvrerait alors plusieurs réalités et besoins différents. Avec une règle commune cependant: l’outil ne suffit pas. Il faut apprendre à le manier avec adresse.

Que sont ces octets à l’étrange nature?

On relie souvent l’activité du Big Data à des données que l’on dit non structurées. Mais à quoi fait-on référence exactement?

Données structurées Il s’agit d’informations intégrées à une base de données, laquelle les met en relation les unes avec les autres selon différents modes. Elles constituent le gros des données qu’utilise le secteur des technologies de l’information (TICs) depuis des décennies. Nombre d’entreprises ont d’ailleurs toujours recours à cette approche qui leur permet d’interroger une base de données selon leurs besoins en suivant une procédure de requête formalisée.

Données semi-structurées Elles forment le gros des troupes de la seconde vague des données dans le secteur des TICs. Elles sont majoritairement constituées de courriels, de documents créés par des traitements de texte et de différents fichiers trouvés sur Internet. Ce type d’information est généralement trié selon son contenu, et c’est d’ailleurs grâce à cette logique que l’on peut y accéder. C’est par exemple l’essence même du travail de Google.

Données non structurées A ce niveau-là, on évoque des données traduites dans leur forme la plus basique. Il faut dès lors les mettre en forme afin qu’elles puissent être lues, entendues ou vues dans différents formats. Elles exigent, en raison de leur énorme quantité et leur complexité, des outils d’analyse plus puissants et plus évolués afin de mettre de l’ordre dans ce qui semble a priori totalement incohérent pour une intelligence humaine.

Illustrations: cherryonthecakestudio.com/krum

Pierre-Yves Frei

Aucun titre

Lui écrire

Les newsletters de Bilan

Le cercle des lecteurs

Le Cercle des Lecteurs est une plate-forme d'échanger sur tout ce qui touche votre magazine. C'est le reflet de vos opinions, et votre porte-parole le plus fidèle. Plus d'info


Image Footer

"Tout ce qui compte.
Pour vous."