Qu’est-ce que le Big Data?

Considéré comme étant une simple base de données parmi tous les éléments qui constituent le numérique, le Big Data est pourtant bien plus que ça. Le phénomène du Big Data se manifesta par une déflagration quantitative des données digitales, issue de l’innovation à vitesse V du numérique. Or, les technologies traditionnelles de traitement des données comme la Business Intelligence ou les bases de données n’ont pas été conçues pour traiter une telle masse de données. Ainsi, Les chercheurs ont trouvé un concept qui permet de stocker, d’analyser, et de partager cette mine d’informations, sur une base numérique. C’est ainsi que naquit l’appellation Big Data.

Qu’est ce que les données Big Data?

Nos mails, les échanges sur les réseaux sociaux, SMS, transactions bancaires, achats sur des sites e-commerce où l’on utilise quelques fois le Bitcoin, notre position gps, jusqu’à notre carte grise ou encore notre salaire; tous ces chiffres, une fois récupérés et stockés forment le Big Data. Nous sommes les principaux émetteurs de ce volume massif de données qui documentent de plus en plus chacune de nos activités.

Le concept fondamental du Big Data est le traitement de fortes volumétries de données. Mais son enjeu principal c’est la valorisation ces données quel que soit leurs volumes, en dépassant trois limites auxquelles sont confrontées les autres systèmes d’informations:

  • Le Volume de données qu’il faut traiter et analyser ;
  • La Variété des diverses sources de données qu’on doit interpréter et croiser efficacement ;
  • La Vélocité qui correspond à la vitesse à laquelle les données sont générées, capturées et partagées.

Les évolutions technologiques qui accompagnent le Big Data

En 2015, il devrait y avoir 15 milliards d’appareils connectées sur internet et jusqu’à 50 milliard, le nombre estimé en 2020 ; autant de sources pour alimenter le Big Data. Plusieurs technologies ont été créées pour faciliter l’accès à cet ensemble de données massives.

Il y eut « Map Reduce » conçu par les laboratoires de Google. C’est une méthode de traitement parallèle du Big Data, sur des milliers de machines réparties en grappes, avec la gestion de la tolérance aux pannes.

Apache Software Foundation a ensuite conçu le framework « Hadoop », afin de mieux générer et stocker les données, en vue d’améliorer le Map Reduce. Il est le plus utilisé par les entreprises en ce moment.

Après, fut créé le « Cloud Computing » qui offre une ressource matérielle incommensurable pour permettre un accès libre aux données. Puis naissent d’autres technologies qui traitent le Big Data.