Lexique Big Data : 25 définitions pour découvrir ou approfondir les notions clé des mégadonnées

Le Big Data et son lot d’anglicismes peuvent sembler obscurs. On entend ces termes à tort et à travers mais que se cache-t-il derrière ce vaste domaine ? Le flot d’informations récoltées et stockées par les entreprises croît de manière exponentielle : ce sont les Big Data. Pour mieux les gérer et les exploiter, il existe de nombreux outils, logiciels et solutions informatiques. Les 25 définitions de cet article vous permettront de vous familiariser avec les notions et technologies clé du Big Data et l'analyse de données !

5V du Big Data

Volume : immense quantité d’informations dans les bases de données
Vélocité : rapidité/vitesse à laquelle elles sont générées, collectées, stockées et analysées
Variété : diversité en terme de nature, de format ou de structure des données
Valeur : source de profit
Véracité : fiabilité et conformité des données récoltées

Si l’on parle en priorité du volume de données généré tant il est massif, leur valeur et leur véracité représentent les nouveaux enjeux du Big Data.

Algorithme

Sans algorithme, pas de Big Data. En mathématiques comme en informatique, un algorithme est une suite d’opérations permettant de résoudre un problème et d'obtenir un résultat. Ce type de protocole automatisé est très utile quand il s'agit de Big Data puisqu'il est réalisé par une machine pouvant traiter une large quantité de données, contrairement à un humain.

Business Intelligence (BI)

La Business Intelligence regroupe plusieurs pratiques en lien avec la collecte et l’exploitation de données commerciales. En effet, l’analyse de ces informations constitue une base de réflexion stratégique et un support pour les entreprises. Les BI sont des systèmes d’optimisation de prise de décision et peuvent prendre la forme de logiciels comme celui du groupe SAP ou encore Cognos Analytics par IBM.

Capital data

Le capital data représente la dimension financière du Big Data. Les entreprises cherchent à tirer profit des données collectées. Cependant, il ne suffit pas de posséder des données, il faut savoir les exploiter au mieux afin de créer de la valeur. Ce capital de données est similaire à celui d’un capital social : les ressources sont valorisées financièrement.

Cassandra

Système de gestion de données développé par Apache, Cassandra est de type NoSQL. C’est la solution la plus fréquemment utilisée lorsqu’il s’agit de traiter d’immenses volumes de données. Son avantage principal réside dans sa scalabilité, c’est-à-dire sa faculté d’adaptation à des changements de volumes soudains.

Chief Data Officer (CDO)

Dans une entreprise, le « responsable des données » est un membre dirigeant en charge de la correcte gestion des données récoltées. Le Chief Data Officer a pour missions de définir et superviser une stratégie de collecte et de traitement des données en lien avec la stratégie globale de l’entreprise. Son rôle transversal l’amène à collaborer avec de nombreux services comme le marketing, la qualité ou encore les ressources humaines. Le CDO est garant, entre autres, de la valeur et de la véracité des données, frontière entre profitabilité des ressources et correcte exploitation.

Cloud computing

Le concept de cloud computing peut être résumé par l’accès à des infrastructures, des logiciels, des bases de données et autres services informatiques sans les posséder physiquement. Ils fonctionnent via Internet sur la base d’un abonnement ou d’une licence souscrits chez un fournisseur. On parle de SaaS, de IaaS ou encore de PaaS pour signifier software, infrasructure ou platform as a Service.

Computer cluster

Les computer clusters ou « grappe de serveurs » représentent les liaisons entre différents serveurs : ils communiquent et travaillent ensemble pour réunir les informations afin de répondre à une requête. On les considère comme une seule et même machine, mais leur partage permet une gestion plus efficace du stockage : chaque ordinateur possède une partie de l’information.

Dark data

Les dark datas sont les données peu ou pas exploitées par une entreprise. Elles sont d’autant plus coûteuses qu’elles ont demandé des ressources (temps, énergie, humain) en vue de les acquérir, mais également pour les stocker. Cette négligence s’explique par un faible intérêt pour ces données pourtant essentielles. Le volume accumulé ne cesse de croître et il était prévu qu’elles constituent, en 2020, 93% des données collectées par les entreprises.

Data analyst vs Data scientist

Si les métiers de data analyst et de data scientist semblent identiques, on peut les différencier par le niveau d’expertise requis.

Le data analyst extrait et interprète les données grâce à diverses méthodes de programmation afin d’établir une stratégie pour l’entreprise.
Le data scientist, lui, est compétent dans la création de modèles mathématiques et statistiques et d'analyse prédictible

Pour résumer le premier a un rôle stratégique et décisionnel et le deuxième est davantage tourné vers la recherche en data science. Néanmoins, il n'est pas obligatoire d'être analyst ou scientist pour intervenir dans la gestion et la compréhension des données. Les chefs de projets techniques, les architectes et les développeurs peuvent suivre des formations pointues sur le Machine Learning et Python. Elles permettent d'étayer leurs compétences et apporter une nouvelle dimension au travail des experts de la donnée.

Datacenter

Un centre de données est une infrastructure physique où sont entreposés les équipements servant au stockage des données numériques.

Data gravity

La data gravity sert à nommer le phénomène d’accumulation de données numériques qui sont ensuite difficiles à exploiter par une entreprise. En effet, le volume grandissant de données récoltées empêche de recourir aux méthodes classiques d’analyse et de traitement avec des équipements en interne. Les plateformes telles qu’Hadoop permettent de supporter cette immense quantité d’informations. Autre solution : modifier l’architecture informatique de l’entreprise afin d’éviter certains désagréments (risques, coûts) liés aux plateformes externes.

Data lake

Un lac de données regroupe toutes les données, brutes et structurées ou non, récoltées par l’entreprise. Chaque entité vient puiser les informations dont elle a besoin dans ce point de collecte commun. Un data lake peut par exemple être utilisé dans le cadre du machine learning. On compare souvent data lake et data warehouse mais ces bases de données ne servent pas les mêmes objectifs : elles sont complémentaires.

Data mining

L’exploitation des données liées au Big Data ne serait pas possible sans le data mining. On pourrait traduire « mining » par « exploration » ou « forage ». Depuis des données brutes sont créés des liens et des relations logiques grâce à des algorithmes complexes. Ces classifications rendent les données analysables et exploitables par d’autres acteurs d'une entreprise par exemple.

Data warehouse

Contrairement aux data lakes, plutôt exploités par les data scientists, les data warehouses (littéralement « entrepôts de données ») sont utilisés à des fins d’analyse stratégique. Les données d’une data warehouse sont structurées et nécessitent un traitement spécifique en amont pour être stockées puis exploitées par l’Homme.

Deep learning

Le deep learning, si on doit le comparer au machine learning, devient très utile lorsque l’on est confronté à un immense volume de données. En effet, c’est cette quantité qui va améliorer l’apprentissage de la machine : plus il y a de données, plus les algorithmes de deep learning seront précis et plus l’analyse sera fine. Un ordinateur pourra par exemple reconnaître des objets, des visages ou un paysage. La plupart des entreprises ne peuvent pas encore prétendre au deep learning, faute de données assez nombreuses. Cependant, il est judicieux de se former au Deep learning afin d'anticiper les changements et augmenter la performance de l'entrerpise.

Données structurées et non structurées

Les données structurées et non structurées sont deux catégories d'informations différenciées par leur format : dans le premier cas il est prédéfini, dans le deuxième non. Les données non structurées correspondent donc aux informations directement compréhensibles par un humain car ne sont pas organisées sous forme de base de données : images, messagerie, vidéos.

Elasticsearch (ES)

Moteur d’indexation et de recherche, Elasticsearch est adapté aux immenses volumes de données du Big Data. En effet, il est particulièrement rapide et scalable. De plus, il supporte tout type de données, d’un simple texte à des données non structurées. Ces caractéristiques lui confère une grande polyvalence et lui permettent de s’adapter aux divers besoins des entreprises.

Extract, Transform, Load (ETL)

L’acronyme ETL résume les étapes par lesquelles transitent les données :

Extract : elles sont extraites des différentes sources (bases de données)
Transform : elles sont ensuite converties dans le format souhaité
Load : enfin, elles sont transférées dans une nouvelle base de données

Fast data

Le Big Data implique certes de larges volumes d’informations mais également une collecte et une circulation de plus en plus rapide. On peut recourir au fast data afin d’exploiter en temps réel les informations collectées et ainsi perdre le moins de qualité possible. En effet, les données risquent sinon de se perdre dans la masse (cf. dark data) et il deviendra alors très complexe d’en retirer une analyse qualitative immédiate.

Hadoop

Hadoop est une infrastructure logicielle (framework) du serveur Apache qui permet l’analyse de larges volumes de données. Référence dans le domaine du Big Data, ce framework est open-source et scalable. Il est utilisé pour stocker des données mais aussi recouper celles qui seraient entreposées dans différents clusters. Apache propose de nombreuses solutions et technologies de traitement des données. Réaliser une formation professionnelle certifiante sur Apache Spark, Hadoop ou encore Cassandra permet aux équipes techniques comme aux chefs de projets d'optimiser la gestion des données en entreprise.

Machine learning

Les algorithmes auto-apprenants, ou "apprentissage statistique", sont plus connus sous les termes machine learning. Cela consiste à agréger des données pour qu’un ordinateur puisse automatiquement réagir à une situation donnée, sans l’intervention de l’Homme. Cela concerne des classements, des scores, des analyses textuelles, mais pas de reconnaissance d’image très précise, comme il est possible avec le deep learning.

Réseau de neurones artificiels

L’artificial neural network se base sur l’apprentissage humain pour nourrir les solutions liées à l’intelligence artificielle. Ces réseaux sont construits comme les connexions entre les neurones d’un cerveau humain. Ces technologies sont directement corrélées au deep learning et au machine learning car elles nécessitent à nouveau de grands volumes de données pour pouvoir être perfectionnées.

Sentiment analysis

Les sentiment analysis, également connues sous le nom d’opinion mining, sont comparables au data mining mais elles concernent le traitement de sources textuelles relatives à des opinions. Les analyses permettent d'identifier un schéma de réaction basé sur le langage naturel d’un humain : joie, colère, surprise mais aussi analyse de la ponctuation. Elles sont très utiles pour les contenus et commentaires postés des réseaux sociaux par exemple.

Small data

Les micro-données sont des informations qu’une entreprise peut par exemple récolter dans les tableurs Excel, les comptes rendus de réunion, les mails ou encore les agendas des collaborateurs. Sont également pris en compte les capteurs physiques ou digitaux comme un portique d’entrée. A l’instar des Big Datas, l’exploitation de ces données peut améliorer le pilotage interne d’une entreprise.

Consultez nos formations Big Data et permettez à vos équipes de monter en compétences dans le domaine.