Qu'entend-on par « Big Data » ?
Définition : Les 3 V
Volume
Vélocité
Variété
À la source : d'où proviennent les mégadonnées ?
Exemples d'utilisation des données massives
Exemple no 1 : Industrie automobile
Exemple no 2 : Marketing
Exemple no 3 : Soins de santé
Pourquoi les données massives sont-elles importantes ?
Comment fonctionnent les technologies du Big Data ?
Répartition sur plusieurs systèmes
Traitement parallèle
Grande évolutivité
Analyse avancée
Automatisation
Les défis du Big Data
L'avenir du Big Data, avec le Big Data
Les appareils numériques et l'Internet génèrent d'énormes quantités de données. Les entreprises peuvent utiliser ces données pour mieux adapter leurs produits et leurs services au marché et à la clientèle. Le « Big Data », c'est-à-dire les données massives ou mégadonnées, peut ainsi contribuer de manière décisive au succès de l'entreprise. Mais que sont les données massives ? Et comment peuvent-elles être utilisées à bon escient ?
Cet article explique ce qu'est le Big Data, d'où proviennent ces innombrables données et comment elles sont utilisées. Vous découvrirez pourquoi tant d'entreprises collectent assidûment toutes les données possibles, et quelles sont les technologies nécessaires pour cela. Nous vous montrerons également quels sont les défis à relever et vous donnerons un aperçu du rôle que le big data jouera à l'avenir.
Par big data, nous entendons d'énormes quantités de données, très complexes et très dynamiques. Ces données massives ne peuvent pas être stockées ni analysées par les méthodes traditionnelles. Cela signifie qu'un seul ordinateur ne peut pas gérer une telle masse de données et les logiciels courants comme Excel ne peuvent pas les analyser. Des technologies spécifiques sont nécessaires. Le terme Big Data est souvent employé pour désigner aussi, par extension, ces nouvelles technologies.
Le modèle des 3 V est généralement utilisé pour caractériser les données volumineuses. Au début des années 2000, l'informaticien Doug Laney a décrit trois dimensions essentielles du Big Data :
Ce n'est pas pour rien que l'on parle de données « massives ». Dans l'univers du Big Data, on travaille généralement avec des pétaoctets (environ 1 million de gigaoctets) ou des exaoctets (environ 1 milliard de gigaoctets). Nous ne sommes pas habitués à un tel volume de données dans notre vie quotidienne. Peut-être que la comparaison suivante vous parlera davantage : un pétaoctet correspond à environ 500 milliards de pages de texte. Vous imaginez bien qu'un disque dur normal ne suffit pas pour stocker cela.
Des données sont créées sans cesse, et extrêmement rapidement. En raison de cette dynamique, elles doivent aussi être transmises et évaluées le plus vite possible, sans quoi elles perdent leur valeur. Certains appareils numériques peuvent traiter des flux de données dynamiques en temps réel ou quasi réel.
Les mégadonnées contiennent différents types de données. Il existe des formats structurés, comme les tableaux ordinaires, et des formats semi-structurés et non structurés, comme les photos, les vidéos ou les courriels. La diversité des types de données nécessite des systèmes spécifiques pour stocker et analyser l'ensemble des données.
Au fil des années, le modèle des 3 V a été complété par de nombreux autres termes commençant par la même lettre, par exemple Véracité (qualité ou authenticité des données) ou Valeur (valeur ajoutée des données). Cependant, les trois caractéristiques principales des mégadonnées restent constantes : leur immense quantité, leur vitesse et leur diversité.
Le volume mondial des données numériques ne cesse de croître. Chaque année, d'énormes quantités de nouvelles données sont générées, et ce, dans des dimensions de plus en plus extrêmes – elles deviennent plus rapides, plus complexes, plus nombreuses. Compte tenu de la numérisation croissante, cela n'a rien de surprenant. Les appareils numériques, les systèmes intelligents, les applications et autres inondent le marché. Des milliards de personnes utilisent Internet et différents médias numériques. De plus en plus d'entreprises et d'administrations passent par des processus de transformation numérique. Et l'infrastructure numérique ne cesse de s'étendre grâce à des technologies innovantes. Il en résulte de nombreuses sources de données, par exemple :
les smartphones,
les montres intelligentes,
les appareils Smarthome,
les médias sociaux,
les moteurs de recherche,
les services de streaming,
ou le commerce en ligne.
L'Internet des objets est un gigantesque réseau de technologies et de systèmes logiciels reliés entre eux et échangeant des données via Internet.
Dans notre monde numérisé, les données sont en principe disponibles n'importe où, n'importe quand. Les entreprises, mais aussi les chercheurs, tirent parti de cette situation. Différents secteurs, départements et domaines sociaux peuvent tirer de nouveaux enseignements du Big Data. En voici quelques exemples :
Les données sont un « carburant » important pour la conduite automatisée et autonome. Plus elles sont nombreuses, mieux c'est. Plus un véhicule doit se déplacer de manière autonome dans le trafic, plus les algorithmes des systèmes d'IA intégrés doivent être performants. Les données issues de la conduite simulée, des kilomètres parcourus sur des terrains d'essai et, enfin, dans la circulation routière réelle, constituent la base de ce travail. L'intelligence artificielle peut ainsi tester les scénarios les plus divers, susceptibles d'apparaître dans la circulation routière. Cet entraînement de l'IA basé sur des données réelles a pour but d'assurer une grande sécurité aux occupants du véhicule.
Les données clients enrichissent le marketing. Pensez à votre marque préférée. Quelles sont les informations personnelles que vous donnez à l'entreprise ? Peut-être faites-vous vos achats dans la boutique en ligne. Peut-être suivez-vous la marque sur les médias sociaux et interagissez avec ses publications. Ou avez-vous déjà rempli un sondage de satisfaction, ou rédigé un commentaire ? Possédez-vous une carte de fidélité ? Tout cela génère des données : des données sur votre comportement d'achat, votre utilisation des médias, vos préférences, votre fidélité à la marque, etc... L'entreprise peut utiliser ces données pour en savoir plus sur ce qui vous intéresse et vous envoyer des informations personnalisées via les canaux que vous utilisez le plus souvent.
La médecine et les soins de santé génèrent de grandes quantités de données. Elles proviennent des patients et de la population générale, par exemple via les caisses d'assurance maladie, les applications de santé ou les recherches Internet sur certains symptômes. Utilisées à bon escient, ces données peuvent aider à améliorer la prise en charge individuelle ou à concevoir des offres de prévention efficaces.
« Les données sont le nouveau pétrole. » Cette phrase résume bien la tendance du Big Data, car les données sont considérées comme la matière première du futur. La transformation numérique bouleverse le monde de l'entreprise et du travail. Les données numériques deviennent une ressource centrale. Les grands groupes technologiques construisent leur succès sur d'immenses bases de données. Les PME sont, elles aussi, de plus en plus nombreuses à vouloir exploiter le potentiel du Big Data.
Il ne s'agit pas de collecter le plus de données possible. Il est plus important d'utiliser efficacement les données existantes. En les traitant et en les analysant, il est possible d'identifier des tendances, d'en tirer des corrélations et des schémas. Cela fournit des informations précieuses sur les processus, les produits, les marchés et les personnes. Sur cette base, les entreprises peuvent notamment :
mieux gérer les processus et les ressources,
optimiser les produits ou en développer de nouveaux en fonction des tendances du marché,
prendre des décisions commerciales basées sur les données les plus récentes.
Les entreprises ne sont pas les seules à pouvoir bénéficier du Big Data. Les données peuvent également être une nouvelle source de connaissances et de progrès dans des domaines publics tels que la médecine, l'éducation ou l'administration.
Les données, quels que soient leur volume ou leur quantité, ne mènent pas automatiquement au progrès, ou à une amélioration drastique des connaissances. Pour obtenir un tel résultat, les données doivent être stockées, gérées et surtout analysées efficacement. Cela nécessite une technologie et des outils spécifiques. Les solutions du Big Data fonctionnent notamment selon les principes suivants.
Les données ne sont pas stockées et traitées sur un seul appareil, mais réparties sur plusieurs appareils en réseau. Il peut s'agir d'ordinateurs ou de serveurs dans un centre de données. Le cloud computing, quant à lui, est une solution à distance. Les données sont stockées en ligne et peuvent être consultées à tout moment et en tout lieu si une connexion Internet est disponible.
Pour des volumes de données de l'ordre du pétaoctet ou de l'exaoctet, il faudrait un temps astronomique pour traiter les données une à une. Pour accélérer l'analyse, les données et les étapes de l'analyse des données sont donc réparties sur plusieurs ordinateurs. Ainsi, les données peuvent être traitées simultanément ou en parallèle. Les résultats partiels sont ensuite fusionnés. C'est nettement plus rapide qu'une approche séquentielle.
Les flux de données étant très dynamiques, l'infrastructure doit être adaptée en permanence. C'est la seule façon d'absorber efficacement les différences de volume dans le flux de données. Un système hautement évolutif est à même de réaliser cela. Le cas échéant, de nouvelles ressources informatiques sont ajoutées pour augmenter sa capacité et ses performances. Les lacs de données ou les bases de données NoSQL, également appelées bases de données non relationnelles, sont des exemples de tels systèmes de stockage hautement évolutifs.
Les distributions de fréquence et les corrélations ne suffisent pas pour exploiter les données massives. Des méthodes d'analyse plus complexes, telles que l'exploration des données (Data Mining) ou l'intelligence artificielle, sont nécessaires. Elles peuvent être utilisées dans le domaine de la veille stratégique, qui consiste à analyser systématiquement les données pour permettre une prise de décision efficace. Les méthodes analytiques avancées nécessitent, comme leur nom l'indique, des compétences approfondies. Ce savoir-faire est le propre des « data scientists », ou scientifiques des données. Leur mission est de transformer les données massives en données intelligentes et d'en faciliter la compréhension, par exemple grâce à des représentations graphiques.
Pour faire face à la croissance rapide du volume de données, des solutions automatisées sont de plus en plus nécessaires. À l'heure actuelle, il est déjà devenu impossible de gérer et d'analyser manuellement la quantité de données existante, et le volume mondial de données augmente chaque année de manière exponentielle. Les technologies prometteuses pour réduire autant que possible le facteur humain dans l'analyse des données sont l'intelligence artificielle, l'apprentissage automatique et les réseaux neuronaux.
Pour travailler avec des données volumineuses, il faut toujours disposer d'une technologie de pointe. L'infrastructure technique évolue constamment et les méthodes de traitement des données changent. Par exemple, il y a quelques années encore, le framework Apache Hadoop était l'écosystème le plus courant pour stocker et traiter des données massives. Mais il existe désormais Apache Spark et Apache Flink, qui permettent un traitement plus rapide.
La qualité des données est un autre défi majeur. En raison de leur complexité et de leur évolution rapide, de nombreux ensembles de données présentent des doublons, des lacunes ou des erreurs. Avant de pouvoir être analysées proprement, les données doivent souvent être nettoyées, traitées et vérifiées de manière complexe.
Une critique fréquente, dans le débat sur le Big Data, est la protection des données. Les entreprises collectent de nombreuses informations au sujet de leurs clients, de nature parfois privée. Les utilisateurs de services en ligne, d'applications ou d'appareils intelligents ne savent souvent pas quelles données sont utilisées, par qui et dans quel but. Garder une vue d'ensemble de ses propres données est un grand défi pour chacun d'entre nous face à l'augmentation quotidienne du flux d'informations via les médias numériques et l'Internet.
Les données continueront d'être un bien précieux pour développer les systèmes d'information et de connaissance dans notre société. La quantité de données générées augmente rapidement chaque année et le marché des technologies du Big Data et de l'intelligence artificielle connaît une croissance effrénée. L'apprentissage automatique et le traitement des données en temps réel sont actuellement très en vogue.
En raison de leur fort potentiel pour générer de nouvelles connaissances et automatiser les processus, les mégadonnées et les outils permettant de les analyser sont des moteurs essentiels de l'industrie 4.0. La protection des données et la sécurité de l'information restent également prioritaires. Les phénomènes comme les deepfakes ou la discrimination par l'IA sont également de plus en plus discutés par le public.
Le Big Data et l'intelligence artificielle ne sont donc pas seulement intéressants pour les experts en données et les développeurs d'IA ! Notre E-Training « Big Data - Comprendre l'univers des données » vous permettra d'approfondir vos connaissances !