Le Google Cloud Summit s’est tenu le 6 avril 2022 dans un format 100% en ligne.

Deux sessions étaient disponibles, une pour l'Europe (UTC+2) et une pour les Etats-Unis (UTC-7) avec des conférences différentes. Nous avons assisté à la session Européenne et certains sujets ont tout particulièrement attirés notre attention parmi les thèmes proposés : 

  • Machine Learning / Intelligence artificielle
  • Data Analyse / Analyse cross-cloud
  • Création d’applications interactives

Le programme aussi varié qu’intéressant apportait donc des clés de réponses concernant la résolution de défis complexes grâce aux innovations à la pointe en matières d’IA, d’apprentissage automatique, d’analyse et de base de données.

Deux sujets faisant partie de notre expertise ont particulièrement marqué ce summit, il s’agit de BigLake et BigQuery Omni qui sont des innovations multi-cloud.

Retrouvez dans cet article:

Les silos de données, Qu’est-ce que c’est ? Quels sont les dangers ? Quelles sont les solutions innovantes ?

Les silos de données sont le terme utilisé pour illustrer le cloisonnement de la data entre les différentes business units d’une entreprise. Ainsi, les échanges d’informations et la collaboration sont fortement diminués ce qui impacte à la baisse les performances globales et la compétitivité. 

Les silos de données sont un réel danger dans le contexte actuel où la data est considéré comme “le nouvel or noir du 21ème siècle” et où les entreprises sont de plus en plus Data driven.

"La gestion des données à travers des lacs et des entrepôts disparates crée des silos et augmente les risques et les coûts, en particulier lorsque les données doivent être déplacées" (Gerrit Kazmaier, vice-président et directeur général des bases de données, de l'analyse des données et de la veille économique chez Google Cloud).

De plus en plus de solutions voient le jour pour pallier ce problème, comme c’est le cas avec Big Lake qui est un système de stockage multi-cloud pour les data lakes. On peut également citer BigQuery Omni qui est un service d’analyse multi-cloud. 

BigLake système de stockake multi-cloud pour les data lakes

Google a annoncé le lancement prochain de Big Lake , un nouveau moteur de stockage pour les data lakes. Les entreprises pourront ensuite analyser plus facilement les données de leurs data lakes et de leurs data warehouses.

Il sera alors possible de stocker des données provenant de plusieurs data lakes, aussi bien du Google Cloud Storage, que d’AWS S3 ou encore d’Azure Data Lake Storage Gen 2. 

"BigLake permet aux entreprises d'unifier leurs entrepôts et lacs de données pour analyser les données sans se soucier du format ou du système de stockage sous-jacent, ce qui élimine le besoin de dupliquer ou de déplacer les données d'une source et réduit les coûts et les inefficacités." (Gerrit Kazmaier, vice-président et directeur général des bases de données, de l'analyse des données et de la veille économique chez Google Cloud.)

Crédit : Google

BigQuery Omni, service d'analyse multi-cloud.

Avec BigQuery Omni il est désormais possible d’effectuer des analyses nécessitant des données stockées dans différents data warehouses tels que AWS S3 / blob Azure ou encore BigQuery managed storage. 

Déplacer ou copier des données n’est généralement pas souhaité pour des raisons de budget, de temps et de gouvernance. C’est pourquoi la solution BigQuery Omni semble être la plus optimale.

Comment cela fonctionne t-il ?

“L'architecture de BigQuery sépare le calcul du stockage, ce qui permet à BigQuery de procéder au scaling afin de traiter des charges de travail très volumineuses. BigQuery Omni étend cette architecture en exécutant le moteur de requêtes BigQuery dans d'autres clouds.” (Google Cloud - BigQuery Omni - Introduction)

Il est donc possible d’interroger des données stockées dans différents Clouds grâce à une requête SQL dans la console cloud. 

Crédit : Google

Conclusion:

Ce summit a révélé des innovations tournées vers le multi-cloud qui connaît actuellement un boom significatif. Cela vient faciliter le stockage et le traitement des données. L’objectif est de voir disparaître les silos dans les prochaines années tout en facilitant les analyses croisées, sans altérer la sécurité des accès aux données grâce à des paramétrages spécifiques.