Dataform est la nouvelle tête de proue des use case Data dans Google Cloud. Solution innovante intégrée avec un potentiel illimitée, ce produit devient incontournable dans les pipelines de données modernes. Le meilleur moment pour commencer Dataform c'était hier, et le deuxième meilleur moment c'est maintenant. Cet article est le premier d'une série de 3 que nous allons publier concernant Dataform.
Nous allons voir ensemble dans cette article :
- Comprendre Dataform
- La révolution pour l'écosystème
- L'histoire de Dataform et son avenir
- Une communauté florissante
- Conclusion
La définition officielle de Dataform est souvent abstraite : "Une plateforme basée sur le cloud qui aide les équipes de données à construire, contrôler les versions et orchestrer les flux de travail SQL dans BigQuery."
Pour une personne qui n'a jamais utilisé l'outil ou nos lecteurs moins technique, c'est une définition particulièrement opaque car théorique.
Pour tenter de mieux comprendre l'outil nous utilisons une analogie. Voyez Dataform comme un CMS WordPress, mais hébergé sur Google BigQuery. Imaginez :
- Votre projet Dataform est un blog
- Vos "articles" sont écrits en SQL
- La publication de vos "articles" crée des tables dans BigQuery
- Vous pouvez créer des liens entre vos "articles" comme un maillage interne
- Vous disposez d'environnements de développement et de production
- Vous pouvez organiser vos "articles" par thématique
- Vous pouvez planifier l'exécution de votre SQL à la fréquence de votre choix
Les fondateurs eux-mêmes décrivent l'outil comme un "système d'exploitation pour data warehouse".

Voici maintenant les fonctionnalités techniques les plus notables du produit :
- Langage SQL enrichi : Pour définir avec précision vos transformations de données.
- Moteur d’orchestration serverless : Planifie les tâches et gère les dépendances de manière dynamique.
- IDE Cloud Intégré : Offre un contrôle de version pour déployer facilement votre code dans des environnements de développement, de test et de production.
- Cadre d’Assurance Qualité : Permet de garantir la fiabilité et la cohérence des données transformées.
Fini les "requêtes programmées" éparpillées ou les chaînes de dépendance manuelles. Dataform apporte structure, collaboration et automatisation à vos flux de travail SQL C'est l'outil à utiliser en priorité quand vous êtes sur Google Cloud.
Dataform coche les cases de toutes les bonnes pratiques pour les pipelines de données, d'abord en permettant une manipulation des données très avancée et ensuite avec son graphe pour orchestrer aisément les requêtes.
Dataform se positionne précisément dans la partie Transformation de vos pipelines de données ELT (Extract, Load, Transform). Contrairement aux ETL (Extract, Transform, Load) populaires dans les années 2010, l'approche ELT est aujourd'hui privilégiée avec l'arrivée d'outils comme Dataform, dbt et Snowflake.
Cette approche est généralement plus pertinente car elle préserve vos données brutes avant de les exploiter avec un outil dédié comme Dataform, plutôt que de les transformer durant leur acheminement — une méthode trop vulnérable aux évolutions.

Grâce à son graph, Dataform facilite naturellement l'implémentation d'architectures en médaillon :
- Bronze : données brutes
- Silver : données transformées
- Gold : données optimisées pour l'usage final

L'intégration de Dataform s'aligne avec le changement de paradigme des pipelines de données, et l'outil modernise les pratiques traditionnelles en s'appuyant sur le moteur de BigQuery pour permettre une transformation avec un scaling illimité.
L'histoire de Dataform
Pour ceux qui, comme Machiavel, croient que "pour prévoir l'avenir, il faut connaître le passé", voici les grandes étapes de Dataform :

À ses débuts, Dataform s'appuyait partiellement sur dbt, un outil open source lancé un an plus tôt par RJMetrics. Lorsque dbt Cloud est sorti en 2018, Dataform a cessé de mentionner son "concurrent".
Après l'acquisition, le produit a disparu temporairement pour réapparaître en 2023 en disponibilité générale (GA), pleinement intégré au moteur BigQuery.
Cette historique nous apprend deux choses :
- Depuis 10 ans, Google Cloud a un coup d'avance sur le stockage et le traitement des données grâce à BigQuery. Ils en ont maintenant deux avec Dataform.
- dbt et dataform ont profité d'un vide que les Cloud Service Providers n'arrive pas à combler par rapport à l'utilisation de leurs infrastuctures, de leurs interfaces et des use cases potentiels. Ce travail du "dernier kilomètre" signifie qu'à moyen termes il existe des opportunités pour des startups qui proposent des solutions complémentaires, le temps que les CSPs les développent eux même.
et son avenir
Bien que Google Cloud ne publie pas de roadmap officielle pour Dataform, nous pouvons faire quelques spéculations basées sur les tendances actuelles et l'écosystème Google Cloud :
- Intégration avec BigQuery Data Lineage et Data Quality : Ces modules récemment développés par Google s'alignent parfaitement avec la mission de Dataform. Une intégration directe dans l'interface de développement Dataform semble logique pour offrir une expérience unifiée de gouvernance des données.
- Connexion avec Vertex AI : L'intégration des notebooks Vertex AI et de leurs résultats dans le graphe de dépendances Dataform renforcerait le pont entre data engineering et data science. Cela permettrait d'inclure les transformations basées sur le ML directement dans les pipelines Dataform, consolidant ainsi l'écosystème data de Google Cloud.
- Support étendu pour d'autres dialectes SQL : Bien que focalisé sur BigQuery, Dataform pourrait éventuellement s'étendre à d'autres sources de données Google Cloud comme Spanner ou AlloyDB.
L'écosystème data de Google Cloud est riche et activant. Dataform s'intègre au coeur des processus de traitement et son périmètre ne va qu'augmenter.
Dataform bénéficie d'une communauté dynamique d'analystes, notamment grâce à sa connexion avec Google Analytics 4 stocké dans BigQuery. Depuis 2020, l'export des données GA4 vers BigQuery est une pratique recommandée, et Dataform simplifie considérablement les traitements en médaillon de ces données.
Un an après la mise en disponibilité générale de Dataform, un package open source pour traiter les données GA4 est disponible : GA4 Dataform. Avec un déploiement en un clic, ce package normalise le traitement des données bronze vers les données silver, répondant ainsi au besoin de standardisation pour les exports GA4, souvent critiqués pour leurs faiblesses et leur fragilité.
GA4 Dataform a été écrit par une équipe internationale d'hyper spécialistes composé de 5 membres : Artem Korneev, Jules Stuifbergen, Johan van de Werken, Krisztián Korpa, Simon Breton. Leur package contient les best practices que ce soit dans le traitement des données GA4 ou dans l'utilisation de Dataform.

Dans la communauté, Ashish Alex a aussi développé un plugin Visual Studio pour déporter une partie des fonctionnalités de Dataform directement dans VS Code.
Dataform est un produit récent qui résout de sérieux points de friction pour les équipes de data analystes tous niveaux confondus. Petit à petit, Dataform va prendre une place centrale et va devenir incontournable en tant que facilitateur du traitement de la donnée. Cette vision nous pousse à développer pour ce produit et à partager avec la communauté.
Notre article suivant est une visite guidée de l'interface pour éviter les écueils classiques, et contient du code out of the box pour la communauté.