Si vous suivez l'écosystème Data Cloud ces dernières années, vous avez forcément dû entendre parler de dbt (acronyme de Data Build Tool). dbt est un outil open source (il existe également une version Cloud) de transformation de données qui permet aux data engineer/analyst de transformer rapidement et de manière collaborative les données brutes de leur entreprise en informations utiles et business ready.

Pourquoi cet outil est-il devenu si important ?

Au fur et à mesure des années, les entreprises ont commencé à collecter de plus en plus de données provenant de sources multiples et aux formats variés (Google Analytics, Facebook Ads, Hubspot etc.).

Ces données pouvant être obsolètes, fausses, erronées ou doublées lors des processus d’extraction, les équipes data doivent les nettoyer et les transformer régulièrement afin de les rendre exploitables pour les équipes business et décisionnelles. 

C’est là tout l’intérêt de dbt : c’est un outil open source qui permet aux équipes data de transformer leurs données de manière rapide et efficace. Celui-ci utilise des instructions SQL - et récemment des scripts Python - pour créer des tables et des vues, permettant ainsi de faciliter la compréhension et la manipulation des données.

Vous pouvez retrouver ci-dessous les avantages de l’utilisation de dbt :

Installation & Setup

Il existe 2 versions de dbt : dbt Core et dbt Cloud

dbt Core

  • Gratuit et open source
  • Basé sur un modèle de développement local
  • Nécessite une installation et une configuration manuelle
  • Offre un ensemble de fonctionnalités vaste mais limité

dbt Core est un outil idéal pour les équipes de données qui souhaitent commencer à utiliser dbt sans investissement financier. Il offre un ensemble de fonctionnalités suffisant pour la plupart des cas d'utilisation.

dbt Cloud

  • Payant
  • Basé sur un modèle de développement cloud
  • Intégration avec un IDE et un scheduler
  • Offre un ensemble de fonctionnalités plus complet

dbt Cloud est un outil plus complet qui offre des fonctionnalités supplémentaires, telles que l'intégration avec un IDE et un scheduler. Il est idéal pour les équipes de données qui souhaitent bénéficier d'une expérience plus complète et automatisée, même si dbt Core remplit la plupart des cases.

Ainsi, le choix entre dbt Core et dbt Cloud dépend donc de vos besoins et contraintes.

Ressources d’apprentissage

Curieux d’en savoir plus sur dbt ? Vous pouvez retrouver ci-dessous des liens de la documentation dbt. Si vous souhaitez ces informations de manière plus visuelle, nous vous avons préparé un one sheeter visible ci-dessous !

Commencer avec dbt Core

Comprendre comment configurer un projet dbt

Comment est structuré mon projet dbt ?

Comment configurer mes modèles dbt ?

Différents types de matérialisation

One sheeter :

Cas d’usage

Rendre intelligible les données brutes - Comment sessioniser les données de l’export GA4 ? 

Situation initiale

Export BigQuery vers GA4 permet d’avoir les données brutes et d’en être propriétaire.

Painpoint

L’export GA4 est spécial car chaque ligne représente un événement. Il faut donc les sessionniser (les regrouper dans une session) pour connaître vos performances en acquisition.

Résolution

dbt permet une orchestration de requête SQL créant cette sessionnisation. De plus, nous pouvons mettre du ménage dans les données (retrait des paramètres d’URL, retrait des domaines de paiement etc.)

Éliminer les silos de données - Comment mélanger les données CRM avec les données GA4 ?

Situation initiale

Le Blending des données se faisait avant dans Looker Studio ou dans un autre outil de BI.

Painpoint

Payer une solution pour extraire les données

Le Chargement et mix des données prenait beaucoup de temps dans l’outil

Résolution

Extraire les données via Airbyte, solution open source et en croissance.

Regrouper les données CRM et Média dans BigQuery et les lier entre elles dans des tables optimisées pour pouvoir les requêter dans Looker Studio

Conclusion

Nous avons vu dans cet article à quoi servait dbt et quels étaient certains cas d’usage de ce dernier. Sachez que malgré sa facilité d’utilisation, dbt n’est pas la seule solution permettant d’orchestrer et de transformer les données en SQL !

En effet, Dataform est également une solution robuste basée sur Google Cloud Platform permettant ces choses, malgré une base de fonctionnalités plus restreinte que dbt. (impossibilité d’utiliser des scripts Python par exemple)

Si vous le souhaitez, nous pouvons faire un comparatif détaillé dans un autre article couvrant les différences entre dbt et Dataform ;)