Big Data Hebdo Podcast Summary — Free Daily Recap

Latest Episodes

The most recent episodes — sign up to get AI-powered summaries of each one.

1 weeks ago1h 20m
Episode 228 : Enregistrement à Devoxx Paris 2026
Cet épisode spécial du Big Data Hebdo, enregistré à Devoxx Paris, on donne la parole aux auditeurs ! On parle des dernières news de chez Clever Cloud avec quentin Adam,On parle aussi de ce que l'IA change dans nos vies de développeurs, avec notament le tout "as code" Jérôme nous fait part de ses aventures dans le monde java avec Schematron pour parser des factures electroniques... Stéphane Walter comme a son habitude nous relate les conférences auxquelles il a pu assister à Devoxx, avec notament des choses intéressantes du côté des objects connectés
Mar 18, 202645 min
Episode 227 : Starburst et Trino avec Victor Coustenoble
Dans cet épisode du Big Data Hebdo, Vincent Heuschling et Nicolas Steinmetz accueillent Victor Coustenoble pour une discussion sur Trino, Starburst. Découvrez l'historique, les cas d'usage, et les différenciateurs de ces moteurs SQL distribués, ainsi que leur impact sur la fédération de données et la gouvernance.## au menu :Historique de Trino et PrestoCas d'usage de Trino dans le monde réelDifférenciateurs de Starburst et TrinoArchitecture et déploiement de TrinoFédération de données et Data MeshIntégration avec cloud et on-premFonctionnalités avancées de StarburstContributions open source et communauté ## Chapitres00:00 Introduction au Big Data Hebdo01:18 Présentation de Victor Coustenoble et de Starburst03:49 Comprendre Trino et son historique12:12 Fonctionnement de Trino et cas d'usage23:17 Clients et déploiement de Trino et Starburst25:47 Gestion des connexions et du cache dans Starburst28:50 Fonctionnalités premium de Starburst30:35 Développements et contributions à Trino32:48 Évaluation des alternatives à Snowflake et BigQuery34:11 Déploiement hybride et souveraineté des données35:57 Évolution du concept de Data Mesh38:59 Préparation à l'ère agentique et intégration des data products## Le BigdataHebdoLe BigdataHebdo est le podcast Francophone de la Data et de l'IA.Retrouvez plus de 200 épisodes https://bigdatahebdo.comRejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
Feb 20, 202655 min
Episode 226 : Starlake.AI avec Hayssam Saleh
Vincent Heuschling reçoit Hayssam Saleh, créateur de **Starlake**, une plateforme data open source française née de la factorisation de projets clients depuis 2017-2018. L'épisode intervient dans un contexte de consolidation du marché (rachat de DBT et de SQLMesh par Fivetran), qui invite à challenger les solutions établies.Starlake se distingue par une approche **entièrement déclarative** (YAML + SQL natif, sans Jinja) couvrant toute la chaîne data engineering : ingestion, transformation, orchestration et qualité des données. L'outil s'appuie sur les moteurs sous-jacents des plateformes cibles (Snowflake, BigQuery, Spark) et génère automatiquement les DAGs pour les orchestrateurs du marché (Airflow, Dagster, Snowflake Tasks).Parmi les fonctionnalités marquantes : le **data branching** (branches de données à la manière de Git), l'inférence automatique de schémas YAML à partir de fichiers sources, un **transpiler SQL** multi-plateformes, et l'extraction du lineage depuis du SQL brut sans annotation. L'intégration récente de **DuckLake** ouvre la voie à des architectures on-premise souveraines à coût maîtrisé (sous 300 €/mois sur OVH, Scaleway, Clever Cloud).Le modèle économique repose sur le support, la formation, et le consulting : Starlake s'installe dans le cloud du client, avec mise à jour automatique gérée par l'équipe, sans accès aux données.**Chapitres****00:00:27** – Introduction : consolidation du marché data (rachat de DBT et SQLMesh par Fivetran) et présentation de l'épisode**00:03:13** – Hayssam et la genèse de Starlake : parcours Spark/Scala, POC à 4 000 formats de fichiers (2017-2018)**00:09:51** – Architecture et philosophie : load, transform, orchestration unifiés en déclaratif (YAML + SQL natif, pas de Jinja)**00:00:18:18** – Starlake vs DBT : différences philosophiques, composabilité, fonctionnalités 100 % open source**00:00:22:20** – Data branching, Starlake Labs (pipe syntax, transpiler SQL, lineage) et expérience développeur (DuckDB local, UI point-and-click)**00:36:35** – Modèle open source et économique : licence Apache, support, formation, marketplace cloud souveraine**00:43:42** – DuckLake : alternative on-premise/cloud souverain (OVH, Scaleway, Clever Cloud) et comment contribuer / démarrer**Le BigdataHebdo**Le BigdataHebdo est le podcast Francophone de la Data et de l'IA.Retrouvez plus de 200 épisodes https://bigdatahebdo.comRejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
Nov 4, 202554 min
Episode 225 : La guerre des agents SDK
Dans cet épisode du BigData Hebdo, Vincent Heuschling et Paul Peton explorent les dernières annonces d'OpenAI, d’Anthropic et de Google concernant les agents AI et leur monétisation. Au programme les SDK, les workflows, etc...**A retenir dans cet épisode**- Les dernières annonces d'OpenAI, Anthropic, et Google.- Les agents ont de l’argent, il commencent à être monétisés.- OpenAI vise à concurrencer Google et l'App Store d'Apple. - Les SDK sont essentiels pour le développement d'agents AI. - La capacité de prise de décision des agents est cruciale pour leur efficacité. - La tarification des gros modèles AI est démesurée. - Les navigateurs AI soulèvent des questions éthiques. - La connectivité des agents est un enjeu majeur.**Le BigdataHebdo** Le BigdataHebdo est le podcast Francophone de la Data et de l'IA. Retrouvez plus de 200 épisodes https://bigdatahebdo.com Rejoignez la communauté sur le Slack https://join.slack.com/t/bigdatahebdo/shared_invite/zt-a931fdhj-8ICbl9dbsZZbTcze61rr~Q
Oct 28, 202551 min
Episode 224 : Données non structurées et modern OCR
Dans cet épisode on explore les défis et les évolutions du RAG (Retrieval-Augmented Generation) dans le contexte de l'IA. L'équipe du Bigdata Hebdo discute des promesses des éditeurs, des difficultés rencontrées par les utilisateurs, et des mécanismes d'IA nécessaires pour traiter efficacement les documents.On parle des enjeux liés à l'OCR, au chunking, et à l'importance des modèles d'embeddings.00:00 Introduction03:06 La promesse des éditeurs08:05 Comprendre le RAG et son fonctionnement11:06 Difficultés liées à l'OCR et à l'extraction de données19:05 Recommandations pour l'optimisation des documents28:46 Mistral Document AI et ses fonctionnalités33:49 Chunking et gestion des documents40:55 Fine-tuning des modèles d'embeddings43:00 Formats de documents et leur pérennité47:23 Conclusion et perspectivesNotes et ressources https://bigdatahebdo.com/podcast/episode-224-donnees-non-structurees-et-modern-ocr
Oct 16, 20251h 3m
Episode 223 : Aerospike
Dans cet épisode du Big Data Hebdo, Vincent Heuschling et Nicolas Wlodarczyk discutent des caractéristiques et des avantages de la base de données NoSQL Aerospike. Nicolas partage son parcours dans le domaine de l'IT et explique comment Aerospike se distingue par sa rapidité et sa scalabilité, et sa capacité à optimiser les infrastructures.Chapitres00:00:00 Introduction00:01:42 Présentation d'Aerospike00:21:03 Use-Cases00:27:25 Réduction de l'Infrastructure et Efficacité00:30:22 Intégration et Interopérabilité avec d'autres Systèmes00:41:53 Modèles de Consommation et Licensing00:49:12 Transactions et cohérence00:58:43 RessourcesNotes et ressourceshttps://bigdatahebdo.com/podcast/episode-223-aerospike
Oct 10, 202552 min
Episode 222 - Chemise hawaienne et GPT5 qui flop
Dans cet épisode du Big Data Hebdo, Vincent Heuschling, Paul Peton, et Jérôme Mainaud discutent des événements marquants de l'été 2025 dans le domaine de l'IA et du Big Data, notamment le drama autour de Luc Julia, du lancement raté de GPT5, de l'importance des modèles open source, et les initiatives européennes en matière de souveraineté technologique.
Aug 6, 20251h 5m
Episode 221 : Data vibe coding avec NAO
Avec Christophe Blefari (aka Blef) on discute des défis actuels des équipes data et de la réponse apportée par NAO.Comment le “Data vide coding” peut accélérer la productivité des projets data ?On évoque aussi le passage par YC qui a eu un impact significatif sur le produit et la société.On termine cet épisode avec le regard averti de Christophe sur le marché de la Data, et l’impact des LLM.Plus sur : https://bigdatahebdo.com/podcast/episode-221-data-vibe-coding-avec-nao

Get Big Data Hebdo summaries in your inbox

Free AI-powered daily recaps. Key takeaways, quotes, and mentions — in a 5-minute read.

Get Free Summaries →

Free forever for up to 3 podcasts. No credit card required.

You Might Also Like

Listeners also like.

DataBuzzWord

Data Archives - Software Engineering Daily

Monde Numérique | Actualité Tech & IA

Jerome Colombain

Tech.Rocks - "Paroles de Tech Leaders"

Tech.Rocks

The Data Exchange with Ben Lorica

Ben Lorica

The Data Engineering Show

The Firebolt Data Bros

Data Unchained

Hammerspace

Towards Data Science

The TDS team

The Engineering Side of Data

Bob Haffner

Data Stories

Enrico Bertini and Moritz Stefaner

La French Connection

Hackfest Communication

Le Panier

Laurent Kretz | Orso Media

About Big Data Hebdo

Toute l'actualité du Bigdata et surtout de sa communauté francophone dans un podcast.

By Vincent Heuschling, Alexander Dejanovski, Jérôme Mainaud, Nicolas Steinmetz

Technology Business Management

Customized Recaps

AI-powered recaps with compact key takeaways, quotes, and insights.

Straight to Your Inbox

Get key takeaways from Big Data Hebdo in a 5-minute read.

Save Hours Every Week

Stay current on your favorite podcasts without falling behind.

Frequently Asked Questions

What is Podzilla's Big Data Hebdo daily summary?

It's a free AI-powered email that summarizes new episodes of Big Data Hebdo as soon as they're published. You get the key takeaways, notable quotes, and links & mentions — all in a quick read.

How does the Big Data Hebdo podcast summary work?

When a new episode drops, our AI transcribes and analyzes it, then generates a personalized summary tailored to your interests and profession. It's delivered to your inbox every morning.

Is this an official Big Data Hebdo product?

No. Podzilla is an independent service that summarizes publicly available podcast content. We're not affiliated with or endorsed by Vincent Heuschling, Alexander Dejanovski, Jérôme Mainaud, Nicolas Steinmetz.

Can I get summaries of other podcasts too?

Absolutely! The free plan covers up to 3 podcasts. Upgrade to Pro for 15, or Premium for 50. Browse our full catalog at /podcasts.

What topics does Big Data Hebdo cover?

Big Data Hebdo covers topics including Technology, Business, Management. Our AI identifies the specific themes in each episode and highlights what matters most to you.

Start getting Big Data Hebdo summaries tomorrow morning.

Free forever for up to 3 podcasts. No credit card required.

Get Free Summaries →

Free forever for up to 3 podcasts. No credit card required.

Big Data Hebdo: Daily Summaries Delivered

Latest Episodes

Episode 228 : Enregistrement à Devoxx Paris 2026

Episode 227 : Starburst et Trino avec Victor Coustenoble

Episode 226 : Starlake.AI avec Hayssam Saleh

Episode 225 : La guerre des agents SDK

Episode 224 : Données non structurées et modern OCR

Episode 223 : Aerospike

Episode 222 - Chemise hawaienne et GPT5 qui flop

Episode 221 : Data vibe coding avec NAO

Get Big Data Hebdo summaries in your inbox

You Might Also Like

About Big Data Hebdo

Customized Recaps

Straight to Your Inbox

Save Hours Every Week

Frequently Asked Questions

Start getting Big Data Hebdo summaries tomorrow morning.