Producción2025
Data Warehouse ELT Empresarial
PythondbtPrefectPostgreSQLDocker
Pipeline ELT de producción que consolida datos de 7 fuentes heterogéneas (ERP, CRM, APIs REST y scraping web) en un Data Warehouse PostgreSQL. Capa analítica en dbt con 61 modelos SQL y orquestación automática con Prefect.
Fuentes de datos (7 activas)
- ERP principal vía SQL Server sobre VPN privada (Tailscale)
- CRM y sistemas de contabilidad vía APIs REST con autenticación OAuth
- Inventario y portales de clientes vía scraping con Selenium headless
El problema
El cliente gestionaba ventas, inventario, contabilidad y CRM en 7 sistemas completamente independientes y sin integración entre ellos. Obtener una visión unificada del negocio requería trabajo manual intensivo y los datos siempre llegaban con días de retraso.
La solución
- Arquitectura ELT (Extract → Load → Transform) ejecutada automáticamente cada día a las 22:00
- Integración de 7 fuentes: ERP vía SQL Server/VPN, CRM con OAuth, 2 sistemas de contabilidad, inventario y portal de clientes vía scraping Selenium
- Data Warehouse PostgreSQL con 4 capas: staging, staging_dbt, dwh y olap
- 61 modelos dbt en 3 capas: limpieza y tipado → modelado dimensional → facts consolidadas
- 4 tablas OLAP listas para BI: fact_sales, fact_pending, fact_pnl, fact_forecast
- Contenedorizado con Docker + Redis, monitorizado con Healthchecks.io
Resultado
El equipo de negocio accede a métricas consolidadas de ventas, márgenes y previsión actualizadas diariamente de forma automática, sin ninguna intervención manual.