Producción2025

Data Warehouse ELT Empresarial

PythondbtPrefectPostgreSQLDocker

Pipeline ELT de producción que consolida datos de 7 fuentes heterogéneas (ERP, CRM, APIs REST y scraping web) en un Data Warehouse PostgreSQL. Capa analítica en dbt con 61 modelos SQL y orquestación automática con Prefect.

Fuentes de datos (7 activas)

  • ERP principal vía SQL Server sobre VPN privada (Tailscale)
  • CRM y sistemas de contabilidad vía APIs REST con autenticación OAuth
  • Inventario y portales de clientes vía scraping con Selenium headless

El problema

El cliente gestionaba ventas, inventario, contabilidad y CRM en 7 sistemas completamente independientes y sin integración entre ellos. Obtener una visión unificada del negocio requería trabajo manual intensivo y los datos siempre llegaban con días de retraso.

La solución

  • Arquitectura ELT (Extract → Load → Transform) ejecutada automáticamente cada día a las 22:00
  • Integración de 7 fuentes: ERP vía SQL Server/VPN, CRM con OAuth, 2 sistemas de contabilidad, inventario y portal de clientes vía scraping Selenium
  • Data Warehouse PostgreSQL con 4 capas: staging, staging_dbt, dwh y olap
  • 61 modelos dbt en 3 capas: limpieza y tipado → modelado dimensional → facts consolidadas
  • 4 tablas OLAP listas para BI: fact_sales, fact_pending, fact_pnl, fact_forecast
  • Contenedorizado con Docker + Redis, monitorizado con Healthchecks.io

Resultado

El equipo de negocio accede a métricas consolidadas de ventas, márgenes y previsión actualizadas diariamente de forma automática, sin ninguna intervención manual.