Pipeline de ETL utilizando a Arquitetura de Medalhão (Bronze, Silver e Gold) para análise de dados do E-commerce Brasileiro (Olist).
| Matrícula | Aluno |
|---|---|
| 202045482 | Genilson Silva de Araújo Junior |
| 190036427 | Pedro Henrique Caldeira de Moraes |
Os dados utilizados são provenientes do Brazilian E-Commerce Public Dataset by Olist, contendo informações de 100 mil pedidos de 2016 a 2018.
- Docker e Docker Compose
- Python 3.8+
- Gerenciador de pacotes
pip
Certifique-se de que o Docker está rodando e execute:
docker compose up -dpython3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txtOs notebooks devem ser executados na ordem da Arquitetura de Medalhão, localizados na pasta Transformer/:
extract_to_bronze.ipynb: Carga dos dados brutos do CSV para o PostgreSQL.bronze_to_silver.ipynb: Limpeza, tratamento de tipos e remoção de duplicatas.silver_to_gold.ipynb: Modelagem dimensional (Tabelas Fato e Dimensão).
Conexão: postgresql://postgres:postgres@localhost:5432/brazilian-e-commerce
Schemas:
silver.*: Contém os dados limpos e padronizados (ex:silver.orders,silver.products,silver.customers).gold.*: Modelo Dimensional (Star Schema) para análise de BI:dw.dim_products: Atributos dos produtos.dw.dim_customers: Localização e identificação de clientes.dw.dim_sellers: Dados dos vendedores.dw.dim_time: Dimensão temporal para análise de tendências.dw.fact_orders: Tabela fato com métricas de vendas e fretes.
Verificar volume de dados carregados (Camada Silver):
docker compose exec postgres psql -U postgres -d olist_db -c "SELECT COUNT(*) FROM silver.orders;"


