🔍 Detector de Clickbait BR

Detector de manchetes clickbait em português brasileiro usando Machine Learning.

🏆 Modelo: Random Forest Otimizado (97.2% F1-Score)

🔗 Links Importantes

📦 Modelo Treinado: Hugging Face Model Hub
📚 Datasets: Hugging Face Datasets
🚀 Demo Interativa: Hugging Face Space
👤 Perfil Hugging Face: @rodrigoaraujorosa
💻 Repositório GitHub: detector-clickbait-br

📊 Datasets

Os datasets utilizados neste projeto estão disponíveis no Hugging Face:

🔗 rodrigoaraujorosa/detector-clickbait-br-datasets

Conteúdo:

Raw Dataset: detector-clickbait-br-raw.csv (10.565 manchetes originais)
Processed Dataset: detector-clickbait-br-processed.csv (9.532 manchetes após limpeza)
Train/Test Split: X_train.csv, X_test.csv, y_train.csv, y_test.csv
Transformers: tfidf_vectorizer.pkl, scaler.pkl

📥 Como Baixar os Datasets

Opção 1: Via Python (Recomendado)

from huggingface_hub import hf_hub_download
import pandas as pd

# Baixar dataset raw
dataset_path = hf_hub_download(
    repo_id="rodrigoaraujorosa/detector-clickbait-br-datasets",
    filename="detector-clickbait-br-raw.csv",
    repo_type="dataset"
)

# Carregar
df = pd.read_csv(dataset_path)
print(f"Total de manchetes: {len(df):,}")

Opção 2: Via CLI

# Instalar Hugging Face CLI
pip install huggingface_hub

# Fazer login (opcional, para datasets privados)
huggingface-cli login

# Baixar dataset
huggingface-cli download rodrigoaraujorosa/detector-clickbait-br-datasets \
    --repo-type dataset \
    --local-dir ./data

Opção 3: Download Direto

Acesse: https://huggingface.co/datasets/rodrigoaraujorosa/detector-clickbait-br-datasets/tree/main

E faça download manual dos arquivos.

📁 Estrutura do Projeto

detector-clickbait-br/
├── app.py                          # Aplicação Gradio
├── requirements.txt                # Dependências
├── README.md                       # Este arquivo
├── notebooks/                      # Análise exploratória e treinamento
│   ├── 01_analise_exploratoria.ipynb
│   ├── 02_preprocessamento_e_engenharia_features.ipynb
│   ├── 03_divisao_vetorizacao.ipynb
│   ├── 04_treinamento_modelos.ipynb
│   └── 05_verificar_metricas_e_dados.ipynb
├── models/                         # Modelos treinados (ignorado pelo git)
│   ├── melhor_modelo.pkl
│   ├── random_forest_otimizado_model.pkl
│   └── model_comparison_final.csv
├── data/                           # Datasets (ignorado pelo git)
│   ├── raw/
│   │   └── detector-clickbait-br-raw.csv
│   └── processed/
│       ├── detector-clickbait-br-processed.csv
│       ├── X_train.csv, X_test.csv
│       ├── y_train.csv, y_test.csv
│       ├── tfidf_vectorizer.pkl
│       └── scaler.pkl
└── src/                            # Código fonte
    ├── train.py
    └── utils.py

🚀 Como Rodar o Projeto

1️⃣ Clonar o Repositório

git clone https://github.com/rodrigoaraujorosa/detector-clickbait-br.git
cd detector-clickbait-br

2️⃣ Criar Ambiente Virtual

# Criar ambiente virtual
python -m venv .venv

# Ativar
# Linux/Mac:
source .venv/bin/activate

# Windows:
.venv\Scripts\activate

3️⃣ Instalar Dependências

pip install -r requirements.txt

4️⃣ Baixar Datasets e Modelo

# Executar script de download
python scripts/download_datasets.py

Ou manualmente via Hugging Face Hub (ver seção de Datasets acima).

5️⃣ Rodar Aplicação Gradio

python app.py

Acesse: http://localhost:7860

🎯 Performance do Modelo

Métrica	Valor
Acurácia	97.1%
Precisão	98.3%
Recall	96.2%
F1-Score	97.2%

Modelo Final: Random Forest Otimizado

5.297 manchetes treinadas
204 features (200 TF-IDF + 4 numéricas)
Otimizado via RandomizedSearchCV

📚 Notebooks

Execute os notebooks na ordem:

01_analise_exploratoria.ipynb - Análise dos dados
02_preprocessamento_e_engenharia_features.ipynb - Limpeza e features
03_divisao_vetorizacao.ipynb - Train/test split e TF-IDF
04_treinamento_modelos.ipynb - Treinamento e otimização
05_verificar_metricas_e_dados.ipynb - Validação final

🤝 Contribuindo

Contribuições são bem-vindas! Sinta-se à vontade para:

Reportar bugs
Sugerir melhorias
Enviar pull requests

📄 Licença

Este projeto está licenciado sob a MIT License.

👤 Autor

Rodrigo Araujo Rosa

🌐 Hugging Face: @rodrigoaraujorosa
💼 GitHub: @rodrigoaraujorosa
📧 Email: seu_email@exemplo.com

⭐ Se este projeto foi útil, considere dar uma estrela no GitHub e seguir no Hugging Face!

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
images		images
notebooks		notebooks
src		src
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
app.py		app.py
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

🔍 Detector de Clickbait BR

🔗 Links Importantes

📊 Datasets

🔗 rodrigoaraujorosa/detector-clickbait-br-datasets

📥 Como Baixar os Datasets

Opção 1: Via Python (Recomendado)

Opção 2: Via CLI

Opção 3: Download Direto

📁 Estrutura do Projeto

🚀 Como Rodar o Projeto

1️⃣ Clonar o Repositório

2️⃣ Criar Ambiente Virtual

3️⃣ Instalar Dependências

4️⃣ Baixar Datasets e Modelo

5️⃣ Rodar Aplicação Gradio

🎯 Performance do Modelo

📚 Notebooks

🤝 Contribuindo

📄 Licença

👤 Autor

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

🔍 Detector de Clickbait BR

🔗 Links Importantes

📊 Datasets

🔗 rodrigoaraujorosa/detector-clickbait-br-datasets

📥 Como Baixar os Datasets

Opção 1: Via Python (Recomendado)

Opção 2: Via CLI

Opção 3: Download Direto

📁 Estrutura do Projeto

🚀 Como Rodar o Projeto

1️⃣ Clonar o Repositório

2️⃣ Criar Ambiente Virtual

3️⃣ Instalar Dependências

4️⃣ Baixar Datasets e Modelo

5️⃣ Rodar Aplicação Gradio

🎯 Performance do Modelo

📚 Notebooks

🤝 Contribuindo

📄 Licença

👤 Autor

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages