MBADataCollection

Manual do Projeto de Coleta de Dados e Armazenamento com Kafka em Ubuntu

Este manual fornece instruções detalhadas para configurar e executar um projeto de coleta e armazenamento de dados que utiliza o Apache Kafka como ferramenta de streaming em uma máquina virtual (VM) rodando Ubuntu. O projeto permite a coleta de diversos tipos de dados, incluindo eventos, PDFs, imagens, vídeos e documentos do Office, e armazena-os localmente.

Criadores: Aline Couto, Carolina Atilli, Davi Santos e Fábio Emanuel.

Sumário

Pré-requisitos
Instalação e Configuração
Configuração do Projeto
- Clonar o Repositório
- Estrutura do Projeto
Execução do Kafka
- Iniciando o ZooKeeper
- Iniciando o Servidor Kafka
Criação de Tópico e Mensagens no Kafka
Execução do Produtor e Consumidor
- Produtor de Dados
- Consumidor de Dados
Armazenamento Local
Testes e Validação
Contribuições
Licença

Pré-requisitos

Máquina virtual com Ubuntu instalado.
Acesso ao terminal com permissões de administrador.
Git instalado para clonar o repositório.
Conhecimento básico de comandos Linux.

Instalação e Configuração

Configuração da Máquina Virtual

Atualize os pacotes do sistema:
```
sudo apt update
sudo apt upgrade -y
```

Instalação do Java

O Apache Kafka requer Java instalado no sistema.

Instale o OpenJDK:
```
sudo apt install default-jdk -y
```
Verifique a instalação do Java:
```
java -version
```

Instalação do Apache Kafka

Baixe a última versão do Kafka:

wget https://downloads.apache.org/kafka/3.5.1/kafka_2.13-3.8.0.tgz

Extraia o arquivo baixado:
```
tar -xzf kafka_2.13-3.8.0.tgz
```
Mova o diretório extraído para /usr/local/kafka:
```
sudo mv kafka_2.13-3.8.0 /usr/local/kafka
```

Configuração do Projeto

Clonar o Repositório

Clone o repositório do projeto no GitHub:

git clone https://github.com/seu_usuario/seu_projeto.git

Substitua seu_usuario e seu_projeto pelo nome de usuário e nome do repositório.

Estrutura do Projeto

/producer: Contém o código fonte do produtor de dados.
/consumer: Contém o código fonte do consumidor de dados.
/data_storage: Diretório onde os dados serão armazenados localmente.
README.md: Documentação do projeto.

Execução do Kafka

Antes de iniciar o produtor e o consumidor, é necessário iniciar o ZooKeeper e o servidor Kafka.

Iniciando o ZooKeeper

Navegue até o diretório do Kafka:
```
cd /usr/local/kafka
```
Inicie o ZooKeeper:
```
bin/zookeeper-server-start.sh config/zookeeper.properties
```
Nota: Recomenda-se executar este comando em uma janela de terminal separada.

Iniciando o Servidor Kafka

Em uma nova janela de terminal, inicie o servidor Kafka:

cd /usr/local/kafka
bin/kafka-server-start.sh config/server.properties

Criação de Tópico e Mensagens no Kafka

Criar um Tópico

Com o Kafka rodando, crie um tópico chamado test-topic:

bin/kafka-topics.sh --create --topic test-topic --bootstrap-server localhost:9092 --partitions 1 --replication-factor 1

Enviar uma Mensagem

Envie uma mensagem para o tópico test-topic:

bin/kafka-console-producer.sh --topic test-topic --bootstrap-server localhost:9092

Depois de executar este comando, você pode digitar uma mensagem e pressionar Enter para enviá-la. Por exemplo:

Hello, Kafka!

Consumir uma Mensagem

Consuma mensagens do tópico test-topic:

bin/kafka-console-consumer.sh --topic test-topic --from-beginning --bootstrap-server localhost:9092

Esse comando vai exibir as mensagens do tópico a partir do início.

Execução do Produtor e Consumidor

Produtor de Dados

O produtor envia os dados (eventos, PDFs, imagens, vídeos, documentos do Office) para um tópico Kafka.

Navegue até o diretório do produtor:
```
cd seu_projeto/producer
```
Instale as dependências necessárias (se aplicável):
```
pip install -r requirements.txt
```
Configure o produtor:

Verifique o arquivo config/producer_config.json e ajuste as configurações conforme necessário (por exemplo, endereço do servidor Kafka, tópico).
Execute o produtor:
```
python producer.py
```

Consumidor de Dados

O consumidor recebe os dados do tópico Kafka e os armazena localmente.

Navegue até o diretório do consumidor:
```
cd seu_projeto/consumer
```
Instale as dependências necessárias (se aplicável):
```
pip install -r requirements.txt
```
Configure o consumidor:

Verifique o arquivo config/consumer_config.json e ajuste as configurações conforme necessário.
Execute o consumidor:
```
python consumer.py
```

Armazenamento Local

Os dados consumidos serão armazenados no diretório /data_storage. Certifique-se de que este diretório existe:

mkdir -p seu_projeto/data_storage

Testes e Validação

Teste de Envio de Dados:
- Utilize o produtor para enviar diferentes tipos de dados.
- Verifique os logs para confirmar o envio bem-sucedido.
Verificação do Armazenamento:
- Confirme que os dados estão sendo armazenados corretamente no diretório data_storage.
- Verifique a integridade dos arquivos armazenados.
Monitoramento:
- Use ferramentas como o Kafka Monitor ou o Kafka Manager para monitorar os tópicos e as mensagens.

Contribuições

Contribuições são bem-vindas! Para contribuir:

Faça um fork do repositório.
Crie uma nova branch com a sua feature ou correção de bug:
```
git checkout -b minha-feature
```
Faça commit das suas alterações:
```
git commit -m "Minha nova feature"
```
Envie para o branch principal:
```
git push origin minha-feature
```
Abra um Pull Request no GitHub.

Licença

Este projeto está licenciado sob a Licença MIT.

Observação: Certifique-se de que todas as dependências e versões das ferramentas estejam compatíveis. Para mais detalhes, consulte a documentação oficial do Apache Kafka e das bibliotecas utilizadas no projeto.

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

MBADataCollection

Manual do Projeto de Coleta de Dados e Armazenamento com Kafka em Ubuntu

Sumário

Pré-requisitos

Instalação e Configuração

Configuração da Máquina Virtual

Instalação do Java

Instalação do Apache Kafka

Configuração do Projeto

Clonar o Repositório

Estrutura do Projeto

Execução do Kafka

Iniciando o ZooKeeper

Iniciando o Servidor Kafka

Criação de Tópico e Mensagens no Kafka

Criar um Tópico

Enviar uma Mensagem

Consumir uma Mensagem

Execução do Produtor e Consumidor

Produtor de Dados

Consumidor de Dados

Armazenamento Local

Testes e Validação

Contribuições

Licença

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Folders and files

Latest commit

History

Repository files navigation

MBADataCollection

Manual do Projeto de Coleta de Dados e Armazenamento com Kafka em Ubuntu

Sumário

Pré-requisitos

Instalação e Configuração

Configuração da Máquina Virtual

Instalação do Java

Instalação do Apache Kafka

Configuração do Projeto

Clonar o Repositório

Estrutura do Projeto

Execução do Kafka

Iniciando o ZooKeeper

Iniciando o Servidor Kafka

Criação de Tópico e Mensagens no Kafka

Criar um Tópico

Enviar uma Mensagem

Consumir uma Mensagem

Execução do Produtor e Consumidor

Produtor de Dados

Consumidor de Dados

Armazenamento Local

Testes e Validação

Contribuições

Licença

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Packages