- Não há ferramentas open source no mercado que provê plataformas de dados de ponta-a-ponta
- Há diversas ferramentas no mercado com propósitos específicos em cada área da engenharia de dados
- As ferramentas existentes não permitem a personalização e
- Integram apenas com ferramentas dos próprios provedores
- Plataforma de dados centralizada
- Solução com tecnologias open-source
- Liberdade de personalização de ferramentas
Criar uma plataforma de dados centralizada utilizando ferramentas open-source, capaz de prover a criação de pipelines ETL em batch e em tempo real e também ferramentas para análise dos dados armazenados no Data Lake.
Primeiramente construa todas imagens docker, executando
./build_images.sh
Suba todos os containers
docker-compose -f docker-compose.yml -f kafka/docker-compose.yml -f ingestion/docker-compose.yml up