Atualmente, com o alto crescimento de produção de dados brutos, muito se começou a falar sobre: organização, conceitos e segurança de dados. Pilares esses que estão diretamente ligados a arquitetura escolhida para um projeto de dados.
Nesse artigo iremos abordar duas arquiteturas que são comumente discutidas por engenheiros e arquitetos de dados, que é o Data Warehouse e o Data Lake.
Data Warehouse
Data Warehouse (ou armazém de dados, em português) é um sistema de gerenciamento de dados que consiste em um grande repositório de informações consolidadas e integradas de várias fontes de dados diferentes. Geralmente ele é mais adequado quando a empresa precisa de acesso a dados integrados, organizados e estruturados. Ele é projetado para suportar análises de negócios, permitindo que os usuários façam consultas complexas e obtenham respostas rápidas e precisas.
Características:
1. O Schema deve ser definido antes do processo de armazenamento de dados.
2. Geralmente os dados de origem devem ser organizados e estruturados.
3. Atualizações dos dados em Bath, podendo ser definidos uma vez ao dia de forma integral ou varias vezes ao dia de forma incremental.
4. Aplica se o conceito de ETL (Extrair, Transformar e Carregar).
Data Lake
Já o Data Lake é uma opção mais adequada para empresas que precisam de acesso a dados brutos, não estruturados e em grande volume, que não podem ser facilmente processados em um Data Warehouse. Ele é projetado para armazenar dados em sua forma bruta, sem a necessidade de transformação ou organização prévia. Isso permite que os usuários acessem uma ampla variedade de dados.
Características:
1. Os dados são gravados sem ser tratados.
2. Repositório centralizado que permite armazenar todos os dados estruturados e não estruturados em qualquer escala, permitindo que várias pessoas consigam acessar esses dados.
3. Facilidade para capturar dado, e velocidade evitando perca de dados.
4. Usa o conceito de ELT ( Extrair, carregar e tratar).
Data Lake e Data Warehouse
Levando em consideração das diversas arquiteturas que temos ambos os sistemas podem ser usados em conjunto. Sempre buscando o melhor dos dois mundos.
Atualmente um modelo de arquitetura utilizado é a leitura dos dados de origem sendo gravado em um Data Lake, e posteriormente a modelagem de um Data Warehouse, com isso ganhamos velocidade, confiabilidade e maior flexibilidade na leitura dos dados e organização, controle e apoio a tomada de decisão com os dados.
Jamais se esqueça, o nosso objetivo é atender a demanda sempre da melhor forma, resolvendo o problema. Não se apegue a conceitos, mas sim utilize os conceitos da melhor forma. Utilizando uma analogia: “Se a empresa lhe dar limões, faça a melhor limonada possível.” Abraço.
Jhonatan Benevenuto
Engenheiro de Dados