Grandes volumes de dados vêm sendo gerados diariamente pelas organizações e tratar, armazenar e gerencia-los tem sido um dos principais desafios para muitas empresas.
Os dados precisam ser armazenados em uma infraestrutura bem adequada, segura e escalável, para isso há diversos tipos de repositórios de armazenamentos e a escolha de um depende muito do tipo de dado.
Figura 1: Extração de Dados
Fonte: Undraw
Neste artigo em específico, será abordado de forma resumida, os conceitos juntamente aos prós e contras de dois tipos de repositórios de dados, Data Lake e Data Warehouse.
Data Lake é um repositório que permite armazenar dados de diversas fontes, sejam estruturados, semiestruturados ou não estruturados e sem limitação de tamanho, como por exemplo: de rede social, excel, arquivos txt, banco de dados relacionais e não relacionais em seu formato bruto/original.
Para carregar os dados não precisa de uma preparação prévia, não preciso se preocupar em limpar, organizar ou criar uma estrutura é permitido armazenar os dados sem um esquema definido.
O processo de armazenamento de dados é totalmente diferente do Data Warehouse, para o Data Lake o processo aplicado é o ELT (Extração, Carregamento, Transformação), primeiro é feita a extração de dados das fontes, em seguida faz-se o carregamento e por último é aplicada a transformação pelo profissional responsável pela análise, retornando apenas os dados necessários.
Figura 2: Processo Data Lake
Fonte: Data Science Academy
Com o Data Lake é possível trabalhar com os mais avançados tipos de análise para extrair insights, como consultas SQL, Machine Learning, análises em tempo real, análises estatísticas e outras, isso ocorre porque o Data Lake é considerado um “lago de dados”, levando em consideração que os dados de ficam centralizados em um único repositório possibilitando um leque de opções.
Confira os prós e contras do Data Lake: Prós:
Dados em formato bruto: dados armazenados sem a necessidade de definição de esquema e tratamento dos dados.
Tamanho: importação de qualquer tamanho de dados em tempo real e de várias fontes.
Repositório Central: Sendo o Data Lake um “lago de dados”, diversas pessoas que lidam diretamente com os dados podem acessa-los, seja um Analista de Dados, Engenheiros de Dados, Cientistas de Dados e outros, de tal forma, que a extração dos dados vai depender da necessidade de cada um.
Não tem a necessidade de mover os dados: a conexão dos dados é feita de forma direta sem a necessidade de mover os dados para algum sistema de análise.
Altamente acessível: dados acessados de forma rápida.
Contra:
Não possui supervisão do conteúdo, os dados são armazenados da forma que chegam, e sem o cuidado necessário com o Data Lake você passa a ter lixo armazenado.
Agora vamos falar sobre o Data Warehouse.
Data Warehouse (DW) é um repositório de armazenamento que recebe e combina grandes volumes de dados extraído de diversas fontes, são transformados e totalmente estruturados para um fim específico para tomada de decisões estratégicas.
O processo aplicado é o ETL (Extração, Transformação, Carregamento) funciona da seguinte maneira: primeiro ocorre a extração dos dados das fontes, segundo aplicam-se as transformações necessárias de acordo com o esquema definido que resume a visão geral da organização dos dados (este esquema deve ser definido antes do processo de carregamento dos dados), e por fim o carregamento dos dados no Data Warehouse.
Figura 3: Processo Data Warehouse
Fonte: Data Science Academy
O DW é um banco de dado relacional, sua implementação é feita através de um SGDB (Sistema de Gerenciamento de Banco de Dados) como por exemplo Oracle, SQl Server, DB2 dentre outros. O DW é a melhor opção para armazenar dados estruturados de forma consolidada, agregada e resumida ou para armazenar dados que serão utilizados para um propósito específico.
Confira os prós e contras do DW:
Prós:
Dados prontos para uso: oferecendo suporte às análises de negócios de uma organização, com o DW o a acesso aos dados é completo para uma análise definida.
Consultas rápidas: com o DW você consegue consultar rapidamente grandes quantidades de dados porque os dados já estão todos estruturados, tornando-se a “fonte única”.
Dados com qualidade: antes mesmo de serem carregados para o DW é feita uma limpeza, transformação e enriquecimento dos dados, no final, são armazenados dados precisos e de alta qualidade para análises de tomadas de decisões.
Visão histórica: o DW armazena dados históricos, esses dados são importantes para que os tomadores de decisões sempre se baseiam em fatos históricos para fazer previsões e conferir se suas ações atuais estão melhorando ou não.
Contra:
Risco de perder dados: por serem utilizados por um objetivo específico e por serem apenas dados estruturados, alguns dados na etapa de transformação se “perdem”.
Lentidão coleta de dados: os dados coletados de diversas fontes em tempo real têm dificuldade para chegar ao DW, por causa da etapa de limpeza e transformação de dados, ou seja, esse processo pode causar lentidão.
Análises e Usuários Limitados: são acessados por usuários finais de negócios, não dá para estudar os dados em sua forma bruta para obter insights mais avançados.
Você deve estar se perguntando: Qual é o melhor repositório? Ambos os repositórios possuem suas vantagens e desvantagens e a escolha do mesmo depende da análise desses critérios, do projeto, objetivo e da necessidade da empresa.
Espero que esse artigo tenha lhe ajudado. Até breve!
Adorei o Artigo