INTRODUÇÃO
Esse artigo tem como proposta abordar o tema do ciclo de vida dos dados de uma organização, passando por cada etapa do processo, indo desde a coleta inicial do dado até o descarte dele dentro da política definida pela empresa.
Muito se fala acerca dos dados serem o novo petróleo, ou a nova fonte de receita para as empresas. Contudo, sem a devida organização dos dados, pouco valor poderá ser extraído do mesmo.
O ciclo de vida dos dados veio como uma abordagem para ajudar as empresas a conseguirem trabalhar com seus dados de forma mais organizadas, auxiliando na extração de valor dos dados e no descarte do mesmo quando não houver mais necessidade, assim reduzindo custos de armazenamento.
O ciclo de vida do dado pode ser dividido em diferentes etapas, a quantidade e o nome das etapas podem variar de acordo com a terminologia utilizada, mas essencialmente teríamos as seguintes etapas:
Propósito
Coleção de Dados
Descrição
Análise
Publicação
Preservação
PROPÓSITO
Nessa etapa temos o entendimento inicial do dado junto aos stakeholders, no sentido de definir as necessidades de negócio atuais, quais KPIs serão necessários para avaliação da empresa e quais as fontes de dados que irão atender essas necessidades
COLEÇÃO DOS DADOS
Durante esta etapa se tem o processo de coleta e descobrimento dos dados. Sendo um entendimento mais detalhado das origens dos dados que serão utilizados na análise do time de negócio.
Se utilizarmos como exemplo dados vindos de um banco de dados relacional, esse processo se daria nesse formato
Acesso ao banco de dados (BD) de onde os dados serão originados
Entendimento de quais tabelas do BD serão utilizadas pelo time de negócio
Validação de quais campos dessas tabelas serão utilizados
Entendimento de contexto de negócio de cada tabela e campo a ser utilizado
Definição de transformações iniciais a serem realizadas naquelas tabelas e campos
DESCRIÇÃO
Após feito todo o processo de coleta e descobrimento dos dados a serem utilizados, será realizada uma etapa de desenvolvimento de documentação contendo todas as informações obtidas junto aos stakeholders nas etapas anteriores. Sendo necessário que essa documentação seja atualizada conforme novas mudanças no entendimento inicial dos dados forem sendo efetuadas.
ANÁLISE
Será iniciado o processamento do dado (processos de ETL/ELT). de acordo com as definições descritas na documentação. Uma vez realizado o processamento haverá uma nova análise desse dado, bem como a interpretação dele, se está de fato de acordo com as necessidades do time de negócio.
PUBLICAÇÃO
Uma vez que o dado esteja devidamente processado, e de acordo com o que foi solicitado pelo time de negócio, ele será publicado e disponibilizado para uso contínuo nas atividades diárias da empresa como suporte a tomada de decisão dos stakeholders.
PRESERVAÇÃO
Na etapa final do ciclo são definidas as políticas de preservação dos dados. A tendência é que ao longo dos anos a volumetria dos dados aumente, gerando um maior custo de armazenamento (storage) para a empresa. E nem todos os dados históricos serão utilizados efetivamente na operação diária dos stakeholders.
De forma a evitar esse custo adicional, são definidos prazos de validade para os dados. Os dados ficarão armazenados em camadas diferentes, por períodos diferentes, antes de pôr fim se deletar os dados que não estão mais sendo utilizados.
Cada camada possui um custo diferenciado pelo armazenamento e acesso nas análises diárias dos stakeholders. No exemplo abaixo usamos o diagrama do Azure Storage (seja Blob Storage ou Data Lake Gen2)
Camada HOT
Reservada para dados de uso frequente dos stakeholders
Maior custo de armazenamento
Menor custo de acesso
Camada COOL/COLD
Reservada para dados com pouca frequência de uso pelos stakeholders
Utilizada geralmente para dados que devem ficar armazenados por um período mínimo de 30 dias
Possui custo de armazenamento menor em relação a camada Hot
Possui custo de acesso maior em relação a camada Hot
Camada ARCHIVE
Camada reservada para dados raramente utilizados pelos stakeholders
Utilizada geralmente para dados que devem ficar armazenados por um período mínimo de 180 dias
Menor custo de armazenamento
Maior custo de acesso
DELETE
Por fim se define uma política de exclusão dos dados após um período X de dias for atingido sem o uso desses dados. Demonstrando que os stakeholders não possuem mais interesse nesses dados