Um projeto de machine learning inclui diversas etapas além da criação do modelo de IA, etapas essas que demandam a maior parte do tempo de um projeto. Neste artigo iremos abordar todas as oito etapas do pipeline de um projeto de Machine learning afim de esclarecer todo o processo que envolve a construção de um modelo de IA.
Etapa Business A primeira etapa envolve todo o entendimento do negócio em que a equipe de ciência de dados irá trabalhar. Nela procuramos entender qual o segmento da empresa, que tipo de trabalho ela executa, o que ela entrega de valor para seus clientes e como ela o faz. Esta etapa é realizada juntamente com o cliente, para que ele possa ajudar no mapeamento correto sobre as regras de negócio da empresa. Vamos levar como exemplo a empresa Netflix, considerando que ela ainda não tenha uma IA para recomendar filmes para cada usuário, primeiro devemos entender como ela funciona e o que ela entrega a seus clientes.
Etapa Problemas/dores Logo após o entendimento acerca do negócio podemos começar a validar os pontos de melhorias e possíveis dores que a empresa tem, criando assim um portifólio de problemas. Novamente essa é uma etapa realizada junto do cliente, para que possa ser validado se aquele é um problema ou melhoria que faça sentido para ele, assim como pode-se ranquear os problemas por ordem de maior prioridade para a empresa.
Etapa entendimento dos dados Nesta etapa o cientista de dados busca entender quais são os dados disponíveis pelo cliente, bem como entender quais deles são importantes para solucionar o problema proposto. Para essa etapa é necessário ter o dicionário de dados, para que o cientista de dados possa ter o entendimento completo do que significa cada coluna do dataset. É necessário nesse momento a presença do cliente, que entenda as regras de negócio para que ela seja passada ao cientista, afim de esclarecer totalmente o que significa todos os dados e como eles são tratados pela a empresa.
Etapa de mapeamento das soluções Nesta etapa já sabemos a dor do cliente e os dados que ele possui, assim o cientista de dados pode começar a buscar quais são as soluções mais viáveis para solucionar o problema através dos dados. Junto do cliente é analisado as soluções e selecionado a que mais se adequa ao problema que o cliente deseja solucionar.
Etapa de ingestão dos dados Nesta etapa caso o cliente não possua uma infraestrutura de dados, pode se necessitar de um arquiteto de dados para desenhar e implementar a solução, e após isso já pode ser feita toda a ingestão dos dados no ambiente em que será utilizado para a criação do modelo de IA. Esta é uma etapa muito importante pois os dados precisam ser consistentes, sem erros e precisam ter toda a parte de governança bem estruturada para garantir a segurança dos dados.
Etapa de análise Na etapa de análise o cientista irá visualizar todo os dados disponíveis para ele e irá fazer novamente um entendimento sobre eles, realizar limpeza e a transformação caso necessário, e após isso gerar gráficos para analisar os dados de forma mais clara, para tentar encontrar padrões que expliquem o comportamento dos clientes, essa é a etapa que consome mais tempo do cientista, pois durante a análise pode ser necessário voltar e fazer mais tratamentos nos dados, processo esse que pode acontecer varias vezes durante esse step.
Etapa de modelagem Nesta etapa já com os dados analisados e transformados o cientista pode começar a criar os modelos de machine learning. Não existe uma regra sobre qual modelo escolher, existem modelos que são bons para séries temporais, classificação, alguns trabalham bem com dados faltantes, outros precisam de uma massa maior de dados para performar bem, porém, um mesmo modelo que performa bem um projeto de série temporal, pode performar mal em um outro projeto de série temporal, pois cada modelo pode se adequar de formas diferentes aos dados para um mesmo tipo de problema, portanto o recomendado é sempre testar alguns modelos e ver qual se ajusta melhor ao que você necessita. Após a construção dos modelos o cientista irá avaliar a performance de cada um deles e selecionar o melhor ou os dois melhores para tunar seus parâmetros, que nada mais é do que treinar o modelo com diversas combinações de valores nos parâmetros para que ele se adapte melhor ao que você quer prever, feito isso o ultimo passo é avaliar esse modelo em dados de validação para que seja analisado se o modelo está prevendo bem em dados novos e se não ocorreu overfitting durante o treinamento.
Etapa de deploy Nesta etapa com o modelo já pronto o cientista de dados irá fazer o log das métricas e dos parâmetros do modelo, assim como montar um dashboard para monitorar a sua performance, logo após colocá-lo em produção para que o cliente possa utilizar. E por último temos a sustentação que é manutenção e atualização do modelo de aprendizado de máquina após o seu lançamento em produção. Isso pode incluir o monitoramento do desempenho do modelo, lidar com dados desatualizados e corrigir erros no modelo. Também pode incluir a implementação de mecanismos para garantir que o modelo esteja seguindo políticas éticas e regulamentos legais.