Consumo de API dinâmico no Data Factory

Neste post vou mostrar como criar um pipeline genérico de consulta de dados em uma API e armazenamento no data lake.

Utilizaremos o Data Factory (mas pode ser usando o Synapse Integrate também) para orquestrar, consumir e ingerir os dados. A ingestão será feita num Storage Account Gen 2.

Vamos consumir uma API aberta que retorna um Json de produtos cosméticos:

https://makeup-api.herokuapp.com/

Como a proposta é fazer um pipeline dinâmico, vamos utilizar uma planilha de Excel com as informações sobre a API de consumo e os containers para ingestão, desta forma qualquer alteração ou inclusão de novos endpoints a serem integrados é feita apenas nesta planilha sem a necessidade de fazer alterações no projeto. Chamaremos esta planilha de “Controller”.

Conhecendo o Ambiente

Azure Data Lake

Local onde está a planilha controller

Planilha controller

É uma planilha de Excel onde criamos um layout padrão de campos. Nela incluímos as informações pertinentes ao sistema de origem (API) e de destino (Data Lake). Dados sensíveis, como senhas e chaves são armazenados em secrets do Key Vault.

Segue um descritivo dos campos que serão utilizados no processo:

source_api_url - URL da API
source_endpoint_name – Endpoint que sera consultado
source_header – Headers utilizados
container_target – Nome do container de destino no data lake
directory_target – Nome do diretório de destino
file_target – Nome do arquivo que vai ser gerado
flag_controller – flag que indica se o registro está ativo

Esta planilha será consumida no Data Factory e estes valores serão usados como parâmetros de entrada para o consumo da API e a ingestão no Data lake.

Data Factory

Configuração do projeto

Abaixo segue as configurações necessárias para criação do projeto.

Linked Sevices

Utilizaremos dois linked services:

HTTP
Data Lake

HTTP

Aqui vamos configurar a conexão com a API, porém faremos isso de forma dinâmica utilizando parâmetros, pois as informações sobre o consumo da API estão na planilha controller.

Acesse o menu lateral Manage>Linked services e clique em “New”:

Na caixa de busca digite “HTTP” e clique no botão “continue”.

A tela de configuração será aberta:

Configuraremos aqui os dados de acesso a API. Deixaremos a configuração o mais dinâmica possível, pois os dados virão da planilha controller. Segue abaixo um passo-a-passo:

1. Name- Nome do linked service, lembre-se de sempre usar um name convention.

2. Connect via integration runtime - Deixamos o Integration runtime padrão do Azure.

3. Base URL - Criamos um parâmetro (será mostrado como criar no item 6 desta lista) chamado “url” e inserimos neste campo. A Url a ser usada virá da planilha controller.

4. Authentication type - A API que estamos consumindo não possui nenhum tipo de autenticação, mas caso esteja utilizando uma que necessite, basta clicar no combo box e escolher entre as opções disponíveis:

Ao escolher uma das opções da lista os campos pertinentes a autenticação aparecerão logo abaixo.

Para nosso exemplo escolheremos a opção “Anonymous”.

5. Auth Headers - Caso sua API de consumo necessite de um header de autenticação basta clicar em “New” e escolher uma das opções:

6. Parameters - Os parâmetros que utilizamos na configuração do linked service são criados nesta seção.

Data Lake

Vamos criar mais um linked service, agora para conexão com o Data Lake. Utilizaremos as configurações padrões. No meu caso a configuração ficou da seguinte forma.

Datasets

Precisaremos de 3 Datasets neste projeto:

Dataset Datalake Excel

Será utilizado para fazer a leitura do arquivo controller. Utilizaremos o linked service de data lake e o formato de dados será excel.

** Criamos parâmetros para os campos Container, Directory, File Name e Sheet name. Quando formos utilizar este dataset passaremos os valores para estes parâmetros.

Dataset Data Lake parquet

Será utilizado para fazer a ingestão dos dados lidos da API no data lake em formato parquet. Utilizaremos o linked service de data lake e o formato de dados será parquet.

**Note que criamos parâmetros para os campos referentes a container, diretório e nome do arquivo. Estas informações virão na planilha controller.

Dataset HTTP JSON

Será utilizado para fazer a leitura do JSON retornado pela API. Utilizaremos o linked service de HTTP e formato de dados será JSON.

Criamos aqui dois parâmetros (aba Parameters) url e endpoint. Estes parâmetros são apontados nos seguintes campos do dataset:

url – É a URL de acesso a API. Este valor será transmitido ao pipeline pelo arquivo controller.
Relative URL – É o endpoint da API que também será transmitido ao pipeline pelo arquivo controller.

Desenvolvimento do Pipeline

O Pipeline criado tem apenas quatro activities:

Lookup

Responsável por fazer a leitura da planilha controller e a passagem dos valores para as próximas activities.

Configuração

Escolher o Dataset de excel e preencher os parâmetros manualmente. Estes parâmetros recebem o local onde a planilha controle está armazenada além de qual a aba do arquivo ele vai utilizar.

Filter

Esta activitie filtra apenas registros prontos para serem integrados o que neste caso são os registros cujo campo “flag_ativo” tem o valor 1

Configuração

No campo “Items” escolhemos a saída da activite anterior utilizando a seguinte expressão “@activity('Ler Planilha Controller').output.value”

No campo “Condition” Montamos uma expressão lógica que retorna verdadeiro quando o valor do campo “flag_controller” for igual a 1 (@equals(item().flag_controller,'1')

)

ForEach

Para cada linha existente na planilha controller com o campo flag_ativo = 1 faz a chamada da activitie de cópia passando seus valores como parâmetro.

Configuração

No campo “Items” escolhemos a saída da activite anterior utilizando a seguinte expressão “@activity('Ativo').output.value”

Copy data

Efetua o consumo da API e grava o retorno dos dados no data lake em formato parquet

Configuração Source

Escolher o Dataset JSON e nas propriedades do dataset apontar os valores de url e endpoint da planilha controller.

@item().source_api_url

@item().source_endpoint_name

Em “Request method” escolher o método GET e em “Additional headers” apontar o valor dos headers que vem da planilha controller.

@{item().source_header}

Configuração Sink

Escolher o dataset de parquet e nas propriedades do dataset apontar os valores de container, directory e file name da planilha controller.

@item().container_target

@item().directory_target

@concat(item().file_target,'.parquet')

O pipeline ao final ficará desta forma:

Resultado

Agora é hora de testar!!

Sucesso!!!

Como podemos ver na imagem acima um arquivo foi criado no Data lake. Verificando agora diretamente no container transient...

O arquivo .parquet foi criado.

Podemos fazer um preview dos dados no Data lake

Podemos pensar em nosso dia-a-dia de desenvolvimento e encaixar esta dica dentro da nossa realidade. Como o processo é dinâmico poderíamos colocar mais linhas na planilha controller apontando para outros endpoints e este pipeline iria fazer a execução sem precisar de nenhuma alteração.