E aí pessoal tudo bem? Vamos criar nosso primeiro pipeline usando Apache Beam?
O primeiro passo para criar uma PCollection é criar um pipeline, que representará a sequência de transformações que serão aplicadas aos seus dados. Lembrando que estamos considerando que o Apache Beam já está instalado.
Crie arquivo chamado first_pipe.py e salve em um diretorio. e cole o script abaixo.
import apache_beam as beam
# Crie um Pipeline object
pipeline = beam.Pipeline()
# Crie uma PCollection
pcoll = pipeline | "Create PCollection" >> beam.Create([1, 2, 3, 4, 5])
# Execute o pipeline
pipeline.run()
Neste exemplo criamos um pipeline simples, com uma pcoll contendo 3 colunas usando a classe beam.Pipeline(). Em seguida, usamos o operador | (pipe) para definir uma transformação na qual criamos uma PCollection usando o beam.Create() transform e passamos uma lista de tuplas como os elementos da Pcollection.
Finalmente, chamamos o método pipeline.run() para executar o pipeline e processar a Pcollection. Neste exemplo, como não temos transformações adicionais, o pipeline apenas cria a PCollection e a executa.
No entanto, observamos que nossa pcoll ficou nome de colunas, então decidimos acrescentar uma transformação para incluir o nome das colunas.
Note a linha 11 na imagem abaixo, usamos a transformação Map para nomear as colunas na PCollection pcoll e passamos uma função lambda, um tipo de função anônima que pode ser usada em Python. A função lambda neste caso define o nome das colunas: id, name, age.
Também acrescentamos a linha 13, para podemos visualizar os dados impressos. O resultando do dicionario impresso na tela.
Por hoje é isso pessoal, espero que tenham gostado.