tek.sapo.pttek.sapo.pt - 30 jul. 19:26

Opinião: Data Engineer na Cloud

Opinião: Data Engineer na Cloud

Por Pedro Matos (*) Num mundo, onde a tecnologia não pára de nos surpreender com novas aplicações de modelos de Machine Learning e Data Science, onde os vários dispositivos IoT (...

Por Pedro Matos (*) 

Num mundo, onde a tecnologia não pára de nos surpreender com novas aplicações de modelos de Machine Learning e Data Science, onde os vários dispositivos IoT (sensores, dispositivos móveis, drones, etc.) enviam dados que necessitam de ser ingeridos, processados e armazenados rapidamente e onde as aplicações de negócio armazenam milhões de registos de dados para serem processados analiticamente, torna-se essencial os engenheiros de dados utilizaram novas técnicas , ferramentas e serviços a fim de desenhar, implementar e monitorizar os fluxos de processamento de dados destas aplicações.

Em modelos tradicionais de BI, um engenheiro de dados concentra-te em T-SQL e SQL Server, ou, utiliza ferramentas de integração como o SSIS ou Azure Data Factory, para desenhar processos de ETL. Mas com o crescimento exponencial de dados e o aumento de diversidade dos seus tipos (estruturados, semiestruturados ou não estruturados), as ferramentas tradicionais não têm a capacidade de corresponder às necessidades dos analistas de dados e do negócio. Para tal, o engenheiro de dados tem que adicionar ao seu conhecimento novas técnicas, ferramentas e serviços para corresponder às necessidades atuais que dependem de soluções modernas e inovadoras. Para ajudar os engenheiros de dados, Azure oferece várias tecnologias como por exemplo Azure HDInsight, Azure Databricks, Azure Synapse Analytics e Azure Data Factory que estão associadas aos vários benefícios da Cloud, tais como, disponibilidade elevada, escalabilidade, agilidade, monitorização, governança e segurança.

Vemos então, que novas tecnologias, trazem com elas responsabilidades que se traduzem em tarefas que a adicionar às funções dos engenheiros de dados. Vejamos alguns exemplos.

Desde a criação de um simples processo de ETL através de data flows em Azure Data Factory ou a utilização de um Azure Data Lake para a criação de um delta lake com camadas bronze, silver e gold para serem consumidos por Azure Databricks, o engenheiro dados desenha e implementa soluções de armazenamento e transformação de dados para serem utilizados pelos vários processos analíticos.

As aplicações de hoje recolhem dados estruturados em ficheiros CSV, JSON, Parquet entre outros. O engenheiro de dados tem que ter a capacidade de utilizar várias linguagens de programação para além de SQL, como é o caso de PySpark, para processar vários tipos de estrutura de dados.

No universo Data Science, um engenheiro de dados não vai estudar e decidir qual o modelo de Machine Learning apropriado essa é uma tarefa de um engenheiro ML, mas é ele que vai utilizar técnicas de Data Cleaning para limpar os dados e criar os datasets a serem consumidos pelos cientistas de dados com a utilização de serviços como Azure Machine Learning Studio. Para além disto, o engenheiro de dados ajudará no Deployment dos processos analíticos criados pelo estudo de um cientista de dados.

E como último exemplo, um engenheiro de dados implementa a segurança dos dados, disponibilidade e a eficiência do custo da solução, para garantir a satisfação dos nossos Stakeholders. Para isso, temos que criar estratégias de auditoria, de privacidade e monitorização através das ferramentas que a Cloud nos oferece, como é o caso de Azure Advisor, Azure Security e Azure Monitor, disponíveis no portal Azure. Sem esquecer que os próprios serviços conferem capacidades de monitorização internas dos seus processos como é o caso das ferramentas Azure Data Factory e Azure Synapse Analytics.

Ampla é a variedade de conceitos, tarefas, ferramentas e tecnologias necessárias na engenharia de dados na Cloud. Mas é o que torna o conceito de Data Engineer tão interessante e desafiante. Ter a capacidade de compreender, participar e trabalhar em conjunto com vários agentes desta área e criar uma solução de dados, desde as fontes dos mesmos até aos processos analíticos, que serão consumidos pelos vários stakeholders do mundo de BI e Data Analytics.

(*) Business Intelligence Senior Consultant da GSTEP

NewsItem [
pubDate=2021-07-30 20:26:49.0
, url=https://tek.sapo.pt/opiniao/artigos/opiniao-data-engineer-na-cloud
, host=tek.sapo.pt
, wordCount=615
, contentCount=1
, socialActionCount=0
, slug=2021_07_30_444804313_opiniao-data-engineer-na-cloud
, topics=[cloud, tecnologia, data science, data engineer]
, sections=[opiniao, ciencia-tecnologia]
, score=0.000000]