Você está na página 1de 5

Paulo Eduardo dos Santos

Brasileiro, 40 anos, casado, 3 filhos.


Americana - São Paulo.
(11) 98747-1655
paulo_eduardosp@yahoo.com.br
linkedin.com/in/paulo--eduardo
Skype: pauloedusp82br
CNH: B (ativa).

Objetivo:
Atuar como Lider Técnico/ Arquiteto / Engenheiro / Líder Técnico em Sistemas de Big Data.

Formação Acadêmica:

 Graduação em Big Data Inteligência de Dados – Anhembi Morumbi (em curso).


 Graduação em Sistemas de Informação - Unip (2006).

Cursos e Atividades Extracurriculares:


 Curso de BIG DATA - Garre Trainning (2014).
 Curso de Oracle Business Intelligence - Garre Trainning (2011).
 Curso de RHCSA - RedHat (2008).
 Curso de CCNA Cisco - IBTA (2007).
 Curso de Microsoft Enginner - Impacta (2004).

Idiomas:
 Inglês nível intermediário.
 Espanhol nível básico.

Experiência Profissional:

● Alvarez and Marsal (09/2023 até 02/2024).


Cargo: Engenheiro de Dados
Atividades: Desenvolvimento de um datalake em nuvem (AWS). construção das camadas do
datalake bronze, silver, gold , modelagem de dados , construção do catalogo de dados,
construção governança de dados. Desenvolvimento do motor de ingestão de dados. Integração
com SalesForce
AWS DMS, AWS Glue Catalog, AWS Glue Studio, AWS LakeFormation,AWS AppFlow,
AWS Athena, AWS s3, AWS IAM, AWS CloudWatchDesenvolvimento de um datalake em
nuvem (AWS). construção das camadas do datalake bronze, silver, gold , modelagem de dados ,
construção do catalogo de dados, construção governança de dados. Desenvolvimento do motor
de ingestão de dados. Integração com SalesForce AWS DMS, AWS Glue Catalog, AWS Glue
Studio, AWS LakeFormation,AWS AppFlow, AWS Athena, AWS s3, AWS IAM, AWS
CloudWatch

Public
● Alvarez and Marsal (06/2023 até 08/2023).
Cargo: Engenheiro de Dados
Atividades: Neste projeto Freelance, eu criei uma esteira capturar latitude e longitude da API
Google Maps. Eu desenvolvi script’s em python para normalizar o endereços de clientes ,
capturar latitude e longitude do endereço e um script para validar a qualidade dos dados
capturados. Montei um ambiente utilizando o airflow para processar os dados automaticamente.
E disponibilizei para o cliente uma interface web com acesso autenticado ao SFTP onde o
usuário por esta interface realizará o upload de arquivos a serem processados e o download de
arquivos processados e validados.

● Natura (02/2023 até 06/2023).


Cargo: Engenheiro de Dados
Atividades: Neste projeto, eu realizei a modelagem de dados, criando uma visão dos clientes. O
objetivo dessa modelagem foi proporcionar uma visão única do conjunto de tabelas que
compõem a entidade de clientes. Após a modelagem, criei o pipeline executando o ETL de
ingestão de dados e transformando os dados em formato Parquet para o formato DeltaLake. Para
realizar este trabalho, utilizei as seguintes soluções: bucket S3, EMR Serverless, Airflow,
PySpark e Redshift, incluindo as tecnologias Spark, PySpark, EMR, Yarn, Airflow.

● Cielo (07/2022 até 02/2023).


Cargo: Engenheiro de Dados
Atividades: Objetivo do projeto é refaturar tabelas SQL e codificá-las em código pyspark e
neste processo de faturação estou criando um pipeline de ingestão de dados e disponibilizando
esses scripts para serem acionados pelo Control-M, neste processo eu também desenvolvi scripts
em shell para monitorar o spark submit (deploy), a fim de ter um controle de qualidade na
ingestão dos dados. Trabalhei com algumas features da google como bigquery e dataproc
(spark, pyspark, hdfs, yarn)

 Friboi (02/2022 até 06/2022).


Cargo: Lider Técnico.
Atividades: Nesta demanda lidero um pequeno time formado por engenheiro de dados e
desenvolvedores onde juntos atualizamos a arquitetura de todo pipeline em nuvem AWS, nesta
atualização foi a criação de um novo cluster NiFi integrado ao Active Directory sendo balanceado
pelo Application Load Balance. O Nifi contém todo o workflow de dados fazendo a ingestão a partir
de uma base DW e enviando esses dados para o Readshift.

 Enel (05/2021 até 02/2022).


Cargo: Engenheiro de Dados.
Atividades: Contrato de prazo fixo com a demanda de criar um pipeline de migração de dados,
movendo todos os dados do cluster de big data para um novo cluster em nuvem na AWS, a segunda
etapa foi a criação de novos painéis no Qliksense puxando os novos dados da nuvem
Neste movimento utilizei as seguintes ferramentas:
Talend Open Studio para mover dados do Impala para Readshift
QlikSense para construir dashboards extraindo dados do Readshift. (hdfs,impala,hbase,readshift,ec2,
emr,s3)

 Banco do Nordeste (02/2021 até 05/2021).

Public
Cargo: Arquiteto de Soluções em Big Data.
Atividades: Prestando serviços para a mesma consultoria, estou desenvolvendo duas arquiteturas
uma arquitetura de dados contemplando a construção de um datalake, e outra arquitetura de infra
para suportar os serviços e tecnologias que deverão compor o datalake. Na arquitetura de infra está
sendo implementado um cluster hadoop não gerenciável com hive e fazendo a função de analitycs o
dremio onde ele trabalhará nas camadas do datalake criando os dataset no schemas de analitycs
para o time de negócios criar seus relatórios e disponibilizando as camadas raw e stage para os
engenheiros e cientistas de dados executarem o datamining.
Desenvolvimento de um segundo projeto de planejamento de uma estrutura de banco NoSQL para
sustentar uma nova plataforma de sistema de créditos centralizados no Cassandra, integrados ao
novo Datalake e a sistemas legados. (hdfs,hive,Cassandra,spark,pyspark,scala)

 Bradesco (01/2021 até 05/2021).


Cargo: Arquiteto de Soluções em Big Data.
Atividades: Atualização dos Scripts que compõe framework de ingestão de dados em tabelas Hive e
Hbase, criações de shellscript's integrados aos serviços de Schedule IBM IWS e integrados as
origens sendo Teradata. O cluster de big data utilizado é o Cloudera.
(hdfs,hbase,hive,impala,pyspark,spark, yarn)

 Hospital Sírio Libanês (09/2019 até 12/2020).


Cargo: Arquiteto/Engenheiro Big Data.
Atividades: Análise de dados, Ingestão de dados, Shell Scripts, Aws readshift, Aws S3, Aws Athena,
Aws Glue e Aws Ec2. Instalação, Configuração do airflow. Desenvolvimento de Dag’s e schedulagem
de Jobs automatizados pelo airflow. Case de sucesso. Instalação configuração do scheduler airflow
responsável de ingestões de dados do datalake. Arquitetura e construção das camadas ingestão do
datalake. Integração do scheduler airflow com todas as fontes de dados (banco de dados, arquivos
compartilhados em rede Windows, arquivos localizados em servidores Linux, arquivos em nuvem.
Integração do scheduler airflow com banco de dados em nuvem aws (readshift, glue e athena).
Construção das Dag’s que gerenciam todo o processo de ingestão. Construção dos operator’s que
contém os códigos necessários para integração do airflow com as fontes de dados. Desenvolvimento
das task’s e organização das dependências de ingestão de dados. Instalação, Configuração do
Docker e Docker componse, integração do Docker com airflow para automação de tarefas e
ingestões. Instalação, Configuração do kubernetes, integração com airflow para automação de
tarefas.
Trabalhando no formato ágil, entreguei durante as sprints os seguintes projetos:
Integração AWS Cognito com AD Azure e a integração entre o AWS Elastic Search com o AWS
Cognito, o resultado desta integração disponibilizar o SSO de rede para acessar o kibana.
Integração do AWS CloudWatch com a conta onde reside o AWS Elastic Search, para isso foi
realizado o deploy do functionbeat, via AWS CloudFormation o pipeline do functionbet criou uma
função no AWS Lambda para entregar os logs do AWS CloudWatch para o Kibana, do ponto de vista
de arquitetura foi configurado AWS Peering entre as contas habilitando a conectividade entre os
serviços do AWS Lambda e AWS Elastic Search.
Em um projeto paralelo pela mesma consultoria foi realizado um levantamento de arquitetura de todo
pipeline de ingestão de dados da Raizen. Foi analisado as seguintes soluções: Azure Datalake e as
camadas do datalake, Azure databrics para analisar os processos spak e enriquecimento dos dados,
powerBI foi analisado os relatórios, airflow como o motor de ingestão, bitbcket como repositórios de
dados , SAP DW origem dos dados ,Microsoft SQL Integration Service SSIS (Theobald), conector
utilizado para puxar os dados do SAP e encaminhar a esteira DEVPOS e inserir na camada raw do
azure datalake.(airflow,s3,emr,ec2,pyspark,spark,scala)

Public
 Dell EMC (03/2019 até 09/2019).
Cargo: Arquiteto de Soluções em Big Data.
Atividades: Análise de dados, Kerberos /Ranger /Integração AD, Shell Scripts, Hive, Hadoop / Hdfs,
Sqoop, Ozzi, Grafana, Spark, Hbase, Zookeeper, Yarn, Amabari Manager. Projetos de
Infraestrutura/Arquitetura em big data. Treinamento Operacional para funcionários Fleury.
Sustentação do ambiente e ingestões de dados. Case de sucesso. Desenvolvimento de shell script
de monitoração de todas as ingestões realizadas pelo ozzi. Treinamento de utilização e sustentação
do cluster hortonworks.

 Claro Brasil (12/2017 até 03/2019).


Cargo: Líder Técnico Big Data/Arquiteto de Soluções.
Atividades: Análise de dados / Framework ingestão de dados, Kafka / Flume, Impala, Kerberos
/Sentry /Integração AD / Integração KDC Local/Cross Realm, Shell Scripts, Hive, Hadoop / Hdfs,
Sqoop, Ozzi, Elastic Search, Kibana, Spark, Scala Hbase, Zookeeper, Yarn, Cloudera Manager,
Cloudera Navegator, BigQuery, Projetos de Infraestrutura/Arquitetura em big data, Integrações BI
(SaS, Alteryx, Qlikview) com BigData. Sustentação de ambiente e ingestões de dados. Case de
sucesso. Adequação dos servidores linux para receber a instalação do cluster Cloudera. Ambiente
produtivo. Instalação de 3 cluster cloudera para atendimento de 3 projetos distintos (Datalake M2M
BI). Projeto_Datalake. Instalação do cluster contendo 24 nós 2 masters e 2 edges nodes.
Kerberização do cluster tendo o AD como KDC. Integração do hive/impala com ferramentas de BI
(SAS Qlik Alterix). Implementação de um framework de ingestão de dados. Integração de 2 cluster
em diferentes domínios utilizando cross realm. Criação de scripts de monitoração de ingestão de
dados. Projeto_M2M. Instalação do cluster contendo 30 nós 2 masters e 2 edges nodes.
Kerberização do cluster tendo o AD como KDC. Criação de scripts de monitoração de ingestão de
dados. Projeto Cluster_BI. Instalação do cluster contendo 12 nós 2 masters e 2 edges nodes.
Kerberização do cluster tendo o AD como KDC. Integração com a ferramenta de ingestão informática
BDM. Nos ambientes de homologação o cluster foi construído com as mesmas características do
ambiente produtivo, porém para cada projeto o cluster foi virtualizado e com menor capacidade. Nos
ambientes de desenvolvimento o cluster foi construído, porém com as mesmas características o que
muda neste ambiente é a Kerberização neste caso utilizamos o kdc local com servidores
virtualizados e com menor capacidade.

 Nextel (09/2017 até 12/2017).


Cargo: Analista Big Data.
Atividades: Processos de Etl para ingestão de dados. Arquitetura em big data. Análise de dados.
Beenline Hive. Impala. Kerberos. Ranger. Shell Scripts. Extração de dados Sqoop. Análise de
Funcional. Levantamento de Requisitos. Sustentação do ambiente e ingestões de dados.

 Vivo (06/2017 até 09/2017).


Cargo: Analista Big Data.
Atividades: Processos de Etl para ingestão de dados. Análise de dados utilizando as linguagens.
Hive, Python. Beenline Hive. Migração Hadoop 2.2 para 2.6. Persistência de dados nosql (HBase).
Arquitetura em big data. Shell Scripts. Extração de dados Sqoop. Zookepper Manager. Sustentação e
ingestões de dados.

 Porto Seguro (08/2016 até 03/2017).


Cargo: Analista de Middleware.
Atividades: Análise e implementações de Projetos de Infraestrutura. Instalação e configurações IIS,
Troubleshooting IIS. Sustentação e Deploy: Com+, DotNet, IIS, Websphere, Tomcat, Apache.
Planejamento e instalação de servidores Linux. Instalação, configuração e suporte do Ecossistema

Public
Bigdata: Hadoop, Map Reduce, Hbase, Hive, Spark, Sqoop, Flume. Ingestão de Dados. Sustentação
do Ambiente ETL. Shell Script.

 Qualicorp (11/2014 até 04/2016).


Cargo: Analista de Middleware.
Atividades: Análise e implementações de Projetos de Infraestrutura. Instalação e configurações e
Deploy: IIS, Tomcat, Apache, Weblogic, Websphere, DFS (Replicação de dados), NLB. Manutenção
do Ecossistema Bigdata: Hadoop, Kafta, HBase, Hive, Spark, Sqoop, Impala. Power Center BI.
Tableu. Ingestão de Dados. Shell Script. Sustentação do Ambiente.

 Resource (07/2012 até 06/2014).


Cargo: Consultor de Infraestrutura.
Atividades: Análise e implementações de Projetos de Infraestrutura. Implementação e configuração:
Audit (auditoria de arquivos para Banco Citibank). Symantec Backup Exec, Webserver Tomcat.
Instalação e configuração dos treshould’s no Zabbix 2.0 (Cento's). Instalação do PostgreSQL e
configuração do Cluster via Pgpool.

 CCEE (08/2011 até 05/2012).


Cargo: Consultor de Infraestrutura.
Atividades: Implementação e administração de usuários Linux (LDAP) e Windows (AD). Sustentação
em: Servidores virtuais (VmWare Exsi), (IBM TSM 6.2). Aplicações Java, Weblogic, Apache.
Administração em: (Library IBM System Storage), (CA Workload Automation), Blades (Dell M1000e),
DNS (Bind), (Iptables), IBM Lotus Notes. Instalação e configuração das soluções Oracle: Oracle
database 11R2, Obiee, Weblógic. Configuração Tomcat (server.xml, contextos, apontamentos para
banco).

 Banco Cacique (07/2008 até 06/2011).


Cargo: Analista de Infraestrutura.
Atividades: Migração e centralização do datacenter. Configurações e Sustentação em: Switch cisco,
Segmentação da rede e subrede. Cabeamento Estruturado. Administração e sustentação: Firewall
iptables, Proxy Squid, OpenVPN, SMNP Nagios e MRTG. Servidores virtuais VmWare Vsphere,
Active Diretory, DNS, Blades Dell, Storage EMC, Backups HP DataProtector. Instalação do Oracle
database 9G e 10G.

 F-Secure (04/2006 até 07/2008).


Cargo: Analista de Infraestrutura.
Atividades: Desenvolvimento de Projetos de Infraestrutura (Pré Venda). Instalação e Administração
em: Soluções de Segurança F-Secure, Servidores virtuais VmWare, Vshpere, Windows e Linux,
Active Directory, DNS, ArqServer. Treinamento em Soluções da F-secure (Pós Venda). Certificação
Police Manager 7.

 Sercom (02/2004 até 03/2006).


Cargo: Analista de Suporte.
Atividades: Administração em: Servidores Microsoft Active Directory, DNS, Exchange, ArqServer.
Atendimento de incidentes, mudanças e problemas. Configurações de Switches.

Public

Você também pode gostar