Escolar Documentos
Profissional Documentos
Cultura Documentos
e Estudo
em Data Science
Odemir Depieri Jr
Ronisson Lucas C. da Conceição
Yan Vianna Sym
SOBRE ESSE EBOOK
Esse e-book é um material para guiar pessoas nos
estudos e trilha de carreira na área de ciência de
dados.
INTRODUÇÃO
A cada ano que passa as carreiras de Tecnologia
sobem no ranking das mais bem pagas do país.
Atualmente é possível encontrar profissionais de TI
com salários acima de R$ 50 mil nesta área,
dependendo de seu nível de qualificação e porte da
empresa.
Mas como me qualificar para esse mercado?
Faça nosso treinamento de Guia de Carreira que é
gratuito e use esse guia de bolso para te ajudar
nessa jornada.
AUTORES
Odemir Depieri Jr
Ronisson Lucas Calmon da Conceição
Yan Vianna Sym
APOIO
Data Viking
ÍNDICE
Plano de Estudo
o Machine Learning 4
o Engenharia de Dados 6
o Business Intelligence 8
Carreira Técnica
o Profissões 10
o Cientista de Dados
o Vagas 11
o Salários 14
o Engenheiro de Dados
o Vagas 15
o Salários 18
o Analista de BI
o Vagas 19
o Salários 22
Módulo 6 - Estatística
1. Estatística Descritiva
2. Probabilidade
3. Expectativa Matemática
4. Distribuição de probabilidade: discretas e continuas
5. Distribuições conjuntas de probabilidade
6. Estimadores e suas propriedades
7. Intervalo de confiança
8. Teste de hipótese
9. Analise exploratória de dados
4
Plano de estudo para
Machine Learning
Módulo 7 - Modelos de Regressão
1. Naives Bayes
2. Arvores de Decisão , Floresta Aleatória
3. KNN
4. Regressão Logística
5. SVM ( Maquinas de vetores de suporte )
6. Redes Neurais Artificiais
1. K-means
2. DBSCAN
3. PCA
4. LDA
5. Kernel PCA
1. Média Móvel
2. Suavização Exponencial Simples
3. Suavização Exponencial Simples e Amortecida
4. Holt Winters
5. Arima
6. Auto Arima
o Acurácia, F1 Score, Precisão, Recall, Matriz de Confusão, AUC - Area Under the ROC
Curve, Log Loss, Mean Squared Error – MSE, Mean Absolute Error – MAE, Mean Absolute
Percentage Error – MAPE, R2.
5
Plano de estudo para
Engenharia de Dados
Pauta pata estudar:
Módulo 5 - ETL
1. Transformação de Dados
2. Criação de Data Warehouse
3. Exportação de Dados
Módulo 6 - BigData
1. Ecossistema Hadoop
2. Pig e Flume
3. Processamento com Spark
6
Plano de estudo para
Engenharia de Dados
Módulo 7 - Clould Computing
1. Introdução a Cloud
2. Modelos de Cloud
3. Nuvem pública
4. Cloud Builders
5. Segurança de dados em Nuvem
6. Banco de dados em Nuvem
7. Virtualização de infraestrutura
8. Soluções Multicloud
9. Orquestração de Serviços e Kubernetes
Módulo 9 - GitHub
1. Arquitetura do GitHub
2. Comandos
Módulo 10 - Pipelines
1. Apache AirFlow
2. Apache Flink
3. Apache Kafka
1. Desenvolvimento de APIs
2. Modelagem de APIs
7
Plano de estudo para
Business Intelligence
Pauta pata estudar:
Módulo 3 - Excel
1. Funções de Análises
2. Gráficos
3. Manipulação de dados
4. Funções ( Análise de Dados )
Módulo 4 - Estatística
1. Estatística Descritiva Univariada
o Média, Moda, Mediana.
2. Medidas de Dispersão
o Amplitude, Desvio-Médio, Variância, Desvio-padrão, Erro-padrão.
3. Medidas de Assimetria e Curtose
4. Medidas de dispersão
o Amplitude, Desvio-Médio, Variância, Desvio-padrão, Erro-padrão.
5. Medidas de Associação entre Variáveis Quantitativa
o Diagrama de dispersão, Covariância, Correlação.
1. Tableau
2. PowerBI
3. Qlik Sense
4. Google Data Studio
5. Excel
6. Birst
7. MicroStrategy
8. Salesforce Einstein Analytics
9. SAS Visual Analytics
10. Sisense
8
Plano de estudo para
Business Intelligence
Módulo 6 - Storytelling com Dados
1. Conceitos de KPIs
2. Conceitos de OKRs
Módulo 8 - UX Design
1. Conceitos de UX Design
2. Técnicas de UX Desgin
9
Os Super-heróis da
Ciência de Dados
Esses heróis usar suas Esses heróis usam suas e Esses heróis usam sua
técnicas para a construção técnicas para gerar capacidade analíticas e
do fluxo de dados para o modelos preditivos partir técnicas para gerar
time de ciência de dados dos dados insights a partir dos dados
10
Os Super-heróis da
Ciência de Dados
Esses heróis usar suas Esses heróis usam suas e Esses heróis usam sua
técnicas para a construção técnicas para gerar capacidade analíticas e
do fluxo de dados para o modelos preditivos partir técnicas para gerar
time de ciência de dados dos dados insights a partir dos dados
Atividades
o Análise e avaliação de grandes e complexas quantidades de
dados (Data Science, Data Base e Big Data)
o Realizar manutenção de dados, ajustes e melhorias
o Apoio no desenvolvimento de soluções digitais para
utilização pelos nossos clientes
o Identificação de potencial para automatização e otimização
de processos logísticos
o Desenvolvimento e implementação de vários modelos de
otimização usando aprendizado de máquina e métodos
estatísticos
Requisitos e experiência
o Você tem um bom diploma universitário em Ciência de
Dados, matemática (comercial) ou estatística (ou similar).
o O ideal é que você tenha as primeiras experiências na
aplicação de modelagem estatística e técnicas de
aprendizado de máquina.
o Você tem experiência prática em programação (por
exemplo, Python ou C+), bem como conhecimento básico de
SQL ou NoSQL e MS Excel.
o Boas habilidades analíticas e de comunicação, bem como
força conceitual, caracterizam você.
o Você se comunica com confiança em inglês e está
interessado em questões logísticas.
o Você está pronto para mergulhar em novos tópicos e
desenvolver suas habilidades.
https://www.linkedin.com/jobs/search/?currentJobId=3138419676&geoId=106057199&keywords=cientista%20de%20dados%20junior&locati
on=Brasil&refresh=true&start=50
Acessado em 27/11/2022
11
Nível Pleno
Atividades
o Trabalhar com parceiros de negócios, engenheiros de dados
e times de tecnologia para desenvolvimento e deploy de
soluções de machine learning como parte dos produtos;
o Analisar dados para validar hipóteses e gerar insights de
negócio;
o Manipular dados para tratamento, limpeza e exploração;
o Implementar, testar, fazer deploy, documentar e depurar
processos de dados e de machine learning;
o Contribuir com os repositórios de código e documentação
da equipe e qualificar a discussão técnica com referências
científicas e metodológicas.
Requisitos e experiência
o Inglês avançado para leitura (artigos técnicos) e escrita
(documentação de modelos e APIs);
o Experiência com técnicas de modelagem descritiva e
preditiva;
o Experiência na construção de ETL usando SQL;
o Experiência com Python e/ou R para construção de modelos.
https://www.linkedin.com/jobs/search/?currentJobId=3344533782&keywords=cientista%20de%20dados&refresh=true
Acessado em 27/11/2022
12
Nível Sênior
Atividades
o Conhecimento em Técnicas de Mineração de Dados;
o Análise e interpretação de dados;
o Análise preditiva e descritiva;
o Habilidade em manipular grandes volumes de dados em
diferentes ambientes/ferramentas e formatos;
o Propor novas técnicas para desenvolvimento de modelos;
o Desenvolver modelos estatísticos;
o Gerar insights com oportunidades ocultas nos dados;
o Conduzir e participar de reuniões para entendimento de
problemas de negócio e necessidades;
o Desenvolvimento dashboards gerenciais para tomada de
decisões;
o Validar impressões e resultados para o negocio com equipe;
o Acompanhamento estabilidade modelos em produção.
Requisitos e experiência
o Técnicas de mineração de dados;
o Análise Preditiva e Descritiva;
o Modelos estatísticos, geração de insights para tomada de
decisão das equipes de negócio;
o Conhecimento em: SQL, Python, Data Lake, Teradata e
Databrick;
o Tableau, Microstrategy, SAS, Power BI.
https://www.linkedin.com/jobs/search/?currentJobId=3364543358&distance=25&geoId=106057199&keywords=cientista%20de%20dados
Acessado em 27/11/2022
13
Análise de Salários
Cientista de Dados
Todas as consultas foram realizadas pela plataforma da
Glassdoor.
R$ 8.000 /mês
Média salarial
1.610 salários
https://www.glassdoor.com.br/Sal%C3%A1rios/cientista-de-dados-sal%C3%A1rio-SRCH_KO0,18.htm
Acessado em 27/11/2022
14
Os Super-heróis da
Ciência de Dados
Esses heróis usar suas Esses heróis usam suas e Esses heróis usam sua
técnicas para a construção técnicas para gerar capacidade analíticas e
do fluxo de dados para o modelos preditivos partir técnicas para gerar
time de ciência de dados dos dados insights a partir dos dados
Nível Junior
Atividades
o Tradução de Aplicações para Python e Scala
o Implementação de testes unitários
o Escrita de ferramentas para consistência de dados
o Garantir a qualidade nas entregas, seguindo as boas
práticas de engenharia de software e dados e segurança
o Manutenção/Construção de pipelines de dados em
Pyspark/Scala/Python
Requisitos e experiência
o Python
o Spark/Pyspark
o SQL
o Airflow (Desejável)
o Git, Shellscript
o Ambiente Hadoop (HDFS, Hbase)
o Diferencial: Scala, Docker, AWS
o Buscamos uma pessoa Pró ativa, Colaborativa, Analítica, que
goste de estar sempre aprendendo e se atualizando
https://www.google.com/search?q=vaga+engenheiro+de+dados+jr&rlz=1C1CHZN_pt-
BRBR965BR965&oq=vaga+engenheiro+de+dados+jr&aqs=chrome.0.0i512l2j69i60l3.3569j0j7&sourceid=chrome&ie=UTF-
8&ibp=htl;jobs&sa=X&ved=2ahUKEwiE6_3_xdH7AhWKppUCHR3RCEMQkd0GegQIChAB#fpstate=tldetail&htivrt=jobs&htiq=vaga+engenheiro+d
e+dados+jr&htidocid=JtBw9mQykp0AAAAAAAAAAA%3D%3D&sxsrf=ALiCzsY_uDfzoImzjGj-bAWcGdx2EsXnHw:1669661556970
Acessado em 27/11/2022
15
Nível Pleno
Atividades
o A atuação será junto a times de análises de dados, ciência
de dados e áreas de negócio para desenhar, implementar e
gerenciar pipelines de Big Data;
o Fazem parte das atividades diárias da área a utilização de
tecnologias como: AWS cloud (S3, EMR, EC2, Athena,
Lambda, Kinesis, Redshift, etc), Google Cloud (Bigquery,
Cloud Function, Storage, Logging, Scheduler, Dataflow,
Pub/Sub, Compute Engine, etc), e outras ferramentas de
Big Data (NiFi, Sqoop, Airflow, Kafka, Spark, Hive, Presto,
etc), Python e SQL.
Requisitos e experiência
o Ambição intelectual e mentalidade de crescimento;
o Raciocínio lógico e capacidade analítica;
o Flexibilidade e aderência a ambientes dinâmicos;
o Boa comunicação, relacionamento interpessoal e trabalho
em equipe;
o Conhecimentos técnicos: Ferramentas de Big Data e
Engenharia de Dados, como Pyspark, NiFi, Airflow, etc.
o Diferencial: Conhecimento e/ou experiência em marketing
analytics; Dados de Navegação (Firebase, Google Analytics,
Adobe); Dados de Performance (Google Ads, Facebook
Ads...); Dados de Redes Sociais (Facebook, Instagram,
Twitter, LinkedIn).
https://www.linkedin.com/jobs/search/?currentJobId=3206887795&keywords=Engenheiro%20de%20dados&refresh=true
Acessado em 27/11/2022
16
Nível Sênior
Atividades
o Crie programas para construir plataformas de dados
escalonáveis, confiáveis e descentralizadas.
o Apoiar a definição da estratégia técnica de como tratamos
os dados.
o Crie a infraestrutura necessária para permitir que as
equipes de dados verticais operem de forma eficaz em
diferentes partes da organização.
o Orientar e liderar outros técnicos, apoiando-os para serem
eficazes nas suas atividades do dia-a-dia.
Requisitos e experiência
o Exposição a ambientes de dados distribuídos e de larga
escala;
o Experiência com sistemas e ambientes de dados altamente
disponíveis;
o Experiência com streaming em microlote ou streaming em
tempo real;
o Modelagem de dados;
o Armazenamento de dados (desejável).
https://www.linkedin.com/jobs/search/?currentJobId=3215424014&keywords=Engenheiro%20de%20dados&refresh=true
Acessado em 27/11/2022
17
Análise de Salários
Engenheiro de Dados
Todas as consultas foram realizadas pela plataforma da
Glassdoor.
R$ 7.600 /mês
Média salarial
1.201 salários
https://www.glassdoor.com.br/Sal%C3%A1rios/engenheiro-de-dados-sal%C3%A1rio-SRCH_KO0,19.htm?clickSource=searchBtn
Acessado em 27/11/2022
18
Os Super-heróis da
Ciência de Dados
Esses heróis usar suas Esses heróis usam suas e Esses heróis usam sua
técnicas para a construção técnicas para gerar capacidade analíticas e
do fluxo de dados para o modelos preditivos partir técnicas para gerar
time de ciência de dados dos dados insights a partir dos dados
Nível Junior
Atividades
o Analisar e levantar requisitos, definir modelagem dos dados
a serem tratados e transformados;
o Efetuar o processo de limpeza dos dados identificando e
corrigindo informações duplicadas, corrompidas ou
invalidas;
o Realizar o ETL (extração, transformação, carregamento);
o Assegurar a qualidade dos dados, das integrações e a
consistência dos relatórios desenvolvidos;
o Realizar estudo de bases analíticas para criação dos
indicadores operacionais e gerencias;
o Criar indicadores, cenários e comparativos via sistema, bem
como, elaborar relatório de métricas, gráficos e painéis,
para compor o sistema de informação;
o Monitorar atualizações de indicadores do sistema;
o Auxiliar na conferência dos indicadores corporativos já
existentes, verificando a veracidade dos dados
apresentados pelas áreas;
o Realizar a Análise Preditiva;
o Monitorar atualizações.
Requisitos e experiência
o Pacote Office intermediário com Excel avançado
o Conhecimento avançado em SQL
o Conhecimento avançado nas seguintes ferramentas
QlikSense e PowerBi;
o Conhecimento básico em liguagem PYTHON
o Conhecimento em gestão de projetos
https://www.linkedin.com/jobs/search/?currentJobId=3371897465&keywords=analista%20business%20intelligence&refresh=true&start=25
Acessado em 27/11/2022
19
Nível Pleno
Atividades
o Operar, manter e monitorar ambiente de Dados de suporte
a decisão e análise;
o Atuar em projetos de BI, BigData e de monitoramento de
dados;
o Atuar em engenharia de dados (ETL);
o Desenvolver painéis e relatórios.
Requisitos e experiência
o Conhecimentos em BI, DW e BIGDATA;
o Conhecimentos em SQL;
o Conhecimentos em ferramentas de ETL, desejável em IBM
Datastage;
o Conhecimentos em ferramentas de self-service BI,
desejável Microsoft PowerBI;
o Desejável conhecimentos em Seguros e Previdência Privada;
o Desejável conhecimentos em análise de dados;
o Desejável conhecimentos em Python e R.
https://www.linkedin.com/jobs/search/?currentJobId=3360168413&keywords=analista%20business%20intelligence&refresh=true
Acessado em 27/11/2022
20
Nível Sênior
Atividades
o Analisar as métricas de experiência do cliente e qualidade;
o Extrair e tratar dados em diferentes plataformas para
seleção de público e análise de pesquisas;
o Desenvolver dashboards, organizar e acompanhar os
principais indicadores de qualidade e CX;
o Desenvolver estudos, apresentar análises e buscar insights
que sejam pertinentes ao negócio e gerem subsídios para
tomada de decisão;
o Criar modelos preditivos que possibilitem uma melhor
atuação no aumento da lealdade e satisfação do cliente.
Requisitos e experiência
o Forte capacidade analítica e raciocínio lógico;
o Conhecimento avançado do pacote Office;
o Conhecimento nas linguagens de programação SQL ou SAS;
o Experiência em construção de painéis em Power BI;
o Alta capacidade de execução, atitude proativa, boa
interlocução com diversas áreas.
o Capacidade de organizar e delegar possíveis demandas.
https://www.linkedin.com/jobs/search/?currentJobId=3360849967&keywords=analista%20business%20intelligence&refresh=true
Acessado em 27/11/2022
21
Análise de Salários
Analista de Business Intelligence
R$ 4.000 /mês
Média salarial
1.074 salários
https://www.glassdoor.com.br/Sal%C3%A1rios/analista-de-dados-sal%C3%A1rio-SRCH_KO0,17.htm?clickSource=searchBtn
Acessado em 27/11/2022
22
Sou de outra área
Muitos profissionais têm a necessidade de aprender
skills de tecnologia para ser um diferencial na sua área.
Com a ciência de dados não é diferente.
Para isso precisamos criar uma base quanto alguns
temas na sua trilha:
1) Programação;
2) Modelagem de Dados;
3) Visualização de Dados.
Infográfico abaixo irá representar essa base.
Mercado Financeiro
Yfinance é um pacote python que nos permite buscar
dados históricos de mercado da API do Yahoo Finance
de uma prática.
24
Direito
A jurimetria pode ser definida como a estatística
aplicada ao Direito. Sendo assim, é bastante evidente
que o conhecimento em estatística é essencial para
desenvolver a jurimetria.
Precisamos entender muito bem sobre como o direito
funciona, ter uma boa pergunta de pesquisa e saber
como os dados estão estruturados para conseguir
chegar nos nossos insights.
Engenharia/Exatas
Na Engenharia, muitos pacotes de Python podem ser
utilizados para realizar cálculos científicos complexos,
gerar gráficos, tratar e analisar informações, entre
outras aplicações. É uma ferramenta poderosa para o
Engenheiro moderno!
25
Marketing
No Marketing Digital, a aplicabilidade do Python é
diversa. A linguagem está presente na programação de
sites, blogs, landing pages e outros tipos de páginas da
web, além de aplicativos e até jogos. Sua sintaxe
simples é ideal para programar códigos simples, que o
Google e outros buscadores entendem facilmente.
SEO
Pode ser usada na otimização de sites para buscadores.
Análise preditiva
Embasa decisões importantes do planejamento de
marketing
Sistemas de recomendação
Modelos de machine learning são usados para aprender
continuamente sobre os usuários e oferecer sugestões
mais relevantes.
RH – People Analytics
People Analytics não é uma ferramenta ou um software.
Trata-se de uma metodologia cujo princípio é a coleta, a
organização e a análise de dados aplicada à gestão de
pessoas para se ter uma visão mais estratégica do papel
de cada colaborador dentro de uma empresa.
26
Curso de Guia de Carreira e Estudo
Data Science
Desenvolvimento
26