Apostila - Módulo 3 - Bootcamp Analista de Dados

Técnicas para Análise de Dados
Bootcamp Analista de Dados
Guilherme Francis de Noronha
2021
Técnicas para Análise de Dados
Bootcamp Analista de Dados
Guilherme Francis de Noronha
© Copyright do Instituto de Gestão e Tecnologia da Informação.
Todos os direitos reservados.
Técnicas para Análise de Dados – Página 2 de 56

Sumário
Capítulo 1. Introdução .......................................................................................... 6
Capítulo 2. Análise exploratória/descritiva de dados ............................................ 9
Etapas da AED .................................................................................................... 11
Preparando dados para manipulação .................................................................. 12
Tipos de dados e escalas de mensuração ........................................................... 12
AED não gráfico para dados Univariados ............................................................ 13
Dados Categóricos ......................................................................................... 13
Dados Quantitativos ....................................................................................... 14
AED gráfico para dados Univariados ................................................................... 16
Histograma ..................................................................................................... 17
Diagrama de ramos e folhas ........................................................................... 17
Diagrama de caixas ........................................................................................ 18
AED não gráfico para dados multivariados .......................................................... 19
Tabelas de contingência ................................................................................. 19
Teste de Qui-Quadrado .................................................................................. 20
Covariância e Correlação ............................................................................... 21
AED gráfico para dados multivariados ................................................................. 22
Capítulo 3. Análise diagnóstica .......................................................................... 25
Identificação de anomalias................................................................................... 25
Análise e descoberta estatística .......................................................................... 27

Determinar relacionamentos entre as variáveis ................................................... 28
Capítulo 4. Análise preditiva ............................................................................... 30
Técnicas de regressão ......................................................................................... 30
Regressão linear simples................................................................................ 30
Regressão linear múltipla ............................................................................... 32
Técnicas de Aprendizado de Máquina ................................................................. 32
Algoritmos de classificação............................................................................. 32
Algoritmos de regressão ................................................................................. 33
Algoritmos de redes neurais ........................................................................... 33
Árvores de decisão ......................................................................................... 33
Capítulo 5. Análise prescritiva ............................................................................ 34
Capítulo 6. Análise de série temporal ................................................................. 35
Autocorrelação ..................................................................................................... 35
Sazonalidade ....................................................................................................... 36
Estacionariedade ................................................................................................. 37
Modelagem de dados .......................................................................................... 38
Média Móvel ................................................................................................... 38
Suavização exponencial ................................................................................. 38
ARIMA ............................................................................................................ 39
Capítulo 7. Análise de redes sociais ................................................................... 40
Métricas básicas de análise de redes sociais ...................................................... 41

Conectividade ...................................................................................................... 42
Distribuição .......................................................................................................... 43
Segmentação ....................................................................................................... 44
Capítulo 8. Análise de texto e processamento de linguagem natural ................. 46
Coleta de dados ................................................................................................... 46
Preparação .......................................................................................................... 47
Análise léxica (tokenização) ........................................................................... 47
Etiquetagem de Partes-do-Discurso ............................................................... 47
Análise sintática (parsing) ............................................................................... 48
Stemming (ou lemas) ...................................................................................... 48
Remoção de stopwords .................................................................................. 49
Análise de textos.................................................................................................. 49
Classificação de texto ................................................................................... ..49
Extração de texto.............................................................................................50
Visualização ......................................................................................................... 52
Referências................. ............................................................................................ 54

Capítulo 1. Introdução
O paradigma de negócios do mundo atual está cada vez mais dependente de

dados para prosperar. As empresas precisam de números para todos os setores em
que atuam. A produtividade interna também é medida em números.
A coleta de dados aumenta dia após dia e o conceito de big data se torna
cada vez mais comum no cotidiano das pessoas. Aprender a domar esses dados virou
uma profissão requisitada. Profissionais que conseguem organizar e transformar os
dados em informação relevante estão entre os que mais geram valor para uma
empresa.
Por esse motivo, a demanda por pessoas que tenham conhecimento de

dados, seja um analista, engenheiro ou cientista, está superaquecendo o mercado de
vagas no mundo inteiro. Faltam profissionais!
Uma das profissões importantes é o analista de dados. Ele é o profissional

que é responsável pela transformação de dados crus em informação de valor
(EASTWOOD, 2019). Seu objetivo é gerar valor constante para o negócio ao qual ele
está inserido. Para isso, é preciso que ele entenda de estatística e inteligência artificial
para fazer a modelagem e análise de dados. Mas também é preciso ter sensibilidade
e entender do modelo de negócios ao qual ele atua. Ser um analista de dados vai
além das soluções exatas. Envolve também qualidades que só a experiência pode
trazer.
A análise de dados é contemplada em boa parte do ciclo de vida de dados. O

ciclo de análise, Figura 1, contempla as categorias de análise de dados que são feitas
no cotidiano. São elas (EASTWOOD, 2019):
▪ Análise exploratória: o analista deve organizar os dados que possui para

entender o modelo e definir quais serão as medidas necessárias para
transformar o que tem em informação.
▪ Análise descritiva: o analista analisa as ocorrências passadas dos dados

coletados. Nessa etapa procura-se por tendências.

▪ Análise diagnóstica: o analista precisa entender o que levou ao
comportamento observado na etapa anterior. Nessa etapa procura-se por
relações entre variáveis e a detecção de padrões de comportamento de dados.
▪ Análise preditiva: o analista tenta prever o que acontecerá no futuro caso as

tendências e padrões identificados nas etapas anteriores se concretizarem.
▪ Análise prescritiva: o analista identifica uma tomada de decisão a ser feita

para gerar o máximo de valor para o negócio e comunica as partes
interessadas.
Figura 1 – Ciclo de análise de dados.
Fonte: (VESSET, 2018).
Para chegar até a tomada de decisão, o analista precisa entender as técnicas

de análise e aplicá-las devidamente para que previsões sejam construídas
corretamente. Podemos citar como as principais responsabilidades do analista de
dados (EASTWOOD, 2019):
▪ Construir, manter e manipular bases de dados.
▪ Minerar e organizar dados de diferentes fontes.

▪ Conhecer estatística para saber como interpretar os dados coletados.
▪ Entender o modelo de negócios em que atua.
▪ Construir relatórios impactantes.
Embora algumas dessas responsabilidades possam ser atribuídas ao

engenheiro de dados, é recomendável que o analista disponha de todas essas
habilidades. Para ajudar na formação do analista, esta apostila aborda as principais
técnicas de análise de dados para diferentes situações. Tem-se como objetivo que ao
final da leitura o aluno seja capaz de entender as principais técnicas de análise de
dados e como usá-los conforme os cenários apresentados.
Para alcançar esse objetivo, a apostila foi dividida da seguinte forma: o

capítulo 2 fala sobre a análise exploratória e descritiva de dados; o capítulo 3 fala
sobre a análise diagnóstica para detecção de problemas; o capítulo 4 explora as
principais técnicas de análise preditiva para geração de valor; o capítulo 5 fala sobre
como a análise prescritiva é aplicada em cenários reais; o capítulo 6 discute dados
em série e as técnicas para esse tipo de análise; o capítulo 7 entra no conceito de
redes sociais e como as técnicas de análise para essa estrutura de dados difere, e
por fim; o capítulo 8 trata sobre análise de texto e processamento de linguagem
natural.

Capítulo 2. Análise exploratória/descritiva de dados
Análise exploratória/descritiva de dados, ou AED, é uma disciplina da

estatística, cujo principal objetivo é resumir, sumarizar e explorar o comportamento
dos dados (PREVIDELI, 2018). Na literatura, é possível encontrar tanto a definição
de análise exploratória quanto análise descritiva para definir o ato de explorar e
resumir os dados. Embora os termos tenham suas nuances, como citado por Tukey
(1980), suas definições se misturam durante o processo de análise.
Geralmente, a análise de dados usa métodos visuais. A principal ideia por

trás da AED é que os dados possuem informações relevantes que podem ajudar no
processo de formulação de testes e hipóteses.
Nesse sentido, o desenvolvimento da exploração de dados ajuda os analistas

a testarem o comportamento dos dados para ver se há a necessidade de levar a
novas coletas ou a um novo experimento de dados (CHATFIELD, 1995). A utilização
da análise exploratória de dados é uma etapa crucial num experimento. As principais
razões para usar a AED, de acordo com Seltman (2012), são:
▪ Detecção de erros: os dados podem estar faltando ou possuírem valores

incoerentes.
▪ Verificar hipóteses: a análise gráfica dos dados pode mostrar

comportamentos e agrupamentos de algumas características.
▪ Seleção preliminar de alguns modelos estatísticos: o teste de modelos

pode indicar quais são mais eficientes para aquele conjunto de dados.
▪ Determinar a relação entre as características de dados: algumas

características podem ser dependentes das outras.
Além disso, uma razão fundamental para fazer a AED é permitir ao analista
ter uma familiaridade com os dados para que possa organizá-los e sintetizá-los
adequadamente. Dessa maneira, o analista conseguirá responder aos objetivos que
foram traçados na etapa de planejamento.

A AED pode ser classificada, de acordo com Seltman (2012), de duas
maneiras:
▪ Pelo tipo de método:
‒ Gráfico;
‒ Não Gráfico.
▪ Pelo tipo de estatística:
‒ Univariada;
‒ Multivariada.
Os métodos não gráficos requerem um resumo estatístico enquanto os

métodos gráficos já são resumidos em forma de diagrama ou figura. Os métodos
univariados analisam uma característica por vez, enquanto os métodos multivariados
analisam duas ou mais características. A Tabela 1 traz um resumo das técnicas
analisadas durante este capítulo.
Tabela 1 - Resumo das técnicas de análise exploratória.
Univariado Multivariado
– Histograma. – Gráfico de barras
– Diagrama de ramos e agrupadas.
Gráfico folhas. – Diagrama de caixas.
– Diagrama de caixas. – Gráfico de dispersão.
– Dados categóricos: análise – Tabelas de contingência.

de frequência. – Teste de Qui-Quadrado.
– Dados quantitativos: – Covariância e Correlação.
Não-Gráfico tendência central, assimetria e
curtose.
– Detecção de dados
faltantes.

Embora este curso abranja as principais técnicas de AED, a análise não
precisa estar restrita a essas técnicas. A AED também requer prática, experiência e
que o analista esteja confiante com os dados que possui.
Etapas da AED
Diferentemente das estatísticas Bayesiana e Clássica, a AED não impõe um

modelo de dados a ser usado. O que se faz é uma mineração de dados que,
geralmente, indica qual o melhor modelo a ser usado. O foco da AED é analisar de
forma mais profunda os dados (LAURETTO, 2011). A Figura 1, ilustra as etapas da
AED.
Figura 2 – Fluxograma da AED.
Primeiro é preciso conhecer o problema. Depois procura-se por fontes de

dados que possam ajudar a resolvê-lo. Então é testado diferentes modelos de dados
para determinar o mais eficiente. Por fim, é feita a análise dos dados.
Considerando esse processo, e uma vez especificado o problema, podemos

determinar as seguintes etapas para a AED (LAURETTO, 2011):
▪ Preparar os dados para manipulação;
▪ Realizar um exame gráfico da natureza e da relação dos dados;
▪ Identificar as possíveis anomalias (outliers);
▪ Identificar dados ausentes (opcional);
▪ Avaliar algumas suposições básicas como normalização, linearidade etc.

Preparando dados para manipulação
A forma mais usada para preparação de dados são as tabelas. Cada linha da
tabela representa um registro diferente do conjunto de dados. As colunas, por sua
vez, representam as características. Se os dados coletados serão usados para
classificação supervisionada em aprendizado de máquina, então a última coluna deve
ser reservada para a classificação do registro.
As tabelas podem estar em planilhas, arquivos CSV, tabelas em banco de

dados relacional etc. O importante é que seu formato seja compatível com a
ferramenta que fará a análise de dados. A Figura 3 traz um exemplo de conjunto de
dados para a classificação de plantas. O Iris Dataset, é um conjunto famoso muito
usado no aprendizado de máquina. Os dados coletados para análise são
comprimento e largura de sépalas e pétalas de três tipos de plantas: Iris Virginica, Iris
Setosa e Iris Versicolor (SWAIN et al., 2012). Como citado anteriormente, a última
coluna é a classificação do registro de acordo com suas características.
Figura 3 – Tabela do Iris Dataset.
Fonte: Weka (Elaborado pelo autor).
Tipos de dados e escalas de mensuração
Os conjuntos de dados podem possuir diferentes tipos de variáveis de acordo

com o interesse de análise. São eles:
▪ Nominal: dado discreto que não pode ser ordenado;

▪ Ordinal: dado discreto que pode ser ordenado;
▪ Contínuo: números reais;
▪ Discretos: números inteiros.
Cada tipo de dado citado acima exigirá do analista uma abordagem diferente
de fazer análise. Essas análises incluem a escolha da representação gráfica e para
determinar as escolhas de medidas central e de dispersão.
AED não gráfico para dados Univariados
O objetivo mais comum da AED para dados univariados é ter uma noção do
conjunto de dados por meio de uma análise da amostra. Embora essas análises
sejam quantitativas, devemos considerar sua análise como qualitativa, pois análise
amostral pode ter diferentes resultados a depender da amostra selecionada.
Dados Categóricos
As características de interesse de dados categóricos são a dispersão de

valores e frequência dos termos. Dessa maneira, a forma mais comum de AED não
gráfico para dados categóricos é a análise em tabelas. A elaboração de tabelas
permite verificar a frequência, percentil e outras informações interessantes. A Tabela
2 traz um exemplo de representação não gráfica de dados univariados.
Tabela 2 - Exemplo de análise não gráfica de dados univariados.
Estado Civil Solteiro(a) Casado(a) Divorciado(a) Viúvo(a) Total

Ocorrência 100 60 36 4 200
Proporção 0,5 0,3 0,18 0,02 1
A análise de ocorrência e proporção é muito útil para verificar dados faltantes

no conjunto, que pode ser muito comum.

Dados Quantitativos
A AED para dados univariados quantitativos é usada para fazer avaliações

preliminares sobre a distribuição do conjunto de dados. As principais características
de análise são o centro, dispersão, picos, forma e as anomalias.
Se um conjunto de dados quantitativos possuir poucos valores distintos, é

interessante usar a mesma técnica indicada na Tabela 2. Caso contrário, as técnicas
recomendadas são: tendência central, dispersão, assimetria e curtose.
A tendência central busca os valores mais típicos ou que estão localizados

no centro do conjunto. As medidas de tendência mais comuns são a média, mediana
e moda. A Figura 4 resume cada medida de tendência.
Figura 4 – Cálculo das principais medidas de tendência.
A média é o resultado da soma de todos os valores do conjunto dividido pela

quantidade total de valores. Ela pode ser pensada como o valor justo dentro do
conjunto de dados. A mediana indica qual valor está exatamente no centro do
conjunto de dados. Seu uso é indicado quando a distribuição de dados é assimétrica
e quando o resultado da média não reflete bem o conjunto de dados. Enquanto a
moda identifica o valor que ocorre com mais frequência. A Figura 5 ajudará a entender
melhor cada uma das medidas.

Figura 5 – Medidas de tendência central no gráfico.
Fonte: (MUNIZ, 2019)
A medida mais comum de tendência central é a média. Quando a distribuição

for assimétrica ou houver uma preocupação com as anomalias, a medida indicada é
a mediana.
As medidas de dispersão servem para identificar o quão longe do centro

pode-se achar dados. As medidas mais comuns são: variância, desvio padrão,
amplitude interquartil e amplitude.
A variância é a medida padrão de dispersão. Quanto maior é o resultado da

variância, mais dispersos estão os dados. No entanto, pelo fato da sua medida estar
elevada ao quadrado, raramente ela é usada na prática. Por esse motivo, o uso do
desvio padrão, que nada mais é do que a raiz quadrada da variância, é mais
utilizado. A amplitude interquartil é uma medida de dispersão mais robusta que as
citadas anteriormente, pois as possíveis anomalias do conjunto de dados refletem
pouco no resultado. Por fim, a amplitude é uma medida simples de dispersão, mas
que pode ser útil para identificar anomalias que distorcem os dados. A Figura 6 traz
os principais cálculos das medidas de dispersão.

Figura 6 – Cálculo das principais medidas de dispersão.
Além das medidas de tendência central e dispersão, podemos analisar os

dados univariados por meio de medidas como assimetria e curtose. A medida de
assimetria, mede a falta de simetria dos dados em relação a sua distribuição de
frequência. Quando o resultado da assimetria é menor que zero, a distribuição possui
uma cauda para esquerda, maior que zero possui cauda para direita e é simétrica
quando o resultado é igual a zero. Já a curtose é uma medida para avaliar o
achatamento da curva de distribuição em comparação a distribuição normal. Quando
a curtose é igual a 0,263 quer dizer que a curva é idêntica a distribuição normal de
mesma variância. Quando é maior que 0,263, quer dizer que a distribuição possui a
cauda longa e quando menor que 0,263 a distribuição possui uma cauda curta. A
Figura 7 traz os cálculos para assimetria e curtose.
Figura 7 – Cálculo de assimetria e curtose.
AED gráfico para dados Univariados
A análise gráfica de dados univariados pode ser usada como um

complemento da análise não gráfica vista na seção anterior. A análise não gráfica

fornece uma visão mais quantitativa, enquanto a análise gráfica pode trazer uma
noção mais ampla de dados, que pode ser qualitativa e que requer um grau mais
subjetivo de análise. Os principais gráficos para dados univariados são: histograma,
diagrama de ramos e folhas e diagrama de caixa.
Histograma
O histograma é a melhor técnica gráfica para análise de dados univariados.

O histograma nada mais é do que um gráfico de barras, onde cada barra representa
uma frequência.
Por meio do histograma é possível visualizar as medidas de tendência central

e a assimetria e curtose da distribuição dos dados.
Figura 8 – Análise gráfica de um histograma.
Fonte: (BHANDARI, 2020).
Diagrama de ramos e folhas
O diagrama de ramos e folhas é um substituto simples para o histograma.

Como vantagem ele tem a propriedade de não esconder as frequências na hora da

visualização. Como desvantagem, ele não é adequado para verificar a forma da
distribuição de dados como o histograma.
A construção de um diagrama de ramos e folhas é dada pela definição de

chave e valor do conjunto. A chave representará o ramo do gráfico enquanto o valor
representará as folhas. Geralmente, as folhas representarão o último número do dado
enquanto os ramos representarão os demais números. A Tabela 3 representa um
diagrama de ramos e folhas para o conjunto X = {1, 7, 12, 16, 22, 23, 24, 152}.
Tabela 3 - Diagrama de folhas e ramos.
Ramo Folha
0 1
1 2, 6
2 2, 3, 4
15 2
Diagrama de caixas
O diagrama de caixas, também conhecido como boxplots, é uma técnica que

se destaca pela qualidade em apresentar informações como tendência central,
assimetria e identificar anomalias. A Figura 9 mostra um diagrama de caixas anotado.
Figura 9 – Diagrama de caixas.
Fonte: (SELTMAN, 2012).

Os dados estão representados entre o limite (whisker) inferior e o limite
superior. A caixa representa a amplitude interquartil dos dados, sendo os limites
superior e inferior o Q3 e Q1, respectivamente. A linha dentro da caixa indica a
mediana dos dados. Os limites inferior e superior são calculados por 1,5 x Q1 e 1,5 x
Q3, respectivamente. Qualquer valor fora desses limites é considerado uma anomalia.
A simetria num diagrama de caixas é obtida por meio da análise da linha

dentro da caixa. Se ela se encontra no centro da caixa, os dados são simétricos.
Quando os dados são assimétricos, a linha estará com tendência para o limite mais
curto. Se o limite mais curto é o superior, então a assimetria é positiva (cauda para a
direita). Caso contrário, a assimetria é negativa (cauda para a esquerda).
Uma curtose positiva pode ser analisada se o diagrama possui muitas

anomalias. Quando os limites são muito curtos em relação a mediana, a distribuição
possui uma curtose negativa.
O diagrama de caixa é indicado para análise quando combinado com as

tabelas (análise não gráfica) ou com o histograma. É uma técnica bastante usada,
pois seus princípios estão baseados em dados estatísticos robustos, como a mediana
e a amplitude interquartil.
AED não gráfico para dados multivariados
As técnicas de análise não gráficas para dados multivariados, geralmente,

mostram a relação das variáveis em forma de tabelas de contingência ou estatística.
Tabelas de contingência
As tabelas de contingência são úteis para dados categóricos e dados

quantitativos com poucas variações. A Tabela 4 exemplifica uma tabela de
contingência com as relações entre as variáveis de Estado Civil e Idade.

Tabela 4 - Tabela de contingência para AED de dados multivariados.
Idade/Estado Civil Solteiro(a) Casado(a) Divorciado(a) Viúvo(a) Total

18-25 55 12 1 0 68
25-40 48 20 5 1 74
41-50 20 35 15 7 77
51-65 8 31 14 15 68
65+ 8 24 18 30 80
Total 139 122 53 53 367
Na tabela acima, observa-se um cruzamento entre dois grupos de variáveis

categóricas (faixa etária e estado civil). O cruzamento das linhas e colunas da tabela
são as frequências observadas para cada combinação.
As tabelas de contingência podem ser estendidas para três ou mais variáveis.

Nesses casos, são feitas múltiplas tabelas de duas variáveis, relacionando todas as
combinações possíveis.
Teste de Qui-Quadrado
Uma forma de avaliar a dependência entre duas variáveis categóricas é o

teste de qui-quadrado. Essa técnica compara frequências observadas e frequências
esperadas de uma variável para determinar o grau de dependência entre as duas
(LANCASTER; SENETA, 2005).
O resultado do qui-quadrado deve ser comparado com o resultado

determinado do grau de confiança em relação a liberdade das variáveis. Se o valor
encontrado for maior, indica que as variáveis possuem um grau de dependência entre
si. A Figura 10 traz o cálculo de qui-quadrado. A variável ‘O’ indica a frequência
observada e a variável ‘E’ indica a frequência esperada. Num teste de hipótese nula,
a frequência esperada é sempre a média da frequência observada. A Figura 11 traz
as informações sobre o grau de confiança em relação a liberdade das variáveis. O
número de grau de liberdade é dado pelo número de observações menos um. O grau
de significância é escolhido de acordo com a análise. Por padrão, a partir de 0,05 é
considerado significante.

Figura 10 – Cálculo de Qui-Quadrado.
Figura 11 – Tabela de distribuição do qui-quadrado.
Fonte: (MCLAUGHLIN; NOEL, 1996).
Covariância e Correlação
Covariância é uma medida de interdependência de duas variáveis

quantitativas. Ela indica o quão duas variáveis variam em relação a outra. Quando a
covariância é positiva, as variáveis variam no mesmo sentido. Quando a covariância
é negativa, indica que as variáveis variam em sentidos opostos. Por fim, quando a
covariância for igual a zero, as variáveis são independentes. A covariância, no
entanto, é difícil interpretar, pois a independência implica em nenhuma correlação
entre as variáveis, mas o contrário não é necessariamente verdade (SELTMAN,
2012).

Por esse motivo, o uso da correlação é mais indicado. Os valores da
correlação variam entre -1 e 1, sendo que -1 indica uma correlação negativa perfeita,
+1 indica uma correlação positiva perfeita e 0 indica uma ausência de correlação entre
as variáveis. Os cálculos de covariância e correlação são mostrados na Figura 12.
Figura 12 – Cálculo de Covariância e Correlação.
AED gráfico para dados multivariados
Existem poucos gráficos úteis para análise de dados multivariados, devido à

dificuldade de visualização na maioria dos casos. Para dados categóricos, o gráfico
de barras agrupadas é o mais utilizado. Nesses gráficos, cada grupo de barras
representa um nível de uma variável. Além disso, cada barra dentro do agrupamento
representa outra variável. A Figura 13 ilustra o gráfico de barras agrupadas para a
Tabela 4.
Figura 13 – Gráfico de barras agrupadas.

Quando as variáveis de análise são uma variável categórica acompanhada
de uma variável quantitativa, a análise gráfica recomendada é o diagrama de caixas
visto anteriormente, porém, para cada grupo (variável categórica distinta). O diagrama
de caixas permite a análise quantitativa de dados para cada variável categórica do
conjunto. A Figura 14 mostra um exemplo de diagrama de caixas para multivariáveis.
No exemplo citado, é avaliado o nível de força (strength) de acordo com a faixa etária.
Figura 14 – Diagrama de caixas agrupadas.
Fonte: (SELTMAN, 2012).
Por fim, quando a análise é feita sobre duas variáveis quantitativas, o gráfico
recomendado é o gráfico de dispersão com cada variável num eixo distinto. Quando
uma variável é explicativa, recomenda-se colocá-la no eixo Y enquanto as variáveis
resultado são colocadas no eixo X (SELTMAN, 2012).
Os gráficos de dispersão também podem acomodar variáveis categóricas

podendo ser representadas pela cor ou forma geométrica no gráfico. Os gráficos de
dispersão são ótimos para identificar padrões de classes distintas que são usadas no
aprendizado de máquina.

A Figura 15 é um exemplo prático de análise gráfica no Weka. Pela
visualização do gráfico, percebe-se que a Iris-Setosa possui largura de pétala (petal
width) entre 0,1 e 0,6 cm e possui a comprimento da pétala (petal length) entre 1 e
1,9 cm. Essas características são mais que necessárias para distinguir a Iris-Setosa
das demais plantas.
Figura 15 – Gráfico de dispersão.
A análise exploratória de dados deve ser considerada uma arte. Ela exige que
o cientista de dados tenha intuição para manipular os dados e isso não pode ser
mensurado quantitativamente. É necessário conhecer os dados, verificar possíveis
problemas, entender as distribuições e relações entre as variáveis. É uma habilidade
que requer tempo para dominar e os conceitos apresentados neste capítulo são
apenas o primeiro passo. O passo seguinte é praticar bastante.

Capítulo 3. Análise diagnóstica
A análise diagnóstica é uma etapa posterior à análise exploratória de dados.

A análise exploratória trouxe para o cientista de dados quais são as variáveis de
importância para a solução do problema estudado. Essas variáveis estabelecem um
comportamento padrão que identificam questões como tendências, limites, anomalias
e outras métricas que serão usadas para entender o porquê alguma coisa ocorreu. É
papel da análise diagnóstica identificar quais foram esses motivos.
Nesse sentido, podemos dizer que a análise diagnóstica é dividida em três

categorias (VESSET, 2018):
▪ Identificação de anomalias;
▪ Descoberta;
▪ Determinar relacionamentos causais.
Identificação de anomalias
Baseado na análise exploratória, o cientista de dados deve ser capaz de

identificar áreas que requerem um estudo mais aprofundado. Essas áreas de
interesse são as anomalias que podem ser detectadas usando diagramas de caixa
ou histogramas que possuem curtose positiva. A
Figura 16 ilustra as anomalias detectadas no histograma e num diagrama de

caixas.

Figura 16 – Anomalias em histograma e diagrama de caixas.
Fonte: (ZIMMERLI et al., 2009).
Nesses casos, a simples análise gráfica de dados não oferece as respostas

necessárias, apenas que há anomalias. As anomalias também podem ser
identificadas por meio de técnicas de estatística e probabilidade e aprendizado de
máquina. As principais técnicas são: k-NN (k nearest neighbor) e SVM (Support
Vector Machines).
O k-NN detecta quais são os k vizinhos mais próximos do dado analisado.

Essa técnica é popular também no aprendizado de máquina, tanto para classificação
quanto para regressão. Para detecção de anomalias, o k-NN compara a distância do

dado analisado com os demais. Quanto maior for a distância, mais provável que o
dado seja uma anomalia.
O SVM funciona traçando, num plano, os dados classificados e depois

ajustando uma função polinomial de forma que eles sejam separados em grupos
distintos (MÜLLER; GUIDO et al., 2016). Na detecção de anomalias, o SVM é treinado
para entender a faixa de dados onde é “normal” eles se encontrarem. Quando um
dado é analisado, se ele se encontra muito longe da faixa normal, ele é considerado
um dado anômalo.
As respostas devem ser obtidas por meio de análise causal de

relacionamento ou por meio de uma análise externa dos dados. Ambos serão
discutidos mais à frente.
Análise e descoberta estatística
Essa análise implica que o cientista de dados entenda o modelo de negócios

ao qual os dados foram extraídos. O cientista de dados precisa identificar quais as
fontes de dados que podem ajudar a explicar as anomalias encontradas. Geralmente,
essa etapa implica em procurar por padrões fora do conjunto de dados. A análise
pode detectar que a anomalia ocorreu de forma natural ou que foi causada por algum
erro na hora de coleta de dados. Alguns exemplos podem ilustrar a tarefa de análise
de anomalias.
Exemplo 1: Uma coleta de dados previdenciários de um banco detectou que

havia 3 pessoas de 19 anos recebendo aposentadoria. Uma análise do cientista de
dados diagnosticou que esses dados foram resultantes de erros de digitação. A
atendente que fazia o cadastro dos pensionistas acidentalmente trocou os dígitos da
idade dos pensionistas (19 anos em vez de 91). Nesse caso, o cientista de dados
optou por corrigir os dados invertendo os dígitos.
Exemplo 2: Uma coleta de dados de temperatura de um bairro de São Paulo

detectou que diversas horas do dia o bairro registrava uma temperatura acima de 50

graus. Numa inspeção de campo, o cientista de dados verificou que o local onde o
sensor foi instalado sofria uma interferência de um reflexo solar que incidia
diretamente sobre o aparelho, aumentando a sua temperatura. Nesse caso, o
cientista de dados desconsiderou as medições acima de 50 graus e as substituiu pela
média das demais medidas.
Exemplo 3: uma análise do pagamento de dividendos de uma empresa listada

na bolsa de valores detectou que no ano de 2018 o pagamento foi muito superior que
nos últimos 5 anos (Figura 17). Esse fato poderia distorcer métricas de predições
futuras. O diagnóstico do cientista de dados analisou o demonstrativo de resultado
em exercício da companhia e detectou que aquele pagamento era não recorrente.
Nesse caso ele subtraiu a quantia não recorrente do pagamento e substituiu pelo novo
valor que melhor indicava o cenário real.
Figura 17 – Análise dos dividendos de uma empresa.
Fonte: Status Invest.
Determinar relacionamentos entre as variáveis

Os dados podem conter relacionamentos ocultos que são capazes de explicar
os eventos que resultaram nas anomalias identificadas. Esses relacionamentos
podem ser identificados usando técnicas de probabilidade e estatística. As técnicas
mais utilizadas são covariância e correlação, já citadas nesta apostila.
As soluções apresentadas neste capítulo podem ser aplicadas manualmente

pelos cientistas de dados quando os dados são poucos. No entanto, na maioria das
vezes, os dados deverão ser processados automaticamente. As soluções mais
comuns são as que usam aprendizado de máquina como o k-NN e o SVM, também
apresentados anteriormente. Existe uma série de outros métodos que podem ser
aplicados para análise diagnóstica de dados, porém eles não serão abordados nesta
apostila. O uso de aprendizado de máquina também é recomendado porque ele
elimina qualquer viés que o cientista de dados tenha ao analisar os dados.
A análise diagnóstica busca entender o porquê desses dados terem ocorrido

como ocorreram. Uma vez que o cientista de dados tenha entendido isso, a próxima
etapa é entender o que acontecerá depois. Para isso, é preciso aplicar a análise
preditiva.

Capítulo 4. Análise preditiva
A análise preditiva abrange uma variedade de técnicas estatísticas e de

aprendizado de máquina que analisa os dados coletados (histórico) para fazer
predições do futuro (NYCE, 2007). Esse tipo de análise trabalha dando ao cientista
de dados um valor para a predição onde ele deve entender como uma prescrição, ou
não, para uma tomada de decisão.
A validade da análise depende muito da quantidade e qualidade dos dados.

Por isso, as etapas anteriores são tão importantes na hora da predição. Algumas
características da análise preditiva são:
▪ Fazer a modelagem de algumas áreas do modelo de negócios;
▪ Prever acontecimentos dentro dessas áreas;
▪ Identificar a necessidade de tomada de decisão.
Atualmente, existe uma série de técnicas para análise preditiva, sendo elas
classificadas em aprendizado de máquina e regressão.
Técnicas de regressão
As técnicas de regressão têm como foco descobrir o comportamento de uma

variável dependente em relação às variáveis independentes. Isso é feito descobrindo
a equação matemática que rege o comportamento dos dados. As técnicas mais
comuns de regressão são: a linear e a linear múltipla.
Regressão linear simples
A regressão linear avalia a relação entre duas variáveis por meio de uma
função linear calculada. A regressão permite que as variáveis de predição sejam
inseridas na função e prevê uma resposta com um determinado grau de precisão.

A função calculada na regressão linear simples é de primeiro grau, ou seja,
uma linha reta que cria a relação direta de causa efeito. A variável estimada, ou
predita, é representada pelo eixo y, enquanto a variável independente é representada
no eixo x.
A regressão linear permite predizer variáveis e também analisar as variáveis

independentes em relação com a alteração da variável predita. Essa regressão é
recomendada para dados lineares, ou seja, quando há apenas um valor preditor e
outro valor de independente. No entanto, ela é sensível às anomalias. Para análise
preditiva, é recomendado que as anomalias sejam removidas e/ou tratadas do
conjunto de dados para que o modelo forneça previsões mais precisas.
A Figura 18 mostra como é feita a análise preditiva usado regressão linear. A

linha pontilhada azul é a linha de regressão que é calculada pela fórmula mostrada
na imagem. Os círculos alaranjados são os dados do conjunto e a linha pontilhada
preta é a distância entre o valor predito e o valor esperado (erro). A linha cinza é o
cálculo do coeficiente de regressão que explica quanto que o valor de y muda em
relação ao valor de x.
Figura 18 – Regressão Linear.
Fonte: (BEDRE, 2021).

Regressão linear múltipla
A regressão múltipla é usada quando apenas uma variável independente

não é suficiente para predizer outra variável com precisão.
O método de cálculo é similar à regressão linear simples, mas levando em

consideração também as múltiplas variáveis independentes que podem estar
correlacionadas com a variável predita. Dessa maneira, o cálculo é dado como
mostrado na Figura 19.
Figura 19 – Cálculo de Regressão Múltipla.
Técnicas de Aprendizado de Máquina
Aprendizado de máquina pode ser definido como o campo de estudo que dá

aos computadores a habilidade de aprender sem serem explicitamente programados
para isso e também a capacidade de um programa melhorar seu desempenho depois
de passar por um processo de treinamento (SAMUEL, 1959; MITCHELL, 1999).
Existem dezenas de técnicas de aprendizado de máquina que vão desde

técnicas estatísticas avançadas até aprendizado profundo por meio de redes neurais.
O que é importante entender é que essas técnicas são usadas para finalidades
distintas. A seguir, veremos algumas categorias de algoritmos de aprendizado de
máquina.
Algoritmos de classificação
Um algoritmo de classificação de dados busca prever a qual classe um

registro pertence dado as suas características. A Figura 15 é um gráfico de dispersão
para o conjunto de dados que busca classificar uma planta em uma destas três
categorias: Iris Setosa, Iris Virgínica e Iris Versicolor. As características coletadas
para análise de dados foram comprimento e largura das pétalas e sépalas das
plantas. Com base nessas características que o algoritmo deve determinar qual

classe uma planta pertence. Os principais algoritmos de classificação são: SVM,
Árvores de Decisão, k-NN, HMM etc.
Algoritmos de regressão
Os algoritmos de regressão bebem da fonte da regressão linear apresentada

anteriormente. Eles tentam predizer um valor dado uma série de características
fornecidas ao algoritmo. Esses algoritmos são bastante utilizados em problemas
como predizer variáveis futuras, agrupar dados por clusters etc.
Os principais algoritmos de regressão são: regressão linear, lasso,

logística, SVM etc.
Algoritmos de redes neurais
As redes neurais fazem parte do campo de aprendizado profundo.

Diferentemente dos modelos anteriores que são altamente baseados em estatística,
as redes neurais imitam a estrutura biológica do corpo humano para fazer predições.
Uma rede neural possui diferentes camadas que aceitam uma entrada (dados
para serem processados), processam esses dados (calculam predições em camadas
ocultas) e gera uma saída (resposta para o problema). As redes neurais vêm
mostrando aplicações em diferentes contextos, como processamento de imagem,
texto, voz etc. Os principais algoritmos de redes neurais são: CNN, RNN, LSTM etc.
Árvores de decisão
Árvores de decisão é um algoritmo de aprendizado de máquina que atua

como uma ferramenta de suporte à tomada de decisões (MÜLLER; GUIDO et al.,
2016). Trata-se de uma estrutura de dados hierárquica onde o dado mais ao topo da
estrutura é o ponto de partida para consultas.
Cada nó da árvore possui uma condição que o algoritmo analisa para navegar
para os nós mais baixos da árvore, afunilando as opções que descrevem qual a
decisão a ser tomada pelo algoritmo.
As árvores de decisão são usadas para todo o tipo de tarefa de classificação

de dados.

Capítulo 5. Análise prescritiva
A análise prescritiva é a consolidação de todas as análises vistas até agora.

Para entender melhor seu conceito, é preciso recapitular as análises de dados
anteriores.
A análise exploratória/descritiva de dados buscou analisar os dados que

foram coletados e testá-los com alguns métodos estatísticos e visuais para determinar
se são úteis para resolução do problema. Os dados são tratados e, quando
necessário, coletados novamente e preparados para que sejam estudados.
A análise diagnóstica buscou entender melhor a natureza dos dados que

serão usados no restante do processo. Com os dados certos coletados na etapa
anterior, são feitos diagnósticos neles para a detecção de anomalias e relações
causais entre as variáveis.
Com base nisso, a análise preditiva é capaz de prever novos comportamentos

para esses dados. Com isso é possível sugerir ao analista alguma tomada de decisão.
No entanto, a decisão que será tomada cabe à análise prescritiva.
Baseado nas predições feitas na etapa anterior, um sistema será capaz de

fazer recomendações inteligentes para o analista de dados. Para isso, é preciso,
antes de mais nada, conhecer do modelo de negócios ao qual os dados pertencem.
Por exemplo: dado informações sobre uma residência como bairro, idade da
construção, histórico de enchentes e preço, é possível gerar uma recomendação de
compra ou não para um corretor de imóveis. Outro exemplo é a análise de dados de
uma pessoa como estado civil, emprego, escolaridade e educação para autorização
de empréstimo.
Nesses casos citados anteriormente, cabe ao analista de dados transformar

essas predições em recomendações para o usuário final. Seja ela em forma de
relatórios ou por meio do desenvolvimento de sistemas inteligentes junto a uma
equipe de programadores.

Capítulo 6. Análise de série temporal
Séries temporais são conjuntos de dados que são coletados sequencialmente

e ordenados por tempo. Esses dados se diferem dos demais dados vistos
anteriormente, pois a sequência em que se encontram é importante para a análise de
dados (NIST/SEMATECH, 2012).
Uma série temporal tem como característica que as análises vizinhas são
dependentes. Podemos dividir o estudo de séries temporais em três assuntos:
▪ Modelagens;
▪ Análise de dependência;
▪ Técnicas específicas de análise temporal.
O uso de séries temporais ocorre em diferentes setores, como indústria,

economia, medicina, meteorologia, epidemiologia etc. As séries temporais podem ser
de valores discretos, contínuos ou multivariados.
A série temporal tem dois objetivos (MIGON, 2007):
▪ Compreender o mecanismo que gera aquela série;
▪ Predizer o comportamento futuro da série.
Esse tipo de análise permite que as séries sejam controladas, descritas e

entendidas. Além disso as periodicidades podem ser encontradas e estudadas. Neste
capítulo são explicadas técnicas utilizadas para uma boa predição de séries
temporais.
Autocorrelação
A autocorrelação é uma técnica de análise que detecta padrões na série de

dados ao comparar as medições atuais com as medições passadas. Em outras
palavras, seria uma correlação de um dado com ele próprio.

A análise por meio de correlação permite o analista de dados identificar
padrões sazonalidade, estabelecer relações e planejar novas ações. Assim como
visto na seção de correlação, a autocorrelação é medida entre os valores -1 e 1, sendo
0 a ausência de correlação.
Sazonalidade
A sazonalidade indica valores similares em determinados períodos de tempo.

Esses valores geralmente flutuam para cima e para baixo dentro de uma faixa de
tempo que representa a estação de sazonalidade.
Um determinado produto que vende em determinada estação do ano ou uma

linha de atendimento que fica sobrecarregada em determinada hora do dia podem ser
exemplos de sazonalidade. A análise de sazonalidade permite ao analista de dados
tomar medidas estratégicas para os períodos de pico detectados na análise.
A sazonalidade pode ser detectada visualizando um simples gráfico de linhas

ou um gráfico de autocorrelação. Nessa última opção, a sazonalidade é detectada por
picos no gráfico.
Figura 20 – Sazonalidade de um gráfico de vendas.
Fonte: (NAU, 2015).

Estacionariedade
A estacionariedade ocorre quando as propriedades estatísticas de uma série

de dados permanecem a mesma durante o tempo. Ou seja, nem média, nem variância
se alteram. Várias modelagens de séries temporais assumem que os dados são
estacionários. Dessa maneira, é comum que os analistas transformem a série de
dados em séries estacionárias para fazer análise de dados.
Uma série de modelos preveem que as séries sejam estacionárias. Por esse
motivo, o uso de dados estacionários é muito comum na análise de série temporal.
Para isso, as séries não estacionárias são transformadas para se adequarem às
características estacionárias. Uma forma de fazer isso é subtrair o valor seguinte pela
média da série ou pelo valor anterior.
Figura 21 – Estacionariedade de um gráfico de vendas.
Fonte: (NAU, 2015).
É possível testar se uma série é estacionária ou não. A técnica mais usada é

o teste de Dickey-Fuller. Se o teste der maior do que zero, então consideramos que
a série não é estacionária.

Modelagem de dados
Existem três tipos principais de modelagem: média móvel, suavização

exponencial e o modelo autorregressivo integrado de médias móveis (ARIMA). A
modelagem é utilizada para aplicar modelos de predição de dados, objetivo final da
análise de dados.
Média Móvel
É o método mais simples de suavização. A média móvel calcula a média da

série de dados por grupos de amostras. Os grupos são escolhidos arbitrariamente de
acordo com cada análise. Por exemplo, a média de mortes por COVID anunciada nos
noticiários, diariamente, leva amostras de 7 e 14 dias em consideração.
O uso de média móvel, no entanto, só é útil quando os dados analisados não

possuem uma tendência (como a média de dinheiro gasto por pessoas numa loja)
(NIST/SEMATECH, 2012).
Suavização exponencial
Esse método é mais popular para suavizar séries temporais. A suavização

exponencial atribui pesos decrescentes para os dados mais antigos. Dessa maneira,
as observações mais recentes possuem mais importância na hora de análise.
O peso atribuído numa média móvel é 1/N, onde N é o número de amostras

de um grupo. Na suavização exponencial o peso é dado por um valor α, de tal maneira
que 0 ≥ α ≤ 1. O valor de α é escolhido arbitrariamente. A suavização exponencial é
a média entre o valor registrado na série (V) e a previsão esperada para aquele valor
(P). Seu cálculo é dado pela fórmula da Figura 22.
A fórmula é dita exponencial porque a suavização ao longo da série vai

ocorrendo multiplicando múltiplas vezes os pesos de α, ou seja, os pesos das
medidas anteriores vão decaindo geometricamente para as leituras mais antigas.
Quanto maior for o valor de α, mais rápido será esse decaimento.

Figura 22 – Cálculo de suavização exponencial.
Fonte: Adaptado de (NIST/SEMATECH, 2012).
A suavização exponencial simples ainda não é suficiente para identificação

de tendências e sazonalidade. Para resolver esses problemas, aplica-se as
suavizações duplas e triplas, respectivamente.
ARIMA
ARIMA é um modelo de autorregressão integrado de médias móveis. Ele é a

integração do uso de médias móveis com a suavização de dados combinados para
dar mais robustez a modelagem. Seu uso também é para predição de dados,
principalmente no mercado mobiliário e industrial.
O modelo recebe três parâmetros denominados p, q e d que se referem as

partes AR, I e MA do ARIMA, respectivamente. Esses parâmetros são números
inteiros não negativos. O parâmetro p é a ordem do modelo autorregressivo, a
quantidade de defasagens usada no modelo. O parâmetro q é o grau de diferenciação
para eliminar a não estacionariedade da série. O parâmetro d é a ordem do modelo
da média móvel utilizada.
A escolha ótima desses parâmetros é feita por softwares. O ARIMA também

pode ser ajustado para fazer predições baseadas em sazonalidade. O modelo usado
para isso chama-se SARIMA e a lógica é idêntica ao do ARIMA, mas adiciona-se as
variáveis de sazonalidade.

Capítulo 7. Análise de redes sociais
A análise de redes sociais é um processo que busca entender a estrutura das

conexões que uma rede social possui. É uma área que está atrelada à teoria dos
grafos. A estrutura de uma rede social é formada por um grafo onde os nós
representam as entidades que utilizam a rede e as arestas indicam as relações e/ou
interações entre essas entidades. As entidades de uma rede social podem ser
pessoas, organizações etc. Os grafos gerados na análise de redes sociais são
chamados de sociogramas. A Figura 23 mostra a representação espacial de uma rede
social por meio de um grafo. O grafo a representa uma rede centralizada, b uma rede
densa, c uma rede fragmentada, d uma rede fechada, e e f os tipos de conexão entre
dois nós.
Figura 23 – Representação gráfica de uma rede social.
Fonte: (BODIN; GARCÍA; ROBINS, 2020).
O objetivo da análise de redes sociais é identificar uma série de padrões que

ocorre nos relacionamentos entre as entidades da rede. Alguns relacionamentos são:

detectar as principais entidades e entender os relacionamentos que elas possuem,
identificar comunidades explícitas e implícitas etc. (WASSERMAN et al., 1994).
As principais métricas de análise de redes sociais são distribuídas em três

categorias:
▪ Conectividade;
▪ Distribuição;
▪ Segmentação.
Antes de olharmos as citadas, vamos olhar algumas métricas básicas de das

redes sociais.
Métricas básicas de análise de redes sociais
Podemos dividir as métricas básicas em tamanho e grau de conectividade.

Quando analisamos o tamanho de uma rede social, verificamos a quantidade de nós
que o grafo possui. Uma turma de 200 alunos de um curso, por exemplo, poderia ser
representada num grafo de tamanho 200.
O tamanho da rede social também nos diz a quantidade possível de pares

de relacionamentos que podemos ter entre as entidades. Uma rede de tamanho k
pode ter, no máximo, k * k-1 relacionamentos. Esse cálculo leva em consideração que
o relacionamento de uma entidade A para B é diferente do relacionamento para
entidade B para A (HANNEMAN; RIDDLE, 2005).
O grau de conectividade indica quantas conexões um nó possui. Se um nó

está conectado a quatro outros nós, então dizemos que o grau de conectividade
daquele nó é quatro. O grau máximo de conectividade de uma rede é igual a k-1
(HANNEMAN; RIDDLE, 2005). Esses tipos de graus podem ser divididos em duas
categorias: saída e entrada. Os graus de saída são as conexões que partem do nó
em direção a outros nós. Os de entrada são as conexões que chegam de outros nós.

Pode-se usar análises estatísticas sobre as métricas básicas vistas nessa
seção. A média, por exemplo, é usada nas conexões da rede para comparar redes
de tamanhos diferentes. A variância e o desvio padrão dos nós também são úteis
para comparar o quão predizível é o comportamento de um nó. Quanto maior a
medida de dispersão, mais indecifrável é um nó.
Conectividade
Os nós numa rede social podem ser identificados em três tipos: fontes de
informação, ralos (que recebem a informação, mas não propagam), ou ambos
(HANNEMAN; RIDDLE, 2005). A conectividade de uma rede social é a relação que
um nó possui com outro por meio de uma aresta de ligação. Essa relação pode ter
vários significados, como parentesco, amizade, colegas de trabalho etc.
Quanto mais conexões um nó possui, significa que ele está mais exposto a
mais informações e de forma mais diversa. Quando um nó possui um alto grau de
saída, quer dizer que esse nó é mais influente na rede e que pode exercer mais
influência sobre os nós aos quais está conectado. Outra característica envolve a
disseminação de informação que é maior onde há mais conexões. Quando um nó
possui alto grau de entrada, pode haver vários significados. Esse nó pode ser
influente, poderoso ou fonte de ruído (excesso de informação). As conexões da rede
social, geralmente, se manifestam em homofilia, multiplexidade, reciprocidade, redes
fechadas e propinquidade (KADUSHIN, 2012).
A homofilia ocorre quando os grupos dentro das redes sociais são

compostos de pessoas que compartilham características em comum, como raça,
gênero, religião etc. A multiplexidade ocorre quando dois nós possuem mais de um
tipo de relação (parentesco e colegas de trabalho, por exemplo). A reciprocidade
ocorre quando os nós compartilham do mesmo relacionamento (A é amigo de B e B
é amigo de A). As redes fechadas ocorrem quando todos os nós possuem conexões
entre si. Por fim, a propinquidade é a tendência dos nós terem conexões com outros
nós que estejam geograficamente próximos.

Distribuição
Uma rede social pode ter várias formas e conhecê-las é importante para fazer
as análises. Conceitos como ponte, centralidade, densidade, distância, buracos
estruturais e força de conexão são importantes para entender a distribuição de uma
rede social (HANNEMAN; RIDDLE, 2011).
Um nó é chamado de ponte quando ele é a única conexão existente entre

dois grupos. Se esse nó é removido da rede, cria-se um buraco estrutural. Os
buracos estruturais também podem ser nós que seriam estratégicos caso estivessem
conectados em determinada parte da rede social. O oposto da ponte pode ser
considerado uma força de conexão na rede. São nós que possuem muitas conexões
distintas. A força de conexão geralmente está ligada com centralidade, propinquidade,
reciprocidade, multiplexidade e homofilia. Identificar as pontes e os buracos
estruturais é uma tarefa essencial para o analista de dados, pois são os nós de maior
valor e interesse numa rede social.
A centralidade é uma métrica usada para identificar quais são os nós de

maior influência e importância numa rede social. O cálculo mais simples de
centralidade é pela medição dos graus de conexão de um nó.
O fluxo de uma rede mede todas as conexões existentes entre os nós. Essa
métrica é útil para analisar como que a informação se espalha pela rede. Se um nó
recebe uma informação de mais de uma fonte, pressupõe-se que ele aceitará aquela
informação e que estará mais propício a repassá-la. Junto com a análise de
centralidade, o fluxo é usado para definir estratégias de marketing, pois os nós
centrais com maiores conexões possuem maior poder de influência e disseminação
da informação.
A densidade de uma rede é medida pela quantidade de conexões que

existem divididas pela quantidade possível de conexões. O cálculo de densidade é
mostrado na Figura 24, onde E são as conexões e V são os nós. Quanto mais próximo
de 1 for o resultado da densidade, mais densa é a rede. Redes densas podem explicar

fenômenos como a difusão de informação e a influência de alguns nós como
principais difusores.
Figura 24 – Cálculo de Densidade de uma Rede Social.
Fonte: Adaptado de (ARIF, 2015).
A distância entre nós é outra característica de análise numa rede social. Para
medir a distância entre um nó e outro, conta-se quantas conexões são necessárias
para que eles se conectem. O cálculo de distância entre nós é interessante para
determinar características macro da rede social, como o custo de difusão de uma
informação. A menor distância entre dois nós é chamada de distância geodésica e
é bastante utilizada na análise, pois calcula o custo da difusão de informação com
maior precisão. É possível calcular a média da distância geodésica entre os nós, se
a média for baixa, pode ser um indicativo de rede densa onde os nós possuem alto
grau de conectividade. A distância também pode ser usada para calcular o diâmetro
da rede. O diâmetro é a maior distância geodésica encontrada na rede, quanto maior
o diâmetro, mais esparsa é a rede. O diâmetro também é usado como métrica de
estudo para limitar a quantidade de conexões que serão analisadas. As conexões
entre os nós que são estudados são limitadas pelo diâmetro da rede.
Segmentação
A segmentação da rede social é usada para identificar grupos dentro da rede

(também chamados de “panelinhas”). Uma das métricas utilizadas para olhar a
segmentação é a acessibilidade.
A acessibilidade de um nó indica se ele pode ser alcançado por meio de

outras conexões. Se a rede social é assimétrica, então há a possibilidade de um nó
A interagir com B, mas não o oposto. Se um nó não é possível de ser alcançado, isso
indica que a rede social pode estar dividida. Essa análise é importante para identificar

subgrupos de interesse dentro da rede social. Também é possível identificar se um
nó possui alta acessibilidade quando ele possui mais de um meio de ser alcançado.
O cálculo usado para determinação de segmentação em redes sociais é o

coeficiente de clusterização. O coeficiente mede o quão um nó está conectado aos
outros. Quanto maior esse coeficiente, mais indícios de que há uma “panelinha”
naquele local. O coeficiente de clusterização também é utilizado para determinar qual
é a chance de colaboração entre dois nós que estão indiretamente conectados. O
cálculo do coeficiente é dado pela fórmula da Figura 25. O λ representa subgrupos da
rede com 3 arestas e 3 nós incluindo o nó v. O τ representa subgrupos da rede com
2 arestas e 2 nós, incluindo o nó v, tal que v seja incidente em ambos os nós.
Figura 25 – Cálculo de coeficiente de clusterização.
Fonte: Adaptado de (ARIF, 2015).
Por fim a coesão é a métrica que determina o grau em que cada nó está
conectado a outro. Ela usa das informações de acessibilidade e distância para
identificar a conexão dos nós. A análise coesão também traz o conceito de coesão
estrutural que é identificar quais são os nós capazes de desfazer um grupo caso
sejam desconectados da rede. Identificar a coesão estrutural de grupos na rede pode
ser importante para a tomada de decisões estratégias.

Capítulo 8. Análise de texto e processamento de linguagem natural
Análise de texto é um campo diferente dos já estudados até então. Trata-se

da capacidade automática de entender textos como tuítes, e-mails, documentos
formais etc. Esse tipo de análise pode extrair informações de interesse para o analista
de dados como, por exemplo, se um cliente gostou do produto.
Ao contrário das análises vistas anteriormente, o texto é um tipo de dado que

se encontra desestruturado. Isso requer que outras abordagens sejam usadas para
extrair informação da análise de textos. A maioria dessas abordagens envolve
inteligência artificial e aprendizado de máquina para serem implementadas em larga
escala.
A análise de texto pode ser feita em diferentes escalas:
▪ Partes de uma sentença;
▪ Sentenças inteiras;
▪ Documentos inteiros.
Uma vez que o analista de dados entenda em qual escala ele terá que fazer
a análise de texto, ele pode preparar as etapas de análise. As etapas de análise de
texto são: coleta de dados, preparação, análise e visualização. As duas primeiras
etapas são tarefas do engenheiro de dados enquanto as duas últimas são do analista
de dados. Apesar disso, a seguir serão explicados os processos de cada etapa.
Coleta de dados
A coleta de dados é o processo em que toda informação útil a um negócio é

reunida. Essa informação pode ser coletada tanto internamente quanto externamente.
Informações internas são e-mails, atas de reunião, conversas gravadas em chats,
chamados de usuários etc. Já as informações externas são coletadas de fontes como
redes sociais, sites de reclamações, notícias, fóruns etc.

O processo de coleta de informação varia conforme a fonte. Os dados podem
vir em forma de arquivos de texto, planilhas, páginas da web, json etc. O
armazenamento inicial dessa coleta é feito num data lake, um repositório onde os
dados são armazenados de forma bruta. É papel do engenheiro de dados preparar
os dados para que possam ser analisados.
Preparação
A preparação de textos envolve uma série de técnicas que são usadas para
otimizar a análise. Faz parte dessa etapa também padronizar os documentos
coletados na etapa anterior e armazená-los numa estrutura adequada para
persistência e consulta (geralmente um banco de dados).
Segue um sumário das técnicas de preparação de dados mais utilizadas para

processamento de textos.
Análise léxica (tokenização)
É o processo de quebrar o texto em partes atômicas com significados

(geralmente palavras). O processo de tokenização elimina os espaços em branco
contidos nos documentos e armazena as palavras numa estrutura de dados
manipulável (vetor).
Etiquetagem de Partes-do-Discurso
Parte-do-Discurso é a categorização de uma palavra de acordo com sua

classe gramatical. No português há dez partes do discurso diferentes: substantivos,
adjetivos, numerais, pronomes, artigos, verbos, advérbios, preposições, conjunções
e interjeições.
O processo de etiquetagem de partes-do-discurso consiste em atribuir uma

dessas dez categorias para cada palavra do texto. A tokenização do texto é
importante porque facilita o processo de etiquetagem. Da mesma maneira, a
etiquetagem facilitará o processo de análise sintática discutido a seguir.

Análise sintática (parsing)
O parsing é o processo de estabelecer a estrutura sintática de uma frase. A

análise sintática estabelece relações entre as palavras de uma frase como pode ser
visto na Figura 26. Ela é útil porque ela traz uma série de informações sobre a
complexidade da sentença analisada (sintática e semanticamente).
A técnica mais comum de análise sintática é o dependency parsing que

estabelece as palavras de uma sentença como dependentes uma da outra. Achar a
relação de dependência entre as palavras ajuda na hora de analisar questões como
desambiguação de palavras.
Figura 26 – Análise sintática.
Fonte: Monkey Learn.
Stemming (ou lemas)
O processo de stemming consiste em extrair o radical das palavras. As

palavras “pedreira”, “pedregulho” e “pedra” possuem o mesmo radical “pedr”. O uso
de radical para a análise de texto é útil para achar palavras que possuem significados
similares, mas que se encontram em formas diferentes.

Os lemas possuem o mesmo propósito do stemming. A diferença está na
forma como as palavras são transformadas. Os lemas usam dicionários para definir a
forma básica da palavra. As palavras “fui”, “sou” e “serão” possuem o mesmo lema
“ser” que é a forma infinitiva do verbo. Os lemas são úteis para identificar verbos
irregulares na análise de texto.
Remoção de stopwords
Stopwords são palavras que existem no texto, mas que trazem pouco ou
nenhum significado semântico. Elas geralmente são artigos, preposições, conjunções
e alguns verbos. Para várias tarefas de análise de textos, recomenda-se remover as
stopwords para não causar ruídos nos algoritmos de aprendizado.
Análise de textos
Existem diferentes técnicas de análise de textos, cada um com seu propósito

diferente. A seguir, veremos as principais técnicas.
Classificação de texto
A tarefa de classificação consiste em analisar um texto e depois etiquetá-lo

conforme um conjunto de categorias pré-definidas.
A tarefa mais comum de classificação é a análise de sentimento. Um

algoritmo é treinado para receber um texto e classificá-lo como positivo, neutro ou
negativo. O texto pode ser a opinião de um produto por um cliente, o relatório de
compra e venda emitido por uma casa de análise etc.
A análise de sentimento é bastante usada no segmento de marketing das

empresas para detectar audiência e performance dos produtos lançados. No entanto,
também é possível encontrar usos em outros meios. Na indústria, por exemplo, a
análise de texto pode ser usada para elencar as prioridades de demandas que são
solicitadas por e-mail.

Os desafios na análise de sentimento estão na detecção de sarcasmos
durante as análises. A técnica, no entanto, apresenta bons índices de assertividade.
A modelagem de tópicos é similar à análise de sentimentos, no entanto, a

classificação de texto se dá por um conjunto de categorias pré-definidas. Seu principal
uso é na classificação de documentos. Por exemplo, é possível aplicá-lo em
bibliotecas onde o sistema leria o livro e classificaria dentro dos gêneros literários
possíveis. Outro exemplo seria ler a sinopse de filmes e classificá-los dentro das
categorias cinematográficas como terror, drama, comédia etc.
A modelagem de tópicos é útil para classificar as ações e tomar atitudes

direcionadas de acordo com cada classificação. Uma empresa, por exemplo, pode
classificar os feedbacks de seu produto por categorias como “fácil de usar”, “preço” e
“suporte pós-venda”. Essas classificações seriam usadas para direcionar futuras
campanhas de marketing.
A detecção de intenção é similar a análise de sentimento. A diferença é que

a classificação da análise de texto será para identificar uma série de intenções por
trás da escrita. É possível ser feito isso durante uma análise de um cliente para
identificar as razões por trás da sua avaliação e detectar se o cliente possui intenções
de comprar, reclamações sobre o produto, está com dúvidas etc.
A análise de detecção de intenções, assim como a modelagem de tópicos, é

útil para tomada de decisões a respeito dos clientes. Esse método pode ser
incorporado em chatbots, e-mails e outros canais de comunicação para entender as
demandas dos clientes e programar ações automáticas, como mandar um e-mail
oferecendo um produto ou encaminhando a reclamação diretamente ao setor
responsável.
Extração de texto
A extração de texto é outra técnica de análise de texto bastante utilizada. Seu

foco está em extrair informação de relevância, como preços, palavras-chave, nomes
de interesse etc., dentro de um conjunto de textos.

As técnicas de extração de texto ajudam a entender melhor os documentos
que estão sendo analisados e também a identificar e manipular variáveis de interesse.
Segue a descrição das principais técnicas de extração de textos.
Uma palavra é considerada chave quando sua presença traz relevância para
o documento ao qual ela está inserida. A extração de palavras-chave ajuda o
analista de dados a entender o conteúdo dos documentos que ele tem em mãos. Elas
são úteis também para indexação de documentos e visualização da representação
dos dados textuais.
Reconhecimento de entidade mencionada, ou REM, é uma técnica de

extração de informação que detecta e extrai entidades mencionadas num texto. São
consideradas entidades mencionadas qualquer coisa que pode ser mencionada com
um nome próprio (JURAFSKY; MARTIN, 2008).
São geralmente considerados REM: pessoas, localizações, organizações,

entidades geopolíticas, instalações, veículos. No entanto, para aplicações mais
especializadas, o conceito de REM pode se estender a outras entidades. A extração
de entidades mencionadas, assim como a extração de palavras-chave, é útil para
manipulação de variáveis de interesse dentro do texto.
A frequência de termos é uma técnica que mede a ocorrência de termos

dentro de um documento. A técnica mais utilizada é a frequência do termo inverso da
frequência de documentos (TF-IDF). O TF-IDF é uma medida estatística que calcula
a importância de um termo dentro de um documento.
O cálculo do TF-IDF considera a frequência dos termos dentro de um

documento, mas também leva em consideração o peso desse termo nos outros
documentos. Esse método é importante porque consegue indicar a relevância das
palavras sem considerar as stopwords (palavras comuns que não adicionam
significado no texto).
O uso da frequência de termos na análise de dados é importante para

entender as palavras-chave dos documentos analisados e os termos usados com
mais frequência que devem ser analisados com mais atenção.

A colocação é usada na linguística para identificar palavras que ocorrem em
conjunto. Ela é comumente dividida em bigramas e trigramas que são duas e três
palavras que ocorrem com conjunto respectivamente.
A análise de colocação dentro do texto é importante para identificar estruturas

em comum e para identificar termos compostos que podem se transformar em
palavras-chave (ar-condicionado, Belo Horizonte etc.).
A concordância é a análise da estrutura da frase onde uma determinada

palavra está inserida para determinar o seu contexto. A análise de concordância é útil
para predizer palavras futuras e também para auxiliar na tarefa de desambiguação de
textos.
Clusterização de textos é a técnica de analisar e agrupar diferentes

documentos em torno de um mesmo assunto. Ela é útil para separar diferentes
documentos por grupos de interesse (e-mails, tuítes, avaliações em redes sociais etc.)
A clusterização é usada na análise de texto para descobrir assuntos em

comum em diferentes tipos de documentos que podem ser de interesse para o
analista.
Visualização
A visualização dos dados é similar ao conteúdo já explicitado no capítulo de

análise exploratória. Dados sobre análise de sentimento, classificação de
documentos, frequência de termos, entre outros podem ser montados em gráficos
simples, como de barras, pizza, histogramas etc.
A visualização mais comum, no entanto, é a nuvem de etiquetas (ou tag

cloud). Nessas nuvens é possível visualizar as palavras de maior relevância dentro
de um documento. Elas podem representar palavras simples ou n-gramas, como
mostrado na Figura 27.

Figura 27 – Nuvem de bigramas.
Fonte: (BARRASSO, 2018).

Referências
ARIF, T. The mathematics of social network analysis: metrics for academic

socialnetworks. International Journal of Computer Applications Technology and
Research, v. 4, n. 12, p. 889–93, 2015.
BARRASSO, T. Basics of Text Analysis & Visualization, 24 jul. 2018. ITNEXT.

Disponível em: https://itnext.io/basics-of-text-analysis-visualization-1978de48af47.
Acesso em: 23 jul. 2021.
BHANDARI, P. Central tendency: Mean, median and mode, 30 jul. 2020. Scribbr.
Disponível em: https://www.scribbr.com/statistics/central-tendency/. Acesso em: 23
jul. 2021.
RENESH BEDRE. Linear regression basics and implementation in Python, 25

abr. 2021. Disponível em: https://www.reneshbedre.com/blog/linear-regression.html.
BODIN, Ö.; GARCÍA, M. M.; ROBINS, G. Reconciling conflict and cooperation

inenvironmental governance: A social network perspective. Annual Review of
Environmentand Resources, v. 45, p. 471–495, 2020.
CHATFIELD, C. Problem solving: a statistician’s guide. [S.l.]: CRC Press, 1995.
EASTWOOD, B. What Does a Data Analyst Do? 17 abr. 2019. Northeastern

University – Graduate Programs. Disponível em:
https://www.northeastern.edu/graduate/blog/what-does-a-data-analyst-do/. Acesso
em: 23 jul. 2021.
HANNEMAN, R. A.; RIDDLE, M. Introduction to social network methods.

[S.l.]:University of California Riverside, 2005.
HANNEMAN, R. A.; RIDDLE, M. Concepts and measures for basic network analysis.
In: SCOTT, J.; CARRINGTON, P.J. (eds.). The SAGE handbook of social network
analysis, Thousand Oaks: SAGE Publicattions, 2011. p. 340–369.

JURAFSKY, D.; MARTIN, J. Speech and Language Processing: An Introduction to
Natural Language Processing, Computational Linguistics, and Speech Recognition.
2nd. ed. [S.l.]: Prentice Hall, 2008. 1038 p.
KADUSHIN, C. Understanding social networks: Theories, concepts, and findings.

[S.l.]: Oup Usa, 2012.
LANCASTER, H. O.; SENETA, E. Chi-square distribution. In: ARMITAGE, P.;

CELTON, T. (eds.). Encyclopedia of biostatistics, Hoboken, NJ: Wiley, 2005. v. 2.
LAURETTO, M. S. Análise Exploratória de Dados, 2011. 30 slides. Disponível em:

http://www.each.usp.br/lauretto/SIN5008_2011/aula01/aula1. Acesso em: 23 jul.
2021.
MCLAUGHLIN, J.; NOEL, J. S. Chi-square test. Retrieved, December, v. 3, p. 2013,

1996.
MIGON, H. Análise de séries temporais. Departamento de Métodos Estatísticos,

Instituto de Matemática, UFRJ, 2007 Disponível em:
http://acd.ufrj.br/~dani/pdf/slidespartefrequentista.pdf. Acesso em: 04 de jun. 2021.
MITCHELL, T. M. Machine learning and data mining. Communications of the ACM,

New York, NY, v. 42, n. 11, p. 30–36, 1999.
MÜLLER, A. C.; GUIDO, S. et al. Introduction to machine learning with Python: a

guide for data scientists. [S.l.]: O’Reilly Media, Inc., 2016.
MUNIZ, S. R. Introdução à análise estatística de medidas. In:______. Fundamentos

da matemática II. - Licenciatura em Ciências. São Paulo: USP; Univesp. 2019. Cap.
13. (Módulo 2).
NAU, R. Statistical forecasting: notes on regression and time series analysis.

Durham: Fuqua School of Business; Duke University, 2015.
NIST/SEMATECH. e-Handbook of Statistical Methods,

http://www.itl.nist.gov/div898/handbook/, 2012.

NYCE, C. Predictive analytics white paper. Malvern: Insurance Institute of America,
2007. Disponível em: https://www.the-digital-insurer.com/wp-
content/uploads/2013/12/78-Predictive-Modeling-White-Paper.pdf. Acesso em: 23 jul.
2021.
PREVIDELI, I. Análise Descritiva, 2018. Bioestatística – Programa de Oferta da

Disciplina (UEM) Disponível em: https://biostatistics-uem.github.io/Bio/descritiva.html.
SAMUEL, A. L. Some studies in machine learning using the game of checkers. IBM
Journal of research and development, San José, CA, v. 3, n. 3, p. 210–229, 1959.
SELTMAN, H. J. Experimental design and analysis. [S.l.]: Carnegie Mellon

University Pittsburgh, 2012.
SWAIN, M. et al. An approach for iris plant classification using neural network.
International Journal on Soft Computing, Citeseer, v. 3, n. 1, p. 79, 2012.
TUKEY, J. W. We need both exploratory and confirmatory. The American

Statistician, Alexandria, v. 34, n. 1, p. 23–25, 1980.
VESSET, D. Diagnostic analytics 101: Why did it happen?, 2018. Henry + Horny.
Disponível em: https://www.hhcpa.com/blogs/income-tax-accountants-
cpa/diagnostic-analytics-why-did-it-happen/. Acesso em: 23 jul. 2021.
WASSERMAN et al. Social network analysis: Methods and applications. Cambridge:

Cambridge University Press, 1994.
ZIMMERLI, L. et al. Rating autonomous systems. In: International Conference on

Internet Monitoring and Protection, 4, 2009, Veneza, Proceedings [...]. Piscataway:
IEEE, 2009. Disponível em: https://ieeexplore.ieee.org/document/5076363. Acesso
em: 23 jul. 2021.

Apostila - Módulo 3 - Bootcamp Analista de Dados

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila - Módulo 3 - Bootcamp Analista de Dados

Enviado por

Direitos autorais:

Formatos disponíveis

Técnicas para Análise de Dados

Bootcamp Analista de Dados

Guilherme Francis de Noronha

Técnicas para Análise de Dados – Página 2 de 56

Capítulo 1. Introdução .......................................................................................... 6

Capítulo 2. Análise exploratória/descritiva de dados ............................................ 9

Etapas da AED .................................................................................................... 11

Preparando dados para manipulação .................................................................. 12

Tipos de dados e escalas de mensuração ........................................................... 12

AED não gráfico para dados Univariados ............................................................ 13

Dados Categóricos ......................................................................................... 13

Dados Quantitativos ....................................................................................... 14

AED gráfico para dados Univariados ................................................................... 16

Diagrama de ramos e folhas ........................................................................... 17

Diagrama de caixas ........................................................................................ 18

AED não gráfico para dados multivariados .......................................................... 19

Tabelas de contingência ................................................................................. 19

Teste de Qui-Quadrado .................................................................................. 20

Covariância e Correlação ............................................................................... 21

AED gráfico para dados multivariados ................................................................. 22

Capítulo 3. Análise diagnóstica .......................................................................... 25

Análise e descoberta estatística .......................................................................... 27

Técnicas para Análise de Dados – Página 3 de 56

Capítulo 4. Análise preditiva ............................................................................... 30

Técnicas de regressão ......................................................................................... 30

Regressão linear simples................................................................................ 30

Regressão linear múltipla ............................................................................... 32

Técnicas de Aprendizado de Máquina ................................................................. 32

Algoritmos de regressão ................................................................................. 33

Algoritmos de redes neurais ........................................................................... 33

Árvores de decisão ......................................................................................... 33

Capítulo 5. Análise prescritiva ............................................................................ 34

Capítulo 6. Análise de série temporal ................................................................. 35

Modelagem de dados .......................................................................................... 38

Média Móvel ................................................................................................... 38

Suavização exponencial ................................................................................. 38

Capítulo 7. Análise de redes sociais ................................................................... 40

Métricas básicas de análise de redes sociais ...................................................... 41

Técnicas para Análise de Dados – Página 4 de 56

Capítulo 8. Análise de texto e processamento de linguagem natural ................. 46

Coleta de dados ................................................................................................... 46

Análise léxica (tokenização) ........................................................................... 47

Etiquetagem de Partes-do-Discurso ............................................................... 47

Análise sintática (parsing) ............................................................................... 48

Stemming (ou lemas) ...................................................................................... 48

Remoção de stopwords .................................................................................. 49

Classificação de texto ................................................................................... ..49

Técnicas para Análise de Dados – Página 5 de 56

O paradigma de negócios do mundo atual está cada vez mais dependente de

Por esse motivo, a demanda por pessoas que tenham conhecimento de

Uma das profissões importantes é o analista de dados. Ele é o profissional

A análise de dados é contemplada em boa parte do ciclo de vida de dados. O

▪ Análise exploratória: o analista deve organizar os dados que possui para

▪ Análise descritiva: o analista analisa as ocorrências passadas dos dados

Técnicas para Análise de Dados – Página 6 de 56

▪ Análise preditiva: o analista tenta prever o que acontecerá no futuro caso as

▪ Análise prescritiva: o analista identifica uma tomada de decisão a ser feita

Figura 1 – Ciclo de análise de dados.

Fonte: (VESSET, 2018).

Para chegar até a tomada de decisão, o analista precisa entender as técnicas

▪ Construir, manter e manipular bases de dados.

▪ Minerar e organizar dados de diferentes fontes.

Técnicas para Análise de Dados – Página 7 de 56

▪ Entender o modelo de negócios em que atua.