Você está na página 1de 36

Análise Exploratória de Dados 1

1. Introdução

A Estatística possui um papel fundamental na tomada de decisões. Notadamente, em


algumas áreas tais como, medicina, biologia e economia. Podemos ainda destacar, o
desenvolvimento de novos produtos na indústria e serviços. As aplicações da Estatística estão todas
as áreas do conhecimento envolvidas com a coleta e análise de dados. Consequentemente, no
resumo desses dados em informação para testar hipóteses científicas sobre um fenômeno
observável.
Por exemplo, com o objetivo da melhoria da qualidade e produtividade, e sem deixar de
observar as limitações ambientais, as empresas procuram otimizar os processos de produção. Estes
processos podem gerar dados de várias variáveis de interesse. Um resumo e análise desses dados
são elaborados de forma adequada com o uso de métodos estatísticos.

Definição 1.1: A Estatística é a ciência que tem como objetivo a obtenção, organização, análise e
interpretação de informações numéricas associadas a um determinado fenômeno. Além disso, a
proposição de modelos matemáticos para a análise de dados amostrais para fazer inferência sobre
uma população.

A Inferência estatística tem como objetivo fazer afirmações sobre uma população a partir de
uma amostra representativa. Estas afirmações são apresentadas juntamente com uma probabilidade
de erro.

Definição 1.2: Estatística Descritiva é um conjunto de procedimentos para construir um


determinado resumo dos dados observados de uma ou mais variáveis associadas a um experimento
aleatório em estudo.

A estatística descritiva também denominada análise exploratória de dados representa uma


fase importante do método estatístico. Tem como objetivo a coleta, organização e resumo dos dados
por meio de tabelas, gráficos e medidas numéricas.

1.1. Conceitos Básicos


Análise Exploratória de Dados 2

POPULAÇÃO: é o conjunto Ω de todos os resultados possíveis de um experimento que temos


interesse em estudar. Ω pode ser finito, infinito enumerável ou infinito não-enumerável.

AMOSTRA: é um subconjunto da população.

• Técnicas da amostragem: É um conjunto de técnicas utilizadas para a obtenção de uma


amostra representativa da população. Exemplos de utilização: pesquisa de mercado,
pesquisa de opinião pública, testes de medicamentos, controle de qualidade de produtos,
entre outros.

• Variável: é aquilo que se deseja observar para se tirar algum tipo de informação, por ex.:
idade, peso, altura, sexo, renda, ..., tempo de vida de um paciente, opinião sobre a compra de
um produto.

• Dados: são observações de uma ou mais variáveis. O conjunto de dados provem de uma
amostra, a qual representa uma população de interesse.

O desenvolvimento de novos softwares estatísticos e a facilidade do acesso computacional


tem fortalecido a estatística descritiva para tratar da grande quantidade de dados produzidos pelas
mais diversas organizações governamentais e empresariais.
Análise Exploratória de Dados 3

A inferência estatística utiliza a teoria das probabilidades e os dados amostrais para tirar
conclusões sobre a população. Os Exemplos
E 1.1 e 1.2 a seguir ilustram esta situação.
situação

Exemplo 1.1 - Para avaliar o desempenho


desem de candidatos em determinado intervalo de tempo de
uma campanha eleitoral, um instituto de pesquisa
p de opinião utiliza os resultados de um
levantamento aplicado a uma amostra da população de eleitores. O objetivo principal é estimar a
proporção de votos de cada candidato.
candidato Considerando um certo candidato A:
a) Chamamos de p a proporção de eleitores na população que têm intenção de votar no
candidato A.
b) Seja p̂ a proporção de pessoas na amostra que expressam intenção de voto em A.

Utilizamos o valor de p̂ para estimar a proporção p da população.


Numa eleição presidencial, para
par governadores e prefeitos, os institutos
nstitutos de pesquisa de
opinião colhem periodicamente amostras de eleitores para obter as estimativas de intenção de voto
da população. Estas são fornecidas com um valor e uma margem de erro,
erro ̂.

Exemplo 1.2 - Tamanho da População (N): Considere uma população formada por um conjunto de
N táxis de uma cidade e que os táxis são enumerados de 1 a N.. Para estimar o número N de táxis da
cidade, foi anotado os números de todos os táxis que um turista pegou: 440, 73, 179, 405 e 280.
280
Como devemos escolher uma estimativa para N?
Os dados ordenados podem ser representados por : (73, 179, 280, 405, 440).
Análise Exploratória de Dados 4

Estimativa de N pelo Método do Extremo: Uma estimativa é obtida somando o maior valor na
amostra (440) com a lacuna do menor valor (72). Ou seja, 440 + 72 512 .

Estimativa de N pela Mediana da Amostra: Outra estimativa de N é obtida somando-se o valor


mediano da amostra (280) com sua lacuna (279). Ou seja, 280 + 279 559.

Estimativa de N pela Média das Lacunas: Considere agora as lacunas observadas na amostra, isto é,
o nº de observações entre dois valores ordenados da amostra. Os tamanhos das lacunas observadas
são: 72, 105, 100, 124 e 34. A média das lacunas é dada por:

(72 + 105 + 100 + 124 + 34)/5 87.

Portanto, outra estimativa é dada por: 440 + 87 527.

Como poderíamos selecionar o método de estimação a ser usado? Esta questão é tratada em
Inferência Estatística. A Estatística Descritiva, é o objeto de estudo dos Capítulos 2 e 3.
Análise Exploratória de Dados 5

2. Dados Univariados
A Estatística Descritiva reúne um conjunto de técnicas para resumir os dados em tabelas,
gráficos e medidas descritivas que permitem tirar informações contidas nos dados.
Num conjunto de dados podemos ter dois tipos de variáveis, as quantitativas e as
qualitativas.

Variáveis Quantitativas: São variáveis obtidas numericamente por contagens ou


mensuração, podem ser discretas ou contínuas.

• Variáveis discretas: estão associadas a dados de contagem, por ex.: X = Número de


usuários atendidos mensalmente numa biblioteca, Y = Número de clientes numa fila
esperando atendimento.
• Variáveis contínuas: estão associadas a medidas de tempo, peso, altura, volume,
área, ..., capacidade. Por ex.: T = Tempo médio de atendimento a um usuário ou
cliente.

Variáveis Qualitativas ou Categóricas - Não são obtidas numericamente. Ex. : opinião =


ótimo, bom, regular, péssimo; opinião = sim, não; ... , sexo = masculino, feminino. Em geral
as variáveis qualitativas dão origem a dados discretos, por ex.: sim = 1, não = 0.

Após a coleta dos dados e a construção de um banco de dados, como resumir e organizá-los
de uma maneira informativa? A resposta a esta questão é dada nas Seções 2.1 e 2.2.

2.1. Tabelas e Gráficos


Após a coleta dos dados a construção de um banco de dados pode ser feita em forma de
planilha em um software estatístico para facilitar o resumo de tem interesse. Um exemplo de um
banco de dados é dado pela Tabela 2.1.
Análise Exploratória de Dados 6

TABELA 2.1 - Amostra aleatória de tamanho 20 de algumas variáveis coletadas numa pesquisa
com 93 estudantes da graduação em Matemática da UFMA em setembro de 2010.
Aluno P1 P2 P3 P7 P10B P24 P27
23 1 0 1 4 3 5 5
21 1 0 1 4 3 5 5
16 1 0 2 4 3 4 3
13 1 0 1 NA* 3 3 5
89 4 0 2 4 3 4 4
10 1 0 3 2 3 4 4
32 2 0 2 4 2 4 3
1 1 0 1 4 4 5 5
3 1 0 1 1 5 5 4
12 1 1 1 4 4 5 5
53 3 0 1 1 5 5 5
11 1 0 2 4 1 4 4
47 3 0 2 4 3 4 4
18 1 1 5 2 4 4 4
74 4 0 2 4 4 4 5
69 4 0 2 4 3 5 4
51 3 1 2 2 4 4 4
81 4 0 2 4 4 2 5
26 2 1 1 1 2 5 5
68 4 1 4 1 5 2 3
P1. Ano curricular que frequenta?, 1. 1º ano, 2. 2º ano, 3. 3º ano, 4. 4º ano.
P2. Sexo? 0. masculino, 1. feminino.
P3. Faixa etária?; 1. 17-20 anos, 2. 21-25 anos, 3. 26-30 anos, 4. 31-40 anos, 5. mais de 40 anos.
P7. Você tem domínio do idioma inglês ou outro idioma para a leitura?; 1. Inglês, 2. Espanhol, 3.Francês, 4.
Nenhum, 5. Outro.
P10B. Grau de satisfação em relação às bibliotecas central e setorial? 1. Sem opinião 2.Insatisfeito, 3. Regular, 4.
Bom, 5. Excelente.
P24. Seus professores demonstraram domínio atualizado das disciplinas ministradas? 5. Sim, todos; 4. Sim, a
maior parte deles; 3. Sim, mas apenas metade deles; 2. Sim, mas menos da metade deles; 1. Não, nenhum deles.
P27. Como você avalia a contribuição do Curso para sua formação? 5. Muito boa; 4. Boa; 3. Regular; 2. Fraca; 1.
Muito Fraca.
* NA: Não se aplica, não respondeu.
• A pesquisa teve por objetivo obter informações do perfil do aluno e sobre o grau de satisfação em relação aos
serviços educacionais oferecidos pela Instituição, Curso e administração acadêmica. O período de referência
o
considerado foi o 1 semestre de 2010. As entrevistas foram realizadas entre os dias 01, 02 e 03 de setembro
de 2010. Foi utilizada uma amostragem aleatória estratificada dos alunos levando-se em consideração o
período matriculado. A amostra final foi composta de 93 alunos. A tabulação dos dados foi feita no software
Excel. Para a elaboração dos gráficos e estatísticas descritivas, utilizamos o Excel e o software R (R
Development Core Team, 2013).
Análise Exploratória de Dados 7

2.1.1. DADOS CATEGÓRICOS


Suponha que os dados estão classificados em k categorias. Calculamos as frequências
absolutas f j e as frequências relativas fr j de cada categoria.

frequência na catego ria j


frj = , j = 1,L , k . (2.1)
n o total de observaçõe s

Frequência simples
Categorias daVariável X absoluta relativa

⋮ ⋮ ⋮
⋮ ⋮ ⋮
" " "
TOTAL # 1,0

Geralmente os dados categóricos podem resumidos por uma tabela de frequncias, como mostra a
Tabela 2.2 , por gráficos em colunas, barras horizontais e em setores.

Exemplo 2.1 - Considere uma amostra aleatória de 16939 fontes bibliográficas da biblioteca da
Universidade de Illinois. Uma medida de desempenho utilizada na definição da qualidade da
biblioteca é a taxa de cobertura estimada na Tabela 2.2 pela percentagem de itens possuídos na
amostra. Os dados estão resumidos na Tabela 2.2 e Figuras 2.1 , 2.2 , 2.3 e 2.4.

TABELA 2.2 - Amostras de referências bibliográficas da Universidade de Illinois - 1990.


Tamanho da Possuídos
Tipo de Fonte No de títulos
amostra frequência (fi) (%)
Monografia 10514 1200 923 77
Periódico 4268 1200 1046 87
Tese 2157 1050 961 91
TOTAL 16939 3450 2930
Fonte: Lancaster (1993) p.43, apud Oliveira (1991).
Análise Exploratória de Dados 8

Referências Bibliográficas
70,0%
13%
60,0%
62%
50,0%

40,0%

25% 30,0%

20,0%

10,0%

0,0%
Monografia Periódico Tese Monografia Periódico Tese

Figura 2.1 - Distribuição das referências bibliográficas Figura 2.2 - Distribuição das referências bibliográficas
da Universidade de Illinois - 1990. da Universidade de Illinois - 1990.

(%)
95
Tese
90

85
Periódico
80

75 Monografia

70
0 200 400 600 800 1000 1200 1400
Tese Periódico Monografia Possuídos Tamanho da amostra

Figura 2.3 - Estimativa da cobertura das referências Figura 2.4 - Amostras de referências bibliográficas da
bibliográficas da Universidade de Illinois - 1990. Universidade de Illinois - 1990.

Exemplo 2.2 - (a) Gráficos em colunas para as variáveis P1: ano curricular e P10B: grau de
satisfação em relação às bibliotecas central e setorial, respectivamente, apresentadas na Tabela 2.1.
Análise Exploratória de Dados 9

Figura 2.5 - Ano curricular frequentado pelos alunos da graduação em matemática da UFMA numa amostra aleatória
de tamanho 20 em setembro de 2010.

Figura 2.6 (a) - Grau de satisfação em relação às bibliotecas central e setorial dos alunos da graduação em matemática
da UFMA numa amostra aleatória de tamanho 20 em setembro de 2010.

Exemplo 2.2 - (b) Um exemplo de um gráfico em barras horizontais que é apropriado quando
temos muitas categorias é dado pela Figura 2.6 (b).
Análise Exploratória de Dados 10

Figura 2.6 (b) - Receita de alguns times de futebol com publicidade no ano de 2015.
Fonte: http://esporte.uol.com.br/futebol/ultimas-noticias/2016/07/21/palmeiras-passa-corinthians-e-fica-em-2-
em-receita-publicitaria-fla-e-1.htm

2.1.2. VARIÁVEIS QUANTITATIVAS DISCRETAS


Podemos utilizar os gráficos em colunas, gráficos em linha, histogramas (gráfico em
colunas) e diagramas pontuais.

Com as variáveis discretas podemos sumarizar os dados numa tabela de frequências e


calcular as frequências relativas dadas por

frequência de um val or x j
f rj = , j = 1,L , k . (2.2)
n o total de observaçõe s

Exemplo 2.3 - Os dados a seguir representam o número diário X de livros de estatística retirados em
uma biblioteca, em 30 dias do primeiro semestre do ano de 2015.

1 3 1 1 0 1 0 1 1 0 2 2 0 0 0
1 2 1 2 0 0 1 6 4 3 3 1 2 4 0
Análise Exploratória de Dados 11

Na Tabela 2.3 temos as frequências relativas (distribuição de frequências) para cada valor x.

TABELA 2.3 - Distribuição de frequências do número de livros estatística


retirados.
X = no de livros retirados fj frj
0 9 0,3000
1 10 0,3333
2 5 0,1667
3 3 0,1000
4 2 0,0667
5 0 0,0000
6 1 0,0333
TOTAL 30 1,0000

A distribuição de frequências de uma variável discreta pode ser representada por gráficos em
colunas, bastões e gráficos de retângulos verticais (histogramas).
Nas Figura 2.7 e 2.8 temos, respectivamente, os gráfico em colunas e o histograma para a
distribuição de frequências dada na Tabela 2.3.

freqüência relativa
0,35 fr (%)
0,30
30
0,25
0,20
20
0,15
0,10 10

0,05
0,00 0

0 1 2 3 4 5 6 0 1 2 3 4 5 6
xi
número de livros retirados

Figura 2.7 - Gráfico em colunas da frequência Figura 2.8 - Histograma da distribuição de frequências
relativa do número diário de livros de estatística retirados. do número diário de livros de estatística retirados.

2.1.3. VARIÁVEIS QUANTITATIVAS CONTÍNUAS


Podemos utilizar diagramas pontuais ("dot-plots"), diagramas de caixa ("box-plots"),
gráficos em linha e histogramas. Estes gráficos nos dão informação sobre a centralidade dos dados,
variabilidade e sobre a forma de sua distribuição de frequências.
Análise Exploratória de Dados 12

"Dot-plots" - Os diagramas pontuais são mais utilizados quando o número de observações é


pequeno.

Exemplo 2.4 (a) - Os dados a seguir representam o tempo (em minutos) entre as chegadas de 10
usuários numa biblioteca: 4, 4, 6, 6, 7, 8, 14, 18, 20, 52.

Figura 2.9 (a) - Tempo (em minutos) entre as chegadas de 10 usuários numa biblioteca.

Na Figura 2.9 (b) temos uma reprodução obtida usando a linguagem R da Figura 2.9 (a). Os Códigos utilizados são:

x=c(4, 4, 6, 6, 7, 8, 14, 18, 20, 52)


stripchart(x, method = "stack", offset = 1.0, at = .10, pch = 20,
main = "", xlab = "",col = "blue")

Figura 2.9 (b) - Tempo (em minutos) entre as chegadas de 10 usuários numa biblioteca, via
linguagem R.

Box-plot ou Diagrama em caixa - Representação gráfica de cinco medidas amostrais: mínimo,


quartil inferior, mediana, quartil superior e máximo de uma variável X. Na Figura 2.10, temos um
exemplo de um "box plot".
Análise Exploratória de Dados 13

Figura 2.10 - Algumas características de um "box-plot".

Exemplo 2.4 (b) - Considere os dados observados de 10 estudantes nas variáveis X e Y notas em
duas provas de Estatística.
X = 8, 8 ,9, 9, 9, 8, 9, 6, 5, 10
Y = 8, 8, 8, 8, 9, 7, 7, 7, 6,7

Na Figura 2.11 temos uma representação gráfica para os dados observados das variáveis X e Y.

Figura 2.11 - "Box-plot" para os dados observados das variáveis X e Y do Exemplo 2.4 (b).
Análise Exploratória de Dados 14

## Códigos em R para os dados do Exemplo 2.4 (b)


x = c(8, 8 ,9, 9, 9, 8, 9, 6, 5, 10)
y = c(8, 8, 8, 8, 9, 7, 7, 7, 6,7)
scores = data.frame(x,y)
boxplot(scores,col = "lightblue")

Histogramas - São apropriados quando o número de observações é grande.


Para construir os histogramas podemos utilizar uma tabela de distribuição de frequências.

DISTRIBUIÇÃO DE FREQUÊNCIAS DE VARIÁVEIS CONTÍNUAS


Em geral, na construção de uma distribuição de frequências consideram-se intervalos de
classes de comprimentos iguais (Wand, 1997). Um procedimento muito utilizado é o seguinte.

(i) Achar o mínimo e o máximo dos dados e determinar o número de classes (k), pela
regra de Sturges (Stuges, 1926; Hyndman, 1995),

k ≅ 1+ 3,322log10 n .
Observar que,
log n
k = 1 + log2 n = 1 + ≅ 1 + 3,322log10 n .
log 2
(ii) Escolher intervalos de classes comprimentos iguais (c) que incluam o mínimo e o
máximo da amostra:
x max − x min
c= .
k
(iii) Contar o número de observações que pertencem a cada intervalo de classe. Esses
números são as frequências das classes: f1 , f 2 L, f k .

(iv) Calcular as frequências relativas ( fr ) de cada classe:

frequência observada na classe j


fr j = , j = 1,2, L , k . (2.3)
n o total de observações

Construção de uma Tabela de frequências para os dados observados de uma variável X.


Análise Exploratória de Dados 15

Frequência simples Frequência acumulada

% %
X absoluta relativa absoluta relativa

[&' , & ) % %
[& , & ) % %
⋮ ⋮ ⋮ ⋮ ⋮
[&"( , &" ) " " # 1
Total n 1

sendo que,

,, 1,2, ⋯ , .;
)*
+
% + + ⋯+ ;
% ,, 1,2, ⋯ , .;
/*
+

% + + ⋯+
ou
.

HISTOGRAMAS
Os Histogramas são representações gráficas das distribuições de frequências dadas por
retângulos. Cada retângulo tem largura igual ao comprimento do intervalo de classe e altura (h)
dada por

frequência relativa
h= . (2.4)
largura do intervalo de classe

Note que, dessa forma, a área total de um histograma é igual a 1. Se os intervalos de classe têm
comprimentos iguais a c, então temos que

fr j
h= , j = 1, L , k .
c

Exemplo 2. 5 - Os dados a seguir representam o tempo (em horas) da duração até falhar de 60 peças
fabricadas por uma máquina.
15.1, 16.4, 33.6, 36.5, 40.3, 45.4, 45.5, 47.3, 53.8, 57.7, 59.2, 62.8, 63.2, 64.7, 67.5, 72.7, 78.5,
80.1, 81.1, 81.6, 86.7, 89.3, 93.0, 93.7, 97.6, 100.8, 104.0, 105.1, 106.0, 118.3, 132.9, 133.4,
Análise Exploratória de Dados 16

137.9, 138.0, 163.3, 176.9, 182.7, 183.1, 184.9, 201.6, 228.2, 241.5, 243.0, 268.6, 272.9, 272.9,
272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9

Estes dados estão resumidos na Tabela 2.4 e na Figura 2.12.

TABELA 2.4 - Distribuição de frequências do tempo (em horas) da duração até


falhar de 60 peças fabricadas por uma máquina.
T = tempo de vida fj frj Fj
[0 , 40) 4 0,0667 4
[40 , 80) 13 0,2167 17
[80 , 120) 13 0,2167 30
[120 , 160) 4 0,0667 34
[160 , 200) 5 0,0833 39
[200 , 240) 2 0,0333 41
[240 , 280) 19 0,3167 60
TOTAL 60 1,0000

Figura 2.12 - Histograma do tempo (em horas) da duração até falhar de 60 peças fabricadas por uma
máquina e histograma alisado, área = 1.

2.2. Medidas Descritivas


As medidas descritivas são usadas para sumarizar as informações do conjunto de dados. Elas
podem ser classificadas como medidas de tendência central, posição, assimetria, curtose e
variabilidade.
Análise Exploratória de Dados 17

2.2.2. Medidas de Tendência Central e de Posição

Definição 2.1. MÉDIA AMOSTRAL (0) - Seja (0 , 0 , ⋯ , 0+ ) uma amostra de tamanho n de uma
variável ∈ ℝ. Então, a média amostral 0 da variável X é dada por


∑7
689 56
+
. (2.5)

Note que, 0 + 0 + ⋯ + 0+ 0 + 0 + ⋯+ 0 #0. Isto implica que pelo menos um dos


0 , 0 , ⋯ , 0+ é menor ou igual a 0. Equivalentemente, pelo menos um dos 0 , 0 , ⋯ , 0+ é maior ou
igual a 0 . Com efeito, se 0 < 0, 0 < 0, ⋯ , 0+ < 0 , deveríamos ter

0 + 0 + ⋯ + 0+ < #0,
(0 + 0 + ⋯ + 0+ ) < 0 ,
+

0 < 0, o que é absurdo. ∎

A média amostral para os dados do Exemplo 2.4 (a) é dada por:


0 = (4 + 4 + 6 + 6 + 7 + 8 + 14 + 18 + 20 + 52)/10 = 13,9 minutos .

Se a amostra observada (0 , 0 , ⋯ , 0+ ) for agrupada em k classes ou categorias com


frequências , , 1, 2, ⋯ , .. Então, média amostral é dada por:
k

∑x
j =1
j fj
x= k , (2.6)
∑ j=1 f j
k
sendo que x j é o ponto médio da classe j e ∑ fj = n.

Para estimar a média populacional ( µ ) de uma variável X utilizamos a média amostral 0.


j =1

MEDIANA AMOSTRAL (Md)


Análise Exploratória de Dados 18

Definição 2.2. Seja (0 , 0 , ⋯ , 0+ ) a amostra observada e seja (0( ) , 0( ) , ⋯ , 0(+) ) a amostra


ordenada de uma variável ∈ ℝ. A mediana amostral CD ( ) é o valor central se n é impar ou, se
n é par é a média dos valores centrais.

0F7G9I , se # é LM NO.
CD ( ) E0F7HI + 0F7HP Q
H

I
, se # é NO.
2

Exemplo. (a) n é ímpar. A mediana da amostra: (3, 2, 12, 8, 1, 5, 9) da variável X é 5. Note que
este é o valor central da amostra ordenada (1, 2, 3, 5, 8, 9, 12).
(b) n é par. A mediana da amostra (2, 2, 3, 8, 10, 215) é dada por (3 + 8)/2 = 5,5. Note que,
n = 6. A média amostral é dada por (2 + ⋯ + 215)/6 40. Além disso, a observação 215 é muito
discrepante, causando um aumento considerável na média amostral.

MODA AMOSTRAL (Mo)


Definição 2.3. A moda amostral Mo é o valor (ou valores) da amostra (0 , 0 , ⋯ , 0+ ) com maior
frequência.

Exemplo 2.6 (a) - Seja (3, 3, 2, 3, 8, 7, 7, 9, 13, 5) uma amostra de tamanho 10 de uma variável X
representando o tempo em minutos de clientes esperando atendimento numa fila de um
supermercado A . Então, Mo(X) = 3 min. Significa que o valor 3 possui a maior frequência
obsevada ( ).

Exemplo 2.6 (b) - Seja (2, 1, 0, 5, 1, 5, 3, 2, 13, 8, 2, 4, 3, 4, 2, 9, 1, 3, 2, 2, 1, 13, 4, 3,


4, 4, 12, 7, 7, 3, 0, 5, 3, 4, 5, 2, 4, 10, 5, 9, 4, 1, 2, 5, 2, 2, 2, 1, 2, 7) uma amostra de
tamanho 50 de uma variável Y representando o tempo em minutos de clientes esperando
atendimento numa fila de um supermercado B. Note que, Mo(Y) = 2 min. Outras estatísticas
amostrais e um histograma representado pela Figura 2.13 foram obtidos com os seguintes códigos
em linguagem R.

### Códigos em R para o Exemplo 2.6 (b)


> rm(list=ls(all=TRUE)) # remove todas as variáveis
> y=c(2, 1, 0, 5, 1, 5, 3, 2, 13, 8, 2, 4, 3, 4, 2, 9, 1, 3,
Análise Exploratória de Dados 19

+ 2, 2, 1, 13, 4, 3, 4, 4, 12, 7, 7, 3, 0, 5, 3, 4, 5, 2, 4,
+ 10, 5, 9, 4, 1, 2, 5, 2, 2, 2, 1, 2, 7) ## dados do ex. 2.6b
> summary(y)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 2.0 3.0 4.1 5.0 13.0
> library(fBasics) ## carregar pacote
> basicStats(y, ci=0.95)
y
nobs 50.000000
NAs 0.000000
Minimum 0.000000
Maximum 13.000000
1. Quartile 2.000000
3. Quartile 5.000000
Mean 4.100000
Median 3.000000
Sum 205.000000
SE Mean 0.451980
LCL Mean 3.191713
UCL Mean 5.008287
Variance 10.214286
Stdev 3.195980
Skewness 1.252763
Kurtosis 0.952214
> hist(y, main="", xlab="tempo de espera na fila (min)",
+ col="lightblue", ylab="número de clientes")

Figura 2.13 - Histograma para amostra observada da variável Y do Exemplo 2.6 (b).
Análise Exploratória de Dados 20

Outras medidas apresentadas no Exemplo 2.6 (b) serão definidas a seguir.

QUANTIL OU PERCENTIL (xp)

Definição 2.4. O percentil de uma amostra (0 , 0 , ⋯ , 0+ ) de tamanho n de uma variável ∈ℝé


um valor xp tal que

% ({ ≤ 0U })
+úWX Y DX Z[\Y X] ^ 5_
+
. (2.7)

Note que % ({ ≤ 0U }) é a frequência relativa acumulada do evento { ≤ 0U }. Por exemplo, No


Exemplo 2.6 (b) podemos estimar a percentagem de usuários que esperam menos que 10 minutos
para serem atendidos, isto é:
Fr ( X ≤ 10 ) = p . (2.8)
Neste caso, podemos verificar, de acordo com o código em R "length(y[y<10])/length(y)"
que p = 0.92.

Graficamente, a percentagem de usuários que esperam entre a e b minutos é dada pela área
sombreada no histograma alisado da Figura 2.14

Figura 2.14 - Fr ( a ≤ X ≤ b ) .

Note que,

Fr ( a ≤ X ≤ b ) = Fr ( X ≤ b ) − Fr ( X ≤ a ) ,

sendo que, Fr é a frequência relativa acumulada.


Análise Exploratória de Dados 21

Nem sempre, as medidas de tendência central, a média por ex., fornecem informações
suficientes sobre o comportamento de uma variável X. Outras medidas podem se fazer necessárias,
como, as medidas de dispersão dessa variável.

MEDIDAS DE DISPERSÃO
Além das medidas de centralidade ou locação, é importante conhecer a dispersão ou
variabilidade dos dados. Suponha que os salários dos empregados de uma empresa estejam
concentrados em dois grupos: grupo 1 com salários em torno de 10000 reais e grupo 2 com salários
em torno de 800 reais. Não seria suficiente informar que a média de salários da empresa é de
aproximadamente 5000 reais. Este caso ilustra a importância das medidas de dispersão para
melhorar a comparação entre duas ou mais variáveis. As principais medidas de dispersão que
iremos estudar nesta seção são a variância, o desvio-padrão e o coeficiente de variação.

variável X tamanho n. Então, o i-ésimo desvio em relação à média amostral x é dado por:
DESVIO (di) em relação à média: Considere uma amostra observada (x1 , x2 , ... , xn) de uma

d i = xi − x , (2.9)
onde, i = 1, 2, ... , n.
n n
Podemos mostrar que ∑ d = ∑ (x
i =1
i
i =1
i − x) = 0 .

VARIÂNCIA AMOSTRAL: Considere n valores, (x1 , x2 , ... , xn), amostra observada de uma
variável X. Um estimador da variância populacional σ 2 é a variância amostral a , definida por

1
+

a b(0c 0̅ ) (2.10)
# 1
cd

Outro estimador comumente utilizado para estimar σ 2 é dado por

1
+

ef b(0c 0̅ ) .
#
cd
Análise Exploratória de Dados 22

Estimaremos σ 2 por a , a menos em situações especificadas.

DESVIO PADRÃO AMOSTRAL: é definido como a raiz quadrada da variância amostral (a).

1
+

a g b(0c 0̅ ) . (2.11)
# 1
cd

O desvio padrão populacional é denotado σ.

É importante ressaltar que o desvio padrão é uma medida de dispersão que está na mesma
escala dos dados.

COEFICIENTE DE VARIAÇÃO AMOSTRAL: O coeficiente de variação amostral (CV) é


definido como o quociente do desvio padrão amostral pela média amostral:
SX
CV = . (2.12)

Estimaremos o coeficiente de variação populacional, h e⁄i, por hf k, de acordo com a


x

equação (2.12).

As equações (2.10), (2.11) e (2.12) podem ser facilmente adaptadas para dados agrupados.

Se os dados estão agrupados em k classes ou categorias, com frequências f j , j = 1,L, k , a

variância amostral é dada por:

1
"

a b(0 0̅ ) ,
# 1
d

em que, x é definida pela equação (2.6).

Exemplo 2.7 - Considere uma amostra aleatória (a.a.) de tamanho 21 do tempo de espera X (em
minutos) dos usuários numa fila de uma biblioteca:
X = (2.0, 5.0, 4.8, 3.5, 2.4, 8.0, 17, 3.0, 1.5, 1.2, 1.4, 2.8, 3.1, 1.7, 1.8, 2.4, 16, 15, 1.4, 1.3, 19).

A amostra ordenada de X é dada por:


Análise Exploratória de Dados 23

(1.2, 1.3, 1.4, 1.4, 1.5, 1.7, 1.8, 2.0, 2.4, 2.4, 2.8, 3.0, 3.1, 3.5, 4.8, 5.0, 8.0, 15.0, 16.0, 17.0, 19.0).

Algumas estatísticas para os dados da Tabela 2.5 calculadas no software R são dadas por

21

x=
∑ i =1
xi
= 5.4428 min. , mediana = 2.8 min.
21

al ∑cd (0c 0̅ ) = 34.5286 min2


(
, S X = 5.8751 min .

TABELA 2.5 - Percentis do tempo de espera na fila (em minutos).


Percentil xp
0 1.2
5 1.3
10 1.4
25 1.7 (1o quartil)
50 2.8 (mediana)
75 5.0 (3o quartil)
90 16.0
95 17.0
100 19.0

Então, o valor x para o qual 90% dos valores amostrais são menores ou iguais a x é 16.0.
Observe que pela definição de percentis,
Fr(X < 16.0) = 90% ,
sendo que, Fr é chamada de frequência relativa acumulada do tempo de espera.

A Figura 2.15 apresenta o histograma da variável X.


Análise Exploratória de Dados 24

FIGURA 2.15 - Histograma do tempo de espera na fila de 21 usuários de uma biblioteca.

## Códigos em R para os dados do Exemplo 2.7


rm(list=ls(all=TRUE)) # remove todas as variaveis
x=c(2.0, 5.0, 4.8, 3.5, 2.4, 8.0, 17, 3.0, 1.5, 1.2, 1.4, 2.8, 3.1, 1.7, 1.8, 2.4, 16, 15, 1.4, 1.3, 19)
ordx= sort(x) # dados ordenados
summary(x) # resumo dos dados
xbar= mean(x) # média de X
var(x) # variância de X
sd(x) # desvio padrão de X
n=length(x) # tamanho da amostra
q=c(0, 0.05, 0.10, 0.25, 0.50, 0.75, 0.90, 0.95, 1) # para definir percentis de interesse
quantile(x, q)
Md=median(x) # mediana de X
hj=c(0,4,8,12,16,20) # vetor de limites de classes
hist(x, breaks=hj, xlim = range(hj), ylim = c(0,0.20) , main="", xlab="tempo de espera na fila (min)",
ylab="densidade", col="blue", probability=T)
##

Coeficiente de Assimetria de Pearson (ml )


Mede o grau de assimetria da distribuição de frequência em relação à uma distribuição de
frequência simétrica.
x − Mo
AX = ,
SX
sendo que CY , 0n e al representam, a moda, a média e o desvio-padrão amostrais da variável X .
Análise Exploratória de Dados 25

Se ml 0, a distribuição é simétrica.
Se ml > 0, a distribuição é assimétrica à direita.
Se ml < 0, a distribuição é assimétrica à esquerda.

Outros coeficientes de assimetria podem ser visto em DOANE & SEWARD (2011). As Figuras
2.16 e 2.17 mostram posições relativas entre a média moda e mediana, e alguns tipos de
histogramas, respectivamente.

FIGURA 2.16 - Posições relativas entre a média, mediana e moda numa população. Fonte: DOANE & SEWARD
(2011).

FIGURA 2.17 - Alguns histogramas com características importantes . Fonte: DOANE & SEWARD (2011).
Análise Exploratória de Dados 26

3. Dados Bivariados
Suponha que temos duas medidas x e y associadas com cada unidade amostral. Um dos
interesses é descobrir possíveis relações existentes entre as variáveis X e Y. Podemos, por exemplo
verificar a relação existente entre renda e nível de escolaridade ou entre a nota obtida em um teste e
o tempo de estudo.

3.1. VARIÁVEIS QUALITATIVAS BIVARIADAS


Podemos construir tabelas de frequência com dupla entrada. Essas tabelas de dados
classificados cruzados são conhecidas por tabelas de contingência.

Exemplo 3.1. Suponha que uma pesquisa de opinião foi conduzida entre 400 operários de uma
indústria metalúrgica. Cada operário foi consultado a respeito de uma possível greve a ser realizada
pelos operários da indústria. Cada operário apresentou a sua opinião (sim, indiferente ou não) e
também informou se pertence ou não ao sindicato local (ver Tabela 3.1). Portanto, as variáveis de
interesse neste caso são X = opinião e Y = situação sindical.

TABELA 3.1 - Pesquisa de Opinião.

X
Y
Sim Indiferente Não TOTAL
Sindicalizado 112 36 28 176
Não sindicalizado 84 68 72 224
TOTAL 196 104 100 400

Para verificarmos possíveis relações entre as duas variáveis categóricas X e Y podemos


construir uma tabela equivalente a Tabela 3.1 com as frequências relativas de cada categoria, ver
Tabela 3.2:

TABELA 3.2 - Frequências relativas.

X
Y
Sim Indiferente Não TOTAL
Sindicalizado 0,28 0,09 0,07 0,44
Não sindicalizado 0,21 0,17 0,18 0,56
TOTAL 0,49 0,26 0,25 1,00
Análise Exploratória de Dados 27

Outra possibilidade seria, com a finalidade de comparar os dois grupos de pessoas (176
sindicalizados e 224 não sindicalizados), verificar se as proporções em cada categoria são iguais
ou não. Para isso, podemos construir uma tabela de frequências relativas em relação aos totais
marginais considerando dois grupos de 176 e 224 indivíduos, ver Tabela 3.3:

TABELA 3.3 - Frequências relativas em relação aos totais marginais.

X
Y
Sim Indiferente Não TOTAL
Sindicalizado 0,636 0,205 0,159 1,000
Não sindicalizado 0,375 0,304 0,321 1,000

Note que na Tabela 3.3 a frequência relativa dos operários favoráveis à greve pertencentes
ao sindicato é dada por: 112/176 = 0,636.

3.2. VARIÁVEIS QUANTITATIVAS BIVARIADAS


Suponha que temos duas variáveis contínuas x e y medidas para cada unidade amostral.
Representaremos esse dados por n pares (x1 , y1) , ... , (xn , yn).
Podemos formular as seguintes questões:
(i) As variáveis são relacionadas?
(ii) Qual é a forma de relacionamento entre as duas variáveis?
(iii) Como podemos medir esta relação?
(iv) Como podemos prever uma variável a partir do conhecimento da outra variável?

Uma verificação visual do relacionamento entre as duas variáveis X e Y pode ser dada a
partir de um gráfico dos valores xi versus yi, , i = 1, ...,n. Este gráfico é chamado de diagrama de
dispersão e sua construção consiste na representação no plano cartesiano dos pares (x1 , y1) , ... , (xn ,
yn). Na Figura 3.1 temos um exemplo de um diagrama de dispersão.

Exemplo 3.2 – Os pares de medidas abaixo representam a temperatura (X) e a potência (Y) de 15
motores de mesmo tipo submetidos a um teste de laboratório numa fábrica de automóveis.

X 19, 15, 35, 52, 35, 33, 30, 57, 49, 26, 45, 39, 25, 40, 40
Y 1.2, 1.5, 1.5, 3.3, 2.5, 2.1, 2.5, 3.2, 2.8, 1.5, 2.2, 2.2, 1.9, 1.8, 2.8
Análise Exploratória de Dados 28

O gráfico dos valores observados de X versus Y é dado na Figura 3.1.

Figura 3.1 - Diagrama de dispersão da Temperatura e potência de 15 motores elétricos.

Com base na Figura 3.1 podemos observar uma possível relação linear entre X e Y .

COEFICIENTE DE CORRELAÇÃO AMOSTRAL


O coeficiente de correlação amostral O é uma medida da relação linear entre duas variáveis X
e Y, definida por:

∑ (x
i =1
i − x )( yi − y )
r= , (3.1)
(n − 1) S X SY

em que, -1 ≤ r ≤ 1 e S X e S Y são os desvios padrões das variáveis X e de Y, respectivamente.


O coeficiente de correlação amostral O pode ser escrito usando a covariância amostral
cov(x, y) entre as variáveis X e Y, definida por

∑ (x
i =1
i − x )( yi − y )
cov( x, y ) = .
n −1
Análise Exploratória de Dados 29

As Figuras 3.2a e 3.2b apresentam exemplos de diagramas de dispersão sugerindo diferentes


relações entre as variáveis X e Y e o valor do coeficiente de correlação O.

(a) (b)

y y
5 5
r = 0,9
r = -0,9

4 4

3 3

2 3 4 x 2 3 4 x

(c) (d)

y y
5 5
r = 0,5 r = - 0,5

4 4

3 3

2 3 4 x 2 3 4 x

FIGURA 3.2a - Alguns diagramas de dispersão que ilustram diferentes relações entre as variáveis X e Y.

(e) (f)

y y
5 5
r=0 r=0

4 4

3 3

2 3 4 x 2 3 4 x

FIGURA 3.2b - Alguns diagramas de dispersão que ilustram diferentes relações entre as variáveis X e Y.

Na interpretação dos valores de r temos:


Análise Exploratória de Dados 30

(i) r indica o grau de relação linear, enquanto o seu sinal indica a direção da relação linear.
(ii) Se r = 1, todos os pontos (x , y) estão na reta com inclinação positiva.
(iii) Se r = -1, todos os pontos (x , y) estão na reta com inclinação negativa.
(iv) Se r ≅ 0 não temos relação linear entre X e Y, mas podemos ter outro tipo de relação não-
linear, ver Figura 3.2b (f).

Quando os pontos estão agrupados em dois blocos, o coeficiente de correlação r não é


adequado para sugerir uma relação linear entre as variáveis (X, Y), ver Figura 3.3.

y
5

2 3 4
x

Figura 3.3 - Pares (x , y) agrupados em dois blocos.

3.3. REGRESSÃO LINEAR SIMPLES


O estudo experimental entre duas variáveis é frequentemente motivado pela necessidade de
achar o valor de previsão de uma variável a partir do valor da outra variável. Por exemplo,
considere as seguintes situações:
(i) Duração de um treinamento e o grau obtido por um aluno.
(ii) Taxa de desemprego e taxa de criminalidade.
(iii) Expectativa de vida e taxa de analfabetismo.

Seja X a variável preditora ou independente e seja Y a variável resposta ou dependente.


Para determinar uma possível relação linear entre as variáveis X e Y, seguimos o seguinte
procedimento:
(i) Fazer um diagrama de dispersão dos pontos (x , y).
Análise Exploratória de Dados 31

(ii) Se existir aproximadamente uma relação linear entre X e Y, podemos avaliar esta linearidade
calculando o coeficiente de correlação amostral r.
(iii) Determinar a reta que melhor se aproxima dos pontos observados.
Considere que a reta que se propõe ajustar seja dada por

yi = β 0 + β1 xi + ei (3.2)

Para o ajuste desta reta usamos o método de mínimos quadrados (MMQ), onde:
yi = i-ésima obs. da variável dependente,
xi = i-ésima obs. da variável independente,

ei = yi − yˆ i = i-ésimo valor do erro aleatório (resíduo),


β0 , β1 = parâmetros de regressão, nomeados de intercepto e coeficiente angular
respectivamente.
O método MMQ consiste em determinar os valores de β0 e β1 para os quais

n
S ( β 0 , β1 ) = ∑ ( yi − ( β 0 + β1 xi )) 2 (3.3)
i =1

é mínima. Para fazer isso, é preciso resolver o sistema de equações envolvendo as derivadas de
a(p' , p ), cuja solução pode ser vista em Bussab & Morettin (2009).
Considerando n observações bivariadas (x1 , y1), (x2 , y2), ... , (xn , yn), a equação ajustada
por mínimos quadrados é dada por:

yˆ = βˆ 0 + βˆ1 x (3.4)

em que, o coeficiente angular β̂1 e o intercepto β̂ 0 são dados respectivamente pelas equações

∑ (x
i =1
i − x )( yi − y )
β̂1 = n (3.5)
2
∑ (x
i =1
i − x)

βˆ 0 = y − βˆ1 x . (3.6)
Análise Exploratória de Dados 32

Exemplo 3.3 - Nota de uma prova em estatística e tempo de estudo.


As variáveis são:
• X = tempo de estudo (em horas);
• Y = nota da prova.

Considere os pares de observações (xi , yi):

Tempo (xi) 3.0, 7.0, 2.0, 1.5, 12.0


Nota (yi) 4.5, 6.5, 3.7, 4.0, 9.3

A Figura 3.4 apresenta o diagrama de dispersão e a reta de regressão ajustada.

Figura 3.4 - Gráfico da reta ajustada do Exemplo 3.3.

O coeficiente de correlação, de acordo com a expressão (3.1) e dado por,

r = r 2 = 0.992 = 0.996 .

A partir da reta ajustada yˆ = 2,9 + 0,5 x , ver Figura 3.4, podemos achar valores de previsão
de y a partir de valores atribuídos a x. Por exemplo, a previsão de y para x = 8 é dada por
yˆ (8) = 2,9 + 0,5 × 8 = 6,9 . Isto é, uma previsão da nota obtida para um aluno que estuda 8 horas é
yˆ = 6,9 .
Análise Exploratória de Dados 33

Análise de Resíduos (e = y − yˆ )
Para verificar a adequação do ajuste podemos construir os gráficos: resíduos versus variável
independente X , resíduos versus valor ajustado ŷ , resíduos padronizados versus valor ajustado ŷ .
Se os pontos estiverem aleatoriamente distribuídos em torno de zero, temos uma indicação
de que o modelo está bem ajustado. Resíduos padronizados ( esi ) fora do intervalo [−2, 2] são

denominados pontos aberrantes.

ei − µ e
e si = , i = 1, 2 , K , n .
σe

Figura 3.5 - Gráfico dos resíduos ei versus valores ajustados ŷi .

Análise gráfica dos resíduos padronizados:


Observe que os pontos ei na Figura 3.5 estão aleatoriamente distribuídos em torno de zero,
indicando adequação do modelo linear ajustado.
Análise Exploratória de Dados 34

Figura 3.6 - Gráfico dos resíduos esi versus valores ajustados ŷi .

Observe que os pontos esi na Figura 3.6 estão aleatoriamente distribuídos em torno de zero.
A presença de um ponto fora do intervalo [-2, 2] sugere que um modelo não-linear poderá explicar
melhor a variável nota do aluno (Y). Entretanto o tamanho da amostra n = 5 é pequeno para se
tomar qualquer conclusão segura.

rm(list ls(all TRUE)) # remove todas as variaveis


## Códigos em R para os dados do Exemplo 3.3.

x c(3,7,2,1.5,12) # para criar o vetor x


y c(4.5,6.5,3.7,4,9.3) # para criar o vetor y
n length(x) # comprimento do vetor x , n 5
fit.model lm(y ~ x); fit.model # regressao linear
## diagrama de dispersão e reta ajustada
plot(x,y)
abline(fit.model)
##
X <- model.matrix(fit.model)
n <- nrow(X)
p <- ncol(X)
H <- X%*%solve(t(X)%*%X)%*%t(X) ## ajuste solve(t(X)%*%X)%*%t(X)%*%y
h <- diag(H)
lms <- summary(fit.model)
s <- lms$sigma
r <- resid(lms)
ts <- r/(s*sqrt(1-h))
si <- lm.influence(fit.model)$sigma
Análise Exploratória de Dados 35

tsi <- r/(si*sqrt(1-h))


a <- max(tsi)
b <- min(tsi)
#
## diagrama de dispersão e reta ajustada
xr c(min(x),max(x))
betah solve(t(X)%*%X)%*%t(X)%*%y
yh betah[1]+ betah[2]*xr
plot(x,y,xlab "tempo de estudo", ylab "nota",pch 16)
lines(xr,yh, type "l", col "red")
# Gráfico dos resíduos
plot(fitted(fit.model),r,xlab "Valores Ajustados",
ylab "Residuos", ylim c(-0.3,0.3), pch 16)
#
plot(fitted(fit.model),tsi,xlab "Valores Ajustados",
ylab "Residuos Padronizados", ylim c(b-1,a+1), pch 16)
abline(2,0,lty 2)
abline(-2,0,lty 2)
#

Exemplo 1.2 revisitado – Tamanho da População (N). Considere uma população formada por um
conjunto de N táxis de uma cidade e que os táxis são enumerados de 1 a N. Para estimar o número N
de táxis da cidade, anotamos os números de todos os táxis que um turista pegou: 440, 73, 179, 405 e
280. Determine a probabilidade de o turista ter tomado os táxis que têm esses números e determine
o valor de N para o qual essa probabilidade é máxima.
Solução. Considere os eventos,
A = {o primeiro táxi tem número 440},
B = {o segundo táxi tem número 73}, e assim por diante.
Então,

P ( A ∩ B ∩ C ∩ D ∩ E ) = P ( A) P ( B | A) P (C | B ∩ A)
× P( D | A ∩ B ∩ C ) P( E | A ∩ B ∩ C ∩ D)
1 1 1 1 1 1
= = 5.
N N N N N N
A probabilidade de ocorrer o que efetivamente ocorreu, ˜(m ∩ š ∩ ∩ › ∩ œ) é chamada de
função de verossimilhança. Neste caso esta função é máxima quando N é mínimo. Ora, como
N ≥ 440 , o valor de N que torna máxima a verossimilhança é 440. A estimativa de máxima
verossimilhança de N é 440.
Análise Exploratória de Dados 36

Apresentamos uma introdução a teoria das probabilidades no Capítulo 4.

REFERÊNCIAS
BUSSAB, W. O.; MORETTIN, P. A. (2009). Estatística básica. Saraiva, São Paulo, 6ª Edição.

BOLFARINE, H., & DE OLIVEIRA BUSSAB, W. (2005). Elementos de amostragem (Vol. 1). São
Paulo: Edgard Blücher.

DOANE, D. P. ; SEWARD, L. E. (2011). Measuring Skewness: A Forgotten Statistic?. Journal of


Statistics Education, Vol. 19, Number 2.

HYNDMAN, R. J. (1995). The problem with Sturges’ rule for constructing histograms. Monash
University.

MAGALHÃES, M. N.; PEDROSO DE LIMA, A. C. (2010). Noções de probabilidade e estatística.


Edusp, São Paulo.

R Core Team (2013). R: A Language and Environment for Statistical Computing. R Foundation for
Statistical Computing, Vienna, Austria.

STURGES, H. A. (1926). The Choice of a Class Interval. Journal of the American Statistical
Association, Vol. 21, No. 153, pp. 65- 66.

WAND, M. P. (1997). Data-based choice of histogram bin width. The American Statistician Vol.
No. 1, 51, pp. 59-64.

Você também pode gostar