Escolar Documentos
Profissional Documentos
Cultura Documentos
1. Introdução
Definição 1.1: A Estatística é a ciência que tem como objetivo a obtenção, organização, análise e
interpretação de informações numéricas associadas a um determinado fenômeno. Além disso, a
proposição de modelos matemáticos para a análise de dados amostrais para fazer inferência sobre
uma população.
A Inferência estatística tem como objetivo fazer afirmações sobre uma população a partir de
uma amostra representativa. Estas afirmações são apresentadas juntamente com uma probabilidade
de erro.
• Variável: é aquilo que se deseja observar para se tirar algum tipo de informação, por ex.:
idade, peso, altura, sexo, renda, ..., tempo de vida de um paciente, opinião sobre a compra de
um produto.
• Dados: são observações de uma ou mais variáveis. O conjunto de dados provem de uma
amostra, a qual representa uma população de interesse.
A inferência estatística utiliza a teoria das probabilidades e os dados amostrais para tirar
conclusões sobre a população. Os Exemplos
E 1.1 e 1.2 a seguir ilustram esta situação.
situação
Exemplo 1.2 - Tamanho da População (N): Considere uma população formada por um conjunto de
N táxis de uma cidade e que os táxis são enumerados de 1 a N.. Para estimar o número N de táxis da
cidade, foi anotado os números de todos os táxis que um turista pegou: 440, 73, 179, 405 e 280.
280
Como devemos escolher uma estimativa para N?
Os dados ordenados podem ser representados por : (73, 179, 280, 405, 440).
Análise Exploratória de Dados 4
Estimativa de N pelo Método do Extremo: Uma estimativa é obtida somando o maior valor na
amostra (440) com a lacuna do menor valor (72). Ou seja, 440 + 72 512 .
Estimativa de N pela Média das Lacunas: Considere agora as lacunas observadas na amostra, isto é,
o nº de observações entre dois valores ordenados da amostra. Os tamanhos das lacunas observadas
são: 72, 105, 100, 124 e 34. A média das lacunas é dada por:
Como poderíamos selecionar o método de estimação a ser usado? Esta questão é tratada em
Inferência Estatística. A Estatística Descritiva, é o objeto de estudo dos Capítulos 2 e 3.
Análise Exploratória de Dados 5
2. Dados Univariados
A Estatística Descritiva reúne um conjunto de técnicas para resumir os dados em tabelas,
gráficos e medidas descritivas que permitem tirar informações contidas nos dados.
Num conjunto de dados podemos ter dois tipos de variáveis, as quantitativas e as
qualitativas.
Após a coleta dos dados e a construção de um banco de dados, como resumir e organizá-los
de uma maneira informativa? A resposta a esta questão é dada nas Seções 2.1 e 2.2.
TABELA 2.1 - Amostra aleatória de tamanho 20 de algumas variáveis coletadas numa pesquisa
com 93 estudantes da graduação em Matemática da UFMA em setembro de 2010.
Aluno P1 P2 P3 P7 P10B P24 P27
23 1 0 1 4 3 5 5
21 1 0 1 4 3 5 5
16 1 0 2 4 3 4 3
13 1 0 1 NA* 3 3 5
89 4 0 2 4 3 4 4
10 1 0 3 2 3 4 4
32 2 0 2 4 2 4 3
1 1 0 1 4 4 5 5
3 1 0 1 1 5 5 4
12 1 1 1 4 4 5 5
53 3 0 1 1 5 5 5
11 1 0 2 4 1 4 4
47 3 0 2 4 3 4 4
18 1 1 5 2 4 4 4
74 4 0 2 4 4 4 5
69 4 0 2 4 3 5 4
51 3 1 2 2 4 4 4
81 4 0 2 4 4 2 5
26 2 1 1 1 2 5 5
68 4 1 4 1 5 2 3
P1. Ano curricular que frequenta?, 1. 1º ano, 2. 2º ano, 3. 3º ano, 4. 4º ano.
P2. Sexo? 0. masculino, 1. feminino.
P3. Faixa etária?; 1. 17-20 anos, 2. 21-25 anos, 3. 26-30 anos, 4. 31-40 anos, 5. mais de 40 anos.
P7. Você tem domínio do idioma inglês ou outro idioma para a leitura?; 1. Inglês, 2. Espanhol, 3.Francês, 4.
Nenhum, 5. Outro.
P10B. Grau de satisfação em relação às bibliotecas central e setorial? 1. Sem opinião 2.Insatisfeito, 3. Regular, 4.
Bom, 5. Excelente.
P24. Seus professores demonstraram domínio atualizado das disciplinas ministradas? 5. Sim, todos; 4. Sim, a
maior parte deles; 3. Sim, mas apenas metade deles; 2. Sim, mas menos da metade deles; 1. Não, nenhum deles.
P27. Como você avalia a contribuição do Curso para sua formação? 5. Muito boa; 4. Boa; 3. Regular; 2. Fraca; 1.
Muito Fraca.
* NA: Não se aplica, não respondeu.
• A pesquisa teve por objetivo obter informações do perfil do aluno e sobre o grau de satisfação em relação aos
serviços educacionais oferecidos pela Instituição, Curso e administração acadêmica. O período de referência
o
considerado foi o 1 semestre de 2010. As entrevistas foram realizadas entre os dias 01, 02 e 03 de setembro
de 2010. Foi utilizada uma amostragem aleatória estratificada dos alunos levando-se em consideração o
período matriculado. A amostra final foi composta de 93 alunos. A tabulação dos dados foi feita no software
Excel. Para a elaboração dos gráficos e estatísticas descritivas, utilizamos o Excel e o software R (R
Development Core Team, 2013).
Análise Exploratória de Dados 7
Frequência simples
Categorias daVariável X absoluta relativa
⋮ ⋮ ⋮
⋮ ⋮ ⋮
" " "
TOTAL # 1,0
Geralmente os dados categóricos podem resumidos por uma tabela de frequncias, como mostra a
Tabela 2.2 , por gráficos em colunas, barras horizontais e em setores.
Exemplo 2.1 - Considere uma amostra aleatória de 16939 fontes bibliográficas da biblioteca da
Universidade de Illinois. Uma medida de desempenho utilizada na definição da qualidade da
biblioteca é a taxa de cobertura estimada na Tabela 2.2 pela percentagem de itens possuídos na
amostra. Os dados estão resumidos na Tabela 2.2 e Figuras 2.1 , 2.2 , 2.3 e 2.4.
Referências Bibliográficas
70,0%
13%
60,0%
62%
50,0%
40,0%
25% 30,0%
20,0%
10,0%
0,0%
Monografia Periódico Tese Monografia Periódico Tese
Figura 2.1 - Distribuição das referências bibliográficas Figura 2.2 - Distribuição das referências bibliográficas
da Universidade de Illinois - 1990. da Universidade de Illinois - 1990.
(%)
95
Tese
90
85
Periódico
80
75 Monografia
70
0 200 400 600 800 1000 1200 1400
Tese Periódico Monografia Possuídos Tamanho da amostra
Figura 2.3 - Estimativa da cobertura das referências Figura 2.4 - Amostras de referências bibliográficas da
bibliográficas da Universidade de Illinois - 1990. Universidade de Illinois - 1990.
Exemplo 2.2 - (a) Gráficos em colunas para as variáveis P1: ano curricular e P10B: grau de
satisfação em relação às bibliotecas central e setorial, respectivamente, apresentadas na Tabela 2.1.
Análise Exploratória de Dados 9
Figura 2.5 - Ano curricular frequentado pelos alunos da graduação em matemática da UFMA numa amostra aleatória
de tamanho 20 em setembro de 2010.
Figura 2.6 (a) - Grau de satisfação em relação às bibliotecas central e setorial dos alunos da graduação em matemática
da UFMA numa amostra aleatória de tamanho 20 em setembro de 2010.
Exemplo 2.2 - (b) Um exemplo de um gráfico em barras horizontais que é apropriado quando
temos muitas categorias é dado pela Figura 2.6 (b).
Análise Exploratória de Dados 10
Figura 2.6 (b) - Receita de alguns times de futebol com publicidade no ano de 2015.
Fonte: http://esporte.uol.com.br/futebol/ultimas-noticias/2016/07/21/palmeiras-passa-corinthians-e-fica-em-2-
em-receita-publicitaria-fla-e-1.htm
frequência de um val or x j
f rj = , j = 1,L , k . (2.2)
n o total de observaçõe s
Exemplo 2.3 - Os dados a seguir representam o número diário X de livros de estatística retirados em
uma biblioteca, em 30 dias do primeiro semestre do ano de 2015.
1 3 1 1 0 1 0 1 1 0 2 2 0 0 0
1 2 1 2 0 0 1 6 4 3 3 1 2 4 0
Análise Exploratória de Dados 11
Na Tabela 2.3 temos as frequências relativas (distribuição de frequências) para cada valor x.
A distribuição de frequências de uma variável discreta pode ser representada por gráficos em
colunas, bastões e gráficos de retângulos verticais (histogramas).
Nas Figura 2.7 e 2.8 temos, respectivamente, os gráfico em colunas e o histograma para a
distribuição de frequências dada na Tabela 2.3.
freqüência relativa
0,35 fr (%)
0,30
30
0,25
0,20
20
0,15
0,10 10
0,05
0,00 0
0 1 2 3 4 5 6 0 1 2 3 4 5 6
xi
número de livros retirados
Figura 2.7 - Gráfico em colunas da frequência Figura 2.8 - Histograma da distribuição de frequências
relativa do número diário de livros de estatística retirados. do número diário de livros de estatística retirados.
Exemplo 2.4 (a) - Os dados a seguir representam o tempo (em minutos) entre as chegadas de 10
usuários numa biblioteca: 4, 4, 6, 6, 7, 8, 14, 18, 20, 52.
Figura 2.9 (a) - Tempo (em minutos) entre as chegadas de 10 usuários numa biblioteca.
Na Figura 2.9 (b) temos uma reprodução obtida usando a linguagem R da Figura 2.9 (a). Os Códigos utilizados são:
Figura 2.9 (b) - Tempo (em minutos) entre as chegadas de 10 usuários numa biblioteca, via
linguagem R.
Exemplo 2.4 (b) - Considere os dados observados de 10 estudantes nas variáveis X e Y notas em
duas provas de Estatística.
X = 8, 8 ,9, 9, 9, 8, 9, 6, 5, 10
Y = 8, 8, 8, 8, 9, 7, 7, 7, 6,7
Na Figura 2.11 temos uma representação gráfica para os dados observados das variáveis X e Y.
Figura 2.11 - "Box-plot" para os dados observados das variáveis X e Y do Exemplo 2.4 (b).
Análise Exploratória de Dados 14
(i) Achar o mínimo e o máximo dos dados e determinar o número de classes (k), pela
regra de Sturges (Stuges, 1926; Hyndman, 1995),
k ≅ 1+ 3,322log10 n .
Observar que,
log n
k = 1 + log2 n = 1 + ≅ 1 + 3,322log10 n .
log 2
(ii) Escolher intervalos de classes comprimentos iguais (c) que incluam o mínimo e o
máximo da amostra:
x max − x min
c= .
k
(iii) Contar o número de observações que pertencem a cada intervalo de classe. Esses
números são as frequências das classes: f1 , f 2 L, f k .
% %
X absoluta relativa absoluta relativa
[&' , & ) % %
[& , & ) % %
⋮ ⋮ ⋮ ⋮ ⋮
[&"( , &" ) " " # 1
Total n 1
sendo que,
,, 1,2, ⋯ , .;
)*
+
% + + ⋯+ ;
% ,, 1,2, ⋯ , .;
/*
+
% + + ⋯+
ou
.
HISTOGRAMAS
Os Histogramas são representações gráficas das distribuições de frequências dadas por
retângulos. Cada retângulo tem largura igual ao comprimento do intervalo de classe e altura (h)
dada por
frequência relativa
h= . (2.4)
largura do intervalo de classe
Note que, dessa forma, a área total de um histograma é igual a 1. Se os intervalos de classe têm
comprimentos iguais a c, então temos que
fr j
h= , j = 1, L , k .
c
Exemplo 2. 5 - Os dados a seguir representam o tempo (em horas) da duração até falhar de 60 peças
fabricadas por uma máquina.
15.1, 16.4, 33.6, 36.5, 40.3, 45.4, 45.5, 47.3, 53.8, 57.7, 59.2, 62.8, 63.2, 64.7, 67.5, 72.7, 78.5,
80.1, 81.1, 81.6, 86.7, 89.3, 93.0, 93.7, 97.6, 100.8, 104.0, 105.1, 106.0, 118.3, 132.9, 133.4,
Análise Exploratória de Dados 16
137.9, 138.0, 163.3, 176.9, 182.7, 183.1, 184.9, 201.6, 228.2, 241.5, 243.0, 268.6, 272.9, 272.9,
272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9, 272.9
Figura 2.12 - Histograma do tempo (em horas) da duração até falhar de 60 peças fabricadas por uma
máquina e histograma alisado, área = 1.
Definição 2.1. MÉDIA AMOSTRAL (0) - Seja (0 , 0 , ⋯ , 0+ ) uma amostra de tamanho n de uma
variável ∈ ℝ. Então, a média amostral 0 da variável X é dada por
0̅
∑7
689 56
+
. (2.5)
0 + 0 + ⋯ + 0+ < #0,
(0 + 0 + ⋯ + 0+ ) < 0 ,
+
∑x
j =1
j fj
x= k , (2.6)
∑ j=1 f j
k
sendo que x j é o ponto médio da classe j e ∑ fj = n.
0F7G9I , se # é LM NO.
CD ( ) E0F7HI + 0F7HP Q
H
I
, se # é NO.
2
Exemplo. (a) n é ímpar. A mediana da amostra: (3, 2, 12, 8, 1, 5, 9) da variável X é 5. Note que
este é o valor central da amostra ordenada (1, 2, 3, 5, 8, 9, 12).
(b) n é par. A mediana da amostra (2, 2, 3, 8, 10, 215) é dada por (3 + 8)/2 = 5,5. Note que,
n = 6. A média amostral é dada por (2 + ⋯ + 215)/6 40. Além disso, a observação 215 é muito
discrepante, causando um aumento considerável na média amostral.
Exemplo 2.6 (a) - Seja (3, 3, 2, 3, 8, 7, 7, 9, 13, 5) uma amostra de tamanho 10 de uma variável X
representando o tempo em minutos de clientes esperando atendimento numa fila de um
supermercado A . Então, Mo(X) = 3 min. Significa que o valor 3 possui a maior frequência
obsevada ( ).
+ 2, 2, 1, 13, 4, 3, 4, 4, 12, 7, 7, 3, 0, 5, 3, 4, 5, 2, 4,
+ 10, 5, 9, 4, 1, 2, 5, 2, 2, 2, 1, 2, 7) ## dados do ex. 2.6b
> summary(y)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.0 2.0 3.0 4.1 5.0 13.0
> library(fBasics) ## carregar pacote
> basicStats(y, ci=0.95)
y
nobs 50.000000
NAs 0.000000
Minimum 0.000000
Maximum 13.000000
1. Quartile 2.000000
3. Quartile 5.000000
Mean 4.100000
Median 3.000000
Sum 205.000000
SE Mean 0.451980
LCL Mean 3.191713
UCL Mean 5.008287
Variance 10.214286
Stdev 3.195980
Skewness 1.252763
Kurtosis 0.952214
> hist(y, main="", xlab="tempo de espera na fila (min)",
+ col="lightblue", ylab="número de clientes")
Figura 2.13 - Histograma para amostra observada da variável Y do Exemplo 2.6 (b).
Análise Exploratória de Dados 20
% ({ ≤ 0U })
+úWX Y DX Z[\Y X] ^ 5_
+
. (2.7)
Graficamente, a percentagem de usuários que esperam entre a e b minutos é dada pela área
sombreada no histograma alisado da Figura 2.14
Figura 2.14 - Fr ( a ≤ X ≤ b ) .
Note que,
Fr ( a ≤ X ≤ b ) = Fr ( X ≤ b ) − Fr ( X ≤ a ) ,
Nem sempre, as medidas de tendência central, a média por ex., fornecem informações
suficientes sobre o comportamento de uma variável X. Outras medidas podem se fazer necessárias,
como, as medidas de dispersão dessa variável.
MEDIDAS DE DISPERSÃO
Além das medidas de centralidade ou locação, é importante conhecer a dispersão ou
variabilidade dos dados. Suponha que os salários dos empregados de uma empresa estejam
concentrados em dois grupos: grupo 1 com salários em torno de 10000 reais e grupo 2 com salários
em torno de 800 reais. Não seria suficiente informar que a média de salários da empresa é de
aproximadamente 5000 reais. Este caso ilustra a importância das medidas de dispersão para
melhorar a comparação entre duas ou mais variáveis. As principais medidas de dispersão que
iremos estudar nesta seção são a variância, o desvio-padrão e o coeficiente de variação.
variável X tamanho n. Então, o i-ésimo desvio em relação à média amostral x é dado por:
DESVIO (di) em relação à média: Considere uma amostra observada (x1 , x2 , ... , xn) de uma
d i = xi − x , (2.9)
onde, i = 1, 2, ... , n.
n n
Podemos mostrar que ∑ d = ∑ (x
i =1
i
i =1
i − x) = 0 .
VARIÂNCIA AMOSTRAL: Considere n valores, (x1 , x2 , ... , xn), amostra observada de uma
variável X. Um estimador da variância populacional σ 2 é a variância amostral a , definida por
1
+
a b(0c 0̅ ) (2.10)
# 1
cd
1
+
ef b(0c 0̅ ) .
#
cd
Análise Exploratória de Dados 22
DESVIO PADRÃO AMOSTRAL: é definido como a raiz quadrada da variância amostral (a).
1
+
a g b(0c 0̅ ) . (2.11)
# 1
cd
É importante ressaltar que o desvio padrão é uma medida de dispersão que está na mesma
escala dos dados.
equação (2.12).
As equações (2.10), (2.11) e (2.12) podem ser facilmente adaptadas para dados agrupados.
1
"
a b(0 0̅ ) ,
# 1
d
Exemplo 2.7 - Considere uma amostra aleatória (a.a.) de tamanho 21 do tempo de espera X (em
minutos) dos usuários numa fila de uma biblioteca:
X = (2.0, 5.0, 4.8, 3.5, 2.4, 8.0, 17, 3.0, 1.5, 1.2, 1.4, 2.8, 3.1, 1.7, 1.8, 2.4, 16, 15, 1.4, 1.3, 19).
(1.2, 1.3, 1.4, 1.4, 1.5, 1.7, 1.8, 2.0, 2.4, 2.4, 2.8, 3.0, 3.1, 3.5, 4.8, 5.0, 8.0, 15.0, 16.0, 17.0, 19.0).
Algumas estatísticas para os dados da Tabela 2.5 calculadas no software R são dadas por
21
x=
∑ i =1
xi
= 5.4428 min. , mediana = 2.8 min.
21
Então, o valor x para o qual 90% dos valores amostrais são menores ou iguais a x é 16.0.
Observe que pela definição de percentis,
Fr(X < 16.0) = 90% ,
sendo que, Fr é chamada de frequência relativa acumulada do tempo de espera.
Se ml 0, a distribuição é simétrica.
Se ml > 0, a distribuição é assimétrica à direita.
Se ml < 0, a distribuição é assimétrica à esquerda.
Outros coeficientes de assimetria podem ser visto em DOANE & SEWARD (2011). As Figuras
2.16 e 2.17 mostram posições relativas entre a média moda e mediana, e alguns tipos de
histogramas, respectivamente.
FIGURA 2.16 - Posições relativas entre a média, mediana e moda numa população. Fonte: DOANE & SEWARD
(2011).
FIGURA 2.17 - Alguns histogramas com características importantes . Fonte: DOANE & SEWARD (2011).
Análise Exploratória de Dados 26
3. Dados Bivariados
Suponha que temos duas medidas x e y associadas com cada unidade amostral. Um dos
interesses é descobrir possíveis relações existentes entre as variáveis X e Y. Podemos, por exemplo
verificar a relação existente entre renda e nível de escolaridade ou entre a nota obtida em um teste e
o tempo de estudo.
Exemplo 3.1. Suponha que uma pesquisa de opinião foi conduzida entre 400 operários de uma
indústria metalúrgica. Cada operário foi consultado a respeito de uma possível greve a ser realizada
pelos operários da indústria. Cada operário apresentou a sua opinião (sim, indiferente ou não) e
também informou se pertence ou não ao sindicato local (ver Tabela 3.1). Portanto, as variáveis de
interesse neste caso são X = opinião e Y = situação sindical.
X
Y
Sim Indiferente Não TOTAL
Sindicalizado 112 36 28 176
Não sindicalizado 84 68 72 224
TOTAL 196 104 100 400
X
Y
Sim Indiferente Não TOTAL
Sindicalizado 0,28 0,09 0,07 0,44
Não sindicalizado 0,21 0,17 0,18 0,56
TOTAL 0,49 0,26 0,25 1,00
Análise Exploratória de Dados 27
Outra possibilidade seria, com a finalidade de comparar os dois grupos de pessoas (176
sindicalizados e 224 não sindicalizados), verificar se as proporções em cada categoria são iguais
ou não. Para isso, podemos construir uma tabela de frequências relativas em relação aos totais
marginais considerando dois grupos de 176 e 224 indivíduos, ver Tabela 3.3:
X
Y
Sim Indiferente Não TOTAL
Sindicalizado 0,636 0,205 0,159 1,000
Não sindicalizado 0,375 0,304 0,321 1,000
Note que na Tabela 3.3 a frequência relativa dos operários favoráveis à greve pertencentes
ao sindicato é dada por: 112/176 = 0,636.
Uma verificação visual do relacionamento entre as duas variáveis X e Y pode ser dada a
partir de um gráfico dos valores xi versus yi, , i = 1, ...,n. Este gráfico é chamado de diagrama de
dispersão e sua construção consiste na representação no plano cartesiano dos pares (x1 , y1) , ... , (xn ,
yn). Na Figura 3.1 temos um exemplo de um diagrama de dispersão.
Exemplo 3.2 – Os pares de medidas abaixo representam a temperatura (X) e a potência (Y) de 15
motores de mesmo tipo submetidos a um teste de laboratório numa fábrica de automóveis.
X 19, 15, 35, 52, 35, 33, 30, 57, 49, 26, 45, 39, 25, 40, 40
Y 1.2, 1.5, 1.5, 3.3, 2.5, 2.1, 2.5, 3.2, 2.8, 1.5, 2.2, 2.2, 1.9, 1.8, 2.8
Análise Exploratória de Dados 28
Com base na Figura 3.1 podemos observar uma possível relação linear entre X e Y .
∑ (x
i =1
i − x )( yi − y )
r= , (3.1)
(n − 1) S X SY
∑ (x
i =1
i − x )( yi − y )
cov( x, y ) = .
n −1
Análise Exploratória de Dados 29
(a) (b)
y y
5 5
r = 0,9
r = -0,9
4 4
3 3
2 3 4 x 2 3 4 x
(c) (d)
y y
5 5
r = 0,5 r = - 0,5
4 4
3 3
2 3 4 x 2 3 4 x
FIGURA 3.2a - Alguns diagramas de dispersão que ilustram diferentes relações entre as variáveis X e Y.
(e) (f)
y y
5 5
r=0 r=0
4 4
3 3
2 3 4 x 2 3 4 x
FIGURA 3.2b - Alguns diagramas de dispersão que ilustram diferentes relações entre as variáveis X e Y.
(i) r indica o grau de relação linear, enquanto o seu sinal indica a direção da relação linear.
(ii) Se r = 1, todos os pontos (x , y) estão na reta com inclinação positiva.
(iii) Se r = -1, todos os pontos (x , y) estão na reta com inclinação negativa.
(iv) Se r ≅ 0 não temos relação linear entre X e Y, mas podemos ter outro tipo de relação não-
linear, ver Figura 3.2b (f).
y
5
2 3 4
x
(ii) Se existir aproximadamente uma relação linear entre X e Y, podemos avaliar esta linearidade
calculando o coeficiente de correlação amostral r.
(iii) Determinar a reta que melhor se aproxima dos pontos observados.
Considere que a reta que se propõe ajustar seja dada por
yi = β 0 + β1 xi + ei (3.2)
Para o ajuste desta reta usamos o método de mínimos quadrados (MMQ), onde:
yi = i-ésima obs. da variável dependente,
xi = i-ésima obs. da variável independente,
n
S ( β 0 , β1 ) = ∑ ( yi − ( β 0 + β1 xi )) 2 (3.3)
i =1
é mínima. Para fazer isso, é preciso resolver o sistema de equações envolvendo as derivadas de
a(p' , p ), cuja solução pode ser vista em Bussab & Morettin (2009).
Considerando n observações bivariadas (x1 , y1), (x2 , y2), ... , (xn , yn), a equação ajustada
por mínimos quadrados é dada por:
yˆ = βˆ 0 + βˆ1 x (3.4)
em que, o coeficiente angular β̂1 e o intercepto β̂ 0 são dados respectivamente pelas equações
∑ (x
i =1
i − x )( yi − y )
β̂1 = n (3.5)
2
∑ (x
i =1
i − x)
βˆ 0 = y − βˆ1 x . (3.6)
Análise Exploratória de Dados 32
r = r 2 = 0.992 = 0.996 .
A partir da reta ajustada yˆ = 2,9 + 0,5 x , ver Figura 3.4, podemos achar valores de previsão
de y a partir de valores atribuídos a x. Por exemplo, a previsão de y para x = 8 é dada por
yˆ (8) = 2,9 + 0,5 × 8 = 6,9 . Isto é, uma previsão da nota obtida para um aluno que estuda 8 horas é
yˆ = 6,9 .
Análise Exploratória de Dados 33
Análise de Resíduos (e = y − yˆ )
Para verificar a adequação do ajuste podemos construir os gráficos: resíduos versus variável
independente X , resíduos versus valor ajustado ŷ , resíduos padronizados versus valor ajustado ŷ .
Se os pontos estiverem aleatoriamente distribuídos em torno de zero, temos uma indicação
de que o modelo está bem ajustado. Resíduos padronizados ( esi ) fora do intervalo [−2, 2] são
ei − µ e
e si = , i = 1, 2 , K , n .
σe
Figura 3.6 - Gráfico dos resíduos esi versus valores ajustados ŷi .
Observe que os pontos esi na Figura 3.6 estão aleatoriamente distribuídos em torno de zero.
A presença de um ponto fora do intervalo [-2, 2] sugere que um modelo não-linear poderá explicar
melhor a variável nota do aluno (Y). Entretanto o tamanho da amostra n = 5 é pequeno para se
tomar qualquer conclusão segura.
Exemplo 1.2 revisitado – Tamanho da População (N). Considere uma população formada por um
conjunto de N táxis de uma cidade e que os táxis são enumerados de 1 a N. Para estimar o número N
de táxis da cidade, anotamos os números de todos os táxis que um turista pegou: 440, 73, 179, 405 e
280. Determine a probabilidade de o turista ter tomado os táxis que têm esses números e determine
o valor de N para o qual essa probabilidade é máxima.
Solução. Considere os eventos,
A = {o primeiro táxi tem número 440},
B = {o segundo táxi tem número 73}, e assim por diante.
Então,
P ( A ∩ B ∩ C ∩ D ∩ E ) = P ( A) P ( B | A) P (C | B ∩ A)
× P( D | A ∩ B ∩ C ) P( E | A ∩ B ∩ C ∩ D)
1 1 1 1 1 1
= = 5.
N N N N N N
A probabilidade de ocorrer o que efetivamente ocorreu, ˜(m ∩ š ∩ ∩ › ∩ œ) é chamada de
função de verossimilhança. Neste caso esta função é máxima quando N é mínimo. Ora, como
N ≥ 440 , o valor de N que torna máxima a verossimilhança é 440. A estimativa de máxima
verossimilhança de N é 440.
Análise Exploratória de Dados 36
REFERÊNCIAS
BUSSAB, W. O.; MORETTIN, P. A. (2009). Estatística básica. Saraiva, São Paulo, 6ª Edição.
BOLFARINE, H., & DE OLIVEIRA BUSSAB, W. (2005). Elementos de amostragem (Vol. 1). São
Paulo: Edgard Blücher.
HYNDMAN, R. J. (1995). The problem with Sturges’ rule for constructing histograms. Monash
University.
R Core Team (2013). R: A Language and Environment for Statistical Computing. R Foundation for
Statistical Computing, Vienna, Austria.
STURGES, H. A. (1926). The Choice of a Class Interval. Journal of the American Statistical
Association, Vol. 21, No. 153, pp. 65- 66.
WAND, M. P. (1997). Data-based choice of histogram bin width. The American Statistician Vol.
No. 1, 51, pp. 59-64.