Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatstica (2010/2011)
Slides de apoio ` as Aulas
Estatstica (2010/2011)
Manuela Neves/ISA - 2010/2011 2 / 46
Docentes:
Manuela Neves (manela@isa.utl.pt)(respons avel)
Fernanda Valente (fvalente@isa.utl.pt)
Maria Emlia Pinto (mila@isa.utl.pt)
Maria Jo ao Martins (mjmartins@isa.utl.pt)
Marta Mesquita (martaoliv@isa.utl.pt)
O que e a Estatstica ?
Manuela Neves/ISA - 2010/2011 3 / 46
de sementes germinadas;
i
.
frequ encia absoluta;
)
.
=
n
n
frequ encia relativa;
1
.
frequ encia relativa acumulada
Descric ao dos dados por tabelas
Manuela Neves/ISA - 2010/2011 14 / 46
Exemplo 2.
Um dos principais indicadores da poluic ao atmosf erica nas grandes
cidades e a concentrac ao de ozono na atmosfera. Num dado Ver ao
registou-se 78 valores dessa concentrac ao, numa dada cidade:
3.5 6.2 3.0 3.1 5.1 6.0 7.6 7.4 3.7 2.8 3.4 3.5
1.4 5.7 1.7 4.4 6.2 4.4 3.8 5.5 4.4 2.5 11.7 4.1
6.8 9.4 1.1 6.6 3.1 4.7 4.5 5.8 4.7 3.7 6.6 6.7
2.4 6.8 7.5 5.4 5.8 5.6 4.2 5.9 3.0 3.3 4.1 3.9
6.8 6.6 5.8 5.6 4.7 6.0 5.4 1.6 6.0 9.4 6.6 6.1
5.5 2.5 3.4 5.3 5.7 5.8 6.5 1.4 1.4 5.3 3.7 8.1
2.0 6.2 5.6 4.0 7.6 4.7
Agora s ao dados de natureza contnua
Descric ao dos dados por tabelas
Manuela Neves/ISA - 2010/2011 15 / 46
Para dados de natureza contnua - como e este caso - (ou quando
temos dados de natureza discreta com um elevado n umero de valores
distintos) elabora-se a tabela de frequ encias procedendo assim:
q Determina-se max(r
i
) e min(r
i
),
max(r
i
) min(r
i
) amplitude total.
q Escolhe-se um n umero de subintervalos classes
q Para cada classe calcula-se a frequ encia absoluta, n
i
e a frequ encia relativa, )
i
Exemplo de uma regra para escolha do n umero de classes:
Regra de Sturges toma-se como n umero de classes
o inteiro n mais pr oximo de 1 + (log
2
n) = 1 +
log
10
u
log
10
2
Descric ao dos dados por tabelas
Manuela Neves/ISA - 2010/2011 16 / 46
Voltemos ao exemplo: :in(r
i
) = 1.1 :or(r
i
) = 11.7
Pela regra de Sturges : 7.285 considere-se : = 7
amplitude das classes = 1.51 considere-se = 1.5
(veremos que, com esta escolha, ser a necess ario considerar 8 classes para se inclurem todas as
observac oes)
Uma tabela de frequ encias possvel e:
c
.
a
.
i
.
)
.
1
.
]1.0, 2.5] 1.75 10 0.128 0.128
]2.5, 4.0] 3.25 16 0.205 0.333
]4.0, 5.5] 4.75 18 0.231 0.564
]5.5, 7.0] 6.25 26 0.333 0.897
]7.0, 8.5] 7.75 5 0.064 0.962
]8.5, 10.0] 9.25 2 0.026 0.987
]10.0, 11.5] 10.75 0 0.00 0.987
]11.5, 13.0] 12.25 1 0.013 1
a
.
ponto m edio da classe c
.
M etodos gr acos
Manuela Neves/ISA - 2010/2011 17 / 46
M etodos gr acos usados para representar um conjunto de dados
dois dos principais s ao:
q o diagrama de barras para dados de natureza discreta, com
um n umero pequeno de valores distintos e
q o histogramapara dados de natureza contnua, ou quando o
n
o
de valores distintos e muito elevado.
0 1 2 3 4 5
0
2
4
6
8
1
0
1
4
0
5
1
0
1
5
2
0
2
5
Diagrama de barras (exemplo 1) e histograma (exemplo 2) das frequ encias absolutas
Indicadores num ericos
Manuela Neves/ISA - 2010/2011 18 / 46
As tabelas e gr acos constituem um primeiro conjunto de ferramentas
usadas pela Estatstica Descritiva para resumir e descrever um conjunto
de dados
Outro conjunto de ferramentas que permite caracterizar um conjunto de
dados e constitudo pelos indicadores num ericos tamb em chamados
indicadores amostrais. Falaremos nas:
q medidas de localizac ao e
q medidas de dispers ao.
Medidas de localizac ao que iremos estudar:
m edia, mediana, quantis e moda
A m edia. Propriedades
Manuela Neves/ISA - 2010/2011 19 / 46
Considere-se r
1
, r
2
, , r
a
, uma amostra de n observac oes.
Denic ao Chama-se m edia aritm etica, m edia emprica ou
simplesmente m edia e representa-se por a a
r =
a
1
+a
2
+a
3
++a
n
a
=
n
.=1
a
.
a
Propriedades da m edia
q Sejam r
1
, r
2
, ..., r
a
observac oes cuja m edia e r e considere-se
j
i
= o + /r
i
, . = 1, ..., n.
As observac oes transformadas j
1
, j
2
, ..., j
a
t em m edia
j = o + /r.
q Se r
1
, ..., r
a
s ao n observac oes de m edia r e
j
1
, ..., j
n
s ao : observac oes de m edia j,
a m edia das n + : observac oes e dada por
n r + : j
n + :
.
A mediana e a moda
Manuela Neves/ISA - 2010/2011 20 / 46
Denic ao A mediana e o valor que divide a amostra ordenada em duas
partes iguais (i.e., com o mesmo n umero de observac oes cada).
Dada a amostra r
1
, ..., r
a
, seja r
(1)
... r
(a)
a amostra ordenada.
A mediana e dada por:
=
(
+1
2
)
u mpar
(/2)
+
(/2+1)
2
u par
Denic ao A moda, no, e a observac ao mais frequente (se existir).
Caso discreto e a observac ao que tem maior frequ encia.
Caso contnuo s o faz sentido denir-se sobre dados agrupados e
um valor da classe que tem maior frequ encia ( ver medidas para dados
agrupados)
Os quantis empricos
Manuela Neves/ISA - 2010/2011 21 / 46
Se considerarmos a amostra ordenada dividida em quatro partes, cada
uma com o mesmo n umero de observac oes, os pontos da divis ao
chamam-se quartis empricos ou apenas quartis e costumam
representar-se por Q
1
, Q
2
e Q
3
.
E claro que Q
2
r.
Generalizac ao do conceito de quartil
Denic ao Chama-se quantil de ordem 0, (0 0 1), o valor Q
0
tal que h a
uma proporc ao 0 de observac oes inferiores ou iguais a Q
0
e uma
proporc ao (1 0) de observac oes maiores ou iguais a esse valor. Uma
f ormula de c alculo pode ser
Q
0
=
a
(n 0)
+ a
(n 0+1)
2
se a 0 inteiro
a
([n 0]+1)
se a 0 n ao inteiro
onde [a 0] designa o maior inteiro contido em a 0.
Nota: Q
0.25
Q
1
; Q
0.5
Q
2
e Q
0.75
Q
3
Medidas de localizac ao dados agrupados
Manuela Neves/ISA - 2010/2011 22 / 46
Dados agrupados em c (c < n) classes (ou grupos). Sejam
r
1
, r
2
, ..., r
c
pontos m edios de cada classe (ou valores de cada grupo);
n
1
, n
2
, ..., n
c
as frequ encias absolutas de cada classe (ou grupo)
M edia agrupada =
a =
a
1
a
1
+a
2
a
2
++a
c
a
c
a
=
c
.=1
a
.
a
.
a
Moda amostral para dados agrupados:
1
o
determina-se a classe modal classe com maior frequ encia.
2
o
de v arias f ormulas que existem, vamos aqui considerar:
no r
nia
I
+
)
I+1
)
I1
+)
I+1
sendo I a classe modal; )
I1
e )
I+1
a frequ encia relativa da classe anterior e posterior ` a
classe modal, respectivamente, a
r.n
I
limite inferior da classe I e amplitude da
classe I.
Medidas de localizac ao dados agrupados
Manuela Neves/ISA - 2010/2011 23 / 46
Quantil de ordem 0 :
q Identica-se a primeira classe cuja frequ encia relativa acumulada
seja superior ou igual a 0 seja / essa classe e 1
I
a frequ encia
relativa acumulada correspondente.
q Uma das f ormulas usadas para determinar o quantil de ordem 0 e:
Q
0
r
nia
I
+
0 1
I1
)
I
com 1
I1
frequ encia relativa acumulada da classe anterior ` a
classe /
Nota: A mediana para dados agrupados obt em-se considerando na
f ormula acima 0 = 0.5.
Indicadores de dispers ao
Manuela Neves/ISA - 2010/2011 24 / 46
q Amplitude total
|c|
= :or(r
i
) :in(r
i
)
q Amplitude inter-quartil 1Q = Q
3
Q
1
.
q Vari ancia
1
s
2
= s
2
=
a
i=1
(r
i
r)
2
n 1
q Desvio padr ao s
= s=
Vari ancia
Outra f ormula de c alculo da vari ancia: :
2
=
n
r
2
i
(
r
i
)
2
n(n 1)
Uma medida de dispers ao relativa (as acabadas de indicar s ao medidas de dispers ao
absolutas) e o coeciente de variac ao que s o se calcula quando as observac oes
t em todas o mesmo sinal. Permite a comparac ao entre distribuic oes e dene-se como :
CV =
:
r
100%
1
Vamos considerar esta denic ao de vari ancia
Vari ancia e desvio padr ao
Manuela Neves/ISA - 2010/2011 25 / 46
Propriedades
q :
2
a
0
q Sejam r
1
, ..., r
a
, observac oes com vari ancia :
2
a
considere-se j
i
= o + /r
i
, i = 1, ..., n.
As observac oes transformadas t em como vari ancia
:
2
= /
2
:
2
a
.
Para o desvio padr ao tem-se :
= /:
a
.
Dados agrupados em c classes - a vari ancia calcula-se:
c
i=1
n
i
r
2
i
n
r
2
A caixa de bigodes
Manuela Neves/ISA - 2010/2011 26 / 46
Um modo gr aco que permite facilmente interpretar a localizac ao e a
dispers ao de um conjunto de dados, efectuando em simult aneo a sua
sntese o diagrama de extremos e quartis.
Se nesse gr aco identicarmos as observac oes que se afastam do
padr ao geral dos dados (candidatos a outliers) e h abito design a-lo por
caixa de bigodes. Existem v arios crit erios para classicar uma
observac ao como um outlier , vamos considerar:
Denic ao Um valor r
i
e um candidato a outlier se
r
i
< 1
1
ou r
i
1
S
sendo 1
1
barreira inferior e 1
S
barreira superior denidas como:
1
1
= Q
1
1.5(Q
3
Q
1
) 1
S
= Q
3
+ 1.5(Q
3
Q
1
)
A caixa de bigodes
Manuela Neves/ISA - 2010/2011 27 / 46
Como desenhar uma caixa de bigodes?
Marcar o valor adjacente inferior e o menor valor do conjunto dos
dados (podendo ser o mnimo) maior ou igual ` a barreira inferior;
Marcar o valor adjacente superior e o maior valor do conjunto dos
dados (podendo ser o m aximo) menor ou igual ` a barreira superior.
Marcar a mediana, primeiro e terceiro quartis (que v ao permitir
desenhar uma caixa) e marcar os candidatos a outliers
Ver o seguinte exemplo:
Exemplo Caixa de bigodes referente os dados do exemplo 2.
2 4 6 8 10 12
Caixas de bigodes paralelas
Manuela Neves/ISA - 2010/2011 28 / 46
Quando se pretende comparar v arias amostras, o recurso a caixas de
bigodes paralelas e uma ferramenta muito util, permitindo de forma f acil
obter uma primeira interpretac ao e comparac ao dos conjuntos de dados.
Exemplo As seguintes caixas de bigodes referem-se a um conjunto de
dados InsectsSprays disponveis no package datasets do R. S ao
contagens de insectos em unidades agrcolas experimentais, ` as quais
foram aplicados 6 tipos de insecticidas.
Refer encia: Beall, G., (1942) The Transformation of data from entomological eld
experiments, Biometrika, 29, 243;262.
Caixas de bigodes paralelas
Manuela Neves/ISA - 2010/2011 29 / 46
A B C D E F
0
5
1
0
1
5
2
0
2
5
InsectSprays data
Type of spray
I
n
s
e
c
t
c
o
u
n
t
Estatstica descritiva a duas dimens oes
Manuela Neves/ISA - 2010/2011 30 / 46
Nas aulas anteriores, em cada unidade estatstica, estud amos uma unica
vari avel. Muitas vezes, por em, interessa registar os valores de mais do
que uma vari avel e procurar a exist encia de alguma relac ao entre as
vari aveis. Vamos tratar neste curso o caso de duas vari aveis
observadas na unidade estatstica.
Exemplo Peso e altura de uma pessoa; Comprimento e largura das
folhas de uma esp ecie vegetal, etc.
Consideremos o seguinte exemplo, retirado de Estatstica, Teoria e
M etodos, Pierre Dagnielie, 1
o
volume (1973).
Exemplo Foram registados os pesos das folhas e das razes de 1000
p es de Cichorium intybus, sendo os valores dos pesos das folhas e das
razes agrupados em classes de 80 g e 40 g, respectivamente.
Exemplo (cont.)
Manuela Neves/ISA - 2010/2011 31 / 46
Construu-se ent ao o seguinte quadro de correlac ao, quadro de dupla
entrada ou tabela de conting encia.
Razes 40 80 120 160 200 240 280 320
Folhas 79 119 159 199 239 279 319 359
0 79 2 2
80 159 49 46 5 2 102
160 239 86 137 46 11 280
240 319 27 153 89 25 7 301
320 399 5 45 91 40 6 187
400 479 10 33 21 16 1 1 82
480 559 1 4 11 10 3 29
560 639 2 1 2 4 1 10
640 719 1 3 2 6
720 799 1 1
Totais 169 392 270 112 42 11 3 1 1000
Estatstica Descritiva a duas dimens oes
Manuela Neves/ISA - 2010/2011 32 / 46
Objectivos Estudo em simult aneo de duas s eries de observac oes, pondo
em evid encia relac oes existentes entre elas.
N ao s ao relac oes determinsticas que interessam ` a Estatstica, mas e o
comportamento em m edia (relac ao estatstica) das duas caractersticas.
Se duas vari aveis est ao ligadas por uma relac ao estatstica diz-se haver
correlac ao entre elas.
Correlac ao positiva se as duas caractersticas variam no mesmo sentido
e negativa caso contr ario.
Tabelas e representac ao gr aca
Manuela Neves/ISA - 2010/2011 33 / 46
Sejam (r
1
, j
1
), (r
2
, j
2
), ..., (r
a
, j
a
) observac oes efectuadas em n
unidades estatsticas.
Para o estudo das caractersticas e pesquisa de exist encia de relac ao
entre as vari aveis:
elaborac ao de tabelas; representac ao gr aca e c alculo de
indicadores.
q Se n e grande e util considerar uma tabela de conting encia (como
no exemplo do wideslide 29).
q Se n n ao for muito elevado, as observac oes podem representar-se
gracamente num diagrama de dispers ao (scatterplot ) ou nuvem
de pontos (aqui cada par observado (r
i
, j
i
) e marcado num
sistema de eixos cartesianos).
Tabela de conting encia
Manuela Neves/ISA - 2010/2011 34 / 46
j
1
j
2
... j
q
a
1
i
11
i
12
... i
1q
i
1.
a
2
i
21
i
22
... i
2q
i
2.
. . . . . .
. . . . . .
. . . . . .
a
i
1
i
2
... i
q
i
.
i
.1
i
.2
... i
.q
i
n
I
n umero de indivduos para os quais foi observado o par (r
i
, j
)
).
n
I.
=
q
=1
n
I
e n
.
=
I=1
n
I
frequ encias marginais
de r e j, respectivamente.
Nuvem de pontos
Manuela Neves/ISA - 2010/2011 35 / 46
Exemplo Pretende-se estudar o efeito da aplicac ao de diferentes
quantidades de um dado fertilizante (r) na produc ao de relva (j). A relva
e semeada uniformemente numa dada area na qual s ao marcados ao
acaso 10 talh oes de 1 m
2
, a cada um dos quais e aplicada uma certa
quantidade de fertilizante. A relva e depois cortada, seca e pesada sendo
os dados obtidos e a nuvem de pontos correspondente:
50 100 150 200 250
1
0
0
1
5
0
2
0
0
2
5
0
x
y
a (g/m
2
) (g/m
2
)
25 84
50 80
75 90
100 154
125 148
150 169
175 206
200 244
225 212
250 248
Indicadores num ericos
Manuela Neves/ISA - 2010/2011 36 / 46
M edias marginais de r e j, respectivamente, s ao
r =
n
.=1
a
.
a
j =
n
.=1
.
a
(r, j) centro de gravidade da nuvem de pontos.
Dispers oes marginais de r e j, respectivamente
:
2
a
=
n
.=1
(a
.
a)
2
a1
:
2
n
.=1
(
.
)
2
a1
Mas... h a uma medida que d a informac ao sobre as duas vari aveis em
simult aneo.
Denic ao Dadas as vari aveis r e j, chama-se covari ancia de r e j a
cou(a, g) =
=1
(
)(g
g)
u1
.
Exerccio: Mostre que co(r, j) =
a
n
.=1
a
.
.
n
.=1
a
.
n
.=1
.
a(a1)
.
Propriedades da covari ancia
Manuela Neves/ISA - 2010/2011 37 / 46
1. Seja (r
i
, j
i
) uma s erie de n observac oes e considere-se:
r
i
= o + /r
i
j
i
= c + dj
i
.
co(r
, j
) = /d co(r, j).
2. co(r, j) :
a
:
Nota 1
Import ancia da covari ancia co(r, j) 0 h a correlac ao positiva;
co(r, j) < 0 h a correlac ao negativa.
Desvantagem da covari ancia fortemente afectada por mudancas de
escala nas observac oes (ver propriedade 1.)
Nota 2 co(r, j) = :
a
:
(j
i
j) /(r
i
r) = 0 i
portanto, se co(r, j) = :
a
:
s
g
com s
= 0 e s
g
= 0
Propriedades do coeciente de correlac ao
1. tem sempre o mesmo sinal da covari ancia;
2. 1 1; (se v
i
= 1 todos os valores observados se encontram sobre uma
recta).
3. Se (a, j) t em coeciente de correlac ao v
i
e
a
.
= o + /a
.
e j
.
= c + dj
.
(/d 0), tem-se
v
i
= v
i
se (/d 0)
v
i
= v
i
se (/d < 0)
Ent ao o coeciente de correlac ao n ao e afectado, em valor absoluto, por
transformac oes lineares.
O coeciente de correlac ao. Interpretac ao
Manuela Neves/ISA - 2010/2011 39 / 46
(a) = 1 todos os pontos observados se encontram sobre uma recta de declive positivo.
(b) 1 todos os pontos observados se encontram pr oximos de uma recta de declive positivo.
(c) 0 a nuvem apresenta um aspecto arredondado ou alongado segundo um dos eixos.
(d) 1 todos os pontos observados se encontram pr oximos de uma recta de declive negativo.
(e) = 1 todos os pontos observados se encontram sobre uma recta de declive negativo.
Nota: O coeciente de correlac ao mede a nitidez da ligac ao existente entre duas vari aveis, quando
essa ligac ao e linear ou aproximadamente linear
A regress ao linear simples
Manuela Neves/ISA - 2010/2011 40 / 46
Se : 1 e a nuvem de pontos sugere a exist encia de uma relac ao linear
entre os valores observados.
Faz sentido determinar a equac ao de uma recta que possa traduzir bem
a relac ao observada, i.e., pretende-se determinar g = u + ba
recta de regress ao, que permita:
q descrever a relac ao entre j (vari avel resposta ou dependente) e
r (vari avel explicativa ou independente);
q prever um valor de j para um dado valor de r.
Mas ... a equac ao j = o + /r n ao e vericada para todos os pares (r
i
, j
i
)
(note-se que s o o seria se co(r, j) = :
a
:
)
Na verdade para cada par (r
i
, j
i
) tem-se g
I
= u + b a
I
+ c
I
A regress ao linear simples
Manuela Neves/ISA - 2010/2011 41 / 46
A u + b a
I
designe-se por g
I
s ao os valores de j estimados pela recta para cada r
i
.
Ent ao pode-se escrever g
I
= g
I
+ c
I
c
I
= g
I
g
I
s ao chamados resduos.
Portanto obter a recta determinar u e b.
M etodo usado m etodo dos mnimos quadrados u e b s ao
determinados de modo a minimizar a soma dos quadrados dos resduos
ou seja, minimizar
a
i=1
c
2
i
=
a
i=1
(j
i
j
i
)
2
=
a
i=1
(j
i
o / r
i
)
2
= Q(o, /)
A regress ao linear simples
Manuela Neves/ISA - 2010/2011 42 / 46
Pretende-se ent ao determinar os minimizantes de uma func ao de duas
vari aveis. As condic oes de estacionaridade s ao:
{
Q
o
= 0
Q
o
= 0
{
2
(j
i
o / r
i
) = 0
2
r
i
(j
i
o / r
i
) = 0
A estas equac oes chama-se equac oes normais
Algumas conclus oes podem ser tiradas destas equac oes:
q
(j
i
o / r
i
) = 0
(j
i
j
i
) =
c
I
= 0 a soma dos
resduos e nula.
q
(j
i
j
i
) = 0 g = g a m edia dos valores observados e igual ` a
m edia dos valores estimados.
A regress ao linear simples
Manuela Neves/ISA - 2010/2011 43 / 46
q a recta de regress ao passa no ponto (r, j) .
q Soluc ao do sistema
b=
a
a
.
.
a
.
.
a
a
2
.
(
a
.
)
2
=
)(g
g)
)
2
=
cc(a,)
~
2
i
= :
~
~
i
u = g ba
A b chama-se coeciente de regress ao de j sobre r.
Observac oes:
q / tem o mesmo sinal que co(r, j) e :.
q Dado r
i
e sendo r
i
= r
i
+ 1 tem-se
j
i
= o + / r
i
j
i
= o + / (r
i
+ 1).
b =
g
I
g
I
, b representa a variac ao esperada para j
quando r aumenta uma unidade.
Precis ao da recta de regress ao
Manuela Neves/ISA - 2010/2011 44 / 46
Um dos objectivos da recta de regress ao e o de predizer o valor de uma
vari avel conhecendo o valor assumido pela outra mas e necess ario
avaliar o grau de precis ao atingido pelas estimativas.
O m etodo dos mnimos quadrados permite uma importante
decomposic ao de
(j
i
j)
2
.
(j
i
j)
2
=
(j
i
j
i
)
2
+
( j
i
j)
2
cujas parcelas se costuma
representar por
SQ
T
= SQ
11
+ SQ
1
, isto e:
soma dos quadrados totais =
soma dos quadrados devidos aos resduos +
soma dos quadrados devidos ` a regress ao.
O coeciente de determinac ao
Manuela Neves/ISA - 2010/2011 45 / 46
Vamos designar por
1
2
=
oQ
1
oQ
T
a percentagem de variabilidade explicada pela regress ao
A H
2
chama-se coeciente de determinac ao e e uma medida de
precis ao da recta de regress ao.
Observe-se que no contexto que estamos a considerar - a regress ao
linear simples se tem
H
2
=
oQ
1
oQ
T
=
/
2
(r
i
r)
2
(j
i
j)
2
=
co
2
(r, j)
:
4
a
.
:
2
a
:
2
=
co
2
(r, j)
:
2
a
:
2
= r
2
.