Você está na página 1de 24

Anlise Exploratria de Dados

1) Intervalo de Confiana para a Mdia



1.1) Populao Normal, conhecido

Seja X ~ N( , ).

Como j vimos,


Padronizando a varivel , temos que:




Vamos considerar o intervalo de valores de Z,
simtrico em torno da mdia, tal que a probabilidade
de Z assumir valor neste intervalo seja igual a (1 - o),
isto :
. , ~ |
.
|

\
|
n
N X
o

X
. 1 0 o distribui tem ) , N(
n
X
Z
o

=
( ) o
o o
= < < 1
2 2
z Z z P
1 o
1 o
2
1 o
2
0 -Z Z
o / 2 o / 2
o / 2 o / 2
Anlise Exploratria de Dados
Substituindo Z por em , temos:
( )
2 2 o o
z Z z P < <
n
X
o

o
o

o o

o
o
o

o
o

o o o o
o o o o
= |
.
|

\
|
> > + = |
.
|

\
|
+ < <
= |
.
|

\
|
< < =
|
|
|
|
.
|

\
|
<

<
1
1
2 2 2 2
2 2 2 2
n
z X
n
z X P
n
z X
n
z X P
n
z X
n
z P z
n
X
z P


Reescrevendo as desigualdades entre parnteses, obtemos:
o
o

o
o o
= |
.
|

\
|
+ < < 1
2 2
n
z X
n
z X P
Anlise Exploratria de Dados
A expresso o intervalo de confiana para o

parmetro , ao nvel de confiana 1 o, quando o conhecido.
Isto ,
n
z X
n
z X
o

o
o o 2 2
+ < <
n
z
o
c
o 2
=
O erro de estimao, c, mede o quanto a mdia amostral dista do verdadeiro valor
da mdia populacional, , para mais ou para menos.
O comprimento do intervalo ser igual a dois c. Quanto maior for o intervalo de
confiana, mais confiantes estaremos de que o intervalo realmente contm o valor
verdadeiro do parmetro . Por outro lado, quanto maior for o intervalo, menos
informao teremos a respeito do valor verdadeiro de , maior ser o c.
O erro amostral (erro de estimao), c, definido por:
| |
(

+ =
n
z X
n
z X IC
o o
o
o o 2 2
; ; 1
Anlise Exploratria de Dados
Intervalo de confiana para , considerando os nveis de confiana iguais a 90%,
95% e 99%, respectivamente.
| |
(

+ =
n
X
n
X IC
o o
64 , 1 ; 64 , 1 ; 90 , 0
Z
-1,64 1,64 0
| |
(

+ =
n
X
n
X IC
o o
96 , 1 ; 96 , 1 ; 95 , 0
0 -1,96 1,96
Z
_______________________________________________________________________________________________________________________________
_______________________________________________________________________________________________________________________________
| |
(

+ =
n
X
n
X IC
o o
58 , 2 ; 58 , 2 ; 99 , 0
Z
-2,58 2,58 0
0,90
0,05 0,45 0,45 0,05
0,95
0,025 0,025
0,475 0,475
0,99
0,005 0,005
0,495 0,495
Anlise Exploratria de Dados
Exemplo 1: Considere a distribuio de nveis sricos de colesterol para todos os
homens hipertensos e fumantes nos Estados Unidos. Essa distribuio
aproximadamente normal com uma mdia desconhecida e desvio padro o = 46
mg/100ml. Estamos interessados em estimar, com 95% de confiana, o nvel mdio
srico de colesterol dessa populao. Suponha que extramos uma amostra de
tamanho 16 da populao de homens hipertensos e fumantes e que esses homens
tenham um nvel mdio srico de colesterol de 217 mg/100ml. Com base nessa
amostra, um intervalo de 95% de confiana para :


Soluo:


No se deve escrever P(194,46 < < 239,54) = 0,95, porque a expresso entre
parnteses no contm nenhuma varivel aleatria, j que valor fixo, e, embora
desconhecido, est, ou no, dentro do intervalo.
Podemos dizer com 95% de confiana que o nvel mdio srico de colesterol para
todos os homens hipertensos e fumantes nos Estados Unidos varia entre 194,46 e
239,54 mg/100ml.

| | | | 54 , 239 ; 46 , 194
16
46
96 , 1 217 ;
16
46
96 , 1 217 ; 95 , 0 =
(

+ = IC
Anlise Exploratria de Dados
O erro de estimao c, com 95% de confiana e para n = 16, foi de 22,54 mg/100ml.
Isto , o nvel mdio srico de colesterol da amostra selecionada, de homens
fumantes e hipertensos, difere (se afasta) do verdadeiro valor do nvel mdio srico
de colesterol da populacional de homens fumantes e hipertensos de mais ou menos
22,54 mg/100ml, com 95% de confiana.

Dimensionamento da amostra
A partir do erro de estimao , o tamanho da amostra n determinado
por


n
z
o
c
o 2
=
2
2
|
.
|

\
|
=
c
o
o
z n
No exemplo, qual deve ser o tamanho da amostra de homens hipertensos e fumantes
que teremos que sortear na populao para que com 95% de confiana, o erro de
estimao seja de no mximo 10 mg/100ml?
82 3 , 81
10
46
96 , 1
2
= =
|
.
|

\
|
= n n
Anlise Exploratria de Dados
Para um nvel de confiana de 99% e erro de estimao igual a 10mg/100ml, o
tamanho da amostra ser:
141 8 , 140
10
46
58 , 2
2
= =
|
.
|

\
|
= n n
Quanto maior o nvel de confiana, mantendo-se o erro de estimao, maior deve
ser o tamanho da amostra.
Exemplo 2 Por analogia a estudos similares, o contedo de cido ascrbico pode
ser considerado como tendo distribuio Normal com desvio padro igual a 1,3
unidades de medida (a mdia desconhecida). Uma folha de cada uma de 16
plantas sorteadas da espcie X foi analisada e o contedo de cido ascrbico
existente na folha foi quantificado. Os resultados foram os seguintes (em unidades
de medida): 9,35; 8,68; 8,65; 9,82; 11,68; 10,29; 12,77; 10,99; 8,81; 10,76; 9,52;
10,55; 12,61; 10,43; 9,87 e 12,04.
Obtenha o intervalo de 99% de confiana para o contedo mdio de cido
ascrbico.
Mdia = 10,4263; IC[;0,99] = [9,5891;11,2634]

Podemos dizer com 99% de confiana que o contedo mdio de cido ascrbico em
plantas da espcie X varia entre 9,5891 e 11,2634 unidades de medida.
1.2) Populao normal, varincia populacional o
2
desconhecida

Um problema com a construo de tais intervalos que no sabemos o verdadeiro desvio
padro populacional o.

Quando no conhecemos o, usamos seu estimador S.



( ) ( )
1 1
2 2
2

=

n
x x
S
n
x x
S
i i
A substituio de o por s em Z resulta em uma nova varivel aleatria




Se X uma amostra aleatria de uma distribuio Normal com mdia e desvio padro o, a
varivel aleatria T acima possui distribuio t de Student com v = n -1 graus de liberdade. A
caracterizao com n 1 graus de liberdade necessria porque para cada tamanho de
amostra temos uma distribuio t de Student diferente.
n
s
X
T

=
Anlise Exploratria de Dados
A figura abaixo ilustra a distribuio N(0 , 1) e a distribuio t de Student com v = 5
graus de liberdade.
A forma da distribuio t muito prxima da forma de uma distribuio N(0 , 1).
Ambas so simtricas em torno de zero.

A distribuio t tem caudas mais densas do que a distribuio normal, isto , a t
apresenta maior disperso.
Anlise Exploratria de Dados
4 3 2 1 0 -1 -2 -3 -4
Normal 0 1
T com 15 g.l
4 3 2 1 0 -1 -2 -3 -4
Normal 0 1
T com 30 g.l.
Podemos observar nas figuras que, medida
que o tamanho da amostra, n, cresce, a
distribuio t aproxima-se da distribuio N(0, 1),
pois o desvio padro amostral s aproxima-se do
desvio padro populacional o. Quando o nmero
de g. l. igual a infinito, a distribuio t coincide
com a distribuio N(0, 1).
3 2 1 0 -1 -2 -3
Normal 0 1
T com infinitos g.l.
Anlise Exploratria de Dados
Tabela da distribuio t de Student
A tabela que iremos usar fornece os valores da abscissa t
0
(positivos) para os quais
com v graus de liberdade (g.l), P(t > t
0
) = A. Como ilustra a figura.
Na primeira coluna da tabela esto os valores dos g.l., v = n1.
Da segunda nona coluna esto os valores de A, A = P(t > t
0
).
A interseco da linha com a coluna fornece o valor de t
0
. 0
t t
0

A=P(t >t
0
)
Exemplos: Usando a tabela da distribuio t, obter o valor t
0
tal que:
a) com v = 16 g. l. a P(t > t
0
) = 0,005 pela tabela t
0
= 2,921, isto , t
16; 0,005
= 2,92
b) com v = 8 g. l. a P(t > t
0
) = 0,05 pela tabela t
8; 0,05
= 1,860.
c) com v = g.l. a P(t > t
0
) = 0,025 pela tabela t
; 0,025
= 1,960.
Como a distribuio simtrica em zero, P(t < -t
0
) = P(t > t
0
) = A.
A ltima linha da tabela t corresponde a graus de liberdade igual a infinito, v = g.l..
Neste caso, os valores de t
0
da distribuio t so iguais aos valores de Z da tabela da
N(0, 1).
Anlise Exploratria de Dados
Para v maior do que 30, a tabela da distribuio t fornece valores de t
0
para alguns
valores de g.l. (v = 40, v = 60, v = 120 e v =). Porm, quando o nmero de g.l., v,
maior do que 30, a aproximao da distribuio t pela distribuio N(0, 1)
satisfatria. Ento, nestes casos vamos utilizar a tabela da distribuio Normal.
O intervalo de confiana para a mdia
Considere uma amostra aleatria de tamanho n de uma varivel aleatria de uma
populao Normal com mdia e desvio padro o desconhecido. Vimos que



Tem distribuio t de Student com n 1 g.l.. Um intervalo de confiana para pode
ser derivado a partir da varivel aleatria T.
Da distribuio de probabilidade de T, temos que

n
s
X
T

=
( ) o
o o
= < <

1
2 , 1 2 , 1 n n
t T t P
1 - o
o / 2 o / 2
T
t
n -1, o/2
-t
n -1, o/2

Anlise Exploratria de Dados
Substituindo T por em , temos:
n
s
X
( )
2 , 1 2 , 1 o o
< <
n n
t T t P
o
o
o

o o
o o
o o o o
= |
.
|

\
|
> > +
= |
.
|

\
|
+ < <
= |
.
|

\
|
< < =
|
|
|
|
.
|

\
|
<

<



1
1
1
2 , 1 2 , 1
2 , 1 2 , 1
2 , 1 2 , 1 2 , 1 2 , 1
n
s
t X
n
s
t X P
n
s
t X
n
s
t X P
n
s
t X
n
s
t P t
n
s
X
t P
n n
n n
n n n n
Reescrevendo as desigualdades entre parnteses, obtemos:
o
o o
= |
.
|

\
|
+ < <

1
2 , 1 2 , 1
n
s
t X
n
s
t X P
n n
Anlise Exploratria de Dados
A expresso o intervalo de confiana para

o parmetro , ao nvel de confiana 1 o, quando o desconhecido.
Isto ,
|
.
|

\
|
+ < <

n
s
t X
n
s
t X
n n 2 , 1 2 , 1 o o

| |
(

+ =

n
s
t X
n
s
t X IC
n n 2 , 1 2 , 1
; ; 1
o o
o
O erro amostral (erro de estimao), c, definido por:
n
s
t
n 2 , 1o
c

=
Clculo do tamanho da amostra: Fixamos o maior erro de estimao aceitvel e o
nvel de confiana que queremos trabalhar.

2
2 , 1
|
.
|

\
|
=

c
o
s
t n
n
Note que precisamos de uma estimativa preliminar de s para obter o tamanho da
amostra. Usualmente esse problema, nos casos em que se desconhece por completo
o valor de s, uma amostra piloto usada para calcular s, que, ser usado no clculo
do tamanho da amostra necessrio.
Anlise Exploratria de Dados
Exemplos.1) O tempo de reao de um novo medicamento, por analogia a
produtos similares, pode ser considerado como tendo distribuio Normal.
Vinte pacientes foram sorteados, receberam o medicamento e tiveram seu
tempo de reao anotado. Os resultados,em minutos, foram:





Pede-se: Construir um intervalo de 95% de confiana para .






2,9 3,4 3,5 4,1 4,6 4,7 4,5 3,8 5,3 4,9
4,8 5,7 5,8 5,0 3,4 5,9 6,3 4,6 5,5 6,2
Anlise Exploratria de Dados





Soluo: n = 20, o desconhecido, 1 o = 0,95 o/2 = 0,025, v = 20 1 = 19 g.l,
t
19, 0,025
= 2,093

2,9 3,4 3,5 4,1 4,6 4,7 4,5 3,8 5,3 4,9
4,8 5,7 5,8 5,0 3,4 5,9 6,3 4,6 5,5 6,2
( ) ( )
( ) ( ) ( )
996 , 0
19
745 , 4 2 , 6 ... 745 , 4 4 , 3 745 , 4 9 , 2
1 20 1
745 , 4
20
2 , 6 ... 4 , 3 9 , 2
20
2 2 2
20
1
2
1
2
20
1 1
=
+ + +
=

= =
+ + +
= = =

= = = =
s
x x
n
x x
s
x
n
x
X
i
i
n
i
i
i
i
n
i
i

| |
| | 211 , 5 ; 279 , 4
20
996 , 0
. 093 , 2 745 , 4 ;
20
996 , 0
. 093 , 2 745 , 4
; ; 95 , 0
2 , 1 2 , 1
=
(

+ =
(

+ =


n
s
t X
n
s
t X IC
n n o o

Podemos dizer com


95% de confiana
que o tempo mdio
de reao do novo
medicamento varia
entre 4,279 e 5,211
minutos
Anlise Exploratria de Dados
2) Suponha que o gerente de produo de uma companhia que fornece
petrleo para calefao de uso domstico deseja estimar o consumo mdio
anual (em gales) em casas onde moram somente famlias, numa rea
geogrfica particular. Seleciona-se uma amostra de 25 casas dessa rea e
obtm-se consumo mdio igual a 1122,7 gales e desvio padro 295,7
gales. Se o gerente de produo deseja ter 98% de confiana de que o
intervalo obtido inclua a quantidade mdia de consumo, anual, de petrleo
para calefao em toda a populao de casas de famlias da rea
geogrfica estudada, qual ser o resultado obtido a partir da amostra usada
por ele, sabendo-se que o consumo anual de petrleo para calefao de uso
domstico de toda a populao segue uma distribuio Normal?

Anlise Exploratria de Dados
| |
| | 1 , 1270 ; 3 , 975
25
7 , 295
. 492 , 2 7 , 1122 ;
25
7 , 295
. 492 , 2 7 , 1122
; ; 98 , 0
2 , 1 2 , 1
=
(

+ =
(

+ =

n
s
t X
n
s
t X IC
n n o o

Com 98% de confiana a quantidade mdia de petrleo consumida ao


ano varia entre 975,3 e 1270,1 gales. O intervalo de 98% de confiana
estabelece que existe uma seguridade de 98% de que a amostra usada
uma na qual a mdia populacional , est localizada dentro do
intervalo.
Soluo:
7 , 295 7 , 1122 = = S X
n = 25, s desconhecido, 1 o = 0,98 o/2 = 0,01, v = 25 1 = 24 g.l, t
24, 0,01
= 2,492
Anlise Exploratria de Dados
2) Intervalo de confiana para a proporo, grandes amostras
Seja X o nmero de elementos de uma amostra de tamanho n que apresentam a
caracterstica de interesse. Queremos estabelecer um intervalo de confiana para a
proporo populacional p.
Temos que:





Como j foi visto, pelo Teorema Central do Limite, o estimador segue uma

distribuio aproximadamente e

( ) ( )
n
p p
p
n
p p
p Var
n
X
p
p p

= =

= = =
1
de padro Desvio
1
) ( e

2

o o
p
( )
1) , N(0 mente aproximada o distribui uma tem
n
p p
p p
Z

=
1

( )
|
|
.
|

\
|

n
p p
p N
1
;
Anlise Exploratria de Dados
Vamos considerar o intervalo de valores de Z, simtrico em torno da mdia zero, tal
que a probabilidade de Z assumir valor neste intervalo seja igual a (1 - o), isto :
( ) o
o o
= < < 1
2 2
z Z z P
1 o
2
1 o
2
1 o
o / 2
o / 2
o / 2
-Z Z
o / 2
0
Z
Substituindo Z por em , temos:
( )

n
p p
p p

( ) o
o o
= < < 1
2 2
z Z z P
( )
( ) ( )
( ) ( ) ( ) ( )
o
o
o o o o
o o o o
=
|
|
.
|

\
|

> >

+ =
|
|
.
|

\
|

+ < <


=
|
|
.
|

\
|

< <

=
|
|
|
|
.
|

\
|
<

<
1
1

1
1

1
1

2 2 2 2
2 2 2 2
n
p p
z p p
n
p p
z p P
n
p p
z p p
n
p p
z p P
n
p p
z p p
n
p p
z P z
n
p p
p p
z P
Anlise Exploratria de Dados
Reescrevendo as desigualdades entre parnteses, obtemos:





Fixando o nvel de confiana (1-o)100% tal que, 0 < o < 1, o intervalo de confiana para
p, para amostras suficientemente grandes, dado por:





Note que, neste caso, os limites do intervalo dependem do parmetro que queremos
estimar logo, o intervalo no pode ser calculado diretamente. Uma possvel soluo
substituirmos por . Assim, o intervalo ser:
( ) ( )
o
o o
=
|
|
.
|

\
|

+ < <

1
1

2 2
n
p p
z p p
n
p p
z p P
| |
( ) ( )
(

=
n
p p
z p
n
p p
z p p IC
1
;
1
1 ;
2 2 o o
o
( ) p p 1 ( ) p p 1
| |
( ) ( )
( ) 1
1
;
1
1 ;
2 2

(

=
n
p p
z p
n
p p
z p p IC
o o
o
Anlise Exploratria de Dados
Uma outra abordagem baseada no fato que a expresso p(1-p) assume o valor mximo
igual a 1/4 quando 0 p 1. Como mostra a figura abaixo.







Logo, o intervalo se reduz a:



Apresentamos duas alternativas para o clculo do intervalo de confiana para p. A
primeira, usada em (1), usualmente denominada de abordagem otimista, pois parte da
crena que o valor do estimador est suficientemente prximo do valor de .

| | ) 2 (
4
1
;
4
1
1 ;
2 2

(

+ =
n
z p
n
z p p IC
o o
o
p
p
A segunda, usada em (2), conhecida na literatura como abordagem conservativa, pois
preferimos substituir o valor de p(1-p) pelo valor mximo que ele pode atingir.
O comprimento do intervalo de confiana otimista maior que o comprimento do
intervalo conservativo.
O erro amostral (erro de estimao), c, definido por:

Dimensionamento da amostra
Supondo que p e (1-o) so conhecidos, a partir de c tem se que:

Mas, para utilizar a frmula de (3) acima, necessrio um valor (estimativa) para p. Tal
valor pode ser obtido utilizando-se pesquisas anteriores ou uma amostra piloto. Uma
forma alternativa, consiste em utilizar o fato de que p(1-p) atinge o valor mximo igual a
1/4 quando p = 0,5.

Assim,

Neste caso, possivelmente a amostra estar super dimensionada e por isto a frmula (4)
conhecida como mtodo conservador de dimensionamento de amostra.



( )

n
p p
z

=
1
2 o
c
( )
( ) 3
1
2
2
2

c
o
p p z
n

=
( ) 4
4
2
2
2

c
o
z
n =
Exemplo:
Em uma amostra aleatria de 1000 casas em certa cidade, sabe-se que 228 tm
aquecimento a leo. Estime com 99% de confiana a proporo de casas com
aquecimento a leo nessa cidade.
Soluo:
Otimista:
| |
| | | | 2621 , 0 ; 1939 , 0 0341 , 0 228 , 0

1000
772 , 0 228 , 0
57 , 2 228 , 0 ;
1000
772 , 0 228 , 0
57 , 2 228 , 0 99 , 0 ;
= =
(

p IC
Conservativo:
| |
| | | | | | 2686 , 0 ; 1874 , 0 0406 , 0 228 , 0 99 , 0 ;
1000 4
1
57 , 2 ,228 0 ;
1000 4
1
57 , 2 228 , 0 99 , 0 ;
= =
(

=
p IC
p IC