Escolar Documentos
Profissional Documentos
Cultura Documentos
exp
(x )
2
(
< x <
( 2 2(
2
(
Como pode-se observar atravs da equao acima, a distribuio normal inclui os
parmetros e (, os quais possuem os seguintes significados:
: posio central da distribuio (mdia,
x
)
( : disperso da distribuio (desvio padro, (
x
)
Se uma varivel aleatria X tem distribuio normal com mdia e varincia (
2
,
escrevemos: X < N( ,(
2
).
A figura 2 ilustra uma curva normal tpica, com seus parmetros descritos grafica-
mente.
PUC Minas Virtual 89 Probabilidade e Estatstica
f(x)
(
: mdia
(: desvio padro
x
Figura 2 - Curva normal tpica
Propriedades da distribuio normal
Para uma mesma mdia e diferentes desvios padro (, a distribuio que tem
maior desvio padro se apresenta mais achatada, acusando maior disperso em
torno da mdia. A que tem menor desvio padro apresenta pico mais acentuado e
maior concentrao em torno da mdia. A figura 3 compara trs curvas normais,
com a mesma mdia, porm, com desvios padro diferentes. A curva A se apresen-
ta mais dispersa que a curva B, que por sua vez se apresenta mais dispersa que a
curva C. Nesse caso, (
A
> (
B
> (
C
.
Distribuies normais com o mesmo desvio padro e mdias diferentes possuem a
mesma disperso, mas diferem quanto localizao. Quanto maior a mdia, mais
direita est a curva. A figura 4 ilustra o fato, onde a curva A possui mdia maior
que a curva B (
A
>
B
).
C
B
A
Figura 3 - Distribuies normais com mesma mdia e desvios padro diferentes
PUC Minas Virtual 90 Probabilidade e Estatstica
B A
A
Figura 4 - Distribuies normais com mesmo desvio padro e mdias diferentes
Como descrito anteriormente, a probabilidade de uma varivel assumir valores en-
tre a e b igual rea sob a curva entre esses dois pontos. A determinao dessas
probabilidades realizada matematicamente atravs da integrao da funo de
densidade de probabilidade entre os pontos a e b de interesse. No caso da normal,
a integral no pode ser calculada exatamente e a probabilidade entre dois pontos
s pode ser obtida de forma aproximada, por mtodos numricos. Essa tarefa
facilitada atravs do uso da distribuio normal padro definida a seguir.
No caso da distribuio normal, algumas dessas reas - com os pontos a e b, fun-
o da mdia e do desvio padro ( so bastante difundidas e esto representa-
das na figura 5:
99.73 %
95.46 %
68.26 %
-3(
-2(
-( +( +3(
+2(
Figura 5 - Probabilidades da distribuio normal
Portanto, 68,26% dos valores populacionais caem entre os limites definidos como
mdia mais ou menos um desvio padro ( 1(); 95,46% dos valores caem entre
PUC Minas Virtual 91 Probabilidade e Estatstica
mdia mais ou menos dois desvios padro ( 2(); e 99,73% dos valores caem
entre mdia mais ou menos trs desvios padro ( 3().
A distribuio normal padro
A distribuio normal particular com mdia 0 e desvio padro 1 chamada de dis-
tribuio normal padro e costuma ser denotada por Z.
Se X < N( ,(
2
), ento, a varivel aleatria definida por
Z =
X
(
ter uma distribuio N(0,1). Essa transformao ilustrada pela figura 6:
-3(
-2(
-(
X
+( +3(
+2(
X -
(
Z
-3 -2 -1 0 1 2 3
Figura 6 - Transformao de uma N( ,(
2
) para uma N(0,1)
A rea esquerda de um valor especificado da N(0,1) encontra-se tabelada.
Utilizando-se a transformao acima, podemos obter as probabilidades para
qualquer N( ,(
2
). O procedimento ilustrado atravs do exemplo abaixo.
Exemplo:
Extrudados tubulares possuem tenso de escoamento (tenso a partir da qual o
material se deforma plasticamente), que segue uma distribuio normal com mdia
de 210 MPa com desvio padro de 5 MPa. Em notao estatstica, X < N(210 ,5
2
).
desejado que tais extrudados tenham tenso de escoamento de pelo menos 200
MPa. Portanto, a probabilidade do extrudado no atingir a especificao desejada :
PUC Minas Virtual 92 Probabilidade e Estatstica
Soluo:
P(X < 200) = P
Z <
|
= P(Z < -2).
200 210 |
5 .
A figura 7 mostra a transformao realizada e a rea desejada.
P(X<200)
X
180 190 200 210 220 230 240
P(Z<-2)
Z
-6 -4 -2 0 2 4 6
Figura 7 - Probabilidade do extrudado no atingir a especificao desejada
Para clculo dessa probabilidade, utilizamos a tabela de distribuio normal padro-
nizada ( que esta no apndice do livro indicado na bibliografia bsica). Observe que
a tabela traz apenas a P(Z<z) para z no negativo (z c 0). As propriedades que se
seguem podem ser deduzidas a partir da simetria da densidade em relao mdia
0, e so teis na obteno de outras reas no tabuladas.
P(Z>z) = 1 - P(Z<z)
P(Z<-z) = P(Z>z)
P(Z>-z) = P(Z<z)
PUC Minas Virtual 93 Probabilidade e Estatstica
P(Z < -z)
1 - P(Z < z)
-z z
Figura 8 - reas correspondentes na distribuio normal
Utilizando as relaes apresentadas acima, a probabilidade do extrudado no aten-
der especificao
P(X < 200) = P(Z < -2) = P(Z > 2) = 1 - P(Z < 2)
que, atravs da tabela da N(0,1) igual a
P (X < 200) = 1 - 0,97725 = 0,02275.
= 2,275%
PUC Minas Virtual 94 Probabilidade e Estatstica
UNIDADE 8
Inferncia Estatstica
8.1. Populao e amostra; Estatsticas e parmetros;
Distribuies amostrais
8.2. Estimao
8.3. Testes de Hipteses
Trata-se do processo de obter informaes sobre uma populao a partir
de resultados observados na amostra.
De modo geral, tem-se uma populao com grande nmero de elemen-
tos e deseja-se, a partir de uma amostra dessa populao, conhecer o
mais prximo possvel algumas caractersticas da populao.
Toda concluso tirada por uma amostragem, quando generalizada para
a populao, vir acompanhada de um grau de incerteza ou risco.
Ao conjunto de tcnicas e procedimentos que permitem dar ao pesqui-
sador um grau de confiabilidade, de confiana nas afirmaes que faz
para a populao, baseadas nos resultados das amostras, damos o no-
me de Inferncia Estatstica.
O problema fundamental da Inferncia Estatstica, portanto, medir o
grau de incerteza ou risco dessas generalizaes. Os instrumentos da
Inferncia Estatstica permitem a viabilidade das concluses por meio de
afirmaes estatsticas.
8.1. Populao e amostra; Estatsticas e parmetros;
Distribuies amostrais
Se um conjunto de dados consiste de todas as observaes possveis (concebveis
ou hipotticas), chamado uma populao; se um conjunto de dados se consiste
apenas de uma parte dessas observaes, chamado uma amostra.
PUC Minas Virtual 95 Probabilidade e Estatstica
Um dos principais objetivos da maioria dos estudos, anlises ou pesquisas estatsti-
cas fazer generalizaes seguras - com base em amostras em relao s popu-
laes das quais se extraram as amostras.
Definies
Parmetro: a medida usada para escrever uma caracterstica numrica populacio-
nal. Genericamente representado por \. A mdia (), a varincia ((
2
) e o coefici-
ente de correlao ()) so alguns exemplos de parmetros populacionais.
Estimador: tambm denominado estatstica de um parmetro populacional. uma
caracterstica numrica determinada na amostra, uma funo de seus elementos.
Genericamente, representado por \. A mdia amostral (x) e a varincia amostral
(s
2
) so alguns dos exemplos de estimadores.
POPULAO
AMOSTRAS
PARMETROS: \
ESTIMADORES: \
Distribuio Amostral
Considere todas as possveis amostras de tamanho n que podem ser extradas de
determinada populao. Se para cada uma delas se calcular um valor do estimador,
tem-se uma distribuio amostral desse estimador. Como o estimador uma vari-
vel aleatria, pode-se determinar suas caractersticas, isto , encontrar sua mdia,
varincia, desvio-padro.
As distribuies amostrais so fundamentais para o processo de inferncia estatsti-
ca.
Distribuio amostral da Mdia
Sabe-se que x' =
=
x
i
n
(mdia aritmtica) um estimador da mdia populacional .
O estimador x uma varivel aleatria; portanto, busca-se conhecer sua distribui-
o de probabilidade.
PUC Minas Virtual 96 Probabilidade e Estatstica
.
= (
x '
2
n
Teorema 1 A mdia da distribuio amostral das mdias, denotada por (x),
igual mdia populacional .
E (x) = (x) =
Assim, provado que a mdia das mdias amostrais igual mdia populacional.
Teorema 2 Se a populao infinita, ou se a amostragem com reposio, ento
a varincia da distribuio amostral das mdias, denotada por (
2
(x), dada por:
VAR ( x ' )
2
=
(
n
Teorema 3 Se a populao finita, ou se a amostragem sem preposio, ento
a varincia da distribuio amostral das mdias dada por:
(
2
N n
|
( =
(
N n
(
2
( x' ) =
|
n
N 1
.
x '
N 1
Sendo que: (x) =
Teorema 4 - Se a populao tem ou no distribuio normal com mdia e varin-
cia (
2
, ento a distribuio das mdias amostrais ser normalmente distribuda com
(
2
mdia e varincia .
n
Esses quatro teoremas provam que a mdia amostral (x) tem distribuio normal
(
2
com mdia igual mdia da populao () e varincia dada por
n
(
2
N n |
para popula-
es infinitas, assim como
n
N 1
|
para populaes finitas. Ou, ainda:
(
2
|
(
2
N n |
|
x' H N ; |
ou
n
x' H N ;
|
|
n N 1
.
.
.
PUC Minas Virtual 97 Probabilidade e Estatstica
i
x
com distribuies padronizadas dadas por:
Z =
x
i
Z =
x
i
( ou
n
i
(
N
n
N
n
|
|
1
.
Exemplo:
Temos uma populao de 5000 alunos de uma faculdade. Sabemos que
a altura mdia dos alunos de 175 cm e o desvio padro, de 5 cm. Reti-
ramos uma amostra sem reposio, de tamanho n = 100. Qual o valor
do desvio padro amostral?
Soluo:
X : N (175 , 25 cm)
)
= 175cm
}
(
( = 5cm
Ento
= E (x) = 175
E ( =
(
x
n
N n
=
5
N 1 10
5000 25
= 0,4988
5000 1
8.2. Estimao
H dois tipos fundamentais de estimao: por ponto e por intervalo.
Estimao pontual
O problema da estimao pontual surge quando estamos interessados em alguma
caracterstica numrica de uma distribuio desconhecida (ex: mdia, varincia) e
desejamos calcular, a partir de observaes, um nmero que inferimos que seja
uma aproximao da caracterstica numrica em questo.
Para ilustrar alguns dos problemas com os quais nos deparamos quando estimamos
a mdia de uma populao com base em dados amostrais, vamos recorrer a um
PUC Minas Virtual 98 Probabilidade e Estatstica
estudo em que planejadores industriais procuraram determinar o tempo mdio que
um adulto leva para montar um rob fcil de montar. Com uma amostra aleat-
ria, obtm-se os seguintes dados (em minutos) para 36 pessoas que montaram o
rob:
17 13 18 19 17 21 29 22 16 28
21 15 26 23 24 20 8 17 17 21
32 18 25 22 16 10 20 22 19 14
30 22 12 24 28 11
A mdia desta amostra x = 19,9 minutos. Na ausncia de qualquer outra infor-
mao, podemos tomar esta cifra como uma estimativa de , o verdadeiro tempo
mdio que um adulto leva para montar o rob.
Esse tipo de estimativa chamada estimativa pontual, pois consiste de um nico
nmero, ou um nico ponto na escala dos nmeros reais. Embora se trate da forma
mais comum de expressar estimativas, ela deixa margem para no poucas ques-
tes. Por exemplo, no nos diz em quantas informaes a estimativa se baseia,
nem tampouco nos informa sobre o tamanho possvel do erro.
Estimao por intervalo
A estimao por pontos de um parmetro no possui uma medida do possvel erro
cometido na estimao, da surge a idia de construir os intervalos de confiana,
que so baseados na distribuio amostral do estimador pontual.
Uma maneira de expressar a preciso da estimao estabelecer limites que, com
certa probabilidade, incluam o verdadeiro valor do parmetro da populao. Esses
limites so chamados limites de confiana: determinam um intervalo de confian-
a, no qual dever estar o verdadeiro valor do parmetro. Logo, a estimao por
intervalo consiste na fixao de dois valores tais que (1 - () seja a probabilidade de
que o intervalo, por eles determinado, contenha o verdadeiro valor do parmetro.
( : nvel de incerteza ou grau de desconfiana
1 - ( : coeficiente de confiana ou nvel de confiabilidade.
Portanto, ( nos d a medida da incerteza desta inferncia (nvel de significncia).
Logo, a partir das informaes de amostra, devemos calcular os limites de um in-
PUC Minas Virtual 99 Probabilidade e Estatstica
|
'
tervalo, valores crticos que em (1 - ()% dos casos inclua o valor do parmetro a
estimar e em (% dos casos no inclua o valor do parmetro.
Intervalo de confiana (IC) para a mdia populacional ()
quando a Varincia ((
2
) conhecida.
Como se sabe, o estimador de x. Tambm conhecida a distribuio de
probabilidade de x:
(
2
|
x' H N
;
|
n
.
para as populaes infinitas,
(
2
N n |
|
x' H N ;
|
|
para as populaes finitas.
n
N 1
.
.
Assim, para o caso de populaes infinitas, a varivel padronizada de x ser:
Z =
x
(
n
Fixando-se um nvel de confiana 1 - (, tem-se:
Ou seja:
P
Z
(
o Z o Z
( |
=
1 (
2 2
.
PUC Minas Virtual 100 Probabilidade e Estatstica
(
(
.
n
2
n
Substituindo-se o valor de Z, tem-se:
P
Z
(
o
x'
|
|
o Z
|
= 1 (
2
(
2
|
|
.
Resolvendo-se as duas inequaes para , tem-se o intervalo de confiana para a
mdia populacional () quando a varincia ((
2
) conhecida:
P x'Z
2
(
o o x'+ Z
(
n
2
( |
| = 1 (
n
.
Como poder ser verificado, a aplicao da frmula extremamente simples. Fixa-
se o valor de 1 - ( , ou (1 - ()100= %, e observa-se na tabela de distribuio nor-
mal padro o valor das abscissas que deixam (/2 em cada uma das caudas. Com
os valores de x (mdia amostral), (=desvio padro da populao, que neste caso
conhecido, e n (tamanho da amostra), constri-se o intervalo.
Para o caso de populaes finitas, usa-se a seguinte frmula:
( (
P
x'Z
N n
o o x'+ Z
( ( N n
|
|
= 1 (
N 1 2 n N 1
|
Exemplo:
A durao da vida de uma pea de equipamento tal que (=5 horas.
Foram amostradas 100 dessas peas, obtendo-se a mdia de 500 horas.
Deseja-se construir um intervalo de confiana para a verdadeira durao
mdia da pea com um nvel de 95%.
Soluo:
( = 5 ; n = 100 x=500 (1 - ()100=95%
PUC Minas Virtual 101 Probabilidade e Estatstica
P 500 1,96
5
o o 500 + 1,96
|
100 100
.
(
o grfico da distribuio normal padro ser:
2,5% 2,5%
95%
-1,96 1,96
lembre-se que para descobrir a abscissa 1,96, entrou-se na tabela de
distribuio normal padronizada com o valor 0,475 = 47,5 , j que a ta-
bela de faixa central.
Substituindo na formula :
P x'Z
2
(
o o x'+ Z
(
n
2
( |
| = 1 (
n
.
5
| = 95%
Efetuando os clculos temos:
P(499,02 500,98) = 95%
8.3. Testes de Hipteses
Trata-se de uma tcnica para se fazer inferncia estatstica. Ou seja, a partir de um
teste de hipteses realizado com os dados amostrais, pode-se fazer inferncias so-
bre a populao.
Principais conceitos
Hipteses Estatstica Trata-se de uma suposio quanto ao valor de um parme-
tro populacional, ou quanto natureza da distribuio de probabilidade de uma
varivel populacional. So exemplos de hipteses estatsticas:
a) Os chips da marca A tm vida mdia H : =
0
;
PUC Minas Virtual 102 Probabilidade e Estatstica
1 )
1 )
1 )
b) O nvel de inteligncia de uma populao de universitrios H : =
0;
c) O ao produzido pelo processo A mais duro que o ao produzido pelo proces-
so B:
A
>
B;
d) A altura mdia da populao brasileira de 1,65m, isto : H :=1,65m;
e) A varincia populacional dos salrios vale R$ 5.000
2
, isto : H :(
2
=5.000
2
;
f) A proporo de paulistas com a doena X de 40 %, ou seja: H : p=0,40;
g) A distribuio dos pesos dos alunos da nossa faculdade normal;
h) A chegada de navios ao porto de Santos descrita por uma distribuio de
Poisson.
Formulamos duas hipteses bsicas:
H
o
: hiptese nula ou da existncia;
H
1
: hiptese alternativa.
Testamos hipteses para tomarmos uma deciso entre duas alternativas. Por essa
razo, o Teste de Hiptese um Processo de Deciso Estatstica.
Tipos de Hiptese Designa-se por H
0,
chamada hiptese nula, a hiptese estatsti-
ca a ser testada, e por H
1
a hiptese alternativa. A hiptese nula expressa uma i-
gualdade, enquanto a hiptese alternativa dada por uma desigualdade.
Exemplo:
H
0
: = 1,65m
H : 1,65m
`
para testes bilaterais
(d origem a um teste
bicaudal)
H
0
: = 1,65m
H : > 1,65m
`
para testes unilaterais direita (d origem a um teste
unilateral direita)
H
0
: = 1,65m
H : < 1,65m
`
para testes unilaterais esquerda (d origem a um teste unicaudal esquerda)
O procedimento padro para a realizao de um Teste de Hipteses o seguinte:
Define-se as hipteses do teste: nula e alternativa;
Fixa-se um nvel de significncia (;
Levanta-se uma amostra de tamanho n e calcula-se uma estimativa \
0
do par-
metro \;
PUC Minas Virtual 103 Probabilidade e Estatstica
Usa-se para cada tipo de teste uma varivel cuja distribuio amostral do esti-
mador dos parmetros seja a mais concentrada em torno do verdadeiro valor do
parmetro;
Calcula-se com o valor do parmetro \
0
, dado por H
0
, o valor crtico, valor obser-
vado na amostra ou valor calculado (V
calc
);
Fixa-se duas regies: uma de no rejeio de H
0
(RNR) e uma de rejeio de H
0
ou crtica (RC) para o valor calculado, ao nvel de risco dado;
Se o valor observado (V
calc
) Regio de No Rejeio, a deciso a de no re-
jeitar H
0
;
Se V
calc
Regio Crtica, a deciso a de rejeitar H
0
.
Devemos observar que quando se fixa ( , determinamos para os testes bilaterais,
por exemplo, valores crticos (tabelados), V
(
, tais que:
P(|V
calc
|< V
(
)=1 - ( RNR
P(|V
calc
| V
(
)= ( RC
Testes de Hipteses para a Mdia de Populaes
normais com varincias ((
2
) conhecidas
Testes Bilaterais
De uma populao normal com varincia 36, toma-se uma amostra casual de ta-
manho 16, obtendo-se x=43. Ao nvel de 10%, testar as hipteses:
)H
0
: = 45
}
(
H
1
: 45
Soluo: Como o teste para mdia de populaes normais com varincia conheci-
da, usaremos a varivel Z: N(0,1) como critrio.
(
2
=36 x=43 n=16
PUC Minas Virtual 104 Probabilidade e Estatstica
'
Z =
x'
H 0
(
x
(
(
x'
=
n
Como o teste bilateral e ( =10%, a Regio de No Rejeio, (RNR), :
P(|Z|< Z
(
)=1 - ( P(|Z|<1,64)=0,90
Z
(
=Z5%=1,64
E a Regio de Rejeio (RC) dada por
P(Z c Z
(
) = ( P( Z
c 1,64) = 0,10
Como Z
calc
=-1,33
Temos que Z
calc
RNR
Logo, a deciso no rejeitarmos H
0
, isto , a mdia de 45, com 10% de risco de
no rejeitarmos uma hiptese falsa.
Testes Unilateral (Monocaudal) Esquerda
Uma fbrica anuncia que o ndice de nicotina dos cigarros da marca X apresenta-se
abaixo de 26 mg por cigarro. Um laboratrio realiza 10 anlises do ndice obtendo:
26,24,23,22,28,25,27,26,28,24. Sabe-se que o ndice de nicotina dos cigarros da
marca X se distribui normalmente com varincia 5,36 mg2. Pode-se aceitar a afir-
mao do fabricante, ao nvel de 5%?
PUC Minas Virtual 105 Probabilidade e Estatstica
)H
0
: = 26
}
(
H
1
: < 26
4RNR= (-1,64; +)
4RC = (- ; -1,64]
4Z
calc
RNR
No se rejeita H
0
, isto , ao nvel de 5% podemos concluir que a afirmao do fa-
bricante falsa.
Testes Unilateral (Monocaudal) Direita
Um fabricante de lajotas de cermica introduz um novo material em sua fabricaao
e acredita que aumentar a resistncia mdia, que de 206 kg. A resistncia das
lajotas tem distribuio normal, com desvio padro de 12 kg. Retira-se uma amos-
tra de 30 lajotas, obtendo-se X =210 kg. Ao nvel de 10%, pode o fabricante acei-
tar que a resistncia mdia de suas lajotas tenha aumentado?
)H
0
: = 206
}
(
H
1
: > 206
PUC Minas Virtual 106 Probabilidade e Estatstica
4RNR=(- ; 1,28)
4RC = [1,28; +)
4Z
calc
RC
Como Z
calc
> Z
(
, rejeita-se H
0
, isto , ao nvel de 10% o fabricante pode concluir
que a resistncia mdia de suas lajotas aumentou.
Erros de Deciso
Tipos de Erro H dois tipos possveis de erro ao testar uma hiptese estatstica.
Pode-se rejeitar uma hiptese quando ela , de fato, verdadeira, ou aceitar uma
hiptese quando ela , de fato, falsa. A rejeio de uma hiptese verdadeira
chamada erro tipo I. A aceitaao de uma hiptese falsa constitui um erro tipo II.
As probabilidades desses dois tipos de erros so designadas, respectivamente, por
( e .
A probabilidade ( do erro tipo I denomidada nvel de significncia do teste.
Resumindo:
Realidade
H
0
verdadeira
H
0
falsa
Deciso
Aceitar H
0
Deciso Correta (1-()
Erro tipo II ()
Rejeitar H
0
Erro tipo I (()
Deciso Correta (1 - )
Observe que o erro tipo I s poder ser cometido se se rejeitar H
0;
e o erro do tipo
II, quando se aceitar H
0
.
O objetivo, obviamente, reduzir ao mnimo as probabilidades dos dois tipos de
erros. Infelizmente, essa uma tarefa difcil porque, para uma amostra de deter-
minado tamanho, a probabilidade de se incorrer em um erro tipo II aumenta me-
dida que diminui a probabilidade do erro I. E vice-versa. A reduo simultnea dos
erros poder ser alcanada pelo aumento do tamanho da amostra.
PUC Minas Virtual 107 Probabilidade e Estatstica
UNIDADE 9
Correlao e Regresso Linear
9.1. Diagrama de disperso
9.2. Correlao Linear
9.3. Coeficiente de Correlao Linear
9.4. Regresso Reta de regresso
(ou reta de mnimos quadrados ou reta de ajuste)
Em muitas situaes, torna-se interessante e til estabelecer uma rela-
o entre duas ou mais variveis. A matemtica estabelece vrios tipos
de relaes entre variveis, por exemplo, as relaes funcionais e as
correlaes.
Relaes Funcionais
So relaes matemticas expressas por sentenas matemticas, cujos exemplos
apresentamos a seguir:
rea do retngulo (A=a.b) a relao entre os lados do retngulo;
Densidade de massa (d
m
= m/v) a relao entre a massa e o volume de um
corpo;
Permetro de uma circunferncia (C=2R) a relao entre o comprimento da
circunferncia e o valor do raio.
Relaes Estatsticas e Correlaes
So relaes estabelecidas aps uma pesquisa. Com base nos resultados da pes-
quisa, so feitas comparaes que eventualmente podem conduzir (ou no) liga-
o entre as variveis.
Exemplo: relao entre a idade e a estatura de uma criana, ou a rela-
o entre a classe social de uma pessoa e o nmero de viagens por ela
realizado.
PUC Minas Virtual 108 Probabilidade e Estatstica
No estudo estatstico, a relao entre duas ou mais variveis denomina-se correla-
o. A utilidade e importncia das correlaes entre duas variveis podem conduzir
descoberta de novos mtodos, cujas estimativas so vitais em tomadas de deci-
ses.
9.1. Diagrama de disperso
O diagrama de disperso um grfico cartesiano em que cada um dos eixos cor-
responde s variveis correlacionadas. A varivel dependente (Y) situa-se no eixo
vertical e o eixo das abscissas reservado para a varivel independente (X). Os
pares ordenados formam uma nuvem de pontos.
A configurao geomtrica do diagrama de disperso pode estar associada a uma
linha reta (correlao linear), uma linha curva (correlao curvilnea) ou, ainda, ter
os pontos dispersos de maneira que no definam nenhuma configurao linear;
nesta ltima situao, no h correlao.
100
90
80
70
60
50
40
30
20
10
0
0 1 2 3 4 5 6
18
16
14
12
10
8
6
4
2
0
0 1 2 3 4 5
Correlao Linear Correlao Curvilnea
Figura 9.1. Diagramas de disperso
9.2. Correlao Linear
Correlao linear uma correlao entre duas variveis, cujo grfico aproxima-se
de uma linha. uma linha de tendncia, porque procura acompanhar a tendncia
da distribuio de pontos, que pode corresponder a uma reta ou a uma curva. Por
outro lado, , tambm, uma linha mdia, porque procura deixar a mesma quanti-
dade de pontos abaixo e acima da linha.
PUC Minas Virtual 109 Probabilidade e Estatstica
25
20
15
10
5
0
0 1 2 3 4 5 6
100
90
80
70
60
50
40
30
20
10
0
0 1 2 3 4 5 6
Correlao Linear positiva
Correlao Linear negativa
8,5
8
7,5
7
6,5
6
5,5
5
0 2 4 6 8 10 12 14
18
16
14
12
10
8
6
4
2
0
0 1 2 3 4 5
No h correlao Relao curvilnea direta
Figura 9.2. Diagramas de disperso de diversos tipos de correlao.
Para definir se a correlao entre as variveis corresponde a uma linha reta ou a
uma curva, pode-se utilizar modos qualitativos ou quantitativos.
No modo qualitativo, vai imperar o bom senso do pesquisador para verificar qual
o grau de intensidade na correlao entre as variveis; isso significa o estabeleci-
mento de uma relao numrica que medir o nvel da correlao.
9.3. Coeficiente de Correlao Linear (r)
O coeficiente de correlao linear pode ser apresentado como uma medida de
correlao, pois tem como objetivo indicar o nvel de intensidade que ocorre na
correlao entre as variveis. O coeficiente de correlao linear pode ser positivo ou
negativo. O sinal positivo do coeficiente de correlao linear indica que o sentido da
correlao corresponde a uma reta de inclinao descendente, e o sinal negativo
corresponde a uma reta de inclinao ascendente. Uma das formas de medir o coe-
ficiente de correlao linear foi desenvolvido por Pearson e recebe o nome de coefi-
PUC Minas Virtual 110 Probabilidade e Estatstica
i i
|
i
ciente de correlao de Pearson. O coeficiente de correlao de Pearson mede o
grau de ajustamento dos valores em torno de uma reta.
Coeficiente de Correlao de Pearson (r):
n
x
i
y
i
(
x
i
)(y
i
)
r =
n
x
2
(
x
i
)
2
|* |n
y
2
(
y )
2
|
Temos
r = o coeficiente de Pearson
n = o nmero de observaes
x
i
= varivel independente
y
i
=varivel dependente
O valor do coeficiente de correlao r tem a variao entre +1 e 1, ou seja, est
limitado entre os valores do Intervalo[-1,+1].
r = +1 (correlao positiva entre as variveis);
r = - 1 (correlao perfeita negativa entre as variveis);
r = 0 (no h correlao entre as variveis ou, ainda, a correlao no linear,
caso exista).
Quanto mais prximo o valor de r estiver do valor 1, mais forte a correlao line-
ar.
Quanto mais prximo o valor de r estiver do valor 0, mais fraca a correlao line-
ar.
Em geral, multiplica-se o valor de r por 100; dessa forma, o resultado passa a ser
expresso em porcentagem. Na prtica, estabelecem-se critrios para verificar os
diversos nveis do fraco ao forte, chegando at o perfeito:
0<|r|<0,3 : a correlao fraca e fica difcil estabelecer relao entre as vari-
veis. Em porcentagem: 0<|r|< 30%;
0,3 o |r|< 0,6 : a correlao fraca, porm, podemos considerar a existncia de
relativa correlao entre as variveis. Em porcentagem: 30% o |r| <60%;
PUC Minas Virtual 111 Probabilidade e Estatstica
P
e
s
o
d
o
p
a
p
e
l
0,6 o |r| <1 : a correlao de mdia para forte; a relao entre as variveis
significativa, o que permite coerncia com poucos conflitos na obteno das con-
cluses. Em porcentagem: 60% o |r| o 100%.
Exemplo:
Uma pesquisa pretende verificar se h correlao significativa entre o
peso total do lixo descartado, por dia, numa empresa com o peso do
papel contido nesse lixo.
Hotel
H
1
H
2
H
3
H
4
H
5
H
6
H
7
H
8
H
9
H
10
Peso
total
10,4
7
19,85
21,2
5
24,3
6
27,38
58,09
33,6
1
35,75
38,33
49,14
Peso do
papel
2,43
5,12
6,88
6,22
8,84
8,76
7,54
8,47
9,55
11,43
De acordo com os dados, fazemos a representao grfica. Os pares ordenados
formam o diagrama de disperso.
14
12
10
8
6
4
2
0
10 20 30 40 50 60 70
Peso total do lixo
Figura 9.3. Correlao entre o peso total do lixo
descartado e o peso do papel contido nesse lixo
PUC Minas Virtual 112 Probabilidade e Estatstica
i i
|
i
r =
Para se verificar o grau de correlao entre as variveis, calcula-se o coeficiente de
correlao linear pela frmula do coeficiente de correlao de Pearson:
n
x
i
y
i
(
x
i
)(y
i
)
r =
n
x
2
(
x
i
)
2
|* |n
y
2
(
y )
2
|
Peso total (x
i
)
Peso papel (y
i
)
x
i
y
i
x
i
2
y
i
2
H
1
10,47
2,43
25,44
109,62
5,90
H
2
19,85
5,12
101,63
394,02
26,21
H
3
21,25
6,88
146,20
451,56
47,33
H
4
24,36
6,22
151,52
593,41
38,69
H
5
27,38
8,84
242,04
749,66
78,15
H
6
28,09
8,76
246,07
789,05
76,74
H
7
33,61
7,54
253,42
1129,63
56,85
H
8
35,73
8,47
302,63
1276,63
71,74
H
9
38,33
9,55
366,05
1469,19
91,20
H
10
49,14
11,43
561,67
2414,74
130,64
288,21
75,24
2396,68
9377,52
623,47
n
x
i
y
i
(
x
i
)(
y
i
)
|n
x
2
(
x
)
2
|* |n
y
2
(
y
)
2
|
i i i i
r =
10 * 2396,68 288,21* 75,24
[10 * 9377,52 (288,21)
2
] *[10 * 623,47 (75,24)
2
]
r =
23966 ,8 21684 ,9
=
[93775,2 83065 ] * [6234,7 - 5661,1]
2281,83
10 * 710,21 * 573,59
=
2281,83
2478,57
= 0,9206
PUC Minas Virtual 113 Probabilidade e Estatstica
i
2
r = 0,921 ou r = 92,1%
Observamos, assim: 0,6 o r o 1 . Esse resultado indica que h uma forte correlao
entre as variveis ou, ainda, que a correlao entre as duas variveis bastante
significativa. Nesse caso, podemos concluir haver coerncia na afirmao de que
existe correlao entre o peso total do lixo descartado e o peso do papel contido
nesse lixo.
9.4. Regresso Reta de regresso
(ou reta de mnimos quadrados ou reta de ajuste)
A correlao linear uma correlao entre duas variveis, cujo grfico aproxima-se
de uma linha. O grfico cartesiano que representa essa linha denominado dia-
grama de disperso. Para poder avaliar melhor a correlao entre as variveis,
interessante obter a equao da reta; essa reta chamada de reta de regresso e
a equao que a representa a equao de regresso. O diagrama de disperso
construdo de acordo com os dados amostrais de n observaes e a equao de
regresso dada pela expresso:
Y= aX + b Y = aX + b
X a varivel independente
YY a varivel dependente; na verdade, a varivel correlacionada com a vari-
vel X e sobre a qual se obtm um valor estimado.
Esse tipo de notao, de Y para Y, caracteriza que no se trata de uma relao
funcional para a determinao da reta, e sim de uma relao estatstica, em que a
distribuio est baseada em estimativas de dados colhidos por amostragem.
Sendo a e b os parmetros de equao da reta, esses podem ser calculados por
meio das frmulas:
n
x
i
y
i
x
i
*
y
i
a =
n
x
2
(
x
i
)
b = y a x
PUC Minas Virtual 114 Probabilidade e Estatstica
a =
Sendo:
n = nmero de observaes dos dados amostrais
y = valor mdio da varivel y; o clculo faz-se pela expresso
x = valor mdio da varivel x; o clculo faz-se pela expresso
y =
y
i
n
x =
=
x
i
n
Exemplo:
Determine a equao da reta de regresso do exemplo anterior, que tra-
ta de uma pesquisa entre o peso total do lixo descartado por dia com o
peso do papel contido nesse lixo.
Para a obteno da equao da reta de regresso, elabora-se inicialmente uma ta-
bela contendo nas colunas as variveis dependentes (y
i
), as independentes (x
i
) e os
produtos x
i
y
i
e x
i
2
.
Clculo do parmetro a da equao da reta:
n
x
i
y
i
x
i
*
y
i
=
10 * 2396,68 288 * 75,24
=
23996,8 - 21684,9
n
x
2
(
x )
2
10 * 9377,52 (288,21)
2
93775,2 - 83065
i i
a =
2281,83
= 0,213
10710,2
Clculo do parmetro b da equao da reta:
y =
75,24
10
= 7,52 e x =
288,21
= 28,82
10
b = y a x = 7,52 - 0,213 * 28,82 = 7,52 - 6,14 = 1,38
Uma vez calculados os parmetros a e b, pode-se escrever a equao da reta:
Y = 0,213 X + 1,38
PUC Minas Virtual 115 Probabilidade e Estatstica
Para o traado de uma reta, basta que se conhea dois de seus pontos. Assim, com
base na equao da reta acima, pode-se estabelecer dois pontos para X e Y.
Para X = 0, temos Y = 1,38
Para X = 50, temos Y = 12,03
De acordo com os pontos P
1
(0;1,38) e P
2
(50;12,03), pode-se traar a reta de re-
gresso.
14
y = 0,2131x + 1,3836
12
10
8
6
4
2
0
0 10 20 30 40 50 60
Figura 9.4. Correlao entre o peso total do lixo
descartado e o peso do papel contido nesse lixo
Com base no conhecimento da equao da reta, pode-se interpolar e extrapolar
valores.
Interpolao: a interpolao ocorre quando o valor considerado pertence ao in-
tervalo da tabela, porm, no figura entre os dados coletados.
Supondo-se o valor 15 kg para o peso total do lixo descartado, pode-se estimar o
peso de papel contido nesse lixo. Uma vez que 15 kg no um dado coletado e,
conseqentemente, no pertence tabela de dados, utiliza-se a equao da reta
para determinar o valor correspondente ao peso do papel.
Para 15 kg de lixo descartado, estima-se que haja 4,58 kg de papel contido nesse
lixo.
PUC Minas Virtual 116 Probabilidade e Estatstica
Extrapolao: a extrapolao ocorre quando o valor considerado no pertence ao
intervalo da tabela, e tambm no figura entre os dados coletados.
Suponha que o peso do lixo descartado seja de 60 kg. Esse valor no um dado
coletado e nem se encontra dentro do intervalo [10,47, 49,14]. Essa situao
semelhante anterior e utiliza-se a equao de reta para determinar o peso do
papel.
Para 60 kg de lixo descartado, estima-se, por extrapolao, que haja 14,16 kg de
papel contido nesse lixo.
PUC Minas Virtual 117 Probabilidade e Estatstica
Referncias Bibliogrficas
BUSSAB, W.O. e Morettin, P.A. Estatstica Bsica. So Paulo: Atual, 1987.
FONSECA, J.S. e Martins, G.A. Curso de Estatstica. So Paulo: Atlas, 1993.
LAPPONI, J.C. Estatstica usando Excel 5 e 6. So Paulo: Lapponi Treinamento e
Editora, 1997.
MORETTIN, L.G. Estatstica Bsica Vol. 2 Inferncia. So Paulo: Makron Books,
1999.
MORETTIN, L.G. Estatstica Bsica Vol.1 Probabilidade. So Paulo: Makron Bo-
oks, 1999.
STEVENSON,W.J. Estatstica Aplicada Administrao. So Paulo: Harbra, 1996.
TIBONI,C.G. R. Estatstica Bsica para o curso de Turismo. So Paulo: Atlas, 2002.
TOLEDO, G. L. e Ovalle, I.I. Estatstica Bsica. So Paulo: Atlas, 1985.