Escolar Documentos
Profissional Documentos
Cultura Documentos
1 Medidas de Assimetria
Diagnosticar se uma dada distribuição é ou não simétrica é fundamental em
Estatística, pois como discutimos antes, uma distribuição altamente assimétrica
enfraquece o valor da média como medida síntese dos dados, pois a média é abalada
por valores extremos. Além disso, muitos todos testes estatísticos para tomada de
decisão sob incerteza dependem de hipóteses sobre distribuições simétricas, como a
distribuição Normal, que estudaremos mais adiante nesse curso. Daí a importância
desse tópico em Estatística.
Toda distribuição pode ser classi…cada como simétrica, assimétrica à direita
(ou positiva) e assimétrica à esquerda (ou negativa). Os grá…cos abaixo ilustram os
três casos:
Simétrica (Xn = M ed = M o)
1
Assimétrica à Direita (M o < M ed < Xn )
Xn Mo
As =
S
onde Xn , M o e S são, respectivamente, a média, a moda e o desvio-padrão da
amostra.
Decisão:
(a) Se As = 0, então a distribuição é simétrica.
(b) Se As > 0, então a distribuição é assimétrica positiva ou à direita.
(c) Se As < 0, então a distribuição é assimétrica negativa ou à esquerda.
Além disso:
(i) se jAs j 0; 15, a distribuição é considerada simétrica;
(i) se 0; 15 < jAs j 1, a assimetria é considerada moderada;
(ii) se jAs j > 1, a assimetria é considerada forte.
2 Medidas de Curtose
2
Há várias medidas de curtose, mas nos ateremos apenas ao Coe…ciente de
Curtose de Pearson (K) dado pela fórmula:
4
K= 2
2
onde Pn 4
i=1 xi Xn
4 =
n
e Pn 2
i=1 xi Xn
2 =
n
Decisão:
(a) Se K < 3, então a distribuição é platicúrtica.
(b) Se K = 3, então a distribuição é mesocúrtica.
(c) Se K > 3, então a distribuição é leptocúrtica.
3
(5 22)2 + 3 22)2 + 4 (25 22)2 + 2
(15 (35 22)2
S2 =
9
289 + 147 + 36 + 338 810
= =
9 9
p
S 2 = 90 e S = 90 = 9; 4868
Assim
Xn Mo
22 25
As = =
= 0; 3162
S 9; 4868
Como As < 0, então a distribuição é assimétrica negativa ou à esquerda. Além
disso, como 0; 15 < jAs j = 0; 3162 1, a assimetria é considerada moderada.
Analisemos agora os dados, quanto ao grau de achatamento (curtose).
P10 4
i=1 xi X10
4 =
10
(5 22)4 + 3 (1522)4 + 4 (25 22)4 + 2 (35 22)4
=
10
83:521 + 7:203 + 324 + 57:122
=
10
148:170
=
10
4 = 14:817
P10 2
i=1 xi X10
2 =
10
(5 22)2 + 3 (1522)2 + 4 (25 22)2 + 2 (35 22)2
=
10
289 + 147 + 36 + 338 810
= = =
10 10
2 = 81
Assim
4 14:817 14:817
K= 2
= 2 =
2 (81) 6:561
K = 2; 2583
Portanto, como K = 2; 2583 < 3, então a distribuição é platicúrtica.
4
Média: 22; 30 Mediana: 22; 00
Moda: 22; 00 1o Quartil: 20; 00
Sexo Masculino:
3o Quartil: 25; 00 Variância: 7; 51
Mínimo: 17; 00 Máximo: 26; 00
Exercício 2 Houve uma denúncia por parte dos operários de uma indústria de que,
toda vez que ocorreria um acidente em uma seção da indústria, ocorreriam outros em
outras seções mais ou menos no mesmo horário. Em outras palavras, os acidentes
não estavam ocorrendo ao acaso. Para veri…car esta hipótese, foi feita uma contagem
do número de acidentes por hora durante um certo número de dias (24 horas por
dia). Os resultados da pesquisa estão abaixo:
3 Coe…ciente de Correlação
Vimos anteriormente que o diagrama de dispersão (scatterplot) é usado quando
desejamos avaliar a relação entre duas variáveis. A visualização é um primeiro passo
para um entendimento dessa possível in‡uência de uma variável sobre outra, mas
há que se medir a correlação entre elas. O coe…ciente de correlação (r) é a
medida comumente utilizada para se avaliar a correlação linear entre duas variáveis
quantitativas.
5
Suponha que tenhamos uma amostra de n pares de dados (xi ; yi ), i =
1; 2; :::; n, onde x é a variável explicativa (também denominada independente ou
covariável), que procura explicar o comportamento da variável resposta y (também
denominada dependente). Assim, por exemplo, se desejamos saber se o número
de cigarros fumados por dia tem relação com a capacidade pulmonar, então x é o
número de cigarros fumados por uma unidade experimental e y a medição de sua
capacidade pulmonar. Assim temos um conjunto de dados do tipo
Pn
i=1 xi Xn : yi Yn
r = qP qP
n 2 n 2
i=1 xi Xn i=1 yi Yn
ou então de forma mais simpli…cada para o cálculo:
Pn P P
n i=1 xi :yi ( ni=1 xi ) : ( ni=1 yi )
r=q P Pn q P P
2 2
n ni=1 x2i ( i=1 xi ) n ni=1 yi2 ( ni=1 yi )
6
Vemos que na correlação linear positiva, a melhor reta que passa por entre os
pontos tem coe…ciente angular positivo, indicando que, quando a variável explicativa
cresce, a variável resposta tende a crescer também. No exemplo puramente ilustra-
tivo acima, a nota do vestibular tem correlação positiva com a média das notas da
graduação de 18 alunos que participaram da amostra.
Vemos que na correlação linear negativa, a melhor reta que passa por entre
os pontos tem coe…ciente angular negativo, indicando que, quando a variável explica-
tiva cresce, a variável resposta tende a decrescer. No exemplo acima, as horas de
treinamento, à luz da amostra de 20 funcionários de uma dada indústria, guardam
uma correlação negativa com o número de acidentes.
7
Propriedades do Coe…ciente de Correlação (r)
(1) O coe…ciente de correlação é sempre um número entre 1 e 1, isto é, r 2
[ 1; 1], e mede o grau de ajuste da reta aos pontos no plano cartesiano.
Mais do que medir o grau de correlação linear entre duas variáveis quantitati-
vas, interessa-nos também obter a equação da melhor reta que passa pelos pontos
observados, pois através dessa reta podemos estimar a variável resposta para valores
não observados da variável explicativa. A melhor reta é obtida através do Cálculo
Diferencial, pelo uso da derivação parcial e sua demostração está além do escopo
desse curso introdutório.
8
O Método de Mínimos Quadrados, desenvolvido por Gauss, consiste em
obter a e b, a …m de minimizar a soma dos quadrados dos erros entre o valor
observado da variável resposta e seu valor estimado pela reta de regressão, isto
é, minimizar
Xn
2
Xn
(yi y^i ) = (yi axi b)2 ,
i=1 i=1
conforme a ilustração abaixo:
9
A primeira coisa a se fazer, como dissemos antes, é construir um diagrama
de dispersão para avaliar gra…camente uma possível relação entre as variáveis em
estudo. No nosso caso, a variável explicativa, ou covariável, x, é o número de faltas
e a variável resposta, y, é a média …nal do ano letivo. O diagrama de dispersão é
dado por:
10
r= 0; 975 ou r = 97; 5%
Vemos então uma alta correlação negativa entre as duas variáveis em estudo,
con…rmando nossa análise do diagrama de dispersão. O coe…ciente de determinação
é dado por r2 = ( 0; 975)2 = 0; 9506 = 95; 06%. Assim apenas 4; 94% das notas
…nais não são explicadas pelo número de faltas dos alunos.
Vamos agora então obter a equação da reta de regressão
y^i = axi + b
onde
P7 P7 P7
7 xi :yi
i=1 i=1 xi : i=1 yi
a = P7 P 7 2
7 i=1 x2i i=1 xi
7 3:751 57 516
=
7 579 572
3:155
=
804
a= 3; 924
b = Y7 a:X7
516 57
= ( 3; 924) :
7 7
b = 105; 667
A reta de regressão tem a equação dada por
Ou seja, esperaríamos que um aluno com 4 faltas obtivesse média …nal de 89; 97.
11
Cap. Prod. Inst. (ton.) 4 5 4 5 8 9 10 11 12 12
Potência Inst. (1000 kW) 1 1 2 3 3 5 5 6 6 6
Área Construída (100 m) 6 7 10 10 11 9 12 10 11 14
(a) Com base num critério estatístico, qual das variáveis (potência instalada ou
área construída) você escolheria para estimar a capacidade de produção instalada?
Justi…que solidamente.
(b) Tendo escolhido a variável que melhor estima a capacidade de produção in-
stalada, obtenha a reta de regressão das variáveis envolvidas.
Exercício 4 Com o objetivo de veri…car até que ponto o "status" da relação amorosa
- casamento ou namoro - in‡ui na percepção do amor por parte dos jovens, foi apli-
cada uma escala de atitudes em 16 pares, sendo oito compostos de namorados e oito
de casados. Uma das suposições das autoras era que entre casados haveria maior
concordância de atitude do que entre namorados, ou seja, que os dois membros do
mesmo par teriam o mesmo enfoque no amor - romântico ou não. Os resultados
apenas dos 8 pares casados estão apresentados abaixo.
Comparação entre Homens e Mulheres Casados quanto ao Grau de Romantismo:
Pede-se:
(a) Construir um Diagrama de Dispersão para os dados coletados.
(b) Determinar o Coe…ciente de Correlação Linear, e tirar conclusões.
(c) Determinar a reta de regressão de Y como variável resposta e X como covar-
iável.
(d) Determinar a reta de regressão de X como variável resposta e Y como covar-
iável.
(e) Estimar o grau de romantismo da mulher, quando o homem apresenta resul-
tado 74.
(f) Estimar o grau de romantismo do homem, quando a mulher apresenta resul-
tado 71.
12