Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatı́stica Descritiva
1
Estatı́stica Básica
1 Somatório
a) Somatório simples:
n
X
xi = x1 + x2 + · · · + xn .
i=1
b) Somatório de quadrados:
n
X
x2i = x21 + x22 + · · · + x2n .
i=1
c) Quadrado do somatório:
n
!2
X
xi = (x1 + x2 + · · · + xn )2 .
i=1
d) Somatório de produtos:
n
X
xi y i = x1 y 1 + x2 y 2 + · · · + xn y n .
i=1
e) Produto de somatórios:
n
X k
X
xi yi = (x1 + x2 + · · · + xn )(y1 + y2 + · · · + yk ).
i=1 i=1
2
Estatı́stica Básica
f) Somatório duplo:
n X
X k n
X
zij = (zi1 + zi2 + · · · + zik ) = (z11 + z12 + · · · + z1k )+· · ·+(zn1 + zn2 + · · · + znk ) .
i=1 j=1 i=1
A seguir, apresentamos algumas propriedades do somatório que podem ser úteis quando
estamos operando.
Exemplo 1: Considere três conjuntos com 6 elementos cada descritos na tabela abaixo:
i 1 2 3 4 5 6
xi 2 3 4 3 2 1
fi 4 5 6 8 10 12
gi 10 6 12 4 5 10
12) + (3 + 8 + 4) = 14 + 22 + 15 = 41.
3
Estatı́stica Básica
Exercı́cio:
A tabela a seguir apresenta a variação do preço do dólar no mês de setembro de 2008 e a
compra da moeda realizada por duas empresas. A variável c(x) representa a compra de
dólares pelas duas empresas.
Qual foi a empresa que investiu mais nestes cinco dias do mês de setembro de 2008? E
quanto investiu em reais?
4
Estatı́stica Básica
2 Principais definições
• População: conjunto de indivı́duos (ou objetos, elementos) que tem em comum pelo
menos uma variável observável.
6
Estatı́stica Básica
Podemos tabular um conjunto de dados a fim de obter um resumo e/ou uma apresentação
dos dados. A tabulação pode ser feita para variáveis qualitativas ou quantitativas. Se-
guem alguns exemplos.
A tabela abaixo é simples e não faz nenhum tipo de redução dos dados, apenas organiza.
7
Estatı́stica Básica
8
Estatı́stica Básica
Considere que:
• k é o número de classes;
• ni é a frequência absoluta, n1 + n2 + · · · + nk = n;
ni
• fi é a frequência relativa, fi = ;
n
i
X
• fiac é a frequência relativa acumulada, fiac = fj .
j=1
Importante: O número de classes (k) para uma tabela de frequências pode ser obtido
utilizando os seguintes métodos:
√
n, se n > 25;
k =
5, caso contrário.
• Método de Sturges:
k = 1 + 3, 22 log10 n (1)
9
Estatı́stica Básica
Exemplo. Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni =
18, fi = 0, 50) e superior (ni = 6, fi = 0, 17).
em que:
ni : frequência absoluta;
fi : frequência relativa;
%: porcentagem;
fac : frequência relativa acumulada.
Tabela 3: Dados
Banco/Avenida A1 A2 A3 Total
B1 25 35 24 84
B2 32 28 27 87
B3 27 33 31
B4 41 60 25 126
Total 125 156 107 388
10
Estatı́stica Básica
Exemplo. Foi realizada uma pesquisa com 20 funcionários de uma empresa para avaliar
a preferência entre dois produtos (A e B). A tabela abaixo apresenta os resultados das
seguintes caracterı́sticas investigadas: Renda do trabalho em número de salários mı́nimos
(X); Sexo (F - feminino e M - masculino); Preferência entre os produtos A ou B.
Entrevistado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
No salários (X) 2 3,7 1,7 3 4 5 1,4 3 3 1,8 6 4,8 2,3 1,5 3,2 2,2 1 4,4 2 2
Sexo M M F M F M M F F F M M F M F F M F M F
Preferência A B A B B B A B A A B B A A A A A B A A
11
Estatı́stica Básica
• Qualitativas:
– gráfico de colunas/barras;
– gráfico de setores;
• Quantitativas:
– gráfico de colunas/barras;
– gráfico de linhas;
– gráfico de dispersão;
– ramo e folhas;
– ogiva;
– histograma;
– polı́gono de frequências.
Todos os gráficos a seguir foram gerados utilizando o software livre R. Você pode fazer o
download do programa pela site oficial: https://cran.r-project.org/
Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni = 18, fi = 0, 50)
e superior (ni = 6, fi = 0, 17).
12
Estatı́stica Básica
15
Frequência
10
5
0
Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni = 18, fi = 0, 50)
e superior (ni = 6, fi = 0, 17).
1(33.3%)
2(50%) 3(16.7%)
Pode vir acompanhado com uma legenda ou porcentagens ao lado das respostas.
13
Estatı́stica Básica
{0, 1, 2, 0, 0, 0, 0, 0, 1, 0, 2, 0, 0, 3, 0, 0, 1, 2, 0, 0, 1, 0, 0, 0, 2, 2, 0, 0, 5, 2, 0, 1, 3, 0, 2, 3}.
5
4
Nº de filhos
3
2
1
0
0 5 10 15 20 25 30 35
Estudantes
14
Estatı́stica Básica
Útil para séries temporais ou para relacionar duas variáveis quantitativas. Variáveis: Ve-
locidade (4, 4, 7, 7, 8, 9, 10, 10, 10, ..., 24, 25) e Distância (10, 4, 22, 16, 10, 18, 26, 34, ..., 120,
85).
120
●
100
●
●
● ●
80
●
●
Distância
●
●
●
●
60
●
● ●
● ●
●
●
●
● ●
●
40
● ●
● ●
● ●
● ● ●
● ●
● ● ● ●
●
●
20
● ●
● ●
●
●
● ●
●
●
0
5 10 15 20 25
Velocidade
15
Estatı́stica Básica
9 | 168
10 | 4588
11 | 2223345566668889
12 | 0111113334666667788999
13 | 00012223344444455566678
14 | 11123344445666677889
15 | 000344447788
4.6 Ogiva
Exemplo. Variável: Velocidade (4, 4, 7, 7, 8, 9, 10, 10, 10, 11, 11,..., 24, 24, 24, 24, 25),
com frequências relativas = 0.03703704, 0.03703704, 0.01851852, 0.01851852, 0.05555556,
0.03703704, ..., 0.01851852, 0.07407407, 0.09259259).
1.0
●
0.8
Proporção Acumulada (Fac)
●
●
●
0.6
●
●
●
0.4
●
0.2
●
●
●
●
●
●
0.0
5 10 15 20 25
Velocidade
16
Estatı́stica Básica
4.7 Histograma
∆ 19, 30
∆i = = = 3, 86 ≈ 4,
5 5
(sempre arredondar para mais, garantindo que o último valor seja incluı́do).
Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,0700
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,0550
[16,20) 18 5 0,14 14 0,97 0,0350
[20,24) 22 1 0,03 3 1,00 0,0075
Total - 36 1,00 100 - -
em que:
xi : ponto médio do i-ésimo intervalo de classe;
ni : frequência absoluta do i-ésimo intervalo de classe;
fi : frequência relativa do i-ésimo intervalo de classe;
%: porcentagem do i-ésimo intervalo de classe;
fac : frequência relativa acumulada até o i-ésimo intervalo de classe;
17
Estatı́stica Básica
Note que:
• os histogramas são formados por retângulos cujas bases são os intervalos de classes
dos dados agrupados e as alturas são as densidades de cada classe (di ).
ni fi
• podemos ter histogramas de frequências (di = δi
), de proporção (di = δi
) e de por-
100fi
centagem (di = δi
).
33%
0.08
Densidade de Frequência
28%
0.06
22%
0.04
14%
0.02
3%
0.00
0 4 8 12 16 20 24
Salário
Figura 6: Histograma.
18
Estatı́stica Básica
0.10
0.08
●
●
0.06
Densidade
●
0.04
●
0.02
●
0.00
● ●
0 5 10 15 20 25 30
Salário
Figura 7: Polı́gono de frequências.
●
Densidade de Frequência
●
0.06
●
0.04
●
0.02
●
0.00
● ●
0 4 8 12 16 20 24
Salário
Figura 8: Histograma e polı́gono de frequências.
19
Estatı́stica Básica
Exercı́cio: Considere um conjunto com os dados de idade (em meses) de uma determinada
planta.
1 2 2 6 8 9 15 17 20 20
20 21 27 29 29 35 37 37 43 48
Faça o histograma com 5 classes iniciando no menor valor do conjunto. E, em seguida, o
polı́gono de frequência.
20
Estatı́stica Básica
{2, 3, 4, 5, 7, 9, 10},
{2, 3, 4, 5, 7, 7, 9, 10},
– Média Geométrica:
√
x̄g = n
x1 × x2 × · · · x n .
– Média Harmônica:
n
x̄h = Pn 1 .
i=1 xi
4 ∗ 1 + 7 ∗ 3 + 5 ∗ 2 + 3 ∗ 1 + 9 ∗ 3 + 10 ∗ 2 + 2 ∗ 1
x̄p = ≈ 6, 69;
13
√
7
3. x̄g = 4 × 7 × 5 × 3 × 9 × 10 × 2 ≈ 4, 98;
7
4. x̄h = 1 ≈ 4, 28.
4
+ + + + 19 +
1
7
1
5
1
3
1
10
+ 1
2
Podemos utilizar a seguinte fórmula para encontrar a posição dos quantis de forma
geral:
s(n + 1)
,
r
em que s é a ordem do quantil (quartil {1, 2, 3}; decil {1, 2, · · · , 9}; percentil {1, 2, · · · , 99}),
r é o quantil desejado (4,10 ou 100) e n é o tamanho do conjunto de dados.
Exemplo: Seja X = {160, 145, 133, 144, 152, 167, 200, 156, 143, 144, 167, 177, 160, 153, 155}
com n = 15 observações. Encontre os quartis, D3 , P25 e P10 .
Ordenando, obtemos:
{133, 143, 144, 144, 145, 152, 153, 155, 156, 160, 160, 167, 167, 177, 200}.
1. D3 : encontrando a posição
s(n + 1) 3 ∗ (15 + 1)
= = 4, 8 ≈ 5,
r 10
logo D3 = 145;
25 ∗ (15 + 1)
= 4,
100
logo P25 = 144;
10 ∗ (15 + 1)
= 1, 6 ≈ 2,
100
logo P10 = 143.
• Média Aritmética: PK K
i=1 xi ni X
x̄ = = x i fi .
n i=1
Exemplo: Seja X = {4, 00; 4, 56; 5, 25; 5, 73; 6, 26; 6, 66; 6, 86; 7, 39; 7, 59; 7, 44; 8, 12; 8, 46; 8, 74;
8, 95; 9, 13; 9, 35; 9, 77; 9, 80; 10, 53; 10, 76; 11, 06; 11, 59; 12, 00; 12, 79; 13, 23; 13, 60; 13, 85; 14, 69;
14, 71; 15, 99; 16, 22; 16, 61; 17, 26; 18, 75; 19, 40; 23, 30}, agrupado em 5 intervalos de classes:
Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,07
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,055
[16,20) 18 5 0,14 14 0,97 0,035
[20,24) 22 1 0,03 3 1,00 0,0075
0.10
33%
0.08
Densidade de Frequência
28%
0.06
22%
0.04
14%
0.02
3%
0.00
0 4 8 12 16 20 24
Salário
1. Moda = 10.
2. Mediana = 10,67 (obtida via histograma). Como determinar? A mediana deixa 50%
dos dados abaixo dela. No primeiro retângulo do histograma, temos 28% dos dados
24
Estatı́stica Básica
(f1 ) que não é suficiente, então temos que somar mais a proporção de 33% do se-
gundo retângulo, que já ultrapassa os 50% da mediana. Logo, a mediana é um valor
no intervalo de 8 até 12, que determina um retângulo de área 22% para somar com
os 28% do retângulo anterior e totalizar 50%. Temos a seguinte equação:
• Suponha que queremos pensar em dispersão dos dados em torno da sua média
aritmética. Então, poderı́amos olhar para as diferenças de cada xi , para i = 1, · · · , n,
em relação à média x̄, isto é,
xi − x̄,
que é sempre igual a zero para qualquer que seja X. Para contornar esse problema,
temos as seguintes propostas:
25
Estatı́stica Básica
• DM A(X) =
|4 − 5, 72| + |7 − 5, 72| + |5 − 5, 72| + |3 − 5, 72| + |9 − 5, 72| + |10 − 5, 72| + |2 − 5, 72|
=
7
14, 53143;
42 + 72 + 52 + 32 + 92 + 102 + 22
• V AR(X) = − 5, 722 ≈ 7, 92;
7
p
• DP (X) = 7, 92 ≈ 2, 81;
3+4 7+9
• IQ(X) = 8 − 3, 5 = 4, 5, pois Q1 (X) = 3, 5 e Q3 (X) = 8 extraı́dos
2 2
do conjunto ordenado {2, 3, 4, 5, 7, 9, 10} com 7 observações;
2, 81
• CV (X) = ≈ 0, 49.
5, 72
PK K K
i=1 (xi − x̄)2 ni X X
• V ar(X) = = (xi − x̄)2 fi = x2i fi − (x̄)2 .
n i=1 i=1
26
Estatı́stica Básica
Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,07
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,055
[16,20) 18 5 0,14 14 0,97 0,035
[20,24) 22 1 0,03 3 1,00 0,0075
0.10
33%
0.08
Densidade de Frequência
28%
0.06
22%
0.04
14%
0.02
3%
0.00
0 4 8 12 16 20 24
Salário
Calculando:
PK
|xi − x̄|ni
i=1
• DM A(X) = =
n
|6 − 11, 24| × 10 + |10 − 11, 24| × 12 + |14 − 11, 24| × 8 + |18 − 11, 24| × 5 + |22 − 11, 24| × 1
=
36
3, 72;
K
X
• V ar(X) = x2i fi − (x̄)2 = (62 × 0, 28 + 102 × 0, 33 + 142 × 0, 22 + 182 × 0, 14 + 222 ×
i=1
0, 03) − (11, 24)2 ≈ 19, 74;
27
Estatı́stica Básica
p
• DP (X) = 19, 7 ≈ 4, 44;
• IQ(X) = Q3 (X) − Q1 (X) = 14, 545455 − 7, 571429 = 6, 974026, pois através do histo-
grama determinamos os quartis:
• Se Y = {a, a, · · · , a}, então todas as medidas de posição são iguais a ”a”e todas as
medidas de dispersão são iguais a zero.
• Seja o conjunto Y = {ax1 , ax2 , · · · , axn }, então ȳ = ax̄, M o(Y ) = aM o(X), M d(Y ) =
aM d(X); DM A(Y ) = |a|DM A(X), V ar(Y ) = a2 V ar(X), DP (Y ) = |a|DP (X),
IQ(Y ) = |a|IQ(X).
• as médias de Y , Z, e W :
z̄ = x̄ + 4 = 5, 72 + 4 = 9, 72;
• as medianas de Y , Z, e W :
M d(Z) = M d(X) + 4 = 5 + 4 = 9;
M d(W ) = 2M d(X) − 1 = 2 × 5 − 1 = 9.
• as variâncias de Y , Z, e W :
• os desvios padrões de Y , Z, e W :
p √
DP (Y ) = V ar(Y ) = 71, 28 = 8, 442748;
p √
DP (Z) = V ar(Z) = 7, 92 = 2, 814249;
p √
DP (W ) = V ar(W ) = 31, 68 = 5, 628499.
2. Encontre a média e a variância destes ı́ndices, supondo que houve um erro de medição
de 10 mg/dL para menos em todos os pacientes.
3. Supondo, ainda, que houve um erro de medição de 10 mg/dL para menos em todos
os pacientes, determine a média e a variância dos ı́ndices multiplicados por -2.
30
Estatı́stica Básica
6 Assimetria e Curtose
Vamos falar agora de duas formas de classificação de um conjunto de dados que auxiliam
na sua descrição e entendimento, a assimetria e a curtose.
6.1 Assimetria
Um conjunto de dados é dito ser simétrico se sua moda, mediana e média são iguais.
Da mesma forma, se os lados direito e esquerdo do diagrama/gráfico de pontos (ou de
barras), ou do histograma, são a imagem espelhada um do outro. Observe que, para
discutirmos assimetria o conjunto de dados deve ser unimodal.
Caso seja não seja simétrico, dizemos que é assimétrico. Um conjunto de dados é as-
simétrico à direita se a cauda direita do histograma se estende muito mais do que a cauda
esquerda, ou seja, a cauda declina para direita. Nesse caso, temos média>mediana>moda.
E um conjunto de dados é assimétrico à esquerda se a cauda esquerda do histograma
se estende muito mais do que a cauda direita, ou seja, a cauda declina para esquerda.
Nesse caso, temos média<mediana<moda. Seja um conjunto de dados com n observações
x̄ − M o(X)
e= .
DP (X)
Note que:
2. se e > 0, então x̄ − M o(X) > 0 (lembre que DP (X) ≥ 0, sempre), daı́ x̄ > M o(X),
logo a distribuição de valores é assimétrica à direita;
3. se e < 0, então x̄ − M o(X) < 0 (lembre que DP (X) ≥ 0, sempre), daı́ x̄ < M o(X),
logo a distribuição de valores é assimétrica à esquerda.
2 3 4 5 6 7 8 9 10
X
x̄ − M o(X) 5, 56 − 4
e= = = 3, 55 > 0,
DP (X) 0, 44
6.2 Curtose
m4 (X)
c= − 3,
DP (X)4
Pn
i=1 (xi − x̄)4
em que m4 (X) = .
n
Como a curtose da normal padrão é 3, o valor limiar para a classificação da curtose é o
zero. Portanto, dizemos que X é:
1. Leptocúrtica: se c > 0;
2. Mesocúrtica: se c = 0;
33
Estatı́stica Básica
3. Platicúrtica: se c < 0.
m4 (X) 2, 05
c= − 3 = − 3 = 51, 69 > 0,
DP (X)4 0, 444
34
Estatı́stica Básica
7 Boxplot
O Boxplot é uma representação gráfica que para ser construı́do e entendido precisa dos
conhecimentos apresentados anteriormente sobre medidas de posição e dispersão. Por
isso, dapresentaremos esse gráfico somente agora. Esta representação gráfica é bastante
rica no sentido de informar a variabilidade e simetria dos dados, envolvendo os quar-
tis do conjunto observado. Além disso, podemos observar se os dados possuem valores
discrepantes (outliers).
7.1 Construção:
O Boxplot é construı́do a partir de um retângulo em que o nı́vel superior é dado pelo ter-
ceiro quartil e o nı́vel inferior pelo primeiro quartil. A mediana é representada por um
traço no interior do retângulo e os segmentos de reta são colocados do retângulo até os
valores máximo e mı́nimo, que não sejam observações discrepantes.
As observações que estiverem acima do limite superior (LS ) ou abaixo do limite inferior
3
(LI ) são denominadas de valores discrepantes (pontos exteriores). LI = Q1 − IQ , LS =
2
3
Q3 + IQ e IQ = Q3 − Q1 .
2
60.0 60.5 63.0 63.5 66.0 67.0 68.5 70.0 71.0 71.0 72.8 73.0 73.0 75.0 79.0 80.9 84.0 85.2 86.0 87.0
95.0 97.0
Primeiro, precisamos verificar se os dados estão ordenados. Nesse caso, estão em ordem
crescente. Precisamos calcular:
52 + 52 58 + 58 68, 5 + 70
• Q1 = = 52, Q2 = = 58 e Q3 = = 69, 25;
2 2 2
• IQ = Q3 − Q1 = 69, 25 − 52 = 17, 25;
3 3
• LI = Q1 − IQ = 52 − 17, 25 = 26, 125;
2 2
3 3
• LS = Q3 + IQ = 69, 25 + 17, 25 = 95, 125.
2 2
Assim, determinamos as alças superior igual a 44 e inferior igual 95, levando ao dado
discrepante 97 que é maior do que o LS de 95,125.
●
90
80
Peso (Kg)
70
60
50
Podemos também ter vários boxplots juntos a fim de comparar diferentes conjuntos de
dados. O eixo y das ordenadas continua igual e apenas usamos o eixo x das abscissas para
distanciarmos os boxplots, sem nenhuma interpretação numérica.
Exercı́cio 1 Suponha que no exercı́cio anterior, sobre os ritmos cardı́acos de repouso, uma
das 10 observações foi corrigida (devido a um erro de registro), sendo 105 bpm ao invés
36
Estatı́stica Básica
de 99 bpm, obtendo-se o novo conjunto de dados (dados fictı́cios): 51, 55, 77, 105, 60, 75,
77, 85, 65, 62. Construa o boxplot.
Exercı́cio 2 Considere o tempo (em minutos) de atendimento em um determinado banco
para um conjunto de 20 pessoas: 2; 2; 2; 3; 3; 4; 4; 4; 4; 4; 5; 5; 6; 6; 10; 12; 15; 17; 23; 25.
Construa o gráfico de boxplot e interprete.
37
Estatı́stica Básica
Quando temos disponı́vel duas variáveis quantitativas pareadas (mesmo número de observações),
inicialmente, uma inspeção visual pode ser feita através de um gráfico de dispersão. Va-
mos desenvolver o conceito dentro de um exemplo.
Exemplo. Suponha as variáveis: Anos de Estudo (6, 4, 8, 8, 9, 12, 13, 9, 25, 15) e Salário
Médio (1, 0.9, 1.2, 1.5, 1.8, 3, 2.5, 2, 10, 4) em milhares.
10
●
Salário Médio (em milhares)
8
6
●
4
●
●
●
2
●
●
●
● ●
5 10 15 20 25
Anos de Estudo
Figura 13: Gráfico de Dispersão das variáveis Anos de Estudo e Salário Médio.
Podemos ainda, utilizar o coeficiente de correlação linear de Pearson para verificar se há
indı́cios de uma relação linear significativa entre essas duas variáveis.
Para utilizar esse coeficiente, precisamos de observações de variáveis pareadas, da forma
{(x1 , y1 ), (x2 , y2 ), · · · , (xn , yn )}. Isso ocorre no caso do exemplo.
38
Estatı́stica Básica
tal que cov(X, Y ) = n1 ni=1 [(xi − x̄)(yi − ȳ)] , representa a covariância entre X e Y .
P
Assim definido, o coeficiente somente assume valores no intervalo [−1, 1]. E, sua interpretação
segue:
• valores do coeficiente mais próximos de -1, indicam maior relação linear negativa/decrescente;
x̄ = 10, 9 e ȳ = 2, 79;
em que X representa a variável Anos de Estudo e Y representa o Salário Médio.
Assim, obtemos que
Pn
xi yi − nx̄ȳ
cor(X, Y ) = p Pn 2 i=1
( i=1 xi − nx̄2 ) ( ni=1 yi2 − nȳ 2 )
P
443, 9 − 10 ∗ 10, 9 ∗ 2, 79
= p = 0, 944116,
(1505 − 10 ∗ (10, 9)2 ) (143, 99 − 10 ∗ (2, 79)2 )
39
Estatı́stica Básica
Banco/Avenida A1 A2 A3 Total
B1 25 35 24 84
B2 32 28 27 87
B3 27 33 31 91
B4 41 60 25 126
Total 125 156 107 388
Será que a quantia de empréstimos varia de acordo com o banco? Podemos calcular
o coefiente de contigência para começar a responder essa pergunta. Para esse cálculo,
precisamos primeiro construir a tabela de contigência dos dados que contempla tanto a
frequência observada (oij ) quanto a esperada(eij ), caso haja independência entre as variáveis.
A frequência esperada de cada casela da tabela é dada por:
Banco/Avenida A1 A2 A3 Total
oij eij oij eij oij eij
B1 25 27,06 35 33,77 24 23,17 84
B2 32 28,03 28 34,98 27 23,99 87
B3 27 29,32 33 36,59 31 25,10 91
B4 41 40,59 60 50,66 25 34,75 126
Total 125 - 156 - 107 - 388
40
Estatı́stica Básica
s
χ2
C= ,
χ2 + total geral
X X (oij − eij )2
tal que χ2 = é a medida de qui-quadrado e o total geral é o número
i j
eij
total de observações.
(25 − 27, 06)2 (35 − 33, 77)2 (24 − 23, 17)2 (32 − 28, 03)2 (25 − 34, 75)2
χ2 = + + + +· · ·+ = 8, 95.
27, 06 33, 77 23, 17 28, 03 34, 75
Logo, r
8, 95
C= = 0, 15
8, 95 + 388
indicando que não há relação entre as variáveis.
Uma medida mais robusta é obtida pelo coeficiente de contigência corrigido:
C
C∗ = p ,
(t − 1)/t
Exercı́cios.
1. Uma amostra de 10 casais e seus respectivos salários anuais (em salários mı́nimos)
foi colhida em um certo bairro conforme abaixo:
Casal 1 2 3 4 5 6 7 8 9 10 Total
Homem (X) 10 10 10 15 15 15 15 20 20 20 150
Mulher (Y ) 5 10 10 5 10 10 15 10 10 15 100
2. Uma companhia de seguros analisou a frequência com que 150 segurados usaram
(ou não) o hospital. Os resultados foram os seguintes:
Queremos verificar se existe ou não relação entre o sexo e o uso do hospital, isto é,
se as variáveis são dependentes.
42