Você está na página 1de 42

Estatı́stica Básica

Universidade Federal Rural do Rio de Janeiro


Profª: Josiane S. Cordeiro Coelho
Prof: Felipe Leite Coelho da Silva

Estatı́stica Descritiva

1
Estatı́stica Básica

Antes de iniciarmos com a análise exploratória de dados, apresentaremos a notação de


somatório que será utilizada mais adiante.

1 Somatório

Podemos utilizar a notação do somatório para representar somas de elementos relaciona-


dos a um conjunto de valores. Seja X = {x1 , x2 , · · · , xn } um conjunto com n elementos
numéricos. Podemos representar a soma de seus elementos de forma reduzida utilizando
a notação de somatório:
n
X
x1 + x2 + · · · + xn = xi ,
i=1

onde lê-se ”somatório de xi para i variando de 1 até n.”


Vejamos alguns exemplos bastante utilizados abaixo.
Sejam os conjuntos de valores X = {x1 , x2 , · · · , xn }, Y = {y1 , y2 , · · · , yn } e Z = {z11 , z12 , · · · ,
z1k , z21 , z22 , · · · , z2k , · · · , zn1 , zn2 , · · · , znk }.

a) Somatório simples:
n
X
xi = x1 + x2 + · · · + xn .
i=1

b) Somatório de quadrados:
n
X
x2i = x21 + x22 + · · · + x2n .
i=1

c) Quadrado do somatório:
n
!2
X
xi = (x1 + x2 + · · · + xn )2 .
i=1

d) Somatório de produtos:
n
X
xi y i = x1 y 1 + x2 y 2 + · · · + xn y n .
i=1

e) Produto de somatórios:
n
X k
X
xi yi = (x1 + x2 + · · · + xn )(y1 + y2 + · · · + yk ).
i=1 i=1

2
Estatı́stica Básica

f) Somatório duplo:
n X
X k n
X
zij = (zi1 + zi2 + · · · + zik ) = (z11 + z12 + · · · + z1k )+· · ·+(zn1 + zn2 + · · · + znk ) .
i=1 j=1 i=1

A seguir, apresentamos algumas propriedades do somatório que podem ser úteis quando
estamos operando.

1.0.1 Principais propriedades de somatório:


Pn Pn Pn
i) i=1 (xi + yi ) = i=1 xi + i=1 yi .
Pn
ii) i=1 A = nA, em que A é uma constante.
Pn Pn
iii) i=1 Axi = A i=1 xi , em que A é uma constante.
Pn Pn
iv) i=1 (Axi + A) = A i=1 xi + nA, em que A é uma constante.

Exemplo 1: Considere três conjuntos com 6 elementos cada descritos na tabela abaixo:

i 1 2 3 4 5 6
xi 2 3 4 3 2 1
fi 4 5 6 8 10 12
gi 10 6 12 4 5 10

Determine o valor de cada somatório:


a) 6i=1 xi b) 4i=2 (fi + xi + gi ) c) 4i=2 (fi2 − gi2 )
P P P P6
d) i=1 xi + f3 − x1

e) 3i=2 (3xi + 10fi ) f) 6i=1 x5 g) 3i=1 6i=1 (xi + fi )


P P P P P6
h) i=1 25
Soluções:
a) 6i=1 xi = x1 + x2 + x3 + x4 + x5 + x6 = 2 + 3 + 4 + 3 + 2 + 1 = 15.
P

b) 4i=2 (fi + xi + gi ) = (f2 + x2 + g2 ) + (f3 + x3 + g3 )(f4 + x4 + g4 ) = (3 + 5 + 6) + (4 + 6 +


P

12) + (3 + 8 + 4) = 14 + 22 + 15 = 41.

3
Estatı́stica Básica

Exercı́cio:
A tabela a seguir apresenta a variação do preço do dólar no mês de setembro de 2008 e a
compra da moeda realizada por duas empresas. A variável c(x) representa a compra de
dólares pelas duas empresas.

23/09 24/09 25/09 26/09 27/09


Preço do dólar 1.83 1.85 1.82 1.85 1.96
c(xi )(Empresa A) 1000 750 400 900 300
c(xi )(Empresa B) 1200 600 510 780 310

Qual foi a empresa que investiu mais nestes cinco dias do mês de setembro de 2008? E
quanto investiu em reais?

4
Estatı́stica Básica

2 Principais definições

• Estatı́stica: planejamento, coleta, redução, análise, modelagem e interpretação de


dados.

• Análise exploratória de dados: consiste na redução (tabelas, gráficos e medidas


numéricas), análise e interpretação dos dados.

• Variável: qualquer caracterı́stica observável da unidade de interesse.

• População: conjunto de indivı́duos (ou objetos, elementos) que tem em comum pelo
menos uma variável observável.

• Amostra: qualquer parte (subconjunto) de uma população.

Classificação de uma variável.

• Quantitativas: apresenta como possı́veis realizações uma contagem ou mensuração.

– Discretas: possı́veis resultados formam um conjunto finito ou enumerárel (por


exemplo, 0, 1, 2, · · · ). Ex: nº de irmãos, idade em anos.

– Contı́nuas: possı́veis resultados formam um conjunto não enumerárel (inter-


valos reais). Ex: peso, altura, salário.

• Qualitativas: apresenta como possı́veis realizações uma qualidade/atributo da uni-


dade de estudo.

– Ordinal: apresenta ordem/hierarquia nos seus possı́veis resultados. Ex: nı́vel


de instrução, classe social.

– Nominal: não apresenta ordem/hierarquia nos seus possı́veis resultados. Ex:


sexo, estado civil, religião.

Exercı́cio: Classifique as seguintes variáveis:

1. Taxa de natalidade na cidade de Seropédica (número de nascimentos por 1000 habi-


tantes (nesta região) em um ano).

2. Grau de ajustamento familiar (baixo, médio e alto).


5
Estatı́stica Básica

3. Fertilizante utilizado em plantação de batatas (nenhum, nitrogênio, esterco, nitrogênio


ou esterco);

4. Número de casos diários de Covid-19 no estado do Rio de Janeiro.

6
Estatı́stica Básica

3 Representação Tabular de Variáveis: Tabela de Distribuição


de Frequências

Podemos tabular um conjunto de dados a fim de obter um resumo e/ou uma apresentação
dos dados. A tabulação pode ser feita para variáveis qualitativas ou quantitativas. Se-
guem alguns exemplos.
A tabela abaixo é simples e não faz nenhum tipo de redução dos dados, apenas organiza.

7
Estatı́stica Básica

Id Turma Sexo Idade Alt Peso Filhos Toler Exerc TV OpTV


1 A F 17 1,6 60,5 2 P 0 16 R
2 A F 18 1,69 55 1 M 0 7 R
3 A M 18 1,85 72,8 2 P 5 15 R
4 A M 25 1,85 80,9 2 P 5 20 R
5 A F 19 1,58 55 1 M 2 5 R
6 A M 19 1,76 60 3 M 2 2 R
7 A F 20 1,6 58 1 P 3 7 R
8 A F 18 1,64 47 1 I 2 10 R
9 A F 18 1,62 57,8 3 M 3 12 R
10 A F 17 1,64 58 2 M 2 10 R
11 A F 18 1,72 70 1 I 10 8 N
12 A F 18 1,66 54 3 M 0 0 R
13 A F 21 1,7 58 2 M 6 30 R
14 A M 19 1,78 68,5 1 I 5 2 N
15 A F 18 1,65 63,5 1 I 4 10 R
16 A F 19 1,63 47,4 3 P 0 18 R
17 A F 17 1,82 66 1 P 3 10 N
18 A M 18 1,8 85,2 2 P 3 10 R
19 A F 20 1,6 54,5 1 P 3 5 R
20 A F 18 1,68 52,5 3 M 7 14 M
21 A F 21 1,7 60 2 P 8 5 R
22 A F 18 1,65 58,5 1 M 0 5 R
23 A F 18 1,57 49,2 1 I 5 10 R
24 A F 20 1,55 48 1 I 0 28 R
25 A F 20 1,69 51,6 2 P 8 4 N
26 A F 19 1,54 57 2 I 6 5 R
27 B F 23 1,62 63 2 M 8 5 R
28 B F 18 1,62 52 1 P 1 10 R
29 B F 18 1,57 49 2 P 3 12 R
30 B F 25 1,65 59 4 M 1 2 R
31 B F 18 1,61 52 1 P 2 6 N
32 B M 17 1,71 73 1 P 1 20 R
33 B F 17 1,65 56 3 M 2 14 R
34 B F 17 1,67 58 1 M 4 10 R
35 B M 18 1,73 87 1 M 7 25 B
36 B F 18 1,6 47 1 P 5 14 R
37 B M 17 1,7 95 1 P 10 12 N
38 B M 21 1,85 84 1 I 6 10 R
39 B F 18 1,7 60 1 P 5 12 R
40 B M 18 1,73 73 1 M 4 2 R

8
Estatı́stica Básica

3.1 Tabela de frequências

A tabela de distribuição de frequências apresenta as informações de frequências absolutas,


frequências relativas e acumuladas dos dados observados.

Tabela 1: Tabela de frequências.


Classes ni fi fiac Percentual
c1 n1 f1 f1ac 100 × f1
c2 n2 f2 f2ac 100 × f2
.. .. .. ..
. . . .
ck nk fk 1 100 × fk
Total n 1 100%

Considere que:

• k é o número de classes;

• ni é a frequência absoluta, n1 + n2 + · · · + nk = n;
ni
• fi é a frequência relativa, fi = ;
n
i
X
• fiac é a frequência relativa acumulada, fiac = fj .
j=1

Importante: O número de classes (k) para uma tabela de frequências pode ser obtido
utilizando os seguintes métodos:

• Método da raiz quadrada:



 n, se n > 25;

k =
5, caso contrário.

• Método de Sturges:
k = 1 + 3, 22 log10 n (1)

• Também podemos escolher de acordo com nosso interesse na pesquisa.

9
Estatı́stica Básica

Exemplo. Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni =
18, fi = 0, 50) e superior (ni = 6, fi = 0, 17).

Nı́vel de Instrução ni fi % fac


Fundamental 12 0,33 33 0,33
Médio 18 0,50 50 0,83
Superior 6 0,17 17 1,00
Total 36 1,00 100 -

Tabela 2: Tabela de Distribuição de Frequências

em que:
ni : frequência absoluta;
fi : frequência relativa;
%: porcentagem;
fac : frequência relativa acumulada.

3.1.1 Tabela de dupla entrada

Considere a quantia de empréstimos diários (em milhares) de quatro diferentes bancos


(B1, B2, B3 e B4) com agências de mesmo porte em três avenidas (A1, A2 e A3) de uma
cidade:

Tabela 3: Dados
Banco/Avenida A1 A2 A3 Total
B1 25 35 24 84
B2 32 28 27 87
B3 27 33 31
B4 41 60 25 126
Total 125 156 107 388

10
Estatı́stica Básica

Exemplo. Foi realizada uma pesquisa com 20 funcionários de uma empresa para avaliar
a preferência entre dois produtos (A e B). A tabela abaixo apresenta os resultados das
seguintes caracterı́sticas investigadas: Renda do trabalho em número de salários mı́nimos
(X); Sexo (F - feminino e M - masculino); Preferência entre os produtos A ou B.
Entrevistado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
No salários (X) 2 3,7 1,7 3 4 5 1,4 3 3 1,8 6 4,8 2,3 1,5 3,2 2,2 1 4,4 2 2
Sexo M M F M F M M F F F M M F M F F M F M F
Preferência A B A B B B A B A A B B A A A A A B A A

Construa uma tabela de frequências de dupla entrada para as variáveis qualitativas.

11
Estatı́stica Básica

4 Representação Gráfica de Variáveis

• Qualitativas:

– gráfico de colunas/barras;

– gráfico de setores;

• Quantitativas:

– gráfico de colunas/barras;

– gráfico de linhas;

– gráfico de dispersão;

– ramo e folhas;

– ogiva;

– histograma;

– polı́gono de frequências.

Todos os gráficos a seguir foram gerados utilizando o software livre R. Você pode fazer o
download do programa pela site oficial: https://cran.r-project.org/

4.1 Gráfico de Barras/Colunas

Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni = 18, fi = 0, 50)
e superior (ni = 6, fi = 0, 17).

12
Estatı́stica Básica

15
Frequência
10
5
0

fundamental médio superior


Grau de Instrução

Figura 1: Gráfico de barras para variável nı́vel de instrução.

4.2 Gráfico de Setores/Pizza

Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni = 18, fi = 0, 50)
e superior (ni = 6, fi = 0, 17).

1(33.3%)

2(50%) 3(16.7%)

1=Fundamental, 2=Médio, 3=Superior

Figura 2: Gráfico de setores para variável nı́vel de instrução.

Pode vir acompanhado com uma legenda ou porcentagens ao lado das respostas.

13
Estatı́stica Básica

4.3 Gráfico de Linhas

Variável: Nº de filhos por estudante =

{0, 1, 2, 0, 0, 0, 0, 0, 1, 0, 2, 0, 0, 3, 0, 0, 1, 2, 0, 0, 1, 0, 0, 0, 2, 2, 0, 0, 5, 2, 0, 1, 3, 0, 2, 3}.

5
4
Nº de filhos
3
2
1
0

0 5 10 15 20 25 30 35
Estudantes

Figura 3: Gráfico de linhas para variável número de filhos por estudante.

14
Estatı́stica Básica

4.4 Gráfico de Dispersão

Útil para séries temporais ou para relacionar duas variáveis quantitativas. Variáveis: Ve-
locidade (4, 4, 7, 7, 8, 9, 10, 10, 10, ..., 24, 25) e Distância (10, 4, 22, 16, 10, 18, 26, 34, ..., 120,
85).

120


100


● ●
80



Distância





60


● ●
● ●



● ●

40

● ●
● ●
● ●
● ● ●
● ●
● ● ● ●


20

● ●
● ●


● ●


0

5 10 15 20 25
Velocidade

Figura 4: Gráfico de dispersão entre as variáveis velocidade e distância.

4.5 Ramo e folhas

Vejamos um exemplo. Dados: 91,96,98,104,105,108,108,112,112,112,113,113,114,115,115,116,116,116,11


118,119,120,121,121,121,121,121,123,123,123,124,126,126,126,126,126,127,127,128,128, 129,
129,129,130,130,130,131,132,132,132,133,133,134,134,134,134,134,134,135,136, 136,137, 138,
141,141,141,142,143,143,144,144,144,144,145,146,146,146,146,147,147, 148,148,149, 150,150,
150, 153,154,154,154,154,,157,157,158,158.

15
Estatı́stica Básica

9 | 168
10 | 4588
11 | 2223345566668889
12 | 0111113334666667788999
13 | 00012223344444455566678
14 | 11123344445666677889
15 | 000344447788

Tabela 4: Gráfico de ramo e folhas.

4.6 Ogiva

Gráfico das frequências relativas (proporções) acumuladas fac .

Exemplo. Variável: Velocidade (4, 4, 7, 7, 8, 9, 10, 10, 10, 11, 11,..., 24, 24, 24, 24, 25),
com frequências relativas = 0.03703704, 0.03703704, 0.01851852, 0.01851852, 0.05555556,
0.03703704, ..., 0.01851852, 0.07407407, 0.09259259).
1.0


0.8
Proporção Acumulada (Fac)



0.6



0.4


0.2






0.0

5 10 15 20 25
Velocidade

Figura 5: Gráfico das frequências relativas acumuladas.

16
Estatı́stica Básica

4.7 Histograma

Suponha o seguinte conjunto de n = 36 dados:


4,00; 4,56; 5,25; 5,73; 6,26; 6,66; 6,86; 7,39; 7,59; 7,44; 8,12; 8,46 ; 8,74 ; 8,95; 9,13; 9,35; 9,77;
9,80; 10,53; 10,76; 11,06; 11,59; 12,00; 12,79 ;13,23; 13,60; 13,85; 14,69; 14,71; 15,99; 16,22;
16,61; 17,26; 18,75; 19,40; 23,30.

Para construir o histograma, primeiro agrupamos os dados em intervalos de classe e apre-


sentamos em uma tabela de frequências. A fim de agrupar em intervalos, precisamos de-
finir o número de classes. Aqui, utilizaremos o conhecimento do pesquisador escolhendo
o número de classes e realizando o procedimento a seguir.

Calculamos a amplitude total do conjunto:

∆ = 23, 30 − 4, 00 = 19, 30.

Suponha que queremos dividir em 5 intervalos de igual tamanho, basta fazer

∆ 19, 30
∆i = = = 3, 86 ≈ 4,
5 5

(sempre arredondar para mais, garantindo que o último valor seja incluı́do).

Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,0700
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,0550
[16,20) 18 5 0,14 14 0,97 0,0350
[20,24) 22 1 0,03 3 1,00 0,0075
Total - 36 1,00 100 - -

em que:
xi : ponto médio do i-ésimo intervalo de classe;
ni : frequência absoluta do i-ésimo intervalo de classe;
fi : frequência relativa do i-ésimo intervalo de classe;
%: porcentagem do i-ésimo intervalo de classe;
fac : frequência relativa acumulada até o i-ésimo intervalo de classe;
17
Estatı́stica Básica

di : densidade do i-ésimo intervalo de classe.

Note que:

• os histogramas são formados por retângulos cujas bases são os intervalos de classes
dos dados agrupados e as alturas são as densidades de cada classe (di ).

ni fi
• podemos ter histogramas de frequências (di = δi
), de proporção (di = δi
) e de por-
100fi
centagem (di = δi
).

• nos histogramas de proporção, temos a área total igual a 1.

• nos histogramas de proporção, cada retângulo representa a proporção da respectiva


classe representada.
0.10

33%
0.08
Densidade de Frequência

28%
0.06

22%
0.04

14%
0.02

3%
0.00

0 4 8 12 16 20 24
Salário
Figura 6: Histograma.

18
Estatı́stica Básica

4.8 Polı́gono de Frequências

0.10
0.08


0.06
Densidade


0.04


0.02


0.00

● ●

0 5 10 15 20 25 30
Salário
Figura 7: Polı́gono de frequências.

Podemos também sobrepor o histograma e o polı́gono de frequências:


0.10
0.08


Densidade de Frequência


0.06


0.04


0.02


0.00

● ●

0 4 8 12 16 20 24
Salário
Figura 8: Histograma e polı́gono de frequências.

19
Estatı́stica Básica

Exercı́cio: Considere um conjunto com os dados de idade (em meses) de uma determinada
planta.
1 2 2 6 8 9 15 17 20 20
20 21 27 29 29 35 37 37 43 48
Faça o histograma com 5 classes iniciando no menor valor do conjunto. E, em seguida, o
polı́gono de frequência.

20
Estatı́stica Básica

5 Medidas Resumo: Medidas de Posição e Medidas de Dis-


persão

As medidas de posição e de dispersão são somente aplicadas aos conjuntos de dados


quantitativos, fornecendo informções que resumem e auxiliam no conhecimento sobre o
conjunto.
Considere um conjunto de dados X = {x1 , x2 , · · · , xn } com n observações.

5.1 Medidas de Posição

São medidas que resumem o conjunto de dados em relação à posição.

• Moda (Mo): é a observação que mais se repete no conjunto de dados. Exemplos:

1. Unimodal: X = {4, 7, 5, 3, 4, 9, 10, 2}, logo M o = 4.

2. Amodal: X = {4, 7, 5, 3, 9, 10, 2}, logo não existe M o.

3. Bimodal: X = {4, 7, 5, 3, 4, 9, 10, 2, 7}, logo M o = 4 e 7.

4. Multimodal: X = {4, 7, 5, 3, 4, 9, 10, 2, 7, 9}, logo M o = 4, 7 e 9.

• Mediana (Md): é o valor do conjunto de dados que divide o conjunto ordenado em


duas partes iguais. Exemplos:

1. X = {4, 7, 5, 3, 9, 10, 2}. Ordenando:

{2, 3, 4, 5, 7, 9, 10},

logo M d = 5, que ocupa a 4ª posição no conjunto com 7 observações deixando


3 observações para cada lado.

2. X = {4, 7, 5, 3, 9, 10, 2, 7}. Ordenando:

{2, 3, 4, 5, 7, 7, 9, 10},

que é um conjunto com 8 observações. A mediana é o valor que deixa 4 observações


abaixo e 4 observações acima e, podemos obtê-la tomando o ponto médio en-
5+7
tre as observações da 4ª posição e da 5ª posição: M d = = 6, que é um
2
valor que não pertence ao conjunto de dados. Note que para conjuntos com
total de observações ı́mpar, a mediana pertence ao conjunto, já para total de
observações par, a mediana pode pertencer ou não.
21
Estatı́stica Básica

• Média: é uma medida extremamente conhecida e utilizada. Dependendo do con-


junto de dados, pode ser mais indicado diferentes tipos de médias, como apresenta-
mos abaixo.

– Média Aritmética Simples: Pn


i=1 xi
x̄ = .
n
– Média Aritmética Ponderada: Suponha, ainda, um conjunto de pesos W =
{w1 , w2 , · · · , wn } associado ao conjunto X. A média aritmética do conjunto X
ponderada pelo conjunto W é dada por:
Pn
xi w i
x̄p = Pi=1
n .
i=1 wi

– Média Geométrica:

x̄g = n
x1 × x2 × · · · x n .

Útil para encontrar taxas médias.

– Média Harmônica:
n
x̄h = Pn 1 .
i=1 xi

Útil para encontrar a média de taxas médias e velocidades médias.

Exemplos: Seja o conjunto de observações X = {4, 7, 5, 3, 9, 10, 2}. Vamos determi-


nar cada uma das médias apresentadas acima.
4 + 7 + 5 + 3 + 9 + 10 + 2
1. x̄ = ≈ 5, 72;
7
2. Considere o conjunto de pesos W = {1, 3, 2, 1, 3, 2, 1}, logo:

4 ∗ 1 + 7 ∗ 3 + 5 ∗ 2 + 3 ∗ 1 + 9 ∗ 3 + 10 ∗ 2 + 2 ∗ 1
x̄p = ≈ 6, 69;
13

7
3. x̄g = 4 × 7 × 5 × 3 × 9 × 10 × 2 ≈ 4, 98;
7
4. x̄h = 1 ≈ 4, 28.
4
+ + + + 19 +
1
7
1
5
1
3
1
10
+ 1
2

• Separatrizes ou Quantis: Dividem o conjunto de dados ordenado em partes iguais.

– Mediana: divide em duas partes iguais (Md ).

– Quartis: divide em 4 partes iguais (Q1 , Q2 , Q3 ).

– Decis: divide em 10 partes iguais (D1 , · · · , D9 ).


22
Estatı́stica Básica

– Percentis: divide em 100 partes iguais (P1 , · · · , P99 ).

Podemos utilizar a seguinte fórmula para encontrar a posição dos quantis de forma
geral:
s(n + 1)
,
r
em que s é a ordem do quantil (quartil {1, 2, 3}; decil {1, 2, · · · , 9}; percentil {1, 2, · · · , 99}),
r é o quantil desejado (4,10 ou 100) e n é o tamanho do conjunto de dados.

Exemplo: Seja X = {160, 145, 133, 144, 152, 167, 200, 156, 143, 144, 167, 177, 160, 153, 155}
com n = 15 observações. Encontre os quartis, D3 , P25 e P10 .

Ordenando, obtemos:

{133, 143, 144, 144, 145, 152, 153, 155, 156, 160, 160, 167, 167, 177, 200}.

1. D3 : encontrando a posição

s(n + 1) 3 ∗ (15 + 1)
= = 4, 8 ≈ 5,
r 10
logo D3 = 145;

2. P25 : encontrando a posição

25 ∗ (15 + 1)
= 4,
100
logo P25 = 144;

3. P10 : encontrando a posição

10 ∗ (15 + 1)
= 1, 6 ≈ 2,
100
logo P10 = 143.

5.1.1 Medidas de Posição para Dados Agrupados

Considere um conjunto de dados agrupados em K intervalos de classes, em que xi é o


ponto médio do i-ésimo intervalo de classe; ni é a frequência absoluta do i-ésimo intervalo
de classe; e, fi é a frequência relativa do i-ésimo intervalo de classe. Podemos calcular
medidas resumo de um conjunto de dados agrupados, que serão medidas aproximadas, e
não exatas, do conjunto de dados original. Definimos:

• Moda: valor xi com maior ni ou fi .


23
Estatı́stica Básica

• Mediana: vamos encontrar pelo histograma de proporção, utilizando que a as áreas


de cada retângulo corresponde a proporção de observados na respectiva classe.

• Média Aritmética: PK K
i=1 xi ni X
x̄ = = x i fi .
n i=1

Exemplo: Seja X = {4, 00; 4, 56; 5, 25; 5, 73; 6, 26; 6, 66; 6, 86; 7, 39; 7, 59; 7, 44; 8, 12; 8, 46; 8, 74;
8, 95; 9, 13; 9, 35; 9, 77; 9, 80; 10, 53; 10, 76; 11, 06; 11, 59; 12, 00; 12, 79; 13, 23; 13, 60; 13, 85; 14, 69;
14, 71; 15, 99; 16, 22; 16, 61; 17, 26; 18, 75; 19, 40; 23, 30}, agrupado em 5 intervalos de classes:

Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,07
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,055
[16,20) 18 5 0,14 14 0,97 0,035
[20,24) 22 1 0,03 3 1,00 0,0075
0.10

33%
0.08
Densidade de Frequência

28%
0.06

22%
0.04

14%
0.02

3%
0.00

0 4 8 12 16 20 24
Salário

1. Moda = 10.

2. Mediana = 10,67 (obtida via histograma). Como determinar? A mediana deixa 50%
dos dados abaixo dela. No primeiro retângulo do histograma, temos 28% dos dados
24
Estatı́stica Básica

(f1 ) que não é suficiente, então temos que somar mais a proporção de 33% do se-
gundo retângulo, que já ultrapassa os 50% da mediana. Logo, a mediana é um valor
no intervalo de 8 até 12, que determina um retângulo de área 22% para somar com
os 28% do retângulo anterior e totalizar 50%. Temos a seguinte equação:

0,22(área do retângulo determinado pela mediana)=(M d−8)(base do retângulo)*0,0825(altura


do retângulo).
0, 22
Basta isolarmos a M d e encontramos M d = 8 + = 10, 67.
0, 0825
6 × 10 + 10 × 12 + 14 × 8 + 18 × 5 + 22 × 1
3. Média Aritmética = = 6 × 0, 28 + 10 ×
10 + 12 + 8 + 5 + 1
0, 33 + 14 × 0, 22 + 18 × 0, 14 + 22 × 0, 03 = 11, 24.

5.2 Medidas de Dispersão

São medidas que resumem o conjunto de dados em relação à dispersão/variabilidade dos


dados.

• Suponha que queremos pensar em dispersão dos dados em torno da sua média
aritmética. Então, poderı́amos olhar para as diferenças de cada xi , para i = 1, · · · , n,
em relação à média x̄, isto é,
xi − x̄,

e, pensando numa única medida para todo conjunto poderı́amos pensar em


n
X n
X n
X n
X
(xi − x̄) = xi − x̄ = nx̄ − x̄ = 0,
i=1 i=1 i=1 i=1

que é sempre igual a zero para qualquer que seja X. Para contornar esse problema,
temos as seguintes propostas:

– Desvio médio absoluto:


Pn
i=1 |xi − x̄|
DM A(X) = .
n

– Variância (amplamente utilizado):


Pn 2
Pn 2
i=1 (xi − x̄) x
V ar(X) = = i=1 i − (x̄)2 .
n n

25
Estatı́stica Básica

– Desvio Padrão (retornando a escala original dos dados):


p
DP (X) = V ar(X).

• Intervalo Interquartı́lico: IQ(X) = Q3 (X) − Q1 (X).

• Coeficiente de Variação (medida adimensional, muito útil para comaprar conjuntos


com escalas diferentes):
DP (X)
CV (X) = ,

para x̄ 6= 0.

Exemplo: Seja X = {4, 7, 5, 3, 9, 10, 2}. Portanto:

• DM A(X) =
|4 − 5, 72| + |7 − 5, 72| + |5 − 5, 72| + |3 − 5, 72| + |9 − 5, 72| + |10 − 5, 72| + |2 − 5, 72|
=
7
14, 53143;
42 + 72 + 52 + 32 + 92 + 102 + 22
• V AR(X) = − 5, 722 ≈ 7, 92;
7
p
• DP (X) = 7, 92 ≈ 2, 81;
   
3+4 7+9
• IQ(X) = 8 − 3, 5 = 4, 5, pois Q1 (X) = 3, 5 e Q3 (X) = 8 extraı́dos
2 2
do conjunto ordenado {2, 3, 4, 5, 7, 9, 10} com 7 observações;
2, 81
• CV (X) = ≈ 0, 49.
5, 72

5.2.1 Medidas de Dispersão para Dados Agrupados

Considere um conjunto de dados agrupados em K intervalos de classes, em que xi é o


ponto médio do i-ésimo intervalo de classe; ni é a frequência absoluta do i-ésimo intervalo
de classe; e, fi é a frequência relativa do i-ésimo intervalo de classe. Assim como para as
medidas de posição, podemos calcular as medidas de dispersão de um conjunto de dados
agrupados, que serão medidas aproximadas, e não exatas, do conjunto de dados original.
Definimos:
PK K
i=1 |xi − x̄|ni X
• DM A(X) = = |xi − x̄|fi .
n i=1

PK K K
i=1 (xi − x̄)2 ni X X
• V ar(X) = = (xi − x̄)2 fi = x2i fi − (x̄)2 .
n i=1 i=1
26
Estatı́stica Básica

• Desvio padrão, intervalo interquartı́lico e coeficiente de variação: permacem com as


mesmas fórmulas, somente adaptando-se as medidas envolvidas que serão calcula-
das a partir dos dados agrupados.

Calcule todas as medidas de dispersão apresentadas para o conjunto de dados agrupados


da tabela abaixo.

Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,07
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,055
[16,20) 18 5 0,14 14 0,97 0,035
[20,24) 22 1 0,03 3 1,00 0,0075
0.10

33%
0.08
Densidade de Frequência

28%
0.06

22%
0.04

14%
0.02

3%
0.00

0 4 8 12 16 20 24
Salário

Calculando:
PK
|xi − x̄|ni
i=1
• DM A(X) = =
n
|6 − 11, 24| × 10 + |10 − 11, 24| × 12 + |14 − 11, 24| × 8 + |18 − 11, 24| × 5 + |22 − 11, 24| × 1
=
36
3, 72;
K
X
• V ar(X) = x2i fi − (x̄)2 = (62 × 0, 28 + 102 × 0, 33 + 142 × 0, 22 + 182 × 0, 14 + 222 ×
i=1
0, 03) − (11, 24)2 ≈ 19, 74;
27
Estatı́stica Básica

p
• DP (X) = 19, 7 ≈ 4, 44;

• IQ(X) = Q3 (X) − Q1 (X) = 14, 545455 − 7, 571429 = 6, 974026, pois através do histo-
grama determinamos os quartis:

– Q1 deixa 25% dos dados abaixo dele. No primeiro retângulo do histograma,


temos 28% dos dados (f1 ) que já ultrapassa os 25% do primeiro quartil. Logo, o
Q1 é um valor no intervalo de 4 até 8. Temos a seguinte equação:
0,25(área do retângulo determinado pelo Q1 )=(Q1 −4)(base do retângulo)*0,07(altura
do retângulo).
0, 25
Basta isolarmos o Q1 e encontramos Q1 = 4 + = 7, 571429.
0, 07
– Q3 deixa 75% dos dados abaixo dele. Precisamos alcançar no mı́nimo os 75%,
assim precisamos dois 3 primeiros retângulos, que somam 28%+33%+22%=83%
dos dados que ultrapassa os 75% do terceiro quartil. Logo, o Q3 é um valor no
intervalo de 12 até 16, que determina uma área de 14% para somar com os dois
primeiros retângulos um total de 75%. Temos a seguinte equação:
0,14(área do retângulo determinado pelo Q3 )=(Q3 −12)(base do retângulo)*0,055(altura
do retângulo).
0, 14
Basta isolarmos o Q3 e encontramos Q3 = 12 + = 14, 545455.
0, 055
DP (X) 4, 44
• CV (X) = = ≈ 0, 40.
X̄ 11, 24

5.3 Propriedades das Medidas de Posição e Dispersão

Sejam a, b ∈ < e X = {x1 , x2 , · · · , xn }.

• Se Y = {a, a, · · · , a}, então todas as medidas de posição são iguais a ”a”e todas as
medidas de dispersão são iguais a zero.

• Seja o conjunto Y = {ax1 , ax2 , · · · , axn }, então ȳ = ax̄, M o(Y ) = aM o(X), M d(Y ) =
aM d(X); DM A(Y ) = |a|DM A(X), V ar(Y ) = a2 V ar(X), DP (Y ) = |a|DP (X),
IQ(Y ) = |a|IQ(X).

• Seja o conjunto Z = {x1 + b, x2 + b, · · · , xn + b}, então z̄ = x̄ + b, M o(Z) = M o(X) + b,


M d(Z) = M d(X) + b e o mesmo vale para todos os quantis; as medidas de dispersão
permanecem inalteradas DM A(Z) = DM A(X), V ar(Z) = V ar(X), DP (Z) = DP (X),
IQ(Z) = IQ(X).
28
Estatı́stica Básica

• Seja o conjunto W = {ax1 + b, ax2 + b, · · · , axn + b}, então w̄ = ax̄ + b, M o(W ) =


aM o(X)+b, M d(W ) = aM d(X)+b e o mesmo vale para todos os quantis; DM A(W ) =
|a|DM A(X), V ar(W ) = a2 V ar(X), DP (W ) = |a|DP (X), IQ(W ) = |a|IQ(X).

Exemplo: Seja X = {4, 7, 5, 3, 9, 10, 2}. Defina Y = 3X, Z = X + 4 e W = 2X − 1.


Determine:

• as médias de Y , Z, e W :

ȳ = 3x̄ = 3 × 5, 72 = 17, 16;

z̄ = x̄ + 4 = 5, 72 + 4 = 9, 72;

w̄ = 2x̄ − 1 = 2 × 5, 72 − 1 = 10, 44.

• as medianas de Y , Z, e W :

M d(Y ) = 3M d(X) = 3 × 5 = 15;

M d(Z) = M d(X) + 4 = 5 + 4 = 9;

M d(W ) = 2M d(X) − 1 = 2 × 5 − 1 = 9.

• as variâncias de Y , Z, e W :

V ar(Y ) = 32 V ar(X) = 32 × 7, 92 = 71, 28;

V ar(Z) = V ar(X) = 7, 92;

V ar(W ) = 22 V ar(X) = 22 × 7, 92 = 31, 68.

• os desvios padrões de Y , Z, e W :
p √
DP (Y ) = V ar(Y ) = 71, 28 = 8, 442748;
p √
DP (Z) = V ar(Z) = 7, 92 = 2, 814249;
p √
DP (W ) = V ar(W ) = 31, 68 = 5, 628499.

Exercı́cio Segundo um laboratório, os ı́ndices de glicose (em mg por decilitro) de vinte


pacientes no inı́cio da coletagem de um certo dia foram: 77, 75, 82, 76, 69, 71, 80, 66, 85, 77,
72, 100, 80, 86, 74, 90, 69, 89, 74 e 115. Sabendo que
20
X 20
X
xi = 1607 e x2i = 131705
i=1 i=1

1. Encontre a média e a variância destes ı́ndices.


29
Estatı́stica Básica

2. Encontre a média e a variância destes ı́ndices, supondo que houve um erro de medição
de 10 mg/dL para menos em todos os pacientes.

3. Supondo, ainda, que houve um erro de medição de 10 mg/dL para menos em todos
os pacientes, determine a média e a variância dos ı́ndices multiplicados por -2.

30
Estatı́stica Básica

6 Assimetria e Curtose

Vamos falar agora de duas formas de classificação de um conjunto de dados que auxiliam
na sua descrição e entendimento, a assimetria e a curtose.

6.1 Assimetria

Um conjunto de dados é dito ser simétrico se sua moda, mediana e média são iguais.
Da mesma forma, se os lados direito e esquerdo do diagrama/gráfico de pontos (ou de
barras), ou do histograma, são a imagem espelhada um do outro. Observe que, para
discutirmos assimetria o conjunto de dados deve ser unimodal.
Caso seja não seja simétrico, dizemos que é assimétrico. Um conjunto de dados é as-
simétrico à direita se a cauda direita do histograma se estende muito mais do que a cauda
esquerda, ou seja, a cauda declina para direita. Nesse caso, temos média>mediana>moda.
E um conjunto de dados é assimétrico à esquerda se a cauda esquerda do histograma
se estende muito mais do que a cauda direita, ou seja, a cauda declina para esquerda.
Nesse caso, temos média<mediana<moda. Seja um conjunto de dados com n observações

Figura 9: Possı́veis casos de assimetria. A seta representa a média da distribuição. Fonte:


Apostila de Estatı́stica Descritiva da Ana Maria Farias-UFF

X = {x1 , x2 , · · · , xn }. Existem vários coeficientes que medem o grau de assimetria de um


conjunto. Vamos estudar o coeficiente de assimetria de Pearson que é dado por:

x̄ − M o(X)
e= .
DP (X)
Note que:

1. se e = 0, então x̄ − M o(X) = 0 ⇒ x̄ = M o(X), logo a distribuição de valores é


simétrica;
31
Estatı́stica Básica

2. se e > 0, então x̄ − M o(X) > 0 (lembre que DP (X) ≥ 0, sempre), daı́ x̄ > M o(X),
logo a distribuição de valores é assimétrica à direita;

3. se e < 0, então x̄ − M o(X) < 0 (lembre que DP (X) ≥ 0, sempre), daı́ x̄ < M o(X),
logo a distribuição de valores é assimétrica à esquerda.

Exemplo: Seja X = {4, 7, 5, 3, 9, 10, 2, 7, 4, 5, 7, 8, 9, 2, 3, 5, 6, 9, 4, 5, 6, 6, 4, 8, 2, 6, 4} com 27


observações.
5
4
Frequência Absoluta
3
2
1
0

2 3 4 5 6 7 8 9 10
X

Figura 10: Gráfico de barras do exemplo

O conjunto X é simétrico? Calcule seu coeficiente de assimetria.


Para isso, precisamos calcular:
4 + 7 + 5 + 3 + ··· + 2 + 6 + 4
• x̄ = = 5, 56;
27
• M o(X) = 4, que é o valor com maior ocorrência;
p p
• DP (X) = V ar(X) = 0, 1936 = 0, 440, em que
42 + 72 + 52 + 32 + · · · + 22 + 62 + 42
V ar(X) = − (5, 56)2 = 0, 1936.
27
32
Estatı́stica Básica

Portanto, o coeficiente de assimetria é dado por

x̄ − M o(X) 5, 56 − 4
e= = = 3, 55 > 0,
DP (X) 0, 44

logo a distribuição de valores é assimétrica à direita ou positiva.

6.2 Curtose

A curtose ou achatamento de um conjunto de dados mede a concentração ou dispersão


dos valores de um conjunto de valores em relação às medidas de tendência central em
uma distribuição de frequências conhecida (a distribuição Normal padrão que será estu-
dada ainda no curso). Como ainda não conhecemos essa distribuição, podemos entendê-
la como uma distribuição padrão com um grau de achatamento mediano. A distribuição
dos dados pode ser classificada em três classes: leptocúrtica (afunilada), mesocúrtica e
platicúrtica (achatada).

Seja um conjunto de dados com n observações X = {x1 , x2 , · · · , xn }. Também existem


vários coeficientes de curtose, mas iremos estudar o coeficiente dado por:

m4 (X)
c= − 3,
DP (X)4
Pn
i=1 (xi − x̄)4
em que m4 (X) = .
n
Como a curtose da normal padrão é 3, o valor limiar para a classificação da curtose é o
zero. Portanto, dizemos que X é:

1. Leptocúrtica: se c > 0;

2. Mesocúrtica: se c = 0;
33
Estatı́stica Básica

3. Platicúrtica: se c < 0.

Exemplo: Retomando o exemplo anterior, seja X = {4, 7, 5, 3, 9, 10, 2, 7, 4, 5, 7, 8, 9, 2, 3, 5, 6, 9,


4, 5, 6, 6, 4, 8, 2, 6, 4} com 27 observações. Calcule seu coeficiente de curtose e classifique.
Para isso, precisamos calcular:
(4 − 5, 56)4 + (7 − 5, 56)4 + (5 − 5, 56)4 + · · · + (6 − 5, 56)4 + (4 − 5, 56)4
• m4 (X) = =
27
2, 05;

• DP (X) = 0, 44, calculado no exemplo anterior.

Portanto, o coeficiente de curtose é dado por

m4 (X) 2, 05
c= − 3 = − 3 = 51, 69 > 0,
DP (X)4 0, 444

logo a distribuição de valores é leptocúrtica.


Exercı́cio Segundo a SOBRAC (Sociedade Brasileira de Arritmias Cardı́acas), no Brasil,
40 milhões de pessoas têm algum tipo de Arritmia Cardı́aca. Estima-se que até 20% da
população seja acometida pela doença. O ritmo cardı́aco (ou freqüência cardı́aca) ade-
quado é ritmo regular. A frequência dos batimentos cardı́acos depende da atividade que
o indivı́duo está realizando e é medida pelo número de contrações do coração por uma
unidade de tempo, geralmente por minuto e é expressa em BPM (batimentos por minuto).
A frequência cardı́aca pode variar muito, mas normalmente situa-se entre 60 bpm e 100
bpm num indivı́duo em repouso ou atividades habituais. Em algumas situações, como
durante exercı́cios fı́sicos de alta intensidade, estes batimentos podem atingir até mesmo
180 bpm. Por outro lado, quando dormimos ou estamos em repouso, a frequência pode
ficar abaixo dos 60 bpm. Seguindo critérios rigorosos, foram medidos os ritmos cardı́acos
de repouso de 10 idosas brasileiras, obtendo-se os seguintes resultados (dados fictı́cios):
51, 55, 77, 99, 60, 75, 77, 85, 65, 62.
Classifique o conjunto de ritmos cardı́acos de repouso em relação ao grau de assimetria e
ao grau de curtose.

34
Estatı́stica Básica

7 Boxplot

O Boxplot é uma representação gráfica que para ser construı́do e entendido precisa dos
conhecimentos apresentados anteriormente sobre medidas de posição e dispersão. Por
isso, dapresentaremos esse gráfico somente agora. Esta representação gráfica é bastante
rica no sentido de informar a variabilidade e simetria dos dados, envolvendo os quar-
tis do conjunto observado. Além disso, podemos observar se os dados possuem valores
discrepantes (outliers).

7.1 Construção:

O Boxplot é construı́do a partir de um retângulo em que o nı́vel superior é dado pelo ter-
ceiro quartil e o nı́vel inferior pelo primeiro quartil. A mediana é representada por um
traço no interior do retângulo e os segmentos de reta são colocados do retângulo até os
valores máximo e mı́nimo, que não sejam observações discrepantes.

As observações que estiverem acima do limite superior (LS ) ou abaixo do limite inferior
3
(LI ) são denominadas de valores discrepantes (pontos exteriores). LI = Q1 − IQ , LS =
2
3
Q3 + IQ e IQ = Q3 − Q1 .
2

Figura 11: Boxplot

Exemplo: Construa o boxplot para o conjunto de pesos abaixo.


Dados: 44.0 45.0 45.0 47.0 47.0 47.0 47.4 48.0 49.0 49.0 49.2 50.0 50.0 51.6 52.0 52.0 52.0 52.0
52.5 54.0 54.5 54.5 55.0 55.0 55.0 55.0 56.0 57.0 57.8 58.0 58.0 58.0 58.0 58.5 59.0 59.0 60.0 60.0
35
Estatı́stica Básica

60.0 60.5 63.0 63.5 66.0 67.0 68.5 70.0 71.0 71.0 72.8 73.0 73.0 75.0 79.0 80.9 84.0 85.2 86.0 87.0
95.0 97.0
Primeiro, precisamos verificar se os dados estão ordenados. Nesse caso, estão em ordem
crescente. Precisamos calcular:
52 + 52 58 + 58 68, 5 + 70
• Q1 = = 52, Q2 = = 58 e Q3 = = 69, 25;
2 2 2
• IQ = Q3 − Q1 = 69, 25 − 52 = 17, 25;
3 3
• LI = Q1 − IQ = 52 − 17, 25 = 26, 125;
2 2
3 3
• LS = Q3 + IQ = 69, 25 + 17, 25 = 95, 125.
2 2
Assim, determinamos as alças superior igual a 44 e inferior igual 95, levando ao dado
discrepante 97 que é maior do que o LS de 95,125.


90
80
Peso (Kg)

70
60
50

Figura 12: Boxplot para os dados da variável Peso (Kg)

Podemos também ter vários boxplots juntos a fim de comparar diferentes conjuntos de
dados. O eixo y das ordenadas continua igual e apenas usamos o eixo x das abscissas para
distanciarmos os boxplots, sem nenhuma interpretação numérica.
Exercı́cio 1 Suponha que no exercı́cio anterior, sobre os ritmos cardı́acos de repouso, uma
das 10 observações foi corrigida (devido a um erro de registro), sendo 105 bpm ao invés
36
Estatı́stica Básica

de 99 bpm, obtendo-se o novo conjunto de dados (dados fictı́cios): 51, 55, 77, 105, 60, 75,
77, 85, 65, 62. Construa o boxplot.
Exercı́cio 2 Considere o tempo (em minutos) de atendimento em um determinado banco
para um conjunto de 20 pessoas: 2; 2; 2; 3; 3; 4; 4; 4; 4; 4; 5; 5; 6; 6; 10; 12; 15; 17; 23; 25.
Construa o gráfico de boxplot e interprete.

37
Estatı́stica Básica

8 Análise Bidimensional de Dados

Estuda a relação/associação/dependência entre duas variáveis de interesse. Pode ser feita


tanto para variáveis quantitativas quanto para variáveis qualitativas.

8.1 Análise Bidimensional de Variáveis Quantitativas e pareadas

Quando temos disponı́vel duas variáveis quantitativas pareadas (mesmo número de observações),
inicialmente, uma inspeção visual pode ser feita através de um gráfico de dispersão. Va-
mos desenvolver o conceito dentro de um exemplo.
Exemplo. Suponha as variáveis: Anos de Estudo (6, 4, 8, 8, 9, 12, 13, 9, 25, 15) e Salário
Médio (1, 0.9, 1.2, 1.5, 1.8, 3, 2.5, 2, 10, 4) em milhares.
10


Salário Médio (em milhares)
8
6


4




2




● ●

5 10 15 20 25
Anos de Estudo

Figura 13: Gráfico de Dispersão das variáveis Anos de Estudo e Salário Médio.

Podemos ainda, utilizar o coeficiente de correlação linear de Pearson para verificar se há
indı́cios de uma relação linear significativa entre essas duas variáveis.
Para utilizar esse coeficiente, precisamos de observações de variáveis pareadas, da forma
{(x1 , y1 ), (x2 , y2 ), · · · , (xn , yn )}. Isso ocorre no caso do exemplo.

38
Estatı́stica Básica

O coeficiente de correlação linear de Pearson é definido por


Pn
cov(X, Y ) xi yi − nx̄ȳ
cor(X, Y ) = = p Pn 2 i=1 ,
DP (X)DP (Y ) ( i=1 xi − nx̄2 ) ( ni=1 yi2 − nȳ 2 )
P

tal que cov(X, Y ) = n1 ni=1 [(xi − x̄)(yi − ȳ)] , representa a covariância entre X e Y .
P

Assim definido, o coeficiente somente assume valores no intervalo [−1, 1]. E, sua interpretação
segue:

• valores do coeficiente mais próximos de -1, indicam maior relação linear negativa/decrescente;

• valores do coeficiente mais próximos de 1, indicam maior relação linear positiva/crescente;

• valores do coeficiente mais próximos de 0, indicam menor relação linear ;

No exemplo, temos para n = 10:


Pn Pn Pn 2 Pn 2 Pn
i=1 xi = 109; i=1 yi = 27, 9; i=1 xi = 1505; i=1 yi = 143, 99; i=1 xi yi = 443, 9 ;

x̄ = 10, 9 e ȳ = 2, 79;
em que X representa a variável Anos de Estudo e Y representa o Salário Médio.
Assim, obtemos que
Pn
xi yi − nx̄ȳ
cor(X, Y ) = p Pn 2 i=1
( i=1 xi − nx̄2 ) ( ni=1 yi2 − nȳ 2 )
P

443, 9 − 10 ∗ 10, 9 ∗ 2, 79
= p = 0, 944116,
(1505 − 10 ∗ (10, 9)2 ) (143, 99 − 10 ∗ (2, 79)2 )

indicando alta relação linear crescente.

8.2 Análise Bidimensional para Variáveis Qualitativas ou Quantitati-


vas

Considere a quantia de empréstimos diários (em milhares) de quatro diferentes bancos


com agências de mesmo porte em três avenidas de uma cidade:

39
Estatı́stica Básica

Banco/Avenida A1 A2 A3 Total
B1 25 35 24 84
B2 32 28 27 87
B3 27 33 31 91
B4 41 60 25 126
Total 125 156 107 388

Será que a quantia de empréstimos varia de acordo com o banco? Podemos calcular
o coefiente de contigência para começar a responder essa pergunta. Para esse cálculo,
precisamos primeiro construir a tabela de contigência dos dados que contempla tanto a
frequência observada (oij ) quanto a esperada(eij ), caso haja independência entre as variáveis.
A frequência esperada de cada casela da tabela é dada por:

total da linha i x total da coluna j


eij = .
total geral

Nesse caso, teremos então:

84 × 125 84 × 156 84 × 107


e11 = = 27, 06; e12 = = 33, 77 e13 = = 23, 17;
388 388 388

87 × 125 87 × 156 87 × 107


e21 = = 28, 03; e22 = = 34, 98; e23 = = 23, 99;
388 388 388

91 × 125 91 × 156 91 × 107


e31 = = 29, 32; e32 = = 36, 59; e33 = = 25, 10;
388 388 388

126 × 125 126 × 156 126 × 107


e41 = = 40, 59; e42 = = 50, 66; e43 = = 34, 75.
388 388 388

E, a tabela de contigência é dada por:

Banco/Avenida A1 A2 A3 Total
oij eij oij eij oij eij
B1 25 27,06 35 33,77 24 23,17 84
B2 32 28,03 28 34,98 27 23,99 87
B3 27 29,32 33 36,59 31 25,10 91
B4 41 40,59 60 50,66 25 34,75 126
Total 125 - 156 - 107 - 388

40
Estatı́stica Básica

O coeficiente de contigência é dado por:

s
χ2
C= ,
χ2 + total geral

X X (oij − eij )2
tal que χ2 = é a medida de qui-quadrado e o total geral é o número
i j
eij
total de observações.

No exemplo, obtemos que

(25 − 27, 06)2 (35 − 33, 77)2 (24 − 23, 17)2 (32 − 28, 03)2 (25 − 34, 75)2
χ2 = + + + +· · ·+ = 8, 95.
27, 06 33, 77 23, 17 28, 03 34, 75

Logo, r
8, 95
C= = 0, 15
8, 95 + 388
indicando que não há relação entre as variáveis.
Uma medida mais robusta é obtida pelo coeficiente de contigência corrigido:

C
C∗ = p ,
(t − 1)/t

em que t = min{total de linhas , total de colunas }.


0, 15
No exemplo, t = min{4, 3} = 3 e, portanto, C ∗ = p = 0, 18, confirmando a
(3 − 1)/3
indicação de independência entre as variáveis, dada pelo baixo valor do coeficiente de
contigência.

Exercı́cios.

1. Uma amostra de 10 casais e seus respectivos salários anuais (em salários mı́nimos)
foi colhida em um certo bairro conforme abaixo:

Casal 1 2 3 4 5 6 7 8 9 10 Total
Homem (X) 10 10 10 15 15 15 15 20 20 20 150
Mulher (Y ) 5 10 10 5 10 10 15 10 10 15 100

(a) Construa o diagrama de dispersão.

(b) Encontre a correlação entre os salários anuais.


41
Estatı́stica Básica

(c) Qual a interpretação do coeficiente calculado? A interpretação concorda com o


que foi observado no gráfico de dispersão?

2. Uma companhia de seguros analisou a frequência com que 150 segurados usaram
(ou não) o hospital. Os resultados foram os seguintes:

Uso do Hospital/Sexo Homem Mulher Total


Usaram o hospital 10 20 30
Não usaram o hospital 110 10 120
Total 120 30 150

Queremos verificar se existe ou não relação entre o sexo e o uso do hospital, isto é,
se as variáveis são dependentes.

42

Você também pode gostar