Apostila Estatistica Descritiva

Estatı́stica Básica
Universidade Federal Rural do Rio de Janeiro

Profª: Josiane S. Cordeiro Coelho
Prof: Felipe Leite Coelho da Silva
Estatı́stica Descritiva
1
Antes de iniciarmos com a análise exploratória de dados, apresentaremos a notação de

somatório que será utilizada mais adiante.
1 Somatório
Podemos utilizar a notação do somatório para representar somas de elementos relaciona-

dos a um conjunto de valores. Seja X = {x1 , x2 , · · · , xn } um conjunto com n elementos
numéricos. Podemos representar a soma de seus elementos de forma reduzida utilizando
a notação de somatório:
n
X
x1 + x2 + · · · + xn = xi ,
i=1
onde lê-se ”somatório de xi para i variando de 1 até n.”

Vejamos alguns exemplos bastante utilizados abaixo.
Sejam os conjuntos de valores X = {x1 , x2 , · · · , xn }, Y = {y1 , y2 , · · · , yn } e Z = {z11 , z12 , · · · ,
z1k , z21 , z22 , · · · , z2k , · · · , zn1 , zn2 , · · · , znk }.
a) Somatório simples:
n
X
xi = x1 + x2 + · · · + xn .
i=1
b) Somatório de quadrados:
n
X
x2i = x21 + x22 + · · · + x2n .
i=1
c) Quadrado do somatório:
n
!2
X
xi = (x1 + x2 + · · · + xn )2 .
i=1
d) Somatório de produtos:
n
X
xi y i = x1 y 1 + x2 y 2 + · · · + xn y n .
i=1
e) Produto de somatórios:
n
X k
X
xi yi = (x1 + x2 + · · · + xn )(y1 + y2 + · · · + yk ).
i=1 i=1
2
f) Somatório duplo:
n X
X k n
X
zij = (zi1 + zi2 + · · · + zik ) = (z11 + z12 + · · · + z1k )+· · ·+(zn1 + zn2 + · · · + znk ) .
i=1 j=1 i=1
A seguir, apresentamos algumas propriedades do somatório que podem ser úteis quando
estamos operando.
1.0.1 Principais propriedades de somatório:

Pn Pn Pn
i) i=1 (xi + yi ) = i=1 xi + i=1 yi .
Pn
ii) i=1 A = nA, em que A é uma constante.
Pn Pn
iii) i=1 Axi = A i=1 xi , em que A é uma constante.
Pn Pn
iv) i=1 (Axi + A) = A i=1 xi + nA, em que A é uma constante.
Exemplo 1: Considere três conjuntos com 6 elementos cada descritos na tabela abaixo:
i 1 2 3 4 5 6
xi 2 3 4 3 2 1
fi 4 5 6 8 10 12
gi 10 6 12 4 5 10
Determine o valor de cada somatório:

a) 6i=1 xi b) 4i=2 (fi + xi + gi ) c) 4i=2 (fi2 − gi2 )
P P P P6
d) i=1 xi + f3 − x1
e) 3i=2 (3xi + 10fi ) f) 6i=1 x5 g) 3i=1 6i=1 (xi + fi )

P P P P P6
h) i=1 25
Soluções:
a) 6i=1 xi = x1 + x2 + x3 + x4 + x5 + x6 = 2 + 3 + 4 + 3 + 2 + 1 = 15.
P
b) 4i=2 (fi + xi + gi ) = (f2 + x2 + g2 ) + (f3 + x3 + g3 )(f4 + x4 + g4 ) = (3 + 5 + 6) + (4 + 6 +

P
12) + (3 + 8 + 4) = 14 + 22 + 15 = 41.
3
Exercı́cio:
A tabela a seguir apresenta a variação do preço do dólar no mês de setembro de 2008 e a
compra da moeda realizada por duas empresas. A variável c(x) representa a compra de
dólares pelas duas empresas.
23/09 24/09 25/09 26/09 27/09

Preço do dólar 1.83 1.85 1.82 1.85 1.96
c(xi )(Empresa A) 1000 750 400 900 300
c(xi )(Empresa B) 1200 600 510 780 310
Qual foi a empresa que investiu mais nestes cinco dias do mês de setembro de 2008? E
quanto investiu em reais?
4
2 Principais definições
• Estatı́stica: planejamento, coleta, redução, análise, modelagem e interpretação de

dados.
• Análise exploratória de dados: consiste na redução (tabelas, gráficos e medidas

numéricas), análise e interpretação dos dados.
• Variável: qualquer caracterı́stica observável da unidade de interesse.
• População: conjunto de indivı́duos (ou objetos, elementos) que tem em comum pelo
menos uma variável observável.
• Amostra: qualquer parte (subconjunto) de uma população.
Classificação de uma variável.
• Quantitativas: apresenta como possı́veis realizações uma contagem ou mensuração.
– Discretas: possı́veis resultados formam um conjunto finito ou enumerárel (por

exemplo, 0, 1, 2, · · · ). Ex: nº de irmãos, idade em anos.
– Contı́nuas: possı́veis resultados formam um conjunto não enumerárel (inter-

valos reais). Ex: peso, altura, salário.
• Qualitativas: apresenta como possı́veis realizações uma qualidade/atributo da uni-

dade de estudo.
– Ordinal: apresenta ordem/hierarquia nos seus possı́veis resultados. Ex: nı́vel

de instrução, classe social.
– Nominal: não apresenta ordem/hierarquia nos seus possı́veis resultados. Ex:

sexo, estado civil, religião.
Exercı́cio: Classifique as seguintes variáveis:
1. Taxa de natalidade na cidade de Seropédica (número de nascimentos por 1000 habi-

tantes (nesta região) em um ano).
2. Grau de ajustamento familiar (baixo, médio e alto).

5
3. Fertilizante utilizado em plantação de batatas (nenhum, nitrogênio, esterco, nitrogênio

ou esterco);
4. Número de casos diários de Covid-19 no estado do Rio de Janeiro.
6
3 Representação Tabular de Variáveis: Tabela de Distribuição

de Frequências
Podemos tabular um conjunto de dados a fim de obter um resumo e/ou uma apresentação
dos dados. A tabulação pode ser feita para variáveis qualitativas ou quantitativas. Se-
guem alguns exemplos.
A tabela abaixo é simples e não faz nenhum tipo de redução dos dados, apenas organiza.
7
Id Turma Sexo Idade Alt Peso Filhos Toler Exerc TV OpTV

1 A F 17 1,6 60,5 2 P 0 16 R
2 A F 18 1,69 55 1 M 0 7 R
3 A M 18 1,85 72,8 2 P 5 15 R
4 A M 25 1,85 80,9 2 P 5 20 R
5 A F 19 1,58 55 1 M 2 5 R
6 A M 19 1,76 60 3 M 2 2 R
7 A F 20 1,6 58 1 P 3 7 R
8 A F 18 1,64 47 1 I 2 10 R
9 A F 18 1,62 57,8 3 M 3 12 R
10 A F 17 1,64 58 2 M 2 10 R
11 A F 18 1,72 70 1 I 10 8 N
12 A F 18 1,66 54 3 M 0 0 R
13 A F 21 1,7 58 2 M 6 30 R
14 A M 19 1,78 68,5 1 I 5 2 N
15 A F 18 1,65 63,5 1 I 4 10 R
16 A F 19 1,63 47,4 3 P 0 18 R
17 A F 17 1,82 66 1 P 3 10 N
18 A M 18 1,8 85,2 2 P 3 10 R
19 A F 20 1,6 54,5 1 P 3 5 R
20 A F 18 1,68 52,5 3 M 7 14 M
21 A F 21 1,7 60 2 P 8 5 R
22 A F 18 1,65 58,5 1 M 0 5 R
23 A F 18 1,57 49,2 1 I 5 10 R
24 A F 20 1,55 48 1 I 0 28 R
25 A F 20 1,69 51,6 2 P 8 4 N
26 A F 19 1,54 57 2 I 6 5 R
27 B F 23 1,62 63 2 M 8 5 R
28 B F 18 1,62 52 1 P 1 10 R
29 B F 18 1,57 49 2 P 3 12 R
30 B F 25 1,65 59 4 M 1 2 R
31 B F 18 1,61 52 1 P 2 6 N
32 B M 17 1,71 73 1 P 1 20 R
33 B F 17 1,65 56 3 M 2 14 R
34 B F 17 1,67 58 1 M 4 10 R
35 B M 18 1,73 87 1 M 7 25 B
36 B F 18 1,6 47 1 P 5 14 R
37 B M 17 1,7 95 1 P 10 12 N
38 B M 21 1,85 84 1 I 6 10 R
39 B F 18 1,7 60 1 P 5 12 R
40 B M 18 1,73 73 1 M 4 2 R
8
3.1 Tabela de frequências
A tabela de distribuição de frequências apresenta as informações de frequências absolutas,

frequências relativas e acumuladas dos dados observados.
Tabela 1: Tabela de frequências.

Classes ni fi fiac Percentual
c1 n1 f1 f1ac 100 × f1
c2 n2 f2 f2ac 100 × f2
.. .. .. ..
. . . .
ck nk fk 1 100 × fk
Total n 1 100%
Considere que:
• k é o número de classes;
• ni é a frequência absoluta, n1 + n2 + · · · + nk = n;
ni
• fi é a frequência relativa, fi = ;
n
i
X
• fiac é a frequência relativa acumulada, fiac = fj .
j=1
Importante: O número de classes (k) para uma tabela de frequências pode ser obtido
utilizando os seguintes métodos:
• Método da raiz quadrada:
√

 n, se n > 25;

k =
5, caso contrário.

• Método de Sturges:
k = 1 + 3, 22 log10 n (1)
• Também podemos escolher de acordo com nosso interesse na pesquisa.
9
Exemplo. Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni =
18, fi = 0, 50) e superior (ni = 6, fi = 0, 17).
Nı́vel de Instrução ni fi % fac

Fundamental 12 0,33 33 0,33
Médio 18 0,50 50 0,83
Superior 6 0,17 17 1,00
Total 36 1,00 100 -
Tabela 2: Tabela de Distribuição de Frequências
em que:
ni : frequência absoluta;
fi : frequência relativa;
%: porcentagem;
fac : frequência relativa acumulada.
3.1.1 Tabela de dupla entrada
Considere a quantia de empréstimos diários (em milhares) de quatro diferentes bancos

(B1, B2, B3 e B4) com agências de mesmo porte em três avenidas (A1, A2 e A3) de uma
cidade:
Tabela 3: Dados
Banco/Avenida A1 A2 A3 Total
B1 25 35 24 84
B2 32 28 27 87
B3 27 33 31
B4 41 60 25 126
Total 125 156 107 388
10
Exemplo. Foi realizada uma pesquisa com 20 funcionários de uma empresa para avaliar
a preferência entre dois produtos (A e B). A tabela abaixo apresenta os resultados das
seguintes caracterı́sticas investigadas: Renda do trabalho em número de salários mı́nimos
(X); Sexo (F - feminino e M - masculino); Preferência entre os produtos A ou B.
Entrevistado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
No salários (X) 2 3,7 1,7 3 4 5 1,4 3 3 1,8 6 4,8 2,3 1,5 3,2 2,2 1 4,4 2 2
Sexo M M F M F M M F F F M M F M F F M F M F
Preferência A B A B B B A B A A B B A A A A A B A A
Construa uma tabela de frequências de dupla entrada para as variáveis qualitativas.
11
4 Representação Gráfica de Variáveis
• Qualitativas:
– gráfico de colunas/barras;
– gráfico de setores;
• Quantitativas:
– gráfico de colunas/barras;
– gráfico de linhas;
– gráfico de dispersão;
– ramo e folhas;
– ogiva;
– histograma;
– polı́gono de frequências.
Todos os gráficos a seguir foram gerados utilizando o software livre R. Você pode fazer o
download do programa pela site oficial: https://cran.r-project.org/
4.1 Gráfico de Barras/Colunas
Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni = 18, fi = 0, 50)
e superior (ni = 6, fi = 0, 17).
12
15
Frequência
10
5
0
fundamental médio superior

Grau de Instrução
Figura 1: Gráfico de barras para variável nı́vel de instrução.
4.2 Gráfico de Setores/Pizza
Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni = 18, fi = 0, 50)
e superior (ni = 6, fi = 0, 17).
1(33.3%)
2(50%) 3(16.7%)
1=Fundamental, 2=Médio, 3=Superior
Figura 2: Gráfico de setores para variável nı́vel de instrução.
Pode vir acompanhado com uma legenda ou porcentagens ao lado das respostas.
13
4.3 Gráfico de Linhas
Variável: Nº de filhos por estudante =
{0, 1, 2, 0, 0, 0, 0, 0, 1, 0, 2, 0, 0, 3, 0, 0, 1, 2, 0, 0, 1, 0, 0, 0, 2, 2, 0, 0, 5, 2, 0, 1, 3, 0, 2, 3}.
5
4
Nº de filhos
3
2
1
0
0 5 10 15 20 25 30 35
Estudantes
Figura 3: Gráfico de linhas para variável número de filhos por estudante.
14
4.4 Gráfico de Dispersão
Útil para séries temporais ou para relacionar duas variáveis quantitativas. Variáveis: Ve-
locidade (4, 4, 7, 7, 8, 9, 10, 10, 10, ..., 24, 25) e Distância (10, 4, 22, 16, 10, 18, 26, 34, ..., 120,
85).
120
●
100
●
●
● ●
80
●
●
Distância
●
●
●
●
60
●
● ●
● ●
●
●
●
● ●
●
40
● ●
● ●
● ●
● ● ●
● ●
● ● ● ●
●
●
20
● ●
● ●
●
●
● ●
●
●
0
5 10 15 20 25
Velocidade
Figura 4: Gráfico de dispersão entre as variáveis velocidade e distância.
4.5 Ramo e folhas
Vejamos um exemplo. Dados: 91,96,98,104,105,108,108,112,112,112,113,113,114,115,115,116,116,116,11

118,119,120,121,121,121,121,121,123,123,123,124,126,126,126,126,126,127,127,128,128, 129,
129,129,130,130,130,131,132,132,132,133,133,134,134,134,134,134,134,135,136, 136,137, 138,
141,141,141,142,143,143,144,144,144,144,145,146,146,146,146,147,147, 148,148,149, 150,150,
150, 153,154,154,154,154,,157,157,158,158.
15
9 | 168
10 | 4588
11 | 2223345566668889
12 | 0111113334666667788999
13 | 00012223344444455566678
14 | 11123344445666677889
15 | 000344447788
Tabela 4: Gráfico de ramo e folhas.
4.6 Ogiva
Gráfico das frequências relativas (proporções) acumuladas fac .
Exemplo. Variável: Velocidade (4, 4, 7, 7, 8, 9, 10, 10, 10, 11, 11,..., 24, 24, 24, 24, 25),
com frequências relativas = 0.03703704, 0.03703704, 0.01851852, 0.01851852, 0.05555556,
0.03703704, ..., 0.01851852, 0.07407407, 0.09259259).
1.0
●
0.8
Proporção Acumulada (Fac)
●
●
●
0.6
●
●
●
0.4
●
0.2
●
●
●
●
●
●
0.0
5 10 15 20 25
Velocidade
Figura 5: Gráfico das frequências relativas acumuladas.
16
4.7 Histograma
Suponha o seguinte conjunto de n = 36 dados:

4,00; 4,56; 5,25; 5,73; 6,26; 6,66; 6,86; 7,39; 7,59; 7,44; 8,12; 8,46 ; 8,74 ; 8,95; 9,13; 9,35; 9,77;
9,80; 10,53; 10,76; 11,06; 11,59; 12,00; 12,79 ;13,23; 13,60; 13,85; 14,69; 14,71; 15,99; 16,22;
16,61; 17,26; 18,75; 19,40; 23,30.
Para construir o histograma, primeiro agrupamos os dados em intervalos de classe e apre-

sentamos em uma tabela de frequências. A fim de agrupar em intervalos, precisamos de-
finir o número de classes. Aqui, utilizaremos o conhecimento do pesquisador escolhendo
o número de classes e realizando o procedimento a seguir.
Calculamos a amplitude total do conjunto:
∆ = 23, 30 − 4, 00 = 19, 30.
Suponha que queremos dividir em 5 intervalos de igual tamanho, basta fazer
∆ 19, 30
∆i = = = 3, 86 ≈ 4,
5 5
(sempre arredondar para mais, garantindo que o último valor seja incluı́do).
Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,0700
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,0550
[16,20) 18 5 0,14 14 0,97 0,0350
[20,24) 22 1 0,03 3 1,00 0,0075
Total - 36 1,00 100 - -
em que:
xi : ponto médio do i-ésimo intervalo de classe;
ni : frequência absoluta do i-ésimo intervalo de classe;
fi : frequência relativa do i-ésimo intervalo de classe;
%: porcentagem do i-ésimo intervalo de classe;
fac : frequência relativa acumulada até o i-ésimo intervalo de classe;
17
di : densidade do i-ésimo intervalo de classe.
Note que:
• os histogramas são formados por retângulos cujas bases são os intervalos de classes
dos dados agrupados e as alturas são as densidades de cada classe (di ).
ni fi
• podemos ter histogramas de frequências (di = δi
), de proporção (di = δi
) e de por-
100fi
centagem (di = δi
).
• nos histogramas de proporção, temos a área total igual a 1.
• nos histogramas de proporção, cada retângulo representa a proporção da respectiva

classe representada.
0.10
33%
0.08
Densidade de Frequência
28%
0.06
22%
0.04
14%
0.02
3%
0.00
0 4 8 12 16 20 24
Salário
Figura 6: Histograma.
18
4.8 Polı́gono de Frequências
0.10
0.08
●
●
0.06
Densidade
●
0.04
●
0.02
●
0.00
● ●
0 5 10 15 20 25 30
Salário
Figura 7: Polı́gono de frequências.
Podemos também sobrepor o histograma e o polı́gono de frequências:

0.10
0.08
●
●
0.06
●
0.04
●
0.02
●
0.00
● ●
0 4 8 12 16 20 24
Salário
Figura 8: Histograma e polı́gono de frequências.
19
Exercı́cio: Considere um conjunto com os dados de idade (em meses) de uma determinada
planta.
1 2 2 6 8 9 15 17 20 20
20 21 27 29 29 35 37 37 43 48
Faça o histograma com 5 classes iniciando no menor valor do conjunto. E, em seguida, o
polı́gono de frequência.
20
5 Medidas Resumo: Medidas de Posição e Medidas de Dis-

persão
As medidas de posição e de dispersão são somente aplicadas aos conjuntos de dados

quantitativos, fornecendo informções que resumem e auxiliam no conhecimento sobre o
conjunto.
Considere um conjunto de dados X = {x1 , x2 , · · · , xn } com n observações.
5.1 Medidas de Posição
São medidas que resumem o conjunto de dados em relação à posição.
• Moda (Mo): é a observação que mais se repete no conjunto de dados. Exemplos:
1. Unimodal: X = {4, 7, 5, 3, 4, 9, 10, 2}, logo M o = 4.
2. Amodal: X = {4, 7, 5, 3, 9, 10, 2}, logo não existe M o.
3. Bimodal: X = {4, 7, 5, 3, 4, 9, 10, 2, 7}, logo M o = 4 e 7.
4. Multimodal: X = {4, 7, 5, 3, 4, 9, 10, 2, 7, 9}, logo M o = 4, 7 e 9.
• Mediana (Md): é o valor do conjunto de dados que divide o conjunto ordenado em

duas partes iguais. Exemplos:
1. X = {4, 7, 5, 3, 9, 10, 2}. Ordenando:
{2, 3, 4, 5, 7, 9, 10},
logo M d = 5, que ocupa a 4ª posição no conjunto com 7 observações deixando

3 observações para cada lado.
2. X = {4, 7, 5, 3, 9, 10, 2, 7}. Ordenando:
{2, 3, 4, 5, 7, 7, 9, 10},
que é um conjunto com 8 observações. A mediana é o valor que deixa 4 observações

abaixo e 4 observações acima e, podemos obtê-la tomando o ponto médio en-
5+7
tre as observações da 4ª posição e da 5ª posição: M d = = 6, que é um
2
valor que não pertence ao conjunto de dados. Note que para conjuntos com
total de observações ı́mpar, a mediana pertence ao conjunto, já para total de
observações par, a mediana pode pertencer ou não.
21
• Média: é uma medida extremamente conhecida e utilizada. Dependendo do con-

junto de dados, pode ser mais indicado diferentes tipos de médias, como apresenta-
mos abaixo.
– Média Aritmética Simples: Pn

i=1 xi
x̄ = .
n
– Média Aritmética Ponderada: Suponha, ainda, um conjunto de pesos W =
{w1 , w2 , · · · , wn } associado ao conjunto X. A média aritmética do conjunto X
ponderada pelo conjunto W é dada por:
Pn
xi w i
x̄p = Pi=1
n .
i=1 wi
– Média Geométrica:
√
x̄g = n
x1 × x2 × · · · x n .
Útil para encontrar taxas médias.
– Média Harmônica:
n
x̄h = Pn 1 .
i=1 xi
Útil para encontrar a média de taxas médias e velocidades médias.
Exemplos: Seja o conjunto de observações X = {4, 7, 5, 3, 9, 10, 2}. Vamos determi-

nar cada uma das médias apresentadas acima.
4 + 7 + 5 + 3 + 9 + 10 + 2
1. x̄ = ≈ 5, 72;
7
2. Considere o conjunto de pesos W = {1, 3, 2, 1, 3, 2, 1}, logo:
4 ∗ 1 + 7 ∗ 3 + 5 ∗ 2 + 3 ∗ 1 + 9 ∗ 3 + 10 ∗ 2 + 2 ∗ 1
x̄p = ≈ 6, 69;
13
√
7
3. x̄g = 4 × 7 × 5 × 3 × 9 × 10 × 2 ≈ 4, 98;
7
4. x̄h = 1 ≈ 4, 28.
4
+ + + + 19 +
1
7
1
5
1
3
1
10
+ 1
2
• Separatrizes ou Quantis: Dividem o conjunto de dados ordenado em partes iguais.
– Mediana: divide em duas partes iguais (Md ).
– Quartis: divide em 4 partes iguais (Q1 , Q2 , Q3 ).
– Decis: divide em 10 partes iguais (D1 , · · · , D9 ).

22
– Percentis: divide em 100 partes iguais (P1 , · · · , P99 ).
Podemos utilizar a seguinte fórmula para encontrar a posição dos quantis de forma
geral:
s(n + 1)
,
r
em que s é a ordem do quantil (quartil {1, 2, 3}; decil {1, 2, · · · , 9}; percentil {1, 2, · · · , 99}),
r é o quantil desejado (4,10 ou 100) e n é o tamanho do conjunto de dados.
Exemplo: Seja X = {160, 145, 133, 144, 152, 167, 200, 156, 143, 144, 167, 177, 160, 153, 155}
com n = 15 observações. Encontre os quartis, D3 , P25 e P10 .
Ordenando, obtemos:
{133, 143, 144, 144, 145, 152, 153, 155, 156, 160, 160, 167, 167, 177, 200}.
1. D3 : encontrando a posição
s(n + 1) 3 ∗ (15 + 1)
= = 4, 8 ≈ 5,
r 10
logo D3 = 145;
2. P25 : encontrando a posição
25 ∗ (15 + 1)
= 4,
100
logo P25 = 144;
3. P10 : encontrando a posição
10 ∗ (15 + 1)
= 1, 6 ≈ 2,
100
logo P10 = 143.
5.1.1 Medidas de Posição para Dados Agrupados
Considere um conjunto de dados agrupados em K intervalos de classes, em que xi é o

ponto médio do i-ésimo intervalo de classe; ni é a frequência absoluta do i-ésimo intervalo
de classe; e, fi é a frequência relativa do i-ésimo intervalo de classe. Podemos calcular
medidas resumo de um conjunto de dados agrupados, que serão medidas aproximadas, e
não exatas, do conjunto de dados original. Definimos:
• Moda: valor xi com maior ni ou fi .

23
• Mediana: vamos encontrar pelo histograma de proporção, utilizando que a as áreas

de cada retângulo corresponde a proporção de observados na respectiva classe.
• Média Aritmética: PK K
i=1 xi ni X
x̄ = = x i fi .
n i=1
Exemplo: Seja X = {4, 00; 4, 56; 5, 25; 5, 73; 6, 26; 6, 66; 6, 86; 7, 39; 7, 59; 7, 44; 8, 12; 8, 46; 8, 74;
8, 95; 9, 13; 9, 35; 9, 77; 9, 80; 10, 53; 10, 76; 11, 06; 11, 59; 12, 00; 12, 79; 13, 23; 13, 60; 13, 85; 14, 69;
14, 71; 15, 99; 16, 22; 16, 61; 17, 26; 18, 75; 19, 40; 23, 30}, agrupado em 5 intervalos de classes:
[4,8) 6 10 0,28 28 0,28 0,07
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,055
[16,20) 18 5 0,14 14 0,97 0,035
[20,24) 22 1 0,03 3 1,00 0,0075
0.10
33%
0.08
28%
0.06
22%
0.04
14%
0.02
3%
0.00
0 4 8 12 16 20 24
Salário
1. Moda = 10.
2. Mediana = 10,67 (obtida via histograma). Como determinar? A mediana deixa 50%
dos dados abaixo dela. No primeiro retângulo do histograma, temos 28% dos dados
24
(f1 ) que não é suficiente, então temos que somar mais a proporção de 33% do se-
gundo retângulo, que já ultrapassa os 50% da mediana. Logo, a mediana é um valor
no intervalo de 8 até 12, que determina um retângulo de área 22% para somar com
os 28% do retângulo anterior e totalizar 50%. Temos a seguinte equação:
0,22(área do retângulo determinado pela mediana)=(M d−8)(base do retângulo)*0,0825(altura

do retângulo).
0, 22
Basta isolarmos a M d e encontramos M d = 8 + = 10, 67.
0, 0825
6 × 10 + 10 × 12 + 14 × 8 + 18 × 5 + 22 × 1
3. Média Aritmética = = 6 × 0, 28 + 10 ×
10 + 12 + 8 + 5 + 1
0, 33 + 14 × 0, 22 + 18 × 0, 14 + 22 × 0, 03 = 11, 24.
5.2 Medidas de Dispersão
São medidas que resumem o conjunto de dados em relação à dispersão/variabilidade dos

dados.
• Suponha que queremos pensar em dispersão dos dados em torno da sua média
aritmética. Então, poderı́amos olhar para as diferenças de cada xi , para i = 1, · · · , n,
em relação à média x̄, isto é,
xi − x̄,
e, pensando numa única medida para todo conjunto poderı́amos pensar em

n
X n
X n
X n
X
(xi − x̄) = xi − x̄ = nx̄ − x̄ = 0,
i=1 i=1 i=1 i=1
que é sempre igual a zero para qualquer que seja X. Para contornar esse problema,
temos as seguintes propostas:
– Desvio médio absoluto:

Pn
i=1 |xi − x̄|
DM A(X) = .
n
– Variância (amplamente utilizado):

Pn 2
Pn 2
i=1 (xi − x̄) x
V ar(X) = = i=1 i − (x̄)2 .
n n
25
– Desvio Padrão (retornando a escala original dos dados):

p
DP (X) = V ar(X).
• Intervalo Interquartı́lico: IQ(X) = Q3 (X) − Q1 (X).
• Coeficiente de Variação (medida adimensional, muito útil para comaprar conjuntos

com escalas diferentes):
DP (X)
CV (X) = ,
x̄
para x̄ 6= 0.
Exemplo: Seja X = {4, 7, 5, 3, 9, 10, 2}. Portanto:
• DM A(X) =
|4 − 5, 72| + |7 − 5, 72| + |5 − 5, 72| + |3 − 5, 72| + |9 − 5, 72| + |10 − 5, 72| + |2 − 5, 72|
=
7
14, 53143;
42 + 72 + 52 + 32 + 92 + 102 + 22
• V AR(X) = − 5, 722 ≈ 7, 92;
7
p
• DP (X) = 7, 92 ≈ 2, 81;

3+4 7+9
• IQ(X) = 8 − 3, 5 = 4, 5, pois Q1 (X) = 3, 5 e Q3 (X) = 8 extraı́dos
2 2
do conjunto ordenado {2, 3, 4, 5, 7, 9, 10} com 7 observações;
2, 81
• CV (X) = ≈ 0, 49.
5, 72
5.2.1 Medidas de Dispersão para Dados Agrupados
Considere um conjunto de dados agrupados em K intervalos de classes, em que xi é o

ponto médio do i-ésimo intervalo de classe; ni é a frequência absoluta do i-ésimo intervalo
de classe; e, fi é a frequência relativa do i-ésimo intervalo de classe. Assim como para as
medidas de posição, podemos calcular as medidas de dispersão de um conjunto de dados
agrupados, que serão medidas aproximadas, e não exatas, do conjunto de dados original.
Definimos:
PK K
i=1 |xi − x̄|ni X
• DM A(X) = = |xi − x̄|fi .
n i=1
PK K K
i=1 (xi − x̄)2 ni X X
• V ar(X) = = (xi − x̄)2 fi = x2i fi − (x̄)2 .
n i=1 i=1
26
• Desvio padrão, intervalo interquartı́lico e coeficiente de variação: permacem com as

mesmas fórmulas, somente adaptando-se as medidas envolvidas que serão calcula-
das a partir dos dados agrupados.
Calcule todas as medidas de dispersão apresentadas para o conjunto de dados agrupados

da tabela abaixo.
[4,8) 6 10 0,28 28 0,28 0,07
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,055
[16,20) 18 5 0,14 14 0,97 0,035
[20,24) 22 1 0,03 3 1,00 0,0075
0.10
33%
0.08
28%
0.06
22%
0.04
14%
0.02
3%
0.00
0 4 8 12 16 20 24
Salário
Calculando:
PK
|xi − x̄|ni
i=1
• DM A(X) = =
n
|6 − 11, 24| × 10 + |10 − 11, 24| × 12 + |14 − 11, 24| × 8 + |18 − 11, 24| × 5 + |22 − 11, 24| × 1
=
36
3, 72;
K
X
• V ar(X) = x2i fi − (x̄)2 = (62 × 0, 28 + 102 × 0, 33 + 142 × 0, 22 + 182 × 0, 14 + 222 ×
i=1
0, 03) − (11, 24)2 ≈ 19, 74;
27
p
• DP (X) = 19, 7 ≈ 4, 44;
• IQ(X) = Q3 (X) − Q1 (X) = 14, 545455 − 7, 571429 = 6, 974026, pois através do histo-
grama determinamos os quartis:
– Q1 deixa 25% dos dados abaixo dele. No primeiro retângulo do histograma,

temos 28% dos dados (f1 ) que já ultrapassa os 25% do primeiro quartil. Logo, o
Q1 é um valor no intervalo de 4 até 8. Temos a seguinte equação:
0,25(área do retângulo determinado pelo Q1 )=(Q1 −4)(base do retângulo)*0,07(altura
do retângulo).
0, 25
Basta isolarmos o Q1 e encontramos Q1 = 4 + = 7, 571429.
0, 07
– Q3 deixa 75% dos dados abaixo dele. Precisamos alcançar no mı́nimo os 75%,
assim precisamos dois 3 primeiros retângulos, que somam 28%+33%+22%=83%
dos dados que ultrapassa os 75% do terceiro quartil. Logo, o Q3 é um valor no
intervalo de 12 até 16, que determina uma área de 14% para somar com os dois
primeiros retângulos um total de 75%. Temos a seguinte equação:
0,14(área do retângulo determinado pelo Q3 )=(Q3 −12)(base do retângulo)*0,055(altura
do retângulo).
0, 14
Basta isolarmos o Q3 e encontramos Q3 = 12 + = 14, 545455.
0, 055
DP (X) 4, 44
• CV (X) = = ≈ 0, 40.
X̄ 11, 24
5.3 Propriedades das Medidas de Posição e Dispersão
Sejam a, b ∈ < e X = {x1 , x2 , · · · , xn }.
• Se Y = {a, a, · · · , a}, então todas as medidas de posição são iguais a ”a”e todas as
medidas de dispersão são iguais a zero.
• Seja o conjunto Y = {ax1 , ax2 , · · · , axn }, então ȳ = ax̄, M o(Y ) = aM o(X), M d(Y ) =
aM d(X); DM A(Y ) = |a|DM A(X), V ar(Y ) = a2 V ar(X), DP (Y ) = |a|DP (X),
IQ(Y ) = |a|IQ(X).
• Seja o conjunto Z = {x1 + b, x2 + b, · · · , xn + b}, então z̄ = x̄ + b, M o(Z) = M o(X) + b,

M d(Z) = M d(X) + b e o mesmo vale para todos os quantis; as medidas de dispersão
permanecem inalteradas DM A(Z) = DM A(X), V ar(Z) = V ar(X), DP (Z) = DP (X),
IQ(Z) = IQ(X).
28
• Seja o conjunto W = {ax1 + b, ax2 + b, · · · , axn + b}, então w̄ = ax̄ + b, M o(W ) =

aM o(X)+b, M d(W ) = aM d(X)+b e o mesmo vale para todos os quantis; DM A(W ) =
|a|DM A(X), V ar(W ) = a2 V ar(X), DP (W ) = |a|DP (X), IQ(W ) = |a|IQ(X).
Exemplo: Seja X = {4, 7, 5, 3, 9, 10, 2}. Defina Y = 3X, Z = X + 4 e W = 2X − 1.

Determine:
• as médias de Y , Z, e W :
ȳ = 3x̄ = 3 × 5, 72 = 17, 16;
z̄ = x̄ + 4 = 5, 72 + 4 = 9, 72;
w̄ = 2x̄ − 1 = 2 × 5, 72 − 1 = 10, 44.
• as medianas de Y , Z, e W :
M d(Y ) = 3M d(X) = 3 × 5 = 15;
M d(Z) = M d(X) + 4 = 5 + 4 = 9;
M d(W ) = 2M d(X) − 1 = 2 × 5 − 1 = 9.
• as variâncias de Y , Z, e W :
V ar(Y ) = 32 V ar(X) = 32 × 7, 92 = 71, 28;
V ar(Z) = V ar(X) = 7, 92;
V ar(W ) = 22 V ar(X) = 22 × 7, 92 = 31, 68.
• os desvios padrões de Y , Z, e W :
p √
DP (Y ) = V ar(Y ) = 71, 28 = 8, 442748;
p √
DP (Z) = V ar(Z) = 7, 92 = 2, 814249;
p √
DP (W ) = V ar(W ) = 31, 68 = 5, 628499.
Exercı́cio Segundo um laboratório, os ı́ndices de glicose (em mg por decilitro) de vinte

pacientes no inı́cio da coletagem de um certo dia foram: 77, 75, 82, 76, 69, 71, 80, 66, 85, 77,
72, 100, 80, 86, 74, 90, 69, 89, 74 e 115. Sabendo que
20
X 20
X
xi = 1607 e x2i = 131705
i=1 i=1
1. Encontre a média e a variância destes ı́ndices.

29
2. Encontre a média e a variância destes ı́ndices, supondo que houve um erro de medição
de 10 mg/dL para menos em todos os pacientes.
3. Supondo, ainda, que houve um erro de medição de 10 mg/dL para menos em todos
os pacientes, determine a média e a variância dos ı́ndices multiplicados por -2.
30
6 Assimetria e Curtose
Vamos falar agora de duas formas de classificação de um conjunto de dados que auxiliam
na sua descrição e entendimento, a assimetria e a curtose.
6.1 Assimetria
Um conjunto de dados é dito ser simétrico se sua moda, mediana e média são iguais.
Da mesma forma, se os lados direito e esquerdo do diagrama/gráfico de pontos (ou de
barras), ou do histograma, são a imagem espelhada um do outro. Observe que, para
discutirmos assimetria o conjunto de dados deve ser unimodal.
Caso seja não seja simétrico, dizemos que é assimétrico. Um conjunto de dados é as-
simétrico à direita se a cauda direita do histograma se estende muito mais do que a cauda
esquerda, ou seja, a cauda declina para direita. Nesse caso, temos média>mediana>moda.
E um conjunto de dados é assimétrico à esquerda se a cauda esquerda do histograma
se estende muito mais do que a cauda direita, ou seja, a cauda declina para esquerda.
Nesse caso, temos média<mediana<moda. Seja um conjunto de dados com n observações
Figura 9: Possı́veis casos de assimetria. A seta representa a média da distribuição. Fonte:

Apostila de Estatı́stica Descritiva da Ana Maria Farias-UFF
X = {x1 , x2 , · · · , xn }. Existem vários coeficientes que medem o grau de assimetria de um

conjunto. Vamos estudar o coeficiente de assimetria de Pearson que é dado por:
x̄ − M o(X)
e= .
DP (X)
Note que:
1. se e = 0, então x̄ − M o(X) = 0 ⇒ x̄ = M o(X), logo a distribuição de valores é

simétrica;
31
2. se e > 0, então x̄ − M o(X) > 0 (lembre que DP (X) ≥ 0, sempre), daı́ x̄ > M o(X),
logo a distribuição de valores é assimétrica à direita;
3. se e < 0, então x̄ − M o(X) < 0 (lembre que DP (X) ≥ 0, sempre), daı́ x̄ < M o(X),
logo a distribuição de valores é assimétrica à esquerda.
Exemplo: Seja X = {4, 7, 5, 3, 9, 10, 2, 7, 4, 5, 7, 8, 9, 2, 3, 5, 6, 9, 4, 5, 6, 6, 4, 8, 2, 6, 4} com 27

observações.
5
4
Frequência Absoluta
3
2
1
0
2 3 4 5 6 7 8 9 10
X
Figura 10: Gráfico de barras do exemplo
O conjunto X é simétrico? Calcule seu coeficiente de assimetria.

Para isso, precisamos calcular:
4 + 7 + 5 + 3 + ··· + 2 + 6 + 4
• x̄ = = 5, 56;
27
• M o(X) = 4, que é o valor com maior ocorrência;
p p
• DP (X) = V ar(X) = 0, 1936 = 0, 440, em que
42 + 72 + 52 + 32 + · · · + 22 + 62 + 42
V ar(X) = − (5, 56)2 = 0, 1936.
27
32
Portanto, o coeficiente de assimetria é dado por
x̄ − M o(X) 5, 56 − 4
e= = = 3, 55 > 0,
DP (X) 0, 44
logo a distribuição de valores é assimétrica à direita ou positiva.
6.2 Curtose
A curtose ou achatamento de um conjunto de dados mede a concentração ou dispersão

dos valores de um conjunto de valores em relação às medidas de tendência central em
uma distribuição de frequências conhecida (a distribuição Normal padrão que será estu-
dada ainda no curso). Como ainda não conhecemos essa distribuição, podemos entendê-
la como uma distribuição padrão com um grau de achatamento mediano. A distribuição
dos dados pode ser classificada em três classes: leptocúrtica (afunilada), mesocúrtica e
platicúrtica (achatada).
Seja um conjunto de dados com n observações X = {x1 , x2 , · · · , xn }. Também existem

vários coeficientes de curtose, mas iremos estudar o coeficiente dado por:
m4 (X)
c= − 3,
DP (X)4
Pn
i=1 (xi − x̄)4
em que m4 (X) = .
n
Como a curtose da normal padrão é 3, o valor limiar para a classificação da curtose é o
zero. Portanto, dizemos que X é:
1. Leptocúrtica: se c > 0;
2. Mesocúrtica: se c = 0;
33
3. Platicúrtica: se c < 0.
Exemplo: Retomando o exemplo anterior, seja X = {4, 7, 5, 3, 9, 10, 2, 7, 4, 5, 7, 8, 9, 2, 3, 5, 6, 9,

4, 5, 6, 6, 4, 8, 2, 6, 4} com 27 observações. Calcule seu coeficiente de curtose e classifique.
Para isso, precisamos calcular:
(4 − 5, 56)4 + (7 − 5, 56)4 + (5 − 5, 56)4 + · · · + (6 − 5, 56)4 + (4 − 5, 56)4
• m4 (X) = =
27
2, 05;
• DP (X) = 0, 44, calculado no exemplo anterior.
Portanto, o coeficiente de curtose é dado por
m4 (X) 2, 05
c= − 3 = − 3 = 51, 69 > 0,
DP (X)4 0, 444
logo a distribuição de valores é leptocúrtica.

Exercı́cio Segundo a SOBRAC (Sociedade Brasileira de Arritmias Cardı́acas), no Brasil,
40 milhões de pessoas têm algum tipo de Arritmia Cardı́aca. Estima-se que até 20% da
população seja acometida pela doença. O ritmo cardı́aco (ou freqüência cardı́aca) ade-
quado é ritmo regular. A frequência dos batimentos cardı́acos depende da atividade que
o indivı́duo está realizando e é medida pelo número de contrações do coração por uma
unidade de tempo, geralmente por minuto e é expressa em BPM (batimentos por minuto).
A frequência cardı́aca pode variar muito, mas normalmente situa-se entre 60 bpm e 100
bpm num indivı́duo em repouso ou atividades habituais. Em algumas situações, como
durante exercı́cios fı́sicos de alta intensidade, estes batimentos podem atingir até mesmo
180 bpm. Por outro lado, quando dormimos ou estamos em repouso, a frequência pode
ficar abaixo dos 60 bpm. Seguindo critérios rigorosos, foram medidos os ritmos cardı́acos
de repouso de 10 idosas brasileiras, obtendo-se os seguintes resultados (dados fictı́cios):
51, 55, 77, 99, 60, 75, 77, 85, 65, 62.
Classifique o conjunto de ritmos cardı́acos de repouso em relação ao grau de assimetria e
ao grau de curtose.
34
7 Boxplot
O Boxplot é uma representação gráfica que para ser construı́do e entendido precisa dos
conhecimentos apresentados anteriormente sobre medidas de posição e dispersão. Por
isso, dapresentaremos esse gráfico somente agora. Esta representação gráfica é bastante
rica no sentido de informar a variabilidade e simetria dos dados, envolvendo os quar-
tis do conjunto observado. Além disso, podemos observar se os dados possuem valores
discrepantes (outliers).
7.1 Construção:
O Boxplot é construı́do a partir de um retângulo em que o nı́vel superior é dado pelo ter-
ceiro quartil e o nı́vel inferior pelo primeiro quartil. A mediana é representada por um
traço no interior do retângulo e os segmentos de reta são colocados do retângulo até os
valores máximo e mı́nimo, que não sejam observações discrepantes.
As observações que estiverem acima do limite superior (LS ) ou abaixo do limite inferior
3
(LI ) são denominadas de valores discrepantes (pontos exteriores). LI = Q1 − IQ , LS =
2
3
Q3 + IQ e IQ = Q3 − Q1 .
2
Figura 11: Boxplot
Exemplo: Construa o boxplot para o conjunto de pesos abaixo.

Dados: 44.0 45.0 45.0 47.0 47.0 47.0 47.4 48.0 49.0 49.0 49.2 50.0 50.0 51.6 52.0 52.0 52.0 52.0
52.5 54.0 54.5 54.5 55.0 55.0 55.0 55.0 56.0 57.0 57.8 58.0 58.0 58.0 58.0 58.5 59.0 59.0 60.0 60.0
35
60.0 60.5 63.0 63.5 66.0 67.0 68.5 70.0 71.0 71.0 72.8 73.0 73.0 75.0 79.0 80.9 84.0 85.2 86.0 87.0
95.0 97.0
Primeiro, precisamos verificar se os dados estão ordenados. Nesse caso, estão em ordem
crescente. Precisamos calcular:
52 + 52 58 + 58 68, 5 + 70
• Q1 = = 52, Q2 = = 58 e Q3 = = 69, 25;
2 2 2
• IQ = Q3 − Q1 = 69, 25 − 52 = 17, 25;
3 3
• LI = Q1 − IQ = 52 − 17, 25 = 26, 125;
2 2
3 3
• LS = Q3 + IQ = 69, 25 + 17, 25 = 95, 125.
2 2
Assim, determinamos as alças superior igual a 44 e inferior igual 95, levando ao dado
discrepante 97 que é maior do que o LS de 95,125.
●
90
80
Peso (Kg)
70
60
50
Figura 12: Boxplot para os dados da variável Peso (Kg)
Podemos também ter vários boxplots juntos a fim de comparar diferentes conjuntos de
dados. O eixo y das ordenadas continua igual e apenas usamos o eixo x das abscissas para
distanciarmos os boxplots, sem nenhuma interpretação numérica.
Exercı́cio 1 Suponha que no exercı́cio anterior, sobre os ritmos cardı́acos de repouso, uma
das 10 observações foi corrigida (devido a um erro de registro), sendo 105 bpm ao invés
36
de 99 bpm, obtendo-se o novo conjunto de dados (dados fictı́cios): 51, 55, 77, 105, 60, 75,
77, 85, 65, 62. Construa o boxplot.
Exercı́cio 2 Considere o tempo (em minutos) de atendimento em um determinado banco
para um conjunto de 20 pessoas: 2; 2; 2; 3; 3; 4; 4; 4; 4; 4; 5; 5; 6; 6; 10; 12; 15; 17; 23; 25.
Construa o gráfico de boxplot e interprete.
37
8 Análise Bidimensional de Dados
Estuda a relação/associação/dependência entre duas variáveis de interesse. Pode ser feita

tanto para variáveis quantitativas quanto para variáveis qualitativas.
8.1 Análise Bidimensional de Variáveis Quantitativas e pareadas
Quando temos disponı́vel duas variáveis quantitativas pareadas (mesmo número de observações),
inicialmente, uma inspeção visual pode ser feita através de um gráfico de dispersão. Va-
mos desenvolver o conceito dentro de um exemplo.
Exemplo. Suponha as variáveis: Anos de Estudo (6, 4, 8, 8, 9, 12, 13, 9, 25, 15) e Salário
Médio (1, 0.9, 1.2, 1.5, 1.8, 3, 2.5, 2, 10, 4) em milhares.
10
●
Salário Médio (em milhares)
8
6
●
4
●
●
●
2
●
●
●
● ●
5 10 15 20 25
Anos de Estudo
Figura 13: Gráfico de Dispersão das variáveis Anos de Estudo e Salário Médio.
Podemos ainda, utilizar o coeficiente de correlação linear de Pearson para verificar se há
indı́cios de uma relação linear significativa entre essas duas variáveis.
Para utilizar esse coeficiente, precisamos de observações de variáveis pareadas, da forma
{(x1 , y1 ), (x2 , y2 ), · · · , (xn , yn )}. Isso ocorre no caso do exemplo.
38
O coeficiente de correlação linear de Pearson é definido por

Pn
cov(X, Y ) xi yi − nx̄ȳ
cor(X, Y ) = = p Pn 2 i=1 ,
DP (X)DP (Y ) ( i=1 xi − nx̄2 ) ( ni=1 yi2 − nȳ 2 )
P
tal que cov(X, Y ) = n1 ni=1 [(xi − x̄)(yi − ȳ)] , representa a covariância entre X e Y .
P
Assim definido, o coeficiente somente assume valores no intervalo [−1, 1]. E, sua interpretação
segue:
• valores do coeficiente mais próximos de -1, indicam maior relação linear negativa/decrescente;
• valores do coeficiente mais próximos de 1, indicam maior relação linear positiva/crescente;
• valores do coeficiente mais próximos de 0, indicam menor relação linear ;
No exemplo, temos para n = 10:

Pn Pn Pn 2 Pn 2 Pn
i=1 xi = 109; i=1 yi = 27, 9; i=1 xi = 1505; i=1 yi = 143, 99; i=1 xi yi = 443, 9 ;
x̄ = 10, 9 e ȳ = 2, 79;
em que X representa a variável Anos de Estudo e Y representa o Salário Médio.
Assim, obtemos que
Pn
xi yi − nx̄ȳ
cor(X, Y ) = p Pn 2 i=1
( i=1 xi − nx̄2 ) ( ni=1 yi2 − nȳ 2 )
P
443, 9 − 10 ∗ 10, 9 ∗ 2, 79
= p = 0, 944116,
(1505 − 10 ∗ (10, 9)2 ) (143, 99 − 10 ∗ (2, 79)2 )
indicando alta relação linear crescente.
8.2 Análise Bidimensional para Variáveis Qualitativas ou Quantitati-

vas
Considere a quantia de empréstimos diários (em milhares) de quatro diferentes bancos

com agências de mesmo porte em três avenidas de uma cidade:
39
B1 25 35 24 84
B2 32 28 27 87
B3 27 33 31 91
B4 41 60 25 126
Total 125 156 107 388
Será que a quantia de empréstimos varia de acordo com o banco? Podemos calcular
o coefiente de contigência para começar a responder essa pergunta. Para esse cálculo,
precisamos primeiro construir a tabela de contigência dos dados que contempla tanto a
frequência observada (oij ) quanto a esperada(eij ), caso haja independência entre as variáveis.
A frequência esperada de cada casela da tabela é dada por:
total da linha i x total da coluna j

eij = .
total geral
Nesse caso, teremos então:
84 × 125 84 × 156 84 × 107

e11 = = 27, 06; e12 = = 33, 77 e13 = = 23, 17;
388 388 388
87 × 125 87 × 156 87 × 107

e21 = = 28, 03; e22 = = 34, 98; e23 = = 23, 99;
388 388 388
91 × 125 91 × 156 91 × 107

e31 = = 29, 32; e32 = = 36, 59; e33 = = 25, 10;
388 388 388
126 × 125 126 × 156 126 × 107

e41 = = 40, 59; e42 = = 50, 66; e43 = = 34, 75.
388 388 388
E, a tabela de contigência é dada por:
oij eij oij eij oij eij
B1 25 27,06 35 33,77 24 23,17 84
B2 32 28,03 28 34,98 27 23,99 87
B3 27 29,32 33 36,59 31 25,10 91
B4 41 40,59 60 50,66 25 34,75 126
Total 125 - 156 - 107 - 388
40
O coeficiente de contigência é dado por:
s
χ2
C= ,
χ2 + total geral
X X (oij − eij )2
tal que χ2 = é a medida de qui-quadrado e o total geral é o número
i j
eij
total de observações.
No exemplo, obtemos que
(25 − 27, 06)2 (35 − 33, 77)2 (24 − 23, 17)2 (32 − 28, 03)2 (25 − 34, 75)2
χ2 = + + + +· · ·+ = 8, 95.
27, 06 33, 77 23, 17 28, 03 34, 75
Logo, r
8, 95
C= = 0, 15
8, 95 + 388
indicando que não há relação entre as variáveis.
Uma medida mais robusta é obtida pelo coeficiente de contigência corrigido:
C
C∗ = p ,
(t − 1)/t
em que t = min{total de linhas , total de colunas }.

0, 15
No exemplo, t = min{4, 3} = 3 e, portanto, C ∗ = p = 0, 18, confirmando a
(3 − 1)/3
indicação de independência entre as variáveis, dada pelo baixo valor do coeficiente de
contigência.
Exercı́cios.
1. Uma amostra de 10 casais e seus respectivos salários anuais (em salários mı́nimos)
foi colhida em um certo bairro conforme abaixo:
Casal 1 2 3 4 5 6 7 8 9 10 Total
Homem (X) 10 10 10 15 15 15 15 20 20 20 150
Mulher (Y ) 5 10 10 5 10 10 15 10 10 15 100
(a) Construa o diagrama de dispersão.
(b) Encontre a correlação entre os salários anuais.

41
(c) Qual a interpretação do coeficiente calculado? A interpretação concorda com o

que foi observado no gráfico de dispersão?
2. Uma companhia de seguros analisou a frequência com que 150 segurados usaram
(ou não) o hospital. Os resultados foram os seguintes:
Uso do Hospital/Sexo Homem Mulher Total

Usaram o hospital 10 20 30
Não usaram o hospital 110 10 120
Total 120 30 150
Queremos verificar se existe ou não relação entre o sexo e o uso do hospital, isto é,
se as variáveis são dependentes.
42

Apostila Estatistica Descritiva

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila Estatistica Descritiva

Enviado por

Direitos autorais:

Formatos disponíveis

Estatı́stica Básica

Universidade Federal Rural do Rio de Janeiro

Antes de iniciarmos com a análise exploratória de dados, apresentaremos a notação de

Podemos utilizar a notação do somatório para representar somas de elementos relaciona-

onde lê-se ”somatório de xi para i variando de 1 até n.”

1.0.1 Principais propriedades de somatório:

Determine o valor de cada somatório:

e) 3i=2 (3xi + 10fi ) f) 6i=1 x5 g) 3i=1 6i=1 (xi + fi )

b) 4i=2 (fi + xi + gi ) = (f2 + x2 + g2 ) + (f3 + x3 + g3 )(f4 + x4 + g4 ) = (3 + 5 + 6) + (4 + 6 +

23/09 24/09 25/09 26/09 27/09

• Estatı́stica: planejamento, coleta, redução, análise, modelagem e interpretação de

• Análise exploratória de dados: consiste na redução (tabelas, gráficos e medidas

• Variável: qualquer caracterı́stica observável da unidade de interesse.

• Amostra: qualquer parte (subconjunto) de uma população.

Classificação de uma variável.

• Quantitativas: apresenta como possı́veis realizações uma contagem ou mensuração.

– Discretas: possı́veis resultados formam um conjunto finito ou enumerárel (por

– Contı́nuas: possı́veis resultados formam um conjunto não enumerárel (inter-

• Qualitativas: apresenta como possı́veis realizações uma qualidade/atributo da uni-

– Ordinal: apresenta ordem/hierarquia nos seus possı́veis resultados. Ex: nı́vel

– Nominal: não apresenta ordem/hierarquia nos seus possı́veis resultados. Ex:

Exercı́cio: Classifique as seguintes variáveis:

1. Taxa de natalidade na cidade de Seropédica (número de nascimentos por 1000 habi-

2. Grau de ajustamento familiar (baixo, médio e alto).

3. Fertilizante utilizado em plantação de batatas (nenhum, nitrogênio, esterco, nitrogênio

4. Número de casos diários de Covid-19 no estado do Rio de Janeiro.

3 Representação Tabular de Variáveis: Tabela de Distribuição

Id Turma Sexo Idade Alt Peso Filhos Toler Exerc TV OpTV

3.1 Tabela de frequências

A tabela de distribuição de frequências apresenta as informações de frequências absolutas,

Tabela 1: Tabela de frequências.

• Método da raiz quadrada:

• Também podemos escolher de acordo com nosso interesse na pesquisa.

Nı́vel de Instrução ni fi % fac

Tabela 2: Tabela de Distribuição de Frequências

3.1.1 Tabela de dupla entrada

Considere a quantia de empréstimos diários (em milhares) de quatro diferentes bancos

Construa uma tabela de frequências de dupla entrada para as variáveis qualitativas.

4 Representação Gráfica de Variáveis

4.1 Gráfico de Barras/Colunas

fundamental médio superior

Figura 1: Gráfico de barras para variável nı́vel de instrução.

4.2 Gráfico de Setores/Pizza

1=Fundamental, 2=Médio, 3=Superior

Figura 2: Gráfico de setores para variável nı́vel de instrução.

4.3 Gráfico de Linhas

Variável: Nº de filhos por estudante =

Figura 3: Gráfico de linhas para variável número de filhos por estudante.

4.4 Gráfico de Dispersão

Figura 4: Gráfico de dispersão entre as variáveis velocidade e distância.

4.5 Ramo e folhas

Vejamos um exemplo. Dados: 91,96,98,104,105,108,108,112,112,112,113,113,114,115,115,116,116,116,11

Tabela 4: Gráfico de ramo e folhas.

Gráfico das frequências relativas (proporções) acumuladas fac .

Figura 5: Gráfico das frequências relativas acumuladas.

Suponha o seguinte conjunto de n = 36 dados:

Para construir o histograma, primeiro agrupamos os dados em intervalos de classe e apre-

Calculamos a amplitude total do conjunto:

∆ = 23, 30 − 4, 00 = 19, 30.

Suponha que queremos dividir em 5 intervalos de igual tamanho, basta fazer

di : densidade do i-ésimo intervalo de classe.

• nos histogramas de proporção, temos a área total igual a 1.

• nos histogramas de proporção, cada retângulo representa a proporção da respectiva