Apostila Estatistica Basica

Estatı́stica Básica
Universidade Federal Rural do Rio de Janeiro

Profª: Josiane S. Cordeiro Coelho
Prof: Felipe Leite Coelho da Silva
1
Capı́tulo 1
Estatı́stica Descritiva
Antes de iniciarmos com a análise exploratória de dados, apresentaremos a notação de

somatório que será utilizada mais adiante.
1.1 Somatório
Podemos utilizar a notação do somatório para representar somas de elementos relaciona-

dos a um conjunto de valores. Seja X = {x1 , x2 , · · · , xn } um conjunto com n elementos
numéricos. Podemos representar a soma de seus elementos de forma reduzida utilizando
a notação de somatório:
n
X
x1 + x2 + · · · + xn = xi ,
i=1
onde lê-se ”somatório de xi para i variando de 1 até n.”
Vejamos alguns exemplos bastante utilizados abaixo.
Sejam os conjuntos de valores X = {x1 , x2 , · · · , xn }, Y = {y1 , y2 , · · · , yn } e Z = {z11 , z12 , · · · ,
z1k , z21 , z22 , · · · , z2k , · · · , zn1 , zn2 , · · · , znk }.
a) Somatório simples:
n
X
xi = x1 + x2 + · · · + xn .
i=1
b) Somatório de quadrados:
n
X
x2i = x21 + x22 + · · · + x2n .
i=1
c) Quadrado do somatório:
n
!2
X
xi = (x1 + x2 + · · · + xn )2 .
i=1
2
d) Somatório de produtos:
n
X
xi y i = x1 y 1 + x2 y 2 + · · · + xn y n .
i=1
e) Produto de somatórios:
n
X k
X
xi yi = (x1 + x2 + · · · + xn )(y1 + y2 + · · · + yk ).
i=1 i=1
f) Somatório duplo:
n X
X k n
X
zij = (zi1 + zi2 + · · · + zik ) = (z11 + z12 + · · · + z1k )+· · ·+(zn1 + zn2 + · · · + znk ) .
i=1 j=1 i=1
A seguir, apresentamos algumas propriedades do somatório que podem ser úteis quando
estamos operando.
Principais propriedades de somatório:

Pn Pn Pn
i) i=1 (xi + yi ) = i=1 xi + i=1 yi .
Pn
ii) i=1 A = nA, em que A é uma constante.
Pn Pn
iii) i=1 Axi = A i=1 xi , em que A é uma constante.
Pn Pn
iv) i=1 (Axi + A) = A i=1 xi + nA, em que A é uma constante.
Exemplo 1. Considere três conjuntos com 6 elementos cada descritos na tabela abaixo:
i 1 2 3 4 5 6
xi 2 3 4 3 2 1
fi 4 5 6 8 10 12
gi 10 6 12 4 5 10
Determine o valor de cada somatório:

a) 6i=1 xi b) 4i=2 (fi + xi + gi ) c) 4i=2 (fi2 − gi2 )
P P P P6
d) i=1 xi + f 3 − x1
e) 3i=2 (3xi + 10fi ) f) 6i=1 x5 g) 3i=1 6i=1 (xi + fi )
P P P P P6
h) i=1 25
Soluções:
3
a) 6i=1 xi = x1 + x2 + x3 + x4 + x5 + x6 = 2 + 3 + 4 + 3 + 2 + 1 = 15.
P
b) 4i=2 (fi + xi + gi ) = (f2 + x2 + g2 ) + (f3 + x3 + g3 ) + (f4 + x4 + g4 ) = (3 + 5 + 6) + (4 +

P
6 + 12) + (3 + 8 + 4) = 14 + 22 + 15 = 41.
Exercı́cio:
A tabela a seguir apresenta a variação do preço do dólar no mês de setembro de 2008 e a
compra da moeda realizada por duas empresas. A variável c(x) representa a compra de
dólares pelas duas empresas.
23/09 24/09 25/09 26/09 27/09

Preço do dólar 1.83 1.85 1.82 1.85 1.96
c(xi )(Empresa A) 1000 750 400 900 300
c(xi )(Empresa B) 1200 600 510 780 310
Qual foi a empresa que investiu mais nestes cinco dias do mês de setembro de 2008? E
quanto investiu em reais?
1.2 Principais definições
• Estatı́stica: planejamento, coleta, redução, análise, modelagem e interpretação de

dados.
• Análise exploratória de dados: consiste na redução (tabelas, gráficos e medidas

numéricas), análise e interpretação dos dados.
• Variável: qualquer caracterı́stica observável da unidade de interesse.
• População: conjunto de indivı́duos (ou objetos, elementos) que tem em comum pelo
menos uma variável observável.
• Amostra: qualquer parte (subconjunto) de uma população.
Classificação de uma variável.
• Quantitativas: apresenta como possı́veis realizações uma contagem ou mensuração.
4
– Discretas: possı́veis resultados formam um conjunto finito ou enumerárel (por

exemplo, 0, 1, 2, · · · ). Ex: nº de irmãos, idade em anos.
– Contı́nuas: possı́veis resultados formam um conjunto não enumerárel (inter-

valos reais). Ex: peso, altura, salário.
• Qualitativas: apresenta como possı́veis realizações uma qualidade/atributo da uni-

dade de estudo.
– Ordinal: apresenta ordem/hierarquia nos seus possı́veis resultados. Ex: nı́vel

de instrução, classe social.
– Nominal: não apresenta ordem/hierarquia nos seus possı́veis resultados. Ex:

sexo, estado civil, religião.
Exercı́cio: Classifique as seguintes variáveis:
1. Taxa de natalidade na cidade de Seropédica (número de nascimentos por 1000 habi-

tantes (nesta região) em um ano).
2. Grau de ajustamento familiar (baixo, médio e alto).
3. Fertilizante utilizado em plantação de batatas (nenhum, nitrogênio, esterco, nitrogênio

ou esterco);
4. Número de casos diários de Covid-19 no estado do Rio de Janeiro.
5
1.3 Representação Tabular de Variáveis: Tabela de Distri-

buição de Frequências
Podemos tabular um conjunto de dados a fim de obter um resumo e/ou uma apresentação
dos dados. A tabulação pode ser feita para variáveis qualitativas ou quantitativas. Se-
guem alguns exemplos.
A tabela abaixo é simples e não faz nenhum tipo de redução dos dados, apenas organiza.
6
Id Turma Sexo Idade Alt Peso Filhos Toler Exerc TV OpTV

1 A F 17 1,6 60,5 2 P 0 16 R
2 A F 18 1,69 55 1 M 0 7 R
3 A M 18 1,85 72,8 2 P 5 15 R
4 A M 25 1,85 80,9 2 P 5 20 R
5 A F 19 1,58 55 1 M 2 5 R
6 A M 19 1,76 60 3 M 2 2 R
7 A F 20 1,6 58 1 P 3 7 R
8 A F 18 1,64 47 1 I 2 10 R
9 A F 18 1,62 57,8 3 M 3 12 R
10 A F 17 1,64 58 2 M 2 10 R
11 A F 18 1,72 70 1 I 10 8 N
12 A F 18 1,66 54 3 M 0 0 R
13 A F 21 1,7 58 2 M 6 30 R
14 A M 19 1,78 68,5 1 I 5 2 N
15 A F 18 1,65 63,5 1 I 4 10 R
16 A F 19 1,63 47,4 3 P 0 18 R
17 A F 17 1,82 66 1 P 3 10 N
18 A M 18 1,8 85,2 2 P 3 10 R
19 A F 20 1,6 54,5 1 P 3 5 R
20 A F 18 1,68 52,5 3 M 7 14 M
21 A F 21 1,7 60 2 P 8 5 R
22 A F 18 1,65 58,5 1 M 0 5 R
23 A F 18 1,57 49,2 1 I 5 10 R
24 A F 20 1,55 48 1 I 0 28 R
25 A F 20 1,69 51,6 2 P 8 4 N
26 A F 19 1,54 57 2 I 6 5 R
27 B F 23 1,62 63 2 M 8 5 R
28 B F 18 1,62 52 1 P 1 10 R
29 B F 18 1,57 49 2 P 3 12 R
30 B F 25 1,65 59 4 M 1 2 R
31 B F 18 1,61 52 1 P 2 6 N
32 B M 17 1,71 73 1 P 1 20 R
33 B F 17 1,65 56 3 M 2 14 R
34 B F 17 1,67 58 1 M 4 10 R
35 B M 18 1,73 87 1 M 7 25 B
36 B F 18 1,6 47 1 P 5 14 R
37 B M 17 1,7 95 1 P 10 12 N
38 B M 21 1,85 84 1 I 6 10 R
39 B F 18 1,7 60 1 P 5 12 R
40 B M 18 1,73 73 1 M 4 2 R
7
1.3.1 Tabela de frequências
A tabela de distribuição de frequências apresenta as informações de frequências absolutas,

frequências relativas e acumuladas dos dados observados.
Tabela 1.1: Tabela de frequências.

Classes ni fi fiac Percentual
c1 n1 f1 f1ac 100 × f1
c2 n2 f2 f2ac 100 × f2
.. .. .. ..
. . . .
ck nk fk 1 100 × fk
Total n 1 100%
Considere que:
• k é o número de classes;
• ni é a frequência absoluta, n1 + n2 + · · · + nk = n;
ni
• fi é a frequência relativa, fi = ;
n
i
X
• fiac é a frequência relativa acumulada, fiac = fj .
j=1
Importante: O número de classes (k) para uma tabela de frequências pode ser obtido
utilizando os seguintes métodos:
• Método da raiz quadrada:
√

 n, se n > 25;

k =
5, caso contrário.

• Método de Sturges:
k = 1 + 3, 22 log10 n (1.1)
• Também podemos escolher de acordo com nosso interesse na pesquisa.
8
Exemplo 2. Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni =
18, fi = 0, 50) e superior (ni = 6, fi = 0, 17).

Nı́vel de Instrução ni fi % fac
Fundamental 12 0,33 33 0,33
Médio 18 0,50 50 0,83
Superior 6 0,17 17 1,00
Total 36 1,00 100 -
Tabela 1.3: Tabela de Distribuição de Frequências
em que:
ni : frequência absoluta;
fi : frequência relativa;
%: porcentagem;
fac : frequência relativa acumulada.
Tabela de dupla entrada
Exemplo 3. Considere a quantia de empréstimos diários (em milhares) de quatro diferentes bancos
(B1, B2, B3 e B4) com agências de mesmo porte em três avenidas (A1, A2 e A3) de uma cidade:
Tabela 1.4: Dados

Banco/Avenida A1 A2 A3 Total
B1 25 35 24 84
B2 32 28 27 87
B3 27 33 31
B4 41 60 25 126
Total 125 156 107 388
9
Exemplo 4. Foi realizada uma pesquisa com 20 funcionários de uma empresa para avaliar a pre-
ferência entre dois produtos (A e B). A tabela abaixo apresenta os resultados das seguintes carac-
terı́sticas investigadas: Renda do trabalho em número de salários mı́nimos (X); Sexo (F - feminino
e M - masculino); Preferência entre os produtos A ou B.
Entrevistado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
N o salários (X) 2 3,7 1,7 3 4 5 1,4 3 3 1,8 6 4,8 2,3 1,5 3,2 2,2 1 4,4 2 2
Sexo M M F M F M M F F F M M F M F F M F M F
Preferência A B A B B B A B A A B B A A A A A B A A
Construa uma tabela de frequências de dupla entrada para as variáveis qualitativas.
10
1.4 Representação Gráfica de Variáveis
• Qualitativas:
– gráfico de colunas/barras;
– gráfico de setores;
• Quantitativas:
– gráfico de colunas/barras;
– gráfico de linhas;
– gráfico de dispersão;
– ramo e folhas;
– ogiva;
– histograma;
– polı́gono de frequências.
Todos os gráficos a seguir foram gerados utilizando o software livre R. Você pode fazer o
download do programa pela site oficial: https://cran.r-project.org/
1.4.1 Gráfico de Barras/Colunas
11
15
Frequência
10
5
0
fundamental médio superior

Grau de Instrução
Figura 1.1: Gráfico de barras para variável nı́vel de instrução.
1.4.2 Gráfico de Setores/Pizza
1(33.3%)
2(50%) 3(16.7%)
1=Fundamental, 2=Médio, 3=Superior
Figura 1.2: Gráfico de setores para variável nı́vel de instrução.
Pode vir acompanhado com uma legenda ou porcentagens ao lado das respostas.
12
1.4.3 Gráfico de Linhas
Exemplo 7. Variável: Nº de filhos por estudante =
{0, 1, 2, 0, 0, 0, 0, 0, 1, 0, 2, 0, 0, 3, 0, 0, 1, 2, 0, 0, 1, 0, 0, 0, 2, 2, 0, 0, 5, 2, 0, 1, 3, 0, 2, 3}.
5
4
Nº de filhos
3
2
1
0
0 5 10 15 20 25 30 35
Estudantes
Figura 1.3: Gráfico de linhas para variável número de filhos por estudante.
13
1.4.4 Gráfico de Dispersão
Exemplo 8. Útil para séries temporais ou para relacionar duas variáveis quantitativas. Variáveis:
Velocidade (4, 4, 7, 7, 8, 9, 10, 10, 10, ..., 24, 25) e Distância (10, 4, 22, 16, 10, 18, 26, 34, ..., 120,
85).
120
●
100
●
●
● ●
80
●
●
Distância
●
●
●
●
60
●
● ●
● ●
●
●
●
● ●
●
40
● ●
● ●
● ●
● ● ●
● ●
● ● ● ●
●
●
20
● ●
● ●
●
●
● ●
●
●
0
5 10 15 20 25
Velocidade
Figura 1.4: Gráfico de dispersão entre as variáveis velocidade e distância.
1.4.5 Ramo e folhas
Vejamos um exemplo.
Exemplo 9. Dados: 91,96,98,104,105,108,108,112,112,112,113,113,114,115,115,116,116,116,116,118,118,

118,119,120,121,121,121,121,121,123,123,123,124,126,126,126,126,126,127,127,128,128, 129,
129,129,130,130,130,131,132,132,132,133,133,134,134,134,134,134,134,135,136, 136,137, 138,
141,141,141,142,143,143,144,144,144,144,145,146,146,146,146,147,147, 148,148,149, 150,150,
150, 153,154,154,154,154,,157,157,158,158.
14
9 | 168
10 | 4588
11 | 2223345566668889
12 | 0111113334666667788999
13 | 00012223344444455566678
14 | 11123344445666677889
15 | 000344447788
Tabela 1.5: Gráfico de ramo e folhas.
1.4.6 Ogiva
Gráfico das frequências relativas (proporções) acumuladas fac .
Exemplo 10. Variável: Velocidade (4, 4, 7, 7, 8, 9, 10, 10, 10, 11, 11,..., 24, 24, 24, 24, 25), com
frequências relativas = 0.03703704, 0.03703704, 0.01851852, 0.01851852, 0.05555556, 0.03703704,
..., 0.01851852, 0.07407407, 0.09259259).
1.0
●
0.8
Proporção Acumulada (Fac)
●
●
●
0.6
●
●
●
0.4
●
0.2
●
●
●
●
●
●
0.0
5 10 15 20 25
Velocidade
Figura 1.5: Gráfico das frequências relativas acumuladas.
15
1.4.7 Histograma
Exemplo 11. Suponha o seguinte conjunto de n = 36 dados:

4,00; 4,56; 5,25; 5,73; 6,26; 6,66; 6,86; 7,39; 7,59; 7,44; 8,12; 8,46 ; 8,74 ; 8,95; 9,13; 9,35; 9,77;
9,80; 10,53; 10,76; 11,06; 11,59; 12,00; 12,79 ;13,23; 13,60; 13,85; 14,69; 14,71; 15,99; 16,22;
16,61; 17,26; 18,75; 19,40; 23,30.
Para construir o histograma, primeiro agrupamos os dados em intervalos de classe e apre-

sentamos em uma tabela de frequências. A fim de agrupar em intervalos, precisamos de-
finir o número de classes. Aqui, utilizaremos o conhecimento do pesquisador escolhendo
o número de classes e realizando o procedimento a seguir.
Calculamos a amplitude total do conjunto:
∆ = 23, 30 − 4, 00 = 19, 30.
Suponha que queremos dividir em 5 intervalos de igual tamanho, basta fazer
∆ 19, 30
∆i = = = 3, 86 ≈ 4,
5 5
(sempre arredondar para mais, garantindo que o último valor seja incluı́do).
Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,0700
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,0550
[16,20) 18 5 0,14 14 0,97 0,0350
[20,24) 22 1 0,03 3 1,00 0,0075
Total - 36 1,00 100 - -
em que:
xi : ponto médio do i-ésimo intervalo de classe;
ni : frequência absoluta do i-ésimo intervalo de classe;
fi : frequência relativa do i-ésimo intervalo de classe;
%: porcentagem do i-ésimo intervalo de classe;
fac : frequência relativa acumulada até o i-ésimo intervalo de classe;
16
di : densidade do i-ésimo intervalo de classe.
Note que:
• os histogramas são formados por retângulos cujas bases são os intervalos de classes
dos dados agrupados e as alturas são as densidades de cada classe (di ).
ni fi
• podemos ter histogramas de frequências (di = δi
), de proporção (di = δi
) e de por-
100fi
centagem (di = δi
).
• nos histogramas de proporção, temos a área total igual a 1.
• nos histogramas de proporção, cada retângulo representa a proporção da respectiva

classe representada.
0.10
33%
0.08
Densidade de Frequência
28%
0.06
22%
0.04
14%
0.02
3%
0.00
0 4 8 12 16 20 24
Salário
Figura 1.6: Histograma.
17
1.4.8 Polı́gono de Frequências
0.10
0.08
●
●
0.06
Densidade
●
0.04
●
0.02
●
0.00
● ●
0 5 10 15 20 25 30
Salário
Figura 1.7: Polı́gono de frequências.
Podemos também sobrepor o histograma e o polı́gono de frequências:

0.10
0.08
●
●
0.06
●
0.04
●
0.02
●
0.00
● ●
0 4 8 12 16 20 24
Salário
Figura 1.8: Histograma e polı́gono de frequências.
18
Exercı́cio: Considere um conjunto com os dados de idade (em meses) de uma determinada
planta.
1 2 2 6 8 9 15 17 20 20
20 21 27 29 29 35 37 37 43 48
Faça o histograma com 5 classes iniciando no menor valor do conjunto. E, em seguida, o
polı́gono de frequência.
19
1.5 Medidas Resumo: Medidas de Posição e Medidas de

Dispersão
As medidas de posição e de dispersão são somente aplicadas aos conjuntos de dados

quantitativos, fornecendo informções que resumem e auxiliam no conhecimento sobre o
conjunto.
Considere um conjunto de dados X = {x1 , x2 , · · · , xn } com n observações.
1.5.1 Medidas de Posição
São medidas que resumem o conjunto de dados em relação à posição.
• Moda (Mo): é a observação que mais se repete no conjunto de dados.
Exemplo 12. 1. Unimodal: X = {4, 7, 5, 3, 4, 9, 10, 2}, logo M o = 4.
2. Amodal: X = {4, 7, 5, 3, 9, 10, 2}, logo não existe M o.
3. Bimodal: X = {4, 7, 5, 3, 4, 9, 10, 2, 7}, logo M o = 4 e 7.
4. Multimodal: X = {4, 7, 5, 3, 4, 9, 10, 2, 7, 9}, logo M o = 4, 7 e 9.
• Mediana (Md): é o valor do conjunto de dados que divide o conjunto ordenado em

duas partes iguais. Exemplos:
1. X = {4, 7, 5, 3, 9, 10, 2}. Ordenando:
{2, 3, 4, 5, 7, 9, 10},
logo M d = 5, que ocupa a 4ª posição no conjunto com 7 observações deixando

3 observações para cada lado.
2. X = {4, 7, 5, 3, 9, 10, 2, 7}. Ordenando:
{2, 3, 4, 5, 7, 7, 9, 10},
que é um conjunto com 8 observações. A mediana é o valor que deixa 4 observações

abaixo e 4 observações acima e, podemos obtê-la tomando o ponto médio en-
5+7
tre as observações da 4ª posição e da 5ª posição: M d = = 6, que é um
2
valor que não pertence ao conjunto de dados. Note que para conjuntos com
total de observações ı́mpar, a mediana pertence ao conjunto, já para total de
observações par, a mediana pode pertencer ou não.
20
• Média: é uma medida extremamente conhecida e utilizada. Dependendo do con-

junto de dados, pode ser mais indicado diferentes tipos de médias, como apresenta-
mos abaixo.
– Média Aritmética Simples: Pn

i=1 xi
x̄ = .
n
– Média Aritmética Ponderada: Suponha, ainda, um conjunto de pesos W =
{w1 , w2 , · · · , wn } associado ao conjunto X. A média aritmética do conjunto X
ponderada pelo conjunto W é dada por:
Pn
xi w i
x̄p = Pi=1
n .
i=1 wi
– Média Geométrica:
√
x̄g = n
x1 × x2 × · · · x n .
Útil para encontrar taxas médias.
– Média Harmônica:
n
x̄h = Pn 1 .
i=1 xi
Útil para encontrar a média de taxas médias e velocidades médias.
Exemplo 13. Seja o conjunto de observações X = {4, 7, 5, 3, 9, 10, 2}. Vamos determinar
cada uma das médias apresentadas acima.
4 + 7 + 5 + 3 + 9 + 10 + 2
1. x̄ = ≈ 5, 72;
7
2. Considere o conjunto de pesos W = {1, 3, 2, 1, 3, 2, 1}, logo:
4 ∗ 1 + 7 ∗ 3 + 5 ∗ 2 + 3 ∗ 1 + 9 ∗ 3 + 10 ∗ 2 + 2 ∗ 1
x̄p = ≈ 6, 69;
13
√
7
3. x̄g = 4 × 7 × 5 × 3 × 9 × 10 × 2 ≈ 4, 98;
7
4. x̄h = 1 ≈ 4, 28.
4
+ + + + 19 +
1
7
1
5
1
3
1
10
+ 1
2
• Separatrizes ou Quantis: Dividem o conjunto de dados ordenado em partes iguais.
– Mediana: divide em duas partes iguais (Md ).
– Quartis: divide em 4 partes iguais (Q1 , Q2 , Q3 ).
– Decis: divide em 10 partes iguais (D1 , · · · , D9 ).

21
– Percentis: divide em 100 partes iguais (P1 , · · · , P99 ).
Podemos utilizar a seguinte fórmula para encontrar a posição dos quantis de forma
geral:
s(n + 1)
,
r
em que s é a ordem do quantil (quartil {1, 2, 3}; decil {1, 2, · · · , 9}; percentil {1, 2, · · · , 99}),
r é o quantil desejado (4,10 ou 100) e n é o tamanho do conjunto de dados.
Exemplo 14. Seja X = {160, 145, 133, 144, 152, 167, 200, 156, 143, 144, 167, 177, 160, 153, 155}
com n = 15 observações. Encontre os quartis, D3 , P25 e P10 .
Ordenando, obtemos:
{133, 143, 144, 144, 145, 152, 153, 155, 156, 160, 160, 167, 167, 177, 200}.
1. D3 : encontrando a posição
s(n + 1) 3 ∗ (15 + 1)
= = 4, 8 ≈ 5,
r 10
logo D3 = 145;
2. P25 : encontrando a posição
25 ∗ (15 + 1)
= 4,
100
logo P25 = 144;
3. P10 : encontrando a posição
10 ∗ (15 + 1)
= 1, 6 ≈ 2,
100
logo P10 = 143.
Medidas de Posição para Dados Agrupados
Considere um conjunto de dados agrupados em K intervalos de classes, em que xi é o

ponto médio do i-ésimo intervalo de classe; ni é a frequência absoluta do i-ésimo intervalo
de classe; e, fi é a frequência relativa do i-ésimo intervalo de classe. Podemos calcular
medidas resumo de um conjunto de dados agrupados, que serão medidas aproximadas, e
não exatas, do conjunto de dados original. Definimos:
22
• Moda: valor xi com maior ni ou fi .
• Mediana: vamos encontrar pelo histograma de proporção, utilizando que a as áreas

de cada retângulo corresponde a proporção de observados na respectiva classe.
• Média Aritmética: PK K
i=1 xi ni X
x̄ = = x i fi .
n i=1
Exemplo 15. Seja X = {4, 00; 4, 56; 5, 25; 5, 73; 6, 26; 6, 66; 6, 86; 7, 39; 7, 59; 7, 44; 8, 12; 8, 46; 8, 74;
8, 95; 9, 13; 9, 35; 9, 77; 9, 80; 10, 53; 10, 76; 11, 06; 11, 59; 12, 00; 12, 79; 13, 23; 13, 60; 13, 85; 14, 69;
14, 71; 15, 99; 16, 22; 16, 61; 17, 26; 18, 75; 19, 40; 23, 30}, agrupado em 5 intervalos de classes:

[4,8) 6 10 0,28 28 0,28 0,07
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,055
[16,20) 18 5 0,14 14 0,97 0,035
[20,24) 22 1 0,03 3 1,00 0,0075
0.10
33%
0.08
28%
0.06
22%
0.04
14%
0.02
3%
0.00
0 4 8 12 16 20 24
Salário
1. Moda = 10.
23
2. Mediana = 10,67 (obtida via histograma). Como determinar? A mediana deixa 50%
dos dados abaixo dela. No primeiro retângulo do histograma, temos 28% dos dados
(f1 ) que não é suficiente, então temos que somar mais a proporção de 33% do se-
gundo retângulo, que já ultrapassa os 50% da mediana. Logo, a mediana é um valor
no intervalo de 8 até 12, que determina um retângulo de área 22% para somar com
os 28% do retângulo anterior e totalizar 50%. Temos a seguinte equação:
0,22(área do retângulo determinado pela mediana)=(M d−8)(base do retângulo)*0,0825(altura

do retângulo).
0, 22
Basta isolarmos a M d e encontramos M d = 8 + = 10, 67.
0, 0825
6 × 10 + 10 × 12 + 14 × 8 + 18 × 5 + 22 × 1
3. Média Aritmética = = 6 × 0, 28 + 10 ×
10 + 12 + 8 + 5 + 1
0, 33 + 14 × 0, 22 + 18 × 0, 14 + 22 × 0, 03 = 11, 24.
1.5.2 Medidas de Dispersão
São medidas que resumem o conjunto de dados em relação à dispersão/variabilidade dos

dados.
• Suponha que queremos pensar em dispersão dos dados em torno da sua média
aritmética. Então, poderı́amos olhar para as diferenças de cada xi , para i = 1, · · · , n,
em relação à média x̄, isto é,
xi − x̄,
e, pensando numa única medida para todo conjunto poderı́amos pensar em

n
X n
X n
X n
X
(xi − x̄) = xi − x̄ = nx̄ − x̄ = 0,
i=1 i=1 i=1 i=1
que é sempre igual a zero para qualquer que seja X. Para contornar esse problema,
temos as seguintes propostas:
– Desvio médio absoluto:

Pn
i=1 |xi − x̄|
DM A(X) = .
n
– Variância (amplamente utilizado):

Pn 2
Pn 2
(x i − x̄) x
V ar(X) = i=1 = i=1 i − (x̄)2 .
n n
24
– Desvio Padrão (retornando a escala original dos dados):

p
DP (X) = V ar(X).
• Intervalo Interquartı́lico: IQ(X) = Q3 (X) − Q1 (X).
• Coeficiente de Variação (medida adimensional, muito útil para comaprar conjuntos

com escalas diferentes):
DP (X)
CV (X) = ,
x̄
para x̄ 6= 0.
Exemplo 16. Seja X = {4, 7, 5, 3, 9, 10, 2}. Portanto:
• DM A(X) =
|4 − 5, 72| + |7 − 5, 72| + |5 − 5, 72| + |3 − 5, 72| + |9 − 5, 72| + |10 − 5, 72| + |2 − 5, 72|
≈
7
2, 53;
42 + 72 + 52 + 32 + 92 + 102 + 22
• V AR(X) = − 5, 722 ≈ 7, 92;
7
p
• DP (X) = 7, 92 ≈ 2, 81;

3+4 7+9
• IQ(X) = 8 − 3, 5 = 4, 5, pois Q1 (X) = 3, 5 e Q3 (X) = 8 extraı́dos
2 2
do conjunto ordenado {2, 3, 4, 5, 7, 9, 10} com 7 observações;
2, 81
• CV (X) = ≈ 0, 49.
5, 72
Medidas de Dispersão para Dados Agrupados
Considere um conjunto de dados agrupados em K intervalos de classes, em que xi é o

ponto médio do i-ésimo intervalo de classe; ni é a frequência absoluta do i-ésimo intervalo
de classe; e, fi é a frequência relativa do i-ésimo intervalo de classe. Assim como para as
medidas de posição, podemos calcular as medidas de dispersão de um conjunto de dados
agrupados, que serão medidas aproximadas, e não exatas, do conjunto de dados original.
Definimos:
PK K
i=1 |xi − x̄|ni X
• DM A(X) = = |xi − x̄|fi .
n i=1
PK K K
i=1 (xi − x̄)2 ni X X
• V ar(X) = = (xi − x̄)2 fi = x2i fi − (x̄)2 .
n i=1 i=1
25
• Desvio padrão, intervalo interquartı́lico e coeficiente de variação: permacem com as

mesmas fórmulas, somente adaptando-se as medidas envolvidas que serão calcula-
das a partir dos dados agrupados.
Exemplo 17. Calcule todas as medidas de dispersão apresentadas para o conjunto de dados agru-
pados da tabela abaixo.

[4,8) 6 10 0,28 28 0,28 0,07
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,055
[16,20) 18 5 0,14 14 0,97 0,035
[20,24) 22 1 0,03 3 1,00 0,0075
0.10
33%
0.08
28%
0.06
22%
0.04
14%
0.02
3%
0.00
0 4 8 12 16 20 24
Salário
Calculando:
PK
|xi − x̄|ni
i=1
• DM A(X) = =
n
|6 − 11, 24| × 10 + |10 − 11, 24| × 12 + |14 − 11, 24| × 8 + |18 − 11, 24| × 5 + |22 − 11, 24| × 1
=
36
3, 72;
K
X
• V ar(X) = x2i fi − (x̄)2 = (62 × 0, 28 + 102 × 0, 33 + 142 × 0, 22 + 182 × 0, 14 + 222 ×
i=1
0, 03) − (11, 24)2 ≈ 19, 74;
26
p
• DP (X) = 19, 7 ≈ 4, 44;
• IQ(X) = Q3 (X) − Q1 (X) = 14, 545455 − 7, 571429 = 6, 974026, pois através do histo-
grama determinamos os quartis:
– Q1 deixa 25% dos dados abaixo dele. No primeiro retângulo do histograma,

temos 28% dos dados (f1 ) que já ultrapassa os 25% do primeiro quartil. Logo, o
Q1 é um valor no intervalo de 4 até 8. Temos a seguinte equação:
0,25(área do retângulo determinado pelo Q1 )=(Q1 −4)(base do retângulo)*0,07(altura
do retângulo).
0, 25
Basta isolarmos o Q1 e encontramos Q1 = 4 + = 7, 571429.
0, 07
– Q3 deixa 75% dos dados abaixo dele. Precisamos alcançar no mı́nimo os 75%,
assim precisamos dois 3 primeiros retângulos, que somam 28%+33%+22%=83%
dos dados que ultrapassa os 75% do terceiro quartil. Logo, o Q3 é um valor no
intervalo de 12 até 16, que determina uma área de 14% para somar com os dois
primeiros retângulos um total de 75%. Temos a seguinte equação:
0,14(área do retângulo determinado pelo Q3 )=(Q3 −12)(base do retângulo)*0,055(altura
do retângulo).
0, 14
Basta isolarmos o Q3 e encontramos Q3 = 12 + = 14, 545455.
0, 055
DP (X) 4, 44
• CV (X) = = ≈ 0, 40.
X̄ 11, 24
1.5.3 Propriedades das Medidas de Posição e Dispersão
Sejam a, b ∈ < e X = {x1 , x2 , · · · , xn }.
• Se Y = {a, a, · · · , a}, então todas as medidas de posição são iguais a ”a”e todas as
medidas de dispersão são iguais a zero.
• Seja o conjunto Y = {ax1 , ax2 , · · · , axn }, então ȳ = ax̄, M o(Y ) = aM o(X), M d(Y ) =
aM d(X); DM A(Y ) = |a|DM A(X), V ar(Y ) = a2 V ar(X), DP (Y ) = |a|DP (X),
IQ(Y ) = |a|IQ(X).
• Seja o conjunto Z = {x1 + b, x2 + b, · · · , xn + b}, então z̄ = x̄ + b, M o(Z) = M o(X) + b,

M d(Z) = M d(X) + b e o mesmo vale para todos os quantis; as medidas de dispersão
permanecem inalteradas DM A(Z) = DM A(X), V ar(Z) = V ar(X), DP (Z) = DP (X),
IQ(Z) = IQ(X).
27
• Seja o conjunto W = {ax1 + b, ax2 + b, · · · , axn + b}, então w̄ = ax̄ + b, M o(W ) =

aM o(X)+b, M d(W ) = aM d(X)+b e o mesmo vale para todos os quantis; DM A(W ) =
|a|DM A(X), V ar(W ) = a2 V ar(X), DP (W ) = |a|DP (X), IQ(W ) = |a|IQ(X).
Exemplo 18. Seja X = {4, 7, 5, 3, 9, 10, 2}. Defina Y = 3X, Z = X + 4 e W = 2X − 1.

Determine:
• as médias de Y , Z, e W :
ȳ = 3x̄ = 3 × 5, 72 = 17, 16;
z̄ = x̄ + 4 = 5, 72 + 4 = 9, 72;
w̄ = 2x̄ − 1 = 2 × 5, 72 − 1 = 10, 44.
• as medianas de Y , Z, e W :
M d(Y ) = 3M d(X) = 3 × 5 = 15;
M d(Z) = M d(X) + 4 = 5 + 4 = 9;
M d(W ) = 2M d(X) − 1 = 2 × 5 − 1 = 9.
• as variâncias de Y , Z, e W :
V ar(Y ) = 32 V ar(X) = 32 × 7, 92 = 71, 28;
V ar(Z) = V ar(X) = 7, 92;
V ar(W ) = 22 V ar(X) = 22 × 7, 92 = 31, 68.
• os desvios padrões de Y , Z, e W :
p √
DP (Y ) = V ar(Y ) = 71, 28 = 8, 442748;
p √
DP (Z) = V ar(Z) = 7, 92 = 2, 814249;
p √
DP (W ) = V ar(W ) = 31, 68 = 5, 628499.
Exercı́cio Segundo um laboratório, os ı́ndices de glicose (em mg por decilitro) de vinte

pacientes no inı́cio da coletagem de um certo dia foram: 77, 75, 82, 76, 69, 71, 80, 66, 85, 77,
72, 100, 80, 86, 74, 90, 69, 89, 74 e 115. Sabendo que
20
X 20
X
xi = 1607 e x2i = 131705
i=1 i=1
1. Encontre a média e a variância destes ı́ndices.

28
2. Encontre a média e a variância destes ı́ndices, supondo que houve um erro de medição
de 10 mg/dL para menos em todos os pacientes.
3. Supondo, ainda, que houve um erro de medição de 10 mg/dL para menos em todos
os pacientes, determine a média e a variância dos ı́ndices multiplicados por -2.
29
1.6 Assimetria e Curtose
Vamos falar agora de duas formas de classificação de um conjunto de dados que auxiliam
na sua descrição e entendimento, a assimetria e a curtose.
1.6.1 Assimetria
Um conjunto de dados é dito ser simétrico se sua moda, mediana e média são iguais.
Da mesma forma, se os lados direito e esquerdo do diagrama/gráfico de pontos (ou de
barras), ou do histograma, são a imagem espelhada um do outro. Observe que, para
discutirmos assimetria o conjunto de dados deve ser unimodal.
Caso seja não seja simétrico, dizemos que é assimétrico. Um conjunto de dados é as-
simétrico à direita se a cauda direita do histograma se estende muito mais do que a cauda
esquerda, ou seja, a cauda declina para direita. Nesse caso, temos média>mediana>moda.
E um conjunto de dados é assimétrico à esquerda se a cauda esquerda do histograma
se estende muito mais do que a cauda direita, ou seja, a cauda declina para esquerda.
Nesse caso, temos média<mediana<moda. Seja um conjunto de dados com n observações
Figura 1.9: Possı́veis casos de assimetria. A seta representa a média da distribuição. Fonte:
Apostila de Estatı́stica Descritiva da Ana Maria Farias-UFF
X = {x1 , x2 , · · · , xn }. Existem vários coeficientes que medem o grau de assimetria de um

conjunto. Vamos estudar o coeficiente de assimetria de Pearson que é dado por:
x̄ − M o(X)
e= .
DP (X)
Note que:
1. se e = 0, então x̄ − M o(X) = 0 ⇒ x̄ = M o(X), logo a distribuição de valores é

simétrica;
30
2. se e > 0, então x̄ − M o(X) > 0 (lembre que DP (X) ≥ 0, sempre), daı́ x̄ > M o(X),
logo a distribuição de valores é assimétrica à direita;
3. se e < 0, então x̄ − M o(X) < 0 (lembre que DP (X) ≥ 0, sempre), daı́ x̄ < M o(X),
logo a distribuição de valores é assimétrica à esquerda.
Exemplo 19. Seja X = {4, 7, 5, 3, 9, 10, 2, 7, 4, 5, 7, 8, 9, 2, 3, 5, 6, 9, 4, 5, 6, 6, 4, 8, 2, 6, 4} com 27

observações.
5
4
Frequência Absoluta
3
2
1
0
2 3 4 5 6 7 8 9 10
X
Figura 1.10: Gráfico de barras do exemplo
O conjunto X é simétrico? Calcule seu coeficiente de assimetria.

Para isso, precisamos calcular:
4 + 7 + 5 + 3 + ··· + 2 + 6 + 4
• x̄ = = 5, 56;
27
• M o(X) = 4, que é o valor com maior ocorrência;
p p
• DP (X) = V ar(X) = 5, 14 = 2, 27, em que
42 + 72 + 52 + 32 + · · · + 22 + 62 + 42
V ar(X) = − (5, 56)2 = 5, 14.
27
31
Portanto, o coeficiente de assimetria é dado por
x̄ − M o(X) 5, 56 − 4
e= = = 0, 69 > 0,
DP (X) 2, 27
logo a distribuição de valores é assimétrica à direita ou positiva.
1.6.2 Curtose
A curtose ou achatamento de um conjunto de dados mede a concentração ou dispersão

dos valores de um conjunto de valores em relação às medidas de tendência central em
uma distribuição de frequências conhecida (a distribuição Normal padrão que será estu-
dada ainda no curso). Como ainda não conhecemos essa distribuição, podemos entendê-
la como uma distribuição padrão com um grau de achatamento mediano. A distribuição
dos dados pode ser classificada em três classes: leptocúrtica (afunilada), mesocúrtica e
platicúrtica (achatada).
Seja um conjunto de dados com n observações X = {x1 , x2 , · · · , xn }. Também existem

vários coeficientes de curtose, mas iremos estudar o coeficiente dado por:
m4 (X)
c= − 3,
DP (X)4
Pn
i=1 (xi − x̄)4
em que m4 (X) = .
n
Como a curtose da normal padrão é 3, o valor limiar para a classificação da curtose é o
zero. Portanto, dizemos que X é:
1. Leptocúrtica: se c > 0;
2. Mesocúrtica: se c = 0;
32
3. Platicúrtica: se c < 0.
Exemplo 20. Retomando o exemplo anterior, seja X = {4, 7, 5, 3, 9, 10, 2, 7, 4, 5, 7, 8, 9, 2, 3, 5, 6, 9,

4, 5, 6, 6, 4, 8, 2, 6, 4} com 27 observações. Calcule seu coeficiente de curtose e classifique.
Para isso, precisamos calcular:

(4 − 5, 56)4 + (7 − 5, 56)4 + (5 − 5, 56)4 + · · · + (6 − 5, 56)4 + (4 − 5, 56)4
• m4 (X) = =
27
55, 24;
• DP (X) = 2, 27, calculado no exemplo anterior.
Portanto, o coeficiente de curtose é dado por
m4 (X) 55, 24
c= 4
−3= − 3 = −0, 92 < 0,
DP (X) 2, 274
logo a distribuição de valores é platicúrtica.

Exercı́cio Segundo a SOBRAC (Sociedade Brasileira de Arritmias Cardı́acas), no Brasil,
40 milhões de pessoas têm algum tipo de Arritmia Cardı́aca. Estima-se que até 20% da
população seja acometida pela doença. O ritmo cardı́aco (ou freqüência cardı́aca) ade-
quado é ritmo regular. A frequência dos batimentos cardı́acos depende da atividade que
o indivı́duo está realizando e é medida pelo número de contrações do coração por uma
unidade de tempo, geralmente por minuto e é expressa em BPM (batimentos por minuto).
A frequência cardı́aca pode variar muito, mas normalmente situa-se entre 60 bpm e 100
bpm num indivı́duo em repouso ou atividades habituais. Em algumas situações, como
durante exercı́cios fı́sicos de alta intensidade, estes batimentos podem atingir até mesmo
180 bpm. Por outro lado, quando dormimos ou estamos em repouso, a frequência pode
ficar abaixo dos 60 bpm. Seguindo critérios rigorosos, foram medidos os ritmos cardı́acos
de repouso de 10 idosas brasileiras, obtendo-se os seguintes resultados (dados fictı́cios):
51, 55, 77, 99, 60, 75, 77, 85, 65, 62.
Classifique o conjunto de ritmos cardı́acos de repouso em relação ao grau de assimetria e
ao grau de curtose.
33
1.7 Boxplot
O Boxplot é uma representação gráfica que para ser construı́do e entendido precisa dos
conhecimentos apresentados anteriormente sobre medidas de posição e dispersão. Por
isso, dapresentaremos esse gráfico somente agora. Esta representação gráfica é bastante
rica no sentido de informar a variabilidade e simetria dos dados, envolvendo os quar-
tis do conjunto observado. Além disso, podemos observar se os dados possuem valores
discrepantes (outliers).
1.7.1 Construção:
O Boxplot é construı́do a partir de um retângulo em que o nı́vel superior é dado pelo ter-
ceiro quartil e o nı́vel inferior pelo primeiro quartil. A mediana é representada por um
traço no interior do retângulo e os segmentos de reta são colocados do retângulo até os
valores máximo e mı́nimo, que não sejam observações discrepantes.
As observações que estiverem acima do limite superior (LS ) ou abaixo do limite inferior
3
(LI ) são denominadas de valores discrepantes (pontos exteriores). LI = Q1 − IQ , LS =
2
3
Q3 + IQ e IQ = Q3 − Q1 .
2
Figura 1.11: Boxplot
Exemplo 21. Construa o boxplot para o conjunto de pesos abaixo.

Dados: 44.0 45.0 45.0 47.0 47.0 47.0 47.4 48.0 49.0 49.0 49.2 50.0 50.0 51.6 52.0 52.0 52.0 52.0
52.5 54.0 54.5 54.5 55.0 55.0 55.0 55.0 56.0 57.0 57.8 58.0 58.0 58.0 58.0 58.5 59.0 59.0 60.0 60.0
34
60.0 60.5 63.0 63.5 66.0 67.0 68.5 70.0 71.0 71.0 72.8 73.0 73.0 75.0 79.0 80.9 84.0 85.2 86.0 87.0
95.0 97.0
Primeiro, precisamos verificar se os dados estão ordenados. Nesse caso, estão em ordem
crescente. Precisamos calcular:
52 + 52 58 + 58 68, 5 + 70
• Q1 = = 52, Q2 = = 58 e Q3 = = 69, 25;
2 2 2
• IQ = Q3 − Q1 = 69, 25 − 52 = 17, 25;
3 3
• LI = Q1 − IQ = 52 − 17, 25 = 26, 125;
2 2
3 3
• LS = Q3 + IQ = 69, 25 + 17, 25 = 95, 125.
2 2
Assim, determinamos as alças superior igual a 44 e inferior igual 95, levando ao dado
discrepante 97 que é maior do que o LS de 95,125.
●
90
80
Peso (Kg)
70
60
50
Figura 1.12: Boxplot para os dados da variável Peso (Kg)
Podemos também ter vários boxplots juntos a fim de comparar diferentes conjuntos de
dados. O eixo y das ordenadas continua igual e apenas usamos o eixo x das abscissas para
distanciarmos os boxplots, sem nenhuma interpretação numérica.
35
Exercı́cio 1 Suponha que no exercı́cio anterior, sobre os ritmos cardı́acos de repouso, uma
das 10 observações foi corrigida (devido a um erro de registro), sendo 105 bpm ao invés
de 99 bpm, obtendo-se o novo conjunto de dados (dados fictı́cios): 51, 55, 77, 105, 60, 75,
77, 85, 65, 62. Construa o boxplot.
Exercı́cio 2 Considere o tempo (em minutos) de atendimento em um determinado banco
para um conjunto de 20 pessoas: 2; 2; 2; 3; 3; 4; 4; 4; 4; 4; 5; 5; 6; 6; 10; 12; 15; 17; 23; 25.
Construa o gráfico de boxplot e interprete.
36
1.8 Análise Bidimensional de Dados
Estuda a relação/associação/dependência entre duas variáveis de interesse. Pode ser feita

tanto para variáveis quantitativas quanto para variáveis qualitativas.
1.8.1 Análise Bidimensional de Variáveis Quantitativas e pareadas
Quando temos disponı́vel duas variáveis quantitativas pareadas (mesmo número de observações),
inicialmente, uma inspeção visual pode ser feita através de um gráfico de dispersão. Va-
mos desenvolver o conceito dentro de um exemplo.
Exemplo 22. Suponha as variáveis: Anos de Estudo (6, 4, 8, 8, 9, 12, 13, 9, 25, 15) e Salário Médio
(1, 0.9, 1.2, 1.5, 1.8, 3, 2.5, 2, 10, 4) em milhares.
10
●
Salário Médio (em milhares)
8
6
●
4
●
●
●
2
●
●
●
● ●
5 10 15 20 25
Anos de Estudo
Figura 1.13: Gráfico de Dispersão das variáveis Anos de Estudo e Salário Médio.
Podemos ainda, utilizar o coeficiente de correlação linear de Pearson para verificar se há
indı́cios de uma relação linear significativa entre essas duas variáveis.
Para utilizar esse coeficiente, precisamos de observações de variáveis pareadas, da forma
{(x1 , y1 ), (x2 , y2 ), · · · , (xn , yn )}. Isso ocorre no caso do exemplo.
37
O coeficiente de correlação linear de Pearson é definido por

Pn
cov(X, Y ) xi yi − nx̄ȳ
cor(X, Y ) = = p Pn 2 i=1 ,
DP (X)DP (Y ) ( i=1 xi − nx̄2 ) ( ni=1 yi2 − nȳ 2 )
P
tal que cov(X, Y ) = n1 ni=1 [(xi − x̄)(yi − ȳ)] , representa a covariância entre X e Y .
P
Assim definido, o coeficiente somente assume valores no intervalo [−1, 1]. E, sua interpretação
segue:
• valores do coeficiente mais próximos de -1, indicam maior relação linear negativa/decrescente;
• valores do coeficiente mais próximos de 1, indicam maior relação linear positiva/crescente;
• valores do coeficiente mais próximos de 0, indicam menor relação linear ;
No exemplo, temos para n = 10:

Pn Pn Pn 2 Pn 2 Pn
i=1 xi = 109; i=1 yi = 27, 9; i=1 xi = 1505; i=1 yi = 143, 99; i=1 xi yi = 443, 9 ;
x̄ = 10, 9 e ȳ = 2, 79;
em que X representa a variável Anos de Estudo e Y representa o Salário Médio.
Assim, obtemos que
Pn
xi yi − nx̄ȳ
cor(X, Y ) = p Pn 2 i=1
( i=1 xi − nx̄2 ) ( ni=1 yi2 − nȳ 2 )
P
443, 9 − 10 ∗ 10, 9 ∗ 2, 79
= p = 0, 944116,
(1505 − 10 ∗ (10, 9)2 ) (143, 99 − 10 ∗ (2, 79)2 )
indicando alta relação linear crescente.
1.8.2 Análise Bidimensional para Variáveis Qualitativas ou Quantitati-

vas
Considere a quantia de empréstimos diários (em milhares) de quatro diferentes bancos

com agências de mesmo porte em três avenidas de uma cidade:
38
B1 25 35 24 84
B2 32 28 27 87
B3 27 33 31 91
B4 41 60 25 126
Total 125 156 107 388
Será que a quantia de empréstimos varia de acordo com o banco? Podemos calcular o
coefiente de contingência para começar a responder essa pergunta. Para esse cálculo,
precisamos primeiro construir a tabela de contingência dos dados que contempla tanto a
frequência observada (oij ) quanto a esperada(eij ), caso haja independência entre as variáveis.
A frequência esperada de cada casela da tabela é dada por:
total da linha i x total da coluna j

eij = .
total geral
Nesse caso, teremos então:
84 × 125 84 × 156 84 × 107

e11 = = 27, 06; e12 = = 33, 77 e13 = = 23, 17;
388 388 388
87 × 125 87 × 156 87 × 107

e21 = = 28, 03; e22 = = 34, 98; e23 = = 23, 99;
388 388 388
91 × 125 91 × 156 91 × 107

e31 = = 29, 32; e32 = = 36, 59; e33 = = 25, 10;
388 388 388
126 × 125 126 × 156 126 × 107

e41 = = 40, 59; e42 = = 50, 66; e43 = = 34, 75.
388 388 388
E, a tabela de contingência é dada por:
oij eij oij eij oij eij
B1 25 27,06 35 33,77 24 23,17 84
B2 32 28,03 28 34,98 27 23,99 87
B3 27 29,32 33 36,59 31 25,10 91
B4 41 40,59 60 50,66 25 34,75 126
Total 125 - 156 - 107 - 388
39
O coeficiente de contingência é dado por:
s
χ2
C= ,
χ2 + total geral
X X (oij − eij )2
tal que χ2 = é a medida de qui-quadrado e o total geral é o número
i j
eij
total de observações.
No exemplo, obtemos que
(25 − 27, 06)2 (35 − 33, 77)2 (24 − 23, 17)2 (32 − 28, 03)2 (25 − 34, 75)2
χ2 = + + + +· · ·+ = 8, 95.
27, 06 33, 77 23, 17 28, 03 34, 75
Logo, r
8, 95
C= = 0, 15
8, 95 + 388
indicando que não há relação entre as variáveis.
Uma medida mais robusta é obtida pelo coeficiente de contingência corrigido:
C
C∗ = p ,
(t − 1)/t
em que t = min{total de linhas , total de colunas }.

0, 15
No exemplo, t = min{4, 3} = 3 e, portanto, C ∗ = p = 0, 18, confirmando a
(3 − 1)/3
indicação de independência entre as variáveis, dada pelo baixo valor do coeficiente de
contingência.
Exercı́cios.
1. Uma amostra de 10 casais e seus respectivos salários anuais (em salários mı́nimos)
foi colhida em um certo bairro conforme abaixo:
Casal 1 2 3 4 5 6 7 8 9 10 Total
Homem (X) 10 10 10 15 15 15 15 20 20 20 150
Mulher (Y ) 5 10 10 5 10 10 15 10 10 15 100
(a) Construa o diagrama de dispersão.
(b) Encontre a correlação entre os salários anuais.

40
(c) Qual a interpretação do coeficiente calculado? A interpretação concorda com o

que foi observado no gráfico de dispersão?
2. Uma companhia de seguros analisou a frequência com que 150 segurados usaram
(ou não) o hospital. Os resultados foram os seguintes:
Uso do Hospital/Sexo Homem Mulher Total

Usaram o hospital 10 20 30
Não usaram o hospital 110 10 120
Total 120 30 150
Queremos verificar se existe ou não relação entre o sexo e o uso do hospital, isto é,
se as variáveis são dependentes.
41
Capı́tulo 2
Probabilidade
2.1 Conceitos Básicos
Definição 1. Um experimento aleatório () é um experimento cujo resultado não pode ser previsto,
com certeza, antes de sua ocorrência.
Exemplo 23. (i) Lançar um dado equilibrado duas vezes e observar a soma dos pontos obtidos.
(ii) Taxa de desemprego.
(iii) Ocorrência de chuva amanhã;
(iv) As condições climáticas do próximo domingo;
(v) Selecionar um estudante da UFRRJ e medir a sua altura em metros.
2.1.1 Modelo probabilı́stico

O modelo probabilı́stico é especificado no momento em que estabelecemos:
(i) um espaço amostral;
(ii) uma probabilidade para cada ponto amostral.
Definição 2. Espaço amostral (Ω): é o conjunto de todos os possı́veis resultados de um experimento

aleatório.
Exemplo 24. O espaço amostral no lançamento de um dado.

Espaço amostral: Ω = {1, 2, 3, 4, 5, 6}
Exemplo 25. 1 : Lançamento de um dado com 6 faces. Ω = {1, 2, 3, 4, 5, 6}.

2 : Lançamento de dois dados com 6 faces cada. Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} = {(1, 1),
(1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4),
42
(3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1),
(6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}.
3 : medir a vida útil de uma lâmpada. Ω = [0, ∞).
Definição 3. Um evento A é qualquer subconjunto do espaço amostral, isto é, A ⊂ Ω.
Exemplo 26. : Lançamento de um dado com 6 faces.

Exemplos de eventos: A = {2, 4, 6} (face par); B = {5, 6} (face é maior do que 4).
2.1.2 Operações com Eventos Aleatórios
Sejam A e B eventos definidos no espaço amostral Ω.
1. Interseção: Ocorrência simultânea.
A ∩ B = {x ∈ Ω; x ∈ A e x ∈ B}.
2. União: Ocorrência de pelo menos um.
A ∪ B = {x ∈ Ω; x ∈ A ou x ∈ B}.
3. Complementar: Negação do evento.
AC = A = {x ∈ Ω; x ∈
/ A}.
4. Diferença:
A − B = A ∩ B C = {x ∈ Ω; x ∈ A e x ∈
/ B}.
5. A e B são ditos disjuntos ou mutuamente exclusivos, se A ∩ B = .
Exemplo 27. Considere os seguintes eventos no lançamento de um dado com 6 faces:

A= {sair um número par} e B= {sair um número ı́mpar}. Logo: A = {2, 4, 6}; B = {1, 3, 5};
A ∩ B = (disjuntos); A ∪ B = Ω; AC = B; A − B = A.
2.1.3 Propriedades de frequência relativa:

a) 0 ≤ fA ≤ 1;
b) fA = 1 ⇒ nA = n;
c) fA = 0 ⇒ nA = 0;
d) Se A ∩ B = φ, então fA∪B = fA + fB .
43
2.1.4 Probabilidade
Definição 4 (Definições Clássicas). Seja o evento A ⊂ Ω, sendo Ω espaço amostral associado a

um experimento aleatório, então:
(i) Resultados Equiprováveis. Se Ω é finito e seus elementos são equiprováveis, então
nA
P (A) = ,
nΩ
em que nA é o número de elementos (cardinalidade) do evento A e nΩ é o número de elementos de

Ω.
(ii) Geométrica. Se a área de A estiver bem definida, então
área A
P (A) = .
área Ω
Exemplo 28. (i) Jogar um dado equilibrado com 6 faces e observar a face superior. Logo, P ({1, 2}) =
2
6
.
(ii) Escolher, ao acaso, um ponto do cı́rculo unitário de raio 1 centrado na origem. Então
Ω = {(x, y) ∈ R2 ; x2 + y 2 ≤ 1}.
E,
π(1/2)2
P ({distância entre o ponto escolhido e a origem é ≤ 1/2}) = .
π
Definição 5 (Definição Frequentista). Seja o evento A ⊂ Ω, sendo Ω espaço amostral associado a
um experimento aleatório, então podemos definir probabilidade como o limite da frequência relativa
da ocorrência de A em n repetições independentes do experimento, quando n tende ao infinito, isto
é,
nA
P (A) = lim ,
n→∞ n
em que nA é o número de ocorrências do evento A em n repetições independentes do experimento.
Observe que não é possı́vel repetir o experimento infinitas vezes, logo não podemos ava-
liar de fato essa probabilidade.
Definição 6 (Definição Subjetiva). Seja o evento A ⊂ Ω, sendo Ω espaço amostral associado a

um experimento aleatório, então a probabilidade de A representa uma medida do grau da crença de
alguém na ocorrência de A.
Exemplo 29. Seja A o evento ´´está chovendo no RJ”. Para alguém que está, por exemplo, em
Portugal e não sabe nada sobre o clima no RJ, provavelmente essa probabilidade seria de 0,5. Por
44
outro lado, alguém em Seropédica poderia estabelecer que essa probabilidade é de 0,7, se também
está chovendo em Seropédica. Finalmente, para uma pessoa no RJ, essa probabilidade é 1 se está
chovendo no RJ.
Definição 7 (Definição Axiomática). Seja Ω espaço amostral associado a um experimento aleatório.

Uma função P : Ω → < é chamada de probabilidade se satisfaz os seguintes axiomas:
(1) P (A) ≥ 0, ∀A ⊂ Ω;
(2) P (Ω) = 1;
∞
X
(3) Se A1 , A2 , · · · ⊂ Ω são disjuntos, então P (∪∞
i=1 Ai ) = P (Ai ).
i=1
2.1.5 Propriedades de Probabilidade:
Sejam P uma probabilidade e A um evento em Ω. Então, as propriedades abaixo são

consequências dos axiomas:
(i) P (Ac ) = 1 − P (A) (axiomas 2 e 3), com caso particular P () = 1 − P (Ω) = 0;
(ii) 0 ≤ P (A) ≤ 1 (axioma 1 e (i));
(iii) Se A ⊂ B, então P (B − A) = P (B) − P (A) e P (A) ≤ P (B);
(iv) Se A, B ⊂ Ω, então P (A ∪ B) = P (A) + P (B) − P (A ∩ B).
Exemplo 30. Considere o lançamento de dois dados. Determine as probabilidades:

a) de que a soma dos números mostrados nas faces de cima seja 7;
b) de que o valor máximo entre as duas faces seja maior ou igual a 3.
Exemplo 31. Dois processadores (A e B) são colocados em teste por 50 mil horas. A probabilidade
1 1
de que um erro de cálculo aconteça em um processador do tipo A é de , no tipo B é de e, em
30 80
1
ambos, é de . Qual é a probabilidade de que:
1000
a) pelo menos um dos processadores tenha apresentado erro?
b) nenhum processador tenha apresentado erro?
c) apenas o processador A tenha apresentado erro?
45
2.1.6 Probabilidade Condicional
Definição 8. Sejam A e B eventos em Ω. A probabilidade condicional de A dado que ocorreu B é

definida por
P (A ∩ B)
P (A|B) = ,
P (B)
se P (B) > 0. Caso P (B) = 0 então, por convenção, P (A|B) = 0 ou P (A|B) = P (A).
Exemplo 32. Considere o lançamento de um dado equilibrado. Determine:

a) a probabilidade de sair o número 3 na face de cima do dado.
b) Suponha que o dado tenha sido lançado e que saiu um número ı́mpar na face de cima do dado.
Qual é a probabilidade de ter saı́do o número 3 na face de cima do dado?
Exemplo 33. Uma carta de um baralho com 52 cartas é retirada. Considere os eventos, O={carta
é de ouros} e R={carta é um rei}. Encontre P (O), P (O ∩ R), P (R) e P (O|R).
Teorema 1 (Regra do Produto). Sejam os eventos A1 , A2 , ... , An definidos em Ω, com P (∩ni=1 Ai ) >
0, então
n−1
P (∩ni=1 Ai ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (An | ∩i=1 Ai ).
Definição 9 (Independência de Dois Eventos). Sejam A e B eventos em Ω. A e B são ditos ser

eventos independentes se P (A ∩ B) = P (A)P (B).
Uma definição alternativa é que A e B são ditos ser eventos independentes se P (A|B) =
P (A) e P (B|A) = P (B).
1
Exemplo 34. Sejam A e B dois eventos de um espaço amostral, tais que P (A) = p, P (B) = e
5
1
P (A ∪ B) = . Determine o valor de p para que os eventos A e B sejam independentes.
2
Definição 10. A sequência de eventos A1 , A2 , ... , An é dita formar uma partição do espaço
amostral Ω, se
(i) Ai ∩ Aj = , para todo i 6= j;
(ii) ∪ni=1 Ai = Ω.
Teorema 2 (Lei da Probabilidade Total). Suponha que os eventos A1 , A2 , ... , An definidos em

Ω formam uma partição de Ω, então
n
X
P (B) = P (Ai )P (B|Ai ), ∀B ∈ A.
i=1
46
Teorema 3 (Teorema de Bayes). Suponha que os eventos A1 , A2 , ... , An definidos em Ω formam

uma partição de Ω , então
P (B|Aj )P (Aj )
P (Aj |B) = Pn .
i=1 P (Ai )P (B|Ai )
Exemplo 35. Uma fábrica produz três tipos de circuitos, sendo: 20% do tipo I, 50% do tipo II e
30% do tipo III. A probabilidade de defeito é, respectivamente, 2%, 8% e 5%.
a) Qual é a probabilidade de um circuito testado não ser defeituoso?
b) Um circuito foi testado aleatoriamente e verificou-se que estava com defeito, qual é a probabilidade
do circuito ser do tipo II?
2.2 Alguns Conceitos/Resultados Importantes
Leis de Morgan Sejam os conjuntos A1 , A2 , ... , An . Vale que:
C
1. ( ni=1 Ai ) = ni=1 AC
S T
i ;
C
2. ( ni=1 Ai ) = ni=1 AC
T S
i .
47
Capı́tulo 3
Variáveis Aleatórias
Uma variável aleatória (v.a.) é uma função real X que associa elementos do espaço amos-
tral a valores reais, i.e., X : Ω → <.
Definição 11 (Variáveis Aleatórias Discretas (v.a.d.) ). Uma variável aleatória X em Ω é dita

ser discreta se assume valores em um conjunto de valores finito ou enumerável infinito.
Exemplo 36. Suponha 2 lançamentos de uma moeda. Represente por c cara e por k coroa, então
Ω = {cc, ck, kc, kk}. O número de caras observadas nesses 2 lançamentos é uma quantidade
numérica e podemos definir X = ´´nº de caras observadas”. Note que X pode assumir valores no
conjunto finito {0, 1, 2}.
Definição 12 (Função de probabilidade (fp)). A função p(·) que atribui a cada valor da variável
aleatória discreta X sua probabilidade é denominada função de probabilidade. Assim, se X assume
valores x1 , x2 , · · · temos
p(xi ) = P (X = xi ) = P ({ω ∈ Ω; X(ω) = xi }),
para i = 1, · · · , n.
Também é usual apresentá-la em forma de tabela:
X x1 x2 ...
pi p1 p2 ...
Propriedades da função de probabilidade: Uma função de probabilidade satisfaz as se-

guintes condições:
(i) 0 ≤ p(xi ) ≤ 1, ∀i;
P
(ii) i p(xi ) = 1.
48
Exemplo 37. Descreva o comportamento da variável aleatória X que conta o número de caras em
dois lançamentos independentes de uma moeda.
Espaço amostral: Ω = {cc, ck, kc, kk}
Variável aleatória discreta X:
X = xi 0 1 2
1 1 1
p(xi ) 4 2 4
Definição 13 (Função de Distribuição (acumulada) (fda)). Seja X uma v.a.d. em Ω, então sua
função de distribuição acumulada é definida por
FX (x) = P (X ≤ x), para todo x ∈ <.
Exemplo 38. Considere o lançamento de uma moeda. Então Ω = {c, k} e a função probabilidade
é dada por P (c) = P (k) = 1/2. Defina X : Ω → < como:

 1, se ω = c
X= (3.1)
 0, se ω = k
Vamos obter sua função de distribuição acumulada:

x < 0 ⇒ F (x) = P (X ≤ x) = 0;
0 ≤ x < 1 ⇒ F (x) = P (X ≤ x) = P (X = 0) = 1/2;
x ≥ 1 ⇒ F (x) = P (X ≤ x) = P (X = 0) + P (X = 1) = 1/2 + 1/2 = 1.
Portanto,



 0, se x < 0

F (x) = 1/2, se 0 ≤ x < 1 (3.2)


se x ≥ 1

 1,
Propriedades da função de distribuição acumulada: Uma função de distribuição acumu-

lada F de uma v.a.d. X em Ω goza das seguintes propriedades:
(i) limx→−∞ F (x) = 0 e limx→∞ F (x) = 1;
(ii) F (x) é contı́nua a direita, isto é, limh→0 F (x + h) = F (x) ;
(iii) F (x) é não decrescente, isto é, ∀x, y ∈ <, se x < y, então F (x) ≤ F (y).
Note que no exemplo acima, as propriedades são satisfeitas pela F encontrada.
49
O comportamento de uma variável aleatória e toda informação sobre ela podem ser obti-
dos através de sua função de distribuição acumulada. Além disso, toda função real que
satisfaça as propriedades acima é a função de distribuição acumulada de uma variável
aleatória.
Funções de Variáveis Aleatórias Seja X uma v.a.d. definida em Ω, então a função ou
transformação g : X → < também é uma v.a.d.. Assim, dada a distribuição de X, o
interesse consiste em conhecer o comportamento probabilı́stico de sua transformação.
Exemplo 39. Seja X uma v.a.d. com função de probabilidade dada abaixo:
X = xi -1 0 1
1 1 1
p(xi ) 3 2 6
Seja Y = 2X + 1. Logo, a função de probabilidade de Y é dada por:
X = xi -1 0 1
Y = yi = 2xi + 1 -1 1 3
1 1 1
p(yi ) 3 2 6
Exemplo 40. Considerando X como no exemplo anterior, definamos Z = X 2 . Logo, temos que
considerar que tanto X = −1 quanto X = 1 levam a Z = 1, portanto temos que a função de
probabilidade de Z é dada por:
Z = zi = x2i 1 0
1 1 1 1
p(zi ) 3
+ 6
= 2 2
Definição 14 (Esperança ou Valor Esperado). Seja X uma v.a.d. com função de probabilidade
p, então a esperança (matemática) de X é dada por
X
E[X] = xp(x),
x
desde que exista.
Exemplo 41. Como no exemplo anterior, seja X uma v.a.d. com função de probabilidade dada
abaixo:
Determine a esperança de X:
E[X] = −1 × 1/3 + 0 × 1/2 + 1 × 1/6 ≈ −0, 17.

50
X = xi -1 0 1
1 1 1
p(xi ) 3 2 6
Vale que:
1. Se c é uma constante tal que P (X = c) = 1 então E[X] = c;
2. E[aX + b] = aE[X] + b, para a e b constantes reais.
3.1 Momentos
A fim de conhecer melhor o comportamento probabilı́stico de uma variável aleatória, de

forma segura e universalmente interpretável, podemos obter seus momentos. Os momen-
tos podem ser: momentos em relação a uma certa constante c ∈ < , e momentos absolutos
em relação a essa mesma constante. Note que existem distribuições que não possuem
momentos.
Definição 15 (Momentos). Seja X uma variável aleatória discreta. Para k = 1, 2, · · · e c ∈ <, o

momento de ordem k em relação a c é dado por:
E[(X − c)k ],
desde que exista. Podemos ter:
1. Momento absoluto de ordem k em relação a c: E[|X − c|k ]. Em todas as próximas definições,

podemos ter a versão usando o valor absoluto.
2. Se c = 0, então o momento é dito ser ordinário: E[X k ].
3. Se c = E[X] < ∞, então temos o momento central de ordem k: E[(X − E[X])k ].
Os momentos de ordem par fornecem uma indicação da concentração da distribuição

probabilı́stica: se forem muito pequenos, essa concentração será grande, porque os valores
da variável aleatória serão próximos; se forem grandes, será inversa a situação.
Exemplo 42. O primeiro momento ordinário (de ordem k = 1) de uma v.a. X é o seu valor
esperado.
51
Definição 16 (Variância). Seja X uma variável aleatória discreta, então a variância de X é defi-
nida por
V ar(X) = E[(X − E[X])2 ] = E[X 2 ] − (E[X])2 ,
que é segundo momento central de X. Sua raiz quadrada é o desvio padrão de X, que possui a
mesma unidade dos dados.
Exemplo 43. Considerando o mesmo exemplo anterior, determine a variância de X:
V ar(X) = E[X 2 ] − (E[X])2 = 0, 5 − (−0, 17)2 = 0, 4711,
pois E[x2 ] = −12 × 1/3 + 02 × 1/2 + 12 × 1/6 = 0, 5 e E[X] = −0, 17.
Enquanto que a esperança de uma v.a. é uma medida de locação/localização, a variância

é uma medida de escala (como referência a média).
Exemplo 44. O número X de mensagens enviadas por hora, através de uma rede de compu-
tadores, tem a seguinte distribuição: X assume os valores {10, 12, 15, 20} com probabilidades
{0, 1; 0, 3; 0, 5; 0, 1}, respectivamente. Determine o desvio-padrão de X.
E[X] = 10(0, 1) + 12(0, 3) + 15(0, 5) + 20(0, 1) = 14, 1;
E[X 2 ] = 102 (0, 1) + 122 (0, 3) + 152 (0, 5) + 202 (0, 1) = 205, 7;
p
V ar(X) = 205, 7 − 14, 12 = 6, 89 ⇒ DP (X) = 6, 89 = 2, 624881.
Seja X uma v.a.d., vale que:
1. Se c é uma constante tal que P (X = c) = 1 então V ar[X] = 0;
2. V ar[aX + b] = a2 V ar[X], para a e b constantes reais.
Definição 17 (Coeficiente de Variação). Seja X uma v.a.d. com esperança µ e desvio padrão σ,
o coeficiente de variação de X é dado por
σ
CV (X) = .
µ
O coeficiente de variação mede a dispersão relativa da distribuição de X, ao contrário

do desvio padrão, de X, que mede a dispersão absoluta. Note que ele é um coeficiente
adimensional.
52
3.2 Alguns Modelos Discretos

Uma v.a. fica completamente especificada pela sua função de distribuição. No caso dis-
creto, podemos também utilizar a função de probabilidade para fazer essa caracterização.
Apresentaremos a seguir alguns modelos discretos, representados por suas funções de
probabilidade, que são aplicáveis em diversas situações práticas.
3.2.1 Modelo Uniforme Discreto

Seja X uma v.a. com n possı́veis valores reais {x1 , x2 , ..., xn } equiprováveis. Então, X
segue o modelo uniforme discreto e tem função de probabilidade dada por

 1 , se i = 1, 2, ..., n,
n
p(xi ) = P (X = xi ) =
 0, c.c.
Notação: X ∼ U nif orme{x1 , x2 , · · · , xn }.
Exemplo 45. Uma rifa tem 100 bilhetes numeradas de 1 a 100. Tenho 5 bilhetes consecutivos e
meu amigo tem outros 5 bilhetes quaisquer. Quem tem maior possibilidade de ser sorteado?
Note que sua função de distribuição acumulada é do tipo escada com saltos nos pontos
{x1 , x2 , · · · , xn }.
Exercı́cio: Determine sua fda, sua esperança e sua variância.
3.2.2 Modelo Bernoulli

Experimento de Bernoulli: é um experimento aleatório com apenas dois resultados possı́veis:
por convenção, um deles é chamado “sucesso”e o outro “fracasso”.
Exemplo 46. a) Lançar uma moeda e observar o resultado;

b) Pergunta-se a um eleitor se ele vai votar no candidato A ou B.
A distribuição de Bernoulli está associada a um experimento de Bernoulli, onde se define:

X({sucesso}) = 1 e X({fracasso}) = 0, chamando de p a probabilidade de sucesso, com
0 ≤ p ≤ 1.
Assim, uma v.a.d. X segue o modelo de Bernoulli, se assume apenas os valores 0 e 1, e
tem função de probabilidade dada por



 p, se x = 1,

p(x) = (1 − p), se x = 0,



 0, c.c.
53
onde p é a probabilidade de sucesso (X = 1), com 0 ≤ p ≤ 1.
Exemplo 47. Um exemplo clássico do modelo de Bernoulli é o lançamento de uma moeda.


 1, se cara;
X=
 0, se coroa.
p(1) = p(0) = 1/2 (moeda equilibrada).
Notação: X ∼ Bernoulli(p).
A função de distribuição de X é dada por



 0, se x < 0,

FX (x) = (1 − p), se 0 ≤ x < 1,


se x ≥ 1.

 1,
Exercı́cio: Faça o gráfico desta função e determine sua esperança e sua variância.
3.2.3 Modelo Binomial

Seja X o número de sucessos em n realizações independentes de um experimento de Ber-
noulli com probabilidade p de sucesso. Então, X tem distribuição binomial com parâmetros
n e p, e sua função de probabilidade é dada por
  

 n
   px (1 − p)n−x ,

para x = 0, 1, · · · , n
p(x) = x



 0, c.c.,
 
n n!
em que  = .
x x! (n − x)!
Notação: X ∼ Binomial(n, p).
Exemplo 48. A taxa de imunização de uma vacina é de 80%. Um grupo com 10 pessoas foi
selecionado, desejamos saber o comportamento probabilı́stico do número de pessoas imunizadas
deste grupo. Determine a probabilidade:
a) de 8 pessoas estarem imunizadas;
b) de pelo menos 8 estarem imunizadas;
c) de no máximo 7 estarem imunizadas;
c) de todas estarem imunizadas.
54
3.2.4 Modelo Geométrico

Seja X o número de realizações necessárias para a obtenção do primeiro sucesso de um
experimento de Bernoulli com probabilidade p de sucesso. Então, dizemos que X segue o
modelo geométrico com parâmetro p, 0 < p < 1, e tem função de probabilidade dada por

 p(1 − p)x−1 , se x = 1, 2, · · · ,
p(x) = P (X = x) =
 0, c.c..
Notação: X ∼ Geo(p).
Exemplo 49. Uma linha de fabricação de um equipamento de precisão é interrompida na primeira

ocorrência de um defeito. Seja 0, 02 é a probabilidade do equipamento ter defeito, qual é o modelo
probabilı́stico que descreve o número de dias até o equipamento parar?
Exercı́cio: Determine sua esperança.
3.2.5 Modelo Binomial Negativo (Pascal)

Seja X o número de realizações necessárias para a obtenção de r sucessos de um experi-
mento de Bernoulli com probabilidade p de sucesso. Então, dizemos que X segue o mo-
delo Binomial Negativo com parâmetros r e p, 0 < p < 1, e tem função de probabilidade
dada por
  

 x − 1

   pr (1 − p)x−r , se x = r, r + 1, · · · ,
p(x) = P (X = x) = r−1



 0, c.c..
Notação: X ∼ BinNeg(r, p).

Note que o modelo Geométrico é um caso particular do modelo Binomial Negativo, quando
r = 1.
Exemplo 50. Um atirador acerto o alvo na mosca em 30% dos tiros. Qual é a probabilidade de que
somente no vigésimo tiro o atirador acerte na mosca 2 vezes?
3.2.6 Modelo Hipergeométrico

Seja uma população de tamanho N dividida em 2 classes, uma composta de r “sucessos”e
a outra composta de N − r “fracassos”. Desta população, vamos extrair uma amostra de
55
tamanho n, sem reposição. Seja X o número de sucessos obtidos, então X segue o modelo
Hipergeométrico com parâmetros N, n, e r, e tem função de probabilidade dada por


 r N − r
 x n −x


, se max{0, n − (N − r)} ≤ x ≤ min{n, r}

p(x) = P (X = x) = N


 n


 0, c.c.,
em que N é o total de elementos do conjunto, n é o tamanho da amostra (n < N ) e r é o

número de “sucessos”.
Notação: X ∼ Hiper(N, n, r).
Exemplo 51. Considere um conjunto com 20 pessoas, das quais 7 são mulheres. Selecionando-se
5 pessoas deste conjunto, sem reposição, qual seria a probabilidade de:
a) 2 mulheres serem escolhidas?
b) 1 homem ser escolhido?
c) apenas mulheres serem escolhidas?
d) pelo menos 5 mulheres serem escolhidas?
e) no máximo 2 homens serem escolhidos?
f) Fernando e Paula serem escolhidos?
g) Paula e Maria serem escolhidas, dado que as pessoas selecionadas foram mulheres?
h) Paula e Maria serem escolhidas, dado que as pessoas selecionadas foram homens?
3.2.7 Modelo de Poisson

Uma v.a.d. X segue o modelo de Poisson de parâmetro λ, λ > 0, se sua função de proba-
bilidade é dada por

−λ x
 e λ ,

se x = 0, 1, 2, · · ·
p(x) = P (X = x) = x!
 0, c.c..

Notação: X ∼ P oisson(λ), onde λ indica a taxa de ocorrência por unidade de medida.

Aqui, X representa contagens, como contar o número de eventos de um certo tipo que
ocorrem em um instante de tempo fixo (ou superfı́cie ou volume), se estes eventos ocorrem
com uma razão média conhecida e independentemente do tempo desde o último evento.
Exemplo 52. (1) número de chamadas recebidas por uma central telefônica durante um perı́odo de
40 minutos; (2) número de bactérias em um litro de água.
56
Exemplo 53 (Bombas em Londres). Durante a Segunda Guerra Mundial a cidade de londres foi
bombardeada por aviões alemães. Um interesse é sobre a aleatoriedade dos alvos, se houve tendência
em lançar em alguns pontos especı́ficos ou não. Subdivindindo-se a parte do sul da cidade em 576
partes, é contado o número de regiões que receberam x bombas, denotado por nx . O total de bombas
nas parte sul foi de 537, levando a uma taxa de 537/576 ≈ 0, 93 bombas por região. Uma maneira
de verificarmos se o modelo Poisson seria aplicável para modelar o número de bombas lançadas
por região, é calcular as frequências de bombas que ocorreram (observadas) fo e comparar com as
frequências esperadas de bombas que seriam lançadas supondo o modelo Poisson válido fe .
Assim, se X representa o nº de bombas em uma região da parte sul, então suponha que X ∼
P oisson(0, 93).
X=x 0 1 2 3 4 5 ou mais
fo 229 211 93 35 7 1
p(x) 0,395 0,367 0,171 0,053 0,012 0,003
fe 227,520 211,392 98,496 30,528 6,912 1,728
Exercı́cio: Determine sua esperança.
57
3.3 Variáveis Aleatórias Contı́nuas
Definição 18 (Variáveis Aleatórias Contı́nuas (v.a.c.) ). Uma variável aleatória X é contı́nua

se sua imagem é um conjunto infinito não enumerável (formada por intervalos).
Uma v.a.c. possui uma função de densidade de probabilidade f com a qual podemos cal-
cular probabilidades associadas a variável aleatória.
Uma função de densidade de probabilidade satisfaz as seguintes condições:
(i) f (x) ≥ 0, para todo x ∈ <;

Z ∞
(ii) a área abaixo do gráfico da função f é igual a 1, ou seja, f (x)dx = 1.
−∞
Para obtermos a probabilidade de uma v.a.c. assumir valores em um intervalo (a, b], para
a < b, basta calcular Z b
P (a < X ≤ b) = f (x)dx.
a
Note que P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = P (a ≤ X ≤ b).

Portanto, a probabilidade de uma v.a.c. assumir um valor especı́fico é igual a zero, isto é,
P (X = c) = 0, c ∈ <.
Exemplo 54. Considere a função


 1/4 se 0 ≤ x ≤ 4
fX (x) =
 0 c.c.
1. Esboce o gráfico da fX .
2. fX é uma função de densidade de probabilidade de alguma v.a.c. X?
3. Se é uma fdp, então calcule P (2 ≤ X ≤ 3).
Seja X uma v.a.c. com função densidade de probabilidade f (x), podemos definir:
Z x
• Função de distribuição acumulada: F (x) = P (X ≤ x) = f (x)dx, para todo
−∞
x ∈ <.
Z
• Esperança: E[X] = xf (x)dx.
x
• Variância: V ar(X) = E[X 2 ] − E[X]2 .

58
3.3.1 Modelo Uniforme Contı́nuo

Seja X uma v.a.c. com possı́veis valores no intervalo real [a, b], em que a chance de
ocorrência de intervalos de mesmo tamanho é a mesma. Então, X segue o modelo uni-
forme contı́nuo e tem função densidade de probabilidade dada por

 1 , se a ≤ x ≤ b,
b−a
f (x) =
 0, c.c.
Notação: X ∼ U nif orme[a, b].

É fácil ver que a função acima satisfaz as propriedades de função densidade de probabili-
R∞
dade f (x) ≥ 0, para todo x ∈ < e que −∞ f (x)dx = 1.
Exemplo 55. O rótulo de refrigerante indica que o conteúdo é de 350 ml. Suponha que a linha
de produção encha as latas de forma que o conteúdo seja uniformemente distribuı́do no intervalo
[345,355].
1. Qual é a probabilidade de que uma lata tenha conteúdo superior a 353 ml?
2. Qual é a probabilidade de que uma lata tenha conteúdo inferior a 346 ml?
3. O controle de qualidade aceita uma lata com conteúdo dentro de 4 ml do conteúdo exibido na
lata. Qual é a proporção de latas rejeitadas nessa linha de produção?
3.3.2 Modelo Normal
Uma v.a.c. X tem distribuição Normal com parâmetros µ e σ 2 , se sua f.d.p. é dada por
2
1 x−µ
1 −
fX (x; µ, σ 2 ) = √ e 2 σ , −∞ < x < +∞.
2πσ 2
• Notação: X ∼ N (µ; σ 2 ), onde µ é a média e σ 2 é a variância.
• Propriedades:
– A f.d.p. fX (x) é simétrica em torno de µ;
– A f.d.p. fX (x) → 0 quando x → ±∞;
– O máximo da f.d.p. fX (x) ocorre quando x = µ.
59
Para calcular probabilidades associadas a uma v.a.c. normal, terı́amos que resolver inte-
grais que envolvem a f descrita acima. Porém, isto não é possı́vel analiticamente, mas
somente de forma numérica. Sem o auxı́lio de um programa computacional que rea-
lize tal tarefa, não seria possı́vel tabular todas as probabilidades associadas a qualquer
distribuição normal, isto é, para quaisquer valores de µ e σ 2 possı́veis. Entretanto, é
possı́vel mostrar que a partir de qualquer normal chegamos em uma normal, chamada
padrão, com parâmetros µ = 0 e σ 2 = 1.
Normal(0,1) Função de distribuição acumulada (FDA)

0.4
1.0
0.8
0.3
0.6
Densidade
FDA
0.2
0.4
0.1
0.2
0.0
0.0
−4 −2 0 2 4 −4 −2 0 2 4
x x
Figura 3.1: Gráficos da função de densidade de probabilidade e da função de distribuição

acumulada da Normal Padrão.
Utilização da tabela Normal padrão
Uma v.a. X tem distribuição Normal padrão ou Normal reduzida, se X ∼ N (0, 1).
Importante:
• Se X ∼ N (0, 1), então podemos usar a tabela Normal padrão.
• Se X ∼ N (µ; σ 2 ) com µ 6= 0 e/ou σ 2 6= 1, então temos que padronizar a v.a. X por
X −µ
Z= ∼ N (0, 1).
σ
Exemplo 56.
Suponha que Z tenha distribuição N(0; 1). Usando a tabela da distribuição normal padrão, deter-
mine o valor de probabilidade de:
a)P (0 ≤ Z ≤ 1, 65) b)P (Z ≤ 1, 29) c)P (0 ≤ Z ≤ 1, 34) d)P (−1 ≤ Z ≤ 1)
e)P (Z ≤ 2, 45) f)P (Z ≥ −2, 01) g)P (Z ≥ 1, 65) h)P (Z > 2, 13) i)P (|Z| > 1, 61)
60
Exemplo 57.
Suponha que Z tenha distribuição N(0; 1). Empregando a tábua da distribuição normal, determine
o valor de z:
a)P (Z ≥ z) = 0, 5 b)P (0 ≤ Z ≤ z) = 0, 3264 c)P (0 ≤ Z ≤ z) = 0, 3461
d)P (z ≤ Z ≤ 1) = 0, 6826 e)P (−1, 05 ≤ Z ≤ z) = 0, 7280 f)P (Z ≥ z) = 0, 0640
Exemplo 58.
Em determinado laboratório de pesquisa de células tronco para problemas motores nos membros
inferiores estuda a recuperação total dos movimentos. O responsável pelo procedimento afirma
que o tempo que o paciente leva para obter melhoras significativas nos movimento, após cirurgia,
segue uma distribuição Normal com média de 10 meses e desvio padrão de 4 meses. Segundo estas
informações, qual é a probabilidade de um paciente obter melhoras significativas nos movimentos
de 9 a 12 meses após a cirurgia? Até 6 meses? E após 10 meses?
61
Tabela 3.1: Probabilidades p = P [0 ≤ Z ≤ z] da Distribuição Normal padrão com valores

de z dados nas margens da tabela
z 0 1 2 3 4 5 6 7 8 9
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
3.1 0.4990 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.4993
3.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.4995
3.3 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.4997
3.4 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998
3.5 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998
3.6 0.4998 0.4998 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.7 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.8 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.9 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000
62
Capı́tulo 4
Inferência
4.0.1 Conceitos Básicos
Definição 19. População: conjunto de indivı́duos (ou objetos, elementos) que tem em comum
pelo menos uma variável observável que pode ser representada por uma v.a. X.
Definição 20. Amostra: é qualquer subconjunto da população.
Definição 21. Parâmetro: é uma medida usada para descrever uma caracterı́stica da população.
Definição 22 (Inferência Estatı́stica). É o uso de técnicas estatı́sticas para gerar afirmações sobre
uma dada caracterı́stica da população a partir de uma amostra.
Por exemplo, a média, a variância, o desvio padrão, a moda, etc.
Em geral, nosso interesse é estimar o valor de um parâmetro ou estimar o valor de uma função de
um parâmetro.
Definição 23. Amostra Aleatória Simples (aas): Uma aas de tamanho n de uma v.a. X (po-
pulação) é um conjunto de n v.a.’s X1 , X2 , · · · , Xn independentes e identicamente distribuı́das
(iid). Isto é, quando escolhemos ao acaso um subconjunto de tamanho n da população de forma que
cada elemento da amostra seja v.a. com a mesma distribuição da população.
Quando a população tem tamanho finito, então o sorteio é feito com reposição mantendo chance
igual de qualquer elemento ser sorteado.
Definição 24. Estatı́stica: qualquer função da amostra X1 , X2 , · · · , Xn é dita ser uma estatı́stica,
isto é, T é estatı́stica se T = g(X1 , X2 , · · · , Xn ), para g sendo uma função qualquer.
63
Assim, T também é uma variável aleatória. As inferências estatı́sticas são baseadas em

estatı́sticas.
Exemplo 59. Exemplos de estatı́sticas: Seja X1 , · · · , Xn uma aas de uma população X, podemos
considerar as estatı́sticas
n
X Xi
X̄ = Média amostral
i=1
n
n 2
2
X Xi − X̄
σ̂ =
i=1
n
n 2
2
X Xi − X̄
S = Variância amostral
i=1
n−1
X(1) = min{X1 , · · · , Xn } Mı́nimo
X(n) = max{X1 , · · · , Xn } Máximo
Assim, T também é uma variável aleatória. As inferências estatı́sticas são baseadas em

estatı́sticas.
Definição 25. Estimador: uma estatı́stica T é dita ser estimador de um parâmetro θ se utilizamos
T para estimar θ.
Notação: T = θ̂
Exemplo 60. X̄ é estimador para média populacional µ;
Exemplo 61. σ̂ 2 e S 2 são estimadores para variância populacional σ 2 .
Definição 26. Estimativa: valor observado de um estimador na amostra.
Propriedades dos estimadores
Algumas propriedades dos estimadores nos ajudam a escolher qual estimador utilizar
para fazer a inferência.
• Estimador não viciado: Um estimador T de θ é dito ser não viciado se E[T ] = θ.
1
Pn
Exemplo 62. E[X̄] = µ e E(S 2 ) = σ 2 , com S 2 = n−1 i=1 (Xi − X̄)2 .
• Se T1 e T2 são dois estimadores não viciados de θ, diz-se que T1 é mais eficiente do

que T2 se V ar(T1 ) < V ar(T2 ).
64
• Estimador consistente: Tn é um estimador consistente para θ se
limn→∞ E[Tn ] = θ e limn→∞ V ar(Tn ) = 0,
com Tn sendo uma estatı́stica baseada na amostra de tamanho n.
4.0.2 Distribuição Amostral
A distribuição amostral de uma estatı́stica T é a distribuição de todos os possı́veis valo-

res que ela pode assumir, calculados a partir de todas as possı́veis amostras de mesmo
tamanho.
Distribuição Amostral da Média
Teorema 4. Seja X1 , X2 , · · · , Xn uma aas de tamanho n de uma população representada pela v.a.
σ2
X com média µ e variância σ 2 . Então, E(X̄) = µ e V ar(X̄) = .
n
σ2
Importante: Se X ∼ N (µ, σ 2 ), então X̄ ∼ N (µ, ).
n
Teorema 5. Teorema Central do Limite
Seja X1 , X2 , · · · , Xn uma aas de tamanho n de uma população X com média µ e variância σ 2 .
σ2
Então, a distribuição de X̄ aproxima-se de uma distribuição Normal com média µ e variância
n
X̄ − µ
quando n tende ao infinito (n → ∞). Assim, √ ≈ N (0, 1).
σ/ n
Observação: Geralmente amostras de tamanho n > 30 fornecem uma aproximação razoável.
Exemplo 63. A capacidade máxima de um elevador é de 600Kg. Se a distribuição dos pesos dos
usuários é N (70, 100), qual é a probabilidade de que 8 pessoas ultrapassem esse limite?
4.1 Intervalos de Confiança
Motivação Uma empresa deseja estimar a média de vendas, por estabelecimento, du-
rante o último ano de um determinado produto. Sabemos que o desvio padrão populaci-
onal é de 200 reais. Suponha que temos disponı́vel uma amostra de 25 estabelecimentos,
com média de vendas de 5000 reais.
• Podemos usar X̄ para estimar a verdadeira média desconhecida.
• Podemos obter alguma informação sobre a variabilidade desta estimativa (erro de

amostragem)?
65
Queremos obter uma estimação intervalar fornecendo uma margem de erro, além da esti-
mativa pontual que obtemos através dos estimadores dos parâmetros.
4.1.1 Intervalo de confiança para a média de uma população normal com

variância conhecida
Seja X ∼ N (µ, σ 2 ) com variância σ 2 conhecida. Se X1 , · · · , Xn é uma aas dessa população,

então o intervalo de confiança de nı́vel de confiança (1 − α)% para a média populacional
µ é dado por
σ σ
X̄ − zα/2 √ ; X̄ + zα/2 √ .
n n
Importante:
• A margem de erro é dada por: = zα/2 √σn ;
• α é o nı́vel de significância, que é um valor no intervalo (0, 1);
• 1 − α é o nı́vel de confiança, que em geral é um valor alto (por exemplo, 0,90; 0,95;
0,99);
• Mesmo quando a população não é Normal, podemos utilizar este intervalo para a
média se n > 30.
A ideia é que o intervalo contenha o verdadeiro valor do parâmetro na maioria das vezes
(ou na maioria das amostras possı́veis), isto é, com probabilidade (1 − α). Após a amostra
ser observada, ou o intervalo inclui o verdadeiro valor do parâmetro ou não inclui.
Para entendermos a notação zα/2 , considere o nı́vel de confiança do intervalo 1 − α = 0, 95,

portanto α = 0, 05 e α/2 = 0, 025. Então, zα/2 = z0,025 é tal que P (Z ≥ z0,025 ) = 0, 025. A
figura 1 apresenta esse exemplo.
66
Normal Padrão
0.4
0.3
95%
0.2
0.1
2,5% 2,5%
0.0
−4 −1.96 0 1.96 4
Figura 4.1: Suponha α = 0, 05, portanto 1 − α = 0, 95 e zα/2 = 1, 96.
Exemplo 64. Uma empresa deseja estimar a média de vendas, por estabelecimento, durante o
último ano de um determinado produto. Sabemos que o desvio padrão populacional é de 200 reais.
Suponha que temos disponı́vel uma amostra de 25 estabelecimentos, com média de vendas de 5000
reais.
Solução:
• Estimativa pontual para média de vendas: X̄ = 5000;

2002
• Variância da média das vendas: = 1600reais2 ;
25
• Supondo normalidade, para um nı́vel de confiança de 95%, temos que
σ 200
= zα/2 √ = 1, 96 √ = 78, 4;
n 25
• Logo, o ic de 95% para a média de vendas é dado por:
[5000 − 78, 4; 5000 + 78, 4] = [4921, 6; 5078, 4] .
Ideia básica da construção:
Seja X1 , · · · , Xn uma aas da distribuição Normal(µ, σ 2 ), com σ 2 conhecido.
Podemos definir α tal que P (−zα/2 < Z < zα/2 ) = 1 − α (intervalo simétrico é o de menor
comprimento).
67
√
n(X̄ − µ)
Sabemos que Z = ∼ Normal(0, 1), logo podemos escrever
σ
√
(X̄ − µ) n
P −zα/2 < < zα/2 = 1−α⇔
σ

σ σ
P −zα/2 √ < (X̄ − µ) < zα/2 √ = 1−α⇔
n n

σ σ
P −zα/2 √ − X̄ < −µ < zα/2 √ − X̄ = 1−α⇔
n n

σ σ
P X̄ − zα/2 √ < µ < X̄ + zα/2 √ = 1 − α.
n n
Portanto, supondo σ 2 conhecido, o intervalo para µ com coeficiente de confiança 1 − α é
dado por
σ
[X̄ − ; X̄ + ], em que a margem de erro = zα/2 √ .
n
Intervalo de confiança para a proporção populacional
Considere uma população em que a proporção de elementos com certa caracterı́stica é p.

Podemos definir uma v.a.:

 1, se o elemento possui a caracterı́stica;
X=
 0, se o elemento não possui a caracterı́stica.
Logo, X ∼ Bernoulli(p), com média E[X] = p e variância V ar(X) = p(1 − p).

Suponha X1 , · · · , Xn uma aas de X, logo
n
X
Y = Xi ∼ Bin(n, p).
i=1
Podemos estimar a proporção populacional de portadores da caraterı́stica, utilizando a

estatı́stica
n
X Xi
p̂ = X̄ = ,
i=1
n
que é um estimador não viciado para p. Pelo TCL, temos que

p(1 − p)
p̂ = X̄ ∼N
˙ ormal p, ,
n
em que a aproximação é boa se np ≥ 5 e n(1 − p) ≥ 5. Daı́, podemos proceder usando a
mesma ideia do i.c. para média e obter o i.c. para proporção.
O intervalo de confiança para proporção populacional p com (1 − α)% de confiança é dado
por " #
p p
p̂(1 − p̂) p̂(1 − p̂)
IC (p; (1 − α)) = p̂ − zα/2 √ ; p̂ + zα/2 √ .
n n
68
Exemplo 65. Um levantamento com 1018 adultos, concluiu que 255 deles planejaram gastar me-
nos dinheiro em presentes durante a época de férias de 2018 em comparação ao ano anterior.
a) Qual é a estimativa da proporção de todos os adultos que planejaram gastar menos dinheiro em
presentes durante a época de férias de 2018?
b) Usando uma confiança de 95%, qual é a margem de erro associada a essa estimativa?
Intervalo de confiança para média de uma população normal com variância desconhe-
cida
Seja X1 , · · · , Xn uma aas da distribuição Normal(µ, σ 2 ), com σ 2 desconhecido. Utilizare-

mos S 2 para estimar σ 2 . Podemos usar a estatı́stica
(X̄ − µ)
T = √ ∼ t(n−1) ,
S/ n
isto é, a variável T tem distribuição t-Student com n − 1 graus de liberdade. Logo, o
intervalo de confiança para média µ (variância desconhecida) com (1 − α)% de confiança
é dado por
S S
IC (µ; (1 − α)) = X̄ − t(n−1);α/2 √ ; X̄ + t(n−1);α/2 √ .
n n
Definição 27. Uma variável aleatória contı́nua Y é dita seguir a distribuição t-Student com ν
graus de liberdade se sua função de densidade de probabilidade é dada por
Γ( ν+1
2
)ν ν/2 2 −(ν+1)/2

p(y | ν) = ν ν + y , para − ∞ < y < ∞, (4.1)
Γ( 2 )(π)1/2
com ν > 0.
O gráfico da t-Student também é simétrico, podemos definir α tal que P (−t(n−1,α/2) < T <
t(n−1,α/2) ) = 1 − α.
69
Figura 4.2: Suponha α = 0, 05 e n = 36, logo t(n−1,α/2) = 2, 03.
Importante:
• A distribuição t-Student aproxima-se da distribuição normal, conforme o valor dos

graus de liberdade crescem. Portanto, para graus de liberdade altos (logo, para n
alto), podemos aproximar a t pela normal. Podemos perceber que para valores do
grau de liberdade maiores do que 30, as duas disribuições são muito parecidas.
• Portanto, com σ 2 desconhecido, para amostras grandes, podemos apenas substituir

σ 2 por S 2 no intervalo que depende de zα/2 .
• O conceito de graus de liberdade está relacionado ao número de dados disponı́veis

(livres) para o calculo da estatı́stica. Por exemplo, ao estimarmos a média popula-
cional com a média amostral perdemos um grau de liberdade. Assim, a estatı́stica
t-Student terá n − 1 graus de liberdade.
Exemplo 66. Um empresa deseja estimar o intervalo de confiança de vendas, por estabelecimento,
durante o último ano de um determinado produto. Para uma amostra de 25 estabelecimentos,
obteve-se uma média de 5000 reais e S 2 = 160000 reais2 . Determine o intervalo de confiança de
95%, dado que os valores de venda são considerados normalmente distribuı́dos com desvio padrão
desconhecido.
Solução:
400 400
IC (µ; 95%) = 5000 − 2, 06 √ ; 5000 + 2, 06 √
25 25
70

Apostila Estatistica Basica

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila Estatistica Basica

Enviado por

Direitos autorais:

Formatos disponíveis

Estatı́stica Básica

Universidade Federal Rural do Rio de Janeiro

Antes de iniciarmos com a análise exploratória de dados, apresentaremos a notação de

Podemos utilizar a notação do somatório para representar somas de elementos relaciona-

Principais propriedades de somatório:

Determine o valor de cada somatório:

b) 4i=2 (fi + xi + gi ) = (f2 + x2 + g2 ) + (f3 + x3 + g3 ) + (f4 + x4 + g4 ) = (3 + 5 + 6) + (4 +

23/09 24/09 25/09 26/09 27/09

1.2 Principais definições

• Estatı́stica: planejamento, coleta, redução, análise, modelagem e interpretação de

• Análise exploratória de dados: consiste na redução (tabelas, gráficos e medidas

• Variável: qualquer caracterı́stica observável da unidade de interesse.

• Amostra: qualquer parte (subconjunto) de uma população.

Classificação de uma variável.

• Quantitativas: apresenta como possı́veis realizações uma contagem ou mensuração.

– Discretas: possı́veis resultados formam um conjunto finito ou enumerárel (por

– Contı́nuas: possı́veis resultados formam um conjunto não enumerárel (inter-

• Qualitativas: apresenta como possı́veis realizações uma qualidade/atributo da uni-

– Ordinal: apresenta ordem/hierarquia nos seus possı́veis resultados. Ex: nı́vel

– Nominal: não apresenta ordem/hierarquia nos seus possı́veis resultados. Ex:

Exercı́cio: Classifique as seguintes variáveis:

1. Taxa de natalidade na cidade de Seropédica (número de nascimentos por 1000 habi-

2. Grau de ajustamento familiar (baixo, médio e alto).

3. Fertilizante utilizado em plantação de batatas (nenhum, nitrogênio, esterco, nitrogênio

4. Número de casos diários de Covid-19 no estado do Rio de Janeiro.

1.3 Representação Tabular de Variáveis: Tabela de Distri-

Id Turma Sexo Idade Alt Peso Filhos Toler Exerc TV OpTV

1.3.1 Tabela de frequências

A tabela de distribuição de frequências apresenta as informações de frequências absolutas,

Tabela 1.1: Tabela de frequências.

• Método da raiz quadrada:

• Também podemos escolher de acordo com nosso interesse na pesquisa.

Tabela 1.2: Tabela de frequências.

Tabela 1.3: Tabela de Distribuição de Frequências

Tabela de dupla entrada

Tabela 1.4: Dados

Construa uma tabela de frequências de dupla entrada para as variáveis qualitativas.

1.4 Representação Gráfica de Variáveis

1.4.1 Gráfico de Barras/Colunas

fundamental médio superior

Figura 1.1: Gráfico de barras para variável nı́vel de instrução.

1.4.2 Gráfico de Setores/Pizza

1=Fundamental, 2=Médio, 3=Superior

Figura 1.2: Gráfico de setores para variável nı́vel de instrução.

1.4.3 Gráfico de Linhas

Exemplo 7. Variável: Nº de filhos por estudante =

1.4.4 Gráfico de Dispersão

Figura 1.4: Gráfico de dispersão entre as variáveis velocidade e distância.

1.4.5 Ramo e folhas

Exemplo 9. Dados: 91,96,98,104,105,108,108,112,112,112,113,113,114,115,115,116,116,116,116,118,118,

Tabela 1.5: Gráfico de ramo e folhas.

Gráfico das frequências relativas (proporções) acumuladas fac .

Figura 1.5: Gráfico das frequências relativas acumuladas.

Exemplo 11. Suponha o seguinte conjunto de n = 36 dados:

Para construir o histograma, primeiro agrupamos os dados em intervalos de classe e apre-

Calculamos a amplitude total do conjunto:

∆ = 23, 30 − 4, 00 = 19, 30.

Suponha que queremos dividir em 5 intervalos de igual tamanho, basta fazer

di : densidade do i-ésimo intervalo de classe.

• nos histogramas de proporção, temos a área total igual a 1.

• nos histogramas de proporção, cada retângulo representa a proporção da respectiva

1.4.8 Polı́gono de Frequências

Podemos também sobrepor o histograma e o polı́gono de frequências: