Você está na página 1de 70

Estatı́stica Básica

Universidade Federal Rural do Rio de Janeiro


Profª: Josiane S. Cordeiro Coelho
Prof: Felipe Leite Coelho da Silva

Estatı́stica Básica

1
Capı́tulo 1

Estatı́stica Descritiva

Antes de iniciarmos com a análise exploratória de dados, apresentaremos a notação de


somatório que será utilizada mais adiante.

1.1 Somatório

Podemos utilizar a notação do somatório para representar somas de elementos relaciona-


dos a um conjunto de valores. Seja X = {x1 , x2 , · · · , xn } um conjunto com n elementos
numéricos. Podemos representar a soma de seus elementos de forma reduzida utilizando
a notação de somatório:
n
X
x1 + x2 + · · · + xn = xi ,
i=1
onde lê-se ”somatório de xi para i variando de 1 até n.”
Vejamos alguns exemplos bastante utilizados abaixo.
Sejam os conjuntos de valores X = {x1 , x2 , · · · , xn }, Y = {y1 , y2 , · · · , yn } e Z = {z11 , z12 , · · · ,
z1k , z21 , z22 , · · · , z2k , · · · , zn1 , zn2 , · · · , znk }.

a) Somatório simples:
n
X
xi = x1 + x2 + · · · + xn .
i=1

b) Somatório de quadrados:
n
X
x2i = x21 + x22 + · · · + x2n .
i=1

c) Quadrado do somatório:
n
!2
X
xi = (x1 + x2 + · · · + xn )2 .
i=1
2
Estatı́stica Básica

d) Somatório de produtos:
n
X
xi y i = x1 y 1 + x2 y 2 + · · · + xn y n .
i=1

e) Produto de somatórios:
n
X k
X
xi yi = (x1 + x2 + · · · + xn )(y1 + y2 + · · · + yk ).
i=1 i=1

f) Somatório duplo:
n X
X k n
X
zij = (zi1 + zi2 + · · · + zik ) = (z11 + z12 + · · · + z1k )+· · ·+(zn1 + zn2 + · · · + znk ) .
i=1 j=1 i=1

A seguir, apresentamos algumas propriedades do somatório que podem ser úteis quando
estamos operando.

Principais propriedades de somatório:


Pn Pn Pn
i) i=1 (xi + yi ) = i=1 xi + i=1 yi .
Pn
ii) i=1 A = nA, em que A é uma constante.
Pn Pn
iii) i=1 Axi = A i=1 xi , em que A é uma constante.
Pn Pn
iv) i=1 (Axi + A) = A i=1 xi + nA, em que A é uma constante.

Exemplo 1. Considere três conjuntos com 6 elementos cada descritos na tabela abaixo:

i 1 2 3 4 5 6
xi 2 3 4 3 2 1
fi 4 5 6 8 10 12
gi 10 6 12 4 5 10

Determine o valor de cada somatório:


a) 6i=1 xi b) 4i=2 (fi + xi + gi ) c) 4i=2 (fi2 − gi2 )
P P P P6
d) i=1 xi + f 3 − x1
e) 3i=2 (3xi + 10fi ) f) 6i=1 x5 g) 3i=1 6i=1 (xi + fi )
P P P P P6
h) i=1 25
Soluções:

3
Estatı́stica Básica

a) 6i=1 xi = x1 + x2 + x3 + x4 + x5 + x6 = 2 + 3 + 4 + 3 + 2 + 1 = 15.
P

b) 4i=2 (fi + xi + gi ) = (f2 + x2 + g2 ) + (f3 + x3 + g3 ) + (f4 + x4 + g4 ) = (3 + 5 + 6) + (4 +


P

6 + 12) + (3 + 8 + 4) = 14 + 22 + 15 = 41.

Exercı́cio:
A tabela a seguir apresenta a variação do preço do dólar no mês de setembro de 2008 e a
compra da moeda realizada por duas empresas. A variável c(x) representa a compra de
dólares pelas duas empresas.

23/09 24/09 25/09 26/09 27/09


Preço do dólar 1.83 1.85 1.82 1.85 1.96
c(xi )(Empresa A) 1000 750 400 900 300
c(xi )(Empresa B) 1200 600 510 780 310

Qual foi a empresa que investiu mais nestes cinco dias do mês de setembro de 2008? E
quanto investiu em reais?

1.2 Principais definições

• Estatı́stica: planejamento, coleta, redução, análise, modelagem e interpretação de


dados.

• Análise exploratória de dados: consiste na redução (tabelas, gráficos e medidas


numéricas), análise e interpretação dos dados.

• Variável: qualquer caracterı́stica observável da unidade de interesse.

• População: conjunto de indivı́duos (ou objetos, elementos) que tem em comum pelo
menos uma variável observável.

• Amostra: qualquer parte (subconjunto) de uma população.

Classificação de uma variável.

• Quantitativas: apresenta como possı́veis realizações uma contagem ou mensuração.

4
Estatı́stica Básica

– Discretas: possı́veis resultados formam um conjunto finito ou enumerárel (por


exemplo, 0, 1, 2, · · · ). Ex: nº de irmãos, idade em anos.

– Contı́nuas: possı́veis resultados formam um conjunto não enumerárel (inter-


valos reais). Ex: peso, altura, salário.

• Qualitativas: apresenta como possı́veis realizações uma qualidade/atributo da uni-


dade de estudo.

– Ordinal: apresenta ordem/hierarquia nos seus possı́veis resultados. Ex: nı́vel


de instrução, classe social.

– Nominal: não apresenta ordem/hierarquia nos seus possı́veis resultados. Ex:


sexo, estado civil, religião.

Exercı́cio: Classifique as seguintes variáveis:

1. Taxa de natalidade na cidade de Seropédica (número de nascimentos por 1000 habi-


tantes (nesta região) em um ano).

2. Grau de ajustamento familiar (baixo, médio e alto).

3. Fertilizante utilizado em plantação de batatas (nenhum, nitrogênio, esterco, nitrogênio


ou esterco);

4. Número de casos diários de Covid-19 no estado do Rio de Janeiro.

5
Estatı́stica Básica

1.3 Representação Tabular de Variáveis: Tabela de Distri-


buição de Frequências

Podemos tabular um conjunto de dados a fim de obter um resumo e/ou uma apresentação
dos dados. A tabulação pode ser feita para variáveis qualitativas ou quantitativas. Se-
guem alguns exemplos.
A tabela abaixo é simples e não faz nenhum tipo de redução dos dados, apenas organiza.

6
Estatı́stica Básica

Id Turma Sexo Idade Alt Peso Filhos Toler Exerc TV OpTV


1 A F 17 1,6 60,5 2 P 0 16 R
2 A F 18 1,69 55 1 M 0 7 R
3 A M 18 1,85 72,8 2 P 5 15 R
4 A M 25 1,85 80,9 2 P 5 20 R
5 A F 19 1,58 55 1 M 2 5 R
6 A M 19 1,76 60 3 M 2 2 R
7 A F 20 1,6 58 1 P 3 7 R
8 A F 18 1,64 47 1 I 2 10 R
9 A F 18 1,62 57,8 3 M 3 12 R
10 A F 17 1,64 58 2 M 2 10 R
11 A F 18 1,72 70 1 I 10 8 N
12 A F 18 1,66 54 3 M 0 0 R
13 A F 21 1,7 58 2 M 6 30 R
14 A M 19 1,78 68,5 1 I 5 2 N
15 A F 18 1,65 63,5 1 I 4 10 R
16 A F 19 1,63 47,4 3 P 0 18 R
17 A F 17 1,82 66 1 P 3 10 N
18 A M 18 1,8 85,2 2 P 3 10 R
19 A F 20 1,6 54,5 1 P 3 5 R
20 A F 18 1,68 52,5 3 M 7 14 M
21 A F 21 1,7 60 2 P 8 5 R
22 A F 18 1,65 58,5 1 M 0 5 R
23 A F 18 1,57 49,2 1 I 5 10 R
24 A F 20 1,55 48 1 I 0 28 R
25 A F 20 1,69 51,6 2 P 8 4 N
26 A F 19 1,54 57 2 I 6 5 R
27 B F 23 1,62 63 2 M 8 5 R
28 B F 18 1,62 52 1 P 1 10 R
29 B F 18 1,57 49 2 P 3 12 R
30 B F 25 1,65 59 4 M 1 2 R
31 B F 18 1,61 52 1 P 2 6 N
32 B M 17 1,71 73 1 P 1 20 R
33 B F 17 1,65 56 3 M 2 14 R
34 B F 17 1,67 58 1 M 4 10 R
35 B M 18 1,73 87 1 M 7 25 B
36 B F 18 1,6 47 1 P 5 14 R
37 B M 17 1,7 95 1 P 10 12 N
38 B M 21 1,85 84 1 I 6 10 R
39 B F 18 1,7 60 1 P 5 12 R
40 B M 18 1,73 73 1 M 4 2 R

7
Estatı́stica Básica

1.3.1 Tabela de frequências

A tabela de distribuição de frequências apresenta as informações de frequências absolutas,


frequências relativas e acumuladas dos dados observados.

Tabela 1.1: Tabela de frequências.


Classes ni fi fiac Percentual
c1 n1 f1 f1ac 100 × f1
c2 n2 f2 f2ac 100 × f2
.. .. .. ..
. . . .
ck nk fk 1 100 × fk
Total n 1 100%

Considere que:

• k é o número de classes;

• ni é a frequência absoluta, n1 + n2 + · · · + nk = n;
ni
• fi é a frequência relativa, fi = ;
n
i
X
• fiac é a frequência relativa acumulada, fiac = fj .
j=1

Importante: O número de classes (k) para uma tabela de frequências pode ser obtido
utilizando os seguintes métodos:

• Método da raiz quadrada:



 n, se n > 25;

k =
5, caso contrário.

• Método de Sturges:
k = 1 + 3, 22 log10 n (1.1)

• Também podemos escolher de acordo com nosso interesse na pesquisa.

8
Estatı́stica Básica

Exemplo 2. Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni =
18, fi = 0, 50) e superior (ni = 6, fi = 0, 17).

Tabela 1.2: Tabela de frequências.


Nı́vel de Instrução ni fi % fac
Fundamental 12 0,33 33 0,33
Médio 18 0,50 50 0,83
Superior 6 0,17 17 1,00
Total 36 1,00 100 -

Tabela 1.3: Tabela de Distribuição de Frequências

em que:
ni : frequência absoluta;
fi : frequência relativa;
%: porcentagem;
fac : frequência relativa acumulada.

Tabela de dupla entrada

Exemplo 3. Considere a quantia de empréstimos diários (em milhares) de quatro diferentes bancos
(B1, B2, B3 e B4) com agências de mesmo porte em três avenidas (A1, A2 e A3) de uma cidade:

Tabela 1.4: Dados


Banco/Avenida A1 A2 A3 Total
B1 25 35 24 84
B2 32 28 27 87
B3 27 33 31
B4 41 60 25 126
Total 125 156 107 388

9
Estatı́stica Básica

Exemplo 4. Foi realizada uma pesquisa com 20 funcionários de uma empresa para avaliar a pre-
ferência entre dois produtos (A e B). A tabela abaixo apresenta os resultados das seguintes carac-
terı́sticas investigadas: Renda do trabalho em número de salários mı́nimos (X); Sexo (F - feminino
e M - masculino); Preferência entre os produtos A ou B.

Entrevistado 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
N o salários (X) 2 3,7 1,7 3 4 5 1,4 3 3 1,8 6 4,8 2,3 1,5 3,2 2,2 1 4,4 2 2
Sexo M M F M F M M F F F M M F M F F M F M F
Preferência A B A B B B A B A A B B A A A A A B A A

Construa uma tabela de frequências de dupla entrada para as variáveis qualitativas.

10
Estatı́stica Básica

1.4 Representação Gráfica de Variáveis

• Qualitativas:

– gráfico de colunas/barras;

– gráfico de setores;

• Quantitativas:

– gráfico de colunas/barras;

– gráfico de linhas;

– gráfico de dispersão;

– ramo e folhas;

– ogiva;

– histograma;

– polı́gono de frequências.

Todos os gráficos a seguir foram gerados utilizando o software livre R. Você pode fazer o
download do programa pela site oficial: https://cran.r-project.org/

1.4.1 Gráfico de Barras/Colunas

Exemplo 5. Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni =
18, fi = 0, 50) e superior (ni = 6, fi = 0, 17).

11
Estatı́stica Básica

15
Frequência
10
5
0

fundamental médio superior


Grau de Instrução

Figura 1.1: Gráfico de barras para variável nı́vel de instrução.

1.4.2 Gráfico de Setores/Pizza

Exemplo 6. Variável: Nı́vel de Instrução= fundamental (ni = 12, fi = 0, 33), médio (ni =
18, fi = 0, 50) e superior (ni = 6, fi = 0, 17).

1(33.3%)

2(50%) 3(16.7%)

1=Fundamental, 2=Médio, 3=Superior

Figura 1.2: Gráfico de setores para variável nı́vel de instrução.

Pode vir acompanhado com uma legenda ou porcentagens ao lado das respostas.

12
Estatı́stica Básica

1.4.3 Gráfico de Linhas

Exemplo 7. Variável: Nº de filhos por estudante =

{0, 1, 2, 0, 0, 0, 0, 0, 1, 0, 2, 0, 0, 3, 0, 0, 1, 2, 0, 0, 1, 0, 0, 0, 2, 2, 0, 0, 5, 2, 0, 1, 3, 0, 2, 3}.

5
4
Nº de filhos
3
2
1
0

0 5 10 15 20 25 30 35
Estudantes

Figura 1.3: Gráfico de linhas para variável número de filhos por estudante.

13
Estatı́stica Básica

1.4.4 Gráfico de Dispersão

Exemplo 8. Útil para séries temporais ou para relacionar duas variáveis quantitativas. Variáveis:
Velocidade (4, 4, 7, 7, 8, 9, 10, 10, 10, ..., 24, 25) e Distância (10, 4, 22, 16, 10, 18, 26, 34, ..., 120,
85).

120


100


● ●
80



Distância





60


● ●
● ●



● ●

40

● ●
● ●
● ●
● ● ●
● ●
● ● ● ●


20

● ●
● ●


● ●


0

5 10 15 20 25
Velocidade

Figura 1.4: Gráfico de dispersão entre as variáveis velocidade e distância.

1.4.5 Ramo e folhas

Vejamos um exemplo.

Exemplo 9. Dados: 91,96,98,104,105,108,108,112,112,112,113,113,114,115,115,116,116,116,116,118,118,


118,119,120,121,121,121,121,121,123,123,123,124,126,126,126,126,126,127,127,128,128, 129,
129,129,130,130,130,131,132,132,132,133,133,134,134,134,134,134,134,135,136, 136,137, 138,
141,141,141,142,143,143,144,144,144,144,145,146,146,146,146,147,147, 148,148,149, 150,150,
150, 153,154,154,154,154,,157,157,158,158.

14
Estatı́stica Básica

9 | 168
10 | 4588
11 | 2223345566668889
12 | 0111113334666667788999
13 | 00012223344444455566678
14 | 11123344445666677889
15 | 000344447788

Tabela 1.5: Gráfico de ramo e folhas.

1.4.6 Ogiva

Gráfico das frequências relativas (proporções) acumuladas fac .

Exemplo 10. Variável: Velocidade (4, 4, 7, 7, 8, 9, 10, 10, 10, 11, 11,..., 24, 24, 24, 24, 25), com
frequências relativas = 0.03703704, 0.03703704, 0.01851852, 0.01851852, 0.05555556, 0.03703704,
..., 0.01851852, 0.07407407, 0.09259259).
1.0


0.8
Proporção Acumulada (Fac)



0.6



0.4


0.2






0.0

5 10 15 20 25
Velocidade

Figura 1.5: Gráfico das frequências relativas acumuladas.

15
Estatı́stica Básica

1.4.7 Histograma

Exemplo 11. Suponha o seguinte conjunto de n = 36 dados:


4,00; 4,56; 5,25; 5,73; 6,26; 6,66; 6,86; 7,39; 7,59; 7,44; 8,12; 8,46 ; 8,74 ; 8,95; 9,13; 9,35; 9,77;
9,80; 10,53; 10,76; 11,06; 11,59; 12,00; 12,79 ;13,23; 13,60; 13,85; 14,69; 14,71; 15,99; 16,22;
16,61; 17,26; 18,75; 19,40; 23,30.

Para construir o histograma, primeiro agrupamos os dados em intervalos de classe e apre-


sentamos em uma tabela de frequências. A fim de agrupar em intervalos, precisamos de-
finir o número de classes. Aqui, utilizaremos o conhecimento do pesquisador escolhendo
o número de classes e realizando o procedimento a seguir.

Calculamos a amplitude total do conjunto:

∆ = 23, 30 − 4, 00 = 19, 30.

Suponha que queremos dividir em 5 intervalos de igual tamanho, basta fazer

∆ 19, 30
∆i = = = 3, 86 ≈ 4,
5 5

(sempre arredondar para mais, garantindo que o último valor seja incluı́do).

Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,0700
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,0550
[16,20) 18 5 0,14 14 0,97 0,0350
[20,24) 22 1 0,03 3 1,00 0,0075
Total - 36 1,00 100 - -

em que:
xi : ponto médio do i-ésimo intervalo de classe;
ni : frequência absoluta do i-ésimo intervalo de classe;
fi : frequência relativa do i-ésimo intervalo de classe;
%: porcentagem do i-ésimo intervalo de classe;
fac : frequência relativa acumulada até o i-ésimo intervalo de classe;

16
Estatı́stica Básica

di : densidade do i-ésimo intervalo de classe.

Note que:

• os histogramas são formados por retângulos cujas bases são os intervalos de classes
dos dados agrupados e as alturas são as densidades de cada classe (di ).

ni fi
• podemos ter histogramas de frequências (di = δi
), de proporção (di = δi
) e de por-
100fi
centagem (di = δi
).

• nos histogramas de proporção, temos a área total igual a 1.

• nos histogramas de proporção, cada retângulo representa a proporção da respectiva


classe representada.
0.10

33%
0.08
Densidade de Frequência

28%
0.06

22%
0.04

14%
0.02

3%
0.00

0 4 8 12 16 20 24
Salário
Figura 1.6: Histograma.

17
Estatı́stica Básica

1.4.8 Polı́gono de Frequências

0.10
0.08


0.06
Densidade


0.04


0.02


0.00

● ●

0 5 10 15 20 25 30
Salário
Figura 1.7: Polı́gono de frequências.

Podemos também sobrepor o histograma e o polı́gono de frequências:


0.10
0.08


Densidade de Frequência


0.06


0.04


0.02


0.00

● ●

0 4 8 12 16 20 24
Salário
Figura 1.8: Histograma e polı́gono de frequências.

18
Estatı́stica Básica

Exercı́cio: Considere um conjunto com os dados de idade (em meses) de uma determinada
planta.
1 2 2 6 8 9 15 17 20 20
20 21 27 29 29 35 37 37 43 48
Faça o histograma com 5 classes iniciando no menor valor do conjunto. E, em seguida, o
polı́gono de frequência.

19
Estatı́stica Básica

1.5 Medidas Resumo: Medidas de Posição e Medidas de


Dispersão

As medidas de posição e de dispersão são somente aplicadas aos conjuntos de dados


quantitativos, fornecendo informções que resumem e auxiliam no conhecimento sobre o
conjunto.
Considere um conjunto de dados X = {x1 , x2 , · · · , xn } com n observações.

1.5.1 Medidas de Posição

São medidas que resumem o conjunto de dados em relação à posição.

• Moda (Mo): é a observação que mais se repete no conjunto de dados.

Exemplo 12. 1. Unimodal: X = {4, 7, 5, 3, 4, 9, 10, 2}, logo M o = 4.

2. Amodal: X = {4, 7, 5, 3, 9, 10, 2}, logo não existe M o.

3. Bimodal: X = {4, 7, 5, 3, 4, 9, 10, 2, 7}, logo M o = 4 e 7.

4. Multimodal: X = {4, 7, 5, 3, 4, 9, 10, 2, 7, 9}, logo M o = 4, 7 e 9.

• Mediana (Md): é o valor do conjunto de dados que divide o conjunto ordenado em


duas partes iguais. Exemplos:

1. X = {4, 7, 5, 3, 9, 10, 2}. Ordenando:

{2, 3, 4, 5, 7, 9, 10},

logo M d = 5, que ocupa a 4ª posição no conjunto com 7 observações deixando


3 observações para cada lado.

2. X = {4, 7, 5, 3, 9, 10, 2, 7}. Ordenando:

{2, 3, 4, 5, 7, 7, 9, 10},

que é um conjunto com 8 observações. A mediana é o valor que deixa 4 observações


abaixo e 4 observações acima e, podemos obtê-la tomando o ponto médio en-
5+7
tre as observações da 4ª posição e da 5ª posição: M d = = 6, que é um
2
valor que não pertence ao conjunto de dados. Note que para conjuntos com
total de observações ı́mpar, a mediana pertence ao conjunto, já para total de
observações par, a mediana pode pertencer ou não.
20
Estatı́stica Básica

• Média: é uma medida extremamente conhecida e utilizada. Dependendo do con-


junto de dados, pode ser mais indicado diferentes tipos de médias, como apresenta-
mos abaixo.

– Média Aritmética Simples: Pn


i=1 xi
x̄ = .
n
– Média Aritmética Ponderada: Suponha, ainda, um conjunto de pesos W =
{w1 , w2 , · · · , wn } associado ao conjunto X. A média aritmética do conjunto X
ponderada pelo conjunto W é dada por:
Pn
xi w i
x̄p = Pi=1
n .
i=1 wi

– Média Geométrica:

x̄g = n
x1 × x2 × · · · x n .

Útil para encontrar taxas médias.

– Média Harmônica:
n
x̄h = Pn 1 .
i=1 xi

Útil para encontrar a média de taxas médias e velocidades médias.

Exemplo 13. Seja o conjunto de observações X = {4, 7, 5, 3, 9, 10, 2}. Vamos determinar
cada uma das médias apresentadas acima.

4 + 7 + 5 + 3 + 9 + 10 + 2
1. x̄ = ≈ 5, 72;
7
2. Considere o conjunto de pesos W = {1, 3, 2, 1, 3, 2, 1}, logo:

4 ∗ 1 + 7 ∗ 3 + 5 ∗ 2 + 3 ∗ 1 + 9 ∗ 3 + 10 ∗ 2 + 2 ∗ 1
x̄p = ≈ 6, 69;
13

7
3. x̄g = 4 × 7 × 5 × 3 × 9 × 10 × 2 ≈ 4, 98;
7
4. x̄h = 1 ≈ 4, 28.
4
+ + + + 19 +
1
7
1
5
1
3
1
10
+ 1
2

• Separatrizes ou Quantis: Dividem o conjunto de dados ordenado em partes iguais.

– Mediana: divide em duas partes iguais (Md ).

– Quartis: divide em 4 partes iguais (Q1 , Q2 , Q3 ).

– Decis: divide em 10 partes iguais (D1 , · · · , D9 ).


21
Estatı́stica Básica

– Percentis: divide em 100 partes iguais (P1 , · · · , P99 ).

Podemos utilizar a seguinte fórmula para encontrar a posição dos quantis de forma
geral:
s(n + 1)
,
r
em que s é a ordem do quantil (quartil {1, 2, 3}; decil {1, 2, · · · , 9}; percentil {1, 2, · · · , 99}),
r é o quantil desejado (4,10 ou 100) e n é o tamanho do conjunto de dados.

Exemplo 14. Seja X = {160, 145, 133, 144, 152, 167, 200, 156, 143, 144, 167, 177, 160, 153, 155}
com n = 15 observações. Encontre os quartis, D3 , P25 e P10 .

Ordenando, obtemos:

{133, 143, 144, 144, 145, 152, 153, 155, 156, 160, 160, 167, 167, 177, 200}.

1. D3 : encontrando a posição

s(n + 1) 3 ∗ (15 + 1)
= = 4, 8 ≈ 5,
r 10

logo D3 = 145;

2. P25 : encontrando a posição

25 ∗ (15 + 1)
= 4,
100

logo P25 = 144;

3. P10 : encontrando a posição

10 ∗ (15 + 1)
= 1, 6 ≈ 2,
100

logo P10 = 143.

Medidas de Posição para Dados Agrupados

Considere um conjunto de dados agrupados em K intervalos de classes, em que xi é o


ponto médio do i-ésimo intervalo de classe; ni é a frequência absoluta do i-ésimo intervalo
de classe; e, fi é a frequência relativa do i-ésimo intervalo de classe. Podemos calcular
medidas resumo de um conjunto de dados agrupados, que serão medidas aproximadas, e
não exatas, do conjunto de dados original. Definimos:
22
Estatı́stica Básica

• Moda: valor xi com maior ni ou fi .

• Mediana: vamos encontrar pelo histograma de proporção, utilizando que a as áreas


de cada retângulo corresponde a proporção de observados na respectiva classe.

• Média Aritmética: PK K
i=1 xi ni X
x̄ = = x i fi .
n i=1

Exemplo 15. Seja X = {4, 00; 4, 56; 5, 25; 5, 73; 6, 26; 6, 66; 6, 86; 7, 39; 7, 59; 7, 44; 8, 12; 8, 46; 8, 74;
8, 95; 9, 13; 9, 35; 9, 77; 9, 80; 10, 53; 10, 76; 11, 06; 11, 59; 12, 00; 12, 79; 13, 23; 13, 60; 13, 85; 14, 69;
14, 71; 15, 99; 16, 22; 16, 61; 17, 26; 18, 75; 19, 40; 23, 30}, agrupado em 5 intervalos de classes:

Tabela 1.6: Tabela de frequências.


Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,07
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,055
[16,20) 18 5 0,14 14 0,97 0,035
[20,24) 22 1 0,03 3 1,00 0,0075
0.10

33%
0.08
Densidade de Frequência

28%
0.06

22%
0.04

14%
0.02

3%
0.00

0 4 8 12 16 20 24
Salário

1. Moda = 10.

23
Estatı́stica Básica

2. Mediana = 10,67 (obtida via histograma). Como determinar? A mediana deixa 50%
dos dados abaixo dela. No primeiro retângulo do histograma, temos 28% dos dados
(f1 ) que não é suficiente, então temos que somar mais a proporção de 33% do se-
gundo retângulo, que já ultrapassa os 50% da mediana. Logo, a mediana é um valor
no intervalo de 8 até 12, que determina um retângulo de área 22% para somar com
os 28% do retângulo anterior e totalizar 50%. Temos a seguinte equação:

0,22(área do retângulo determinado pela mediana)=(M d−8)(base do retângulo)*0,0825(altura


do retângulo).
0, 22
Basta isolarmos a M d e encontramos M d = 8 + = 10, 67.
0, 0825
6 × 10 + 10 × 12 + 14 × 8 + 18 × 5 + 22 × 1
3. Média Aritmética = = 6 × 0, 28 + 10 ×
10 + 12 + 8 + 5 + 1
0, 33 + 14 × 0, 22 + 18 × 0, 14 + 22 × 0, 03 = 11, 24.

1.5.2 Medidas de Dispersão

São medidas que resumem o conjunto de dados em relação à dispersão/variabilidade dos


dados.

• Suponha que queremos pensar em dispersão dos dados em torno da sua média
aritmética. Então, poderı́amos olhar para as diferenças de cada xi , para i = 1, · · · , n,
em relação à média x̄, isto é,
xi − x̄,

e, pensando numa única medida para todo conjunto poderı́amos pensar em


n
X n
X n
X n
X
(xi − x̄) = xi − x̄ = nx̄ − x̄ = 0,
i=1 i=1 i=1 i=1

que é sempre igual a zero para qualquer que seja X. Para contornar esse problema,
temos as seguintes propostas:

– Desvio médio absoluto:


Pn
i=1 |xi − x̄|
DM A(X) = .
n

– Variância (amplamente utilizado):


Pn 2
Pn 2
(x i − x̄) x
V ar(X) = i=1 = i=1 i − (x̄)2 .
n n
24
Estatı́stica Básica

– Desvio Padrão (retornando a escala original dos dados):


p
DP (X) = V ar(X).

• Intervalo Interquartı́lico: IQ(X) = Q3 (X) − Q1 (X).

• Coeficiente de Variação (medida adimensional, muito útil para comaprar conjuntos


com escalas diferentes):
DP (X)
CV (X) = ,

para x̄ 6= 0.

Exemplo 16. Seja X = {4, 7, 5, 3, 9, 10, 2}. Portanto:

• DM A(X) =
|4 − 5, 72| + |7 − 5, 72| + |5 − 5, 72| + |3 − 5, 72| + |9 − 5, 72| + |10 − 5, 72| + |2 − 5, 72|

7
2, 53;
42 + 72 + 52 + 32 + 92 + 102 + 22
• V AR(X) = − 5, 722 ≈ 7, 92;
7
p
• DP (X) = 7, 92 ≈ 2, 81;
   
3+4 7+9
• IQ(X) = 8 − 3, 5 = 4, 5, pois Q1 (X) = 3, 5 e Q3 (X) = 8 extraı́dos
2 2
do conjunto ordenado {2, 3, 4, 5, 7, 9, 10} com 7 observações;
2, 81
• CV (X) = ≈ 0, 49.
5, 72

Medidas de Dispersão para Dados Agrupados

Considere um conjunto de dados agrupados em K intervalos de classes, em que xi é o


ponto médio do i-ésimo intervalo de classe; ni é a frequência absoluta do i-ésimo intervalo
de classe; e, fi é a frequência relativa do i-ésimo intervalo de classe. Assim como para as
medidas de posição, podemos calcular as medidas de dispersão de um conjunto de dados
agrupados, que serão medidas aproximadas, e não exatas, do conjunto de dados original.
Definimos:
PK K
i=1 |xi − x̄|ni X
• DM A(X) = = |xi − x̄|fi .
n i=1

PK K K
i=1 (xi − x̄)2 ni X X
• V ar(X) = = (xi − x̄)2 fi = x2i fi − (x̄)2 .
n i=1 i=1
25
Estatı́stica Básica

• Desvio padrão, intervalo interquartı́lico e coeficiente de variação: permacem com as


mesmas fórmulas, somente adaptando-se as medidas envolvidas que serão calcula-
das a partir dos dados agrupados.

Exemplo 17. Calcule todas as medidas de dispersão apresentadas para o conjunto de dados agru-
pados da tabela abaixo.

Tabela 1.7: Tabela de frequências.


Classes xi ni fi % fac di
[4,8) 6 10 0,28 28 0,28 0,07
[8,12) 10 12 0,33 33 0,61 0,0825
[12,16) 14 8 0,22 22 0,83 0,055
[16,20) 18 5 0,14 14 0,97 0,035
[20,24) 22 1 0,03 3 1,00 0,0075
0.10

33%
0.08
Densidade de Frequência

28%
0.06

22%
0.04

14%
0.02

3%
0.00

0 4 8 12 16 20 24
Salário

Calculando:
PK
|xi − x̄|ni
i=1
• DM A(X) = =
n
|6 − 11, 24| × 10 + |10 − 11, 24| × 12 + |14 − 11, 24| × 8 + |18 − 11, 24| × 5 + |22 − 11, 24| × 1
=
36
3, 72;
K
X
• V ar(X) = x2i fi − (x̄)2 = (62 × 0, 28 + 102 × 0, 33 + 142 × 0, 22 + 182 × 0, 14 + 222 ×
i=1
0, 03) − (11, 24)2 ≈ 19, 74;
26
Estatı́stica Básica

p
• DP (X) = 19, 7 ≈ 4, 44;

• IQ(X) = Q3 (X) − Q1 (X) = 14, 545455 − 7, 571429 = 6, 974026, pois através do histo-
grama determinamos os quartis:

– Q1 deixa 25% dos dados abaixo dele. No primeiro retângulo do histograma,


temos 28% dos dados (f1 ) que já ultrapassa os 25% do primeiro quartil. Logo, o
Q1 é um valor no intervalo de 4 até 8. Temos a seguinte equação:
0,25(área do retângulo determinado pelo Q1 )=(Q1 −4)(base do retângulo)*0,07(altura
do retângulo).
0, 25
Basta isolarmos o Q1 e encontramos Q1 = 4 + = 7, 571429.
0, 07
– Q3 deixa 75% dos dados abaixo dele. Precisamos alcançar no mı́nimo os 75%,
assim precisamos dois 3 primeiros retângulos, que somam 28%+33%+22%=83%
dos dados que ultrapassa os 75% do terceiro quartil. Logo, o Q3 é um valor no
intervalo de 12 até 16, que determina uma área de 14% para somar com os dois
primeiros retângulos um total de 75%. Temos a seguinte equação:
0,14(área do retângulo determinado pelo Q3 )=(Q3 −12)(base do retângulo)*0,055(altura
do retângulo).
0, 14
Basta isolarmos o Q3 e encontramos Q3 = 12 + = 14, 545455.
0, 055
DP (X) 4, 44
• CV (X) = = ≈ 0, 40.
X̄ 11, 24

1.5.3 Propriedades das Medidas de Posição e Dispersão

Sejam a, b ∈ < e X = {x1 , x2 , · · · , xn }.

• Se Y = {a, a, · · · , a}, então todas as medidas de posição são iguais a ”a”e todas as
medidas de dispersão são iguais a zero.

• Seja o conjunto Y = {ax1 , ax2 , · · · , axn }, então ȳ = ax̄, M o(Y ) = aM o(X), M d(Y ) =
aM d(X); DM A(Y ) = |a|DM A(X), V ar(Y ) = a2 V ar(X), DP (Y ) = |a|DP (X),
IQ(Y ) = |a|IQ(X).

• Seja o conjunto Z = {x1 + b, x2 + b, · · · , xn + b}, então z̄ = x̄ + b, M o(Z) = M o(X) + b,


M d(Z) = M d(X) + b e o mesmo vale para todos os quantis; as medidas de dispersão
permanecem inalteradas DM A(Z) = DM A(X), V ar(Z) = V ar(X), DP (Z) = DP (X),
IQ(Z) = IQ(X).
27
Estatı́stica Básica

• Seja o conjunto W = {ax1 + b, ax2 + b, · · · , axn + b}, então w̄ = ax̄ + b, M o(W ) =


aM o(X)+b, M d(W ) = aM d(X)+b e o mesmo vale para todos os quantis; DM A(W ) =
|a|DM A(X), V ar(W ) = a2 V ar(X), DP (W ) = |a|DP (X), IQ(W ) = |a|IQ(X).

Exemplo 18. Seja X = {4, 7, 5, 3, 9, 10, 2}. Defina Y = 3X, Z = X + 4 e W = 2X − 1.


Determine:

• as médias de Y , Z, e W :

ȳ = 3x̄ = 3 × 5, 72 = 17, 16;

z̄ = x̄ + 4 = 5, 72 + 4 = 9, 72;

w̄ = 2x̄ − 1 = 2 × 5, 72 − 1 = 10, 44.

• as medianas de Y , Z, e W :

M d(Y ) = 3M d(X) = 3 × 5 = 15;

M d(Z) = M d(X) + 4 = 5 + 4 = 9;

M d(W ) = 2M d(X) − 1 = 2 × 5 − 1 = 9.

• as variâncias de Y , Z, e W :

V ar(Y ) = 32 V ar(X) = 32 × 7, 92 = 71, 28;

V ar(Z) = V ar(X) = 7, 92;

V ar(W ) = 22 V ar(X) = 22 × 7, 92 = 31, 68.

• os desvios padrões de Y , Z, e W :
p √
DP (Y ) = V ar(Y ) = 71, 28 = 8, 442748;
p √
DP (Z) = V ar(Z) = 7, 92 = 2, 814249;
p √
DP (W ) = V ar(W ) = 31, 68 = 5, 628499.

Exercı́cio Segundo um laboratório, os ı́ndices de glicose (em mg por decilitro) de vinte


pacientes no inı́cio da coletagem de um certo dia foram: 77, 75, 82, 76, 69, 71, 80, 66, 85, 77,
72, 100, 80, 86, 74, 90, 69, 89, 74 e 115. Sabendo que
20
X 20
X
xi = 1607 e x2i = 131705
i=1 i=1

1. Encontre a média e a variância destes ı́ndices.


28
Estatı́stica Básica

2. Encontre a média e a variância destes ı́ndices, supondo que houve um erro de medição
de 10 mg/dL para menos em todos os pacientes.

3. Supondo, ainda, que houve um erro de medição de 10 mg/dL para menos em todos
os pacientes, determine a média e a variância dos ı́ndices multiplicados por -2.

29
Estatı́stica Básica

1.6 Assimetria e Curtose

Vamos falar agora de duas formas de classificação de um conjunto de dados que auxiliam
na sua descrição e entendimento, a assimetria e a curtose.

1.6.1 Assimetria

Um conjunto de dados é dito ser simétrico se sua moda, mediana e média são iguais.
Da mesma forma, se os lados direito e esquerdo do diagrama/gráfico de pontos (ou de
barras), ou do histograma, são a imagem espelhada um do outro. Observe que, para
discutirmos assimetria o conjunto de dados deve ser unimodal.
Caso seja não seja simétrico, dizemos que é assimétrico. Um conjunto de dados é as-
simétrico à direita se a cauda direita do histograma se estende muito mais do que a cauda
esquerda, ou seja, a cauda declina para direita. Nesse caso, temos média>mediana>moda.
E um conjunto de dados é assimétrico à esquerda se a cauda esquerda do histograma
se estende muito mais do que a cauda direita, ou seja, a cauda declina para esquerda.
Nesse caso, temos média<mediana<moda. Seja um conjunto de dados com n observações

Figura 1.9: Possı́veis casos de assimetria. A seta representa a média da distribuição. Fonte:
Apostila de Estatı́stica Descritiva da Ana Maria Farias-UFF

X = {x1 , x2 , · · · , xn }. Existem vários coeficientes que medem o grau de assimetria de um


conjunto. Vamos estudar o coeficiente de assimetria de Pearson que é dado por:

x̄ − M o(X)
e= .
DP (X)
Note que:

1. se e = 0, então x̄ − M o(X) = 0 ⇒ x̄ = M o(X), logo a distribuição de valores é


simétrica;
30
Estatı́stica Básica

2. se e > 0, então x̄ − M o(X) > 0 (lembre que DP (X) ≥ 0, sempre), daı́ x̄ > M o(X),
logo a distribuição de valores é assimétrica à direita;

3. se e < 0, então x̄ − M o(X) < 0 (lembre que DP (X) ≥ 0, sempre), daı́ x̄ < M o(X),
logo a distribuição de valores é assimétrica à esquerda.

Exemplo 19. Seja X = {4, 7, 5, 3, 9, 10, 2, 7, 4, 5, 7, 8, 9, 2, 3, 5, 6, 9, 4, 5, 6, 6, 4, 8, 2, 6, 4} com 27


observações.
5
4
Frequência Absoluta
3
2
1
0

2 3 4 5 6 7 8 9 10
X

Figura 1.10: Gráfico de barras do exemplo

O conjunto X é simétrico? Calcule seu coeficiente de assimetria.


Para isso, precisamos calcular:
4 + 7 + 5 + 3 + ··· + 2 + 6 + 4
• x̄ = = 5, 56;
27
• M o(X) = 4, que é o valor com maior ocorrência;
p p
• DP (X) = V ar(X) = 5, 14 = 2, 27, em que
42 + 72 + 52 + 32 + · · · + 22 + 62 + 42
V ar(X) = − (5, 56)2 = 5, 14.
27
31
Estatı́stica Básica

Portanto, o coeficiente de assimetria é dado por

x̄ − M o(X) 5, 56 − 4
e= = = 0, 69 > 0,
DP (X) 2, 27

logo a distribuição de valores é assimétrica à direita ou positiva.

1.6.2 Curtose

A curtose ou achatamento de um conjunto de dados mede a concentração ou dispersão


dos valores de um conjunto de valores em relação às medidas de tendência central em
uma distribuição de frequências conhecida (a distribuição Normal padrão que será estu-
dada ainda no curso). Como ainda não conhecemos essa distribuição, podemos entendê-
la como uma distribuição padrão com um grau de achatamento mediano. A distribuição
dos dados pode ser classificada em três classes: leptocúrtica (afunilada), mesocúrtica e
platicúrtica (achatada).

Seja um conjunto de dados com n observações X = {x1 , x2 , · · · , xn }. Também existem


vários coeficientes de curtose, mas iremos estudar o coeficiente dado por:

m4 (X)
c= − 3,
DP (X)4
Pn
i=1 (xi − x̄)4
em que m4 (X) = .
n
Como a curtose da normal padrão é 3, o valor limiar para a classificação da curtose é o
zero. Portanto, dizemos que X é:

1. Leptocúrtica: se c > 0;

2. Mesocúrtica: se c = 0;
32
Estatı́stica Básica

3. Platicúrtica: se c < 0.

Exemplo 20. Retomando o exemplo anterior, seja X = {4, 7, 5, 3, 9, 10, 2, 7, 4, 5, 7, 8, 9, 2, 3, 5, 6, 9,


4, 5, 6, 6, 4, 8, 2, 6, 4} com 27 observações. Calcule seu coeficiente de curtose e classifique.

Para isso, precisamos calcular:


(4 − 5, 56)4 + (7 − 5, 56)4 + (5 − 5, 56)4 + · · · + (6 − 5, 56)4 + (4 − 5, 56)4
• m4 (X) = =
27
55, 24;

• DP (X) = 2, 27, calculado no exemplo anterior.

Portanto, o coeficiente de curtose é dado por

m4 (X) 55, 24
c= 4
−3= − 3 = −0, 92 < 0,
DP (X) 2, 274

logo a distribuição de valores é platicúrtica.


Exercı́cio Segundo a SOBRAC (Sociedade Brasileira de Arritmias Cardı́acas), no Brasil,
40 milhões de pessoas têm algum tipo de Arritmia Cardı́aca. Estima-se que até 20% da
população seja acometida pela doença. O ritmo cardı́aco (ou freqüência cardı́aca) ade-
quado é ritmo regular. A frequência dos batimentos cardı́acos depende da atividade que
o indivı́duo está realizando e é medida pelo número de contrações do coração por uma
unidade de tempo, geralmente por minuto e é expressa em BPM (batimentos por minuto).
A frequência cardı́aca pode variar muito, mas normalmente situa-se entre 60 bpm e 100
bpm num indivı́duo em repouso ou atividades habituais. Em algumas situações, como
durante exercı́cios fı́sicos de alta intensidade, estes batimentos podem atingir até mesmo
180 bpm. Por outro lado, quando dormimos ou estamos em repouso, a frequência pode
ficar abaixo dos 60 bpm. Seguindo critérios rigorosos, foram medidos os ritmos cardı́acos
de repouso de 10 idosas brasileiras, obtendo-se os seguintes resultados (dados fictı́cios):
51, 55, 77, 99, 60, 75, 77, 85, 65, 62.
Classifique o conjunto de ritmos cardı́acos de repouso em relação ao grau de assimetria e
ao grau de curtose.

33
Estatı́stica Básica

1.7 Boxplot

O Boxplot é uma representação gráfica que para ser construı́do e entendido precisa dos
conhecimentos apresentados anteriormente sobre medidas de posição e dispersão. Por
isso, dapresentaremos esse gráfico somente agora. Esta representação gráfica é bastante
rica no sentido de informar a variabilidade e simetria dos dados, envolvendo os quar-
tis do conjunto observado. Além disso, podemos observar se os dados possuem valores
discrepantes (outliers).

1.7.1 Construção:

O Boxplot é construı́do a partir de um retângulo em que o nı́vel superior é dado pelo ter-
ceiro quartil e o nı́vel inferior pelo primeiro quartil. A mediana é representada por um
traço no interior do retângulo e os segmentos de reta são colocados do retângulo até os
valores máximo e mı́nimo, que não sejam observações discrepantes.

As observações que estiverem acima do limite superior (LS ) ou abaixo do limite inferior
3
(LI ) são denominadas de valores discrepantes (pontos exteriores). LI = Q1 − IQ , LS =
2
3
Q3 + IQ e IQ = Q3 − Q1 .
2

Figura 1.11: Boxplot

Exemplo 21. Construa o boxplot para o conjunto de pesos abaixo.


Dados: 44.0 45.0 45.0 47.0 47.0 47.0 47.4 48.0 49.0 49.0 49.2 50.0 50.0 51.6 52.0 52.0 52.0 52.0
52.5 54.0 54.5 54.5 55.0 55.0 55.0 55.0 56.0 57.0 57.8 58.0 58.0 58.0 58.0 58.5 59.0 59.0 60.0 60.0
34
Estatı́stica Básica

60.0 60.5 63.0 63.5 66.0 67.0 68.5 70.0 71.0 71.0 72.8 73.0 73.0 75.0 79.0 80.9 84.0 85.2 86.0 87.0
95.0 97.0

Primeiro, precisamos verificar se os dados estão ordenados. Nesse caso, estão em ordem
crescente. Precisamos calcular:
52 + 52 58 + 58 68, 5 + 70
• Q1 = = 52, Q2 = = 58 e Q3 = = 69, 25;
2 2 2
• IQ = Q3 − Q1 = 69, 25 − 52 = 17, 25;
3 3
• LI = Q1 − IQ = 52 − 17, 25 = 26, 125;
2 2
3 3
• LS = Q3 + IQ = 69, 25 + 17, 25 = 95, 125.
2 2
Assim, determinamos as alças superior igual a 44 e inferior igual 95, levando ao dado
discrepante 97 que é maior do que o LS de 95,125.


90
80
Peso (Kg)

70
60
50

Figura 1.12: Boxplot para os dados da variável Peso (Kg)

Podemos também ter vários boxplots juntos a fim de comparar diferentes conjuntos de
dados. O eixo y das ordenadas continua igual e apenas usamos o eixo x das abscissas para
distanciarmos os boxplots, sem nenhuma interpretação numérica.

35
Estatı́stica Básica

Exercı́cio 1 Suponha que no exercı́cio anterior, sobre os ritmos cardı́acos de repouso, uma
das 10 observações foi corrigida (devido a um erro de registro), sendo 105 bpm ao invés
de 99 bpm, obtendo-se o novo conjunto de dados (dados fictı́cios): 51, 55, 77, 105, 60, 75,
77, 85, 65, 62. Construa o boxplot.
Exercı́cio 2 Considere o tempo (em minutos) de atendimento em um determinado banco
para um conjunto de 20 pessoas: 2; 2; 2; 3; 3; 4; 4; 4; 4; 4; 5; 5; 6; 6; 10; 12; 15; 17; 23; 25.
Construa o gráfico de boxplot e interprete.

36
Estatı́stica Básica

1.8 Análise Bidimensional de Dados

Estuda a relação/associação/dependência entre duas variáveis de interesse. Pode ser feita


tanto para variáveis quantitativas quanto para variáveis qualitativas.

1.8.1 Análise Bidimensional de Variáveis Quantitativas e pareadas

Quando temos disponı́vel duas variáveis quantitativas pareadas (mesmo número de observações),
inicialmente, uma inspeção visual pode ser feita através de um gráfico de dispersão. Va-
mos desenvolver o conceito dentro de um exemplo.

Exemplo 22. Suponha as variáveis: Anos de Estudo (6, 4, 8, 8, 9, 12, 13, 9, 25, 15) e Salário Médio
(1, 0.9, 1.2, 1.5, 1.8, 3, 2.5, 2, 10, 4) em milhares.
10


Salário Médio (em milhares)
8
6


4




2




● ●

5 10 15 20 25
Anos de Estudo

Figura 1.13: Gráfico de Dispersão das variáveis Anos de Estudo e Salário Médio.

Podemos ainda, utilizar o coeficiente de correlação linear de Pearson para verificar se há
indı́cios de uma relação linear significativa entre essas duas variáveis.
Para utilizar esse coeficiente, precisamos de observações de variáveis pareadas, da forma
{(x1 , y1 ), (x2 , y2 ), · · · , (xn , yn )}. Isso ocorre no caso do exemplo.

37
Estatı́stica Básica

O coeficiente de correlação linear de Pearson é definido por


Pn
cov(X, Y ) xi yi − nx̄ȳ
cor(X, Y ) = = p Pn 2 i=1 ,
DP (X)DP (Y ) ( i=1 xi − nx̄2 ) ( ni=1 yi2 − nȳ 2 )
P

tal que cov(X, Y ) = n1 ni=1 [(xi − x̄)(yi − ȳ)] , representa a covariância entre X e Y .
P

Assim definido, o coeficiente somente assume valores no intervalo [−1, 1]. E, sua interpretação
segue:

• valores do coeficiente mais próximos de -1, indicam maior relação linear negativa/decrescente;

• valores do coeficiente mais próximos de 1, indicam maior relação linear positiva/crescente;

• valores do coeficiente mais próximos de 0, indicam menor relação linear ;

No exemplo, temos para n = 10:


Pn Pn Pn 2 Pn 2 Pn
i=1 xi = 109; i=1 yi = 27, 9; i=1 xi = 1505; i=1 yi = 143, 99; i=1 xi yi = 443, 9 ;

x̄ = 10, 9 e ȳ = 2, 79;
em que X representa a variável Anos de Estudo e Y representa o Salário Médio.
Assim, obtemos que
Pn
xi yi − nx̄ȳ
cor(X, Y ) = p Pn 2 i=1
( i=1 xi − nx̄2 ) ( ni=1 yi2 − nȳ 2 )
P

443, 9 − 10 ∗ 10, 9 ∗ 2, 79
= p = 0, 944116,
(1505 − 10 ∗ (10, 9)2 ) (143, 99 − 10 ∗ (2, 79)2 )

indicando alta relação linear crescente.

1.8.2 Análise Bidimensional para Variáveis Qualitativas ou Quantitati-


vas

Considere a quantia de empréstimos diários (em milhares) de quatro diferentes bancos


com agências de mesmo porte em três avenidas de uma cidade:

38
Estatı́stica Básica

Banco/Avenida A1 A2 A3 Total
B1 25 35 24 84
B2 32 28 27 87
B3 27 33 31 91
B4 41 60 25 126
Total 125 156 107 388

Será que a quantia de empréstimos varia de acordo com o banco? Podemos calcular o
coefiente de contingência para começar a responder essa pergunta. Para esse cálculo,
precisamos primeiro construir a tabela de contingência dos dados que contempla tanto a
frequência observada (oij ) quanto a esperada(eij ), caso haja independência entre as variáveis.
A frequência esperada de cada casela da tabela é dada por:

total da linha i x total da coluna j


eij = .
total geral

Nesse caso, teremos então:

84 × 125 84 × 156 84 × 107


e11 = = 27, 06; e12 = = 33, 77 e13 = = 23, 17;
388 388 388

87 × 125 87 × 156 87 × 107


e21 = = 28, 03; e22 = = 34, 98; e23 = = 23, 99;
388 388 388

91 × 125 91 × 156 91 × 107


e31 = = 29, 32; e32 = = 36, 59; e33 = = 25, 10;
388 388 388

126 × 125 126 × 156 126 × 107


e41 = = 40, 59; e42 = = 50, 66; e43 = = 34, 75.
388 388 388

E, a tabela de contingência é dada por:

Banco/Avenida A1 A2 A3 Total
oij eij oij eij oij eij
B1 25 27,06 35 33,77 24 23,17 84
B2 32 28,03 28 34,98 27 23,99 87
B3 27 29,32 33 36,59 31 25,10 91
B4 41 40,59 60 50,66 25 34,75 126
Total 125 - 156 - 107 - 388

39
Estatı́stica Básica

O coeficiente de contingência é dado por:

s
χ2
C= ,
χ2 + total geral

X X (oij − eij )2
tal que χ2 = é a medida de qui-quadrado e o total geral é o número
i j
eij
total de observações.

No exemplo, obtemos que

(25 − 27, 06)2 (35 − 33, 77)2 (24 − 23, 17)2 (32 − 28, 03)2 (25 − 34, 75)2
χ2 = + + + +· · ·+ = 8, 95.
27, 06 33, 77 23, 17 28, 03 34, 75

Logo, r
8, 95
C= = 0, 15
8, 95 + 388
indicando que não há relação entre as variáveis.
Uma medida mais robusta é obtida pelo coeficiente de contingência corrigido:

C
C∗ = p ,
(t − 1)/t

em que t = min{total de linhas , total de colunas }.


0, 15
No exemplo, t = min{4, 3} = 3 e, portanto, C ∗ = p = 0, 18, confirmando a
(3 − 1)/3
indicação de independência entre as variáveis, dada pelo baixo valor do coeficiente de
contingência.

Exercı́cios.

1. Uma amostra de 10 casais e seus respectivos salários anuais (em salários mı́nimos)
foi colhida em um certo bairro conforme abaixo:

Casal 1 2 3 4 5 6 7 8 9 10 Total
Homem (X) 10 10 10 15 15 15 15 20 20 20 150
Mulher (Y ) 5 10 10 5 10 10 15 10 10 15 100

(a) Construa o diagrama de dispersão.

(b) Encontre a correlação entre os salários anuais.


40
Estatı́stica Básica

(c) Qual a interpretação do coeficiente calculado? A interpretação concorda com o


que foi observado no gráfico de dispersão?

2. Uma companhia de seguros analisou a frequência com que 150 segurados usaram
(ou não) o hospital. Os resultados foram os seguintes:

Uso do Hospital/Sexo Homem Mulher Total


Usaram o hospital 10 20 30
Não usaram o hospital 110 10 120
Total 120 30 150

Queremos verificar se existe ou não relação entre o sexo e o uso do hospital, isto é,
se as variáveis são dependentes.

41
Capı́tulo 2

Probabilidade

2.1 Conceitos Básicos

Definição 1. Um experimento aleatório () é um experimento cujo resultado não pode ser previsto,
com certeza, antes de sua ocorrência.

Exemplo 23. (i) Lançar um dado equilibrado duas vezes e observar a soma dos pontos obtidos.
(ii) Taxa de desemprego.
(iii) Ocorrência de chuva amanhã;
(iv) As condições climáticas do próximo domingo;
(v) Selecionar um estudante da UFRRJ e medir a sua altura em metros.

2.1.1 Modelo probabilı́stico


O modelo probabilı́stico é especificado no momento em que estabelecemos:
(i) um espaço amostral;
(ii) uma probabilidade para cada ponto amostral.

Definição 2. Espaço amostral (Ω): é o conjunto de todos os possı́veis resultados de um experimento


aleatório.

Exemplo 24. O espaço amostral no lançamento de um dado.


Espaço amostral: Ω = {1, 2, 3, 4, 5, 6}

Exemplo 25. 1 : Lançamento de um dado com 6 faces. Ω = {1, 2, 3, 4, 5, 6}.


2 : Lançamento de dois dados com 6 faces cada. Ω = {1, 2, 3, 4, 5, 6} × {1, 2, 3, 4, 5, 6} = {(1, 1),
(1, 2), (1, 3), (1, 4), (1, 5), (1, 6), (2, 1), (2, 2), (2, 3), (2, 4), (2, 5), (2, 6), (3, 1), (3, 2), (3, 3), (3, 4),
42
Estatı́stica Básica

(3, 5), (3, 6), (4, 1), (4, 2), (4, 3), (4, 4), (4, 5), (4, 6), (5, 1), (5, 2), (5, 3), (5, 4), (5, 5), (5, 6), (6, 1),
(6, 2), (6, 3), (6, 4), (6, 5), (6, 6)}.
3 : medir a vida útil de uma lâmpada. Ω = [0, ∞).

Definição 3. Um evento A é qualquer subconjunto do espaço amostral, isto é, A ⊂ Ω.

Exemplo 26. : Lançamento de um dado com 6 faces.


Exemplos de eventos: A = {2, 4, 6} (face par); B = {5, 6} (face é maior do que 4).

2.1.2 Operações com Eventos Aleatórios

Sejam A e B eventos definidos no espaço amostral Ω.

1. Interseção: Ocorrência simultânea.

A ∩ B = {x ∈ Ω; x ∈ A e x ∈ B}.

2. União: Ocorrência de pelo menos um.

A ∪ B = {x ∈ Ω; x ∈ A ou x ∈ B}.

3. Complementar: Negação do evento.

AC = A = {x ∈ Ω; x ∈
/ A}.

4. Diferença:

A − B = A ∩ B C = {x ∈ Ω; x ∈ A e x ∈
/ B}.

5. A e B são ditos disjuntos ou mutuamente exclusivos, se A ∩ B = .

Exemplo 27. Considere os seguintes eventos no lançamento de um dado com 6 faces:


A= {sair um número par} e B= {sair um número ı́mpar}. Logo: A = {2, 4, 6}; B = {1, 3, 5};
A ∩ B = (disjuntos); A ∪ B = Ω; AC = B; A − B = A.

2.1.3 Propriedades de frequência relativa:


a) 0 ≤ fA ≤ 1;
b) fA = 1 ⇒ nA = n;
c) fA = 0 ⇒ nA = 0;
d) Se A ∩ B = φ, então fA∪B = fA + fB .

43
Estatı́stica Básica

2.1.4 Probabilidade

Definição 4 (Definições Clássicas). Seja o evento A ⊂ Ω, sendo Ω espaço amostral associado a


um experimento aleatório, então:
(i) Resultados Equiprováveis. Se Ω é finito e seus elementos são equiprováveis, então

nA
P (A) = ,
nΩ

em que nA é o número de elementos (cardinalidade) do evento A e nΩ é o número de elementos de


Ω.
(ii) Geométrica. Se a área de A estiver bem definida, então

área A
P (A) = .
área Ω

Exemplo 28. (i) Jogar um dado equilibrado com 6 faces e observar a face superior. Logo, P ({1, 2}) =
2
6
.
(ii) Escolher, ao acaso, um ponto do cı́rculo unitário de raio 1 centrado na origem. Então

Ω = {(x, y) ∈ R2 ; x2 + y 2 ≤ 1}.

E,
π(1/2)2
P ({distância entre o ponto escolhido e a origem é ≤ 1/2}) = .
π
Definição 5 (Definição Frequentista). Seja o evento A ⊂ Ω, sendo Ω espaço amostral associado a
um experimento aleatório, então podemos definir probabilidade como o limite da frequência relativa
da ocorrência de A em n repetições independentes do experimento, quando n tende ao infinito, isto
é,
nA
P (A) = lim ,
n→∞ n

em que nA é o número de ocorrências do evento A em n repetições independentes do experimento.

Observe que não é possı́vel repetir o experimento infinitas vezes, logo não podemos ava-
liar de fato essa probabilidade.

Definição 6 (Definição Subjetiva). Seja o evento A ⊂ Ω, sendo Ω espaço amostral associado a


um experimento aleatório, então a probabilidade de A representa uma medida do grau da crença de
alguém na ocorrência de A.

Exemplo 29. Seja A o evento ´´está chovendo no RJ”. Para alguém que está, por exemplo, em
Portugal e não sabe nada sobre o clima no RJ, provavelmente essa probabilidade seria de 0,5. Por
44
Estatı́stica Básica

outro lado, alguém em Seropédica poderia estabelecer que essa probabilidade é de 0,7, se também
está chovendo em Seropédica. Finalmente, para uma pessoa no RJ, essa probabilidade é 1 se está
chovendo no RJ.

Definição 7 (Definição Axiomática). Seja Ω espaço amostral associado a um experimento aleatório.


Uma função P : Ω → < é chamada de probabilidade se satisfaz os seguintes axiomas:

(1) P (A) ≥ 0, ∀A ⊂ Ω;

(2) P (Ω) = 1;

X
(3) Se A1 , A2 , · · · ⊂ Ω são disjuntos, então P (∪∞
i=1 Ai ) = P (Ai ).
i=1

2.1.5 Propriedades de Probabilidade:

Sejam P uma probabilidade e A um evento em Ω. Então, as propriedades abaixo são


consequências dos axiomas:

(i) P (Ac ) = 1 − P (A) (axiomas 2 e 3), com caso particular P ( ) = 1 − P (Ω) = 0;

(ii) 0 ≤ P (A) ≤ 1 (axioma 1 e (i));

(iii) Se A ⊂ B, então P (B − A) = P (B) − P (A) e P (A) ≤ P (B);

(iv) Se A, B ⊂ Ω, então P (A ∪ B) = P (A) + P (B) − P (A ∩ B).

Exemplo 30. Considere o lançamento de dois dados. Determine as probabilidades:


a) de que a soma dos números mostrados nas faces de cima seja 7;
b) de que o valor máximo entre as duas faces seja maior ou igual a 3.
Exemplo 31. Dois processadores (A e B) são colocados em teste por 50 mil horas. A probabilidade
1 1
de que um erro de cálculo aconteça em um processador do tipo A é de , no tipo B é de e, em
30 80
1
ambos, é de . Qual é a probabilidade de que:
1000
a) pelo menos um dos processadores tenha apresentado erro?
b) nenhum processador tenha apresentado erro?
c) apenas o processador A tenha apresentado erro?

45
Estatı́stica Básica

2.1.6 Probabilidade Condicional

Definição 8. Sejam A e B eventos em Ω. A probabilidade condicional de A dado que ocorreu B é


definida por
P (A ∩ B)
P (A|B) = ,
P (B)
se P (B) > 0. Caso P (B) = 0 então, por convenção, P (A|B) = 0 ou P (A|B) = P (A).

Exemplo 32. Considere o lançamento de um dado equilibrado. Determine:


a) a probabilidade de sair o número 3 na face de cima do dado.
b) Suponha que o dado tenha sido lançado e que saiu um número ı́mpar na face de cima do dado.
Qual é a probabilidade de ter saı́do o número 3 na face de cima do dado?

Exemplo 33. Uma carta de um baralho com 52 cartas é retirada. Considere os eventos, O={carta
é de ouros} e R={carta é um rei}. Encontre P (O), P (O ∩ R), P (R) e P (O|R).

Teorema 1 (Regra do Produto). Sejam os eventos A1 , A2 , ... , An definidos em Ω, com P (∩ni=1 Ai ) >
0, então
n−1
P (∩ni=1 Ai ) = P (A1 )P (A2 |A1 )P (A3 |A1 ∩ A2 ) · · · P (An | ∩i=1 Ai ).

Definição 9 (Independência de Dois Eventos). Sejam A e B eventos em Ω. A e B são ditos ser


eventos independentes se P (A ∩ B) = P (A)P (B).

Uma definição alternativa é que A e B são ditos ser eventos independentes se P (A|B) =
P (A) e P (B|A) = P (B).
1
Exemplo 34. Sejam A e B dois eventos de um espaço amostral, tais que P (A) = p, P (B) = e
5
1
P (A ∪ B) = . Determine o valor de p para que os eventos A e B sejam independentes.
2
Definição 10. A sequência de eventos A1 , A2 , ... , An é dita formar uma partição do espaço
amostral Ω, se
(i) Ai ∩ Aj = , para todo i 6= j;
(ii) ∪ni=1 Ai = Ω.

Teorema 2 (Lei da Probabilidade Total). Suponha que os eventos A1 , A2 , ... , An definidos em


Ω formam uma partição de Ω, então
n
X
P (B) = P (Ai )P (B|Ai ), ∀B ∈ A.
i=1

46
Estatı́stica Básica

Teorema 3 (Teorema de Bayes). Suponha que os eventos A1 , A2 , ... , An definidos em Ω formam


uma partição de Ω , então
P (B|Aj )P (Aj )
P (Aj |B) = Pn .
i=1 P (Ai )P (B|Ai )

Exemplo 35. Uma fábrica produz três tipos de circuitos, sendo: 20% do tipo I, 50% do tipo II e
30% do tipo III. A probabilidade de defeito é, respectivamente, 2%, 8% e 5%.
a) Qual é a probabilidade de um circuito testado não ser defeituoso?
b) Um circuito foi testado aleatoriamente e verificou-se que estava com defeito, qual é a probabilidade
do circuito ser do tipo II?

2.2 Alguns Conceitos/Resultados Importantes

Leis de Morgan Sejam os conjuntos A1 , A2 , ... , An . Vale que:

C
1. ( ni=1 Ai ) = ni=1 AC
S T
i ;

C
2. ( ni=1 Ai ) = ni=1 AC
T S
i .

47
Capı́tulo 3

Variáveis Aleatórias

Uma variável aleatória (v.a.) é uma função real X que associa elementos do espaço amos-
tral a valores reais, i.e., X : Ω → <.

Definição 11 (Variáveis Aleatórias Discretas (v.a.d.) ). Uma variável aleatória X em Ω é dita


ser discreta se assume valores em um conjunto de valores finito ou enumerável infinito.

Exemplo 36. Suponha 2 lançamentos de uma moeda. Represente por c cara e por k coroa, então
Ω = {cc, ck, kc, kk}. O número de caras observadas nesses 2 lançamentos é uma quantidade
numérica e podemos definir X = ´´nº de caras observadas”. Note que X pode assumir valores no
conjunto finito {0, 1, 2}.

Definição 12 (Função de probabilidade (fp)). A função p(·) que atribui a cada valor da variável
aleatória discreta X sua probabilidade é denominada função de probabilidade. Assim, se X assume
valores x1 , x2 , · · · temos

p(xi ) = P (X = xi ) = P ({ω ∈ Ω; X(ω) = xi }),

para i = 1, · · · , n.

Também é usual apresentá-la em forma de tabela:

X x1 x2 ...
pi p1 p2 ...

Propriedades da função de probabilidade: Uma função de probabilidade satisfaz as se-


guintes condições:
(i) 0 ≤ p(xi ) ≤ 1, ∀i;
P
(ii) i p(xi ) = 1.
48
Estatı́stica Básica

Exemplo 37. Descreva o comportamento da variável aleatória X que conta o número de caras em
dois lançamentos independentes de uma moeda.
Espaço amostral: Ω = {cc, ck, kc, kk}
Variável aleatória discreta X:
X = xi 0 1 2
1 1 1
p(xi ) 4 2 4

Definição 13 (Função de Distribuição (acumulada) (fda)). Seja X uma v.a.d. em Ω, então sua
função de distribuição acumulada é definida por

FX (x) = P (X ≤ x), para todo x ∈ <.

Exemplo 38. Considere o lançamento de uma moeda. Então Ω = {c, k} e a função probabilidade
é dada por P (c) = P (k) = 1/2. Defina X : Ω → < como:

 1, se ω = c
X= (3.1)
 0, se ω = k

Vamos obter sua função de distribuição acumulada:


x < 0 ⇒ F (x) = P (X ≤ x) = 0;
0 ≤ x < 1 ⇒ F (x) = P (X ≤ x) = P (X = 0) = 1/2;
x ≥ 1 ⇒ F (x) = P (X ≤ x) = P (X = 0) + P (X = 1) = 1/2 + 1/2 = 1.

Portanto,



 0, se x < 0

F (x) = 1/2, se 0 ≤ x < 1 (3.2)


se x ≥ 1

 1,

Propriedades da função de distribuição acumulada: Uma função de distribuição acumu-


lada F de uma v.a.d. X em Ω goza das seguintes propriedades:
(i) limx→−∞ F (x) = 0 e limx→∞ F (x) = 1;
(ii) F (x) é contı́nua a direita, isto é, limh→0 F (x + h) = F (x) ;
(iii) F (x) é não decrescente, isto é, ∀x, y ∈ <, se x < y, então F (x) ≤ F (y).

Note que no exemplo acima, as propriedades são satisfeitas pela F encontrada.

49
Estatı́stica Básica

O comportamento de uma variável aleatória e toda informação sobre ela podem ser obti-
dos através de sua função de distribuição acumulada. Além disso, toda função real que
satisfaça as propriedades acima é a função de distribuição acumulada de uma variável
aleatória.
Funções de Variáveis Aleatórias Seja X uma v.a.d. definida em Ω, então a função ou
transformação g : X → < também é uma v.a.d.. Assim, dada a distribuição de X, o
interesse consiste em conhecer o comportamento probabilı́stico de sua transformação.

Exemplo 39. Seja X uma v.a.d. com função de probabilidade dada abaixo:

X = xi -1 0 1
1 1 1
p(xi ) 3 2 6

Seja Y = 2X + 1. Logo, a função de probabilidade de Y é dada por:

X = xi -1 0 1
Y = yi = 2xi + 1 -1 1 3
1 1 1
p(yi ) 3 2 6

Exemplo 40. Considerando X como no exemplo anterior, definamos Z = X 2 . Logo, temos que
considerar que tanto X = −1 quanto X = 1 levam a Z = 1, portanto temos que a função de
probabilidade de Z é dada por:

Z = zi = x2i 1 0
1 1 1 1
p(zi ) 3
+ 6
= 2 2

Definição 14 (Esperança ou Valor Esperado). Seja X uma v.a.d. com função de probabilidade
p, então a esperança (matemática) de X é dada por
X
E[X] = xp(x),
x

desde que exista.

Exemplo 41. Como no exemplo anterior, seja X uma v.a.d. com função de probabilidade dada
abaixo:
Determine a esperança de X:

E[X] = −1 × 1/3 + 0 × 1/2 + 1 × 1/6 ≈ −0, 17.


50
Estatı́stica Básica

X = xi -1 0 1
1 1 1
p(xi ) 3 2 6

Vale que:

1. Se c é uma constante tal que P (X = c) = 1 então E[X] = c;

2. E[aX + b] = aE[X] + b, para a e b constantes reais.

3.1 Momentos

A fim de conhecer melhor o comportamento probabilı́stico de uma variável aleatória, de


forma segura e universalmente interpretável, podemos obter seus momentos. Os momen-
tos podem ser: momentos em relação a uma certa constante c ∈ < , e momentos absolutos
em relação a essa mesma constante. Note que existem distribuições que não possuem
momentos.

Definição 15 (Momentos). Seja X uma variável aleatória discreta. Para k = 1, 2, · · · e c ∈ <, o


momento de ordem k em relação a c é dado por:

E[(X − c)k ],

desde que exista. Podemos ter:

1. Momento absoluto de ordem k em relação a c: E[|X − c|k ]. Em todas as próximas definições,


podemos ter a versão usando o valor absoluto.

2. Se c = 0, então o momento é dito ser ordinário: E[X k ].

3. Se c = E[X] < ∞, então temos o momento central de ordem k: E[(X − E[X])k ].

Os momentos de ordem par fornecem uma indicação da concentração da distribuição


probabilı́stica: se forem muito pequenos, essa concentração será grande, porque os valores
da variável aleatória serão próximos; se forem grandes, será inversa a situação.

Exemplo 42. O primeiro momento ordinário (de ordem k = 1) de uma v.a. X é o seu valor
esperado.

51
Estatı́stica Básica

Definição 16 (Variância). Seja X uma variável aleatória discreta, então a variância de X é defi-
nida por
V ar(X) = E[(X − E[X])2 ] = E[X 2 ] − (E[X])2 ,

que é segundo momento central de X. Sua raiz quadrada é o desvio padrão de X, que possui a
mesma unidade dos dados.

Exemplo 43. Considerando o mesmo exemplo anterior, determine a variância de X:

V ar(X) = E[X 2 ] − (E[X])2 = 0, 5 − (−0, 17)2 = 0, 4711,

pois E[x2 ] = −12 × 1/3 + 02 × 1/2 + 12 × 1/6 = 0, 5 e E[X] = −0, 17.

Enquanto que a esperança de uma v.a. é uma medida de locação/localização, a variância


é uma medida de escala (como referência a média).

Exemplo 44. O número X de mensagens enviadas por hora, através de uma rede de compu-
tadores, tem a seguinte distribuição: X assume os valores {10, 12, 15, 20} com probabilidades
{0, 1; 0, 3; 0, 5; 0, 1}, respectivamente. Determine o desvio-padrão de X.

E[X] = 10(0, 1) + 12(0, 3) + 15(0, 5) + 20(0, 1) = 14, 1;

E[X 2 ] = 102 (0, 1) + 122 (0, 3) + 152 (0, 5) + 202 (0, 1) = 205, 7;
p
V ar(X) = 205, 7 − 14, 12 = 6, 89 ⇒ DP (X) = 6, 89 = 2, 624881.

Seja X uma v.a.d., vale que:

1. Se c é uma constante tal que P (X = c) = 1 então V ar[X] = 0;

2. V ar[aX + b] = a2 V ar[X], para a e b constantes reais.

Definição 17 (Coeficiente de Variação). Seja X uma v.a.d. com esperança µ e desvio padrão σ,
o coeficiente de variação de X é dado por

σ
CV (X) = .
µ

O coeficiente de variação mede a dispersão relativa da distribuição de X, ao contrário


do desvio padrão, de X, que mede a dispersão absoluta. Note que ele é um coeficiente
adimensional.

52
Estatı́stica Básica

3.2 Alguns Modelos Discretos


Uma v.a. fica completamente especificada pela sua função de distribuição. No caso dis-
creto, podemos também utilizar a função de probabilidade para fazer essa caracterização.
Apresentaremos a seguir alguns modelos discretos, representados por suas funções de
probabilidade, que são aplicáveis em diversas situações práticas.

3.2.1 Modelo Uniforme Discreto


Seja X uma v.a. com n possı́veis valores reais {x1 , x2 , ..., xn } equiprováveis. Então, X
segue o modelo uniforme discreto e tem função de probabilidade dada por

 1 , se i = 1, 2, ..., n,
n
p(xi ) = P (X = xi ) =
 0, c.c.

Notação: X ∼ U nif orme{x1 , x2 , · · · , xn }.

Exemplo 45. Uma rifa tem 100 bilhetes numeradas de 1 a 100. Tenho 5 bilhetes consecutivos e
meu amigo tem outros 5 bilhetes quaisquer. Quem tem maior possibilidade de ser sorteado?

Note que sua função de distribuição acumulada é do tipo escada com saltos nos pontos
{x1 , x2 , · · · , xn }.
Exercı́cio: Determine sua fda, sua esperança e sua variância.

3.2.2 Modelo Bernoulli


Experimento de Bernoulli: é um experimento aleatório com apenas dois resultados possı́veis:
por convenção, um deles é chamado “sucesso”e o outro “fracasso”.

Exemplo 46. a) Lançar uma moeda e observar o resultado;


b) Pergunta-se a um eleitor se ele vai votar no candidato A ou B.

A distribuição de Bernoulli está associada a um experimento de Bernoulli, onde se define:


X({sucesso}) = 1 e X({fracasso}) = 0, chamando de p a probabilidade de sucesso, com
0 ≤ p ≤ 1.
Assim, uma v.a.d. X segue o modelo de Bernoulli, se assume apenas os valores 0 e 1, e
tem função de probabilidade dada por



 p, se x = 1,

p(x) = (1 − p), se x = 0,



 0, c.c.
53
Estatı́stica Básica

onde p é a probabilidade de sucesso (X = 1), com 0 ≤ p ≤ 1.

Exemplo 47. Um exemplo clássico do modelo de Bernoulli é o lançamento de uma moeda.



 1, se cara;
X=
 0, se coroa.

p(1) = p(0) = 1/2 (moeda equilibrada).

Notação: X ∼ Bernoulli(p).
A função de distribuição de X é dada por



 0, se x < 0,

FX (x) = (1 − p), se 0 ≤ x < 1,


se x ≥ 1.

 1,

Exercı́cio: Faça o gráfico desta função e determine sua esperança e sua variância.

3.2.3 Modelo Binomial


Seja X o número de sucessos em n realizações independentes de um experimento de Ber-
noulli com probabilidade p de sucesso. Então, X tem distribuição binomial com parâmetros
n e p, e sua função de probabilidade é dada por
  

 n
   px (1 − p)n−x ,

para x = 0, 1, · · · , n
p(x) = x



 0, c.c.,
 
n n!
em que  = .
x x! (n − x)!
Notação: X ∼ Binomial(n, p).

Exemplo 48. A taxa de imunização de uma vacina é de 80%. Um grupo com 10 pessoas foi
selecionado, desejamos saber o comportamento probabilı́stico do número de pessoas imunizadas
deste grupo. Determine a probabilidade:
a) de 8 pessoas estarem imunizadas;
b) de pelo menos 8 estarem imunizadas;
c) de no máximo 7 estarem imunizadas;
c) de todas estarem imunizadas.
54
Estatı́stica Básica

3.2.4 Modelo Geométrico


Seja X o número de realizações necessárias para a obtenção do primeiro sucesso de um
experimento de Bernoulli com probabilidade p de sucesso. Então, dizemos que X segue o
modelo geométrico com parâmetro p, 0 < p < 1, e tem função de probabilidade dada por

 p(1 − p)x−1 , se x = 1, 2, · · · ,
p(x) = P (X = x) =
 0, c.c..

Notação: X ∼ Geo(p).

Exemplo 49. Uma linha de fabricação de um equipamento de precisão é interrompida na primeira


ocorrência de um defeito. Seja 0, 02 é a probabilidade do equipamento ter defeito, qual é o modelo
probabilı́stico que descreve o número de dias até o equipamento parar?

Exercı́cio: Determine sua esperança.

3.2.5 Modelo Binomial Negativo (Pascal)


Seja X o número de realizações necessárias para a obtenção de r sucessos de um experi-
mento de Bernoulli com probabilidade p de sucesso. Então, dizemos que X segue o mo-
delo Binomial Negativo com parâmetros r e p, 0 < p < 1, e tem função de probabilidade
dada por
  

 x − 1

   pr (1 − p)x−r , se x = r, r + 1, · · · ,
p(x) = P (X = x) = r−1



 0, c.c..

Notação: X ∼ BinNeg(r, p).


Note que o modelo Geométrico é um caso particular do modelo Binomial Negativo, quando
r = 1.

Exemplo 50. Um atirador acerto o alvo na mosca em 30% dos tiros. Qual é a probabilidade de que
somente no vigésimo tiro o atirador acerte na mosca 2 vezes?

3.2.6 Modelo Hipergeométrico


Seja uma população de tamanho N dividida em 2 classes, uma composta de r “sucessos”e
a outra composta de N − r “fracassos”. Desta população, vamos extrair uma amostra de

55
Estatı́stica Básica

tamanho n, sem reposição. Seja X o número de sucessos obtidos, então X segue o modelo
Hipergeométrico com parâmetros N, n, e r, e tem função de probabilidade dada por
   

 r N − r
 x  n −x


, se max{0, n − (N − r)} ≤ x ≤ min{n, r}

p(x) = P (X = x) = N


 n


 0, c.c.,

em que N é o total de elementos do conjunto, n é o tamanho da amostra (n < N ) e r é o


número de “sucessos”.
Notação: X ∼ Hiper(N, n, r).

Exemplo 51. Considere um conjunto com 20 pessoas, das quais 7 são mulheres. Selecionando-se
5 pessoas deste conjunto, sem reposição, qual seria a probabilidade de:
a) 2 mulheres serem escolhidas?
b) 1 homem ser escolhido?
c) apenas mulheres serem escolhidas?
d) pelo menos 5 mulheres serem escolhidas?
e) no máximo 2 homens serem escolhidos?
f) Fernando e Paula serem escolhidos?
g) Paula e Maria serem escolhidas, dado que as pessoas selecionadas foram mulheres?
h) Paula e Maria serem escolhidas, dado que as pessoas selecionadas foram homens?

3.2.7 Modelo de Poisson


Uma v.a.d. X segue o modelo de Poisson de parâmetro λ, λ > 0, se sua função de proba-
bilidade é dada por

−λ x
 e λ ,

se x = 0, 1, 2, · · ·
p(x) = P (X = x) = x!
 0, c.c..

Notação: X ∼ P oisson(λ), onde λ indica a taxa de ocorrência por unidade de medida.


Aqui, X representa contagens, como contar o número de eventos de um certo tipo que
ocorrem em um instante de tempo fixo (ou superfı́cie ou volume), se estes eventos ocorrem
com uma razão média conhecida e independentemente do tempo desde o último evento.

Exemplo 52. (1) número de chamadas recebidas por uma central telefônica durante um perı́odo de
40 minutos; (2) número de bactérias em um litro de água.
56
Estatı́stica Básica

Exemplo 53 (Bombas em Londres). Durante a Segunda Guerra Mundial a cidade de londres foi
bombardeada por aviões alemães. Um interesse é sobre a aleatoriedade dos alvos, se houve tendência
em lançar em alguns pontos especı́ficos ou não. Subdivindindo-se a parte do sul da cidade em 576
partes, é contado o número de regiões que receberam x bombas, denotado por nx . O total de bombas
nas parte sul foi de 537, levando a uma taxa de 537/576 ≈ 0, 93 bombas por região. Uma maneira
de verificarmos se o modelo Poisson seria aplicável para modelar o número de bombas lançadas
por região, é calcular as frequências de bombas que ocorreram (observadas) fo e comparar com as
frequências esperadas de bombas que seriam lançadas supondo o modelo Poisson válido fe .
Assim, se X representa o nº de bombas em uma região da parte sul, então suponha que X ∼
P oisson(0, 93).

X=x 0 1 2 3 4 5 ou mais
fo 229 211 93 35 7 1
p(x) 0,395 0,367 0,171 0,053 0,012 0,003
fe 227,520 211,392 98,496 30,528 6,912 1,728

Exercı́cio: Determine sua esperança.

57
Estatı́stica Básica

3.3 Variáveis Aleatórias Contı́nuas

Definição 18 (Variáveis Aleatórias Contı́nuas (v.a.c.) ). Uma variável aleatória X é contı́nua


se sua imagem é um conjunto infinito não enumerável (formada por intervalos).

Uma v.a.c. possui uma função de densidade de probabilidade f com a qual podemos cal-
cular probabilidades associadas a variável aleatória.

Uma função de densidade de probabilidade satisfaz as seguintes condições:

(i) f (x) ≥ 0, para todo x ∈ <;


Z ∞
(ii) a área abaixo do gráfico da função f é igual a 1, ou seja, f (x)dx = 1.
−∞

Para obtermos a probabilidade de uma v.a.c. assumir valores em um intervalo (a, b], para
a < b, basta calcular Z b
P (a < X ≤ b) = f (x)dx.
a

Note que P (a < X ≤ b) = P (a ≤ X < b) = P (a < X < b) = P (a ≤ X ≤ b).


Portanto, a probabilidade de uma v.a.c. assumir um valor especı́fico é igual a zero, isto é,

P (X = c) = 0, c ∈ <.

Exemplo 54. Considere a função



 1/4 se 0 ≤ x ≤ 4
fX (x) =
 0 c.c.

1. Esboce o gráfico da fX .

2. fX é uma função de densidade de probabilidade de alguma v.a.c. X?

3. Se é uma fdp, então calcule P (2 ≤ X ≤ 3).

Seja X uma v.a.c. com função densidade de probabilidade f (x), podemos definir:
Z x
• Função de distribuição acumulada: F (x) = P (X ≤ x) = f (x)dx, para todo
−∞
x ∈ <.
Z
• Esperança: E[X] = xf (x)dx.
x

• Variância: V ar(X) = E[X 2 ] − E[X]2 .


58
Estatı́stica Básica

3.3.1 Modelo Uniforme Contı́nuo


Seja X uma v.a.c. com possı́veis valores no intervalo real [a, b], em que a chance de
ocorrência de intervalos de mesmo tamanho é a mesma. Então, X segue o modelo uni-
forme contı́nuo e tem função densidade de probabilidade dada por

 1 , se a ≤ x ≤ b,
b−a
f (x) =
 0, c.c.

Notação: X ∼ U nif orme[a, b].


É fácil ver que a função acima satisfaz as propriedades de função densidade de probabili-
R∞
dade f (x) ≥ 0, para todo x ∈ < e que −∞ f (x)dx = 1.

Exemplo 55. O rótulo de refrigerante indica que o conteúdo é de 350 ml. Suponha que a linha
de produção encha as latas de forma que o conteúdo seja uniformemente distribuı́do no intervalo
[345,355].

1. Qual é a probabilidade de que uma lata tenha conteúdo superior a 353 ml?

2. Qual é a probabilidade de que uma lata tenha conteúdo inferior a 346 ml?

3. O controle de qualidade aceita uma lata com conteúdo dentro de 4 ml do conteúdo exibido na
lata. Qual é a proporção de latas rejeitadas nessa linha de produção?

3.3.2 Modelo Normal

Uma v.a.c. X tem distribuição Normal com parâmetros µ e σ 2 , se sua f.d.p. é dada por
 2
1 x−µ
1 −
fX (x; µ, σ 2 ) = √ e 2 σ , −∞ < x < +∞.
2πσ 2

• Notação: X ∼ N (µ; σ 2 ), onde µ é a média e σ 2 é a variância.

• Propriedades:

– A f.d.p. fX (x) é simétrica em torno de µ;

– A f.d.p. fX (x) → 0 quando x → ±∞;

– O máximo da f.d.p. fX (x) ocorre quando x = µ.

59
Estatı́stica Básica

Para calcular probabilidades associadas a uma v.a.c. normal, terı́amos que resolver inte-
grais que envolvem a f descrita acima. Porém, isto não é possı́vel analiticamente, mas
somente de forma numérica. Sem o auxı́lio de um programa computacional que rea-
lize tal tarefa, não seria possı́vel tabular todas as probabilidades associadas a qualquer
distribuição normal, isto é, para quaisquer valores de µ e σ 2 possı́veis. Entretanto, é
possı́vel mostrar que a partir de qualquer normal chegamos em uma normal, chamada
padrão, com parâmetros µ = 0 e σ 2 = 1.

Normal(0,1) Função de distribuição acumulada (FDA)


0.4

1.0
0.8
0.3

0.6
Densidade

FDA
0.2

0.4
0.1

0.2
0.0
0.0

−4 −2 0 2 4 −4 −2 0 2 4
x x

Figura 3.1: Gráficos da função de densidade de probabilidade e da função de distribuição


acumulada da Normal Padrão.

Utilização da tabela Normal padrão

Uma v.a. X tem distribuição Normal padrão ou Normal reduzida, se X ∼ N (0, 1).
Importante:

• Se X ∼ N (0, 1), então podemos usar a tabela Normal padrão.

• Se X ∼ N (µ; σ 2 ) com µ 6= 0 e/ou σ 2 6= 1, então temos que padronizar a v.a. X por

X −µ
Z= ∼ N (0, 1).
σ

Exemplo 56.

Suponha que Z tenha distribuição N(0; 1). Usando a tabela da distribuição normal padrão, deter-
mine o valor de probabilidade de:
a)P (0 ≤ Z ≤ 1, 65) b)P (Z ≤ 1, 29) c)P (0 ≤ Z ≤ 1, 34) d)P (−1 ≤ Z ≤ 1)
e)P (Z ≤ 2, 45) f)P (Z ≥ −2, 01) g)P (Z ≥ 1, 65) h)P (Z > 2, 13) i)P (|Z| > 1, 61)
60
Estatı́stica Básica

Exemplo 57.

Suponha que Z tenha distribuição N(0; 1). Empregando a tábua da distribuição normal, determine
o valor de z:
a)P (Z ≥ z) = 0, 5 b)P (0 ≤ Z ≤ z) = 0, 3264 c)P (0 ≤ Z ≤ z) = 0, 3461
d)P (z ≤ Z ≤ 1) = 0, 6826 e)P (−1, 05 ≤ Z ≤ z) = 0, 7280 f)P (Z ≥ z) = 0, 0640

Exemplo 58.

Em determinado laboratório de pesquisa de células tronco para problemas motores nos membros
inferiores estuda a recuperação total dos movimentos. O responsável pelo procedimento afirma
que o tempo que o paciente leva para obter melhoras significativas nos movimento, após cirurgia,
segue uma distribuição Normal com média de 10 meses e desvio padrão de 4 meses. Segundo estas
informações, qual é a probabilidade de um paciente obter melhoras significativas nos movimentos
de 9 a 12 meses após a cirurgia? Até 6 meses? E após 10 meses?

61
Estatı́stica Básica

Tabela 3.1: Probabilidades p = P [0 ≤ Z ≤ z] da Distribuição Normal padrão com valores


de z dados nas margens da tabela
z 0 1 2 3 4 5 6 7 8 9
0.0 0.0000 0.0040 0.0080 0.0120 0.0160 0.0199 0.0239 0.0279 0.0319 0.0359
0.1 0.0398 0.0438 0.0478 0.0517 0.0557 0.0596 0.0636 0.0675 0.0714 0.0753
0.2 0.0793 0.0832 0.0871 0.0910 0.0948 0.0987 0.1026 0.1064 0.1103 0.1141
0.3 0.1179 0.1217 0.1255 0.1293 0.1331 0.1368 0.1406 0.1443 0.1480 0.1517
0.4 0.1554 0.1591 0.1628 0.1664 0.1700 0.1736 0.1772 0.1808 0.1844 0.1879
0.5 0.1915 0.1950 0.1985 0.2019 0.2054 0.2088 0.2123 0.2157 0.2190 0.2224
0.6 0.2257 0.2291 0.2324 0.2357 0.2389 0.2422 0.2454 0.2486 0.2517 0.2549
0.7 0.2580 0.2611 0.2642 0.2673 0.2704 0.2734 0.2764 0.2794 0.2823 0.2852
0.8 0.2881 0.2910 0.2939 0.2967 0.2995 0.3023 0.3051 0.3078 0.3106 0.3133
0.9 0.3159 0.3186 0.3212 0.3238 0.3264 0.3289 0.3315 0.3340 0.3365 0.3389
1.0 0.3413 0.3438 0.3461 0.3485 0.3508 0.3531 0.3554 0.3577 0.3599 0.3621
1.1 0.3643 0.3665 0.3686 0.3708 0.3729 0.3749 0.3770 0.3790 0.3810 0.3830
1.2 0.3849 0.3869 0.3888 0.3907 0.3925 0.3944 0.3962 0.3980 0.3997 0.4015
1.3 0.4032 0.4049 0.4066 0.4082 0.4099 0.4115 0.4131 0.4147 0.4162 0.4177
1.4 0.4192 0.4207 0.4222 0.4236 0.4251 0.4265 0.4279 0.4292 0.4306 0.4319
1.5 0.4332 0.4345 0.4357 0.4370 0.4382 0.4394 0.4406 0.4418 0.4429 0.4441
1.6 0.4452 0.4463 0.4474 0.4484 0.4495 0.4505 0.4515 0.4525 0.4535 0.4545
1.7 0.4554 0.4564 0.4573 0.4582 0.4591 0.4599 0.4608 0.4616 0.4625 0.4633
1.8 0.4641 0.4649 0.4656 0.4664 0.4671 0.4678 0.4686 0.4693 0.4699 0.4706
1.9 0.4713 0.4719 0.4726 0.4732 0.4738 0.4744 0.4750 0.4756 0.4761 0.4767
2.0 0.4772 0.4778 0.4783 0.4788 0.4793 0.4798 0.4803 0.4808 0.4812 0.4817
2.1 0.4821 0.4826 0.4830 0.4834 0.4838 0.4842 0.4846 0.4850 0.4854 0.4857
2.2 0.4861 0.4864 0.4868 0.4871 0.4875 0.4878 0.4881 0.4884 0.4887 0.4890
2.3 0.4893 0.4896 0.4898 0.4901 0.4904 0.4906 0.4909 0.4911 0.4913 0.4916
2.4 0.4918 0.4920 0.4922 0.4925 0.4927 0.4929 0.4931 0.4932 0.4934 0.4936
2.5 0.4938 0.4940 0.4941 0.4943 0.4945 0.4946 0.4948 0.4949 0.4951 0.4952
2.6 0.4953 0.4955 0.4956 0.4957 0.4959 0.4960 0.4961 0.4962 0.4963 0.4964
2.7 0.4965 0.4966 0.4967 0.4968 0.4969 0.4970 0.4971 0.4972 0.4973 0.4974
2.8 0.4974 0.4975 0.4976 0.4977 0.4977 0.4978 0.4979 0.4979 0.4980 0.4981
2.9 0.4981 0.4982 0.4982 0.4983 0.4984 0.4984 0.4985 0.4985 0.4986 0.4986
3.0 0.4987 0.4987 0.4987 0.4988 0.4988 0.4989 0.4989 0.4989 0.4990 0.4990
3.1 0.4990 0.4991 0.4991 0.4991 0.4992 0.4992 0.4992 0.4992 0.4993 0.4993
3.2 0.4993 0.4993 0.4994 0.4994 0.4994 0.4994 0.4994 0.4995 0.4995 0.4995
3.3 0.4995 0.4995 0.4995 0.4996 0.4996 0.4996 0.4996 0.4996 0.4996 0.4997
3.4 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4997 0.4998
3.5 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998 0.4998
3.6 0.4998 0.4998 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.7 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.8 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999 0.4999
3.9 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000 0.5000

62
Capı́tulo 4

Inferência

4.0.1 Conceitos Básicos

Definição 19. População: conjunto de indivı́duos (ou objetos, elementos) que tem em comum
pelo menos uma variável observável que pode ser representada por uma v.a. X.

Definição 20. Amostra: é qualquer subconjunto da população.

Definição 21. Parâmetro: é uma medida usada para descrever uma caracterı́stica da população.

Definição 22 (Inferência Estatı́stica). É o uso de técnicas estatı́sticas para gerar afirmações sobre
uma dada caracterı́stica da população a partir de uma amostra.
Por exemplo, a média, a variância, o desvio padrão, a moda, etc.

Em geral, nosso interesse é estimar o valor de um parâmetro ou estimar o valor de uma função de
um parâmetro.

Definição 23. Amostra Aleatória Simples (aas): Uma aas de tamanho n de uma v.a. X (po-
pulação) é um conjunto de n v.a.’s X1 , X2 , · · · , Xn independentes e identicamente distribuı́das
(iid). Isto é, quando escolhemos ao acaso um subconjunto de tamanho n da população de forma que
cada elemento da amostra seja v.a. com a mesma distribuição da população.

Quando a população tem tamanho finito, então o sorteio é feito com reposição mantendo chance
igual de qualquer elemento ser sorteado.

Definição 24. Estatı́stica: qualquer função da amostra X1 , X2 , · · · , Xn é dita ser uma estatı́stica,
isto é, T é estatı́stica se T = g(X1 , X2 , · · · , Xn ), para g sendo uma função qualquer.

63
Estatı́stica Básica

Assim, T também é uma variável aleatória. As inferências estatı́sticas são baseadas em


estatı́sticas.

Exemplo 59. Exemplos de estatı́sticas: Seja X1 , · · · , Xn uma aas de uma população X, podemos
considerar as estatı́sticas
n
X Xi
X̄ = Média amostral
i=1
n
n 2
2
X Xi − X̄
σ̂ =
i=1
n
n 2
2
X Xi − X̄
S = Variância amostral
i=1
n−1
X(1) = min{X1 , · · · , Xn } Mı́nimo

X(n) = max{X1 , · · · , Xn } Máximo

Assim, T também é uma variável aleatória. As inferências estatı́sticas são baseadas em


estatı́sticas.

Definição 25. Estimador: uma estatı́stica T é dita ser estimador de um parâmetro θ se utilizamos
T para estimar θ.

Notação: T = θ̂

Exemplo 60. X̄ é estimador para média populacional µ;

Exemplo 61. σ̂ 2 e S 2 são estimadores para variância populacional σ 2 .

Definição 26. Estimativa: valor observado de um estimador na amostra.

Propriedades dos estimadores

Algumas propriedades dos estimadores nos ajudam a escolher qual estimador utilizar
para fazer a inferência.

• Estimador não viciado: Um estimador T de θ é dito ser não viciado se E[T ] = θ.

1
Pn
Exemplo 62. E[X̄] = µ e E(S 2 ) = σ 2 , com S 2 = n−1 i=1 (Xi − X̄)2 .

• Se T1 e T2 são dois estimadores não viciados de θ, diz-se que T1 é mais eficiente do


que T2 se V ar(T1 ) < V ar(T2 ).
64
Estatı́stica Básica

• Estimador consistente: Tn é um estimador consistente para θ se

limn→∞ E[Tn ] = θ e limn→∞ V ar(Tn ) = 0,

com Tn sendo uma estatı́stica baseada na amostra de tamanho n.

4.0.2 Distribuição Amostral

A distribuição amostral de uma estatı́stica T é a distribuição de todos os possı́veis valo-


res que ela pode assumir, calculados a partir de todas as possı́veis amostras de mesmo
tamanho.

Distribuição Amostral da Média

Teorema 4. Seja X1 , X2 , · · · , Xn uma aas de tamanho n de uma população representada pela v.a.
σ2
X com média µ e variância σ 2 . Então, E(X̄) = µ e V ar(X̄) = .
n
σ2
Importante: Se X ∼ N (µ, σ 2 ), então X̄ ∼ N (µ, ).
n
Teorema 5. Teorema Central do Limite
Seja X1 , X2 , · · · , Xn uma aas de tamanho n de uma população X com média µ e variância σ 2 .
σ2
Então, a distribuição de X̄ aproxima-se de uma distribuição Normal com média µ e variância
n
X̄ − µ
quando n tende ao infinito (n → ∞). Assim, √ ≈ N (0, 1).
σ/ n
Observação: Geralmente amostras de tamanho n > 30 fornecem uma aproximação razoável.

Exemplo 63. A capacidade máxima de um elevador é de 600Kg. Se a distribuição dos pesos dos
usuários é N (70, 100), qual é a probabilidade de que 8 pessoas ultrapassem esse limite?

4.1 Intervalos de Confiança

Motivação Uma empresa deseja estimar a média de vendas, por estabelecimento, du-
rante o último ano de um determinado produto. Sabemos que o desvio padrão populaci-
onal é de 200 reais. Suponha que temos disponı́vel uma amostra de 25 estabelecimentos,
com média de vendas de 5000 reais.

• Podemos usar X̄ para estimar a verdadeira média desconhecida.

• Podemos obter alguma informação sobre a variabilidade desta estimativa (erro de


amostragem)?
65
Estatı́stica Básica

Queremos obter uma estimação intervalar fornecendo uma margem de erro, além da esti-
mativa pontual que obtemos através dos estimadores dos parâmetros.

4.1.1 Intervalo de confiança para a média de uma população normal com


variância conhecida

Seja X ∼ N (µ, σ 2 ) com variância σ 2 conhecida. Se X1 , · · · , Xn é uma aas dessa população,


então o intervalo de confiança de nı́vel de confiança (1 − α)% para a média populacional
µ é dado por  
σ σ
X̄ − zα/2 √ ; X̄ + zα/2 √ .
n n
Importante:

• A margem de erro é dada por:  = zα/2 √σn ;

• α é o nı́vel de significância, que é um valor no intervalo (0, 1);

• 1 − α é o nı́vel de confiança, que em geral é um valor alto (por exemplo, 0,90; 0,95;
0,99);

• Mesmo quando a população não é Normal, podemos utilizar este intervalo para a
média se n > 30.

A ideia é que o intervalo contenha o verdadeiro valor do parâmetro na maioria das vezes
(ou na maioria das amostras possı́veis), isto é, com probabilidade (1 − α). Após a amostra
ser observada, ou o intervalo inclui o verdadeiro valor do parâmetro ou não inclui.

Para entendermos a notação zα/2 , considere o nı́vel de confiança do intervalo 1 − α = 0, 95,


portanto α = 0, 05 e α/2 = 0, 025. Então, zα/2 = z0,025 é tal que P (Z ≥ z0,025 ) = 0, 025. A
figura 1 apresenta esse exemplo.

66
Estatı́stica Básica

Normal Padrão

0.4
0.3
95%

0.2
0.1
2,5% 2,5%

0.0
−4 −1.96 0 1.96 4

Figura 4.1: Suponha α = 0, 05, portanto 1 − α = 0, 95 e zα/2 = 1, 96.

Exemplo 64. Uma empresa deseja estimar a média de vendas, por estabelecimento, durante o
último ano de um determinado produto. Sabemos que o desvio padrão populacional é de 200 reais.
Suponha que temos disponı́vel uma amostra de 25 estabelecimentos, com média de vendas de 5000
reais.
Solução:

• Estimativa pontual para média de vendas: X̄ = 5000;


2002
• Variância da média das vendas: = 1600reais2 ;
25
• Supondo normalidade, para um nı́vel de confiança de 95%, temos que

σ 200
 = zα/2 √ = 1, 96 √ = 78, 4;
n 25

• Logo, o ic de 95% para a média de vendas é dado por:

[5000 − 78, 4; 5000 + 78, 4] = [4921, 6; 5078, 4] .

Ideia básica da construção:

Seja X1 , · · · , Xn uma aas da distribuição Normal(µ, σ 2 ), com σ 2 conhecido.

Podemos definir α tal que P (−zα/2 < Z < zα/2 ) = 1 − α (intervalo simétrico é o de menor
comprimento).

67
Estatı́stica Básica


n(X̄ − µ)
Sabemos que Z = ∼ Normal(0, 1), logo podemos escrever
σ
 √ 
(X̄ − µ) n
P −zα/2 < < zα/2 = 1−α⇔
σ
 
σ σ
P −zα/2 √ < (X̄ − µ) < zα/2 √ = 1−α⇔
n n
 
σ σ
P −zα/2 √ − X̄ < −µ < zα/2 √ − X̄ = 1−α⇔
n n
 
σ σ
P X̄ − zα/2 √ < µ < X̄ + zα/2 √ = 1 − α.
n n
Portanto, supondo σ 2 conhecido, o intervalo para µ com coeficiente de confiança 1 − α é
dado por
σ
[X̄ − ; X̄ + ], em que a margem de erro  = zα/2 √ .
n

Intervalo de confiança para a proporção populacional

Considere uma população em que a proporção de elementos com certa caracterı́stica é p.


Podemos definir uma v.a.:

 1, se o elemento possui a caracterı́stica;
X=
 0, se o elemento não possui a caracterı́stica.

Logo, X ∼ Bernoulli(p), com média E[X] = p e variância V ar(X) = p(1 − p).


Suponha X1 , · · · , Xn uma aas de X, logo
n
X
Y = Xi ∼ Bin(n, p).
i=1

Podemos estimar a proporção populacional de portadores da caraterı́stica, utilizando a


estatı́stica
n
X Xi
p̂ = X̄ = ,
i=1
n
que é um estimador não viciado para p. Pelo TCL, temos que
 
p(1 − p)
p̂ = X̄ ∼N
˙ ormal p, ,
n
em que a aproximação é boa se np ≥ 5 e n(1 − p) ≥ 5. Daı́, podemos proceder usando a
mesma ideia do i.c. para média e obter o i.c. para proporção.
O intervalo de confiança para proporção populacional p com (1 − α)% de confiança é dado
por " #
p p
p̂(1 − p̂) p̂(1 − p̂)
IC (p; (1 − α)) = p̂ − zα/2 √ ; p̂ + zα/2 √ .
n n
68
Estatı́stica Básica

Exemplo 65. Um levantamento com 1018 adultos, concluiu que 255 deles planejaram gastar me-
nos dinheiro em presentes durante a época de férias de 2018 em comparação ao ano anterior.
a) Qual é a estimativa da proporção de todos os adultos que planejaram gastar menos dinheiro em
presentes durante a época de férias de 2018?
b) Usando uma confiança de 95%, qual é a margem de erro associada a essa estimativa?

Intervalo de confiança para média de uma população normal com variância desconhe-
cida

Seja X1 , · · · , Xn uma aas da distribuição Normal(µ, σ 2 ), com σ 2 desconhecido. Utilizare-


mos S 2 para estimar σ 2 . Podemos usar a estatı́stica

(X̄ − µ)
T = √ ∼ t(n−1) ,
S/ n

isto é, a variável T tem distribuição t-Student com n − 1 graus de liberdade. Logo, o
intervalo de confiança para média µ (variância desconhecida) com (1 − α)% de confiança
é dado por  
S S
IC (µ; (1 − α)) = X̄ − t(n−1);α/2 √ ; X̄ + t(n−1);α/2 √ .
n n
Definição 27. Uma variável aleatória contı́nua Y é dita seguir a distribuição t-Student com ν
graus de liberdade se sua função de densidade de probabilidade é dada por

Γ( ν+1
2
)ν ν/2  2 −(ν+1)/2

p(y | ν) = ν ν + y , para − ∞ < y < ∞, (4.1)
Γ( 2 )(π)1/2

com ν > 0.

O gráfico da t-Student também é simétrico, podemos definir α tal que P (−t(n−1,α/2) < T <
t(n−1,α/2) ) = 1 − α.

69
Estatı́stica Básica

Figura 4.2: Suponha α = 0, 05 e n = 36, logo t(n−1,α/2) = 2, 03.

Importante:

• A distribuição t-Student aproxima-se da distribuição normal, conforme o valor dos


graus de liberdade crescem. Portanto, para graus de liberdade altos (logo, para n
alto), podemos aproximar a t pela normal. Podemos perceber que para valores do
grau de liberdade maiores do que 30, as duas disribuições são muito parecidas.

• Portanto, com σ 2 desconhecido, para amostras grandes, podemos apenas substituir


σ 2 por S 2 no intervalo que depende de zα/2 .

• O conceito de graus de liberdade está relacionado ao número de dados disponı́veis


(livres) para o calculo da estatı́stica. Por exemplo, ao estimarmos a média popula-
cional com a média amostral perdemos um grau de liberdade. Assim, a estatı́stica
t-Student terá n − 1 graus de liberdade.

Exemplo 66. Um empresa deseja estimar o intervalo de confiança de vendas, por estabelecimento,
durante o último ano de um determinado produto. Para uma amostra de 25 estabelecimentos,
obteve-se uma média de 5000 reais e S 2 = 160000 reais2 . Determine o intervalo de confiança de
95%, dado que os valores de venda são considerados normalmente distribuı́dos com desvio padrão
desconhecido.
Solução:  
400 400
IC (µ; 95%) = 5000 − 2, 06 √ ; 5000 + 2, 06 √
25 25

70

Você também pode gostar