Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
Diretoria Executiva
Renato Paiva (Diretor)
Conselho Editorial
Renato Paiva (Presidente)
Brígida de Souza
Flávio Meira Borém
Joelma Pereira
Luiz Antônio Augusto Gomes
GES101 - Estatística
Resumo do Livro Estatística Básica. Ed. 2
Lavras - MG
© 2013 by Daniel Furtado Ferreira, 1a edição: 2013. 2a edição ampliada e revisada
Nenhuma parte desta publicação pode ser reproduzida, por qualquer meio ou forma, sem a autorização escrita
e prévia dos detentores do copyright.
Direitos de publicação reservados à Editora UFLA.
Impresso no Brasil - ISBN:
Editora UFLA
Campus Histórico - Caixa Postal 3037
37200-000 - Lavras - MG.
Tel: (35) 3829-1115 - Fax: (35) 3829-1551
E-mail: comercial.editora@editora.ufla.br - editora@editora.ufla.br
Homepage: www.editora.ufla.br
Bibliografia.
ISBN
CDD - 519.535
Sumário
Lista de Tabelas 8
Lista de Figuras 10
1 Introdução à Estatística 13
1.1 Tipos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 População e Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Amostras Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
2 Estatística Descritiva 15
2.1 Coleta, Organização e Apresentação de Dados . . . . . . . . . . . . . . . . . . . 15
2.2 Medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1 Média aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3 Outras medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 Medidas de dispersão ou de variabilidade . . . . . . . . . . . . . . . . . . . . . 32
2.3.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.2 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.3 Desvio padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.4 Coeficiente de variação . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.5 Erro padrão da média . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4 Estatísticas descritivas da distribuição . . . . . . . . . . . . . . . . . . . . . . . 36
2.4.1 Procedimentos gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.2 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.3 Coeficiente de assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.4 Coeficiente de curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3 Amostragem 41
3.1 Amostragem probabilística e não probabilística . . . . . . . . . . . . . . . . . . . 41
3.2 Principais processos de amostragem probabilística . . . . . . . . . . . . . . . . . 42
3.2.1 Amostragem casual simples . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2 Amostragem estratificada . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.3 Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.4 Amostragem por conglomerado . . . . . . . . . . . . . . . . . . . . . . 47
6 Distribuições Amostrais 95
6.1 Distribuição amostral da média . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 Distribuição de Amostragem da Normal . . . . . . . . . . . . . . . . . . . . . . . 101
6.2.1 Média Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.2.2 Distribuição Qui-quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.2.3 Distribuição F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.2.4 Distribuição t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
8.1 Erros tipo I e II e as decisões tomadas corretamente para os testes de hipóteses com
suas respectivas probabilidades associadas entre parênteses. . . . . . . . . . . . . 134
8.2 Produtividade média diária de leite em kg para três diferentes raças de bovinos aos
6 anos de idade com os respectivos erros padrões (EP). . . . . . . . . . . . . . . 144
Lista de Figuras
2.1 Gráfico de setores (a) e gráfico de colunas (b) mostrando formas alternativas para
representar as classes fenotípicas da segregação F2 do cruzamento de plantas de
ervilha de sementes amarelas e lisas com plantas de ervilha de sementes verdes e
rugosas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Histograma e polígono de frequências das produções de grãos em g/planta obtidas
numa amostra de n = 20 plantas de feijão da geração F2 do cruzamento das
cultivares Flor de Maio e Carioca. . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Ogivas das produções de grãos em g/planta obtidas numa amostra de n = 20 plantas
de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca. . . . 21
2.4 Formas das distribuições de frequência em situações reais: (a) distribuição em
forma de U; (b) distribuição em forma de J invertido; (c) distribuição em forma de
sino simétrica; (d) distribuição assimétrica à direita; e (e) distribuição assimétrica à
esquerda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5 Formas das distribuições de frequência quanto ao grau de achatamento mostrando
as curvas leptocúrticas, mesocúrticas e platicúrticas. . . . . . . . . . . . . . . . . 39
a) Dados brutos: são os dados coletados sem que haja algum tipo de tratamento nos mesmos,
como ordenação ou qualquer tipo de arranjo sistemático.
Um exemplo em que uma geração genética denominada F2 foi obtida do cruzamento de plantas
de ervilhas. O genitor feminino apresentava sementes amarelas e lisas e o genitor masculino
Fundamentos de Matemática Estatística Ferreira, D.F.
16 Estatística Descritiva
Tabela 2.1. Dados brutos obtidos numa amostra de 14 plantas da geração F2 do cruzamento de uma
planta de ervilha com sementes amarelas e lisas (AL) com outra de sementes verdes e
rugosas (V R).
AL AL VL AL AR VL VR
AL VL AL AL AR AR AL
Finalmente, o terceiro exemplo, em que o investigador fez a coleta dos dados e não os organizou
ainda, refere-se a dados quantitativos discretos da contagem de ovos danificados. No mercado
municipal da cidade de Lavras, ao chegar um carregamento de ovos de uma cidade distante,
os lojistas fizeram uma amostragem e inspecionaram 30 dúzias anotando o número de ovos
danificados em cada uma delas. Os resultados do número de ovos danificados em cada dúzia
(embalagem) estão apresentados na Tabela 2.3.
Tabela 2.3. Dados brutos referentes ao número de ovos danificados em uma inspeção feita em 30
embalagens, de uma dúzia cada, em um carregamento para o mercado municipal de
Lavras proveniente de uma cidade distante.
0 0 1 1 1
3 0 0 0 0
2 3 3 0 0
1 5 4 1 2
2 1 1 1 0
0 0 0 1 0
Tabela 2.4. Dados elaborados obtidos numa amostra de 14 plantas da geração F2 do cruzamento
de uma planta de ervilha com sementes amarelas e lisas (AL) com outra de sementes
verdes e rugosas (V R).
AL AL AL AL AL AL AL
AR AR AR VL VL VL VR
Tabela 2.5. Dados elaborados da produção de grãos em g/planta obtidos numa amostra de n = 20
plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.
Tabela 2.6. Dados elaborados referentes ao número de ovos danificados em uma inspeção feita em
30 embalagens de uma dúzia cada em um carregamento para o mercado municipal de
Lavras proveniente de uma cidade distante.
0 0 0 1 2
0 0 1 1 3
0 0 1 1 3
0 0 1 1 3
0 0 1 2 4
0 0 1 2 5
Tabela 2.7. Classes fenotípicas e suas respectivas frequências obtidas em uma amostra de 14 plantas
da geração F2 do cruzamento de uma planta de ervilha com sementes amarelas e lisas
(AL) com outra de sementes verdes e rugosas (V R).
A R 7
2 1 .4 3 %
Fi
6
V L
2 1 .4 3 % 5
V R 2
7 .1 4 %
1
A L 0
5 0 % A L A R V L V R
Classes fenotípicas
(a) (b)
Figura 2.1. Gráfico de setores (a) e gráfico de colunas (b) mostrando formas alternativas para
representar as classes fenotípicas da segregação F2 do cruzamento de plantas de ervilha
de sementes amarelas e lisas com plantas de ervilha de sementes verdes e rugosas.
efetuar o mesmo tipo de tratamento dispensado aos dados qualitativos e aos dados quantitativos
discretos. Para resolver o problema de apresentar a distribuição de dados quantitativos contínuos
de uma forma resumida e manter o máximo da informação contida nela, será realizada o que
denomina-se de distribuição de frequências. Nesse tipo de representação, os dados quantitativos
contínuos são agrupados em classes de valores, sendo computadas as respectivas frequências de
cada uma. O grande problema dessa representação é definir o número de classes ideal para agrupar
um conjunto de dados de uma amostra. Uma má definição trará como consequências deficiências
na representatividade dessa amostra e caracterização incorreta da natureza da distribuição e das
medidas de posição e dispersão. A seguir, são descritos os principais passos para se obter uma
distribuição de frequências, ilustrando-os com os dados do exemplo apresentado na Tabela 2.5.
Tabela 2.8. Número de ovos danificados por dúzia, e as frequências, para cada valor de X
(xi ), obtidas em uma inspeção feita em 30 embalagens de uma dúzia cada, em um
carregamento para o mercado municipal de Lavras, proveniente de uma cidade distante.
A primeira pergunta que deve ser respondida é de qual deve ser o número de classes (k) que
são formadas para sumariar os dados. Um critério empírico para isso baseia-se numa função do
tamanho amostral. Este critério está apresentado na Tabela 2.9.
Tabela 2.9. Critério empírico para determinar o número de classes (k) em função do tamanho
amostral (n).
A representação X(i) , que aparece em 2.1.1, em que o índice se encontra dentro de parênteses,
refere-se ao valor da variável X cuja ordem na amostra ordenada de forma crescente é igual a i.
Essas estatísticas são chamadas de estatísticas de ordem. Assim, X(1) é a estatística de ordem do
menor valor e X(n) é a do maior.
Para o exemplo, tem-se:
Aplicando uma das fórmulas empíricas na Tabela 2.9, é possível determinar o número de classes,
√
que é k = 20 = 4,47 ≈ 4.
O próximo passo consiste em determinar a amplitude de uma classe específica, que é representada
por c. Por construção, considera-se que todas as classes têm a mesma amplitude. Dessa forma, a
regra para determinar a amplitude de classe c é dada por:
A
c= (2.1.2)
k−1
A razão para que o denominador da divisão seja k − 1 ao invés de k é explicada por uma
correção que é feita no limite inferior da primeira classe, considerando-se um valor menor que X(1) .
Essa correção é justificada pela suposição de que a amostra de tamanho n tem grande chance de não
conter o valor mínimo da população. Para o exemplo, c = 7,73. Com base nisso, o limite inferior
da primeira classe (LI1 ) é definido por:
c
LI1 = X(1) − , (2.1.3)
2
O processo é repetido para formar as demais classes, devendo ser interrompido quando a última
classe (k) for formada. Em seguida, são computadas as frequências dos indivíduos pertencentes a
cada classe (Fi , i = 1, 2, · · · , k) inspecionando-se os dados elaborados. As frequências relativas
(Fri ) e percentuais (Fpi ) são computadas e apresentadas na chamada tabela de distribuição de
frequências. Os resultados da distribuição de frequência dos dados da Tabela 2.5 estão apresentados
na Tabela 2.10. O símbolo `, usado para representar as classes, indica que o limite inferior, caso
ocorra na amostra, deverá ser computado para a classe atual e que o limite superior, caso ocorra,
deve ser computado para a classe seguinte. O ponto médio da classe i (X̄i ) é calculado pela média
dos limites de classe.
Tabela 2.10. Distribuição de frequências das produções de grãos em g/planta obtidas numa amostra
de n = 20 plantas de feijão da geração F2 do cruzamento das cultivar Flor de Maio e
Carioca.
A representação gráfica dos dados apresentados na Tabela 2.10 é feita por meio do histograma e
polígono de frequências. O histograma é um gráfico de colunas cujas bases são proporcionais aos
intervalos de classe, e a altura a uma medida denominada densidade (f ), que é dada por: fi = Fi /ci .
No caso de amplitudes de classes iguais, o valor de c é constante para todas as classes, podendo
ser ignorado na construção do histograma. O polígono de frequências, por sua vez, é uma linha
poligonal que liga os pontos médios das classes nas ordenadas correspondentes às suas densidades
ou a suas frequências. O polígono de frequências e o histograma para os dados da Tabela 2.5 estão
apresentados na Figura 2.2.
Histograma
8
7 Polígono de freqüência
6
Freqüências
0
- 1 4 .0 8 - 6 .3 5 1 .3 8 9 .1 1 1 6 .8 4 2 4 .5 7 3 2 .3 0 4 0 .0 3
Figura 2.2. Histograma e polígono de frequências das produções de grãos em g/planta obtidas numa
amostra de n = 20 plantas de feijão da geração F2 do cruzamento das cultivares Flor de
Maio e Carioca.
Outro tipo de representação dos dados contínuos é o do acúmulo das frequências para uma
Ferreira, D.F. Fundamentos de Matemática Estatística
2.1 Coleta, Organização e Apresentação de Dados 21
leitura rápida da proporção de dados que superam um determinado valor ou de quantos são inferiores
a este valor. Esse tipo de representação é denominado de distribuição de frequências acumuladas,
cujas representações gráficas correspondentes são denominadas de ogivas. Para construção dessa
distribuição, tomam-se os limites de classes e avaliam-se as quantidades acumuladas de elementos
amostrais que superam ou que são inferiores a esses limites. Na Tabela 2.11 estão apresentadas as
distribuições de frequências acumuladas dos dados de produtividades em g/plantas da Tabela 2.5.
A representação das frequências acumuladas está na Figura 2.3.
Tabela 2.11. Distribuição de frequências acumuladas das produções de grãos em g/planta obtidas
numa amostra de n = 20 plantas de feijão da geração F2 do cruzamento das cultivares
Flor de Maio e Carioca.
2 4 F C ( X < x i)
2 2 F C ( X > x i)
2 0
Freqüências acumuladas
1 8
1 6
1 4
1 2
1 0
8
6
2
0
-2 .4 9 5 .2 4 1 2 .9 7 2 0 .7 0 2 8 .4 3
P r o d u tiv id a d e s ( g /p la n ta )
Figura 2.3. Ogivas das produções de grãos em g/planta obtidas numa amostra de n = 20 plantas de
feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.
A medida de posição mais comum, utilizada de forma intensa e extensiva, é a média aritmética,
geralmente denominada simplesmente por média. O conceito de média aritmética é familiar e
poderia se dizer, até mesmo, intuitivo: a média é a soma de todas as observações dividida pelo
número de dados envolvidos.
Cada variável na população será referenciada pelo valor Xi (leia-se X índice i). Então, a
primeira medida será X1 ; a segunda X2 ; a terceira X3 ; e assim sucessivamente. O subscrito i terá
uma amplitude de valores de 1 a N , o número total de valores da população, considerada finita.
Para indicar a soma dos valores de um conjunto de dados de uma forma concisa, será usada
a notação de somatório, representada pela letra maiúscula sigma (Σ), acompanhada do índice de
variação dos elementos que deverão ser somados:
N
X
Xi = X1 + X2 + · · · + XN (2.2.1)
i=1
A média de uma população é representada pela letra grega minúscula µ, sendo definida para
populações finitas por:
N
X
Xi
i=1 X1 + X2 + · · · + XN
µ= = (2.2.2)
N N
O mais eficiente, não viesado e consistente estimador da média populacional é a média amostral,
representada por X̄ (leia-se X barra). O tamanho amostral será representado por n. A média
amostral (X̄) é definida por:
n
X
Xi
i=1 X1 + X2 + · · · + Xn
X̄ = = (2.2.3)
n n
Para os dados agrupados em uma tabela de distribuição de frequência, como por exemplo, os
Ferreira, D.F. Fundamentos de Matemática Estatística
2.2 Medidas de tendência central 23
dados da Tabela 2.10, a média deve ser obtida ponderando-se o valor médio da classe pela sua
respectiva frequência:
k
X
Fi X̄i
i=1
X̄ = (2.2.4)
n
k
X
Fi Xi
i=1
X̄ = , (2.2.5)
n
Ilustrar o cálculo da média para os dados da Tabela 2.2 e 2.10 usando as expressões 2.2.3 e
2.2.4. Qual é a estimativa mais precisa? Qual é a razão da diferença entre elas?
Dados brutos da Tabela 2.2:
A estimativa mais precisa é obviamente a primeira, uma vez que, no segundo caso, os
pontos médios das classes, obtidos pela média dos limites dessas classes, foram usados
para representá-las. Essa é a principal razão da diferença e é conhecida como hipótese
tabular básica (HTB). Apesar das diferenças que foram encontradas, é possível utilizar o
estimador de dados agrupados em distribuições de frequências na ausência dos dados brutos
ou elaborados, uma vez que a perda de precisão, na maioria das situações, é considerada
desprezível.
i) A soma dos desvios em relação à média é igual a zero para qualquer amostra:
n
X
(Xi − X̄) = 0
i=1
Demonstração:
n
X n
X n
X n
X
(Xi − X̄) = Xi − X̄ = Xi − nX̄.
i=1 i=1 i=1 i=1
n
X
n n
n Xi n n
i=1
X X X X
(Xi − X̄) = Xi − = Xi − Xi = 0 c.q.d.
n
i=1 i=1 i=1 i=1
ii) A soma de quadrados de desvios em relação a uma constante arbitrária A, qualquer, será um
valor mínimo se A = X̄.
Fazendo:
n
X
D= (Xi − A)2
i=1
n
dD X
= −2 Xi + 2nA
dA
i=1
O ponto ótimo, obtido igualando a derivada primeira a zero, pode ser de máximo, de mínimo
ou de inflexão. Para certificar-se de que o valor de D é um valor mínimo, quando A é igual à
média amostral, basta mostrar que a segunda derivada é positiva. A segunda derivada de D em
relação a A é dada por:
d2 D
= 2n > 0
dA2
iii) A soma ou subtração de uma constante (k) aos dados altera a média de tal forma que a nova
média é igual a média dos dados originais adicionada ou subtraída pela constante.
Sejam os novos dados obtidos pela adição ou subtração da constante k (Yi = Xi ± k) e a
média da amostra original dada por X̄ = ni=1 Xi /n, então a nova média será
P
n
X n
X
Yi (Xi ± k)
i=1 i=1
Ȳ = = =
n n
n
X n
X
Xi k
i=1 i=1 nk
= ± = X̄ ± = X̄ ± k c.q.d.
n n n
iv) A multiplicação dos dados ou divisão por uma constante (k) aos dados altera a média de tal
forma que a nova média é igual a média dos dados originais multiplicada ou dividida pela
constante.
Sejam os novos dados obtidos pela multiplicação da constante k, com k ∈ R, ou seja, Yi = kXi
e a média da amostra original dada por X̄ = ni=1 Xi /n, então a nova média será
P
n
X n
X n
X
Yi (kXi ) k Xi
i=1 i=1 i=1
Ȳ = = = = k X̄ c.q.d.
n n n
v) A média é influenciada por valores extremos. A média tenderá a ser grande, se existirem alguns
poucos valores que são maiores que a maioria das mensurações realizadas, ou a ser pequena,
se existirem na amostra alguns poucos valores menores que a maioria das mensurações.
2.2.2 Mediana
A mediana é uma medida típica de tendência central, sendo definida em um conjunto de dados
ordenados como o valor central, ou seja, o valor para o qual há o mesmo número de mensurações
que o superam quanto são superados por ele. A mediana amostral (md ) é o melhor estimador da
mediana populacional (µd ). Nas distribuições simétricas, a mediana também é um estimador não
Fundamentos de Matemática Estatística Ferreira, D.F.
26 Estatística Descritiva
viciado e consistente da média µ, embora não seja tão eficiente como X̄.
Para a estimação da mediana, é necessário ordenar-se os dados e obter os dados elaborados.
Essa ordem pode ser crescente ou decrescente, embora, no presente trabalho, sejam consideradas
somente as ordens crescentes. O estimador da mediana populacional (µd ) é dado por:
X n+1 se n for ímpar
( 2 )
md = (2.2.6)
X n + X( n+2 )
(2)
2
se n for par
2
Para estimar a mediana a partir dos dados arranjados em uma tabela de distribuição de
frequências; é necessário definir a classe mediana e em seguida encontrar a mediana interpolando
os resultados. A posição mediana é obtida acumulando-se frequências das classes 1, 2, etc., até
encontrar o valor que seja igual ou imediatamente superior a n/2. Para ilustrar o processo, os dados
da Tabela 2.10 foram considerados. O valor de n é igual a 20, e n/2 é igual a 10. A frequência da
classe 1 é igual a 6, valor inferior a 10; a frequência acumulada das classes 1 e 2 é igual a 14, que
supera 10. Logo, a classe 2 é considerada a classe mediana. Sendo encontrada a classe mediana, o
estimador da mediana populacional é dado por:
0,5n − Fc
md = LImd + cmd (2.2.7)
Fmd
em que LImd , Fmd e cmd referem-se ao limite inferior, frequência e amplitude de classe da classe
mediana; Fc é a frequência acumulada das classes anteriores à classe mediana. Se a primeira classe
for a classe mediana, Fc será igual a 0.
A mediana é um estimador menos informativo que a média, pois só considera os postos
(posições) das observações e não os valores, como faz a média. No entanto, a mediana pode, em
algumas ocasiões, ser mais vantajosa que a média pelo fato de não ser afetada pelos extremos.
Assim, se as distribuições são assimétricas, a mediana pode ser uma melhor medida de tendência
central.
Exemplo 2.2: Mediana
Verifica-se na Tabela 2.10: n = 20; posição mediana n/2 = 10; classe mediana é a 2a .
Logo,
0,5n − Fc 10 − 6
md = LImd + cmd = 5,25 + × 7,73 = 9,115 g/planta
Fmd 8
i) A soma dos módulos dos desvios em relação a uma constante arbitrária A, qualquer, será um
valor mínimo se A = md .
n
X
D= |Xi − A| será um ponto de mínimo se A = md .
i=1
A prova dessa afirmativa é dada a seguir. Pode-se escrever D com uso da função indicadora,
IB (x), que retorna 1, se x ∈ B e 0, caso contrário, por
n
X n
X
D= |Xi − A| = (Xi − A)I(A,∞) (Xi − A) − (Xi − A)I(−∞,A] (Xi − A) .
i=1 i=1
−n+ + n− =0
n− =n+ ,
X( n ) + X( n+2 )
2 2
A =md = .
2
A =md = X( n+1 ) ,
2
ii) A soma ou subtração de uma constante (k) aos dados altera a mediana de tal forma que a nova
mediana é igual a mediana dos dados originais adicionada ou subtraída pela constante.
mdY = mdX ± k
iii) A multiplicação dos dados ou divisão por uma constante (k) aos dados altera a mediana de tal
forma que a nova mediana é igual a mediana dos dados originais multiplicada ou dividida pela
constante.
Sejam os novos dados obtidos pela adição ou subtração da constante k (Yi = kXi , com k ∈ R)
e a mediana da amostra original dada por mdX , então a nova mediana será
mdY = kmdX
Outras medidas de posição podem ser destacadas. Embora essas medidas sejam de uso menos
frequente, elas são abordadas por apresentarem relevâncias em situações específicas e por, nessas
ocasiões, se apresentarem como as medidas mais apropriadas para serem usadas. A moda é uma
dessas medidas típicas de tendência central, sendo definida de uma forma mais grosseira em um
conjunto de dados como o valor mais frequente. Uma melhor definição poderia ser dada por aquele
valor da variável em que há a mais densa concentração de valores na sua proximidade. A moda
amostral (mo ) é o melhor estimador da moda populacional (µo ). O processo de estimação da moda
de uma variável aleatória não é uma questão simples de ser respondida e depende da natureza dos
dados.
Para dados qualitativos nominais ou ordinais e para dados quantitativos discretos a definição de
moda, valor mais frequente da amostra, é usada para a estimação da moda populacional. Assim
aquele valor que mais se repete (mais frequente) na amostra será considerado como a moda amostral
dos dados. Naturalmente, é fácil perceber que um conjunto de dados desse tipo pode ter mais de
uma moda, ou até mesmo não apresentar moda, uma vez que nenhum valor se repete. Para ilustrar
o conceito de moda apresentado, considerar os dados da Tabela 2.7 e 2.8. A moda do primeiro
conjunto é o fenótipo “Amarela e Lisa”, pois apresenta a maior frequência (7) quando comparada
com as frequências das demais classes. Para o segundo conjunto de dados a moda é igual a 0, uma
vez que esse valor ocorreu em 13 das 30 embalagens, sendo o de maior frequência.
Para dados quantitativos contínuos, a definição de moda como o valor mais frequente de uma
amostra se torna inadequada. Nesse contexto, uma estimação da densidade dos valores da variável
sob estudo é necessária. Existem na literatura vários métodos de se estimarem densidades. Dentre
eles pode-se citar o histograma (polígono de frequências) e o estimador de “kernel”. O primeiro é
mais simples e foi apresentado na seção 2.1. Dessa forma, pode se definir a moda como o valor de
Ferreira, D.F. Fundamentos de Matemática Estatística
2.2 Medidas de tendência central 29
maior densidade, ou seja, a moda seria aquele valor da distribuição cuja frequência seria máxima,
ou ainda o ponto de máximo do polígono de frequências. Para encontrar tal valor pode-se utilizar
um estimador apropriado usando esse conceito e considerando a influência das classes vizinhas à
classe que a moda pertence.
Para estimar a moda é preciso, inicialmente, mencionar que a classe modal da distribuição
de frequências, classe na qual a moda está inserida, é aquela de maior frequência dentre todas
as classes. Se todas as classes tiverem as mesmas frequências, a distribuição não terá moda. Se
duas ou mais classes apresentarem frequências mais elevadas e idênticas, então a distribuição será
multimodal (bimodal, trimodal, etc.). O estimador da moda é dado por:
∆1
mo = LImo + cmo (2.2.8)
∆1 + ∆ 2
em que LImo e cmo são o limite inferior e a amplitude da classe modal; ∆1 e ∆2 são as diferenças
entre as frequências da classe modal e da imediatamente inferior e da imediatamente posterior,
respectivamente.
A principal ideia desse estimador é apresentar uma medida que considera a classe de maior
frequência e ainda considera a influência da frequência das classes vizinhas. Se as classes anterior e
posterior à classe modal tiverem a mesma frequência, então a moda será o ponto médio da classe;
caso contrário, a moda tenderá para o limite inferior ou superior da classe modal à medida que o
valor da frequência da classe anterior for maior que a da posterior ou frequência da classe posterior
for maior que a da anterior, respectivamente.
A D
∆2
C
∆1
E
L Im o
m o L S m o
∆1 2
mo = LImo + cmo = 5,25 + × 7,73 = 7,8267
∆1 + ∆ 2 2+4
i) A soma ou subtração de uma constante (k) aos dados altera a moda de tal forma que a nova
moda é igual a moda dos dados originais adicionada ou subtraída pela constante. Sejam os
novos dados obtidos pela adição ou subtração da constante k (Yi = Xi ± k) e a moda da
amostra original dada por moX , então a nova moda será
moY = moX ± k
ii) A multiplicação dos dados ou divisão por uma constante (k) aos dados altera a moda de tal
forma que a nova moda é igual a moda dos dados originais multiplicada ou dividida pela
constante. Sejam os novos dados obtidos pela multiplicação da constante k (Yi = kXi ) e a
moda da amostra original dada por moX , então a nova moda será
A média geométrica (X̄G ), outra medida de posição, é definida como sendo a raiz n-ésima do
produto dos n dados amostrais. O estimador dessa média é dado por:
v
u n
p
n
uY
X̄G = X1 × X2 × · · · × Xn = t
n
Xi ; Xi > 0, ∀ i = 1,2, · · · , n (2.2.9)
i=1
Q
em que o símbolo (letra grega maiúscula pi) significa “tomar o produto de”, que é análogo ao
significado de Σ, “tomar a soma de”. Esse símbolo é conhecido por produtório.
A tomada de logaritmos pode evitar problemas computacionais de se ter que trabalhar com
números de elevada magnitude. A expressão alternativa para o cálculo da média geométrica
apresentada em 2.2.9, considerando o uso do logaritmo neperiano (ln), cuja base é o número
neperiano e (2,71828 · · · ), é dada por:
ln(X1 ) + ln(X2 ) · · · ln(Xn )
X̄G = exp
n
n
X
ln(Xi )
i=1
= exp ; Xi > 0, ∀ i = 1,2, · · · , n. (2.2.10)
n
A média harmônica, que é obtida tomando-se o recíproco da média aritmética dos recíprocos,
representa outra medida de tendência central, dada por:
1 n
X̄H = n = n (2.2.12)
1 X 1 X 1
n Xi Xi
i=1 i=1
A relação entre a média, média geométrica e média harmônica é dada por: X̄H ≤ X̄G ≤ X̄. A
igualdade só se verifica quando todos os valores da amostra forem iguais. Para dados agrupados, o
estimador da média harmônica é dado por:
1 n
X̄H = k
= k
(2.2.13)
1 X Fi X Fi
n X̄i X̄i
i=1 i=1
A B C
4,27 3,44 1,27
4,60 3,76 3,30
4,72 4,55 3,50
4,95 4,86 5,25
4,99 5,30 5,44
5,17 5,42 5,51
5,21 5,81 5,72
5,42 5,89 6,04
5,63 5,94 6,39
6,00 5,99 8,54
X̄A = 5,096 X̄B = 5,096 X̄C = 5,096
Os três tipos de milho apresentaram a mesma média (5,096 t/ha) para as três variedades de
milho. É fácil para o leitor perceber, com uma inspeção mais criteriosa, que os conjuntos diferem
de forma razoável um do outro. O conjunto A, por se tratar de um tipo de milho em que não existem
variações genéticas entre as plantas, apresentou uma menor dispersão de valores em torno do valor
central (5,096), sendo seguido pelo híbrido triplo (B) e pela cultivar de polinização aberta (C).
2.3.1 Amplitude
A diferença entre a maior e a menor observação é denominada de amplitude (A), equação 2.1.1.
Essa medida de dispersão é bastante simples, fácil de ser obtida e de ser calculada, no entanto,
ela é uma pobre medida da dispersão por não considerar todas as mensurações, levando em conta
apenas os valores extremos (mínimo e máximo). Além disso, como é improvável que uma amostra
contenha os valores mínimo e máximo da população, a amplitude geralmente subestima a amplitude
populacional, sendo um estimador viesado e ineficiente. Deve ser considerada, ainda, a influência
negativa de possíveis “outliers”, que são mensurações discrepantes, no estimador da amplitude. A
mediana possui a mesma unidade de cada uma das mensurações amostrais individuais. O estimador
para dados em distribuições de frequências é dado por:
Apesar das limitações dessa medida de dispersão, a amplitude é usada para se ter uma indicação
rápida e fácil da variabilidade em diversas áreas. Para as cultivares de milho A, B e C anteriormente
apresentadas, as amplitudes foram 1,73 t/ha, 2,55 t/ha e 7,27 t/ha, respectivamente.
2.3.2 Variância
Outra forma de contornar o problema de a soma dos desvios, em relação à média aritmética, ser
sempre igual a zero é usar a soma de quadrados de desvios. A variância populacional é definida
dividindo-se a soma de quadrados de desvios pelo tamanho da população. A variância pode ser
considerada como um valor médio dos desvios ao quadrado, portanto, sendo conhecida, também,
por quadrado médio. As expressões apresentadas na sequência consideram populações finitas de
tamanho N . O símbolo usado para sua representação está consagrado na literatura estatística,
que é dado pela letra grega minúscula sigma, tomada ao quadrado (σ 2 ). A definição da variância
populacional é:
N
X
(Xi − µ)2
SQP i=1
σ2 = = (2.3.2)
N N
A variância amostral (S 2 ) poderia ser definida da mesma forma que a variância populacional,
substituindo-se N por n e µ por X̄. Isso, no entanto, não é feito, pois divide-se por n − 1 e não por
n a soma de quadrados de desvios. O estimador da variância populacional é dado por:
n
X
(Xi − X̄)2
SQ i=1
S2 = = (2.3.3)
n−1 n−1
e
n
!2
X
n
Xi
1 X
i=1
S2 = Xi2 − . (2.3.5)
n−1 n
i=1
dado por:
k
!2
X
k
Fi X̄i
1 X
i=1
S2 = Fi X̄i2 − (2.3.6)
n−1 n
i=1
O desvio padrão, da mesma forma que a variância, não é afetado pela soma ou subtração de uma
constante aos dados. No entanto, ele se altera quando os dados são multiplicados ou divididos por
uma constante. Nesse caso, o novo desvio padrão será igual ao desvio padrão original multiplicado
ou dividido pela constante. Quando o desvio padrão é pequeno, próximo de zero, existirá uma
Ferreira, D.F. Fundamentos de Matemática Estatística
2.3 Medidas de dispersão ou de variabilidade 35
grande concentração dos dados em torno da média. Por outro lado, se o desvio padrão for grande os
valores não se concentrarão com tal intensidade em torno da média.
O desvio padrão e a variância são medidas da variabilidade absoluta dos dados. Essas medidas
são dependentes da grandeza, escala ou unidade de medida empregada para mensurar os dados.
Conjuntos de dados com diferentes unidades de medida não podem ter suas dispersões comparadas
pela variância ou pelo desvio padrão. Mesmo para uma única unidade, se os conjuntos possuem
médias de diferentes magnitudes, suas variabilidades não podem ser comparadas por essas medidas
de dispersão apresentadas. Uma medida da variabilidade relativa é dada pelo coeficiente de variação
(CV ). O coeficiente de variação populacional (CVp ) é dado por:
σ
CVp = × 100% (2.3.10)
µ
S
CV = × 100% (2.3.11)
X̄
A média e o desvio padrão da produtividade de duas cultivares de milho são: X̄A = 4,0 t/ha
e SA = 0,8 t/ha para a variedade de polinização aberta A e X̄B = 8,0 t/ha e SB = 1,2 t/ha
para o híbrido simples B. Qual das cultivares possui maior uniformidade de produção?
Se, ao inspecionar as estatísticas, apresentadas você fosse induzido a responder que a
variedade de polinização aberta A seria a que possui maior uniformidade e que a razão seria
o menor desvio padrão apresentado por ela (0,8 t/ha), você teria provavelmente cometido um
erro. O fundamento usado aqui para comparar a variabilidade das cultivares não foi correto,
uma vez que o desvio padrão é uma medida de variabilidade absoluta. Embora as unidades
não sejam diferentes, as médias das amostras o são. O procedimento adequado seria o de
estimar o CV para ambas as cultivares e compará-los. Os coeficientes de variação são:
SA 0,8
CVA = × 100 = × 100 = 20%
X̄A 4,0
SB 1,2
CVB = × 100 = × 100 = 15%
X̄B 8,0
É fácil observar que o milho híbrido simples (B) é o mais uniforme, pois possui um menor
CV do que o da variedade de polinização aberta (A). A genética explica isso, pois todas as
plantas de um milho híbrido simples têm a mesma constituição genotípica, o que não ocorre
para a variedade de polinização aberta.
Para definir o erro padrão da média suponha que amostras aleatórias de tamanho n são retiradas
de uma população e que em cada amostra seja estimada a média. Se for computado o desvio padrão
da população formada por todas as estimativas de médias obtidas, o valor encontrado é conhecido
como erro padrão da média. O erro padrão da média (σX̄ ) é dado pela razão entre o desvio padrão
populacional e a raiz do tamanho da amostra por:
σ
σX̄ = √ (2.3.12)
n
S
SX̄ = √ (2.3.13)
n
O erro padrão da média é uma medida da dispersão das médias amostrais em torno da média
da população. É fácil perceber que quanto menor for o seu valor, mais provável será a chance de
obter a média da amostra nas proximidades da média da população, e quanto maior for, menos
provável se torna esse evento. Assim, o erro padrão da média é um estimador da precisão da
estimativa de uma média populacional. Gomes (1991, 2000) propõe uma medida relativa dessa
variabilidade das médias amostrais em torno da média populacional. Essa medida de variabilidade
relativa foi denominada aqui por coeficiente de precisão e por Gomes (1991) por índice de variação.
O coeficiente de precisão (CP ) é definido por:
SX̄
CP = × 100% (2.3.14)
X̄
A importância do erro padrão da média na inferência estatística será evidente para o leitor
nos Capítulos relacionados à estimação e testes de hipóteses sobre médias. O erro padrão é uma
característica de todo estimador. Todo estimador possui um erro padrão peculiar definido pelo
desvio padrão da distribuição amostral de todas as estimativas obtidas das possíveis amostras, de
tamanho n, extraídas da população de referência.
determinarem a forma da distribuição dos dados amostrais, para realizarem escolhas acertadas do
modelo probabilístico ou daquele modelo que mais se aproxima da realidade.
2.4.2 Momentos
Os momentos populacionais centrados na média (µr ) são definidos na sequência. O coeficiente
r da expressão é a ordem do momento. Assim, para r = 1 tem-se o momento de primeira ordem, o
qual é sempre igual a zero; para r = 2, o momento de ordem 2, que é a variância da população;
para r = 3, o momento de assimetria de ordem 3; para r = 4, o momento de curtose de ordem 4; e
assim por diante. É conveniente salientar que a definição de momento populacional dada por:
N
X
(Xi − µ)r
µr = i=1 , (2.4.1)
N
(a) (b)
(c) (d)
(e)
Figura 2.4. Formas das distribuições de frequência em situações reais: (a) distribuição em forma de
U; (b) distribuição em forma de J invertido; (c) distribuição em forma de sino simétrica;
(d) distribuição assimétrica à direita; e (e) distribuição assimétrica à esquerda.
√
ou seja, β1 = 0 (Figura 2.4 (c)). As distribuições assimétricas à direita (assimetria positiva)
√
apresentam β1 > 0 (Figura 2.4 (d)), e as assimétricas à esquerda (assimetria negativa) apresentam
√
β1 < 0 (Figura 2.4 (e)).
m4
b2 = . (2.4.4)
m22
Na Figura 2.5 foram ilustrados os três tipos de curvas quanto ao grau de achatamento.
Leptocúrtica
Mesocúrtica
Platicúrtica
µ x
Figura 2.5. Formas das distribuições de frequência quanto ao grau de achatamento mostrando as
curvas leptocúrticas, mesocúrticas e platicúrticas.
As distribuições que possuem valor de curtose igual a 3 são denominadas mesocúrticas. Aquelas
que possuem β2 > 3 são denominadas de leptocúrticas e as que possuem β2 < 3 são as platicúrticas.
As distribuições leptocúrticas são aquelas que possuem uma concentração de valores (mensurações)
próxima ao valor central maior que a da distribuição normal (mesocúrtica). Nas distribuições
platicúrticas, por sua vez, ocorre o contrário, ou seja, uma menor concentração de valores em torno
do centro da distribuição.
uma característica comum. Na prática, esse conjunto de elementos deve ser definido considerando,
ainda, sua localização no espaço e no tempo. A unidade amostral é a mesma unidade de observação
e de análise, sendo a menor parte distinta da população.
Dentre os vários processos existentes para a obtenção de amostras, a amostragem probabilística
caracteriza-se por garantir, a priori, que todo elemento pertencente ao universo de estudo possua
probabilidade, conhecida e diferente de zero, de pertencer à amostra sorteada. A identificação,
direta ou indireta, dos elementos e o uso de sorteio fundamentam as propriedades matemáticas desse
tipo de processo. Se por qualquer razão, alguns elementos da população não puderem pertencer à
amostra sorteada, a amostragem é dita não probabilística.
Alguns tipos de amostragem não probabilísticos podem ser empregados quando a população de
estudo não é totalmente acessível, quando a amostragem é realizada a esmo, ou seja, sem sorteio, e
quando a população é formada de material contínuo (líquido ou gás), em que o uso de sorteio não é
possível.
investigador se depara.
Nh
X
Xhi
i=1
µh = (3.2.1)
Nh
e
Nh
!2
X
N Xhi
h
1 X
i=1
σh2 = 2
Xhi − . (3.2.2)
Nh Nh
i=1
e
nh
!2
X
n Xhi
h
1 X
i=1
Sh2 = 2
Xhi − . (3.2.4)
nh − 1 nh
i=1
L
X
Nh X̄h
h=1
X̄est = . (3.2.5)
N
O segundo estimador é praticamente igual ao primeiro, diferenciando apenas nos pesos utilizados,
que agora são os tamanhos dos estratos amostrais. O segundo estimador da média populacional é
dado por
L
X
nh X̄h
h=1
X̄ = . (3.2.6)
n
Os estimadores 3.2.5 e 3.2.6 são equivalentes quando a fração amostral de cada estrato é
equivalente à fração populacional de cada estrato, ou seja, quando
nh Nh nh n
= ou = .
n N Nh N
Esse tipo de amostragem estratificada em que a fração amostral é igual em todos os estratos
é conhecido como alocação proporcional ou partilha proporcional. No exemplo 3.1 relativo à
amostragem estratificada proporcional ilustram-se as etapas desse processo. Em cada estrato, após
a definição do seu tamanho amostral, realiza-se uma amostragem simples ao acaso.
Nh
nh = ×n
N
Assim, para ilustrar, o tamanho amostral do estrato 1 (propriedades com áreas entre 0 e 2
ha), foi determinado por
N1 500
n1 = ×n= × 50 = 25.
N 1.000
Outro tipo de amostragem estratificada que pode ser considerado é o da alocação uniforme ou
da partilha uniforme. Nesse tipo de alocação o tamanho de cada estrato amostral é o mesmo. Essa
alocação é raramente usada, devendo ser recomendada apenas para situações em que os estratos
populacionais forem uniformes em tamanho. Nesse caso, os tamanhos dos estratos da amostra são
dados por:
n
nh = .
L
Um terceiro tipo de alocação ou partilha é a alocação ótima ou partilha ótima. Nesse tipo
de partilha é necessário conhecer o tamanho e o desvio padrão de cada estrato populacional. A
partilha ótima foi desenvolvida com a finalidade de alocar elementos para cada um dos L estratos
de tal sorte que se minimizariam o custo e a variância da estimativa da média populacional. Se
o custo da amostragem de cada elemento nos diferentes estratos for o mesmo, as expressões para
o dimensionamento da amostra são simplificadas. Esse caso especial é conhecido como partilha
ótima de Neyman (1934). A alocação das unidades da amostra para cada estrato é dada por:
Nh σh
nh = L
× n.
X
Nh σh
h=1
Pode ser facilmente observado, por meio dessa expressão, que o investigador tomará uma grande
amostra em um dado estrato se o estrato for grande ou se possuir uma elevada variabilidade interna.
Fundamentos de Matemática Estatística Ferreira, D.F.
46 Amostragem
Esse tipo de amostragem é um tanto quanto teórica, uma vez que nas situações reais o investigador
não conhece os valores dos desvios padrões populacionais (σh ). As formas usadas para contornar
esse tipo de problema são: a) obter uma amostra inicial pequena, amostra piloto, de cada estrato
usando a partilha proporcional e estimar o desvio padrão de cada estrato; b) usar o desvio padrão
da variável de estratificação que tem influência nas variáveis sob estudo e de interesse direto do
investigador.
No exemplo 3.2 os dados do exemplo 3.1 são novamente abordados, sendo acrescentada, ainda,
a informação dos desvios padrões de cada estrato para a variável de estratificação.
Assim, para ilustrar, o tamanho amostral do estrato 1 (propriedades com áreas entre 0 e 2
ha), foi determinado por:
N1 σ1 250
n1 = 5
×n= × 50 = 8,72 ∼
= 9.
X 1.434
Nh σh
h=1
x x x x
x
x
x x x x
x
x
x x x x
(a) (b)
Figura 3.1. Dois tipos de amostragem sistemática bidimensional mostrando a) gride quadrado
alinhado e b) gride quadrado não-alinhado.
usar um tipo de amostragem como esse é principalmente motivada por critérios de ordem prática.
Dentre esses critérios destaca-se a ausência de uma listagem de todos os elementos populacionais.
Em geral, o sorteio é feito em estágios sucessivos. Assim, por exemplo, se for considerado o
sorteio de uma amostra de 500 propriedades rurais em um dos Estados da federação, poder-se-ia
considerar o sorteio de 50 municípios e 10 propriedades de cada, ou de sorteio de 25 municípios e
20 propriedades em cada, e assim por diante. A economia nesse tipo de amostragem é evidente,
pois o método dispensa a listagem de referência ou cadastro de toda a população.
A maior parte dos fenômenos estudados nas diversas áreas da ciência possui um componente
de incerteza e, por isso, são conhecidos por fenômenos aleatórios. A probabilidade é uma área
da ciência apropriada para estudar essas incertezas. Portanto, é a base em que todos os métodos
estatísticos são construídos, fornecendo regras matemáticas para entender e analisar os padrões
de aleatoriedade dos fenômenos sob obervação. As ferramentas matemáticas para descrever a
aleatoriedade são as funções de distribuição, densidade ou de probabilidade. Os fundamentos da
probabilidade residem na teoria da medida. Esse capítulo ilustra apenas alguns dos principais
conceitos e notações da teoria da medida no contexto do estudo das probabilidades.
Fisher considerou que a estatística constitui-se de três problemas básicos. O primeiro problema
refere-se a má especificação do modelo probabilístico referente ao fenômeno. Uma escolha
inadequada irá ter sérias consequências para a validade das conclusões. Em segundo lugar,
ele considerou o problema de estimação. Nesse caso, devemos determinar o melhor estimador
ou estatística para descrever os parâmetros ou alguma característica do modelo matemático
especificado. Somente, conhecendo-se o modelo populacional podemos fazer essa escolha
apropriadamente, utilizando, principalmente, o princípio da suficiência estatística. Finalmente,
o terceiro problema apontado por ele, refere-se à distribuição. Nesse caso, devemos derivar
as distribuições probabilísticas dos estimadores ou das estatísticas. Apenas um conhecimento
aprofundado da teoria probabilística e da distribuição de amostragem nos possibilita determinar
tais distribuições adequadamente. Portanto, a base de todo o processo é a teoria probabilística.
O entendimento de suas características, propriedades, entre outros aspectos é de fundamental
importância para o desenvolvimento continuado da teoria estatística e para o entendimento da teoria,
até o presente momento, existente.
Fundamentos de Matemática Estatística Ferreira, D.F.
50 Cálculo de Probabilidades e Suas Leis
O nosso objetivo ao estudar probabilidade é bem restrito. Vamos focar os tópicos que são centrais
para um entendimento básico e que tenham conexão direta com os problemas de inferência estatística.
Além de algumas definições fundamentais, vamos considerar alguns axiomas (propriedades básicas),
interpretações e propriedades de probabilidade.
A entidade fundamental para as quais as probabilidades são atribuídas são os eventos, subcon-
juntos na teoria fundamental dos conjuntos. Os eventos são subconjuntos dos possíveis resultados
de um experimento aleatório, que é o espaço amostral Ω (definição 4.1).
Portanto, eventos disjuntos são aqueles que não podem ocorrer simultaneamente, conforme
definição anterior.
Pela definição clássica, como A ⊆ Ω, então |A| ≤ |Ω|, então 0 ≤ P (A) ≤ 1. As duas
principais limitações da definição clássica, que restringem o seu uso para se criar uma teoria geral
de probabilidade, são: a) o espaço amostral deve ser finito, ou seja, |Ω| < ∞. Sendo assim, a
definição clássica não é útil para definirmos probabilidade em espaços amostrais infinitos contáveis
ou não contáveis; b) os resultados do espaço amostral necessitam ser equiprováveis, pois, em caso
contrário, a definição clássica não é aplicável. As situações em que os pontos do espaço amostral
são equiprováveis, a princípio, representam os casos de ocorrência dos fenômenos naturais menos
frequentes nas situações reais.
Um segundo conceito é o frequentista, onde as probabilidades são definidas e medidas em
repetições exaustivas do experimento de interesse.
Definição 4.6: Definição frequentista de probabilidade
Uma das vantagens da probabilidade frequentista sobre a definição clássica é dada pelo fato da não
exigência que o espaço amostral Ω seja finito, pois a frequência relativa n/N independe desse fato.
Fundamentos de Matemática Estatística Ferreira, D.F.
52 Cálculo de Probabilidades e Suas Leis
Da mesma forma, essa razão independe também do fato de que os pontos de Ω sejam equiprováveis,
constituindo um segunda vantagem sobre a definição clássica. As grandes desvantagens são: a) a
dificuldade de garantir com bases teóricas sólidas matemática que limN →∞ n/N irá convergir de
fato para P (A); b) mesmo que haja a convergência desse limite para a verdadeira probabilidade,
ainda carecemos de bases sólidas para responder a questão de como podemos observar um valor
limite se uma sequência infinita de repetições do experimento é exigida? Como temos carências
teóricas de respostas a essas questões fundamentais, essa definição não foi usada para se criar a
sólida teoria probabilística moderna.
A terceira definição envolve a definição baseada em opiniões e juízos pessoais, sendo denominada
de probabilidade subjetiva.
Definição 4.7: Definição subjetiva de probabilidade
As probabilidades subjetivas, variam, por razões óbvias, de acordo com as crenças e juízos dos
indivíduos que estão atribuindo probabilidades ao evento. Uma das vantagens da probabilidade
subjetiva é que ela pode ser atribuída a experimentos que não podem ser repetidos, como, por
exemplo, a probabilidade de que haverá seca no próximo ano. Na inferência Bayesiana, as
probabilidades subjetivas são muito importante em várias situações, no sentido de incorporar as
crenças e juízos do pesquisador na inferência estatística. Os conceitos apresentados (objetivos ou
subjetivos) podem ser úteis em determinados problemas da vida real. Esses três conceitos podem
ser acomodados em uma teoria mais geral, como casos especiais (MITTELHAMMER, 2013). Essa
é a teoria da probabilidade axiomática, que apresentaremos na sequência.
A medida de probabilidade P é uma função cuja imagem está [0,1] com as seguintes
propriedades:
1. P (φ) = 0;
2. P (Ac ) = 1 − P (A);
P (Ω) =P (A ∪ Ac )
1 =P (A) + P (Ac ),
Ω
A B
A ∩ B c A ∩ B Ac ∩ B
em que A = ∪∞
i=1 Ai , concluindo assim a prova.
Outra importante definição diz respeito a uma partição do espaço amostral Ω. Essa partição
pode ser definida em termos de eventos contáveis ou finitos, como a seguir.
∪∞
i=1 Ai = Ω.
P (A ∩ B)
P (A|B) = . (4.6.1)
P (B)
Ω
A B
A ∩ Bc A∩B Ac ∩ B
P (B|A)P (A)
P (A|B) = . (4.6.2)
P (B)
Se calcularmos
encontramos o resultado almejado, sendo que usamos (4.6.1) em duas ocasiões para
provarmos.
Um exame clínico apresenta sensibilidade de 99% para detectar diabetes, ou seja, identifica
a doença de um indivíduo que realmente a possui em 99% dos casos. Esse mesmo exame
tem especificidade de 98%, ou seja, quando seu resultado é negativo, significa que 98% dos
casos identificados realmente não apresentam a doença. O primeiro caso é o denotado por
verdadeiro positivo e o segundo, por verdadeiro negativo. Assim, temos P (+|Doente) = 0,99
e P (−|Saudável) = 0,98. Temos ainda que P (−|Doente) = 0,01 e P (+|Saudável) = 0,02,
que são, respectivamente, os falsos negativos e os falsos positivos. Na população brasileira,
6,5% das pessoas possuem diabetes. Pergunta-se qual é a probabilidade de que uma pessoa
seja diabética realmente quando o exame der resultado positivo?
A probabilidade desejada, usando o teorema de Bayes é:
P (+|Doente)P (Doente)
P (Doente|+) = .
P (+)
Substituindo essa expressão na anterior, temos uma fórmula alternativa do teorema de Bayes,
dada por:
P (+|Doente)P (Doente)
P (Doente|+) =
P (+)
P (+|Doente)P (Doente)
=
P (+|Doente)P (Doente) + P (+|Saudável)P (Saudável)
0,99 × 0,065 0,06435
= =
0,99 × 0,065 + 0,02 × 0,935 0,08305
=0,7748344 = 77,48%.
Assim, se o resultado for positivo, a chance de o paciente de fato ser diabético é de 77,48%.
4.7 Independência
A independência de dois eventos A e B, implica na seguinte definição:
Definição 4.12: Independência de dois eventos
ou seja, eles serão independentes se e somente se sua probabilidade conjunta for igual ao
produto de suas probabilidades marginais.
4.8 Exercícios
4.8.1 Dado o espaço amostral Ω = {1, 2, 3}, cujos elementos são todos equiprováveis. Quais dos
subconjuntos a seguir são considerados eventos: A = {1}, B = φ, C = {1,4}, D = {1, 2,
3}?
4.8.3 Prove, para todo A e B, que A∆B = Ac ∆B c , lembrando que a diferença simétrica é dada
por: A∆B = (A ∩ B c ) ∪ (Ac ∩ B).
4.8.4 Utilizando os dados do exemplo 4.1, mas considerando que a sensibilidade e especificidade
do teste são, respectivamente, de 99% e 99%, qual é a probabilidade que uma pessoa seja
realmente diabética quando o resultado do exame der positivo. Qual é a probabilidade de
que o indivíduo com resultado negativo do exame seja realmente saudável, P (Saudável|−)?
Calcule essa última probabilidade com os dados do exercício atual e com os dados do exemplo
4.1. Nos dois casos, comparando os resultados das probabilidades a posteriori no exercício
atual com as do exemplo, qual é a conclusão que você obtém em relação as características do
exame e sua influência na detecção de falsos positivos e negativos e verdadeiros positivos e
negativos? Observe que as probabilidades a posteriori dos falsos positivos e falsos negativos,
são complementares às probabilidades obtidas.
5.1 Introdução
Neste capítulo vamos formalizar as definições e propriedades sobre variáveis aleatórias. Iremos
dar um conotação mais matemática ao conceito de variável aleatória, permitindo construir uma
teoria mais sólida a seu respeito e de suas propriedades.
Assim, neste capítulo vamos consolidar estas ideias, apresentando o significado de distribuição
de probabilidade de uma variável aleatória. Vamos conceituar as diferenças entre variáveis aleatórias
discretas e contínuas e também definir seus momentos.
Neste instante estamos aptos a apresentar um conceito de variável aleatória. Isso nos garantiria
a possibilidade de especificar medidas de probabilidades associadas as variáveis aleatórias.
Muitas vezes os resultados dos experimentos reais são medidas em termos de números reais,
como, por exemplo, as medidas de alturas e pesos de pessoas, as produtividades das plantas, os
teores de um determinado nutriente dos solos, entre inúmeras outras possibilidades. O espaço
amostral deste tipo de experimento é dado por subconjuntos da reta real, ou, se múltiplos valores
são necessários para caracterizar os resultados de um experimento, por subconjuntos dos reais
p-dimensionais, Rp .
Determinados experimentos fornecem inerentemente resultados que não são números e cujo
espaço amostral não é, portanto, definido por subconjuntos dos reais. Podemos exemplificar isso
quando registramos os resultados do nascimento de um filhote quanto ao sexo, observando se um
Fundamentos de Matemática Estatística Ferreira, D.F.
60 Variáveis Aleatórias e Distribuição de Probabilidades
paciente está doente ou não, se uma peça fabricada é defeituosa ou não, entre outras possibilidades.
Devemos ter um mecanismo de converter este espaço amostral em um espaço amostral de valores
reais, associando a cada resultado ω de Ω um número real, ou seja, mapeando cada ω na reta real.
Todos estes conceitos envolvem a definição de variável aleatória, que apresentamos na sequência.
Definição 5.1: Variável aleatória
Considerando que X(ω) = x é uma função unidimensional real definida para cada elemento
ω do espaço amostral Ω, ω ∈ Ω, então ela é chamada de variável aleatória. O conjunto
imagem de X é o conjunto de números reais C = {x : X(ω) = x, ω ∈ Ω}.
A maioria dos autores usa letras maiúsculas para representar as variáveis aleatórias e letras
minúsculas para os seus resultados ou realizações.
A palavra discreta refere-se ao fato de que a variável aleatória X possui realizações somente
em um conjunto contável finito ou infinito de valores nos reais R. Se o conjunto das realizações da
variável aleatória for contável finito, dizemos que ela é uma variável aleatória simples.
O interesse nas variáveis aleatórias discretas são os valores que elas podem ter e as probabilidades
associadas a estes valores. Sendo assim, é comum simbolizar o conjunto {X = x}. As medidas de
probabilidade devem ser atribuídas a cada valor que a variável aleatória pode assumir. Portanto,
apresentamos a seguinte definição:
Definição 5.4: Função de probabilidade ou função massa de probabilidade
X
P (X ∈ B) = P (X = x).
x∈B∩SX
interesse como sendo este número total de lançamentos da moeda até que ocorra a primeira
cara. Pergunta-se: qual é o espaço amostral do experimento original, considerando C para
cara e K para coroa? Qual o suporte da variável aleatória X? Este conjunto é contável finito
ou infinito? Qual é a medida de probabilidade para cada evento de SX Como demonstrar
que a definição 5.6 se aplica a essa variável aleatória?
Podemos observar que o experimento é interrompido quando ocorre uma cara. Assim, se
ocorrer cara no primeiro lançamento, o resultado do experimentos é C, se for no segundo, o
resultado é KC, se for no terceiro, é KKC, e assim por diante. Logo o espaço amostral Ω é:
Podemos observar que o espaço amostral possui um número infinito de resultados possíveis. A
variável aleatória X, definida como sendo a contagem de lançamentos até que a primeira cara
ocorra, possui os seguintes valores em função do resultado ω do experimento: X(C) = 1,
X(KC) = 2, X(KKC) = 3, e assim por diante. Logo, o conjunto suporte de X é:
SX = {1, 2, 3, 4, 5, · · · } .
Como temos infinitos valores possíveis para a variável aleatória, seu suporte SX é um
conjunto contável infinito. Para um valor x qualquer de SX , teremos exatamente x − 1
resultados K e o último resultado C. Cada resultado K possui probabilidade 1 − θ. Os
diferentes lançamentos da moeda são independentes uns dos outros, ou seja, o resultado
de um dado lançamento não interfere no resultado do próximo lançamento. Assim, pela
independência de eventos temos:
{z · · · K} = P
P KKKK
|
(K) × P (K) × · · · × P (K) = (1 − θ)x−1 .
| {z }
x−1 lançamentos K x−1 lançamentos K
{z · · · K} C = P
P KKKK
|
(K) × P (K) × · · · × P (K) ×P (C) = (1 − θ)x−1 θ.
| {z }
x−1 lançamentos K x−1 lançamentos K
P (X = x) =(1 − θ)x−1 θ.
Como θ é um número real do intervalo (0, 1), então 1 − θ também pertence a este intervalo.
Logo,
Sn − (1 − θ)Sn =θ [1 − (1 − θ)n ]
θSn =θ [1 − (1 − θ)n ] ,
resultando em
Sn = 1 − (1 − θ)n .
pois,
lim (1 − θ)n = 0.
n→∞
resultar em dois possíveis resultados apenas. Neste caso, se especificarmos um evento de interesse,
digamos A, como um dos possíveis resultados do experimento, então os possíveis resultados do
experimento serão: sucesso, se o evento A ocorreu e fracasso, se o evento A, não ocorreu. A
probabilidade de sucesso do evento ocorrer é denotada por θ = P (A). Logo, a probabilidade de
fracasso é 1 − θ = P (Ac ). Quando são realizados mais de um ensaio de Bernoulli, em geral,
assumimos que eles são independentes e que a probabilidade de sucesso do evento fica inalterada
em todas as repetições deles.
Definição 5.7: Distribuição de uma variável aleatória Bernoulli
A prova de que (5.3.4) é uma função de probabilidade é bem simples, uma vez que
P (X = 1) = θ e P (X = 0) = 1 − θ, sendo essas probabilidades valores positivos entre 0
P
e 1, pois 0 < θ < 1. Também, temos que x∈SX P (X = x) = P (X = 0) + P (X = 1) =
1 − θ + θ = 1.
sorteada esteja doente em uma população de plantas submetida à pressão do agente patogênico,
entre outros possíveis exemplos. Um segundo exemplo é o da distribuição binomial, que resulta da
execução de n ensaios Bernoulli independentes, conforme definição apresentada a seguir.
Definição 5.8: Distribuição de uma variável aleatória binomial
Uma variável aleatória X segue uma distribuição binomial quando resulta da contagem do
total de sucessos de um evento de interesse em n realizações independentes de ensaios de
Bernoulli (n ≥ 1), sendo 0 < θ < 1, a probabilidade de sucesso (constante) do evento de
interesse em cada ensaio e 1 − θ, a probabilidade de fracasso. A função de probabilidade é
n x n−x
x θ (1 − θ) , para x ∈ {0, 1, . . . , n}
pX (x) = P (X = x) = (5.3.5)
0, caso contrário.
θ)n−x é positivo para x ∈ SX = {0, 1, . . . , n}, pois para x neste intervalo, nx > 0, θx > 0
Se fizermos a = θ e b = 1 − θ, temos
Bernoulli, como na binomial, porém modificado para que seja interrompido quando o primeiro
sucesso de um evento de interesse ocorrer. Este experimento define um distribuição importante de
uma variável aleatória que conta o número de fracassos ocorridos, até que o primeiro sucesso seja
alcançado. Essa distribuição de probabilidade discreta está definida a seguir.
Uma variável aleatória X que conta o número total de fracassos (não ocorrência de um
evento de interesse) até que o primeiro sucesso (ocorrência de um evento de interesse) ocorra
em repetições independentes de ensaios de Bernoulli com probabilidade de sucesso do
evento de interesse 0 < θ < 1 constante em cada repetição possui distribuição denominada
geométrica. A função de probabilidade é
x
(1 − θ) θ,
para x ∈ {0, 1, 2, 3, . . .}
pX (x) = P (X = x) = (5.3.6)
0, caso contrário.
Para provarmos que pX de (5.3.6) é uma função de probabilidade, verificamos que (1 − θ)x θ
é positivo para x ∈ SX = {0, 1, 2, 3, . . . , }, pois para x neste intervalo θ > 0 e (1−θ)x > 0,
então P (X = x) > 0 para todo x discreto em x ≥ 0. Para valores de X não pertencentes
ao conjunto suporte, temos que P (X = x) = 0.
Podemos mostrar facilmente que a soma de termos de uma série finita de n + 1 termos do
tipo Sn = ni=0 r(1 − r)i = 1 − (1 − r)n+1 , para 0 < r < 1. Fazendo, θ = r, temos uma
P
série finita do mesmo tipo. Logo, Sn = 1 − (1 − θ)n+1 , para a soma das probabilidades de
valores de x ∈ {0, 1, . . . , n}. Assim, temos
∞
X n
X
x
(1 − θ) θ = lim (1 − θ)x θ = lim Sn
n→∞ n→∞
x=0 x=0
= lim 1 − (1 − θ)n+1 = 1,
n→∞
uma vez que 0 < 1 − θ < 1 e limn→∞ (1 − θ)n+1 = 0, conforme queríamos mostrar.
Podemos ter uma variante dessa distribuição, se em vez de definirmos a variável aleatória
como o número de fracassos antes da ocorrência do primeiro sucesso, definíssemos uma variável
aleatória como sendo o número total de ensaios de Bernoulli até a ocorrência do primeiro sucesso.
Ferreira, D.F. Fundamentos de Matemática Estatística
5.3 Variáveis Aleatórias Discretas: Definição e Distribuição 67
sendo f (k) (a) a derivada de ordem k de f (x) avaliada em a, considerando, ainda, f (0) (x) =
f (x).
P∞ λx
Se compararmos x=0 x! com a expansão em série de Taylor de ex , verificamos que essa
série se trata da expansão em série de Taylor em torno de 0 de eλ . Assim,
∞ ∞
X X λx
P (X = x) =e−λ
x!
x=0 x=0
=e−λ eλ
=1,
Considerar que a variável aleatória assume apenas valores contáveis finitos ou infinitos dos
reais R1 é muito restritivo. Assim, é importante que tenhamos uma outra categoria de variáveis
aleatórias definida em qualquer intervalo não contável dos reais, podendo ser toda a reta dos reais.
Para as variáveis aleatórias discretas X, vimos que P (X = x) > 0, se x ∈ SX . Entretanto,
para as variáveis aleatórias contínuas, P (X = x) = 0, para todo x ∈ R1 . Essas duas condições,
suporte não contável e P (X = x) = 0, ∀x ∈ R1 , são condições necessárias e suficientes para
classificar a variável aleatória em contínua (KACHAPOVA; KACHAPOV, 2012). A condição de
que P (X = x) = 0, ∀x ∈ R, é exigida porque se tivermos P (X = x) = x , para um valor positivo
P
de x muito pequeno, próximo de zero, a soma de todas as probabilidades x∈R P (X = x) =
P
x∈R x irá divergir para conjuntos infinitos não contáveis. Não importa quão pequeno façamos os
P P
valores de x , a soma anterior irá divergir, ou seja, x∈R P (X = x) = x∈R x = ∞. Temos que
perceber ainda que P (X = x) = 0 não caracteriza o evento {X = x} como impossível, pois se
isso fosse verdade, a ocorrência de todo valor x ∈ R seria impossível e não faria sentido em falar
em medida de probabilidade. Portanto, uma primeira definição de variável contínua é apresentada a
seguir.
Definição 5.11: Variável aleatória contínua
P (X = x) = 0 (5.4.1)
para todo x ∈ R1 .
Vamos inicialmente definir uma classe de funções especiais, denominadas de funções densidades
de probabilidade.
Ferreira, D.F. Fundamentos de Matemática Estatística
5.4 Variáveis Aleatórias Contínuas: Definição e Distribuição 69
Pela definição 5.12 devemos definir uma função positiva para todos os valores reais pertencentes
ao suporte da (distribuição da) variável aleatória contínua e nula para os demais valores, sendo que
o suporte é definido como se segue.
Definição 5.13: Suporte de uma variável aleatória contínua
O suporte da (distribuição da) variável aleatória contínua X é o subconjunto dos reais para
o qual temos
Ademais, a função densidade de probabilidade deve ter sua integração resultando em 1, tomada
em relação ao conjunto dos reais. Isso seria equivalente a dizer que a soma de todas as probabilidades
é igual a 1, no caso discreto. O que tem de ficar claro é que fX (x) não é uma probabilidade e pode
muitas vezes superar 1, para alguns valores de x ∈ R1 . Uma segunda definição é dada como se
segue.
Definição 5.14: Variável aleatória absolutamente contínua
Uma variável aleatória X é absolutamente contínua se existir uma função densidade fX , tal
que
Z b
P (a ≤ X ≤ b) = fX (x)dx, (5.4.4)
a
para todo a ≤ b.
Apresentaremos, como fizemos no caso de variáveis aleatórias discretas, algumas das mais
importantes distribuições contínuas de probabilidade, na forma de definição e demonstraremos que
a função densidade de probabilidade é legitima, ou seja, que é uma função positiva que integra 1
em R1 . Iniciaremos com uma das mais simples, todavia uma das mais importantes distribuições
contínuas. Isso porque ela pode se relacionar com todas as outras distribuições contínuas e por essa
razão desempenha papel fundamental em estudos que envolvem simulação Monte Carlo.
Fundamentos de Matemática Estatística Ferreira, D.F.
70 Variáveis Aleatórias e Distribuição de Probabilidades
Uma variável aleatória X com distribuição contínua uniforme (0,1) possui função densidade
de probabilidade dada por
(
1, 0 ≤ x ≤ 1
fX (x) = (5.4.5)
0, para outros valores de x.
Uma variável aleatória X com distribuição contínua exponencial (λ), com λ > 0, possui
função densidade de probabilidade dada por
(
λe−λx , x ≥ 0
fX (x) = (5.4.6)
0, x < 0.
=1,
Uma outra distribuição importante é a normal, aliás, uma das mais importantes distribuições de
probabilidade. A normal padrão é um caso particular da família normal, a qual definiremos a seguir.
1 2
φ(x) = √ e−x /2 x ∈ R1 , (5.4.7)
2π
Tomando A2 , temos
Z ∞ Z ∞ Z ∞Z ∞
2 1 −x2 /2 1 −y2 /2 1 −(x2 +y2 )/2
A = √ e dx √ e dy = e dxdy.
−∞ 2π −∞ 2π −∞ −∞ 2π
y x = r cos(θ)
y = r sen(θ)
r
θ
x 1
O Jacobiano da transformação é:
∂x ∂x
∂r ∂θ cos(θ) −r sen(θ)
J = =
sen(θ) r cos(θ)
∂y ∂y
∂r ∂θ
=r cos2 (θ) + r sen2 (θ) = r.
Logo,
Z ∞ Z ∞
2 1 −(x2 +y2 )/2
A = e dxdy
−∞ −∞ 2π
Z 2π Z ∞
1 2 /2
= re−r drdθ.
2π 0 0
=1.
Assim,
Z 2π Z ∞
1 2 /2
A = 2
re−r dr dθ
2π 0
|0 {z }
1
Z 2π
1 1
= dθ = [θ]2π
2π 0 2π 0
2π
= = 1.
2π
(x − µ)2
1
fX (x) = √ exp − , x ∈ R1 , (5.4.8)
2πσ 2 2σ 2
para todo x ∈ R1 .
Considere que FX é uma função de distribuição, definida de acordo com (5.5.1), então
b) limx→∞ FX (x) = 1;
c) limx→−∞ FX (x) = 0.
Considere que FX é uma função de distribuição, definida de acordo com (5.5.1), então
(x − µ)2
1 −
f (x) = √ e 2σ 2 , (5.6.1)
2πσ 2
em que x ∈] − ∞; +∞[.
Na Figura 5.1 é possível visualizar três densidades para a família normal com diferentes
escolhas de seus parâmetros. Verifica-se que quanto menor a variância (Figura 5.1 a), considerando
densidades de mesma média (Figura 5.1 a e b), maior será a concentração dos valores da variável
em torno do valor central µ. Verifica-se também que diferentes médias posicionam as densidades
centradas em diferentes pontos da abscissa, ou seja, provocam translações das densidades.
A função de distribuição de probabilidade acumulada da normal não pode ser apresentada
Ferreira, D.F. Fundamentos de Matemática Estatística
5.6 Distribuição Normal e Aproximação Normal da Binomial e Poisson 75
0 .5
f(x )
0 .4
(a )
0 .3
0 .2
(c )
0 .1
(b )
0 .0
0 5 1 0 1 5 2 0 2 5 3 0 3 5 4 0
x
Figura 5.1. Densidades de três distribuições normais com os seguintes parâmetros: (a) µ = 10 e
σ 2 = 1 ; (b) µ = 10 e σ 2 = 6 ; e (c) µ = 25 e σ 2 = 4.
explicitamente por uma expressão analítica. A obtenção de valores específicos dessa fdpa requer
o uso de ferramentas específicas do cálculo numérico. O símbolo Φ(x) é usado para representar
especificamente a fdpa normal padrão, quando µ = 0 e σ 2 = 1. A função de distribuição é:
Z x
(t − µ)2
1 −
F (x) = √ e 2σ 2 dt (5.6.2)
−∞ 2πσ 2
em que x ∈] − ∞; +∞[.
Na Figura 5.2, apresenta-se a fdpa normal. Verifica-se que esta função de distribuição possui o
formato de um sigmóide e representa uma função monótona crescente.
O cálculo de probabilidades acumuladas dessa distribuição de probabilidade é feito pela integral
definida em 5.2 no intervalo ] − ∞; x]. A dificuldade encontrada é a não existência de uma
expressão explícita da fdpa, exigindo-se que o cálculo seja realizado por meio de métodos numéricos
de integração. Como a densidade da normal é dependente de dois parâmetros, que em cada situação
prática podem assumir diferentes valores, é possível obter valores das probabilidades da distribuição
normal de uma variável aleatória X a partir de cálculos equivalentes em uma variável obtida por
uma transformação linear de X. O objetivo de tal transformação é facilitar as operações numéricas a
serem realizadas e permitir a tabulação das probabilidades. Essa transformação linear de X em uma
nova variável não altera a distribuição de probabilidade, mas gera uma nova variável, especificada,
em geral, por Z, cuja média é igual a 0 e a variância é igual a 1, N (0, 1). Essa nova variável segue
uma distribuição conhecida como normal padrão, e não possui unidades de medidas de referência,
Fundamentos de Matemática Estatística Ferreira, D.F.
76 Variáveis Aleatórias e Distribuição de Probabilidades
F ( x )
1 .0
0 .9
0 .8
0 .7
0 .6
0 .5
0 .4
0 .3
0 .2
0 .1
0 .0
0 1 0 2 0 3 0 4 0 x
Figura 5.2. Função de distribuição de probabilidade acumulada normal representando uma função
monótona crescente.
X −µ
Z= (5.6.3)
σ
é dada por
1 2
fZ (z) = φ(z) = √ e−z /2 , (5.6.4)
2π
em que z ∈ ] − ∞; +∞[.
As probabilidades de eventos como, P (a < X < b), são equivalentes a P (a∗ < Z < b∗ ), com
a∗ e b∗ dados por:
a−µ b−µ
a∗ = e b∗ = .
σ σ
em que z ∈ ] − ∞; +∞[.
Na Tabelas 5.1 apresentam-se probabilidades para diferentes valores de Z, ou seja, encontram-se
Ferreira, D.F. Fundamentos de Matemática Estatística
5.6 Distribuição Normal e Aproximação Normal da Binomial e Poisson 77
0 .5
0 .4
0 .3
(a ) P (0 < Z < z )
0 .2
0 .1
0 .0
0 z
Figura 5.3. As áreas hachuradas representam as probabilidades associada à Tabela 5.1, em que
P (0 < Z < z).
G = a1 η + a2 η 2 + a3 η 3 + a4 η 4 + a5 η 5 φ(z)
(5.6.7)
1
η= (5.6.8)
1 + 0,2316418|z|
Tabela 5.1. Probabilidades α da distribuição normal-padrão N (0, 1), para valores do quantil Zα
padronizado, de acordo com a seguinte afirmativa probabilística: P (0 < Z < Zα ) = α.
Zα 0 1 2 3 4 5 6 7 8 9
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998
3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000
a) P (Z > 1,0) b) P (−1,0 < Z < 0) c) P (Z > 1,96) d) P (−1,645 < Z < 1,645)
Nas seguintes figuras apresentam-se os 4 eventos com as áreas sob a curva hachuradas, que
correspondem às respectivas probabilidades solicitadas.
0 .5 0 .5
f(x ) f(x )
0 .4 0 .4
0 .3
0 .3
0 .2
0 .2
0 .1
0 .1
0 .0
-3 -2 -1 0 1 2 3 0 .0
x
-3 -2 -1 0 1 2 3 x
(a) (b)
0 .5 0 .5
f(x ) f(x )
0 .4 0 .4
0 .3 0 .3
0 .2 0 .2
0 .1 0 .1
0 .0 0 .0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x x
(c) (d)
a) A Tabela 5.1 sempre fornece a probabilidade entre 0 e z, cujo valor (z), nesse caso
específico, é igual a 1. A probabilidade desejada é a área acima do valor 1 conforme
apresentado no esboço (a) anterior. Como a área de 0 a infinito é igual a 0,50 ou 50%,
a probabilidade desejada é igual a esse valor subtraído da área que será encontrada na
tabela com a consulta do valor 1,00. Assim,
P (Z > 1,00) = P (Z > 0) − P (0 < Z < 1,00) = 0,5 − P (0 < Z < 1,00)
O valor P (0 < Z < 1,00) é encontrado consultando a Tabela 5.1, lembrando que a
casa centesimal deve ser procurada nas colunas correspondentes ao valor encontrado na
coluna da primeira linha da Tabela 5.1. Esse valor é 0,3413.
P (Z > 1,00) = 0,5 − P (0 < Z < 1,00) = 0,5 − 0,3413 = 0,1587 = 15,87%
b) A segunda probabilidade, P (−1,0 < Z < 0), necessita que se conheça a área entre0 e
um valor negativo de Z. A Tabela 5.1 não possui valores negativos, mas isso não impede
que se calcule a probabilidade solicitada utilizando-se dessa tabela. Isso é possível em
função da importante propriedade de simetria da distribuição normal, o que faz com que
a Tabela 5.1 seja mais compacta e resumida. Assim, pela propriedade de simetria:
c) Esse exemplo foi resolvido da mesma forma que na letra (a). O valor de 1,96 é um dos
mais comuns dessa distribuição e é empregado nos testes estatísticos que usam a normal.
P (Z > 1,96) =P (Z > 0) − P (0 < Z < 1,96) = 0,5 − 0,4750 = 0,0250 = 2,5%
d) Nesse cálculo de probabilidade, a área total deve ser quebrada em duas partes, uma que
vai de −1,645 a 0 e a outra que vai de 0 a 1,645. A razão é simples: a Tabela 5.1 só
fornece áreas entre 0 e o valor z. Assim,
P (−1,645 < Z < 1,645) =P (−1,645 < Z < 0) + P (0 < Z < 1,645)
=2 × P (0 < Z < 1,645) = 2 × 0,45 = 0,90 = 90%
Os exemplos 5.3, 5.4 e 5.5 ilustram: a) a obtenção de probabilidades para eventos relacionando
uma variável aleatória X normal não-padrão, ou seja, com média µ e variância σ 2 ; b) a obtenção
de realizações de X, dadas as probabilidades de alguns eventos, ou seja, a inversão da função de
distribuição de probabilidade de uma variável normal conhecendo-se a probabilidade e obtendo-se
o valor da variável para o evento associado.
Exemplo 5.3: Probabilidades da normal
a) X > 9,0 kg
9 − 7,9
P (X > 9,0) =P Z> √ = P (Z > 1,12) = 0,5 − P (0 < Z < 1,12)
0,97
=0,5 − 0,3686 = 0,1314 = 13,14%
P (8,0 < X < 9,5) =P (7,9 < X < 9,5) − P (7,9 < X < 8,0)
9,5 − 7,9 8,0 − 7,9
=P Z > √ −P Z > √
0,97 0,97
=P (0 < Z < 1,62) − P (0 < Z < 0,10)
=0,4474 − 0,0398 = 0,4076 = 40,76%
c) X < 7
7,0 − 7,9
P (X < 7) =0,5 − P (7,0 < X < 7,9) = 0,5 − P Z > √
0,97
=0,5 − P (−0,91 < Z < 0)
=0,5 − P (0 < Z < 0,91) = 0,5 − 0,3186 = 0,1814 = 18,14%
P (6,5 < X < 8,5) =P (6,5 < X < 7,9) + P (7,9 < X < 8,5)
6,5 − 7,9 8,5 − 7,9
=P Z > √ +P Z > √
0,97 0,97
=P (−1,42 < Z < 0) + P (0 < Z < 0,61)
=P (0 < Z < 1,42) + P (0 < Z < 0,61)
=0,4222 + 0,2291 = 0,6513 = 65,13%
a) P (X > x) = 0,025
Isso equivale a:
em que
x−µ
z= ⇒ x = σz + µ.
σ
Consultando “o interior” da Tabela 5.1 para localizar o valor 0,4750, verifica-se que o
valor da variável aleatória padronizada, cuja área entre 0 e z é igual a 0,4750, corresponde
a 1,96. Então,
√
x =1,96 × 26.250 + 1.836 = 2.154,6 kg.
Consultando a parte interior da Tabela 5.1, com o valor de área de 0,45, é possível
verificar que o valor de Z correspondente está no ponto médio de 1,64 e 1,65. Assim, o
valor z1 é igual a −1,645 e o valor z2 é 1,645. Os valores de X correspondentes são
obtidos pelo retorno à escala original a partir dos valores z1 e z2 .
P (x1 < X < x2 ) =0,99 ⇒ P (z1 < Z < 0) = P (0 < Z < z2 ) = 0,495
⇒ z1 = −2,575 e z2 = 2,575
Logo,
Assim, o lote será considerado contaminante se o peso de 100 sementes estiver abaixo de
14,5 g ou acima de 29,9 g.
0 .5 0 0 .3 5
0 .4 5
0 .3 0
0 .4 0
0 .3 5 0 .2 5
0 .3 0
0 .2 0
0 .2 5
0 .1 5
0 .2 0
0 .1 5 0 .1 0
0 .1 0
0 .0 5
0 .0 5
0 .0 0 0 .0 0
0 1 2 3 0 1 2 3 4 5
(a) n = 3 (b) n = 5
0 .2 0 0 .1 8
0 .1 6
0 .1 4
0 .1 5
0 .1 2
0 .1 0
0 .1 0
0 .0 8
0 .0 6
0 .0 5
0 .0 4
0 .0 2
0 .0 0 0 .0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 5 10 15 20
(c) n = 15 (d) n = 20
Figura 5.4. Distribuição binomial para (a) n = 3, (b) n = 5, (c) n = 15 e (d) n = 20, com
probabilidade de sucesso p = 1/2.
normal seja apropriada. Conforme a revisão de Leemis e Trivedi (1996) as seguintes recomendações
para uma apropriada aproximação são encontradas:
• np(1 − p) ≥ 10; e
• np(1 − p) ≥ 9.
Para mais bem explicar essa correção de continuidade para variáveis discretas, é possível
recorrer às Figuras 5.4 e 5.5 e observar que os valores da variável binomial, diga-se Y , representam o
Ferreira, D.F. Fundamentos de Matemática Estatística
5.6 Distribuição Normal e Aproximação Normal da Binomial e Poisson 85
0 .5 0 0 .4 0
0 .4 5
0 .3 5
0 .4 0
0 .3 0
0 .3 5
0 .2 5
0 .3 0
0 .2 5 0 .2 0
0 .2 0
0 .1 5
0 .1 5
0 .1 0
0 .1 0
0 .0 5
0 .0 5
0 .0 0 0 .0 0
0 1 2 3 0 1 2 3 4 5
(a) n = 3 (b) n = 5
0 .2 0
0 .1 8
0 .2 0
0 .1 6
0 .1 4
0 .1 5
0 .1 2
0 .1 0
0 .1 0
0 .0 8
0 .0 6
0 .0 5 0 .0 4
0 .0 2
0 .0 0 0 .0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 5 10 15 20
(c) n = 15 (d) n = 20
Figura 5.5. Distribuição binomial para (a) n = 3, (b) n = 5, (c) n = 15 e (d) n = 20, com
probabilidade de sucesso p = 1/4.
ponto médio dos retângulos dos histogramas e que as áreas relativas a cada retângulo correspondem
às probabilidades associadas aos valores de Y . Assim, P (Y = 1), por exemplo, significa que
a probabilidade poderia ser estimada pela área sob a curva normal que aproxima o histograma
no intervalo de 0,5 a 1,5. Definindo X a variável normal com média µ = np e σ 2 = npq
(da binomial), a probabilidade aproximada pela normal seria dada pela relação: P (Y = y)
∼
= P (y − 0,5 < X < y + 0,5). A soma ou subtração do valor 0,5 é a correção de continuidade.
No exemplo 5.6 ilustra-se o uso da aproximação normal à binomial para o cálculo de probabili-
dades e apresenta-se a comparação do cálculo exato e do cálculo aproximado.
y P (Y = y)
0 0,00390625
1 0,03125000
2 0,10937500
3 0,21875000
4 0,27343750
5 0,21875000
6 0,10937500
7 0,03125000
8 0,00390625
a) P (Y = 4) = 0,2734375 = 27,34375%
Para obter as aproximações normais será definida a variável normal X cuja média é
µ = np = 4 e a variância é σ 2 = np(1 − p) = 2. Assim,
a) P (Y = 4) ∼
= P (3,5 < X < 4,5), assim
3,5 − 4 4,5 − 4
P (Y = 4) ∼
=P √ <Z< √ = P (−0,35 < Z < 0,35)
2 2
=2 × P (0 < Z < 0,35) = 2 × 0,1368 = 0,2736 = 27,36%
b) P (Y ≥ 2) ∼
= P (X > 1,5), assim
1,5 − 4
P (Y ≥ 2) ∼
=P Z> √ = P (Z > −1,77)
2
=0,5 + P (0 < Z < 1,77) = 0,5 + 0,4616 = 0,9616 = 96,16%
c) P (Y > 2) ∼
= P (X > 2,5), assim
2,5 − 4
P (Y > 2) ∼
=P Z> √ = P (Z > −1,06)
2
=0,5 + P (0 < Z < 1,06) = 0,5 + 0,3554 = 0,8554 = 85,54%
d) P (2 < Y < 6) ∼
= P (2,5 < X < 5,5), assim
2,5 − 4 5,5 − 4
P (2 < Y < 6) ∼
=P √ <Z< √ = P (−1,06 < Z < 1,06)
2 2
=2 × P (0 < Z < 1,06) = 2 × 0,3554 = 0,7108 = 71,08%
Prob. requerida e er
a) P (Y = 4) 0,0002 0,0006
b) P (Y ≥ 2) -0,0032 -0,0034
c) P (Y > 2) -0,0001 -0,0001
d) P (Y ≥ 2) -0,0001 -0,0002
Verifica-se que todos os tipos de erros foram inferiores a 0,5%, sendo possível considerar a
aproximação normal adequada para essa situação. Embora n seja pequeno para uma boa
aproximação, o valor de p sendo exatamente igual a 1/2 favorece a aproximação realizada.
amostral e a esperança como uma medida resumo da variável aleatória ou da sua distribuição.
Os estatísticos sempre buscam medidas sumariantes das distribuições de probabilidade e o valor
esperado de uma variável aleatória é frequentemente utilizado como uma delas. Outras medidas
resumo da distribuição de uma variável aleatória também usam o conceito de esperança matemática
em sua definição. Assim, vamos neste capítulo apresentar os principais conceitos e resultados do
operador de esperança matemática. No próximo capítulo estudaremos as funções geradoras de
momentos e as funções características.
A esperança matemática de uma variável aleatória X é o valor médio dessa variável aleatória
em sua distribuição de probabilidade e é dada por
X
E [X] = xpX (x), (5.7.1)
x∈R1
A esperança no caso discreto com suporte finito sempre existe. Já para o caso contínuo e para o
caso discreto com suporte infinito, a esperança matemática pode não existir ou pode ser um valor
infinito.
A esperança matemática, em resumo, é a média da variável aleatória, ponderada pela sua
função de probabilidade, no caso discreto, ou pela sua função densidade de probabilidade, no caso
contínuo. Em termos da física, a esperança matemática é o centro de massa da distribuição da
variável aleatória.
Nas próximas subseções, vamos ilustrar o conceito de esperança, calculando-a em alguns
modelos probabilísticos discretos e contínuos.
Ferreira, D.F. Fundamentos de Matemática Estatística
5.7 Esperança Matemática e Suas Leis 89
A distribuição Bernoulli com parâmetro θ é uma das mais simples distribuições discretas. A
função de probabilidade foi apresentada em (5.3.4), na página 64.
Teorema 5.10: Esperança matemática da distribuição Bernoulli
A esperança de X é
1
X
E [X] = xpX (x)
x=0
=0 × (1 − θ) + 1 × θ
=θ,
A esperança de X é
n
X
E [X] = xpX (x)
x=0
n
X n x
= x θ (1 − θ)n−x
x
x=0
n
X n!x
= θx (1 − θ)n−x
x!(n − x)!
x=0
n
X n(n − 1)!
= θθx−1 (1 − θ)n−x
(x − 1)!(n − x)!
x=1
n
X (n − 1)!
=nθ θx−1 (1 − θ)n−x .
(x − 1)!(n − x)!
x=1
n−1
X (n − 1)!
E [X] =nθ θy (1 − θ)n−1−y
y!(n − 1 − y)!
y=0
n−1
X
n−1 y
=nθ θ (1 − θ)n−1−y
y
y=0
1−θ
E [X] = . (5.7.5)
θ
Se no teorema 5.12, a variável X fosse definida como sendo o número de ensaios até a ocorrência
do primeiro sucesso, então a esperança de X seria E [X] = 1/θ.
Nosso próximo exemplo é o da distribuição Poisson, cuja função de probabilidade foi apresentada
em (5.3.8), na página 67.
1
E [X] = . (5.7.7)
2
A esperança de X é
Z ∞ Z 1
E [X] = xfX (x)dx = xdx
−∞ 0
2 x=1
x 12 02
= = −
2 x=0 2 2
1
= ,
2
1
E [X] = . (5.7.8)
λ
A esperança de X é
Z ∞ Z ∞
E [X] = xfX (x)dx = xλe−λx dx.
−∞ 0
1
= ,
λ
Se a variável aleatória X possui distribuição normal padrão, N (0,1), com função densidade
de probabilidade φX , apresentada em (5.4.7), então sua esperança matemática é dada por
A esperança de X é
Z ∞ Z ∞
1 2
E [X] = xφX (x)dx = x √ e−x