Você está na página 1de 156

GES101 - Estatística

Resumo do Livro Estatística Básica. Ed. 2

DANIEL FURTADO FERREIRA


UNIVERSIDADE FEDERAL DE LAVRAS

REITOR: José Roberto Soares Scolforo


VICE-REITOR: Édila Vilela de Resende Von Pinho

Diretoria Executiva
Renato Paiva (Diretor)

Conselho Editorial
Renato Paiva (Presidente)
Brígida de Souza
Flávio Meira Borém
Joelma Pereira
Luiz Antônio Augusto Gomes
GES101 - Estatística
Resumo do Livro Estatística Básica. Ed. 2

DANIEL FURTADO FERREIRA

Lavras - MG
© 2013 by Daniel Furtado Ferreira, 1a edição: 2013. 2a edição ampliada e revisada

Nenhuma parte desta publicação pode ser reproduzida, por qualquer meio ou forma, sem a autorização escrita
e prévia dos detentores do copyright.
Direitos de publicação reservados à Editora UFLA.
Impresso no Brasil - ISBN:

Editora UFLA
Campus Histórico - Caixa Postal 3037
37200-000 - Lavras - MG.
Tel: (35) 3829-1115 - Fax: (35) 3829-1551
E-mail: comercial.editora@editora.ufla.br - editora@editora.ufla.br
Homepage: www.editora.ufla.br

Projeto Gráfico: Daniel Furtado Ferreira


Secretaria: Mariana Coelho Alonso
Revisão de Texto:
Revisão de Referências Bibliográficas:
Editoração Eletrônica: Daniel Furtado Ferreira
Marketing e Comercialização: Quele Pereira de Gois
Capa: Daniel Furtado Ferreira

Ficha Catalográfica Preparada pela Divisão de Processos Técnicos


da Biblioteca da UFLA

Ferreira, Daniel Furtado.


Fundamentos de Matemática Estatística / Daniel Furtado Ferreira. – 2. ed.
Lavras : Ed. UFLA, 2013.
156 p. : il.

Bibliografia.
ISBN

1. Estatística. 2. Função geradora de momentos.


3. Probabilidades. 4. Distribuições multivariadas. 5. Função de
Distribuição. 6. Métodos de Estimação. I. Título.

CDD - 519.535
Sumário

Lista de Tabelas 8

Lista de Figuras 10

1 Introdução à Estatística 13
1.1 Tipos de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
1.2 População e Amostra . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
1.3 Amostras Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

2 Estatística Descritiva 15
2.1 Coleta, Organização e Apresentação de Dados . . . . . . . . . . . . . . . . . . . 15
2.2 Medidas de tendência central . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.1 Média aritmética . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.2.2 Mediana . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3 Outras medidas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.3 Medidas de dispersão ou de variabilidade . . . . . . . . . . . . . . . . . . . . . 32
2.3.1 Amplitude . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
2.3.2 Variância . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.3.3 Desvio padrão . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.3.4 Coeficiente de variação . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
2.3.5 Erro padrão da média . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.4 Estatísticas descritivas da distribuição . . . . . . . . . . . . . . . . . . . . . . . 36
2.4.1 Procedimentos gráficos . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.2 Momentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.3 Coeficiente de assimetria . . . . . . . . . . . . . . . . . . . . . . . . . . 37
2.4.4 Coeficiente de curtose . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3 Amostragem 41
3.1 Amostragem probabilística e não probabilística . . . . . . . . . . . . . . . . . . . 41
3.2 Principais processos de amostragem probabilística . . . . . . . . . . . . . . . . . 42
3.2.1 Amostragem casual simples . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2 Amostragem estratificada . . . . . . . . . . . . . . . . . . . . . . . . . . 43
3.2.3 Amostragem sistemática . . . . . . . . . . . . . . . . . . . . . . . . . . 47
3.2.4 Amostragem por conglomerado . . . . . . . . . . . . . . . . . . . . . . 47

4 Cálculo de Probabilidades e Suas Leis 49


4.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.2 Espaço Amostral e Eventos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.3 Definições de Probabilidade Não-Axiomáticas . . . . . . . . . . . . . . . . . . . . 51
4.4 Definições Axiomáticas de Probabilidades . . . . . . . . . . . . . . . . . . . . . 52
4.5 Propriedades das Probabilidades . . . . . . . . . . . . . . . . . . . . . . . . . . 53
4.6 Probabilidades Condicionais . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
4.7 Independência . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
4.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

5 Variáveis Aleatórias e Distribuição de Probabilidades 59


5.1 Introdução . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.2 Definições Variáveis Aleatórias . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
5.3 Variáveis Aleatórias Discretas: Definição e Distribuição . . . . . . . . . . . . . 60
5.3.1 Exemplos de Distribuições de Variáveis Aleatórias Discretas . . . . . . . 63
5.4 Variáveis Aleatórias Contínuas: Definição e Distribuição . . . . . . . . . . . . . 68
5.4.1 Exemplos de Distribuições de Variáveis Aleatórias Contínuas . . . . . . 69
5.5 Função de Distribuição de Probabilidade . . . . . . . . . . . . . . . . . . . . . . 73
5.6 Distribuição Normal e Aproximação Normal da Binomial e Poisson . . . . . . . 74
5.7 Esperança Matemática e Suas Leis . . . . . . . . . . . . . . . . . . . . . . . . . 87
5.7.1 Definições Básicas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.7.2 Exemplos para Variáveis Aleatórias Discretas . . . . . . . . . . . . . . . 89
5.7.3 Exemplos para Variáveis Aleatórias Contínuas . . . . . . . . . . . . . . . 91
5.8 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

6 Distribuições Amostrais 95
6.1 Distribuição amostral da média . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 Distribuição de Amostragem da Normal . . . . . . . . . . . . . . . . . . . . . . . 101
6.2.1 Média Amostral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.2.2 Distribuição Qui-quadrado . . . . . . . . . . . . . . . . . . . . . . . . . . 101
6.2.3 Distribuição F . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.2.4 Distribuição t de Student . . . . . . . . . . . . . . . . . . . . . . . . . . 105
6.3 Exercícios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

7 Teoria da Estimação 111


7.1 Propriedades dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111
7.2 Estimação por intervalo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
7.3 Intervalo de confiança para a média de uma população normal . . . . . . . . . . 116
7.4 Dimensionamento de Amostras . . . . . . . . . . . . . . . . . . . . . . . . . . . 118
7.5 Intervalos de Confiança Para Proporções Binomiais . . . . . . . . . . . . . . . . 120
7.6 Dimensionamento de Amostras para Estimar Proporções Binomiais . . . . . . . . 121
7.7 Inferências sobre variância e desvio padrão . . . . . . . . . . . . . . . . . . . . 123
7.8 Estimação da diferença de duas médias populacionais normais . . . . . . . . . . 124

8 Teoria da Decisão Estatística 131


8.1 Introdução aos testes estatísticos de hipóteses . . . . . . . . . . . . . . . . . . . . 131
8.1.1 Testes de hipótese sobre a média de uma população normal . . . . . . . . 139
8.1.2 Apresentação de resultados . . . . . . . . . . . . . . . . . . . . . . . . . 143
8.1.3 Dimensionamento de amostras . . . . . . . . . . . . . . . . . . . . . . . 144

Referências Bibliográficas 153

Índice Remissivo 155


Lista de Tabelas

2.1 Dados brutos obtidos numa amostra de 14 plantas da geração F2 do cruzamento de


uma planta de ervilha com sementes amarelas e lisas (AL) com outra de sementes
verdes e rugosas (V R). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.2 Dados brutos da produção de grãos em g/planta obtidos numa amostra de n = 20
plantas de feijão da geração F2 dos cruzamentos das cultivares Flor de Maio e Carioca. 16
2.3 Dados brutos referentes ao número de ovos danificados em uma inspeção feita em
30 embalagens, de uma dúzia cada, em um carregamento para o mercado municipal
de Lavras proveniente de uma cidade distante. . . . . . . . . . . . . . . . . . . . 16
2.4 Dados elaborados obtidos numa amostra de 14 plantas da geração F2 do cruzamento
de uma planta de ervilha com sementes amarelas e lisas (AL) com outra de sementes
verdes e rugosas (V R). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.5 Dados elaborados da produção de grãos em g/planta obtidos numa amostra de
n = 20 plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio
e Carioca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
2.6 Dados elaborados referentes ao número de ovos danificados em uma inspeção
feita em 30 embalagens de uma dúzia cada em um carregamento para o mercado
municipal de Lavras proveniente de uma cidade distante. . . . . . . . . . . . . . 17
2.7 Classes fenotípicas e suas respectivas frequências obtidas em uma amostra de
14 plantas da geração F2 do cruzamento de uma planta de ervilha com sementes
amarelas e lisas (AL) com outra de sementes verdes e rugosas (V R). . . . . . . . 18
2.8 Número de ovos danificados por dúzia, e as frequências, para cada valor de X
(xi ), obtidas em uma inspeção feita em 30 embalagens de uma dúzia cada, em um
carregamento para o mercado municipal de Lavras, proveniente de uma cidade
distante. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.9 Critério empírico para determinar o número de classes (k) em função do tamanho
amostral (n). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.10 Distribuição de frequências das produções de grãos em g/planta obtidas numa
amostra de n = 20 plantas de feijão da geração F2 do cruzamento das cultivar Flor
de Maio e Carioca. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.11 Distribuição de frequências acumuladas das produções de grãos em g/planta obtidas
numa amostra de n = 20 plantas de feijão da geração F2 do cruzamento das
cultivares Flor de Maio e Carioca. . . . . . . . . . . . . . . . . . . . . . . . . . . 21
5.1 Probabilidades α da distribuição normal-padrão N (0, 1), para valores do quantil
Zα padronizado, de acordo com a seguinte afirmativa probabilística: P (0 < Z <
Zα ) = α. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 78

8.1 Erros tipo I e II e as decisões tomadas corretamente para os testes de hipóteses com
suas respectivas probabilidades associadas entre parênteses. . . . . . . . . . . . . 134
8.2 Produtividade média diária de leite em kg para três diferentes raças de bovinos aos
6 anos de idade com os respectivos erros padrões (EP). . . . . . . . . . . . . . . 144
Lista de Figuras

2.1 Gráfico de setores (a) e gráfico de colunas (b) mostrando formas alternativas para
representar as classes fenotípicas da segregação F2 do cruzamento de plantas de
ervilha de sementes amarelas e lisas com plantas de ervilha de sementes verdes e
rugosas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.2 Histograma e polígono de frequências das produções de grãos em g/planta obtidas
numa amostra de n = 20 plantas de feijão da geração F2 do cruzamento das
cultivares Flor de Maio e Carioca. . . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3 Ogivas das produções de grãos em g/planta obtidas numa amostra de n = 20 plantas
de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca. . . . 21
2.4 Formas das distribuições de frequência em situações reais: (a) distribuição em
forma de U; (b) distribuição em forma de J invertido; (c) distribuição em forma de
sino simétrica; (d) distribuição assimétrica à direita; e (e) distribuição assimétrica à
esquerda. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.5 Formas das distribuições de frequência quanto ao grau de achatamento mostrando
as curvas leptocúrticas, mesocúrticas e platicúrticas. . . . . . . . . . . . . . . . . 39

3.1 Dois tipos de amostragem sistemática bidimensional mostrando a) gride quadrado


alinhado e b) gride quadrado não-alinhado. . . . . . . . . . . . . . . . . . . . . 47

5.1 Densidades de três distribuições normais com os seguintes parâmetros: (a) µ = 10


e σ 2 = 1 ; (b) µ = 10 e σ 2 = 6 ; e (c) µ = 25 e σ 2 = 4. . . . . . . . . . . . . . . 75
5.2 Função de distribuição de probabilidade acumulada normal representando uma
função monótona crescente. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.3 As áreas hachuradas representam as probabilidades associada à Tabela 5.1, em que
P (0 < Z < z). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.4 Distribuição binomial para (a) n = 3, (b) n = 5, (c) n = 15 e (d) n = 20, com
probabilidade de sucesso p = 1/2. . . . . . . . . . . . . . . . . . . . . . . . . . 84
5.5 Distribuição binomial para (a) n = 3, (b) n = 5, (c) n = 15 e (d) n = 20, com
probabilidade de sucesso p = 1/4. . . . . . . . . . . . . . . . . . . . . . . . . . 85

6.1 Esquema da obtenção da distribuição amostral das médias amostrais X̄ a partir de


todas as k amostras de tamanho n retiradas de uma população qualquer, de tamanho
N , com média µ e variância σ 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.2 Distribuição qui-quadrado ilustrando o significado de χ2t para um determinado
valor da probabilidade α e dos graus de liberdade ν considerando a afirmativa
probabilística P (χ2 > χ2t ) = α. . . . . . . . . . . . . . . . . . . . . . . . . . . 104
6.3 Distribuição F ilustrando o significado do valor tabelado Ft para determinado valor
de α, dados os valores ν1 e ν2 , considerando o enunciado probabilístico P (F > Ft )
= α. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.4 Funções densidades t de Student para ν = 1, 5, e 20 juntamente com a função
densidade da normal padrão, N (0, 1). . . . . . . . . . . . . . . . . . . . . . . . 107
6.5 Distribuição t, na qual se ilustra o significado do quantil superior tα para determi-
nados valores de 0 < α < 1 e ν > 0, considerando o enunciado probabilístico
P (t > tα ) = α. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108

8.1 Regiões críticas ou regiões de rejeição de H0 (RRH0 ) (hachuradas) e regiões de


não rejeição da hipótese nula (RN RH0 ) em função dos tipos de hipóteses testadas. 141
8.2 Regiões críticas (hachuradas) delimitadas por µc1 e µc2 de um teste bilateral de uma
hipótese de nulidade (H0 : µ = µ0 ) para o valor nominal da significância igual a α. 145
8.3 Poder do teste representado pela área marcada sob H0 : µ = µ0 falsa e considerando
um teste cujo valor nominal da significância é igual a α. . . . . . . . . . . . . . . 146
Introdução à Estatística
1
A investigação científica em muitas áreas se depara com a necessidade da coleta de dados de um
fenômeno a ser estudado. Esses dados possuem uma característica comum a inúmeros conjuntos
extraídos das mais diferentes áreas da investigação científica que é a variabilidade. Esta característica
tem diferentes origens e apresenta-se como a principal razão para a existência da estatística. A
variabilidade é estudada pelos estatísticos por meio dos modelos denominados probabilísticos. Os
dados possuem outra característica que é o seu tipo.
Uma característica medida em diferentes elementos ou entidades biológicas apresenta diferentes
valores de elemento para elemento e é conhecida como variável. A estatística neste livro será
usada para descrever os procedimentos de coletar, organizar, analisar e apresentar os resultados da
manipulação dos dados provenientes das investigações científicas.
O ramo da estatística que lida com a organização, o resumo e a apresentação dos dados é
denominado de estatística descritiva. A possibilidade de generalizar os resultados obtidos de certos
dados para um contexto maior pertence à parte da estatística conhecida como inferência estatística
ou estatística indutiva.

1.1 Tipos de Dados

Os dados coletados na investigação científica podem ser classificados como qualitativos ou


quantitativos. As variáveis ou dados qualitativos podem ser classificados ainda como nominais, para
os quais não existe nenhuma ordenação nas suas possíveis realizações, ou como ordinais, para as
quais os seus possíveis resultados podem ser ordenados por algum critério específico. Constitui-se
em um exemplo de dados nominais a classificação da cor da flor de uma espécie que pode ser
branca, violeta e vermelha. Já a variável altura de plantas, que pode assumir as classificações baixa,
média e alta, sendo um exemplo de dados qualitativos ordinais.
Fundamentos de Matemática Estatística Ferreira, D.F.
14 Introdução à Estatística

As variáveis quantitativas, ao contrário das qualitativas que apresentam as qualidades (ou


atributos) de um elemento pesquisado, representam as possíveis realizações como números,
resultantes de uma contagem ou mensuração. Portanto, seus valores representam um subconjunto
dos reais.
Essas variáveis podem ser divididas em dois tipos: (a) variáveis quantitativas discretas, cujas
possíveis realizações formam um conjunto finito ou enumerável de números, o qual é resultante,
geralmente, de contagem. (b) variáveis quantitativas contínuas, cujos possíveis valores formam
um intervalo de números reais resultantes, em geral, de mensurações. São exemplos de variáveis
contínuas: o peso de animais, o volume de árvores, o diâmetro de colmo de plantas de milho, o
peso de matéria verde ou de matéria seca de uma leguminosa, entre outros.

1.2 População e Amostra


A análise estatística é fundamentada na possibilidade de se obter conclusões sobre um grupo de
medidas de uma variável que está sendo estudada. O conjunto total de medidas, sobre o qual se
deseja retirar conclusões, é denominado de população. Um subconjunto de todas as medidas dessa
população é conhecido como amostra. Pelas conclusões obtidas na amostra, é possível realizar uma
extrapolação para as características da população da qual a amostra foi obtida.
Tem-se por objetivo na inferência estatística a realização de afirmações válidas sobre uma dada
característica da população, de interesse do investigador, com base nas informações colhidas dessa
população que foi amostrada.
Muitas formas de descrever as características de uma população existem e são baseadas em
medidas de tendência central, de dispersão ou de variação. Os valores das medidas de posição ou
de dispersão são denominados de parâmetros, se eles se referirem a quantidades populacionais. Se
essas quantidades se referem aos valores de uma amostra, então, são denominadas estimativas e as
expressões matemáticas, que são funções das mensurações amostrais, estimadores ou estatísticas.
Nas convenções estatísticas, parâmetros são representados por letras gregas e estatísticas amostrais,
por letras latinas. Também, são utilizados os símbolos N e n, para definir o tamanho de populações
finitas e para representar o tamanho da amostra, respectivamente.

1.3 Amostras Aleatórias


Para a validade das conclusões que são feitas a respeito da população, em razão das inúmeras
maneiras existentes de se extraírem as amostras de uma população, é necessário que as amostras
sejam aleatórias. Para amostrar a população aleatoriamente é necessário que cada membro da
população tenha probabilidade conhecida e não nula de ser sorteado e que os elementos sejam
independentemente selecionados. Em outras palavras, além de cada indivíduo possuir chance não
nula de pertencer à amostra, a seleção de um deles, de forma alguma, irá influenciar a seleção de
outro. Isso, em geral, é conseguido por meio de sorteio.

Ferreira, D.F. Fundamentos de Matemática Estatística


Estatística Descritiva
2
A parte da estatística que lida com a organização, resumo e apresentação de dados é denominada
de estatística descritiva. O investigador, ao fazer tais análises, pode estar usando dados provenientes
de uma população finita ou de uma amostra aleatória. Essa caracterização e apresentação de dados
de uma forma resumida e elucidativa são referidas por Tukey (1977) como análise exploratória de
dados.
Estas técnicas visam, dentre outros objetivos, à detecção de padrões de interesse nos dados e a
sua representação. A forma de tratar os dados de uma investigação científica nessa fase exploratória
depende da natureza desses dados: qualitativos (nominais ou ordinais) ou quantitativos (discretos
ou contínuos). De maneira geral, a apresentação dos dados pode ser feita por tabelas, gráficos e
medidas descritivas de posição, de dispersão e da natureza da distribuição de frequência.

2.1 Coleta, Organização e Apresentação de Dados


As mensurações que são realizadas em uma característica de interesse na população ou na
amostra possuem uma característica fundamental denominada de variação. Esses dados são
chamados de variáveis aleatórias, que são representadas, geralmente, pelas letras X, Y , W e Z,
maiúsculas. As realizações (valores) dessas variáveis em um dado elemento da população são
representadas pelas respectivas letras minúsculas: x, y, w e z.
As representações descritivas de tais dados dependem da natureza (tipo) da variável que está
sendo tratada. A partir da coleta, tem-se as seguintes nomenclaturas para cada etapa.

a) Dados brutos: são os dados coletados sem que haja algum tipo de tratamento nos mesmos,
como ordenação ou qualquer tipo de arranjo sistemático.
Um exemplo em que uma geração genética denominada F2 foi obtida do cruzamento de plantas
de ervilhas. O genitor feminino apresentava sementes amarelas e lisas e o genitor masculino
Fundamentos de Matemática Estatística Ferreira, D.F.
16 Estatística Descritiva

sementes verdes e rugosas.


As siglas AL, AR, VL e VR significam plantas com sementes amarelas ou verdes, primeira letra
(A ou V) e sementes lisas ou rugosas, segunda letra (L ou R). Esse exemplo é um caso típico de
dados qualitativos nominais.

Tabela 2.1. Dados brutos obtidos numa amostra de 14 plantas da geração F2 do cruzamento de uma
planta de ervilha com sementes amarelas e lisas (AL) com outra de sementes verdes e
rugosas (V R).

AL AL VL AL AR VL VR
AL VL AL AL AR AR AL

Um segundo exemplo, agora de dados quantitativos contínuos, refere-se a uma amostra de


n = 20 plantas de uma geração F2 originária do cruzamento das cultivares Flor de Maio e
Carioca. Esses dados referem-se à produção de grãos em g/planta e estão apresentados na Tabela
2.2.
Tabela 2.2. Dados brutos da produção de grãos em g/planta obtidos numa amostra de n = 20
plantas de feijão da geração F2 dos cruzamentos das cultivares Flor de Maio e Carioca.

3,65 21,26 3,87 24,57 1,38


5,67 9,79 12,56 4,54 6,79
13,19 4,14 3,78 15,60 6,23
12,13 17,12 19,68 5,64 8,21

Finalmente, o terceiro exemplo, em que o investigador fez a coleta dos dados e não os organizou
ainda, refere-se a dados quantitativos discretos da contagem de ovos danificados. No mercado
municipal da cidade de Lavras, ao chegar um carregamento de ovos de uma cidade distante,
os lojistas fizeram uma amostragem e inspecionaram 30 dúzias anotando o número de ovos
danificados em cada uma delas. Os resultados do número de ovos danificados em cada dúzia
(embalagem) estão apresentados na Tabela 2.3.

Tabela 2.3. Dados brutos referentes ao número de ovos danificados em uma inspeção feita em 30
embalagens, de uma dúzia cada, em um carregamento para o mercado municipal de
Lavras proveniente de uma cidade distante.

0 0 1 1 1
3 0 0 0 0
2 3 3 0 0
1 5 4 1 2
2 1 1 1 0
0 0 0 1 0

Essa representação dos dados: pouco informativa.

b) Dados elaborados: consiste em ordenar os dados em uma sequência crescente ou decrescente


ou agrupá-los quanto as suas categorias ou atributos. As Tabelas 2.4, 2.5 e 2.6 contêm os
dados das Tabelas 2.1, 2.2 e 2.3, respectivamente, nessa nova organização. Na Tabela 2.4 são
apresentados os atributos agrupados por tipos, das respectivas plantas que os possuem.
Ferreira, D.F. Fundamentos de Matemática Estatística
2.1 Coleta, Organização e Apresentação de Dados 17

Tabela 2.4. Dados elaborados obtidos numa amostra de 14 plantas da geração F2 do cruzamento
de uma planta de ervilha com sementes amarelas e lisas (AL) com outra de sementes
verdes e rugosas (V R).

AL AL AL AL AL AL AL
AR AR AR VL VL VL VR

Na Tabela 2.5, encontram se os dados da produção de grãos em g/planta ordenados de forma


crescente por coluna. É interessante observar que essa representação facilita a obtenção de
algumas características desses dados de imediato, quais sejam, a menor produtividade (1,38 g) e
a maior produtividade (24,57 g).

Tabela 2.5. Dados elaborados da produção de grãos em g/planta obtidos numa amostra de n = 20
plantas de feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.

1,38 4,14 6,23 12,13 17,12


3,65 4,54 6,79 12,56 19,68
3,78 5,64 8,21 13,19 21,26
3,87 5,67 9,79 15,60 24,57

Finalmente, na Tabela 2.6, estão apresentados os dados do número de ovos danificados na


amostra de 30 dúzias do carregamento. É importante salientar que essas representações não são,
ainda, a melhor forma de apresentar os dados.

Tabela 2.6. Dados elaborados referentes ao número de ovos danificados em uma inspeção feita em
30 embalagens de uma dúzia cada em um carregamento para o mercado municipal de
Lavras proveniente de uma cidade distante.

0 0 0 1 2
0 0 1 1 3
0 0 1 1 3
0 0 1 1 3
0 0 1 2 4
0 0 1 2 5

Há ainda possibilidade e necessidade de resumir os dados, sem perda de muita informação


contida neles. Sendo assim, para os dados qualitativos nominais e para os quantitativos discretos,
percebe-se que estes podem ser resumidos agrupando suas categorias e apresentando os resultados
obtidos em tabelas ou gráficos. Os dados qualitativos nominais das classes fenotípicas das sementes
de ervilhas estão apresentados na Tabela 2.7 e na Figura 2.1 (a) e (b).
Na Tabela 2.8, estão apresentados os dados referentes ao número de ovos danificados em uma
inspeção feita em n = 30 embalagens de uma dúzia cada, em um carregamento para o mercado
municipal de Lavras. Esses dados podem ser agrupados de uma forma similar aos dados da ervilha
por existir apenas 6 categorias definidas (0, 1, · · · , 5). Representações gráficas similares à realizada
para os dados da Tabela 2.7, Figuras 2.1 (a) e (b), podem ser realizadas nesse caso também, mas
não estão apresentadas aqui.
Ao se lidar com os dados quantitativos apresentados na Tabela 2.5, verifica-se que não é possível
Fundamentos de Matemática Estatística Ferreira, D.F.
18 Estatística Descritiva

Tabela 2.7. Classes fenotípicas e suas respectivas frequências obtidas em uma amostra de 14 plantas
da geração F2 do cruzamento de uma planta de ervilha com sementes amarelas e lisas
(AL) com outra de sementes verdes e rugosas (V R).

Classe Fenotípica Frequências (Fi )


AL 7
AR 3
VL 3
VR 1

A R 7
2 1 .4 3 %
Fi
6
V L
2 1 .4 3 % 5

V R 2
7 .1 4 %
1

A L 0
5 0 % A L A R V L V R
Classes fenotípicas

(a) (b)
Figura 2.1. Gráfico de setores (a) e gráfico de colunas (b) mostrando formas alternativas para
representar as classes fenotípicas da segregação F2 do cruzamento de plantas de ervilha
de sementes amarelas e lisas com plantas de ervilha de sementes verdes e rugosas.

efetuar o mesmo tipo de tratamento dispensado aos dados qualitativos e aos dados quantitativos
discretos. Para resolver o problema de apresentar a distribuição de dados quantitativos contínuos
de uma forma resumida e manter o máximo da informação contida nela, será realizada o que
denomina-se de distribuição de frequências. Nesse tipo de representação, os dados quantitativos
contínuos são agrupados em classes de valores, sendo computadas as respectivas frequências de
cada uma. O grande problema dessa representação é definir o número de classes ideal para agrupar
um conjunto de dados de uma amostra. Uma má definição trará como consequências deficiências
na representatividade dessa amostra e caracterização incorreta da natureza da distribuição e das
medidas de posição e dispersão. A seguir, são descritos os principais passos para se obter uma
distribuição de frequências, ilustrando-os com os dados do exemplo apresentado na Tabela 2.5.

Tabela 2.8. Número de ovos danificados por dúzia, e as frequências, para cada valor de X
(xi ), obtidas em uma inspeção feita em 30 embalagens de uma dúzia cada, em um
carregamento para o mercado municipal de Lavras, proveniente de uma cidade distante.

Número de ovos quebrados (xi ) Frequências (Fi )


0 13
1 9
2 3
3 3
4 1
5 1

Ferreira, D.F. Fundamentos de Matemática Estatística


2.1 Coleta, Organização e Apresentação de Dados 19

A primeira pergunta que deve ser respondida é de qual deve ser o número de classes (k) que
são formadas para sumariar os dados. Um critério empírico para isso baseia-se numa função do
tamanho amostral. Este critério está apresentado na Tabela 2.9.

Tabela 2.9. Critério empírico para determinar o número de classes (k) em função do tamanho
amostral (n).

Tamanho da amostra (n) Número de classes (k)



Até 100 n (inteiro mais próximo)
Acima de 100 5 log10 (n) (inteiro mais próximo)

Em seguida computa-se a amplitude total A por:

A = X(n) − X(1) . (2.1.1)

A representação X(i) , que aparece em 2.1.1, em que o índice se encontra dentro de parênteses,
refere-se ao valor da variável X cuja ordem na amostra ordenada de forma crescente é igual a i.
Essas estatísticas são chamadas de estatísticas de ordem. Assim, X(1) é a estatística de ordem do
menor valor e X(n) é a do maior.
Para o exemplo, tem-se:

A = X(n) − X(1) = 24,57 − 1,38 = 23,19.

Aplicando uma das fórmulas empíricas na Tabela 2.9, é possível determinar o número de classes,

que é k = 20 = 4,47 ≈ 4.
O próximo passo consiste em determinar a amplitude de uma classe específica, que é representada
por c. Por construção, considera-se que todas as classes têm a mesma amplitude. Dessa forma, a
regra para determinar a amplitude de classe c é dada por:

A
c= (2.1.2)
k−1

A razão para que o denominador da divisão seja k − 1 ao invés de k é explicada por uma
correção que é feita no limite inferior da primeira classe, considerando-se um valor menor que X(1) .
Essa correção é justificada pela suposição de que a amostra de tamanho n tem grande chance de não
conter o valor mínimo da população. Para o exemplo, c = 7,73. Com base nisso, o limite inferior
da primeira classe (LI1 ) é definido por:

c
LI1 = X(1) − , (2.1.3)
2

que para o exemplo é LI1 = −2,49.


O limite superior da primeira classe é então obtido somando-se, ao limite inferior dessa classe,
a amplitude de classe. O limite inferior da segunda classe é igualado ao limite superior da primeira
classe. O limite superior dessa classe é obtido somando-se a amplitude de classe ao limite inferior.
Fundamentos de Matemática Estatística Ferreira, D.F.
20 Estatística Descritiva

O processo é repetido para formar as demais classes, devendo ser interrompido quando a última
classe (k) for formada. Em seguida, são computadas as frequências dos indivíduos pertencentes a
cada classe (Fi , i = 1, 2, · · · , k) inspecionando-se os dados elaborados. As frequências relativas
(Fri ) e percentuais (Fpi ) são computadas e apresentadas na chamada tabela de distribuição de
frequências. Os resultados da distribuição de frequência dos dados da Tabela 2.5 estão apresentados
na Tabela 2.10. O símbolo `, usado para representar as classes, indica que o limite inferior, caso
ocorra na amostra, deverá ser computado para a classe atual e que o limite superior, caso ocorra,
deve ser computado para a classe seguinte. O ponto médio da classe i (X̄i ) é calculado pela média
dos limites de classe.
Tabela 2.10. Distribuição de frequências das produções de grãos em g/planta obtidas numa amostra
de n = 20 plantas de feijão da geração F2 do cruzamento das cultivar Flor de Maio e
Carioca.

Classes de peso x̄i Fi Fri Fpi (%)


−2,49 ` 5,25 1,38 6 0,30 30
5,25 ` 12,98 9,11 8 0,40 40
12,98 ` 20,71 16,84 4 0,20 20
20,71 ` 28,44 24,57 2 0,10 10

A representação gráfica dos dados apresentados na Tabela 2.10 é feita por meio do histograma e
polígono de frequências. O histograma é um gráfico de colunas cujas bases são proporcionais aos
intervalos de classe, e a altura a uma medida denominada densidade (f ), que é dada por: fi = Fi /ci .
No caso de amplitudes de classes iguais, o valor de c é constante para todas as classes, podendo
ser ignorado na construção do histograma. O polígono de frequências, por sua vez, é uma linha
poligonal que liga os pontos médios das classes nas ordenadas correspondentes às suas densidades
ou a suas frequências. O polígono de frequências e o histograma para os dados da Tabela 2.5 estão
apresentados na Figura 2.2.

Histograma
8

7 Polígono de freqüência

6
Freqüências

0
- 1 4 .0 8 - 6 .3 5 1 .3 8 9 .1 1 1 6 .8 4 2 4 .5 7 3 2 .3 0 4 0 .0 3

Classes de peso (g/planta)

Figura 2.2. Histograma e polígono de frequências das produções de grãos em g/planta obtidas numa
amostra de n = 20 plantas de feijão da geração F2 do cruzamento das cultivares Flor de
Maio e Carioca.

Outro tipo de representação dos dados contínuos é o do acúmulo das frequências para uma
Ferreira, D.F. Fundamentos de Matemática Estatística
2.1 Coleta, Organização e Apresentação de Dados 21

leitura rápida da proporção de dados que superam um determinado valor ou de quantos são inferiores
a este valor. Esse tipo de representação é denominado de distribuição de frequências acumuladas,
cujas representações gráficas correspondentes são denominadas de ogivas. Para construção dessa
distribuição, tomam-se os limites de classes e avaliam-se as quantidades acumuladas de elementos
amostrais que superam ou que são inferiores a esses limites. Na Tabela 2.11 estão apresentadas as
distribuições de frequências acumuladas dos dados de produtividades em g/plantas da Tabela 2.5.
A representação das frequências acumuladas está na Figura 2.3.

Tabela 2.11. Distribuição de frequências acumuladas das produções de grãos em g/planta obtidas
numa amostra de n = 20 plantas de feijão da geração F2 do cruzamento das cultivares
Flor de Maio e Carioca.

Limites (xi ) F C(X < xi ) F C(X ≥ xi )


−2,49 0 20
5,25 6 14
12,98 14 6
20,71 18 2
28,44 20 0

2 4 F C ( X < x i)
2 2 F C ( X > x i)
2 0
Freqüências acumuladas

1 8
1 6

1 4
1 2

1 0
8
6

2
0
-2 .4 9 5 .2 4 1 2 .9 7 2 0 .7 0 2 8 .4 3
P r o d u tiv id a d e s ( g /p la n ta )

Figura 2.3. Ogivas das produções de grãos em g/planta obtidas numa amostra de n = 20 plantas de
feijão da geração F2 do cruzamento das cultivares Flor de Maio e Carioca.

Fundamentos de Matemática Estatística Ferreira, D.F.


22 Estatística Descritiva

2.2 Medidas de tendência central

Pela concentração de dados de um conjunto de mensurações nas proximidades de alguns valores,


verifica-se que esses valores podem ser usados para representar todos os dados. Em outras palavras,
é possível afirmar que alguns valores podem ser representantes do conjunto de mensurações. Eles
são denominados de medidas de posição ou medidas de tendência central. A escolha de um tipo de
medida de posição depende principalmente da natureza da distribuição das mensurações, do tipo de
dado e das propriedades dos valores escolhidos. O termo medida de posição é usado para indicar,
ao longo da escala de medidas, onde a amostra ou população está locada.
Entre os vários tipos de medidas de posição destacam-se a média, a mediana e a moda. Outros
tipos, menos comuns, eventualmente são usados. Esses parâmetros são úteis por descreverem
propriedades da população. Nesta seção, serão discutidos tais parâmetros e os seus estimadores.

2.2.1 Média aritmética

A medida de posição mais comum, utilizada de forma intensa e extensiva, é a média aritmética,
geralmente denominada simplesmente por média. O conceito de média aritmética é familiar e
poderia se dizer, até mesmo, intuitivo: a média é a soma de todas as observações dividida pelo
número de dados envolvidos.
Cada variável na população será referenciada pelo valor Xi (leia-se X índice i). Então, a
primeira medida será X1 ; a segunda X2 ; a terceira X3 ; e assim sucessivamente. O subscrito i terá
uma amplitude de valores de 1 a N , o número total de valores da população, considerada finita.
Para indicar a soma dos valores de um conjunto de dados de uma forma concisa, será usada
a notação de somatório, representada pela letra maiúscula sigma (Σ), acompanhada do índice de
variação dos elementos que deverão ser somados:

N
X
Xi = X1 + X2 + · · · + XN (2.2.1)
i=1

A média de uma população é representada pela letra grega minúscula µ, sendo definida para
populações finitas por:

N
X
Xi
i=1 X1 + X2 + · · · + XN
µ= = (2.2.2)
N N

O mais eficiente, não viesado e consistente estimador da média populacional é a média amostral,
representada por X̄ (leia-se X barra). O tamanho amostral será representado por n. A média
amostral (X̄) é definida por:
n
X
Xi
i=1 X1 + X2 + · · · + Xn
X̄ = = (2.2.3)
n n

Para os dados agrupados em uma tabela de distribuição de frequência, como por exemplo, os
Ferreira, D.F. Fundamentos de Matemática Estatística
2.2 Medidas de tendência central 23

dados da Tabela 2.10, a média deve ser obtida ponderando-se o valor médio da classe pela sua
respectiva frequência:

k
X
Fi X̄i
i=1
X̄ = (2.2.4)
n

em que X̄i é o ponto médio e Fi é a frequência da classe i, para i = 1, 2, · · · , k; e k é o número de


classes.
O estimador da média, considerando dados quantitativos discretos, é dado por:

k
X
Fi Xi
i=1
X̄ = , (2.2.5)
n

em que k representa o número de categorias apresentadas pela variável discreta.


Tipicamente, para os dados da Tabela 2.8, pode-se verificar que o estimador 2.2.5 deve ser
usado. Nesse caso, k refere-se ao número de categorias, ou atributos, ou valores que os dados
podem ser classificados e Fi a frequência de cada uma dessas categorias. Para o exemplo dos dados
da Tabela 2.8, os valores de Xi variam de 0 a 5 ovos quebrados, tendo, portanto, 6 valores ou
categorias. Nesse caso, o valor de i é igual a 1 para o valor de X igual a 0, 2 para o valor 1, e assim
sucessivamente. Logo, X1 = 0, X2 = 1, e assim sucessivamente até X6 = 5, cujas frequências
são F1 = 13, F2 = 9 até F6 = 1.

Exemplo 2.1: Cálculo da média

Ilustrar o cálculo da média para os dados da Tabela 2.2 e 2.10 usando as expressões 2.2.3 e
2.2.4. Qual é a estimativa mais precisa? Qual é a razão da diferença entre elas?
Dados brutos da Tabela 2.2:

3,65 + 5,67 + · · · + 8,21 199,8


X̄ = = = 9,99
20 20

Dados agrupados da Tabela 2.10:

1,38 × 6 + 9,11 × 8 + 16,84 × 4 + 24,57 × 2 197,66


X̄ = = = 9,883
20 20

A estimativa mais precisa é obviamente a primeira, uma vez que, no segundo caso, os
pontos médios das classes, obtidos pela média dos limites dessas classes, foram usados
para representá-las. Essa é a principal razão da diferença e é conhecida como hipótese
tabular básica (HTB). Apesar das diferenças que foram encontradas, é possível utilizar o
estimador de dados agrupados em distribuições de frequências na ausência dos dados brutos
ou elaborados, uma vez que a perda de precisão, na maioria das situações, é considerada
desprezível.

Fundamentos de Matemática Estatística Ferreira, D.F.


24 Estatística Descritiva

A média possui as seguintes propriedades:

i) A soma dos desvios em relação à média é igual a zero para qualquer amostra:
n
X
(Xi − X̄) = 0
i=1

Demonstração:
n
X n
X n
X n
X
(Xi − X̄) = Xi − X̄ = Xi − nX̄.
i=1 i=1 i=1 i=1

Substituindo a definição da média amostral definida em 2.2.3 nessa expressão tem-se:

n
X
n n
n Xi n n
i=1
X X X X
(Xi − X̄) = Xi − = Xi − Xi = 0 c.q.d.
n
i=1 i=1 i=1 i=1

ii) A soma de quadrados de desvios em relação a uma constante arbitrária A, qualquer, será um
valor mínimo se A = X̄.
Fazendo:
n
X
D= (Xi − A)2
i=1

Expandindo o somatório e derivando D em relação a A tem-se:


n
X n
X
D= (Xi − A)2 = (Xi2 − 2AXi + A2 )
i=1 i=1
n
X n
X n
X
= Xi2 − 2AXi + A2
i=1 i=1 i=1
n
X n
X
= Xi2 − 2A Xi + nA2
i=1 i=1

n
dD X
= −2 Xi + 2nA
dA
i=1

Igualando a derivada a zero, e resolvendo em relação a A, tem-se:


n
dD X
= −2 Xi + 2nA = 0
dA
i=1
n
X
2nA = 2 Xi
i=1

Ferreira, D.F. Fundamentos de Matemática Estatística


2.2 Medidas de tendência central 25
n
X
Xi
i=1
A= = X̄
n

O ponto ótimo, obtido igualando a derivada primeira a zero, pode ser de máximo, de mínimo
ou de inflexão. Para certificar-se de que o valor de D é um valor mínimo, quando A é igual à
média amostral, basta mostrar que a segunda derivada é positiva. A segunda derivada de D em
relação a A é dada por:

d2 D
= 2n > 0
dA2

ou seja, a segunda derivada para qualquer tamanho de amostra será positiva.

iii) A soma ou subtração de uma constante (k) aos dados altera a média de tal forma que a nova
média é igual a média dos dados originais adicionada ou subtraída pela constante.
Sejam os novos dados obtidos pela adição ou subtração da constante k (Yi = Xi ± k) e a
média da amostra original dada por X̄ = ni=1 Xi /n, então a nova média será
P

n
X n
X
Yi (Xi ± k)
i=1 i=1
Ȳ = = =
n n
n
X n
X
Xi k
i=1 i=1 nk
= ± = X̄ ± = X̄ ± k c.q.d.
n n n

iv) A multiplicação dos dados ou divisão por uma constante (k) aos dados altera a média de tal
forma que a nova média é igual a média dos dados originais multiplicada ou dividida pela
constante.
Sejam os novos dados obtidos pela multiplicação da constante k, com k ∈ R, ou seja, Yi = kXi
e a média da amostra original dada por X̄ = ni=1 Xi /n, então a nova média será
P

n
X n
X n
X
Yi (kXi ) k Xi
i=1 i=1 i=1
Ȳ = = = = k X̄ c.q.d.
n n n

v) A média é influenciada por valores extremos. A média tenderá a ser grande, se existirem alguns
poucos valores que são maiores que a maioria das mensurações realizadas, ou a ser pequena,
se existirem na amostra alguns poucos valores menores que a maioria das mensurações.

2.2.2 Mediana
A mediana é uma medida típica de tendência central, sendo definida em um conjunto de dados
ordenados como o valor central, ou seja, o valor para o qual há o mesmo número de mensurações
que o superam quanto são superados por ele. A mediana amostral (md ) é o melhor estimador da
mediana populacional (µd ). Nas distribuições simétricas, a mediana também é um estimador não
Fundamentos de Matemática Estatística Ferreira, D.F.
26 Estatística Descritiva

viciado e consistente da média µ, embora não seja tão eficiente como X̄.
Para a estimação da mediana, é necessário ordenar-se os dados e obter os dados elaborados.
Essa ordem pode ser crescente ou decrescente, embora, no presente trabalho, sejam consideradas
somente as ordens crescentes. O estimador da mediana populacional (µd ) é dado por:

X n+1 se n for ímpar
 ( 2 )



md = (2.2.6)
X n + X( n+2 )
 (2)


2
se n for par

2
Para estimar a mediana a partir dos dados arranjados em uma tabela de distribuição de
frequências; é necessário definir a classe mediana e em seguida encontrar a mediana interpolando
os resultados. A posição mediana é obtida acumulando-se frequências das classes 1, 2, etc., até
encontrar o valor que seja igual ou imediatamente superior a n/2. Para ilustrar o processo, os dados
da Tabela 2.10 foram considerados. O valor de n é igual a 20, e n/2 é igual a 10. A frequência da
classe 1 é igual a 6, valor inferior a 10; a frequência acumulada das classes 1 e 2 é igual a 14, que
supera 10. Logo, a classe 2 é considerada a classe mediana. Sendo encontrada a classe mediana, o
estimador da mediana populacional é dado por:

0,5n − Fc
md = LImd + cmd (2.2.7)
Fmd

em que LImd , Fmd e cmd referem-se ao limite inferior, frequência e amplitude de classe da classe
mediana; Fc é a frequência acumulada das classes anteriores à classe mediana. Se a primeira classe
for a classe mediana, Fc será igual a 0.
A mediana é um estimador menos informativo que a média, pois só considera os postos
(posições) das observações e não os valores, como faz a média. No entanto, a mediana pode, em
algumas ocasiões, ser mais vantajosa que a média pelo fato de não ser afetada pelos extremos.
Assim, se as distribuições são assimétricas, a mediana pode ser uma melhor medida de tendência
central.
Exemplo 2.2: Mediana

Calcular a mediana dos dados das Tabelas 2.5, 2.8 e 2.10.


Dados da Tabela 2.5: n = 20 (par)

X( n ) + X( n+2 ) X(10) + X(11) 6,79 + 8,21


2 2
md = = = = 7,50 g/planta
2 2 2

Dados da Tabela 2.8: n = 30 (par)

X( n ) + X( n+2 ) X(15) + X(16) 1+1


2 2
md = = = = 1 ovo quebrado/dúzia
2 2 2

Verifica-se na Tabela 2.10: n = 20; posição mediana n/2 = 10; classe mediana é a 2a .

Ferreira, D.F. Fundamentos de Matemática Estatística


2.2 Medidas de tendência central 27

Logo,

0,5n − Fc 10 − 6
md = LImd + cmd = 5,25 + × 7,73 = 9,115 g/planta
Fmd 8

A mediana possui as seguintes propriedades:

i) A soma dos módulos dos desvios em relação a uma constante arbitrária A, qualquer, será um
valor mínimo se A = md .

n
X
D= |Xi − A| será um ponto de mínimo se A = md .
i=1

A prova dessa afirmativa é dada a seguir. Pode-se escrever D com uso da função indicadora,
IB (x), que retorna 1, se x ∈ B e 0, caso contrário, por
n
X n
X  
D= |Xi − A| = (Xi − A)I(A,∞) (Xi − A) − (Xi − A)I(−∞,A] (Xi − A) .
i=1 i=1

Assim, a derivada de primeira ordem de D em relação a A é


n
dD X  
= −I(A,∞) (Xi − A) + I(−∞,A] (Xi − A) .
dA
i=1

Portanto, fazendo dD/dA = 0, temos


n
X n
X
− I(A,∞) (Xi − A) + I(−∞,A] (Xi − A) =0
i=1 i=1

−n+ + n− =0
n− =n+ ,

em que n− e n+ são o número de valores Xi ’s inferiores e superiores a A, respectivamente, na


amostra de tamanho n.
Essa igualdade só ocorrerá, no caso de n par, se A for um valor entre X(n/2) e X((n+2)/2) .
Logo, a escolha natural de A é

X( n ) + X( n+2 )
2 2
A =md = .
2

Por outro lado, se n for ímpar, n− = n+ se A for igual a

A =md = X( n+1 ) ,
2

ficando completa a prova.


Fundamentos de Matemática Estatística Ferreira, D.F.
28 Estatística Descritiva

ii) A soma ou subtração de uma constante (k) aos dados altera a mediana de tal forma que a nova
mediana é igual a mediana dos dados originais adicionada ou subtraída pela constante.

Seja o i-ésimo novo dado amostral dado por Yi = Xi ± k, então

mdY = mdX ± k

iii) A multiplicação dos dados ou divisão por uma constante (k) aos dados altera a mediana de tal
forma que a nova mediana é igual a mediana dos dados originais multiplicada ou dividida pela
constante.

Sejam os novos dados obtidos pela adição ou subtração da constante k (Yi = kXi , com k ∈ R)
e a mediana da amostra original dada por mdX , então a nova mediana será

mdY = kmdX

iv) A mediana não é influenciada por valores extremos.

2.2.3 Outras medidas

Outras medidas de posição podem ser destacadas. Embora essas medidas sejam de uso menos
frequente, elas são abordadas por apresentarem relevâncias em situações específicas e por, nessas
ocasiões, se apresentarem como as medidas mais apropriadas para serem usadas. A moda é uma
dessas medidas típicas de tendência central, sendo definida de uma forma mais grosseira em um
conjunto de dados como o valor mais frequente. Uma melhor definição poderia ser dada por aquele
valor da variável em que há a mais densa concentração de valores na sua proximidade. A moda
amostral (mo ) é o melhor estimador da moda populacional (µo ). O processo de estimação da moda
de uma variável aleatória não é uma questão simples de ser respondida e depende da natureza dos
dados.
Para dados qualitativos nominais ou ordinais e para dados quantitativos discretos a definição de
moda, valor mais frequente da amostra, é usada para a estimação da moda populacional. Assim
aquele valor que mais se repete (mais frequente) na amostra será considerado como a moda amostral
dos dados. Naturalmente, é fácil perceber que um conjunto de dados desse tipo pode ter mais de
uma moda, ou até mesmo não apresentar moda, uma vez que nenhum valor se repete. Para ilustrar
o conceito de moda apresentado, considerar os dados da Tabela 2.7 e 2.8. A moda do primeiro
conjunto é o fenótipo “Amarela e Lisa”, pois apresenta a maior frequência (7) quando comparada
com as frequências das demais classes. Para o segundo conjunto de dados a moda é igual a 0, uma
vez que esse valor ocorreu em 13 das 30 embalagens, sendo o de maior frequência.
Para dados quantitativos contínuos, a definição de moda como o valor mais frequente de uma
amostra se torna inadequada. Nesse contexto, uma estimação da densidade dos valores da variável
sob estudo é necessária. Existem na literatura vários métodos de se estimarem densidades. Dentre
eles pode-se citar o histograma (polígono de frequências) e o estimador de “kernel”. O primeiro é
mais simples e foi apresentado na seção 2.1. Dessa forma, pode se definir a moda como o valor de
Ferreira, D.F. Fundamentos de Matemática Estatística
2.2 Medidas de tendência central 29

maior densidade, ou seja, a moda seria aquele valor da distribuição cuja frequência seria máxima,
ou ainda o ponto de máximo do polígono de frequências. Para encontrar tal valor pode-se utilizar
um estimador apropriado usando esse conceito e considerando a influência das classes vizinhas à
classe que a moda pertence.
Para estimar a moda é preciso, inicialmente, mencionar que a classe modal da distribuição
de frequências, classe na qual a moda está inserida, é aquela de maior frequência dentre todas
as classes. Se todas as classes tiverem as mesmas frequências, a distribuição não terá moda. Se
duas ou mais classes apresentarem frequências mais elevadas e idênticas, então a distribuição será
multimodal (bimodal, trimodal, etc.). O estimador da moda é dado por:

∆1
mo = LImo + cmo (2.2.8)
∆1 + ∆ 2

em que LImo e cmo são o limite inferior e a amplitude da classe modal; ∆1 e ∆2 são as diferenças
entre as frequências da classe modal e da imediatamente inferior e da imediatamente posterior,
respectivamente.
A principal ideia desse estimador é apresentar uma medida que considera a classe de maior
frequência e ainda considera a influência da frequência das classes vizinhas. Se as classes anterior e
posterior à classe modal tiverem a mesma frequência, então a moda será o ponto médio da classe;
caso contrário, a moda tenderá para o limite inferior ou superior da classe modal à medida que o
valor da frequência da classe anterior for maior que a da posterior ou frequência da classe posterior
for maior que a da anterior, respectivamente.

A D

∆2
C
∆1
E

L Im o
m o L S m o

Exemplo 2.3: Moda

Estimar a moda para os dados da Tabela 2.10 usando a expressão 2.2.8.


A classe modal é a segunda, pois sua frequência (8) é a maior de todas as classes. Assim, a
moda pertence à segunda classe. Os valores necessários para utilizar a expressão 2.2.8 são:
∆1 = 8 − 6 = 2; ∆2 = 8 − 4 = 4; LImo = 5,25; e cmo = 12,98 − 5,25 = 7,73, logo,

∆1 2
mo = LImo + cmo = 5,25 + × 7,73 = 7,8267
∆1 + ∆ 2 2+4

Fundamentos de Matemática Estatística Ferreira, D.F.


30 Estatística Descritiva

A moda possui as seguintes propriedades:

i) A soma ou subtração de uma constante (k) aos dados altera a moda de tal forma que a nova
moda é igual a moda dos dados originais adicionada ou subtraída pela constante. Sejam os
novos dados obtidos pela adição ou subtração da constante k (Yi = Xi ± k) e a moda da
amostra original dada por moX , então a nova moda será

moY = moX ± k

ii) A multiplicação dos dados ou divisão por uma constante (k) aos dados altera a moda de tal
forma que a nova moda é igual a moda dos dados originais multiplicada ou dividida pela
constante. Sejam os novos dados obtidos pela multiplicação da constante k (Yi = kXi ) e a
moda da amostra original dada por moX , então a nova moda será

moY = kmoX , k∈R

A média geométrica (X̄G ), outra medida de posição, é definida como sendo a raiz n-ésima do
produto dos n dados amostrais. O estimador dessa média é dado por:
v
u n
p
n
uY
X̄G = X1 × X2 × · · · × Xn = t
n
Xi ; Xi > 0, ∀ i = 1,2, · · · , n (2.2.9)
i=1

Q
em que o símbolo (letra grega maiúscula pi) significa “tomar o produto de”, que é análogo ao
significado de Σ, “tomar a soma de”. Esse símbolo é conhecido por produtório.
A tomada de logaritmos pode evitar problemas computacionais de se ter que trabalhar com
números de elevada magnitude. A expressão alternativa para o cálculo da média geométrica
apresentada em 2.2.9, considerando o uso do logaritmo neperiano (ln), cuja base é o número
neperiano e (2,71828 · · · ), é dada por:
 
ln(X1 ) + ln(X2 ) · · · ln(Xn )
X̄G = exp
n
 n 
X
 ln(Xi ) 
 i=1 
= exp   ; Xi > 0, ∀ i = 1,2, · · · , n. (2.2.10)

 n 

A média geométrica é apropriada para calcular médias de razões, de taxas de variações, de


índices econômicos e de taxa de crescimento de microorganismos. Para dados agrupados o estimador
é dado por:
 
k
X
 Fi ln(X̄i ) 
 
 i=1
X̄G = exp  ; X̄i > 0, ∀ i = 1,2, · · · , k (2.2.11)

 n 
 

Ferreira, D.F. Fundamentos de Matemática Estatística


2.2 Medidas de tendência central 31

A média harmônica, que é obtida tomando-se o recíproco da média aritmética dos recíprocos,
representa outra medida de tendência central, dada por:

1 n
X̄H = n = n (2.2.12)
1 X 1 X 1
n Xi Xi
i=1 i=1

A relação entre a média, média geométrica e média harmônica é dada por: X̄H ≤ X̄G ≤ X̄. A
igualdade só se verifica quando todos os valores da amostra forem iguais. Para dados agrupados, o
estimador da média harmônica é dado por:

1 n
X̄H = k
= k
(2.2.13)
1 X Fi X Fi
n X̄i X̄i
i=1 i=1

Fundamentos de Matemática Estatística Ferreira, D.F.


32 Estatística Descritiva

2.3 Medidas de dispersão ou de variabilidade


As diferenças observadas entre os elementos de uma amostra ou população definem o que
os estatísticos chamam de variabilidade ou dispersão do conjunto de mensurações. Se aplicadas
em uma população, são conhecidas por parâmetros de dispersão da população e, se aplicadas em
amostras, são denominadas de estimadores de dispersão.
As medidas de posição são importantes para caracterizar um conjunto de mensurações, mas
não são suficientes para caracterizar completamente a distribuição dos dados. Para enfatizar a
deficiência das medidas de posição são considerados 3 conjuntos de dados, relativos à produtividade
de 3 variedades de milho em t/ha. O conjunto A é relativo a um híbrido simples, o B, a um híbrido
triplo e o C, a uma variedade de polinização aberta.

A B C
4,27 3,44 1,27
4,60 3,76 3,30
4,72 4,55 3,50
4,95 4,86 5,25
4,99 5,30 5,44
5,17 5,42 5,51
5,21 5,81 5,72
5,42 5,89 6,04
5,63 5,94 6,39
6,00 5,99 8,54
X̄A = 5,096 X̄B = 5,096 X̄C = 5,096

Os três tipos de milho apresentaram a mesma média (5,096 t/ha) para as três variedades de
milho. É fácil para o leitor perceber, com uma inspeção mais criteriosa, que os conjuntos diferem
de forma razoável um do outro. O conjunto A, por se tratar de um tipo de milho em que não existem
variações genéticas entre as plantas, apresentou uma menor dispersão de valores em torno do valor
central (5,096), sendo seguido pelo híbrido triplo (B) e pela cultivar de polinização aberta (C).

2.3.1 Amplitude

A diferença entre a maior e a menor observação é denominada de amplitude (A), equação 2.1.1.
Essa medida de dispersão é bastante simples, fácil de ser obtida e de ser calculada, no entanto,
ela é uma pobre medida da dispersão por não considerar todas as mensurações, levando em conta
apenas os valores extremos (mínimo e máximo). Além disso, como é improvável que uma amostra
contenha os valores mínimo e máximo da população, a amplitude geralmente subestima a amplitude
populacional, sendo um estimador viesado e ineficiente. Deve ser considerada, ainda, a influência
negativa de possíveis “outliers”, que são mensurações discrepantes, no estimador da amplitude. A
mediana possui a mesma unidade de cada uma das mensurações amostrais individuais. O estimador
para dados em distribuições de frequências é dado por:

A = X̄k − X̄1 (2.3.1)

Ferreira, D.F. Fundamentos de Matemática Estatística


2.3 Medidas de dispersão ou de variabilidade 33

Apesar das limitações dessa medida de dispersão, a amplitude é usada para se ter uma indicação
rápida e fácil da variabilidade em diversas áreas. Para as cultivares de milho A, B e C anteriormente
apresentadas, as amplitudes foram 1,73 t/ha, 2,55 t/ha e 7,27 t/ha, respectivamente.

2.3.2 Variância

Outra forma de contornar o problema de a soma dos desvios, em relação à média aritmética, ser
sempre igual a zero é usar a soma de quadrados de desvios. A variância populacional é definida
dividindo-se a soma de quadrados de desvios pelo tamanho da população. A variância pode ser
considerada como um valor médio dos desvios ao quadrado, portanto, sendo conhecida, também,
por quadrado médio. As expressões apresentadas na sequência consideram populações finitas de
tamanho N . O símbolo usado para sua representação está consagrado na literatura estatística,
que é dado pela letra grega minúscula sigma, tomada ao quadrado (σ 2 ). A definição da variância
populacional é:

N
X
(Xi − µ)2
SQP i=1
σ2 = = (2.3.2)
N N

A variância amostral (S 2 ) poderia ser definida da mesma forma que a variância populacional,
substituindo-se N por n e µ por X̄. Isso, no entanto, não é feito, pois divide-se por n − 1 e não por
n a soma de quadrados de desvios. O estimador da variância populacional é dado por:
n
X
(Xi − X̄)2
SQ i=1
S2 = = (2.3.3)
n−1 n−1

em que quantidade n − 1, usada como divisora, é conhecida como graus de liberdade.


As expressões 2.3.2 e 2.3.3 são pouco usadas para o cálculo da variância. As expressões
equivalentes comumente usadas são:

N
!2 
X
N Xi 
2 1 X
i=1

σ = Xi2 − (2.3.4)
 
N N
 
 
 i=1 

e

n
!2 
X

n
Xi 
1 X
i=1

S2 = Xi2 − . (2.3.5)
 
n−1 n


 i=1 

O estimador da variância populacional, em dados agrupados em distribuições de frequência, é


Fundamentos de Matemática Estatística Ferreira, D.F.
34 Estatística Descritiva

dado por:

k
!2 
X

k
Fi X̄i 
1 X
i=1

S2 = Fi X̄i2 − (2.3.6)
 
n−1 n
 

 i=1 

A unidade da variância não é a mesma de cada mensuração. A variância tem a propriedade de


não se alterar quando os dados são adicionados ou subtraídos de uma constante, mas, quando esses
dados são multiplicados ou divididos por essa constante, a variância do novo conjunto é igual à
variância do conjunto original multiplicada ou dividida pela constante ao quadrado.

2.3.3 Desvio padrão


O desvio padrão é definido tomando-se a raiz quadrada da variância. Dessa forma o desvio
padrão é expresso na mesma unidade dos dados, sendo preferido pelos investigadores, por ser mais
fácil de interpretar. O desvio padrão populacional (σ) para populações finitas é definido por:
v
u 
N
!2 
u X
Xi
u  
N
u
u1 X 
i=1
σ=u Xi2 − (2.3.7)
 
uN N
u  
 
t  i=1 

O estimador amostral do desvio padrão populacional σ é um estimador viesado, embora seja


derivado de um estimador não-viesado, sendo obtido pela simples extração da raiz quadrada da
variância amostral. O estimador do desvio padrão populacional é dado por:
v
u 
n
!2 
u X
u
u  n Xi 
u 1  X 2 i=1

S=u Xi − . (2.3.8)

un − 1 
 n 
i=1
u  
t

Para os dados agrupados, o estimador do desvio padrão é:


v
u 
k
!2 
u X
Fi X̄i
u  k 
u
u 1  
X i=1
S=u Fi X̄i2 − . (2.3.9)
u 
u n − 1  i=1 n


t  

O desvio padrão, da mesma forma que a variância, não é afetado pela soma ou subtração de uma
constante aos dados. No entanto, ele se altera quando os dados são multiplicados ou divididos por
uma constante. Nesse caso, o novo desvio padrão será igual ao desvio padrão original multiplicado
ou dividido pela constante. Quando o desvio padrão é pequeno, próximo de zero, existirá uma
Ferreira, D.F. Fundamentos de Matemática Estatística
2.3 Medidas de dispersão ou de variabilidade 35

grande concentração dos dados em torno da média. Por outro lado, se o desvio padrão for grande os
valores não se concentrarão com tal intensidade em torno da média.

2.3.4 Coeficiente de variação

O desvio padrão e a variância são medidas da variabilidade absoluta dos dados. Essas medidas
são dependentes da grandeza, escala ou unidade de medida empregada para mensurar os dados.
Conjuntos de dados com diferentes unidades de medida não podem ter suas dispersões comparadas
pela variância ou pelo desvio padrão. Mesmo para uma única unidade, se os conjuntos possuem
médias de diferentes magnitudes, suas variabilidades não podem ser comparadas por essas medidas
de dispersão apresentadas. Uma medida da variabilidade relativa é dada pelo coeficiente de variação
(CV ). O coeficiente de variação populacional (CVp ) é dado por:

σ
CVp = × 100% (2.3.10)
µ

O estimador do coeficiente de variação populacional é dado por:

S
CV = × 100% (2.3.11)

O coeficiente de variação é a expressão do desvio padrão como porcentagem da média do


conjunto amostral de dados. É uma medida adimensional da variabilidade, ou seja, não possui
unidade de medida.
Exemplo 2.4: Medida de variabilidade relativa

A média e o desvio padrão da produtividade de duas cultivares de milho são: X̄A = 4,0 t/ha
e SA = 0,8 t/ha para a variedade de polinização aberta A e X̄B = 8,0 t/ha e SB = 1,2 t/ha
para o híbrido simples B. Qual das cultivares possui maior uniformidade de produção?
Se, ao inspecionar as estatísticas, apresentadas você fosse induzido a responder que a
variedade de polinização aberta A seria a que possui maior uniformidade e que a razão seria
o menor desvio padrão apresentado por ela (0,8 t/ha), você teria provavelmente cometido um
erro. O fundamento usado aqui para comparar a variabilidade das cultivares não foi correto,
uma vez que o desvio padrão é uma medida de variabilidade absoluta. Embora as unidades
não sejam diferentes, as médias das amostras o são. O procedimento adequado seria o de
estimar o CV para ambas as cultivares e compará-los. Os coeficientes de variação são:

SA 0,8
CVA = × 100 = × 100 = 20%
X̄A 4,0
SB 1,2
CVB = × 100 = × 100 = 15%
X̄B 8,0

É fácil observar que o milho híbrido simples (B) é o mais uniforme, pois possui um menor
CV do que o da variedade de polinização aberta (A). A genética explica isso, pois todas as
plantas de um milho híbrido simples têm a mesma constituição genotípica, o que não ocorre
para a variedade de polinização aberta.

Fundamentos de Matemática Estatística Ferreira, D.F.


36 Estatística Descritiva

2.3.5 Erro padrão da média

Para definir o erro padrão da média suponha que amostras aleatórias de tamanho n são retiradas
de uma população e que em cada amostra seja estimada a média. Se for computado o desvio padrão
da população formada por todas as estimativas de médias obtidas, o valor encontrado é conhecido
como erro padrão da média. O erro padrão da média (σX̄ ) é dado pela razão entre o desvio padrão
populacional e a raiz do tamanho da amostra por:

σ
σX̄ = √ (2.3.12)
n

As razões da necessidade de um estimador do erro padrão da média são: a) não se conhece,


em geral, o desvio padrão populacional; b) na maioria das situações reais não é possível retirar
todas as amostras de uma população; e c) em geral, apenas uma amostra é extraída da população. O
estimador desse parâmetro é dado por:

S
SX̄ = √ (2.3.13)
n

O erro padrão da média é uma medida da dispersão das médias amostrais em torno da média
da população. É fácil perceber que quanto menor for o seu valor, mais provável será a chance de
obter a média da amostra nas proximidades da média da população, e quanto maior for, menos
provável se torna esse evento. Assim, o erro padrão da média é um estimador da precisão da
estimativa de uma média populacional. Gomes (1991, 2000) propõe uma medida relativa dessa
variabilidade das médias amostrais em torno da média populacional. Essa medida de variabilidade
relativa foi denominada aqui por coeficiente de precisão e por Gomes (1991) por índice de variação.
O coeficiente de precisão (CP ) é definido por:

SX̄
CP = × 100% (2.3.14)

A importância do erro padrão da média na inferência estatística será evidente para o leitor
nos Capítulos relacionados à estimação e testes de hipóteses sobre médias. O erro padrão é uma
característica de todo estimador. Todo estimador possui um erro padrão peculiar definido pelo
desvio padrão da distribuição amostral de todas as estimativas obtidas das possíveis amostras, de
tamanho n, extraídas da população de referência.

2.4 Estatísticas descritivas da distribuição

As medidas de posição e de dispersão fornecem importantes informações de locação e de


variabilidade da distribuição de referência. Os procedimentos gráficos também são importantes
descritores da distribuição. A forma da distribuição dos dados é extremamente importante na
estatística. Os estatísticos constroem modelos para dados, como já foi discutido anteriormente, e
esses modelos servirão de base para a inferência. Os estatísticos constroem modelos para dados,
como já foi discutido anteriormente, e esses modelos servirão de base para a inferência. Esses,
por sua vez, possuem diferentes formas, tornando essencial para os estatísticos e investigadores
Ferreira, D.F. Fundamentos de Matemática Estatística
2.4 Estatísticas descritivas da distribuição 37

determinarem a forma da distribuição dos dados amostrais, para realizarem escolhas acertadas do
modelo probabilístico ou daquele modelo que mais se aproxima da realidade.

2.4.1 Procedimentos gráficos


Os procedimentos gráficos apresentados na seção 2.1 também são importantes informantes
da distribuição. A forma da distribuição dos dados é extremamente importante na estatística. Os
estatísticos constroem modelos para dados, como já foi discutido anteriormente, e esses modelos
servirão de base para a inferência.
Vários métodos e procedimentos na literatura existem para estimar a forma da distribuição
amostral. Os histogramas e polígonos de frequências são os mais comuns e simples de implementar
(Silverman, 1990; Härdle e Simar, 2003). As distribuições podem ter várias formas, dentre as
quais, algumas estão apresentadas na Figura 2.4. É importante salientar que a forma de sino
simétrica (Figura 2.4 (c)) está relacionada com a forma do mais notável modelo probabilístico.
Esse é denominado de modelo normal de probabilidade ou modelo Gaussiano. Convém salientar
que a distribuição apresentada 2.4 (a) é também simétrica, e que as distribuições 2.4 (b) e (d) são
assimétricas à direita.

2.4.2 Momentos
Os momentos populacionais centrados na média (µr ) são definidos na sequência. O coeficiente
r da expressão é a ordem do momento. Assim, para r = 1 tem-se o momento de primeira ordem, o
qual é sempre igual a zero; para r = 2, o momento de ordem 2, que é a variância da população;
para r = 3, o momento de assimetria de ordem 3; para r = 4, o momento de curtose de ordem 4; e
assim por diante. É conveniente salientar que a definição de momento populacional dada por:

N
X
(Xi − µ)r
µr = i=1 , (2.4.1)
N

refere-se à população finita.


O estimador amostral (mr ) para o momento centrado de ordem r é dado por:
n
X
(Xi − X̄)r
mr = i=1 . (2.4.2)
n

2.4.3 Coeficiente de assimetria



O coeficiente de assimetria populacional ( β1 ) é uma forma padronizada do estimador do

momento de assimetria (r = 3). Seu estimador ( b1 ) é dado pela razão do momento amostral de
ordem 3 pelo de ordem 2, na potência de 3/2, da seguinte forma:
p m3
b1 = 3 (2.4.3)
(m2 ) 2

As populações cuja distribuição é simétrica apresentam valor do coeficiente de assimetria nulo,


Fundamentos de Matemática Estatística Ferreira, D.F.
38 Estatística Descritiva

(a) (b)

(c) (d)

(e)

Figura 2.4. Formas das distribuições de frequência em situações reais: (a) distribuição em forma de
U; (b) distribuição em forma de J invertido; (c) distribuição em forma de sino simétrica;
(d) distribuição assimétrica à direita; e (e) distribuição assimétrica à esquerda.


ou seja, β1 = 0 (Figura 2.4 (c)). As distribuições assimétricas à direita (assimetria positiva)

apresentam β1 > 0 (Figura 2.4 (d)), e as assimétricas à esquerda (assimetria negativa) apresentam

β1 < 0 (Figura 2.4 (e)).

2.4.4 Coeficiente de curtose

O grau de achatamento de uma distribuição é denominado de curtose. É fácil de perceber,


pela própria definição, que a curtose de uma distribuição deve ser analisada considerando-se
alguma referência. Como já se comentou anteriormente, a distribuição normal de probabilidade é
considerada a distribuição de referência. A distribuição normal possui coeficiente de curtose igual
a 3. Para medir a curtose, define-se o estimador (b2 ) do coeficiente de curtose por:

m4
b2 = . (2.4.4)
m22

Ferreira, D.F. Fundamentos de Matemática Estatística


2.4 Estatísticas descritivas da distribuição 39

Na Figura 2.5 foram ilustrados os três tipos de curvas quanto ao grau de achatamento.

Leptocúrtica

Mesocúrtica

Platicúrtica

µ x

Figura 2.5. Formas das distribuições de frequência quanto ao grau de achatamento mostrando as
curvas leptocúrticas, mesocúrticas e platicúrticas.

As distribuições que possuem valor de curtose igual a 3 são denominadas mesocúrticas. Aquelas
que possuem β2 > 3 são denominadas de leptocúrticas e as que possuem β2 < 3 são as platicúrticas.
As distribuições leptocúrticas são aquelas que possuem uma concentração de valores (mensurações)
próxima ao valor central maior que a da distribuição normal (mesocúrtica). Nas distribuições
platicúrticas, por sua vez, ocorre o contrário, ou seja, uma menor concentração de valores em torno
do centro da distribuição.

Fundamentos de Matemática Estatística Ferreira, D.F.


Amostragem
3
A realização de pesquisas é baseada em questões relativas às tomadas de observações da
realidade, ou seja, obter uma amostra dessa realidade. A busca de delineamentos adequados
para assegurar o valor científico das informações e conclusões aventadas é sempre realizada
pelos cientistas. O delineamento é o plano estratégico de observação da realidade. A validade é
assegurada pela aleatorização, ou seja, alocação aleatória das variáveis independentes às unidades
experimentais.
Os levantamentos por amostragem têm a finalidade de reproduzir a realidade estudada. Esses
levantamentos se aplicam ao conjunto real composto de elementos, denominado de população de
estudo. Os elementos podem ser seres humanos, árvores, domicílios, animais, áreas ou objetos. Os
dados são coletados em amostras da população de estudo e as medidas calculadas (estimativas)
passam a ser as informações disponíveis para os valores populacionais desconhecidos (parâmetros).
Numa fase inicial dos levantamentos amostrais é necessário formular o problema e aventar
hipóteses sobre o objeto de estudo ou expectativas sobre os possíveis resultados. Ainda nessa fase
inicial, o investigador deve definir a população de estudo, parte identificável e acessível da população
objeto, os objetivos e as variáveis observadas. Numa segunda etapa é realizado o planejamento,
elaborando o plano de amostragem ou determinando o caminho a ser percorrido para atingir os
objetivos propostos.

3.1 Amostragem probabilística e não probabilística

Os levantamentos por amostragem permitem obter informações a respeito de valores populacio-


nais desconhecidos, por meio da observação de apenas uma parte (amostra) do universo de estudo
(população). Os elementos da população são as unidades de observação e de análise. O conceito de
população do ponto de vista matemático é dado pelo conjunto de elementos que possuem ao menos
Fundamentos de Matemática Estatística Ferreira, D.F.
42 Amostragem

uma característica comum. Na prática, esse conjunto de elementos deve ser definido considerando,
ainda, sua localização no espaço e no tempo. A unidade amostral é a mesma unidade de observação
e de análise, sendo a menor parte distinta da população.
Dentre os vários processos existentes para a obtenção de amostras, a amostragem probabilística
caracteriza-se por garantir, a priori, que todo elemento pertencente ao universo de estudo possua
probabilidade, conhecida e diferente de zero, de pertencer à amostra sorteada. A identificação,
direta ou indireta, dos elementos e o uso de sorteio fundamentam as propriedades matemáticas desse
tipo de processo. Se por qualquer razão, alguns elementos da população não puderem pertencer à
amostra sorteada, a amostragem é dita não probabilística.
Alguns tipos de amostragem não probabilísticos podem ser empregados quando a população de
estudo não é totalmente acessível, quando a amostragem é realizada a esmo, ou seja, sem sorteio, e
quando a população é formada de material contínuo (líquido ou gás), em que o uso de sorteio não é
possível.

3.2 Principais processos de amostragem probabilística


Vários processos de amostragem probabilística existem e alguns deles são descritos a seguir.

3.2.1 Amostragem casual simples

A amostragem casual simples é o processo de amostragem probabilística na qual, qualquer


combinação dos n elementos da amostra, retirada dos N elementos populacionais que compõem a
população, tem igual probabilidade de vir a ser sorteada (Cochran, 1977). O número possível de
amostras de tamanho n que podem ser retiradas de uma população de tamanho N é dado por:
 
n N N!
CN = =
n n!(N − n)!
n
Nesse tipo de amostragem cada uma dessas combinações tem chance de 1/CN de ser retirada.
Se os elementos amostrados da população são removidos para as sucessivas retiradas subse-
quentes, esse método é denominado de amostragem simples ao acaso sem reposição. Se por outro
lado os elementos populacionais são repostos após uma retirada, a amostragem é dita com reposição.
À primeira vista, e intuitivamente, pode-se deduzir que não é muito vantajoso que um mesmo
elemento apareça duas, três ou mais vezes na amostra. Se a população é muito grande os tipos de
amostragem, com ou sem reposição, não apresentam grandes diferenças.
O processo de sorteio de uma amostra aleatória simples pode ser feito por meio de tabelas
de números aleatórios, sorteio por funções de geradores de números aleatórios em programas de
computadores, por uso de bolas enumeradas em urnas ou papéis enumerados em algum tipo de
recipiente.
A população submetida a esse tipo de amostragem é, em geral, finita, cujos elementos possam
ser identificados em uma listagem enumerada. Outra característica exigida para que haja sucesso da
amostragem, ou seja, para que estimativas fidedignas dos parâmetros populacionais possam ser
obtidas, refere-se a uma homogeneidade entre os elementos dessa população. Essa homogeneidade
interna da população é um tanto quanto difícil de ser caracterizada nas situações práticas com que o
Ferreira, D.F. Fundamentos de Matemática Estatística
3.2 Principais processos de amostragem probabilística 43

investigador se depara.

3.2.2 Amostragem estratificada

O sistema de obtenção de amostras em que a população de N elementos é previamente


dividida em grupos mutuamente exclusivos, denominados de estratos, e dentro dos quais são
sorteadas amostras casuais simples de tamanho nh , chama-se amostragem estratificada aleatória,
ou simplesmente amostragem estratificada (Cochran, 1977). As subpopulações ou estratos são
subdivididos previamente em grupos de tamanhos N1 , N2 , N3 , · · · , NL unidades, mutuamente
exclusivos, de tal sorte que N = L
P
h=1 Nh . Após os estratos terem sido identificados, uma amostra
casual simples é retirada de cada estrato, cujos tamanhos são n1 , n2 , n3 , · · · , nL , considerando
n= L
P
h=1 nh .
Uma das principais razões para se usar a estratificação fundamenta-se na premissa de que esse
processo leva a um ganho de precisão na estimação de parâmetros da população. Isso realmente
ocorre, pois é possível subdividir uma população heterogênea em subpopulações internamente
homogêneas.
As notações que estão sendo empregadas até o momento usam o índice h para identificar um
estrato e o índice i para definir um elemento dentro de um estrato. Assim, Nh e nh são os tamanhos
do estrato h populacional e amostral, respectivamente; Xhi é o valor da observação i no estrato h.
Será considerado, também, que fh = nh /Nh representa a fração amostral.
A média e a variância populacional do estrato h são definidas por:

Nh
X
Xhi
i=1
µh = (3.2.1)
Nh

e

Nh
!2 
X
N Xhi 
h
1 X
i=1

σh2 = 2
Xhi − . (3.2.2)
 
Nh Nh

 
 i=1 

Os estimadores da média e da variância do estrato h são dados por:


nh
X
Xhi
i=1
X̄h = (3.2.3)
nh

e

nh
!2 
X
n Xhi 
h
1 X
i=1

Sh2 = 2
Xhi − . (3.2.4)
 
nh − 1  nh


 i=1 

Fundamentos de Matemática Estatística Ferreira, D.F.


44 Amostragem

Finalmente, é possível apresentar o estimador da média populacional global. Dois estimadores


distintos podem ser utilizados. O primeiro, e mais geral, estimador da média populacional é a
média ponderada das médias dos L estratos populacionais. Os pesos são os tamanhos dos estratos
populacionais. Esse estimador é dado por:

L
X
Nh X̄h
h=1
X̄est = . (3.2.5)
N

O segundo estimador é praticamente igual ao primeiro, diferenciando apenas nos pesos utilizados,
que agora são os tamanhos dos estratos amostrais. O segundo estimador da média populacional é
dado por

L
X
nh X̄h
h=1
X̄ = . (3.2.6)
n

Os estimadores 3.2.5 e 3.2.6 são equivalentes quando a fração amostral de cada estrato é
equivalente à fração populacional de cada estrato, ou seja, quando

nh Nh nh n
= ou = .
n N Nh N

Esse tipo de amostragem estratificada em que a fração amostral é igual em todos os estratos
é conhecido como alocação proporcional ou partilha proporcional. No exemplo 3.1 relativo à
amostragem estratificada proporcional ilustram-se as etapas desse processo. Em cada estrato, após
a definição do seu tamanho amostral, realiza-se uma amostragem simples ao acaso.

Exemplo 3.1: Amostragem estratificada proporcional

Ilustrar o procedimento de amostragem estratificada proporcional em uma população fictícia


de uma região, cujo interesse era obter informações sobre parâmetros de tecnologia dos
produtores agrícolas da região. Usou-se para a estratificação o tamanho das propriedades
por inferir que essa seria uma variável que estaria estreitamente relacionada com as variáveis
de tecnologia usada pelos agricultores da região estudada. Os estratos populacionais em
classe de áreas com o número de agricultores de cada uma dessas classes de área de suas
propriedades rurais em ha são relacionados a seguir. Os tamanhos de amostra necessários
foram obtidos seguindo a proporcionalidade de cada fração amostral para todos os estratos e
estão apresentados juntamente com as demais informações comentadas. A expressão para se
obter os tamanhos de amostra de cada estrato está apresentada a seguir, considerando uma
amostra de n = 50 propriedades.

Nh
nh = ×n
N

Ferreira, D.F. Fundamentos de Matemática Estatística


3.2 Principais processos de amostragem probabilística 45

Estratos Número de propriedades Tamanho amostral


(áreas em ha) Nh nh
0` 2 500 25
2` 5 320 16
5 ` 10 100 5
10 ` 20 50 3
20 ` 40 30 1
Totais 1.000 50

Assim, para ilustrar, o tamanho amostral do estrato 1 (propriedades com áreas entre 0 e 2
ha), foi determinado por

N1 500
n1 = ×n= × 50 = 25.
N 1.000

Os demais estratos da amostra foram dimensionados de forma similar. Determinados valores


tiveram que ser arredondados, uma vez que o tamanho amostral de cada estrato deve ser
um número inteiro. O valor de f , fração amostral, é n/N = 0,05. Desde que o tamanho
de cada estrato ficou estabelecido, h = 1, 2, · · · , 5 , o próximo passo pode ser realizado.
Com a listagem dos produtores de cada um deles, realiza-se um sorteio simples ao acaso
conforme descrito na seção 3.2.1.

Outro tipo de amostragem estratificada que pode ser considerado é o da alocação uniforme ou
da partilha uniforme. Nesse tipo de alocação o tamanho de cada estrato amostral é o mesmo. Essa
alocação é raramente usada, devendo ser recomendada apenas para situações em que os estratos
populacionais forem uniformes em tamanho. Nesse caso, os tamanhos dos estratos da amostra são
dados por:

n
nh = .
L

Um terceiro tipo de alocação ou partilha é a alocação ótima ou partilha ótima. Nesse tipo
de partilha é necessário conhecer o tamanho e o desvio padrão de cada estrato populacional. A
partilha ótima foi desenvolvida com a finalidade de alocar elementos para cada um dos L estratos
de tal sorte que se minimizariam o custo e a variância da estimativa da média populacional. Se
o custo da amostragem de cada elemento nos diferentes estratos for o mesmo, as expressões para
o dimensionamento da amostra são simplificadas. Esse caso especial é conhecido como partilha
ótima de Neyman (1934). A alocação das unidades da amostra para cada estrato é dada por:

Nh σh
nh = L
× n.
X
Nh σh
h=1

Pode ser facilmente observado, por meio dessa expressão, que o investigador tomará uma grande
amostra em um dado estrato se o estrato for grande ou se possuir uma elevada variabilidade interna.
Fundamentos de Matemática Estatística Ferreira, D.F.
46 Amostragem

Esse tipo de amostragem é um tanto quanto teórica, uma vez que nas situações reais o investigador
não conhece os valores dos desvios padrões populacionais (σh ). As formas usadas para contornar
esse tipo de problema são: a) obter uma amostra inicial pequena, amostra piloto, de cada estrato
usando a partilha proporcional e estimar o desvio padrão de cada estrato; b) usar o desvio padrão
da variável de estratificação que tem influência nas variáveis sob estudo e de interesse direto do
investigador.
No exemplo 3.2 os dados do exemplo 3.1 são novamente abordados, sendo acrescentada, ainda,
a informação dos desvios padrões de cada estrato para a variável de estratificação.

Exemplo 3.2: Amostragem estratificada

tima Ilustrar o procedimento de amostragem estratificada ótima (partilha de Neyman) na


população usada no exemplo 3.1, dado agora o desvio padrão de cada estrato para a variável
de estratificação.

Estratos Número de Tamanho amostral


(áreas em ha) propriedades Nh σh nh
0` 2 500 0,5 9
2` 5 320 1,2 13
5 ` 10 100 2,5 9
10 ` 20 50 5,0 9
20 ` 40 30 10,0 10
P5
Totais 1.000 h=1 Nh σh = 1.434 50

Assim, para ilustrar, o tamanho amostral do estrato 1 (propriedades com áreas entre 0 e 2
ha), foi determinado por:

N1 σ1 250
n1 = 5
×n= × 50 = 8,72 ∼
= 9.
X 1.434
Nh σh
h=1

Os demais estratos são dimensionados de forma similar a essa. Os elementos de cada


estrato devem ser selecionados usando-se uma amostragem aleatória simples. É conveniente
comentar as diferenças encontradas com relação aos tamanhos dos estratos da partilha
proporcional e ótima. O estrato 1, por exemplo, com menor variabilidade entre todos, teve
seu tamanho muito reduzido na partilha ótima. Isso é fácil de entender se for considerado que
os estratos com menor variabilidade são mais uniformes internamente e necessitam de menos
elementos para representá-los. Já o estrato 5, cujas propriedades possuem áreas maiores, teve
seu tamanho incrementado de 9 elementos quando comparado com aquele dimensionado
para a partilha proporcional. Esse estrato possui a maior variabilidade de todos, e por isso é
internamente heterogêneo, necessitando de mais elementos para representá-lo.

Ferreira, D.F. Fundamentos de Matemática Estatística


3.2 Principais processos de amostragem probabilística 47

3.2.3 Amostragem sistemática


A amostragem sistemática é um tipo de amostragem em que o plano de amostragem é obtido por
um critério pelo qual intervalos regulares de mesmo tamanho entre unidades da amostra são tomados
até se compor uma amostra de tamanho n e toda a extensão da localização física da população
alvo. Para implementar esse sorteio os N elementos populacionais são tomados a cada k = N/n
elementos. O primeiro elemento deve ser sorteado entre os k primeiros. Se, por exemplo, uma
população de N = 10.000 elementos é considerada e deseja-se extrair uma amostra de tamanho
n = 500, então k será de 10.000/500 = 20. Assim, se o elemento 11 for o primeiro a ser sorteado
entre os 20 primeiros, a amostra fica determinada da seguinte forma: 11, 31, 51, e assim por diante.
A seleção da primeira unidade define a amostra toda.
Esse tipo de amostragem é fácil de ser executada e provavelmente é mais precisa que a amostra
casual simples. A razão disso, segundo Cochran (1977), é a subdivisão da população em k estratos
e a obtenção de um elemento por estrato. A diferença dessa amostragem para a amostragem
estratificada original é que o elemento sorteado está na mesma posição relativa dos estratos. Por
outro lado, devido a esse tipo de amostragem cobrir de forma mais regular a população em toda sua
extensão que a amostragem estratificada aleatória, essa é considerada mais precisa.
Muitas vezes a população não pode ser ordenada em uma dimensão apenas. As posições das
unidades da amostra são definidas por duas dimensões (coordenadas). A forma de amostrar deve
considerar um gride alinhado ou não-alinhado. No gride alinhado, a sequência de unidades na
horizontal, ou na vertical, segue a mesma distância ou alinhamento. No gride não-alinhado essa
disposição não obedece a essa regra. A Figura 3.1 mostra um exemplo em um gride 3 × 3, alinhado
(a) e não-alinhado (b).

x x x x

x
x

x x x x

x
x

x x x x

(a) (b)
Figura 3.1. Dois tipos de amostragem sistemática bidimensional mostrando a) gride quadrado
alinhado e b) gride quadrado não-alinhado.

3.2.4 Amostragem por conglomerado


Quando os elementos da população são reunidos em grupos que são sorteados para compor a
amostra, o processo é denominado de amostragem por conglomerado (Silva, 1998). A razão de se
Fundamentos de Matemática Estatística Ferreira, D.F.
48 Amostragem

usar um tipo de amostragem como esse é principalmente motivada por critérios de ordem prática.
Dentre esses critérios destaca-se a ausência de uma listagem de todos os elementos populacionais.
Em geral, o sorteio é feito em estágios sucessivos. Assim, por exemplo, se for considerado o
sorteio de uma amostra de 500 propriedades rurais em um dos Estados da federação, poder-se-ia
considerar o sorteio de 50 municípios e 10 propriedades de cada, ou de sorteio de 25 municípios e
20 propriedades em cada, e assim por diante. A economia nesse tipo de amostragem é evidente,
pois o método dispensa a listagem de referência ou cadastro de toda a população.

Ferreira, D.F. Fundamentos de Matemática Estatística


Cálculo de Probabilidades e Suas Leis
4
4.1 Introdução

A maior parte dos fenômenos estudados nas diversas áreas da ciência possui um componente
de incerteza e, por isso, são conhecidos por fenômenos aleatórios. A probabilidade é uma área
da ciência apropriada para estudar essas incertezas. Portanto, é a base em que todos os métodos
estatísticos são construídos, fornecendo regras matemáticas para entender e analisar os padrões
de aleatoriedade dos fenômenos sob obervação. As ferramentas matemáticas para descrever a
aleatoriedade são as funções de distribuição, densidade ou de probabilidade. Os fundamentos da
probabilidade residem na teoria da medida. Esse capítulo ilustra apenas alguns dos principais
conceitos e notações da teoria da medida no contexto do estudo das probabilidades.
Fisher considerou que a estatística constitui-se de três problemas básicos. O primeiro problema
refere-se a má especificação do modelo probabilístico referente ao fenômeno. Uma escolha
inadequada irá ter sérias consequências para a validade das conclusões. Em segundo lugar,
ele considerou o problema de estimação. Nesse caso, devemos determinar o melhor estimador
ou estatística para descrever os parâmetros ou alguma característica do modelo matemático
especificado. Somente, conhecendo-se o modelo populacional podemos fazer essa escolha
apropriadamente, utilizando, principalmente, o princípio da suficiência estatística. Finalmente,
o terceiro problema apontado por ele, refere-se à distribuição. Nesse caso, devemos derivar
as distribuições probabilísticas dos estimadores ou das estatísticas. Apenas um conhecimento
aprofundado da teoria probabilística e da distribuição de amostragem nos possibilita determinar
tais distribuições adequadamente. Portanto, a base de todo o processo é a teoria probabilística.
O entendimento de suas características, propriedades, entre outros aspectos é de fundamental
importância para o desenvolvimento continuado da teoria estatística e para o entendimento da teoria,
até o presente momento, existente.
Fundamentos de Matemática Estatística Ferreira, D.F.
50 Cálculo de Probabilidades e Suas Leis

O nosso objetivo ao estudar probabilidade é bem restrito. Vamos focar os tópicos que são centrais
para um entendimento básico e que tenham conexão direta com os problemas de inferência estatística.
Além de algumas definições fundamentais, vamos considerar alguns axiomas (propriedades básicas),
interpretações e propriedades de probabilidade.

4.2 Espaço Amostral e Eventos

Vamos considerar o espaço amostral Ω correspondente ao conjunto total de elementos dos


resultados possíveis em que um experimento aleatório pode ocorrer.

Definição 4.1: Espaço amostral Ω

O espaço amostral Ω é o conjunto de todos os possíveis resultados, ω, de um determinado


experimento aleatório.

A entidade fundamental para as quais as probabilidades são atribuídas são os eventos, subcon-
juntos na teoria fundamental dos conjuntos. Os eventos são subconjuntos dos possíveis resultados
de um experimento aleatório, que é o espaço amostral Ω (definição 4.1).

Definição 4.2: Eventos

Um elemento ω do espaço amostral Ω é um resultado. Um conjunto de resultados, ou


equivalentemente, um subconjunto qualquer do espaço amostral é denominado de evento.
Como possíveis eventos estão incluídos o conjunto vazio φ e o próprio espaço amostral Ω.
Um evento é considerado simples quando ele é formado por um único resultado (elemento
de Ω) ou composto, quando é constituído de mais de um elemento do espaço amostral.

Assim, os eventos são simplesmente coleções de resultados de experimentos. Um problema


técnico na teoria da medida surge quando lidamos com espaços amostrais não contáveis infinitos,
pois para certos subconjuntos complicados não é possível atribuir probabilidades. Por essa razão,
em um tratamento mais técnico da teoria da probabilidade, devemos definir eventos no conjunto
dos subconjuntos mensuráveis do espaço amostral. De uma maneira prática, consideraremos os
eventos de interesse como sendo mensuráveis, ou seja, como subconjuntos desse conjunto de
eventos especial, o qual definiremos posteriormente.
Devemos definir o que significa dizer que um evento A ocorreu. Esse conceito é muito
importante para atribuirmos medidas de probabilidades para esse evento.

Definição 4.3: Ocorrência de um evento

Um evento ocorre quando o resultado do experimento é um elemento do evento. Formalmente,


se ω é o resultado do experimento, com ω ∈ Ω, então, o evento A terá ocorrido se e somente
se ω ∈ A.

Um outro conceito importante é o de eventos disjuntos ou mutuamente excludentes ou exclusivos.


Ferreira, D.F. Fundamentos de Matemática Estatística
4.3 Definições de Probabilidade Não-Axiomáticas 51

Definição 4.4: Eventos mutuamente excludentes

Os eventos A1 , A2 , . . ., An são ditos mutuamente excludentes ou exclusivos, se eles não


tiverem resultados em comum, que pode ser formalizado por Ai ∩ Aj = φ, sendo φ o
conjunto vazio, considerando todos os pares i 6= j = 1, 2, . . ., n. Podemos dizer que os
eventos, assim definidos, são disjuntos, pois não podem ocorrer simultaneamente.

Portanto, eventos disjuntos são aqueles que não podem ocorrer simultaneamente, conforme
definição anterior.

4.3 Definições de Probabilidade Não-Axiomáticas


Vamos apresentar três definições não-axiomáticas importantes de probabilidades, as quais são
casos particulares da definição formal e moderna da teoria da probabilidade. Vamos discutir cada
uma delas brevemente, antes de apresentarmos a definição axiomática, na próxima seção. Vamos
considerar um espaço amostral finito para o qual definimos sua cardinalidade por |Ω|, ou seja, |Ω|
representa o número de pontos (resultados) do espaço amostral Ω. Da mesma forma, vamos definir
que |A|, representa a cardinalidade do evento A, ou seja, a quantidade de pontos que constituem
esse evento.
Definição 4.5: Definição clássica de probabilidade

Considerando Ω, como o espaço amostral de algum experimento tendo um número finito de


pontos |Ω| igualmente prováveis (equiprováveis) e A ⊂ Ω, um evento do espaço amostral,
contendo |A| pontos, então a probabilidade desse evento A é definida por P (A) = |A|/|Ω|.

Pela definição clássica, como A ⊆ Ω, então |A| ≤ |Ω|, então 0 ≤ P (A) ≤ 1. As duas
principais limitações da definição clássica, que restringem o seu uso para se criar uma teoria geral
de probabilidade, são: a) o espaço amostral deve ser finito, ou seja, |Ω| < ∞. Sendo assim, a
definição clássica não é útil para definirmos probabilidade em espaços amostrais infinitos contáveis
ou não contáveis; b) os resultados do espaço amostral necessitam ser equiprováveis, pois, em caso
contrário, a definição clássica não é aplicável. As situações em que os pontos do espaço amostral
são equiprováveis, a princípio, representam os casos de ocorrência dos fenômenos naturais menos
frequentes nas situações reais.
Um segundo conceito é o frequentista, onde as probabilidades são definidas e medidas em
repetições exaustivas do experimento de interesse.
Definição 4.6: Definição frequentista de probabilidade

Vamos considerar N o número de vezes que um experimento é repetido sob condições


idênticas. Consideremos que A é um evento do espaço amostral Ω e que n é o número de
vezes que o evento A ocorreu nas N repetições idênticas do experimento de interesse. Então,
a probabilidade de ocorrência de A é definida por P (A) = limN →∞ n/N.

Uma das vantagens da probabilidade frequentista sobre a definição clássica é dada pelo fato da não
exigência que o espaço amostral Ω seja finito, pois a frequência relativa n/N independe desse fato.
Fundamentos de Matemática Estatística Ferreira, D.F.
52 Cálculo de Probabilidades e Suas Leis

Da mesma forma, essa razão independe também do fato de que os pontos de Ω sejam equiprováveis,
constituindo um segunda vantagem sobre a definição clássica. As grandes desvantagens são: a) a
dificuldade de garantir com bases teóricas sólidas matemática que limN →∞ n/N irá convergir de
fato para P (A); b) mesmo que haja a convergência desse limite para a verdadeira probabilidade,
ainda carecemos de bases sólidas para responder a questão de como podemos observar um valor
limite se uma sequência infinita de repetições do experimento é exigida? Como temos carências
teóricas de respostas a essas questões fundamentais, essa definição não foi usada para se criar a
sólida teoria probabilística moderna.
A terceira definição envolve a definição baseada em opiniões e juízos pessoais, sendo denominada
de probabilidade subjetiva.
Definição 4.7: Definição subjetiva de probabilidade

O número real 0 ≤ P (A) ≤ 1, escolhido para expressar as crenças pessoais da probabilidade


de ocorrência de um evento A ⊂ Ω, é definido como probabilidade subjetiva de ocorrência
desse evento.

As probabilidades subjetivas, variam, por razões óbvias, de acordo com as crenças e juízos dos
indivíduos que estão atribuindo probabilidades ao evento. Uma das vantagens da probabilidade
subjetiva é que ela pode ser atribuída a experimentos que não podem ser repetidos, como, por
exemplo, a probabilidade de que haverá seca no próximo ano. Na inferência Bayesiana, as
probabilidades subjetivas são muito importante em várias situações, no sentido de incorporar as
crenças e juízos do pesquisador na inferência estatística. Os conceitos apresentados (objetivos ou
subjetivos) podem ser úteis em determinados problemas da vida real. Esses três conceitos podem
ser acomodados em uma teoria mais geral, como casos especiais (MITTELHAMMER, 2013). Essa
é a teoria da probabilidade axiomática, que apresentaremos na sequência.

4.4 Definições Axiomáticas de Probabilidades


Devemos pensar em uma forma de modelar um experimento, construindo uma teoria sólida e
geral. Essas foram as ideias que levaram Kolmogorov a formular a teoria a respeito do espaço de
probabilidade. Considerando uma função P , que fornece as probabilidades de qualquer evento de ,
incluindo o próprio conjuntos Ω, podemos definir simplificadamente o espaço de probabilidade
como a seguir.
Definição 4.8: Espaço de probabilidade

O espaço de probabilidade é um constructo matemático que modela um experimento


consistindo de estados que ocorrem aleatoriamente e se subdivide em duas partes:

1. o espaço amostral Ω, que é o conjunto de todos os possíveis resultados de um


experimento;

2. a função P : Ω → [0,1] é uma medida de probabilidade, definida em uma Ω.

A dupla (Ω, P ) é denominada de espaço de probabilidade.

Ferreira, D.F. Fundamentos de Matemática Estatística


4.5 Propriedades das Probabilidades 53

Podemos definir formalmente a função P , que é uma medida de probabilidade.


Definição 4.9: Medida de probabilidade P

A medida de probabilidade P é uma função cuja imagem está [0,1] com as seguintes
propriedades:

1. P (Ω) = 1, em que Ω é o espaço amostral;

2. se A é um evento, então P (A) ≥ 0;


P∞
3. considerando que Ai para todo i, então P (∪∞
i=1 Ai ) = i=1 P (Ai ), se para ∀ i 6= j,
Ai ∩ Aj = φ.

Da definição de probabilidade é possível derivar muitas das famosas fórmulas conhecidas.

4.5 Propriedades das Probabilidades


Nessa seção vamos apresentar algumas das principais propriedades básicas das probabilidades
e de eventos de interesse, que são comumente encontrados nos livros clássicos de probabilidade.
Conhecimentos básicos de análise combinatória e de teoria dos conjuntos serão considerados
conhecidos. Vamos demonstrar algumas probabilidades básicas, a partir do seguinte teorema.
Teorema 4.1: Propriedades básicas

Da definição de probabilidade 4.9 temos que:

1. P (φ) = 0;

2. P (Ac ) = 1 − P (A);

3. P (A ∪ B) = P (A) + P (B) − P (A ∩ B);


P∞
4. se A = {ω1 , ω2 , . . .} é um evento de Ω, então P (A) = i=1 P (ωi ).

Prova: Propriedades básicas

Para provar 1, vamos considerar que Ω = Ω ∪ φ, em que Ω é o espaço amostral e φ é o


conjunto vazio. Assim, da propriedade 1 da definição 4.9 em que P (Ω) = 1 e, observando
que os dois eventos são excludentes, temos, usando a propriedade 3 que

P (Ω) =P (Ω ∪ φ) = P (Ω) + P (φ)


1 =1 + P (φ),

que resulta em p(φ) = 0.


Para provar 2, vamos considerar que Ω = A ∪ Ac , em que A e Ac são excludentes. Logo,

P (Ω) =P (A ∪ Ac )
1 =P (A) + P (Ac ),

Fundamentos de Matemática Estatística Ferreira, D.F.


54 Cálculo de Probabilidades e Suas Leis

que resulta no resultado almejado, P (Ac ) = 1 − P (A).


Para demonstrar 3, vamos particionar A ∪ B em eventos mutuamente excludentes (ou
exclusivos) dados por A ∩ B, Ac ∩ B e A ∩ B c . Essa partição do conjunto A ∪ B pode ser
visualizada no diagrama de Venn a seguir.


A B

A ∩ B c A ∩ B Ac ∩ B

Assim, usando a propriedade 3 da definição de probabilidade 4.9, temos

P (A ∪ B) =P (A ∩ B c ) + P (A ∩ B) + P (Ac ∩ B) = P (A) + P (Ac ∩ B) e


P (B) =P (A ∩ B) + P (Ac ∩ B).

Subtraindo P (B) de P (A ∪ B), temos

P (A ∪ B) − P (B) =P (A) + P (Ac ∩ B) − P (A ∩ B) − P (Ac ∩ B)


=P (A) − P (A ∩ B),

que resulta em P (A ∪ B) = P (A) + P (B) − P (A ∩ B).


Finalmente, para provar 4, basta observar que Ai = {ωi }, com i = 1, 2, . . ., são subconjuntos
simples, disjuntos e contáveis de Ω. Assim, é suficiente aplicar a propriedade 3 da definição
de probabilidade 4.9, que resulta em

X ∞
X
P (A) = P (Ai ) = P (ωi ),
i=1 i=1

em que A = ∪∞
i=1 Ai , concluindo assim a prova.

Outra importante definição diz respeito a uma partição do espaço amostral Ω. Essa partição
pode ser definida em termos de eventos contáveis ou finitos, como a seguir.

Definição 4.10: Partição de Ω

Considerando uma coleção contável de eventos A1 , A2 , A3 , . . . mutuamente excludentes,


ou seja, Ai ∩ Aj = φ para todo i 6= j, então ela formará uma partição se e somente se

∪∞
i=1 Ai = Ω.

Ferreira, D.F. Fundamentos de Matemática Estatística


4.6 Probabilidades Condicionais 55

4.6 Probabilidades Condicionais

A probabilidade de ocorrência de um evento A pode ser atualizada se tivermos a informação


de que um outro evento B ocorreu. Essa atualização leva, em muitos casos, a um novo valor para
a probabilidade do evento A ocorrer em relação à situação sem a informação adicional de que o
evento B tenha ocorrido. Denotamos essas duas probabilidades, respectivamente, por P (A|B) e
P (A). No primeiro caso, entendemos como sendo a probabilidade de ocorrência do evento A, dado
que o evento B ocorreu e, no segundo, a probabilidade incondicional de ocorrência do evento A.
Dessa forma, apresentamos a definição de probabilidade condicional.
Definição 4.11: Probabilidade Condicional

Dados dois eventos A e B, com P (B) > 0, a probabilidade condicional de A dado B é


igual a

P (A ∩ B)
P (A|B) = . (4.6.1)
P (B)

Essa definição é ilustrada no diagrama de Venn a seguir:


A B

A ∩ Bc A∩B Ac ∩ B

Um importante teorema relacionado às probabilidades condicionais é o teorema de Bayes,


também conhecido como teorema da probabilidade inversa. Em muitos problemas, temos as proba-
bilidades P (A), P (B) e P (B|A), todas não-nulas, e necessitamos da obtenção da probabilidade
P (A|B). O teorema de Bayes nos possibilita calcular essa probabilidade e é anunciado a seguir.
Teorema 4.2: Teorema de Bayes ou teorema da probabilidade inversa

Considere que A e B são dois eventos com probabilidades não-nulas, então

P (B|A)P (A)
P (A|B) = . (4.6.2)
P (B)

Prova: Teorema de Bayes

Se calcularmos

Fundamentos de Matemática Estatística Ferreira, D.F.


56 Cálculo de Probabilidades e Suas Leis

P (B|A)P (A) P (A ∩ B)P (A)


=
P (B) P (A)P (B)
P (A ∩ B)
=
P (B)
=P (A|B),

encontramos o resultado almejado, sendo que usamos (4.6.1) em duas ocasiões para
provarmos.

Exemplo 4.1: Teorema de Bayes

Um exame clínico apresenta sensibilidade de 99% para detectar diabetes, ou seja, identifica
a doença de um indivíduo que realmente a possui em 99% dos casos. Esse mesmo exame
tem especificidade de 98%, ou seja, quando seu resultado é negativo, significa que 98% dos
casos identificados realmente não apresentam a doença. O primeiro caso é o denotado por
verdadeiro positivo e o segundo, por verdadeiro negativo. Assim, temos P (+|Doente) = 0,99
e P (−|Saudável) = 0,98. Temos ainda que P (−|Doente) = 0,01 e P (+|Saudável) = 0,02,
que são, respectivamente, os falsos negativos e os falsos positivos. Na população brasileira,
6,5% das pessoas possuem diabetes. Pergunta-se qual é a probabilidade de que uma pessoa
seja diabética realmente quando o exame der resultado positivo?
A probabilidade desejada, usando o teorema de Bayes é:

P (+|Doente)P (Doente)
P (Doente|+) = .
P (+)

Se usarmos o teorema da probabilidade total podemos expressar P (+) por:

P (+) =P (+|Doente)P (Doente) + P (+|Saudável)P (Saudável).

Substituindo essa expressão na anterior, temos uma fórmula alternativa do teorema de Bayes,
dada por:

P (+|Doente)P (Doente)
P (Doente|+) =
P (+)
P (+|Doente)P (Doente)
=
P (+|Doente)P (Doente) + P (+|Saudável)P (Saudável)
0,99 × 0,065 0,06435
= =
0,99 × 0,065 + 0,02 × 0,935 0,08305
=0,7748344 = 77,48%.

Assim, se o resultado for positivo, a chance de o paciente de fato ser diabético é de 77,48%.

Ferreira, D.F. Fundamentos de Matemática Estatística


4.7 Independência 57

4.7 Independência
A independência de dois eventos A e B, implica na seguinte definição:
Definição 4.12: Independência de dois eventos

Dois eventos A e B são considerados independentes se e somente se

P (A ∩ B) =P (A)P (B), (4.7.1)

ou seja, eles serão independentes se e somente se sua probabilidade conjunta for igual ao
produto de suas probabilidades marginais.

Assim, a independência de eventos é uma propriedade básica em que a ocorrência ou não-


ocorrência de um evento em particular não tem efeito algum na ocorrência ou na não ocorrência do
outro evento.

4.8 Exercícios
4.8.1 Dado o espaço amostral Ω = {1, 2, 3}, cujos elementos são todos equiprováveis. Quais dos
subconjuntos a seguir são considerados eventos: A = {1}, B = φ, C = {1,4}, D = {1, 2,
3}?

4.8.2 Prove, para todos eventos A e B contidos em Ω, que

P ((Ac ∩ B) ∪ (A ∩ B c )) = P (A) + P (B) − 2P (A ∩ B),

sendo que (Ac ∩ B) ∪ (A ∩ B c ) é representado por A∆B e chamado de diferença simétrica.

4.8.3 Prove, para todo A e B, que A∆B = Ac ∆B c , lembrando que a diferença simétrica é dada
por: A∆B = (A ∩ B c ) ∪ (Ac ∩ B).

4.8.4 Utilizando os dados do exemplo 4.1, mas considerando que a sensibilidade e especificidade
do teste são, respectivamente, de 99% e 99%, qual é a probabilidade que uma pessoa seja
realmente diabética quando o resultado do exame der positivo. Qual é a probabilidade de
que o indivíduo com resultado negativo do exame seja realmente saudável, P (Saudável|−)?
Calcule essa última probabilidade com os dados do exercício atual e com os dados do exemplo
4.1. Nos dois casos, comparando os resultados das probabilidades a posteriori no exercício
atual com as do exemplo, qual é a conclusão que você obtém em relação as características do
exame e sua influência na detecção de falsos positivos e negativos e verdadeiros positivos e
negativos? Observe que as probabilidades a posteriori dos falsos positivos e falsos negativos,
são complementares às probabilidades obtidas.

Fundamentos de Matemática Estatística Ferreira, D.F.


Variáveis Aleatórias e Distribuição de
5
Probabilidades

5.1 Introdução

Neste capítulo vamos formalizar as definições e propriedades sobre variáveis aleatórias. Iremos
dar um conotação mais matemática ao conceito de variável aleatória, permitindo construir uma
teoria mais sólida a seu respeito e de suas propriedades.
Assim, neste capítulo vamos consolidar estas ideias, apresentando o significado de distribuição
de probabilidade de uma variável aleatória. Vamos conceituar as diferenças entre variáveis aleatórias
discretas e contínuas e também definir seus momentos.

5.2 Definições Variáveis Aleatórias

Neste instante estamos aptos a apresentar um conceito de variável aleatória. Isso nos garantiria
a possibilidade de especificar medidas de probabilidades associadas as variáveis aleatórias.
Muitas vezes os resultados dos experimentos reais são medidas em termos de números reais,
como, por exemplo, as medidas de alturas e pesos de pessoas, as produtividades das plantas, os
teores de um determinado nutriente dos solos, entre inúmeras outras possibilidades. O espaço
amostral deste tipo de experimento é dado por subconjuntos da reta real, ou, se múltiplos valores
são necessários para caracterizar os resultados de um experimento, por subconjuntos dos reais
p-dimensionais, Rp .
Determinados experimentos fornecem inerentemente resultados que não são números e cujo
espaço amostral não é, portanto, definido por subconjuntos dos reais. Podemos exemplificar isso
quando registramos os resultados do nascimento de um filhote quanto ao sexo, observando se um
Fundamentos de Matemática Estatística Ferreira, D.F.
60 Variáveis Aleatórias e Distribuição de Probabilidades

paciente está doente ou não, se uma peça fabricada é defeituosa ou não, entre outras possibilidades.
Devemos ter um mecanismo de converter este espaço amostral em um espaço amostral de valores
reais, associando a cada resultado ω de Ω um número real, ou seja, mapeando cada ω na reta real.
Todos estes conceitos envolvem a definição de variável aleatória, que apresentamos na sequência.
Definição 5.1: Variável aleatória

Considerando que X(ω) = x é uma função unidimensional real definida para cada elemento
ω do espaço amostral Ω, ω ∈ Ω, então ela é chamada de variável aleatória. O conjunto
imagem de X é o conjunto de números reais C = {x : X(ω) = x, ω ∈ Ω}.

O resultado ou realização de uma variável aleatória unidimensional será representado pelo


numero real x, para o qual temos formalmente x = X(ω) ∈ R para ω ∈ Ω.
Definição 5.2: Resultado de uma variável aleatória

O resultado ou realização de uma variável aleatória é a imagem x = X(ω) ∈ R de um


resultado ω ∈ Ω gerada pela variável aleatória X.

A maioria dos autores usa letras maiúsculas para representar as variáveis aleatórias e letras
minúsculas para os seus resultados ou realizações.

5.3 Variáveis Aleatórias Discretas: Definição e Distribuição

Considerando o espaço amostral Ω, muitas vezes a função de valores reais X atuando em Ω


possui um conjunto imagem que é um subconjunto contável finito ou infinito de R. Este tipo
particular de função do espaço amostral Ω, que restringe o conjunto imagem do contradomínio R a
um conjunto imagem contável, é definido como variável aleatória discreta. Dessa forma, podemos
definir formalmente uma variável aleatória discreta, como a seguir.
Definição 5.3: Variável aleatória discreta

Uma variável aleatória discreta definida no espaço amostral Ω é a função X : Ω → R, tal


que Im(X(ω)) é um subconjunto contável de R1 .

A palavra discreta refere-se ao fato de que a variável aleatória X possui realizações somente
em um conjunto contável finito ou infinito de valores nos reais R. Se o conjunto das realizações da
variável aleatória for contável finito, dizemos que ela é uma variável aleatória simples.
O interesse nas variáveis aleatórias discretas são os valores que elas podem ter e as probabilidades
associadas a estes valores. Sendo assim, é comum simbolizar o conjunto {X = x}. As medidas de
probabilidade devem ser atribuídas a cada valor que a variável aleatória pode assumir. Portanto,
apresentamos a seguinte definição:
Definição 5.4: Função de probabilidade ou função massa de probabilidade

A função (massa) de probabilidade de uma variável aleatória discreta X é a função

Ferreira, D.F. Fundamentos de Matemática Estatística


5.3 Variáveis Aleatórias Discretas: Definição e Distribuição 61

pX : R → [0,1], definida por

pX (x) =P (X = x) = P ({ω : ω ∈ Ω, X(ω) = x}) . (5.3.1)

A função de probabilidade ou função massa de probabilidade é chamada por muitos autores de


função densidade de probabilidade discreta. É importante que observemos a presença do adjetivo
discreta nessa nomenclatura. Isso porque para variáveis contínuas é comum usarmos o termo
função densidade de probabilidade. Dessa forma há uma unificação das nomenclaturas dos casos
discretos e contínuos.
Outra característica é que se para algum valor real de X, X −1 (x) = φ, então teremos
P (X = x) = P (φ) = 0. Isso só acontece se x ∈
/ Im(X). Assim, podemos definir o suporte de
uma variável aleatória discreta.
Definição 5.5: Suporte de uma variável aleatória discreta

O suporte da (distribuição da) variável aleatória discreta X é o subconjunto contável dos


reais para o qual temos

SX = {x : pX (x) > 0} . (5.3.2)

Devemos entender que o suporte da variável aleatória X, na verdade, é o conjunto Im(X).


É interessante observar que o conhecimento do suporte nos permite calcular a probabilidade
P (X ∈ B), pois

X
P (X ∈ B) = P (X = x).
x∈B∩SX

Uma definição alternativa de variáveis aleatórias discretas pode ser enunciada.


Definição 5.6: Variável aleatória discreta

Uma variável aleatória X é discreta se


X
P (X = x) = 1. (5.3.3)
x∈R1

Da definição 5.6 depreendemos que apenas o subconjunto SX de R1 mapeia probabilidades


positivas, ou seja, possui P (X = x) > 0 para todo x ∈ SX . Para todo x ∈
/ SX , P (X = x) = 0.
Um condição necessária para a validade da definição 5.6 e expressão (5.3.3) é que o conjunto
suporte SX seja contável finito ou infinito.
Exemplo 5.1: Lançamentos de uma moeda até a ocorrência da primeira cara

Vamos considerar o experimentos em que há lançamentos consecutivos de uma moeda até


que ocorra a primeira cara. Quando este evento acontecer, o experimento é interrompido e o
número total de lançamentos é registrado. Vamos supor que a moeda possua probabilidade
de ocorrência de cara igual a θ, com 0 < θ < 1. Vamos considerar a variável aleatória X de

Fundamentos de Matemática Estatística Ferreira, D.F.


62 Variáveis Aleatórias e Distribuição de Probabilidades

interesse como sendo este número total de lançamentos da moeda até que ocorra a primeira
cara. Pergunta-se: qual é o espaço amostral do experimento original, considerando C para
cara e K para coroa? Qual o suporte da variável aleatória X? Este conjunto é contável finito
ou infinito? Qual é a medida de probabilidade para cada evento de SX Como demonstrar
que a definição 5.6 se aplica a essa variável aleatória?
Podemos observar que o experimento é interrompido quando ocorre uma cara. Assim, se
ocorrer cara no primeiro lançamento, o resultado do experimentos é C, se for no segundo, o
resultado é KC, se for no terceiro, é KKC, e assim por diante. Logo o espaço amostral Ω é:

Ω = {C, KC, KKC, KKKC, KKKKC, · · · } .

Podemos observar que o espaço amostral possui um número infinito de resultados possíveis. A
variável aleatória X, definida como sendo a contagem de lançamentos até que a primeira cara
ocorra, possui os seguintes valores em função do resultado ω do experimento: X(C) = 1,
X(KC) = 2, X(KKC) = 3, e assim por diante. Logo, o conjunto suporte de X é:

SX = {1, 2, 3, 4, 5, · · · } .

Como temos infinitos valores possíveis para a variável aleatória, seu suporte SX é um
conjunto contável infinito. Para um valor x qualquer de SX , teremos exatamente x − 1
resultados K e o último resultado C. Cada resultado K possui probabilidade 1 − θ. Os
diferentes lançamentos da moeda são independentes uns dos outros, ou seja, o resultado
de um dado lançamento não interfere no resultado do próximo lançamento. Assim, pela
independência de eventos temos:
 

{z · · · K} = P
P KKKK
|
 (K) × P (K) × · · · × P (K) = (1 − θ)x−1 .
| {z }
x−1 lançamentos K x−1 lançamentos K

Estes x − 1 resultados K são independentes do último resultado C do experimento, onde


ele se encerrou. Logo,

 

{z · · · K} C = P
P KKKK
|
 (K) × P (K) × · · · × P (K) ×P (C) = (1 − θ)x−1 θ.
| {z }
x−1 lançamentos K x−1 lançamentos K

Portanto, para x ∈ SX temos que a medida de probabilidade é:

P (X = x) =(1 − θ)x−1 θ.

Como θ é um número real do intervalo (0, 1), então 1 − θ também pertence a este intervalo.

Ferreira, D.F. Fundamentos de Matemática Estatística


5.3 Variáveis Aleatórias Discretas: Definição e Distribuição 63

Logo, a sequência de probabilidades θ, (1 − θ)θ, (1 − θ)2 θ, (1 − θ)3 θ, . . . correspondentes


às probabilidades P (X = 1), P (X = 2), P (X = 3), P (X = 4), . . . formam uma série
geométrica, com razão 1 − θ e primeiro termo θ. A soma dos n primeiros valores é:

Sn =θ + (1 − θ)θ + (1 − θ)2 θ + · · · + (1 − θ)n−1 θ


=θ 1 + (1 − θ) + (1 − θ)2 + · · · + (1 − θ)n−1 .
 

Da mesma forma, temos que (1 − θ)Sn é:

(1 − θ)Sn =(1 − θ)θ + (1 − θ)2 θ + (1 − θ)3 θ + · · · + (1 − θ)n θ


=θ (1 − θ) + (1 − θ)2 + · · · + (1 − θ)n−1 + (1 − θ)n .
 

Logo,

Sn − (1 − θ)Sn =θ [1 − (1 − θ)n ]
θSn =θ [1 − (1 − θ)n ] ,

resultando em

Sn = 1 − (1 − θ)n .

Como 0 < 1 − θ < 1, então

lim Sn = lim [1 − (1 − θ)n ] = 1,


n→∞ n→∞

pois,

lim (1 − θ)n = 0.
n→∞

Logo, a definição 5.6 se aplica.

5.3.1 Exemplos de Distribuições de Variáveis Aleatórias Discretas

Vamos apresentar alguns exemplos de distribuições discretas de probabilidade. Neste primeiro


contato, apresentamos as descrições de como estes tipos de variáveis aleatórias ocorrem e a forma
de suas funções (massa) de probabilidade. As demonstrações de que elas possuem soma de suas
massas de probabilidades, definida no conjunto suporte, igual a 1, também serão apresentadas
quando for necessário.
Uma das mais simples distribuições discretas é a Bernoulli, que são dependentes dos denominados
ensaios de Bernoulli. Um ensaio de Bernoulli refere-se a um experimento aleatório, que pode
Fundamentos de Matemática Estatística Ferreira, D.F.
64 Variáveis Aleatórias e Distribuição de Probabilidades

resultar em dois possíveis resultados apenas. Neste caso, se especificarmos um evento de interesse,
digamos A, como um dos possíveis resultados do experimento, então os possíveis resultados do
experimento serão: sucesso, se o evento A ocorreu e fracasso, se o evento A, não ocorreu. A
probabilidade de sucesso do evento ocorrer é denotada por θ = P (A). Logo, a probabilidade de
fracasso é 1 − θ = P (Ac ). Quando são realizados mais de um ensaio de Bernoulli, em geral,
assumimos que eles são independentes e que a probabilidade de sucesso do evento fica inalterada
em todas as repetições deles.
Definição 5.7: Distribuição de uma variável aleatória Bernoulli

Uma variável aleatória X tem distribuição Bernoulli quando resulta de um experimento


em que existem apenas dois resultados, em geral denotados por 0 e 1, sendo que 1 indica
a ocorrência de um evento de interesse e 0, a sua não ocorrência. Denotamos θ como
a probabilidade de sucesso (ocorrência do evento de interesse) e 1 − θ, a probabilidade
de fracasso (a não ocorrência do evento de interesse), com 0 < θ < 1. A função de
probabilidade é

x 1−x
 θ (1 − θ) ,
 para x ∈ {0,1}
pX (x) = P (X = x) = (5.3.4)

0, caso contrário.

Dizemos que X ∼ Bernoulli (θ).

Teorema 5.1: Função de probabilidade Bernoulli

A função pX , apresentada em (5.3.4), da definição 5.7, é uma função (de massa) de


probabilidade.

Prova: Função de probabilidade da Bernoulli

A prova de que (5.3.4) é uma função de probabilidade é bem simples, uma vez que
P (X = 1) = θ e P (X = 0) = 1 − θ, sendo essas probabilidades valores positivos entre 0
P
e 1, pois 0 < θ < 1. Também, temos que x∈SX P (X = x) = P (X = 0) + P (X = 1) =
1 − θ + θ = 1.

Muitos autores representam θ por p e 1 − θ por q, sendo p + q = 1, no modelo Bernoulli. A


definição 5.7 especifica não uma distribuição Bernoulli específica, mas uma família de distribuições
Bernoulli, uma vez que variando-se o valor do parâmetro θ no intervalo (0, 1), teremos diferentes
distribuições Bernoulli. Assim, embora variáveis aleatórias, digamos X e Y , com diferentes valores
do parâmetro θ tenham o mesmo suporte SX = SY = {0, 1}, elas são variáveis aleatórias diferentes,
pertencentes a mesma família, neste caso, em particular. Não basta dizer que uma variável aleatória
tem distribuição Bernoulli para caracterizá-la. É necessário especificar o valor de seu parâmetro θ,
como, por exemplo, X ∼ Bernoulli(1/2).
Por exemplo, θ pode indicar a proporção de itens manufaturados que passam em um teste de
qualidade em um processo de produção. Pode indicar a probabilidade de nascimento de fêmea em
um nascimento de um animal ou ser humano. Pode representar a probabilidade de que uma planta
Ferreira, D.F. Fundamentos de Matemática Estatística
5.3 Variáveis Aleatórias Discretas: Definição e Distribuição 65

sorteada esteja doente em uma população de plantas submetida à pressão do agente patogênico,
entre outros possíveis exemplos. Um segundo exemplo é o da distribuição binomial, que resulta da
execução de n ensaios Bernoulli independentes, conforme definição apresentada a seguir.
Definição 5.8: Distribuição de uma variável aleatória binomial

Uma variável aleatória X segue uma distribuição binomial quando resulta da contagem do
total de sucessos de um evento de interesse em n realizações independentes de ensaios de
Bernoulli (n ≥ 1), sendo 0 < θ < 1, a probabilidade de sucesso (constante) do evento de
interesse em cada ensaio e 1 − θ, a probabilidade de fracasso. A função de probabilidade é
  
n x n−x
 x θ (1 − θ) , para x ∈ {0, 1, . . . , n}



pX (x) = P (X = x) = (5.3.5)



 0, caso contrário.

Dizemos que X ∼ binomial (n, θ).

Teorema 5.2: Função de probabilidade binomial

A função pX , apresentada em (5.3.5), da definição 5.8, é uma função (de massa) de


probabilidade.

Prova: Função de probabilidade da binomial

Para provarmos que pX de (5.3.5) é uma função de probabilidade, verificamos que nx θx (1 −




θ)n−x é positivo para x ∈ SX = {0, 1, . . . , n}, pois para x neste intervalo, nx > 0, θx > 0


e (1 − θ)n−x > 0, então P (X = x) > 0 para todo x discreto em 0 ≤ x ≤ n. Para valores


de X não pertencentes ao conjunto suporte, temos que P (X = x) = 0. Pela expansão do
binômio de Newton, temos
   
n nn 1 n−1 n x n−x
(a + b) =b + a b + ··· + a b + · · · + an
1 x
n  
X n x n−x
= a b .
x
x=0

Se fizermos a = θ e b = 1 − θ, temos

(a + b)n =(θ + 1 − θ)n = 1n


n  
X n x
= θ (1 − θ)n−x = 1,
x
x=0

conforme queríamos mostrar.

A distribuição Bernoulli é um caso particular da distribuição binomial quando n = 1, ou seja,


quando temos apenas um ensaio de Bernoulli apenas. Podemos expressar uma variável aleatória X
com distribuição binomial como soma de variáveis aleatórias Bernoulli (θ) independentes.
Vamos considerar um experimento resultante ainda de repetições de ensaios independentes de
Fundamentos de Matemática Estatística Ferreira, D.F.
66 Variáveis Aleatórias e Distribuição de Probabilidades

Bernoulli, como na binomial, porém modificado para que seja interrompido quando o primeiro
sucesso de um evento de interesse ocorrer. Este experimento define um distribuição importante de
uma variável aleatória que conta o número de fracassos ocorridos, até que o primeiro sucesso seja
alcançado. Essa distribuição de probabilidade discreta está definida a seguir.

Definição 5.9: Distribuição de uma variável aleatória geométrica

Uma variável aleatória X que conta o número total de fracassos (não ocorrência de um
evento de interesse) até que o primeiro sucesso (ocorrência de um evento de interesse) ocorra
em repetições independentes de ensaios de Bernoulli com probabilidade de sucesso do
evento de interesse 0 < θ < 1 constante em cada repetição possui distribuição denominada
geométrica. A função de probabilidade é
 x
 (1 − θ) θ,
 para x ∈ {0, 1, 2, 3, . . .}
pX (x) = P (X = x) = (5.3.6)

0, caso contrário.

Dizemos que X ∼ geométrica (θ).

Teorema 5.3: Função de probabilidade geométrica

A função pX , apresentada em (5.3.6), da definição 5.9, é uma função (de massa) de


probabilidade.

Prova: Função de probabilidade geométrica

Para provarmos que pX de (5.3.6) é uma função de probabilidade, verificamos que (1 − θ)x θ
é positivo para x ∈ SX = {0, 1, 2, 3, . . . , }, pois para x neste intervalo θ > 0 e (1−θ)x > 0,
então P (X = x) > 0 para todo x discreto em x ≥ 0. Para valores de X não pertencentes
ao conjunto suporte, temos que P (X = x) = 0.
Podemos mostrar facilmente que a soma de termos de uma série finita de n + 1 termos do
tipo Sn = ni=0 r(1 − r)i = 1 − (1 − r)n+1 , para 0 < r < 1. Fazendo, θ = r, temos uma
P

série finita do mesmo tipo. Logo, Sn = 1 − (1 − θ)n+1 , para a soma das probabilidades de
valores de x ∈ {0, 1, . . . , n}. Assim, temos

X n
X
x
(1 − θ) θ = lim (1 − θ)x θ = lim Sn
n→∞ n→∞
x=0 x=0

= lim 1 − (1 − θ)n+1 = 1,
 
n→∞

uma vez que 0 < 1 − θ < 1 e limn→∞ (1 − θ)n+1 = 0, conforme queríamos mostrar.

Podemos ter uma variante dessa distribuição, se em vez de definirmos a variável aleatória
como o número de fracassos antes da ocorrência do primeiro sucesso, definíssemos uma variável
aleatória como sendo o número total de ensaios de Bernoulli até a ocorrência do primeiro sucesso.
Ferreira, D.F. Fundamentos de Matemática Estatística
5.3 Variáveis Aleatórias Discretas: Definição e Distribuição 67

Se denotarmos por Y essa variável aleatória, a função de probabilidade é dada por


 y−1
 (1 − θ) θ,
 para y ∈ {1, 2, 3, . . .}
pY (y) = P (Y = y) = (5.3.7)

0, caso contrário.

A próxima distribuição que exemplificaremos é a Poisson.


Definição 5.10: Distribuição de uma variável aleatória Poisson

Uma variável aleatória X que representa a ocorrência de um certo número de eventos em


um intervalo de tempo ou espaço fixado, quando estes eventos ocorrem com uma taxa média
conhecida e de forma independente desde a ocorrência do último evento possui distribuição
Poisson. A função de probabilidade é
 −λ x
e λ

 , para x ∈ {0, 1, 2, 3, . . .}
x!

pX (x) = P (X = x) = (5.3.8)



0, caso contrário,

sendo λ > 0 a taxa média de ocorrência. A distribuição Poisson refere-se a distribuição da


contagem de certo evento que ocorre aleatoriamente po unidade de tempo, espaço ou volume
quando há muitas possíveis ocorrências, mas a probabilidade de cada ocorrência é pequena.
Dizemos que X ∼ Poisson (λ).

Teorema 5.4: Função de probabilidade Poisson

A função pX , apresentada em (5.3.8), da definição 5.10, é uma função (de massa) de


probabilidade.

Prova: Função de probabilidade Poisson

Para provarmos que P (X = x) de (5.3.8) é uma função de probabilidade, verificamos que


e−λ , λx e x! são valores positivos para x ∈ SX = {0, 1, 2, 3, . . . , } e para λ real positivo.
Para valores de X não pertencentes ao conjunto suporte, P (X = x) = 0.
Temos ainda que
∞ ∞ −λ x ∞
X X e λ X λx
P (X = x) = = e−λ .
x! x!
x=0 x=0 x=0

A expansão em série de Taylor de uma função em torno do número real a é:



X f (k) (a)(x − a)k
f (x) = ,
k!
k=0

sendo f (k) (a) a derivada de ordem k de f (x) avaliada em a, considerando, ainda, f (0) (x) =
f (x).

Fundamentos de Matemática Estatística Ferreira, D.F.


68 Variáveis Aleatórias e Distribuição de Probabilidades

Da expansão em série de Taylor de ex em torno de 0 temos:



X xn
ex = .
n!
n=0

P∞ λx
Se compararmos x=0 x! com a expansão em série de Taylor de ex , verificamos que essa
série se trata da expansão em série de Taylor em torno de 0 de eλ . Assim,
∞ ∞
X X λx
P (X = x) =e−λ
x!
x=0 x=0

=e−λ eλ
=1,

conforme queríamos mostrar.

5.4 Variáveis Aleatórias Contínuas: Definição e Distribuição

Considerar que a variável aleatória assume apenas valores contáveis finitos ou infinitos dos
reais R1 é muito restritivo. Assim, é importante que tenhamos uma outra categoria de variáveis
aleatórias definida em qualquer intervalo não contável dos reais, podendo ser toda a reta dos reais.
Para as variáveis aleatórias discretas X, vimos que P (X = x) > 0, se x ∈ SX . Entretanto,
para as variáveis aleatórias contínuas, P (X = x) = 0, para todo x ∈ R1 . Essas duas condições,
suporte não contável e P (X = x) = 0, ∀x ∈ R1 , são condições necessárias e suficientes para
classificar a variável aleatória em contínua (KACHAPOVA; KACHAPOV, 2012). A condição de
que P (X = x) = 0, ∀x ∈ R, é exigida porque se tivermos P (X = x) = x , para um valor positivo
P
de x muito pequeno, próximo de zero, a soma de todas as probabilidades x∈R P (X = x) =
P
x∈R x irá divergir para conjuntos infinitos não contáveis. Não importa quão pequeno façamos os
P P
valores de x , a soma anterior irá divergir, ou seja, x∈R P (X = x) = x∈R x = ∞. Temos que
perceber ainda que P (X = x) = 0 não caracteriza o evento {X = x} como impossível, pois se
isso fosse verdade, a ocorrência de todo valor x ∈ R seria impossível e não faria sentido em falar
em medida de probabilidade. Portanto, uma primeira definição de variável contínua é apresentada a
seguir.
Definição 5.11: Variável aleatória contínua

Uma variável aleatória X é contínua se

P (X = x) = 0 (5.4.1)

para todo x ∈ R1 .

Vamos inicialmente definir uma classe de funções especiais, denominadas de funções densidades
de probabilidade.
Ferreira, D.F. Fundamentos de Matemática Estatística
5.4 Variáveis Aleatórias Contínuas: Definição e Distribuição 69

Definição 5.12: Função densidade de probabilidade fX

Consideremos uma função fX : R1 → R1 , então fX será uma função densidade de


probabilidade se satisfizer as seguintes condições:



 fX (x) ≥ 0, para todo x ∈ R1 , e

Z ∞
(5.4.2)

fX (x)dx = 1.



−∞

Pela definição 5.12 devemos definir uma função positiva para todos os valores reais pertencentes
ao suporte da (distribuição da) variável aleatória contínua e nula para os demais valores, sendo que
o suporte é definido como se segue.
Definição 5.13: Suporte de uma variável aleatória contínua

O suporte da (distribuição da) variável aleatória contínua X é o subconjunto dos reais para
o qual temos

SX = {x : fX (x) > 0} , (5.4.3)

sendo fX (x) a função densidade de probabilidade de X avaliada em x.

Ademais, a função densidade de probabilidade deve ter sua integração resultando em 1, tomada
em relação ao conjunto dos reais. Isso seria equivalente a dizer que a soma de todas as probabilidades
é igual a 1, no caso discreto. O que tem de ficar claro é que fX (x) não é uma probabilidade e pode
muitas vezes superar 1, para alguns valores de x ∈ R1 . Uma segunda definição é dada como se
segue.
Definição 5.14: Variável aleatória absolutamente contínua

Uma variável aleatória X é absolutamente contínua se existir uma função densidade fX , tal
que
Z b
P (a ≤ X ≤ b) = fX (x)dx, (5.4.4)
a

para todo a ≤ b.

5.4.1 Exemplos de Distribuições de Variáveis Aleatórias Contínuas

Apresentaremos, como fizemos no caso de variáveis aleatórias discretas, algumas das mais
importantes distribuições contínuas de probabilidade, na forma de definição e demonstraremos que
a função densidade de probabilidade é legitima, ou seja, que é uma função positiva que integra 1
em R1 . Iniciaremos com uma das mais simples, todavia uma das mais importantes distribuições
contínuas. Isso porque ela pode se relacionar com todas as outras distribuições contínuas e por essa
razão desempenha papel fundamental em estudos que envolvem simulação Monte Carlo.
Fundamentos de Matemática Estatística Ferreira, D.F.
70 Variáveis Aleatórias e Distribuição de Probabilidades

Definição 5.15: Distribuição contínua uniforme (0,1)

Uma variável aleatória X com distribuição contínua uniforme (0,1) possui função densidade
de probabilidade dada por
(
1, 0 ≤ x ≤ 1
fX (x) = (5.4.5)
0, para outros valores de x.

Esta distribuição é a distribuição uniforme padrão. Dizemos que X ∼ U (0,1), sendo 0 e 1


seus parâmetros, os quais definem o intervalo dos reais [0,1], que é o conjunto imagem da
variável aleatória X.

Teorema 5.5: Função densidade de probabilidade da uniforme

A função fX , apresentada em (5.4.5), da definição 5.15, é uma função densidade.

Prova: Função densidade de probabilidade da distribuição uniforme

A função fX , apresentada em (5.4.5), claramente é uma função não-negativa para todo


x ∈ R1 . Também temos
Z ∞ Z 0 Z 1 Z ∞
fX (x)dx = 0dx + 1dx + 0dx
−∞ −∞ 0 1
Z 1
1
= dx = x 0 = 1 − 0
0
=1,

como queríamos mostrar.

Outra distribuição que aparece frequentemente em aplicações é a distribuição exponencial. Essa


distribuição é usada também para modelar tempo de vida de equipamentos eletrônicos, de espécies
vegetais e animais, entre outras muitas aplicações.

Definição 5.16: Distribuição exponencial (λ)

Uma variável aleatória X com distribuição contínua exponencial (λ), com λ > 0, possui
função densidade de probabilidade dada por
(
λe−λx , x ≥ 0
fX (x) = (5.4.6)
0, x < 0.

Dizemos que X ∼ exponencial (λ), sendo λ > 0, o seu parâmetro.

Teorema 5.6: Função densidade de probabilidade da exponencial

A função fX , apresentada em (5.4.6), da definição 5.16, é uma função densidade.

Ferreira, D.F. Fundamentos de Matemática Estatística


5.4 Variáveis Aleatórias Contínuas: Definição e Distribuição 71

Prova: Função densidade de probabilidade exponencial

A função fX , apresentada em (5.4.6), claramente é uma função não-negativa para todo


x ≥ 0, pois λ > 0 e exp{−λx} ≥ 0, para todo x ≥ 0. Também temos
Z ∞ Z ∞
fX (x)dx = λe−λx dx
−∞ 0

= − e−λx = lim −e−λx − (−e−0 ) = 0 + 1

0 x→∞

=1,

como queríamos mostrar.

Uma outra distribuição importante é a normal, aliás, uma das mais importantes distribuições de
probabilidade. A normal padrão é um caso particular da família normal, a qual definiremos a seguir.

Definição 5.17: A função φ

Consideremos a função φ : R1 → R1 dada por

1 2
φ(x) = √ e−x /2 x ∈ R1 , (5.4.7)

é a função densidade de probabilidade normal padrão.

Temos o seguinte resultado para a função φ de (5.4.7).

Teorema 5.7: Função densidade de probabilidade normal padrão

A função φ, apresentada em (5.4.7), da definição 5.17, é uma função densidade de uma


variável aleatória denotada por normal padrão.

Prova: Função densidade de probabilidade normal padrão

A função densidade de probabilidade φ, apresentada em (5.4.7), claramente é uma função



não-negativa para todo x > 0, pois 1/ 2π > 0 e exp{−x2 /2} > 0, para todo x ∈ R1 .
Também temos
Z ∞ Z ∞
1 2
φ(x)dx = √ e−x /2 dx = A.
−∞ −∞ 2π

Tomando A2 , temos
Z ∞ Z ∞ Z ∞Z ∞
2 1 −x2 /2 1 −y2 /2 1 −(x2 +y2 )/2
A = √ e dx √ e dy = e dxdy.
−∞ 2π −∞ 2π −∞ −∞ 2π

Fazendo as transformações de variáveis em coordenadas polares dadas por:

Fundamentos de Matemática Estatística Ferreira, D.F.


72 Variáveis Aleatórias e Distribuição de Probabilidades

y x = r cos(θ)
y = r sen(θ)
r

θ
x 1

O Jacobiano da transformação é:

∂x ∂x


∂r ∂θ cos(θ) −r sen(θ)
J = =


sen(θ) r cos(θ)
∂y ∂y


∂r ∂θ
=r cos2 (θ) + r sen2 (θ) = r.

Também podemos verificar que

x2 + y 2 =r cos2 (θ) + r sen2 (θ) = r2 .

Logo,
Z ∞ Z ∞
2 1 −(x2 +y2 )/2
A = e dxdy
−∞ −∞ 2π
Z 2π Z ∞
1 2 /2
= re−r drdθ.
2π 0 0

Para a integral interna, se usarmos a transformação u = −r2 /2, temos


Z ∞ Z 0
2 −r2 /2 (−1)
A = re drdθ = − reu du
0 −∞ r
Z 0
= eu du = [eu ]0−∞ = 1 − lim eu = 1 − 0
−∞ u→−∞

=1.

Assim,
Z 2π Z ∞
1 2 /2
A = 2
re−r dr dθ
2π 0
|0 {z }
1
Z 2π
1 1
= dθ = [θ]2π
2π 0 2π 0

Ferreira, D.F. Fundamentos de Matemática Estatística


5.5 Função de Distribuição de Probabilidade 73


= = 1.

Portanto, A2 = 1, então A = 1, por se tratar de um integral de uma função positiva, como


queríamos mostrar e φ é uma função densidade de probabilidade.

A distribuição normal padrão é um caso particular da distribuição normal, tomando-se os seus


parâmetros iguais a 1 e 0, respectivamente. Portanto, entendemos que a distribuição normal é na
verdade uma família de distribuição definida pela especificação de seus dois parâmetros. O seguinte
teorema descreve a obtenção da função densidade de probabilidade para a família normal a partir
da normal padrão, um caso particular de extrema importância. Representamos que uma variável
aleatória possui distribuição normal padrão por X ∼ N (0,1), e com isso dizemos que X possui
função densidade de probabilidade φ.

Teorema 5.8: Função densidade de probabilidade normal

Considerando uma variável aleatória contínua Z, com função densidade de probabilidade


φZ (z), então X = σZ + µ, para µ ∈ R1 e σ > 0 possui distribuição normal com função
densidade de probabilidade dada por

(x − µ)2
 
1
fX (x) = √ exp − , x ∈ R1 , (5.4.8)
2πσ 2 2σ 2

sendo µ e σ (ou σ 2 ) os seus parâmetros.

5.5 Função de Distribuição de Probabilidade

O conceito de função de distribuição é a P (X ≤ x), que é a função de distribuição cumulativa


de X. Uma definição é apresentada a seguir para os casos discreto e contínuo.

Definição 5.18: Função de distribuição

A função de distribuição cumulativa (ou função de distribuição) de uma variável aleatória


X é a função FX : R1 → [0,1] definida por
 Z x


 fX (t)dt, no caso contínuo,
 −∞


FX (x) =P (X ≤ x) = (5.5.1)

 X X
pX (xi ) = P (X = xi ), no caso discreto,




xi ≤x xi ≤x

para todo x ∈ R1 .

Vamos considerar algumas propriedades da função de distribuição.


Fundamentos de Matemática Estatística Ferreira, D.F.
74 Variáveis Aleatórias e Distribuição de Probabilidades

Teorema 5.9: Propriedades da função de distribuição de probabilidade

Considere que FX é uma função de distribuição, definida de acordo com (5.5.1), então

a) 0 ≤ FX (x) ≤ 1 para todo x ∈ R1 ;

b) limx→∞ FX (x) = 1;

c) limx→−∞ FX (x) = 0.

A função de distribuição não necessariamente é contínua. Em alguns casos, a função de


distribuição FX pode conter saltos em alguns pontos.
Corolário 5.9.1: Outra propriedade da função de distribuição de probabilidade

Considere que FX é uma função de distribuição, definida de acordo com (5.5.1), então

P (a < X ≤ b) = F (b) − F (a),

para todo a < b;

5.6 Distribuição Normal e Aproximação Normal da Binomial e Pois-


son

A distribuição normal é a mais importante distribuição de probabilidade na estatística. As


razões disso são muitas, mas algumas delas devem ser enumeradas: a) a grande maioria das técnicas
empregadas na estatística é baseada na distribuição normal; b) inúmeros são os fenômenos aleatórios
cujos comportamentos podem ser descritos de forma aproximada pelo modelo probabilístico normal;
c) a distribuição normal é a forma limitante de muitas outras distribuições de probabilidades,
como consequência do teorema central do limite; d) muitas estatísticas apresentam distribuições
assintóticas normais, ou seja, a distribuição da estatística se aproxima da normal à medida que o
tamanho da amostra cresce.
A função densidade da normal representa uma família de distribuições de probabilidade,
dependente de dois parâmetros µ e σ 2 , sendo dada por:

(x − µ)2
1 −
f (x) = √ e 2σ 2 , (5.6.1)
2πσ 2

em que x ∈] − ∞; +∞[.
Na Figura 5.1 é possível visualizar três densidades para a família normal com diferentes
escolhas de seus parâmetros. Verifica-se que quanto menor a variância (Figura 5.1 a), considerando
densidades de mesma média (Figura 5.1 a e b), maior será a concentração dos valores da variável
em torno do valor central µ. Verifica-se também que diferentes médias posicionam as densidades
centradas em diferentes pontos da abscissa, ou seja, provocam translações das densidades.
A função de distribuição de probabilidade acumulada da normal não pode ser apresentada
Ferreira, D.F. Fundamentos de Matemática Estatística
5.6 Distribuição Normal e Aproximação Normal da Binomial e Poisson 75

0 .5

f(x )
0 .4

(a )
0 .3

0 .2

(c )
0 .1
(b )

0 .0
0 5 1 0 1 5 2 0 2 5 3 0 3 5 4 0
x

Figura 5.1. Densidades de três distribuições normais com os seguintes parâmetros: (a) µ = 10 e
σ 2 = 1 ; (b) µ = 10 e σ 2 = 6 ; e (c) µ = 25 e σ 2 = 4.

explicitamente por uma expressão analítica. A obtenção de valores específicos dessa fdpa requer
o uso de ferramentas específicas do cálculo numérico. O símbolo Φ(x) é usado para representar
especificamente a fdpa normal padrão, quando µ = 0 e σ 2 = 1. A função de distribuição é:

Z x
(t − µ)2
1 −
F (x) = √ e 2σ 2 dt (5.6.2)
−∞ 2πσ 2

em que x ∈] − ∞; +∞[.
Na Figura 5.2, apresenta-se a fdpa normal. Verifica-se que esta função de distribuição possui o
formato de um sigmóide e representa uma função monótona crescente.
O cálculo de probabilidades acumuladas dessa distribuição de probabilidade é feito pela integral
definida em 5.2 no intervalo ] − ∞; x]. A dificuldade encontrada é a não existência de uma
expressão explícita da fdpa, exigindo-se que o cálculo seja realizado por meio de métodos numéricos
de integração. Como a densidade da normal é dependente de dois parâmetros, que em cada situação
prática podem assumir diferentes valores, é possível obter valores das probabilidades da distribuição
normal de uma variável aleatória X a partir de cálculos equivalentes em uma variável obtida por
uma transformação linear de X. O objetivo de tal transformação é facilitar as operações numéricas a
serem realizadas e permitir a tabulação das probabilidades. Essa transformação linear de X em uma
nova variável não altera a distribuição de probabilidade, mas gera uma nova variável, especificada,
em geral, por Z, cuja média é igual a 0 e a variância é igual a 1, N (0, 1). Essa nova variável segue
uma distribuição conhecida como normal padrão, e não possui unidades de medidas de referência,
Fundamentos de Matemática Estatística Ferreira, D.F.
76 Variáveis Aleatórias e Distribuição de Probabilidades

F ( x )
1 .0

0 .9

0 .8

0 .7

0 .6

0 .5

0 .4

0 .3

0 .2

0 .1

0 .0
0 1 0 2 0 3 0 4 0 x

Figura 5.2. Função de distribuição de probabilidade acumulada normal representando uma função
monótona crescente.

ou seja, é uma variável aleatória adimensional. A densidade da normal padrão, N (µ = 0, σ 2 = 1),


para a variável aleatória Z obtida pela transformação linear de X:

X −µ
Z= (5.6.3)
σ

é dada por

1 2
fZ (z) = φ(z) = √ e−z /2 , (5.6.4)

em que z ∈ ] − ∞; +∞[.
As probabilidades de eventos como, P (a < X < b), são equivalentes a P (a∗ < Z < b∗ ), com
a∗ e b∗ dados por:

a−µ b−µ
a∗ = e b∗ = .
σ σ

A função de distribuição de probabilidade acumulada normal padronizada é:


Z z
1 2
FZ (z) = Φ(z) = √ e−t /2 dt, (5.6.5)
−∞ 2π

em que z ∈ ] − ∞; +∞[.
Na Tabelas 5.1 apresentam-se probabilidades para diferentes valores de Z, ou seja, encontram-se
Ferreira, D.F. Fundamentos de Matemática Estatística
5.6 Distribuição Normal e Aproximação Normal da Binomial e Poisson 77

as probabilidades da variável aleatória pertencer ao intervalo entre 0, valor médio, e z definido


pelo usuário e especificado na margem (primeira coluna) dessa tabela. Nas Figura 5.3 ilustra-se
as probabilidades da Tabelas 5.1. É possível calcular a probabilidade de qualquer outro evento
associado à variáveis normais usando, para isso, as propriedades de simetria da distribuição normal
e a teoria probabilística. O conhecimento de que a área total sob a curva normal no intervalo
] − ∞; +∞[ é igual a 1 é fundamental. No exemplo 5.2, ilustra-se o cálculo de probabilidades
para a distribuição normal, utilizando os valores da integral sob a curva obtidos e tabulados para a
variável padronizada, ou seja, valores tabulados para a distribuição normal padrão, N (0, 1).

0 .5

0 .4

0 .3
(a ) P (0 < Z < z )

0 .2

0 .1

0 .0
0 z

Figura 5.3. As áreas hachuradas representam as probabilidades associada à Tabela 5.1, em que
P (0 < Z < z).

As probabilidades da distribuição normal padrão de −∞ a z, ou seja, P (Z < z), são calculadas


por diversas aproximações na literatura especializada. Uma dessas aproximações numéricas, para
as probabilidades apresentadas em 5.6.5 é devida a Hasting (1955), cujo erro máximo é da ordem
de 10−6 . Essa aproximação numérica pode ser obtida por:
(
G se z ≤ 0
Φ(z) = (5.6.6)
1 − G se z > 0

em que G é dado por

G = a1 η + a2 η 2 + a3 η 3 + a4 η 4 + a5 η 5 φ(z)

(5.6.7)

com φ(z) apresentado em 5.6.4, η definido por

1
η= (5.6.8)
1 + 0,2316418|z|

e as constantes a1 , . . ., a5 definidas por

a1 =0,319381530; a2 = − 0,356563782; a3 =1,781477937;


a4 = − 1,821255978; a5 =1,330274429.

Fundamentos de Matemática Estatística Ferreira, D.F.


78 Variáveis Aleatórias e Distribuição de Probabilidades

Tabela 5.1. Probabilidades α da distribuição normal-padrão N (0, 1), para valores do quantil Zα
padronizado, de acordo com a seguinte afirmativa probabilística: P (0 < Z < Zα ) = α.

Zα 0 1 2 3 4 5 6 7 8 9
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224

0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621

1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441

1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817

2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952

2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990

3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998

3,6 0,4998 0,4998 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,7 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,8 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999 0,4999
3,9 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000 0,5000

Exemplo 5.2: Probabilidades da normal padrão

Obter as seguintes probabilidades a partir de variáveis padronizadas, N (0, 1), utilizando a


Tabela 5.1:

Ferreira, D.F. Fundamentos de Matemática Estatística


5.6 Distribuição Normal e Aproximação Normal da Binomial e Poisson 79

a) P (Z > 1,0) b) P (−1,0 < Z < 0) c) P (Z > 1,96) d) P (−1,645 < Z < 1,645)
Nas seguintes figuras apresentam-se os 4 eventos com as áreas sob a curva hachuradas, que
correspondem às respectivas probabilidades solicitadas.

0 .5 0 .5

f(x ) f(x )
0 .4 0 .4

0 .3
0 .3

0 .2
0 .2

0 .1
0 .1

0 .0
-3 -2 -1 0 1 2 3 0 .0
x
-3 -2 -1 0 1 2 3 x

(a) (b)

0 .5 0 .5

f(x ) f(x )

0 .4 0 .4

0 .3 0 .3

0 .2 0 .2

0 .1 0 .1

0 .0 0 .0
-3 -2 -1 0 1 2 3 -3 -2 -1 0 1 2 3
x x

(c) (d)

a) A Tabela 5.1 sempre fornece a probabilidade entre 0 e z, cujo valor (z), nesse caso
específico, é igual a 1. A probabilidade desejada é a área acima do valor 1 conforme
apresentado no esboço (a) anterior. Como a área de 0 a infinito é igual a 0,50 ou 50%,
a probabilidade desejada é igual a esse valor subtraído da área que será encontrada na
tabela com a consulta do valor 1,00. Assim,

P (Z > 1,00) = P (Z > 0) − P (0 < Z < 1,00) = 0,5 − P (0 < Z < 1,00)

O valor P (0 < Z < 1,00) é encontrado consultando a Tabela 5.1, lembrando que a

Fundamentos de Matemática Estatística Ferreira, D.F.


80 Variáveis Aleatórias e Distribuição de Probabilidades

casa centesimal deve ser procurada nas colunas correspondentes ao valor encontrado na
coluna da primeira linha da Tabela 5.1. Esse valor é 0,3413.

P (Z > 1,00) = 0,5 − P (0 < Z < 1,00) = 0,5 − 0,3413 = 0,1587 = 15,87%

b) A segunda probabilidade, P (−1,0 < Z < 0), necessita que se conheça a área entre0 e
um valor negativo de Z. A Tabela 5.1 não possui valores negativos, mas isso não impede
que se calcule a probabilidade solicitada utilizando-se dessa tabela. Isso é possível em
função da importante propriedade de simetria da distribuição normal, o que faz com que
a Tabela 5.1 seja mais compacta e resumida. Assim, pela propriedade de simetria:

P (−1,0 < Z < 0) =P (0 < Z < 1,0) = 0,3413 = 34,13%

c) Esse exemplo foi resolvido da mesma forma que na letra (a). O valor de 1,96 é um dos
mais comuns dessa distribuição e é empregado nos testes estatísticos que usam a normal.

P (Z > 1,96) =P (Z > 0) − P (0 < Z < 1,96) = 0,5 − 0,4750 = 0,0250 = 2,5%

d) Nesse cálculo de probabilidade, a área total deve ser quebrada em duas partes, uma que
vai de −1,645 a 0 e a outra que vai de 0 a 1,645. A razão é simples: a Tabela 5.1 só
fornece áreas entre 0 e o valor z. Assim,

P (−1,645 < Z < 1,645) =P (−1,645 < Z < 0) + P (0 < Z < 1,645)
=2 × P (0 < Z < 1,645) = 2 × 0,45 = 0,90 = 90%

Os exemplos 5.3, 5.4 e 5.5 ilustram: a) a obtenção de probabilidades para eventos relacionando
uma variável aleatória X normal não-padrão, ou seja, com média µ e variância σ 2 ; b) a obtenção
de realizações de X, dadas as probabilidades de alguns eventos, ou seja, a inversão da função de
distribuição de probabilidade de uma variável normal conhecendo-se a probabilidade e obtendo-se
o valor da variável para o evento associado.
Exemplo 5.3: Probabilidades da normal

Uma variedade de tomate possui produtividade média de µ = 7,9 kg/planta e variância de


σ 2 = 0,97 (kg/planta)2 . Supor que a distribuição seja normal e calcular a probabilidade de a
produtividade (X) de uma planta sorteada dessa variedade estar de acordo com os seguintes
eventos:
a) X > 9,0 kg b) 8,0 < X < 9,5 kg c) X < 7 kg d) 6,5 < X < 8,5 kg

Ferreira, D.F. Fundamentos de Matemática Estatística


5.6 Distribuição Normal e Aproximação Normal da Binomial e Poisson 81

a) X > 9,0 kg

 
9 − 7,9
P (X > 9,0) =P Z> √ = P (Z > 1,12) = 0,5 − P (0 < Z < 1,12)
0,97
=0,5 − 0,3686 = 0,1314 = 13,14%

b) 8,0 < X < 9,5

P (8,0 < X < 9,5) =P (7,9 < X < 9,5) − P (7,9 < X < 8,0)
   
9,5 − 7,9 8,0 − 7,9
=P Z > √ −P Z > √
0,97 0,97
=P (0 < Z < 1,62) − P (0 < Z < 0,10)
=0,4474 − 0,0398 = 0,4076 = 40,76%

c) X < 7
 
7,0 − 7,9
P (X < 7) =0,5 − P (7,0 < X < 7,9) = 0,5 − P Z > √
0,97
=0,5 − P (−0,91 < Z < 0)
=0,5 − P (0 < Z < 0,91) = 0,5 − 0,3186 = 0,1814 = 18,14%

d) 6,5 < X < 8,5

P (6,5 < X < 8,5) =P (6,5 < X < 7,9) + P (7,9 < X < 8,5)
   
6,5 − 7,9 8,5 − 7,9
=P Z > √ +P Z > √
0,97 0,97
=P (−1,42 < Z < 0) + P (0 < Z < 0,61)
=P (0 < Z < 1,42) + P (0 < Z < 0,61)
=0,4222 + 0,2291 = 0,6513 = 65,13%

Exemplo 5.4: Probabilidades da normal

A produtividade média do feijoeiro preto é µ = 1.836 kg/ha e variância é σ 2 = 26.250


(kg/ha)2 . Admitindo-se distribuição normal para a produtividade do feijoeiro, pergunta-se:
a) qual é a produtividade de feijão que é superada por 2,5% dos valores? b) quais são os
valores de produtividade, simétricos em torno da média, para os quais a probabilidade de se
encontrarem valores de produtividade entre eles é de 90%?

a) P (X > x) = 0,025
Isso equivale a:

Fundamentos de Matemática Estatística Ferreira, D.F.


82 Variáveis Aleatórias e Distribuição de Probabilidades

P (1.836 < X < x) = 0,5 − P (X > x) = 0,4750

Essa probabilidade é equivalente na escala padronizada à seguinte afirmativa:

P (0 < Z < z) = 0,4750,

em que

x−µ
z= ⇒ x = σz + µ.
σ

Consultando “o interior” da Tabela 5.1 para localizar o valor 0,4750, verifica-se que o
valor da variável aleatória padronizada, cuja área entre 0 e z é igual a 0,4750, corresponde
a 1,96. Então,


x =1,96 × 26.250 + 1.836 = 2.154,6 kg.

b) P (x1 < X < x2 ) = 0,90

P (x1 < X < 1.836) =P (1.836 < X < x2 ) = 0,45.

Assim, x1 e x2 são valores simétricos em torno da média, ou seja, de mesma distância em


relação ao valor médio, só que um abaixo da média e o outro acima. O evento equivalente
considerando as variáveis padronizadas é:

P (z1 < Z < 0) =P (0 < Z < z2 ) = 0,45.

Consultando a parte interior da Tabela 5.1, com o valor de área de 0,45, é possível
verificar que o valor de Z correspondente está no ponto médio de 1,64 e 1,65. Assim, o
valor z1 é igual a −1,645 e o valor z2 é 1,645. Os valores de X correspondentes são
obtidos pelo retorno à escala original a partir dos valores z1 e z2 .

x1 = − 1,645 × 162,0185 + 1.836 = 1.569,5 kg


x2 =1,645 × 162,0185 + 1.836 = 2.102,5 kg.

Ferreira, D.F. Fundamentos de Matemática Estatística


5.6 Distribuição Normal e Aproximação Normal da Binomial e Poisson 83

Exemplo 5.5: Probabilidades da normal

O peso médio de 100 sementes de plantas de feijoeiro, plantas essas provenientes do


cruzamento Milionário × Flor de Maio é igual a µ = 22,2 g e a variância é igual a σ 2 = 9
g2 . Um lote é considerado suspeito de ser proveniente de plantas contaminantes do campo
de produção de sementes se a pesagem das 100 sementes apresentar valores nas frações de
1% inferior ou superior da distribuição da variável aleatória. Determinar os limites de peso
para se considerar o lote como sendo contaminante. Supor que a distribuição normal seja
adequada para modelar o peso de 100 sementes.

P (x1 < X < x2 ) =0,99 ⇒ P (z1 < Z < 0) = P (0 < Z < z2 ) = 0,495
⇒ z1 = −2,575 e z2 = 2,575

Logo,

x1 = − 2,575 × 3 + 22,2 = 14,5 g


x2 =2,575 × 3 + 22,2 = 29,9 g

Assim, o lote será considerado contaminante se o peso de 100 sementes estiver abaixo de
14,5 g ou acima de 29,9 g.

A distribuição normal tem um importante papel, pois é a distribuição limitante de muitas


distribuições de probabilidade, sejam elas contínuas ou mesmo discretas. As mais famosas
aproximações normais a distribuições discretas referem-se à aproximação normal à binomial e à
Poisson. Será tratado, inicialmente, a aproximação normal à distribuição binomial.
A distribuição binomial possui um comportamento que se aproxima cada vez mais de uma curva
normal à medida que o tamanho da amostra n aumenta e p, probabilidade de sucesso, se aproxima
de 1/2. Na Figura 5.4, procurou-se ilustrar o efeito na distribuição do aumento do tamanho da
amostra considerando binomiais com p = 1/2. Percebe se, claramente, que quando p = 1/2 para
valores de n relativamente pequenos, a curva normal já se ajusta bem à distribuição binomial.
Para as binomiais com p = 1/4, a distribuição é muito assimétrica à direita. Partindo-se de
um valor pequeno de n, como por exemplo, 3, para um valor um pouco maior, como, por exemplo,
20, verifica-se na Figura 5.5 que a distribuição vai se tornando cada vez mais simétrica e cada
vez mais semelhante à curva normal. Para os casos anteriores (p = q = 1/2), os coeficientes de
assimetria eram todos nulos. Para esses casos de p = 1/4, os valores são: −0,67 para n = 3, −0,52
para n = 5, −0,39 para n = 15 e −0,26 para n = 20. Os valores do coeficiente de assimetria
se aproximam do valor zero à medida que os valores de n aumentam. O valor do coeficiente de
assimetria da normal é igual a 0. Para a binomial o coeficiente de assimetria é
p q−p
β1 = √ . (5.6.9)
npq

Existem conflitantes aconselhamentos relativos às escolhas de n e de p para que a aproximação


Fundamentos de Matemática Estatística Ferreira, D.F.
84 Variáveis Aleatórias e Distribuição de Probabilidades

0 .5 0 0 .3 5

0 .4 5
0 .3 0
0 .4 0

0 .3 5 0 .2 5

0 .3 0
0 .2 0
0 .2 5
0 .1 5
0 .2 0

0 .1 5 0 .1 0

0 .1 0
0 .0 5
0 .0 5

0 .0 0 0 .0 0
0 1 2 3 0 1 2 3 4 5

(a) n = 3 (b) n = 5

0 .2 0 0 .1 8

0 .1 6

0 .1 4
0 .1 5
0 .1 2

0 .1 0
0 .1 0
0 .0 8

0 .0 6

0 .0 5
0 .0 4

0 .0 2

0 .0 0 0 .0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 5 10 15 20

(c) n = 15 (d) n = 20
Figura 5.4. Distribuição binomial para (a) n = 3, (b) n = 5, (c) n = 15 e (d) n = 20, com
probabilidade de sucesso p = 1/2.

normal seja apropriada. Conforme a revisão de Leemis e Trivedi (1996) as seguintes recomendações
para uma apropriada aproximação são encontradas:

• np e n(1 − p) sejam ambos maiores que 5;


r
p(1 − p)
• p±2 forneça resultados dentro do intervalo (0, 1);
n
• n > max [(1 − p)/p; p/(1 − p)];

• np(1 − p) ≥ 10; e

• np(1 − p) ≥ 9.

Para mais bem explicar essa correção de continuidade para variáveis discretas, é possível
recorrer às Figuras 5.4 e 5.5 e observar que os valores da variável binomial, diga-se Y , representam o
Ferreira, D.F. Fundamentos de Matemática Estatística
5.6 Distribuição Normal e Aproximação Normal da Binomial e Poisson 85

0 .5 0 0 .4 0

0 .4 5
0 .3 5
0 .4 0
0 .3 0
0 .3 5
0 .2 5
0 .3 0

0 .2 5 0 .2 0

0 .2 0
0 .1 5
0 .1 5
0 .1 0
0 .1 0
0 .0 5
0 .0 5

0 .0 0 0 .0 0
0 1 2 3 0 1 2 3 4 5

(a) n = 3 (b) n = 5

0 .2 0

0 .1 8
0 .2 0
0 .1 6

0 .1 4
0 .1 5
0 .1 2

0 .1 0
0 .1 0
0 .0 8

0 .0 6
0 .0 5 0 .0 4

0 .0 2

0 .0 0 0 .0 0
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 0 5 10 15 20

(c) n = 15 (d) n = 20
Figura 5.5. Distribuição binomial para (a) n = 3, (b) n = 5, (c) n = 15 e (d) n = 20, com
probabilidade de sucesso p = 1/4.

ponto médio dos retângulos dos histogramas e que as áreas relativas a cada retângulo correspondem
às probabilidades associadas aos valores de Y . Assim, P (Y = 1), por exemplo, significa que
a probabilidade poderia ser estimada pela área sob a curva normal que aproxima o histograma
no intervalo de 0,5 a 1,5. Definindo X a variável normal com média µ = np e σ 2 = npq
(da binomial), a probabilidade aproximada pela normal seria dada pela relação: P (Y = y)

= P (y − 0,5 < X < y + 0,5). A soma ou subtração do valor 0,5 é a correção de continuidade.
No exemplo 5.6 ilustra-se o uso da aproximação normal à binomial para o cálculo de probabili-
dades e apresenta-se a comparação do cálculo exato e do cálculo aproximado.

Exemplo 5.6: Aproximação normal da binomial

Numa leitegada de tamanho n = 8, determinar as probabilidades dos even-


tos apresentados a seguir usando a aproximação normal e a distribuição bi-

Fundamentos de Matemática Estatística Ferreira, D.F.


86 Variáveis Aleatórias e Distribuição de Probabilidades

nomial. Obter o erro cometido pela aproximação, em pontos percentuais


e relativo. Definindo-se Y como o número de fêmeas na leitegada, obter:
a) P (Y = 4) b) P (Y ≥ 2)
c) P (Y > 2) d) P (2 < Y < 6)
A variável Y é uma variável aleatória binomial com parâmetros n = 8 e p = 1/2. A
distribuição de probabilidade de Y está apresentada na tabela a seguir.

y P (Y = y)
0 0,00390625
1 0,03125000
2 0,10937500
3 0,21875000
4 0,27343750
5 0,21875000
6 0,10937500
7 0,03125000
8 0,00390625

As probabilidades exatas requisitadas são:

a) P (Y = 4) = 0,2734375 = 27,34375%

b) P (Y ≥ 2) = 1 − [P (Y = 0) + P (Y = 1)] = 1 − 0,03515625 = 0,96484375 =


96,484375%

c) P (Y > 2) = 1 − [P (Y = 0) + P (Y = 1) + P (Y = 2)] = 1 − 0,14453125 =


85,546875%

d) P (2 < Y < 6) = P (Y = 3) + P (Y = 4) + P (Y = 5) = 0,7109375 = 71,09375%

Para obter as aproximações normais será definida a variável normal X cuja média é
µ = np = 4 e a variância é σ 2 = np(1 − p) = 2. Assim,

a) P (Y = 4) ∼
= P (3,5 < X < 4,5), assim
 
3,5 − 4 4,5 − 4
P (Y = 4) ∼
=P √ <Z< √ = P (−0,35 < Z < 0,35)
2 2
=2 × P (0 < Z < 0,35) = 2 × 0,1368 = 0,2736 = 27,36%

b) P (Y ≥ 2) ∼
= P (X > 1,5), assim
 
1,5 − 4
P (Y ≥ 2) ∼
=P Z> √ = P (Z > −1,77)
2
=0,5 + P (0 < Z < 1,77) = 0,5 + 0,4616 = 0,9616 = 96,16%

Ferreira, D.F. Fundamentos de Matemática Estatística


5.7 Esperança Matemática e Suas Leis 87

c) P (Y > 2) ∼
= P (X > 2,5), assim
 
2,5 − 4
P (Y > 2) ∼
=P Z> √ = P (Z > −1,06)
2
=0,5 + P (0 < Z < 1,06) = 0,5 + 0,3554 = 0,8554 = 85,54%

d) P (2 < Y < 6) ∼
= P (2,5 < X < 5,5), assim
 
2,5 − 4 5,5 − 4
P (2 < Y < 6) ∼
=P √ <Z< √ = P (−1,06 < Z < 1,06)
2 2
=2 × P (0 < Z < 1,06) = 2 × 0,3554 = 0,7108 = 71,08%

Na tabela seguinte são apresentados os erros absolutos (e =Probabilidade aproximada


− Probabilidade exata) e também os erros relativos er = (Prob. aproximada-Prob.
exata)/Prob.exata para os 4 casos considerados.

Prob. requerida e er
a) P (Y = 4) 0,0002 0,0006
b) P (Y ≥ 2) -0,0032 -0,0034
c) P (Y > 2) -0,0001 -0,0001
d) P (Y ≥ 2) -0,0001 -0,0002

Verifica-se que todos os tipos de erros foram inferiores a 0,5%, sendo possível considerar a
aproximação normal adequada para essa situação. Embora n seja pequeno para uma boa
aproximação, o valor de p sendo exatamente igual a 1/2 favorece a aproximação realizada.

A aproximação normal à Poisson é realizada nos mesmos moldes da aproximação realizada à


binomial. Uma variável aleatória Poisson possui média e variância definidas por µ = σ 2 = λ = np.
A média e a variância são suficientes para definir a distribuição normal da aproximação. Controvérsias
são encontradas na literatura para a definição de qual deve ser o valor mínimo de λ para que a
aproximação seja considerada adequada. São sugeridos os valores λ > 7, ou λ > 15, ou ainda,
λ > 25 para se obter boas aproximações.
Além dessas duas distribuições discretas abordadas é possível utilizar a aproximação normal
para uma série de outras densidades discretas ou mesmo contínuas. É necessário que se conheça a
média e a variância da variável a ser aproximada para que a distribuição normal fique completamente
definida.

5.7 Esperança Matemática e Suas Leis

Um conceito chave para a teoria da probabilidade é o conceito do valor esperado. Intuitivamente,


o valor esperado é a média da variável aleatória na distribuição de probabilidade. O valor esperado
também é chamado de expectância, ou esperança matemática, ou média, de uma variável aleatória
X é denotado por E [X]. Assim, a variável aleatória é vista como uma medida resumo do espaço
Fundamentos de Matemática Estatística Ferreira, D.F.
88 Variáveis Aleatórias e Distribuição de Probabilidades

amostral e a esperança como uma medida resumo da variável aleatória ou da sua distribuição.
Os estatísticos sempre buscam medidas sumariantes das distribuições de probabilidade e o valor
esperado de uma variável aleatória é frequentemente utilizado como uma delas. Outras medidas
resumo da distribuição de uma variável aleatória também usam o conceito de esperança matemática
em sua definição. Assim, vamos neste capítulo apresentar os principais conceitos e resultados do
operador de esperança matemática. No próximo capítulo estudaremos as funções geradoras de
momentos e as funções características.

5.7.1 Definições Básicas

A esperança matemática e a variável aleatória são essencialmente diferentes, pois a primeira


é um número e a segunda uma função, que possui aleatoriedade. Vamos considerar um número
que intuitivamente representaria a distribuição de probabilidade de uma variável aleatória. Na
concepção da maioria dos leitores, este número é a média, pelo menos se utilizarmos argumentos
intuitivos. Assim, surge o primeiro conceito importante sobre a distribuição de uma variável
aleatória, a sua média, ou esperança matemática, ou valor esperado ou primeiro momento. Vamos
formalizar a definição de esperança matemática a seguir.

Definição 5.19: Esperança matemática

A esperança matemática de uma variável aleatória X é o valor médio dessa variável aleatória
em sua distribuição de probabilidade e é dada por
X
E [X] = xpX (x), (5.7.1)
x∈R1

sendo X uma variável aleatória discreta e


Z ∞
E [X] = xfX (x)dx, (5.7.2)
−∞

sendo X uma variável aleatória contínua. A esperança matemática é também denotada de


valor esperado, média, expectância ou primeiro momento de uma variável aleatória.

A esperança no caso discreto com suporte finito sempre existe. Já para o caso contínuo e para o
caso discreto com suporte infinito, a esperança matemática pode não existir ou pode ser um valor
infinito.
A esperança matemática, em resumo, é a média da variável aleatória, ponderada pela sua
função de probabilidade, no caso discreto, ou pela sua função densidade de probabilidade, no caso
contínuo. Em termos da física, a esperança matemática é o centro de massa da distribuição da
variável aleatória.
Nas próximas subseções, vamos ilustrar o conceito de esperança, calculando-a em alguns
modelos probabilísticos discretos e contínuos.
Ferreira, D.F. Fundamentos de Matemática Estatística
5.7 Esperança Matemática e Suas Leis 89

5.7.2 Exemplos para Variáveis Aleatórias Discretas

A distribuição Bernoulli com parâmetro θ é uma das mais simples distribuições discretas. A
função de probabilidade foi apresentada em (5.3.4), na página 64.
Teorema 5.10: Esperança matemática da distribuição Bernoulli

Se a variável aleatória X possui distribuição Bernoulli, cuja função de probabilidade


P (X = x) foi apresentada em (5.3.4), com parâmetro 0 < θ < 1, então a esperança
matemática é dada por

E [X] =θ. (5.7.3)

Prova: Esperança matemática da distribuição Bernoulli

A esperança de X é

1
X
E [X] = xpX (x)
x=0

=0 × (1 − θ) + 1 × θ
=θ,

como queríamos mostrar.

A distribuição binomial, que é derivada da distribuição Bernoulli, pois refere-se a soma de n


variáveis aleatórias Bernoulli independentes, possui função de probabilidade dada em (5.3.5), na
página 65. A sua esperança matemática está apresentada no teorema a seguir.
Teorema 5.11: Esperança matemática da distribuição binomial

Se a variável aleatória X possui distribuição binomial, cuja função de probabilidade


P (X = x) foi apresentada em (5.3.5), com parâmetros 0 < θ < 1 e n ≥ 1, então a
esperança matemática é dada por

E [X] =nθ. (5.7.4)

Prova: Esperança matemática da distribuição binomial

A esperança de X é
n
X
E [X] = xpX (x)
x=0
n  
X n x
= x θ (1 − θ)n−x
x
x=0
n
X n!x
= θx (1 − θ)n−x
x!(n − x)!
x=0

Fundamentos de Matemática Estatística Ferreira, D.F.


90 Variáveis Aleatórias e Distribuição de Probabilidades

n
X n(n − 1)!
= θθx−1 (1 − θ)n−x
(x − 1)!(n − x)!
x=1
n
X (n − 1)!
=nθ θx−1 (1 − θ)n−x .
(x − 1)!(n − x)!
x=1

Se fizermos a troca de variável y = x − 1, então

n−1
X (n − 1)!
E [X] =nθ θy (1 − θ)n−1−y
y!(n − 1 − y)!
y=0
n−1
X 
n−1 y
=nθ θ (1 − θ)n−1−y
y
y=0

=nθ(θ + 1 − θ)n−1 (teorema binomial)


=nθ,

como queríamos mostrar.

A distribuição geométrica refere-se à distribuição do número de fracassos até a ocorrência


do primeiro sucesso, com probabilidade θ em um número aleatório de ensaios de Bernoulli
independentes. A esperança matemática de uma variável aleatória X com distribuição geométrica,
cuja função de probabilidade está apresentada em (5.3.6), na página 66, é dada no teorema a seguir,
que nãos erá provado.

Teorema 5.12: Esperança matemática da distribuição geométrica

Se a variável aleatória X possui distribuição geométrica, cuja função de probabilidade


P (X = x) foi apresentada em (5.3.6) e representa o número de fracassos até o primeiro
sucesso, com parâmetro 0 < θ < 1, então sua esperança matemática é dada por

1−θ
E [X] = . (5.7.5)
θ

Se no teorema 5.12, a variável X fosse definida como sendo o número de ensaios até a ocorrência
do primeiro sucesso, então a esperança de X seria E [X] = 1/θ.
Nosso próximo exemplo é o da distribuição Poisson, cuja função de probabilidade foi apresentada
em (5.3.8), na página 67.

Teorema 5.13: Esperança matemática da distribuição Poisson

Se a variável aleatória X possui distribuição Poisson, cuja função de probabilidade P (X = x)


foi apresentada em (5.3.8) e representa a contagem de um certo número de eventos aleatórios,
cujo parâmetro λ > 0, então sua esperança matemática é dada por

E [X] =λ. (5.7.6)

Ferreira, D.F. Fundamentos de Matemática Estatística


5.7 Esperança Matemática e Suas Leis 91

5.7.3 Exemplos para Variáveis Aleatórias Contínuas


O caso contínuo é similar ao caso discreto, sendo os somatórios trocados por integrais. Nosso
primeiro exemplo será o da uniforme contínua em [0,1]
Teorema 5.14: Esperança matemática da distribuição uniforme

Se a variável aleatória X possui distribuição uniforme (0, 1) com função densidade de


probabilidade fX = 1, então sua esperança matemática é dada por

1
E [X] = . (5.7.7)
2

Prova: Esperança matemática da distribuição uniforme

A esperança de X é
Z ∞ Z 1
E [X] = xfX (x)dx = xdx
−∞ 0
 2 x=1
x 12 02
= = −
2 x=0 2 2
1
= ,
2

como queríamos mostrar.

A distribuição exponencial, cuja função densidade de probabilidade foi apresentada na expressão


(5.4.6), página 70, é o nosso próximo exemplo. A integração é facilmente realizada neste modelo, o
que em outros não acontece.
Teorema 5.15: Esperança matemática da distribuição exponencial

Se a variável aleatória X possui distribuição exponencial (λ) com função densidade de


probabilidade fX , apresentada em (5.4.6), então sua esperança matemática é dada por

1
E [X] = . (5.7.8)
λ

Prova: Esperança matemática da distribuição exponencial

A esperança de X é
Z ∞ Z ∞
E [X] = xfX (x)dx = xλe−λx dx.
−∞ 0

Se fizermos a integração por partes com u = x e dv = λe−λx dx, então du = dx e


v = −e−λx . Portanto,
Z ∞ h ix=∞ Z ∞
−λx −λx
E [X] = xλe dx = −xe − −e−λx dx
0 x=0 0
 −λx x=∞
e 1
= − =0+
λ x=0 λ

Fundamentos de Matemática Estatística Ferreira, D.F.


92 Variáveis Aleatórias e Distribuição de Probabilidades

1
= ,
λ

como queríamos mostrar.

O próximo exemplo é o da distribuição normal padrão, cuja função densidade de probabilidade


foi apresentada em (5.4.7), na página 71. Posteriormente, mostraremos como poderemos usar
uma das principais propriedades da esperança matemática, que é a linearidade, para obtermos a
esperança de uma variável X da família normal, a partir do resultado da esperança da normal
padrão.
Teorema 5.16: Esperança matemática da distribuição normal padrão

Se a variável aleatória X possui distribuição normal padrão, N (0,1), com função densidade
de probabilidade φX , apresentada em (5.4.7), então sua esperança matemática é dada por

E [X] =0. (5.7.9)

Prova: Esperança matemática da distribuição normal padrão

A esperança de X é
Z ∞ Z ∞
1 2
E [X] = xφX (x)dx = x √ e−x