Estatística

alfaconcursos.com.
br
SUMÁRIO
INTRODUÇÃO À ESTATÍSTICA.................................................................................................................. 6
RAMOS DA ESTATÍSTICA ..................................................................................................................... 7
ESTATÍSTICA DESCRITIVA ........................................................................................................................... 7
ESTATÍSTICA INFERENCIAL ......................................................................................................................... 8
OBJETO DE ESTUDO ............................................................................................................................ 9
ELEMENTOS AVALIADOS: POPULAÇÃO ..................................................................................................... 9
CARACTERÍSTICA AVALIADA: VARIÁVEL .................................................................................................. 12
APLICAÇÃO DOS CONCEITOS ............................................................................................................. 15
ESTATÍSTICA DESCRITIVA ...................................................................................................................... 18
APRESENTAÇÃO DOS DADOS PARA UMA VARIÁVEL .......................................................................... 18
DADOS BRUTOS ....................................................................................................................................... 18
DADOS PONDERADOS (TABELA DE FREQUÊNCIA SEM INTERVALOS) ..................................................... 19
DADOS AGRUPADOS (TABELA DE FREQUÊNCIA COM INTERVALOS)....................................................... 20
GRÁFICOS DE FREQUÊNCIA ..................................................................................................................... 22
HISTOGRAMA .......................................................................................................................................... 23
DIAGRAMA DE PONTOS ........................................................................................................................... 24
POLÍGONO DE FREQUÊNCIA .................................................................................................................... 25
CURVA DE FREQUÊNCIA .......................................................................................................................... 27
DIAGRAMA DE RAMOS E FOLHAS ........................................................................................................... 29
APRESENTAÇÃO DE DADOS PARA DUAS OU MAIS VARIÁVEIS ............................................................ 30
TABELAS ................................................................................................................................................... 30
GRÁFICOS................................................................................................................................................. 30
GRÁFICO DE COLUNAS............................................................................................................................. 31
GRÁFICO DE BARRAS ............................................................................................................................... 32
GRÁFICO DE SETORES (PIZZA).................................................................................................................. 32
GRÁFICO DE DISPERSÃO .......................................................................................................................... 33
GRÁFICO DE LINHAS (POLÍGONOS).......................................................................................................... 34
MEDIDAS DESCRITIVAS ..................................................................................................................... 35
MEDIDAS DE POSIÇÃO: TENDÊNCIA CENTRAL ........................................................................................ 36
MÉDIA (𝑿 𝒐𝒖 µ) ....................................................................................................................................... 37
MEDIANA (ME) ........................................................................................................................................ 43
MODA (MO) ............................................................................................................................................. 48
MEDIDAS DE POSIÇÃO: SEPARATRIZES.................................................................................................... 51
QUARTIS (Q)............................................................................................................................................. 51
DECIS (D) .................................................................................................................................................. 56
MUDE SUA VIDA!

1
alfaconcursos.com.br
PERCENTIL................................................................................................................................................ 57
BOX-PLOT................................................................................................................................................. 57
ESQUEMA DE CINCO PONTOS ................................................................................................................. 59
MEDIDAS DE DISPERSÃO ......................................................................................................................... 60
AMPLITUDE TOTAL (AT) ........................................................................................................................... 61
AMPLITUDE/INTERVALO INTERQUARTIL (AQ) ......................................................................................... 62
DESVIO QUARTIL (DQ) .............................................................................................................................. 62
DESVIO-MÉDIO (DM) ................................................................................................................................ 62
VARIÂNCIA (σ2 OU S2) .............................................................................................................................. 64
DESVIO PADRÃO (Σ OU S) ........................................................................................................................ 69
COEFICIENTE DE VARIAÇÃO (CV) ............................................................................................................. 72
COEFICIENTE DE VARIAÇÃO QUARTIL (CVQ) ........................................................................................... 73
MEDIDAS DE FORMA ............................................................................................................................... 73
ASSIMETRIA (AS) ...................................................................................................................................... 73
CURTOSE (C) ............................................................................................................................................ 79
TRANSFORMAÇÃO UNIFORME DOS DADOS ...................................................................................... 81
QUESTÕES COMENTADAS DO CAPÍTULO ........................................................................................... 85
TEORIA DA PROBABILIDADE ................................................................................................................. 91
DEFINIÇÕES BÁSICAS ........................................................................................................................ 91
ESPAÇO AMOSTRAL (Ω) ........................................................................................................................... 91
EVENTO .................................................................................................................................................... 92
CÁLCULO DA PROBABILIDADE ................................................................................................................. 92
AXIOMAS DA PROBABILIDADE .......................................................................................................... 93
1º AXIOMA ............................................................................................................................................... 93
2º AXIOMA ............................................................................................................................................... 94
3º AXIOMA ............................................................................................................................................... 94
INTERAÇÕES ENTRE EVENTOS PROBABILÍSTICOS ............................................................................... 95
INTERSEÇÃO............................................................................................................................................. 95
UNIÃO ...................................................................................................................................................... 96
EVENTOS DEPENDENTES ......................................................................................................................... 96
EVENTOS INDEPENDENTES ...................................................................................................................... 97
EVENTOS MUTUAMENTE EXCLUSIVOS.................................................................................................... 99
PROBABILIDADE CONDICIONAL ...................................................................................................... 100
CÁLCULO PELA FÓRMULA...................................................................................................................... 101
CÁLCULO PELA INTERPRETAÇÃO ........................................................................................................... 102
PROBABILIDADE COMPLEMENTAR .................................................................................................. 103
QUESTÕES COMENTADAS DO CAPÍTULO ......................................................................................... 104
MUDE SUA VIDA!

2
VARIÁVEIS ALEATÓRIAS ..................................................................................................................... 107

VARIÁVEIS ALEATÓRIAS DISCRETAS ................................................................................................ 108
FUNÇÃO MASSA DE PROBABILIDADE .................................................................................................... 109
FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA DE PROBABILIDADE ............................................................ 110
VALOR ESPERADO – E(X)........................................................................................................................ 111
MEDIANA – ME(X) ................................................................................................................................. 115
MODA – MO(X) ...................................................................................................................................... 115
VARIÂNCIA – VAR(X) .............................................................................................................................. 116
DESVIO-PADRÃO – DP(X) ....................................................................................................................... 119
COEFICIENTE DE VARIAÇÃO – CV(X) ...................................................................................................... 119
DISTRIBUIÇÕES DE PROBABILIDADE DISCRETA ................................................................................ 119
DISTRIBUIÇÃO UNIFORME DISCRETA .................................................................................................... 121
DISTRIBUIÇÃO DE BERNOULLI ............................................................................................................... 123
DISTRIBUIÇÃO BINOMIAL ...................................................................................................................... 126
DISTRIBUIÇÃO DE POISSON ................................................................................................................... 132
DISTRIBUIÇÃO HIPERGEOMÉTRICA ....................................................................................................... 138
DISTRIBUIÇÃO GEOMÉTRICA ................................................................................................................. 145
VARIÁVEIS ALEATÓRIAS CONTÍNUAS............................................................................................... 149
FUNÇÃO DENSIDADE DE PROBABILIDADE F(X) ..................................................................................... 150
FUNÇÃO DISTRIBUIÇÃO ACUMULADA DE PROBABILIDADE F(X)........................................................... 154
VALOR ESPERADO E VARIÂNCIA ............................................................................................................ 155
MEDIANA ME(X) E MODA (X) ................................................................................................................ 155
DISTRIBUIÇÕES DE PROBABILIDADE CONTÍNUAS ............................................................................. 156
DISTRIBUIÇÃO UNIFORME CONTÍNUA .................................................................................................. 157
DISTRIBUIÇÃO EXPONENCIAL ................................................................................................................ 160
DISTRIBUIÇÃO NORMAL ........................................................................................................................ 166
DISTRIBUIÇÃO NORMAL PADRÃO ......................................................................................................... 170
TRANSFORMAÇÃO DE VARIÁVEIS ALEATÓRIAS ............................................................................... 184
EFEITO DE UMA CONSTANTE COM VARIÁVEIS ALEATÓRIAS ................................................................ 184
TRANSFORMAÇÃO DA NORMAL PADRÃO............................................................................................. 187
TRANSFORMAÇÃO DE SOMA DE VARIÁVEIS ALEATÓRIAS .................................................................... 188
AMOSTRAGEM................................................................................................................................... 198
AMOSTRAGEM ALEATÓRIA SIMPLES ............................................................................................... 201
AMOSTRAGEM ALEATÓRIA ESTRATIFICADA .................................................................................... 202
AMOSTRAGEM ALEATÓRIA POR CONGLOMERADOS........................................................................ 204
AMOSTRAGEM ALEATÓRIA SISTEMÁTICA ....................................................................................... 205
MUDE SUA VIDA!

3

ESTATÍSTICA INFERENCIAL .................................................................................................................. 209
DISTRIBUIÇÃO AMOSTRAL .............................................................................................................. 210
̅ ) ............................................................................................ 211
DISTRIBUIÇÃO DA MÉDIA AMOSTRAL (𝑿
DISTRIBUIÇÃO DA PROPORÇÃO AMOSTRAL (𝒑) ................................................................................... 215
̂ ) .......................................................................................................................... 218
ESTIMADORES (𝜽
ESTIMADOR NÃO VIESADO.................................................................................................................... 219
ESTIMADOR EFICIENTE .......................................................................................................................... 221
ESTIMADOR CONSISTENTE .................................................................................................................... 222
ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA ...................................................................................... 223
DISTRIBUIÇÃO 𝒕 DE STUDENT .......................................................................................................... 224
TEOREMA DO LIMITE CENTRAL ....................................................................................................... 226
LEI DOS GRANDES NÚMEROS .......................................................................................................... 228
ESTIMATIVAS PONTUAIS ................................................................................................................ 230
INTERVALO DE CONFIANÇA (IC) ...................................................................................................... 231
INTERVALO DE CONFIANÇA PARA A MÉDIA .......................................................................................... 232
INTERVALO DE CONFIANÇA PARA PROPORÇÃO ................................................................................... 243
ERRO PADRÃO (𝝈𝜽 ) X ERRO DE ESTIMATIVA (𝑬) ............................................................................. 245
TAMANHO AMOSTRAL (𝒏) ............................................................................................................. 246
TESTE DE HIPÓTESES (TESTE Z OU T) ................................................................................................ 248
FORMULAÇÃO DE HIPÓTESES ESTATÍSTICAS......................................................................................... 249
ESTATÍSTICAS DE TESTE Z OU T.............................................................................................................. 252
TESTE DE HIPÓTESES PARA A MÉDIA..................................................................................................... 257
TESTE DE HIPÓTESES PARA A PROPORÇÃO ........................................................................................... 260
VALOR-P (Ф) 𝒙 NÍVEL DE SIGNIFICÂNCIA (Α) ......................................................................................... 263
TIPOS DE ERROS NO TESTE DE HIPÓTESES ............................................................................................ 266
POTÊNCIA DO TESTE DE HIPÓTESES ...................................................................................................... 269
TESTE QUI-QUADRADO (𝓧𝟐 ) .......................................................................................................... 270
DISTRIBUIÇÃO DE QUI-QUADRADO....................................................................................................... 270
ESTATÍSTICA QUI-QUADRADO ............................................................................................................... 272
TESTE DE ADEQUAÇÃO DE AJUSTAMENTO ........................................................................................... 276
TESTE DE INDEPENDÊNCIA .................................................................................................................... 278
VARIÁVEIS ALEATÓRIAS BIDIMENSIONAIS .......................................................................................... 285
DISTRIBUIÇÃO DE PROBABILIDADE CONJUNTA................................................................................ 286
DISTRIBUIÇÃO DE PROBABILIDADE MARGINAL ............................................................................... 287
INDEPENDÊNCIA ENTRE VARIÁVEIS ALEATÓRIAS ............................................................................. 289
MUDE SUA VIDA!

4
DISTRIBUIÇÃO DE PROBABILIDADE CONDICIONAL ........................................................................... 290

VALOR ESPERADO E(X, Y) ................................................................................................................ 292
VALOR ESPERADO CONDICIONAL E(X|Y) ......................................................................................... 294
COVARIÂNCIA COV(X, Y) ................................................................................................................. 295
ANÁLISE DE REGRESSÃO LINEAR ......................................................................................................... 303
CORRELAÇÃO LINEAR (R) ................................................................................................................ 304
INTERPRETAÇÃO DOS VALORES DA CORRELAÇÃO ................................................................................ 304
CÁLCULO DA CORRELAÇÃO ................................................................................................................... 309
PROPRIEDADES DA CORRELAÇÃO ......................................................................................................... 313
TESTE DE HIPÓTESES NA CORRELAÇÃO ................................................................................................. 314
REGRESSÃO LINEAR ........................................................................................................................ 317
VARIÁVEL INDEPENDENTE (X) X VARIÁVEL DEPENDENTE (Y)................................................................ 318
CONSTANTE DE REGRESSÃO (A) ............................................................................................................ 320
COEFICIENTE DE REGRESSÃO (B) ........................................................................................................... 321
ERROS DA REGRESSÃO (𝜺𝒊 ) ................................................................................................................... 323
PRESSUPOSIÇÕES DA REGRESSÃO LINEAR ............................................................................................ 326
REGRESSÃO LINEAR SIMPLES ................................................................................................................ 327
REGRESSÃO LINEAR MÚLTIPLA.............................................................................................................. 328
ESTIMADOR DOS MÍNIMOS QUADRADOS ....................................................................................... 328
ESTIMATIVA DO 𝒃 .................................................................................................................................. 329
ESTIMATIVA DO 𝒂 .................................................................................................................................. 330
ESTIMATIVA DE 𝒀 PELA RETA DE REGRESSÃO....................................................................................... 331
RELAÇÃO ENTRE B X R ........................................................................................................................... 332
TESTE DE HIPÓTESES NA REGRESSÃO .............................................................................................. 332
ANÁLISE DE VARIÂNCIA .................................................................................................................. 337
COMPONENTES DA VARIÂNCIA DA REGRESSÃO ................................................................................... 337
COEFICIENTE DE DETERMINAÇÃO (𝒓𝟐) ................................................................................................. 340
DISTRIBUIÇÃO F DE SNEDECOR ............................................................................................................. 343
TESTE DE HIPÓTESES DA VARIÂNCIA (TESTE F) ..................................................................................... 344
ANÁLISE DE RESÍDUOS .................................................................................................................... 349
HISTOGRAMA DOS RESÍDUOS (𝜺𝒊 ) ........................................................................................................ 350
GRÁFICO DE PROBABILIDADE NORMAL DOS RESÍDUOS (𝜺𝒊 )................................................................ 351
GRÁFICO DE RESÍDUOS (𝜺𝒊 ) VERSUS VALORES ESTIMADOS (𝒀𝒊 ) .......................................................... 352
GRÁFICO DE RESÍDUOS (𝜺𝒊 ) VERSUS VARIÁVEL INDEPENDENTE (𝑿𝒊 ) ................................................... 354
GRÁFICO RESÍDUOS (𝜺𝒊 ) VERSUS TEMPO OU ESPAÇO .......................................................................... 354
MUDE SUA VIDA!

5
INTRODUÇÃO À ESTATÍSTICA
A Estatística compreende a uma ciência que utiliza um conjunto de métodos científicos,
especialmente apropriados, com a finalidade de:
Dessa forma, o principal objetivo da Estatística é o estudo e a compreensão de uma

realidade específica (de fenômenos que ocorrem no mundo real, do cotidiano) e, com isso, é
possível extrair informações úteis para investigação e influenciar diretamente na tomada de
decisão.
Portanto, de modo geral, a Estatística é uma ciência especializada em transformar dados
brutos, coletados de qualquer campo de estudo, em informação; e, combinado com outras
ciências, é capaz de gerar conhecimento, inteligência e novas tecnologias.
A Estatística utiliza, principalmente, a matemática aplicada para fazer a transformação

dos dados em conhecimento, portanto, entenda que a utilização da matemática é apenas uma
das ferramentas usadas na Estatística para obter esse resultado. É muito importante que o
aluno compreenda, primeiramente, a essência da disciplina e veja todas as deduções e cálculos
matemáticos apenas como instrumentos para compreender os fenômenos que ocorrem no
mundo real.
MUDE SUA VIDA!

6
A Estatística é uma ciência intensamente aplicada nas investigações de fenômenos, por

isso, ela tem grande importância nas carreiras policiais que trabalham com investigação de
crimes, contra organizações criminosas, inteligência criminal, entre outros.
RAMOS DA ESTATÍSTICA
Antes de começar o estudo direcionado aos tópicos do edital de Estatística, é interessante
compreender alguns conceitos e classificações que serão utilizados durante todo o raciocínio
desenvolvido pela disciplina.
Inicialmente, deve-se entender que a Estatística é dividida em dois grandes campos
conforme o objetivo das análises utilizadas:
ESTATÍSTICA DESCRITIVA
A Estatística Descritiva consiste em análises que resumem concisamente um conjunto de
dados, sintetizam em poucas informações, organizam em tabelas, e ilustram por meio de
gráficos.
Esse campo da Estatística também é aplicado para efetuar análises exploratórias sobre
um conjunto de dados, pois é possível compreender uma tendência genérica dos resultados.
Com uso de medidas descritivas, gráficos e tabelas, pode ser observado um comportamento
padrão, intuitivo e representativo do fenômeno em estudo.
Por exemplo, com o desempenho médio de uma determinada característica obtida a partir
de um conjunto de dados brutos, é possível levantar hipóteses sobre o real desempenho desse
objeto de estudo, ou até mesmo, se sua performance pode ser superior a um outro fenômeno
estudado.
Um conjunto de dados brutos pode ser descritos a partir de medidas como média e desvio
padrão, ou organizados em tabela de frequência. Exemplo:
As informações geradas pela Estatística Descritiva, no exemplo acima, resumem o valor

da tendência central dos dados pela média, uma ideia do quanto os dados se dispersam pelo
desvio padrão, e a distribuição dos dados pelo gráfico de barras que apresenta a frequência.
MUDE SUA VIDA!

7
A Estatística Descritiva somente é completa e autossuficiente quando é possível obter

dados, com exatidão, de todos os elementos que compõem seu objeto de estudo (população).
Nessa situação, apenas descrever o conjunto de dados já bastaria para obter conclusões sobre
o fenômeno em estudo.
No entanto, a Estatística Descritiva, a partir de uma amostra, por si só, apenas descreve
os dados dessa amostra e não permite inferir sobra toda a população. Seria uma afirmação
equivocada comparar duas médias estimadas simplesmente pela magnitude do valor. Para isso,
é necessário o uso de métodos da Estatística Inferencial.
ESTATÍSTICA INFERENCIAL
A Estatística Inferencial utiliza informações incompletas para tomar decisões, tirar
conclusões satisfatórias e generalizar informações sobre o fenômeno em estudo. Para obter
inferências fidedignas do objeto de estudo, é necessário o conhecimento aplicado da teoria da
probabilidade, de uma amostragem representativa e da Estatística Descritiva. Esses três
tópicos, estudados na disciplina de Estatística, podem ser compreendidos como alicerces
necessários para aplicação eficiente da Estatística Inferencial.
As principais técnicas empregadas na Estatística Inferencial são a estimação pontual, a

estimação intervalar e o teste de hipóteses. O uso da Estatística Inferencial é valioso quando
não é conveniente ou possível examinar todos os elementos de uma população.
Quando se obtêm informações a partir de uma amostra, é necessário entender que essas
informações foram extraídas de um subconjunto da população e que possuem uma
probabilidade de corresponder coerentemente ao fenômeno estudado. Por isso, essas
informações estão sujeitas a erros e imprecisão, e, desse modo, cabe à Estatística Inferencial
quantificar essas incertezas e avaliar a credibilidade da informação. Exemplo:
MUDE SUA VIDA!

8
O valor da média estimada por um conjunto de dados de uma amostra é composto por um
possível erro de estimativa. Baseado nisso, calcula-se um intervalo de confiança em que o valor
estimado pode oscilar, isto é, média é 12,8, mas pode oscilar entre 10,33 até 15,27. De forma
bem genérica, essa é a ideia da Estatística Inferencial que trabalha com informações
incompletas e usa matemática aplicada para generalizar a informação obtida.
OBJETO DE ESTUDO
O objeto de estudo na disciplina de Estatística compreende a um fenômeno do mundo real,
uma realidade específica. Em outras palavras, tudo aquilo que ocorre ao redor do homem e que
ele tem o interesse de compreender suas características e seus comportamentos.
Desse modo, o objeto de estudo pode ser:
• Fenômenos biológicos e naturais;
• Comportamentos sociais;
• Aspectos políticos;
• Avaliação de equipamentos;
• Entre outros.
Praticamente, o objeto de estudo da disciplina é um “coringa”, ou seja, a Estatística pode
ser aplicada em qualquer fenômeno/realidade em que é possível extrair dados.
O fenômeno estudado em cada análise estatística é caracterizado basicamente por dois
componentes essenciais:
➢ Os elementos que serão estudados (População): de quem/onde os dados são
extraídos; e
➢ A característica que será avaliada (Variável): a natureza do dado extraído.
Segue a ilustração:
Dessa forma, em toda questão de Estatística, o aluno deve primeiramente analisar o cenário
apresentado em cada questão. Com isso, deve ser identificado quem são os elementos avaliados
ao qual pretende-se fazer inferências e o que será avaliado em cada elemento (qual
característica, atributo será contabilizado ou mensurado). Essa é uma leitura essencial para
iniciar a resolução de uma questão de Estatística.
ELEMENTOS AVALIADOS: POPULAÇÃO
Quando se refere aos elementos avaliados, deve-se ter o conhecimento pleno de quem
corresponde ao conjunto total de elementos do fenômeno estudado. Isso porque, todas as
inferências obtidas na Estatística serão válidas para todo esse conjunto, portanto não deve
haver conclusões incoerentes a população de estudo.
MUDE SUA VIDA!

9
Além disso, é importante entender que o termo elementos corresponde a todas as

unidades de avaliação que serão obtidos dados. Assim, os elementos podem ser compostos por
indivíduos, objetos ou eventos, dependendo do fenômeno estudado.
➢ População x Amostra:
Durante a explicação anterior, foram abordados temas como população e amostra, dessa
forma, agora, iremos compreender a essência desses dois conceitos. Sempre que a Estatística é
aplicada para estudar um fenômeno qualquer, é preciso saber quem são os elementos que
compõem o objeto de estudo, em cada situação particular. O conjunto de todos os elementos
representa o nosso universo estatístico, também denominado de população.
Então, população corresponde ao conjunto de elementos sobre os quais se desejam obter
dados de características que são comuns a todos. Portanto, população é todo o universo de um
objeto de estudo de interesse.
Entretanto, acontece que muitas vezes a população torna-se infinitamente grande e fica
muito oneroso, impraticável, inviável, demorado demais avaliar todos os elementos. Nesse
momento, uma alternativa interessante para estudar um fenômeno é avaliar parte dessa
população e utilizar métodos, como a Estatística Inferencial, para generalizar as informações
dessa parte para toda população. Veja a ilustração a seguir:
Conforme apresentado na ilustração, a fração de elementos retirada de uma população,

para serem avaliados, corresponde a amostra. Desse modo, a amostra é um subconjunto de
elementos da população que são coletados e analisados com objetivo de representar
fidedignamente toda a população de estudo.
Ao mesmo tempo, a técnica amostragem é a seleção de elementos da população para
compor a amostra (subconjunto da população). Em adição, a generalização é representada
pelas inferências obtidas a partir da análise de uma amostra que tenta explicar o
comportamento de toda a população (principal objetivo da Estatística Inferencial).
➢ Censo x Amostragem:
A análise estatística mais valiosa será sempre obter dados sobre toda a população, o que
denominamos de censo. Dessa forma, denomina-se Censo a coleta exaustiva de dados referente
a todos os elementos que compõem a população, ou seja, quando se trata de informações
completas da população em estudo.
No entanto, sabe-se que, muitas vezes, não será possível efetuar um censo. Em
contraponto, trabalha-se com o conjunto de dados proveniente da técnica de amostragem.
Assim, a amostragem consiste na coleta de um conjunto de dados incompletos de uma
população. Essa técnica deve seguir um método criterioso e adequado para que os dados
MUDE SUA VIDA!

10
extraídos representem o fenômeno de estudo presente na população. Mais à frente, teremos

um tópico somente estudando sobre a amostragem e suas técnicas.
➢ Parâmetro x Estimativa:
Quando coletamos os dados referentes ao nosso objeto de estudo, é necessário
compreender que as informações geradas (por exemplo, média, desvio padrão, tamanho), a
partir de uma população ou de uma amostra, possuem características diferentes e específicas.
As informações obtidas de uma população, quando possível, são constantes que se
referem ao verdadeiro valor do fenômeno estudado. Isso porque, se todos os elementos de um
objeto de estudo forem analisados, será obtido um valor único e uma informação absoluta sobre
o fenômeno. Portanto, definimos que as informações provenientes de uma população são
parâmetros, ou seja, constantes, muitas vezes desconhecidas, de um valor representativo que
permite modelar a realidade.
Por outro lado, quando se obtêm valores provenientes da amostra, sabe-se que as
informações geradas representam uma fração do fenômeno estudado e, portanto, são valores
variáveis e aleatórios. Com isso, tem-se a ideia de que as informações obtidas da amostra são
estimativas de um parâmetro ao qual se deseja conhecer.
Então, denomina-se estimativa as informações provenientes de dados incompletos com
objetivo de generalizar um parâmetro populacional. Assim, é possível esquematizar:
MUDE SUA VIDA!

11
Sobretudo, as principais informações estudadas – média, desvio padrão, variância,

tamanho e proporção – são simbolizadas por letras gregas ou maiúsculas, quando se referem a
parâmetros da população, e por letras do alfabeto comum ou minúsculas quando se referem a
estimativas da amostra.
Em síntese a todos esses conceitos abordados, pode ser aplicado o seguinte esquema
conceitual:
CARACTERÍSTICA AVALIADA: VARIÁVEL

Após identificar os elementos em que serão extraídos os dados, é preciso determinar qual
característica/atributo será avaliada, o que denominamos na Estatística como variável. Logo, o
termo variável é a atribuição dos valores correspondentes aos dados observados e sua
respectiva representação do fenômeno estudado no mundo real, isto é, a natureza dos dados, a
grandeza.
Sendo assim, ao se identificar a variável analisada, deve-se compreender a natureza ou o
tipo dessa variável, como os dados foram obtidos, sua unidade de medida, a distribuição da
variável e qual é o objetivo, a informação, que pretende se obter com essa variável. Todas essas
perguntas devem ser elucidadas na leitura de uma questão de Estatística, pois, com isso, obtém-
se um panorama geral do contexto apresentado na questão e facilita absurdamente a sua
resolução.
Os dados extraídos são uma variável que pode assumir diversos valores de acordo com
fenômeno em estudo. É importante ressaltar que os dados em questão não são necessariamente
numéricos, uma vez que podem dizer a respeito de atributos qualitativos observados na
população. Portanto, quanto a natureza/tipo das variáveis, elas podem ser qualitativas
(nominais ou ordinais) ou quantitativas (discretas ou contínuas). Segue a ilustração:
MUDE SUA VIDA!

12
➢ Variáveis Qualitativas
As variáveis de natureza qualitativa são representadas por dados que não tem informação
numérica e não é possível efetuar cálculos matemáticos com os dados propriamente ditos.
Dessa forma, os dados extraídos correspondem a categorias, classes definidas, ou qualidades.
Podem também ser denominadas por variáveis categóricas. Esta se subdivide em duas outras
classificações: nominais e ordinais.
• Variáveis Qualitativas Nominais:
São compostas por dados que representam qualidade, mas que não possuem nenhuma
ordem ou hierarquia entre eles, apenas identificam as categoriais distintas. Exemplos: gênero
(masculino e feminino), cor (azul, preto, amarelo etc.), país (Brasil, África do Sul, Japão etc.).
Veja que não existe nenhuma ordenação ou relação hierárquica entre os valores que a variável
qualitativa nominal pode assumir.
• Variáveis Qualitativas Ordinais:
Em contrapartida, as variáveis ordinais são aquelas representadas por dados categóricos
que possuem uma determinada ordenação ou hierarquia entre os valores que a variável pode
assumir. Exemplos: classe de renda (baixa, média, alta), experiência profissional (novato,
intermediário, veterano), grau de escolaridade (fundamental, médio, graduação, mestrado,
doutorado). Nesse contexto, é possível estabelecer uma ordem em cada categoria como baixa,
média e alta, ou como em novato, intermediário e veterano.
➢ Variáveis Quantitativas
As variáveis de natureza quantitativa são representadas por dados que possuem
informação numérica e neles podem ser efetuados cálculos matemáticos. Dessa forma, os dados
são basicamente representados por valores numéricos atribuídos, contabilizados ou
mensurados. Esta variável se subdivide em duas classificações: discretas e contínuas.
• Variáveis Quantitativas Discretas
São aquelas representadas por valores numéricos inteiros e definidos, não possuem um
intervalo entre um valor e outro (não possuem valores decimais). Geralmente, essas variáveis
correspondem a atribuição numérica dos eventos de um fenômeno específico (exemplo:
atribuição de fracasso ou sucesso de uma operação {0,1}, atribuição de números para cada face
de um dado {1, 2, 3, 4, 5 e 6} etc.), ou então representam a contagem de algum fenômeno
(exemplo: número de filhos por família, registros de roubos por dia, ocorrências de homicídios
MUDE SUA VIDA!

13
por cidades, etc.). Veja que não é coerente quantificar valores não inteiros (decimais), afinal,
não existe metade de um filho, ou meio homicídio, para esses fenômenos os resultados são
taxativos, ou ocorre ou não ocorre.
• Variáveis Quantitativas Contínuas
Contudo, as variáveis contínuas são aquelas representadas por valores numéricos que
podem ser inteiros e decimais. Existe um intervalo infinito entre um valor e outro. Essas
variáveis estão associadas a fenômenos que no mundo real são mensurados (medidos) por
algum instrumento que o homem criou junto a uma convenção que o homem estabeleceu.
Exemplos: peso, altura, tempo, temperatura, velocidade etc. Veja que existe um intervalo
infinito entre 20 kg e 30 kg, por exemplo, que pode ser 21 kg; 20,5 kg; 20,01 kg; 20,0001 kg e
assim infinitamente representado.
O quadro a seguir resume toda a classificação de variáveis e fornece exemplos:
MUDE SUA VIDA!

14
APLICAÇÃO DOS CONCEITOS

Para desenvolver os conceitos apresentados nesse capítulo introdutório, vamos
apresentar exemplos de questões de provas. Com isso, vamos estudar toda interpretação
necessária para identificar o objeto de estudo em cada situação.
1. A Polícia Federal fez um registro do valor diário (em R$ mil) apreendido de contrabando
na região de fronteira do estado do Paraná - Brasil.
O exemplo 1 apresenta uma situação em que a Polícia Federal (PF) tem o
objetivo de estudar o fenômeno da ocorrência do crime de contrabando na região de
fronteira do estado do Paraná – Brasil. Desse modo, a população de estudo é
composta por todos os crimes de contrabando cometidos nessa região e cada
elemento avaliado foi um evento da ocorrência de contrabando. Entretanto, sabe-se
que é muito difícil para a PF controlar e quantificar todos os contrabandos que
ocorrem na fronteira do Paraná. Dessa forma, a PF trabalha com amostra de todos
os registros de contrabando que foram detidos e apreendidos pelos policiais e, com
isso, fazem uma estimativa sobre todo o contrabando na região de fronteira do
estado do Paraná. Para quantificar esse fenômeno, foram mensurado o valor, em R$
mil, apreendidos de contrabando por dia. Então a grandeza medida foi o dinheiro
correspondente a mercadoria apreendida diariamente, a unidade de medida foi R$
mil/dia, e o tipo da variável é quantitativa contínua.
2. Uma pesquisa realizada com passageiros estrangeiros que se encontravam em

determinado aeroporto durante um grande evento esportivo no país teve como
finalidade investigar a sensação de segurança nos voos internacionais. Foram
entrevistados 1.000 passageiros, do total de 1 milhão que foi registrado nas companhias
aéreas, quanto à sensação de segurança dos voos, respondendo praticamente se sentiu
segurança ou não nos voos.
O exemplo 02 aborda uma pesquisa com intuito de avaliar a sensação de
segurança dos passageiros em voos internacionais. A população de estudo é
composta por todos os 1 milhão de passageiros registrados nas companhias aéreas.
Cada elemento que compõe a população é um indivíduo que foi passageiro desses
voos. No entanto, foram avaliados apenas mil passageiros, uma amostra do todo. A
característica avaliada foi a sensação de segurança, quantificada a partir de um
questionário em que foi perguntado “sim” ou “não” quanto a sensação de segurança.
Desse modo, os valores que essa variável pode assumir é {sim, não}, isto é, uma
variável qualitativa nominal.
3. Com o objetivo de estudar o perfil de crescimento de beneficiários de um programa de

suplementação alimentar, considerou-se uma amostra de 1.200 meninos de 5 anos de
idade que frequentaram o programa de nutrição no Brasil pelo período de um ano. Como
um dos indicadores desse programa, registraram-se as massas, em kg, dessas crianças no
momento imediatamente anterior ao início do programa e após o período do programa
nutricional.
No exemplo 03, a população de estudo ao qual se deseja fazer inferências são
todos os beneficiários de um programa de suplementação alimentar no Brasil por um
ano. Cada menino de 5 anos que participa desse programa corresponde a um
elemento (unidade) dessa população. Foi obtida uma amostra de 1.200 meninos.
MUDE SUA VIDA!

15
Para avaliar o crescimento dos meninos, foi mensurada a massa corporal, em

quilogramas, antes e depois do programa. A diferença obtida entre esses valores
corresponde ao crescimento proporcionado pelo programa nutricional em um ano.
Desse modo, a grandeza é o crescimento da massa corporal por ano, a unidade de
medida é kg/ano, e o tipo da variável é quantitativa contínua.
4. Uma empresa coletou e armazenou em um banco de dados diversas informações sobre

todos os seus clientes, entre as quais estavam a quantidade de faturas vencidas, valor da
última fatura vencida e o pagamento ou não dessa fatura. A empresa ainda recolheu
dados como a unidade da Federação (UF) e o CEP da localidade onde estão os clientes.
No exemplo 04, temos uma coleta de dados de diversas variáveis para
formação de um banco de dados sobre os clientes da empresa. A população de estudo
são todos os clientes da empresa, cada unidade de avaliação corresponde a um
cliente, e veja que, nessa situação, a empresa coletou dados de todos os seus clientes
caracterizando assim um censo. As variáveis analisadas foram: quantidade de faturas
vencidas; valor da última fatura, em R$; UF; e CEP. Para cada variável temos uma
natureza que deve ser analisada.
Quantidade de faturas vencidas: corresponde a contagem de faturas
vencidas, desse modo se trata de uma variável quantitativa discreta, pois a contagem
só pode assumir valores inteiros.
Valor da última fatura: variável quantitativa contínua, já que o quantitativo
de dinheiro é mensurado por uma convenção humana e pode assumir infinitos valores
entre um intervalo de um valor e outro.
Unidade da Federação: variável qualitativa nominal uma vez que não existe
relação de ordem ou hierárquica entre os estados e também porque são
representados por palavras (informação não numérica).
CEP: apesar de ser representada, em parte, por números, o CEP também é
composto por pontos e traço. Isso caracteriza o dado referente ao CEP como uma
simbologia categórica e não como um número. Aliás não é possível efetuar cálculos
matemáticos com os dados do CEP. Portanto, trata-se de uma variável qualitativa
que pode ser do tipo nominal, se cada CEP indica uma localização independente, ou
do tipo ordinal, se os CEP indicam uma ordem de endereçamento.
5. Um pesquisador estudou a relação entre a ocorrência de criminalidade e a quantidade de

desocupação da população economicamente ativa em municípios da região do sudeste
do país.
No exemplo 05, temos uma análise mais voltada para relação entre variáveis
analisadas em uma população. Os municípios avaliados correspondem aos elementos
da população e provavelmente serão avaliados apenas por uma amostra desse todo.
As duas variáveis serão analisadas conjuntamente para compreender a relação entre
elas. Em adição, podemos observar que ambas as variáveis correspondem a uma
contagem, ou de crimes registrados, ou de casos de desocupação da população.
Dessa forma, temos o estudo de duas variáveis quantitativas discretas.
MUDE SUA VIDA!

16
Em síntese, o quadro acima apresenta o resumo das principais informações que compõem
o objeto de estudo de cada exemplo. Conforme o contexto apresentado em cada questão de
Estatística, é muito importante, na primeira leitura, ter esses conceitos bem determinados. O
aluno deve ter uma visão crítica e analítica para identificar todo o cenário que será apresentado
na questão. Esse é ponto de partida para desenvolvermos todo os demais raciocínios da
disciplina.
MUDE SUA VIDA!

17
ESTATÍSTICA DESCRITIVA
Como já abordado anteriormente, a Estatística Descritiva consiste em análises com
objetivo de descrever, organizar, resumir, simplificar e sintetizar um conjunto de dados
coletados sobre algum fenômeno em estudo. Além disso, ela tem utilidade como análise
exploratória, uma vez que resume o conjunto de dados. Com isso, a Estatística Descritiva
permite apontar tendências e levantar hipóteses sobre os possíveis resultados do fenômeno
estudado.
Como principais ferramentas para esse propósito, a Estatística Descritiva trabalha com
formas sintetizadas de apresentação de dados como tabelas e gráficos. Além disso, utiliza
medidas descritivas que são informações provenientes de cálculos que tentam descrever todo
conjunto de dados.
APRESENTAÇÃO DOS DADOS PARA UMA VARIÁVEL

Os dados coletados de uma variável estudada podem ser apresentados de muitas formas.
Basicamente, o aluno deve entender que poderá se deparar com qualquer umas das formas de
apresentação de dados em uma prova de Estatística e, com isso, é necessário entender como
extrair as informações em cada situação.
Os dados referentes a uma única variável podem ser encontrados na forma de dados
brutos, dados ponderados, dados agrupados, ou por meio de gráficos, como histograma e
diagrama de ramos e folhas.
Para exemplificar a apresentação dos dados referentes a uma variável, vamos utilizar um
exemplo único e comparar como os dados serão simplificados no decorrer de cada forma de
apresentação.
OBJETO DE ESTUDO:
Dados referentes a quantidade de drogas, em quilogramas, apreendidas por
semana em uma delegacia de polícia.
A variável em estudo será denotada pela letra “X”.
DADOS BRUTOS
Os dados brutos correspondem a listagem dos dados conforme eles foram coletados em
um estudo qualquer. Cada dado é dito como uma observação feita pelo homem a respeito de
uma variável analisada.
Conforme o exemplo abordado, os dados brutos referentes a quantidade de drogas
apreendidas podem ser representados da seguinte maneira:
X = {15, 20, 10, 30, 20, 15, 0, 5, 15}

MUDE SUA VIDA!
18
Os dados brutos mostram que na primeira semana foram coletados 15 kg de drogas na

delegacia, na segunda semana 20kg, e assim por diante. Podemos também concluir que essa
coleta de dados foi efetuada durante nove semanas. Tudo isso pode ser concluído pela análise
da unidade variável que consiste em kg/semana, ou seja, cada coleta corresponde a uma
semana transcorrida. Com isso, outra forma que pode ser encontrado os dados brutos é:
Nessa tabela, é indicada a semana e seu respectivo registro de drogas apreendida. Veja
que nessa forma de representação, ainda tratamos de dados brutos.
Com essa análise, já podemos obter uma informação que será muito usada nos cálculos
matemáticos futuramente aplicados, o número de elementos (n). Basicamente, é a quantidade
de observações feitas na coleta de dados, isto é, n = 9. Outra característica que pode ser
observada nos dados brutos é a repetição de dados observados com mesmo valor, isso é uma
distinção muito importante comparada as demais formas de apresentação de dados.
Os dados brutos muitas vezes precisam ser ordenados para estudar a posição e
distribuição dos dados. Quando os dados estão ordenados, denominamos de rol. Exemplo:
DADOS PONDERADOS (TABELA DE FREQUÊNCIA SEM INTERVALOS)

Os dados são ponderados quando suas repetições são sintetizadas em uma informação
que as contabiliza. Essa informação é denominada de frequência, isto é, frequência é a
contagem de dados repetidos. Assim, cada valor observado que uma variável pode assumir é
ponderado pelas suas repetições. Os dados são representados por uma tabela de frequência,
conforme ilustrada a seguir:
Frequência
Valor Frequência Frequência Frequência
Acumulada
Observado (Xi) Absoluta (fi) Relativa (fri) Acumulada (Fi)
Relativa (Fri)
0 1 1/9 ≌ 11% 1 1/9 ≌ 11%
5 1 1/9 ≌ 11% 2 2/9 ≌ 22%
10 1 1/9 ≌ 11% 3 3/9 ≌ 33%
15 3 3/9 ≌ 33% 6 6/9 ≌ 67%
20 2 2/9 ≌ 22% 8 8/9 ≌ 89%
30 1 1/9 ≌ 11% 9 9/9 = 100%
Soma (Σi) 9 9/9 = 100% - -
Na tabela de frequência de dados ponderados, cada linha corresponde as frequências de
uma observação não repetida dos dados brutos. A primeira coluna corresponde aos valores
observados da variável X e as demais colunas os diferentes tipos de frequências. Assim, é
possível afirmar que existem: três observações com valor de 15kg/semana; e duas observações
com valor de 20 kg/semana. Interpretando de acordo com o exemplo, foram apreendidos em
três semanas 15kg de drogas, e em duas semanas 20kg de drogas.
MUDE SUA VIDA!

19
Os tipos de frequência são:

➢ Frequência Absoluta (fi): contagem de repetições de cada valor observado (são
números inteiros, não fracionados);
➢ Frequência Relativa (fri): proporção da frequência absoluta sobre o número total
𝑓
de elementos, 𝑓𝑟𝑖 = 𝑛𝑖 (conceito muito associado a probabilidade). Os valores da
frequência relativa oscilam entre 0 a 1;
➢ Frequência Acumulada (Fi): número de repetições de cada valor observado,
somando (acumulando) os valores das linhas anteriores;
➢ Frequência Acumulada Relativa (Fri): proporção da frequência acumulada sobre
𝐹
o número de elementos, 𝐹𝑟𝑖 = 𝑛𝑖 .
Esses quatro tipos de frequências podem aparecer em sua prova de Estatística,
dificilmente todos os quatros tipos juntos em uma questão. Por isso é necessário identificar as
características de cada uma das frequências, como também diferencia suas simbologias. Veja
que quando a frequência for acumulada o F é representado por letra maiúscula e f minúscula
para absoluta, sem acumular.
Outro detalhe que ajuda identificar o tipo de frequência e obter informações úteis é que a
soma total da frequência absoluta deve sempre ser igual ao n – número de elementos ou
quantidade de dados observados.
𝒏
∑ 𝒇𝒊 = 𝒏
𝒊=𝟏
Ainda, a soma da frequência relativa deve sempre ser igual a 1 ou 100%.
𝒏
∑ 𝒇𝒓𝒊 = 𝟏 𝒐𝒖 𝟏𝟎𝟎%
𝒊=𝟏
A última linha da frequência acumulada deve ser o número de elementos (n) e a última
linha da frequência acumulada relativa deve ser 1 ou 100%.
A primeira linha da frequência acumulada será igual a primeira linha da frequência
absoluta.
A primeira linha da frequência acumulada relativa será igual a primeira linha da
frequência absoluta.
DADOS AGRUPADOS (TABELA DE FREQUÊNCIA COM INTERVALOS)

Quando o conjunto de dados fica cada vez maior, ocorrem muitas observações diferentes
e representá-las por meio de dados ponderados pode ficar muito extensivo e pouco claro. Para
isso, outra forma de apresentação de dados sugere que as observações da variável X sejam
agrupadas em intervalos pré-definidos. Um detalhe importante é que o agrupamento de dados
somente é coerente para dados quantitativos, sendo mais frequentemente aplicado em dados
quantitativos contínuos.
MUDE SUA VIDA!

20
Para agrupar os dados, é necessário definir duas informações: número de classes (nc) e
amplitude/intervalo da classe (h). Para definir o número de classes, podem ser utilizadas
diferentes metodologias, entre as principais está a regra de Sturges e o critério da raiz
quadrado.
As questões de Estatística raramente pedem para estabelecer o número de classes, no

entanto conhecer os critérios para formação de classes é útil para entender uma tabela de
frequência com dados agrupados. Por praticidade nos cálculos e quando não for fornecido uma
informação específica na questão, recomenda-se usar o critério da raiz quadrada. Para esse
exemplo, será utilizado esse critério, logo:
𝒏𝒄 = √𝟗 = 𝟑 𝒄𝒍𝒂𝒔𝒔𝒆𝒔
Portanto, três classes são suficientes para agrupar todo o conjunto de dados. Quando o
valor do número de classes não for inteiro, pode ser feito um arredondamento, sem problemas.
Após isso, resta saber qual é o intervalo da classe. Essa informação pode ser calculada a partir
do seguinte cálculo:
(𝑿𝑴á𝒙 − 𝑿𝑴í𝒏 )
𝒉=
𝒏𝒄
Dessa forma, calcula-se a diferença entre o valor máximo e o mínimo observado no
conjunto de dados em análise, em seguida, essa diferença é dividida pelo número de classes.
Assim, tem-se o seguinte valor para h:
(𝟑𝟎 − 𝟎)
𝒉= = 𝟏𝟎 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
𝟑
O valor h = 10 kg/semana corresponde que a cada 10 unidades da variável X há uma classe
definida, e assim sucessivamente até estabelecer as três classes. Desse modo, a tabela de
frequência para dados agrupados ficará da seguinte forma:
Frequência Frequência
Valor Frequência Frequência
Acumulada Acumulada
Observado (Xi) Absoluta (fi) Relativa (fri)
(Fi) Relativa (Fri)
0 10 2 2/9 ≌ 22% 2 2/9 ≌ 22%
10 20 4 4/9 ≌ 44% 6 6/9 ≌ 67%
20 30 3 3/9 ≌ 33% 9 9/9 = 100%
Soma (Σi) 9 9/9 = 100% - -
A tabela de frequência com intervalos agrupa os dados observados da variável X e
simplifica as informações. No entanto, a partir do momento que os dados são agrupados, a
precisão de algumas informações é perdida. Por exemplo, é possível constatar que no intervalo
de 10 20 existem quatro observações, entretanto, não é possível afirmar precisamente quais
são os dados que foram observados nesse intervalo, que nesse caso seria {10, 15, 15, 15}.
Mesmo perdendo a precisão de algumas informações, a apresentação de dados agrupados é
interessante por reduzir e simplificar um conjunto grande de dados.
Cada intervalo de classe é caracterizado pelo seu limite inferior e superior. Exemplo, a
primeira classe é caracterizada por 0 10, que engloba observações de 0 kg/semana de drogas
apreendidas até valores < 10 kg/semana. Veja que o limite superior não é enquadrado no
primeiro intervalo, pois faz parte do limite inferior da segunda classe.
MUDE SUA VIDA!

21
O símbolo indica que o limite inferior está contido na classe e o superior não está. Já na
terceira e última classe, veja que o intervalo foi representado por 20 30, que engloba tanto
limite inferior como superior, para poder englobar todos os dados na tabela de frequência.
As simbologias de intervalos podem ser as seguintes:
➢ Intervalo que inclui o limite inferior e inclui o limite superior;
➢ Intervalo que inclui o limite inferior e exclui o limite superior;
➢ Intervalo que exclui o limite inferior e inclui o limite superior;
➢ Intervalor que exclui limite inferior e exclui o limite superior.
GRÁFICOS DE FREQUÊNCIA
Seguindo com as formas de apresentação de dados da variável X, a frequência pode ser
também ilustrada por meio de gráficos, tanto para os dados ponderados quanto os dados
agrupados. As principais representações gráficas associadas a frequência são: gráfico de barras,
histograma, diagrama de pontos, polígono de frequência e curva de frequência. Vamos abordar
o mesmo exemplo, apresentando as diversas representações gráficas que um mesmo conjunto
de dados pode ter.
GRÁFICO DE BARRAS
O gráfico de barras, com enfoque na frequência dos dados observados, representa em um
eixo as observações de X e, no outro eixo, a frequência de cada observação. Esse gráfico é
utilizado para a frequência de dados ponderados, em outras palavras, esse gráfico representa
a frequência para cada valor observado. Entenda:
➢ Gráfico de Barras da Frequência Absoluta:
MUDE SUA VIDA!

22
➢ Gráfico de Barras da Frequência Acumulada:
HISTOGRAMA
Histograma é uma representação gráfica em retângulos (gráfico de barras verticais ou
barras horizontais) da distribuição de frequências de um conjunto de dados agrupados. Os
histogramas podem ser apresentados das seguintes formas:
➢ Histograma da Frequência Absoluta:
MUDE SUA VIDA!

23
➢ Histograma da Frequência Acumulada:
O histograma representa o valor da frequência sob um intervalo de valores (intervalo da

classe). Dentro de cada intervalo, não temos o valor pontual da frequência, mas sim a
densidade de frequência (que corresponde a frequência sob um intervalo de valores). Por
exemplo, entre o valor de 0 a 10 temos uma densidade de frequência igual a 2, ou seja, existem
duas observações que está entre 0kg/semana até <10kg/semana.
O histograma pode ser representado na forma vertical ou horizontal, porém sempre será
composto pela relação entre a variável estudada e sua frequência, cada uma representando um
eixo do plano cartesiano. O histograma estuda a frequência de apenas uma variável, assim não
deve ser confundido com outros gráficos de barras ou colunas que costumam associar duas
variáveis distintas.
Os histogramas da frequência absoluta irão assumir uma forma variável (distribuição)
conforme a repetição de cada observação, em contrapartida, o histograma da frequência
acumulada sempre será crescente com última observação ou classe com o valor total de
observações acumulado.
DIAGRAMA DE PONTOS
Os dados de uma variável podem ser representados por um diagrama de pontos que
apresenta a frequência de cada observação com uso de pontos, isto é, basicamente um
histograma representado por pontos ao invés de colunas ou barras. Veja como fica
representado o diagrama de pontos, no mesmo exemplo abordado da aula anterior:
O gráfico é representado pelo seguinte esquema:
Essa ilustração corresponde ao seguinte conjunto de dados brutos:
MUDE SUA VIDA!

24
𝑿 = {𝟎, 𝟓, 𝟏𝟎, 𝟏𝟓, 𝟏𝟓, 𝟏𝟓, 𝟐𝟎, 𝟐𝟎, 𝟑𝟎}

O diagrama de pontos pode também ser representado por frequência acumulada:
O diagrama de pontos praticamente trabalha apenas com um eixo que representa a
variável estudada. Cada ponto representa uma observação diferente, o número de pontos
alinhados a uma observação corresponde ao número de repetições. O total de pontos equivale
ao número de observações (n). Esse gráfico é mais indicado para conjunto de dados com
pequeno número de observações (o suficiente para não se tornar extenso).
POLÍGONO DE FREQUÊNCIA
É um gráfico em linha, em que as frequências são marcadas sobre perpendiculares ao eixo
horizontal. A altura do tracejado da linha vai se alterando conforme a frequência de cada
observação. Os polígonos da frequência absoluta e acumulada são ilustrados a seguir:
➢ Polígono de Frequência Absoluta para Dados Ponderados:
MUDE SUA VIDA!

25
➢ Polígono de Frequência Acumulada para Dados Ponderados:
9
8
Frequência Acumulada 7
6
5
4
3
2
1
0
0 5 10 15 20 25 30
Quantidade de Drogas Apreendidas por Semana (kg/semana)
➢ Polígono de Frequência Absoluta para Dados Agrupados:
5
Frequência Absoluta
0
0 10 20 30
Quantidade de Drogas Apreendidas por Semana (kg/semana)
MUDE SUA VIDA!

26
➢ Polígono de Frequência Acumulada para Dados Agrupados:
Para dados de frequência acumulada, o gráfico será sempre composto por uma linha
crescente até o número 𝑛 de observações (nesse exemplo, 𝑛 = 9).
CURVA DE FREQUÊNCIA
A curva de frequência evidencia uma imagem tendencial e apresenta o suposto
desempenho que o fenômeno teria com maior números de dados coletados. Esse gráfico é muito
usado para estudar a distribuição e o formato do conjunto de dados. A seguir, a representação
gráfica das curvas de frequência:
➢ Curva de Frequência Absoluta para Dados Ponderados:
MUDE SUA VIDA!

27
➢ Curva de Frequência Acumulada para Dados Ponderados:
➢ Curva de Frequência Absoluta para Dados Agrupados:
MUDE SUA VIDA!

28
➢ Curva de Frequência Acumulada para Dados Agrupados:
DIAGRAMA DE RAMOS E FOLHAS

O diagrama de ramos e folhas trata-se de outra representação gráfica para expor um
conjunto de dados referentes a uma variável. Para apresentá-lo, será utilizado um exemplo que
desenvolve melhor sua aplicação.
OBJETO DE ESTUDO:
Altura de alunos (Y), em centímetros, da turma presencial do Alfacon.
Esta representação gráfica aglomera os dados brutos a partir de um esquema que se

associa a ideia de uma árvore com ramos e folhas. Cada observação é composta pela
concatenação do ramo com suas respectivas folhas. Assim, o ramo 16 concatenado com cada
folha tem as seguintes observações: 161cm, 162cm, 162cm, 166cm. Para obter o total de
observações, basta contabilizar a quantidade de números em cada folha. Esse gráfico é indicado
para conjunto de dados com poucas observações (o suficiente para não perder a simplicidade
e clareza).
Em adição, o diagrama de ramos e folhas evidencia a distribuição dos dados, bem como a
frequência das observações. Isso pode ser constato pelo comprimento das linhas de cada folha,
quanto maior a linha (mais números) maior é a quantidade de dados naquele intervalo.
Também pode ser compreendido que cada ramo consiste em um intervalo de dados agrupados
com amplitude, nesse exemplo, de uma dezena 16 17, 17 18, e assim consecutivamente.
MUDE SUA VIDA!

29
O conjunto de dados representado no diagrama de ramos e folhas pode ser expresso em

dados brutos da seguinte forma:
Y = {161, 162, 162, 166, 174, 174, 175, 177, 177, 178,
181, 181, 183, 184, 185, 185, 185, 186, 186, 187, 191, 194,
196, 197, 197, 200, 202, 203, 206}.
APRESENTAÇÃO DE DADOS PARA DUAS OU MAIS VARIÁVEIS

Quando o objetivo da apresentação dos dados for referente a mais de uma variável,
simultaneamente, os dados podem ser organizados em tabelas, como também, ilustrados em
gráficos apropriados.
TABELAS
As tabelas de modo geral servem para organizar e apresentar os dados coletados no
sentido de facilitar a sua interpretação. A tabela de frequência costuma apresentar apenas
informações referentes a uma variável, já as demais tabelas costumam associar dados de
diferentes variáveis, além dos elementos avaliados. A organização estruturada dos dados
brutos em tabelas alinha os valores de cada variável e transforma os em informações. É muito
utilizada em banco de dados (grandes quantidades de dados).
OBJETO DE ESTUDO:
Banco de dados sobre concursos das carreiras policiais.
Concurso Vagas Inscritos Remuneração Dificuldade
Polícia Federal 600 85.000 R$ 12.600,00 Alta
DEPEN 150 21.000 R$ 8.900,00 Média
PRF 400 60.000 R$ 10.800,00 Alta
Polícia Legislativa 80 55.000 R$ 19.700,00 Baixa
Na tabela acima, cada coluna apresenta valores de uma variável diferente, associando os
dados de cada variável nas linhas da tabela. Assim, é possível afirmar que o concurso da Polícia
Federal, oferecerá 650 vagas, tem 85 mil inscritos, remuneração de R$ 12.600,00, e avaliado
por algum critério qualquer com dificuldade alta na prova. Veja que variáveis de diferentes
tipos (qualitativa e quantitativa) podem ser associadas sem problema algum.
GRÁFICOS
Os gráficos, de modo geral, são representações ilustrativas do conjunto de dados brutos
com maior apelo visual. Basicamente, os gráficos devem apresentar simplicidade, clareza na
leitura dos valores e veracidade nas informações sobre o fenômeno estudado. Existem
inúmeros formas de representação gráfica para duas ou mais variáveis, nesse material serão
abordados os principais gráficos cobrados nas provas de Estatística, entre eles, os gráficos de
colunas, barras, setor (pizzas), dispersão e linhas.
MUDE SUA VIDA!

30
GRÁFICO DE COLUNAS
O objeto de estudo exemplificado a seguir será aplicado para ilustrar os gráficos de
colunas, barras e setores.
OBJETO DE ESTUDO:
Quantidade de prisões efetuadas por mês nos estados do sudeste brasileiro.
Rio de janeiro: 6200
São Paulo: 5000
Minas Gerais: 3200
Espírito Santo: 2600
Os gráficos de colunas apresentam uma associação entre duas variáveis diferentes,

geralmente se trata de uma variável qualitativa (categórica), representado por cada coluna,
com uma variável quantitativa, representado pela altura das colunas. Esse gráfico não pode ser
confundido com o histograma (a banca costuma muito induzir o aluno a esse erro). O detalhe
para diferenciá-los está pelo fato que o gráfico de colunas não contempla a frequência de uma
variável e apresenta duas variáveis em cada eixo.
MUDE SUA VIDA!

31
GRÁFICO DE BARRAS
Os gráficos de barras praticamente invertem a relação dos eixos comparado aos gráficos
de colunas. Mas ainda permanece a associação de duas variáveis em que as barras representam
uma variável qualitativa e o comprimento das barras representa a variável quantitativa. O
mesmo exemplo abordado para o gráfico de colunas pode ser abordado no gráfico de barras.
GRÁFICO DE SETORES (PIZZA)

Os gráficos de setores focam na proporção em que cada variável qualitativa evidencia
comparativamente ao total observado. Desse modo, abordando o mesmo exemplo que os
demais gráficos, é possível verificar que a variável quantitativa perde sua ênfase nessa
representação gráfica. Para esclarecer ao que se refere a quantidade em cada classe, é
necessário especificar no título junto ao gráfico que o quantitativo representa o número de
prisões por mês.
MUDE SUA VIDA!

32
Ainda, os gráficos de setores estabelecem uma relação do ângulo de cada setor com o
quantitativo de cada classe. Desse modo, é possível inferir que o total de prisões por mês
observado nesse exemplo corresponde a um ângulo de 360º. Assim, em simples cálculos de
proporção (regra de três) é possível calcular o ângulo do setor de cada classe. Exemplo:
𝟑𝟔𝟎° = 𝟏𝟎𝟎%
Para o Estado de São Paulo com 29,4%, tem-se:
𝑿 𝟐𝟗, 𝟒%
=
𝟑𝟔𝟎° 𝟏𝟎𝟎%
𝟑𝟔𝟎 × 𝟐𝟗, 𝟒 = 𝟏𝟎𝟎𝑿
𝟏𝟎𝟓𝟖𝟒
𝑿= = 𝟏𝟎𝟓, 𝟖𝟒°
𝟏𝟎𝟎
Assim, pode ser concluído que o setor que representa o estado de São Paulo deve ter um
ângulo de 105,84º nesse gráfico.
GRÁFICO DE DISPERSÃO
O gráfico de dispersão também é conhecido como gráfico de correlação. Isso porque é
possível identificar visualmente pelo gráfico uma tendência de associação entre as variáveis,
mais a frente, no decorrer do conteúdo, iremos trabalhar profundamente com conceito de
correlação. Sobretudo, entenda que o importante desse gráfico é identificar o que ocorre com
valores de uma variável quando a outra variável aumenta ou diminui. Para exemplificar a
aplicação desse gráfico, é necessário trabalhar com outro exemplo.
OBJETO DE ESTUDO:
Uma investigação policial tem objetivo de estudar a associação da quantidade
de drogas apreendidas, em kg, pela Polícia Civil em relação ao desempenho escolar
nos municípios do estado de Mato Grosso. O desempenho escolar foi avaliado pela
média das notas dos alunos de cada município.
MUDE SUA VIDA!

33
Cada ponto presente no gráfico indica uma coordenada (associação) do valor da variável
desempenho médio das escolas com a variável quantidade de drogas apreendidas. Nesse
exemplo, é possível identificar uma tendência em que quanto maior o desempenho médio das
escolas menor é quantidade de drogas apreendidas no município.
O gráfico de dispersão é utilizado para associar duas variáveis quantitativas, não é
recomendado para variáveis qualitativa.
GRÁFICO DE LINHAS (POLÍGONOS)
O gráfico de linhas é semelhante ao polígono de frequência, a diferença é que o gráfico
associa duas variáveis diferentes e não trabalha com a frequência.
OBJETO DE ESTUDO:
Registro de denúncias na delegacia Y no decorrer de 20 dias, após fatos que
levaram a calamidade pública do município.
X = Tempo, em dias {0, 5, 10, 15, 20}
Y = Registro de Denúncias {20, 18, 26, 20, 34}
Basicamente, o gráfico ilustra a quantidade de denúncias no decorrer de uma série

temporal. Esse gráfico é indicado para associar variáveis quantitativas uma vez que a linha gera
MUDE SUA VIDA!

34
a ideia de transitividade e progressividade entre um valor e outro, ou seja, existem valores entre
o intervalo do dia inicial da contagem (dia 0) até o 5º dia. Não seria indicado para variáveis
qualitativas, uma vez que as classes são bem definidas sem transição entre um valor e outro,
nesse caso um gráfico de colunas ou barras é o apropriado.
MEDIDAS DESCRITIVAS
As medidas descritivas são resumos numéricos que tentam exprimir o comportamento
observado no conjunto de dados. São informações obtidas por cálculos matemáticos que
resumem, descrevem e interpretam os dados coletados de um fenômeno em estudo. Perante
um conjunto de dados grande, elas são altamente eficientes para tornar a informação manejável
e, com isso, pode-se relacionar os dados e levantar hipóteses de comparação.
No entanto, como acontece sempre que se resume algo, este processo implica na perda de
alguma informação mais detalhada. Por isso, conhecer as informações que podem ser obtidas
por cada medida descritiva, bem como as informações perdidas é essencial para uma análise
exploratória. Para alcançar sua completude, as medidas descritivas devem ser calculadas em
conjunto, pois cada uma extrai uma informação distinta em relação ao conjunto de dados e
quando juntas permitem uma interpretação satisfatória. Por exemplo, o valor da Média (medida
de tendência central) é frequentemente apresentado em associação com o valor do Desvio
Padrão (medida de dispersão).
Sobretudo, as medidas descritivas são classificadas de acordo com o tipo de informação
gerada. Desse modo, os tipos de medidas descritivas são: de posição (tendência central e
separatrizes); de dispersão (absolutas e relativas); e de forma. As principais medidas
descritivas que serão estudadas e sua respectiva classificação é apresentada no esquema a
seguir:
Para exemplificar os cálculos das medidas descritivas apresentadas a seguir, serão

utilizados os mesmos exemplos da apresentação de dados para uma variável. Conforme a forma
de apresentação dos dados (bruto, ponderado e agrupado), os valores extraídos assim como os
cálculos podem ser obtidos de formas diferentes. Todas as formas de cálculos serão abordadas
juntamente com a apresentação de cada medida descritiva. Segue novamente os exemplos:
OBJETO DE ESTUDO
Dados referentes a quantidade de drogas, em quilogramas, apreendidas por
semana em uma delegacia de polícia.
MUDE SUA VIDA!

35
➢ Dados Brutos:
X = {0, 5, 10, 15, 15, 15, 20, 20, 30}

➢ Dados Ponderados:
Valor Frequência
Frequência Frequência Frequência
Observado Acumulada
Absoluta (fi) Relativa (fri) Acumulada (Fi)
(Xi) Relativa (Fri)
0 1 1/9 ≌ 11% 1 1/9 ≌ 11%
5 1 1/9 ≌ 11% 2 2/9 ≌ 22%
10 1 1/9 ≌ 11% 3 3/9 ≌ 33%
15 3 3/9 ≌ 33% 6 6/9 ≌ 67%
20 2 2/9 ≌ 22% 8 8/9 ≌ 89%
30 1 1/9 ≌ 11% 9 9/9 = 100%
Soma (Σi) 9 9/9 = 100% - -
➢ Dados Agrupados:
Frequência
Valor Frequência Frequência Frequência
Acumulada
Observado (Xi) Absoluta (fi) Relativa (fri) Acumulada (Fi)
Relativa (Fri)
0 10 2 2/9 ≌ 22% 2 2/9 ≌ 22%
10 20 4 4/9 ≌ 44% 6 6/9 ≌ 67%
20 30 3 3/9 ≌ 33% 9 9/9 = 100%
Soma (Σi) 9 9/9 = 100% - -
MEDIDAS DE POSIÇÃO: TENDÊNCIA CENTRAL

As medidas de posição referem-se à “localização” do conjunto de dados em relação a
escala de valores que a variável pode assumir, isto é, indicam um valor que está posicionado em
algum ponto específico do conjunto de dados. As medidas de posição de tendência central
informam valores que tendem a estar posicionados no centro, ou próximo, do conjunto de
dados e, com isso, sabe-se que possui observações oscilando para mais e para menos em relação
a essas medidas de centralidade. São as medidas mais indicadas para obter uma ideia geral o
desempenho do fenômeno estudado. Todas as medidas de posição terão a mesma unidade
de medida que a variável analisada.
MUDE SUA VIDA!

36
As principais medidas de tendência são a média, a mediana e a moda. De forma prática, a

utilização destas três medidas varia consoante o tipo de informação que pretendemos resumir
ou descrever.
EXEMPLO:
Avaliação do desempenho de uma turma de acadêmicos em um curso de
formação.
Com esse objeto de estudo, podemos obter as seguintes informações: se
pretendemos resumir o nível de desempenho dos acadêmicos, a média de todas as
notas é a melhor indicação; se pretendemos identificar a nota mais frequente na
turma utilizaremos a moda; se pretendemos dividir os acadêmicos em dois grupos
de acordo com desempenho (50% melhores notas e 50% notas inferiores) a mediana
é mais indicada.
̅ 𝒐𝒖 µ)
MÉDIA (𝑿
A média é a medida de centralidade que quantifica o desempenho central (médio) da
variável estudada. É a medida que mais resume o conjunto de dados em informações
diretamente associada ao fenômeno em estudo. A média é considerada como um número que
tem a faculdade de representar uma série de valores. Ela quantifica a centralidade, pois leva em
consideração todos os dados observados em seu cálculo. Desse modo, é também a medida de
posição mais sensível a inserção de novos dados, principalmente se forem valores muitos
discrepantes (extremos) ao desempenho médio.
O desempenho central de um conjunto de dados pode ser obtido de acordo com diferentes
procedimentos matemáticos. Apesar de cálculos distintos, todas as metodologias tentam
resumir uma ideia de centralidade. Desse modo, a média pode ser aritmética (simples ou
ponderada), geométrica e harmônica. Segue o esquema:
MUDE SUA VIDA!

37
̅ ):
➢ Média Aritmética (𝑿
É obtida pela soma de todas as observações do conjunto de dados dividido pelo número
de observações. A média aritmética pode ser simples ou ponderada, essas definições variam
conforme o peso atribuído para cada observação. A média aritmética simples é quando cada
observação tem o mesmo peso ou importância para se considerar no conjunto de dados. Assim,
pode ser representada matematicamente:
∑ 𝑿𝒊 𝑿𝟏 + 𝑿𝟐 + ⋯ + 𝑿𝒏
̅ 𝒔𝒊𝒎𝒑𝒍𝒆𝒔 =
𝑿 =
𝒏 𝒏
Em que 𝑋𝑖 corresponde ao valor de cada observação (na i-ésima observação).
Em contrapartida, a média aritmética ponderada é calculada levando em consideração
diferentes pesos (importância) para cada observação. O cálculo é efetuado pelo somatório do
produto de cada observação associado ao seu respectivo peso, divido pelo total dos pesos
atribuídos. Portanto, é representada:
∑ 𝑿𝒊 𝝆𝒊 𝑿𝟏 𝝆𝟏 + 𝑿𝟐 𝝆𝟐 + ⋯ + 𝑿𝒏 𝝆𝒏
̅ 𝒑𝒐𝒅𝒆𝒓𝒂𝒅𝒂 =
𝑿 =
∑ 𝝆𝒊 𝝆𝟏 + 𝝆𝟐 + ⋯ + 𝝆𝒏
Em que 𝜌𝑖 corresponde ao peso atribuído a cada observação (na i-ésima observação).

Para exemplificar a aplicação dos dois tipos de média aritmética, será abordado um
exemplo específico.
OBJETO DE ESTUDO:
Desempenho acadêmico de um aluno nas provas de uma disciplina X. Segue
tabela informando valores:
MUDE SUA VIDA!

38
Nota Peso
7,0 3,0
6,0 3,0
8,0 2,0
9,0 1,0
7,0 1,0
Se fosse calcular a média aritmética simples, considerando que todas as notas têm o
mesmo peso para média final do aluno, o cálculo seria da seguinte forma:
𝟕 + 𝟔 + 𝟖 + 𝟗 + 𝟕 𝟑𝟕
̅ 𝒔𝒊𝒎𝒑𝒍𝒆𝒔 =
𝑿 = = 𝟕, 𝟒
𝟓 𝟓
Veja que o cálculo é mesmo que atribuir peso um para cada valor observado.
Se fosse calcular a média aritmética ponderada, considera-se o peso individual de cada
observação. Assim, o cálculo seria:
𝟕×𝟑+𝟔×𝟑+𝟖×𝟐+𝟗×𝟏+𝟕×𝟏 𝟕𝟏
̅ 𝒑𝒐𝒅𝒆𝒓𝒂𝒅𝒂 =
𝑿 = = 𝟕, 𝟏
𝟑+𝟑+𝟐+𝟏+𝟏 𝟏𝟎
Nesse exemplo, a média aritmética ponderada teve valor inferior comparativamente a
média simples. Isso porque o aluno teve notas inferiores nas provas com maior importância
(peso).
̅ ):
➢ Média Geométrica (𝑮
Esse método de cálculo considera o princípio da multiplicação. O cálculo é efetuado
multiplicando cada observação e extraindo a raiz quadrada na potência equivalente ao número
de observações. Assim:
̅ = 𝒏√∏ 𝑿𝒊 = 𝒏√𝑿𝟏 × 𝑿𝟐 × … × 𝑿𝒏
𝑮
O símbolo Π representa o produtório das observações de Xi, isto é, a multiplicação de cada
observação. Tem a mesma ideia de que o somatório Σ, porém, ao invés de utilizar a soma, aplica-
se a multiplicação.
➢ Média Harmônica (𝑯 ̅ ):
O cálculo da média harmônica é efetuado invertendo a fração de cada observação e a
fração principal do cálculo de uma média aritmética simples. Basicamente, esse tipo de cálculo
é recomendado quando envolve grandezas que são inversamente proporcionais (exemplo,
velocidade e tempo). Desse modo, pode ser calculada da seguinte forma:
𝒏 𝒏
̅=
𝑯 =
𝟏 𝟏 𝟏 𝟏
∑ + + ⋯ +
𝑿𝒊 𝑿 𝟏 𝑿𝟐 𝑿𝒏
Dos três tipos de médias apresentadas (aritmética, geométrica e harmônica), a mais
importante e utilizada é a média aritmética simples. Para a maioria das provas de
MUDE SUA VIDA!

39
Estatística, os cálculos da média geométrica e harmônica não são cobrados. O mais importante
é entender que todas as metodologias de cálculos estão preocupadas em quantificar uma
tendência central do conjunto de dados. Além disso, existe uma relação entre essas médias que
é muito cobrada em prova.
Para exemplificar essa relação será utilizado o seguinte conjunto de dados:
X = {1, 3, 9}
➢ Cálculo da Média Aritmética Simples
𝟏+𝟑+𝟗 𝟏𝟑
̅=
𝑿 = = 𝟒, 𝟑𝟑
𝟑 𝟑
➢ Cálculo da Média Geométrica
̅ = 𝟑√𝟏 × 𝟑 × 𝟗 = 𝟑√𝟐𝟕 = 𝟑
𝑮
➢ Cálculo da Média Harmônica
𝟑 𝟑 𝟑 × 𝟗 𝟐𝟕
̅=
𝑯 = = = = 𝟐, 𝟎𝟖
𝟏 𝟏 𝟏 𝟏𝟑 𝟏𝟑 𝟏𝟑
𝟏+𝟑+𝟗 𝟗
Com o exemplo abordado, é possível concluir que para o mesmo conjunto de dados,
somente quando assumirem valores positivos, a relação entre os tipos de média será:
𝑿 ̅≥𝑯
̅≥𝑮 ̅
A média aritmética será sempre maior que a média geométrica que, por sua vez, será
maior que a média harmônica. Somente serão iguais, quando os valores do conjunto de dados
forem idênticos entre si, por exemplo, X = {2, 2, 2, 2, 2}. Essa relação pode não ser verdadeira
quando a variável assumir ao menos um valor negativo.
Apesar das diferentes metodologias de cálculo, agora, toda vez que for abordado sobre
média utilizaremos apenas a média aritmética simples. O cálculo da média pode ser
aplicado diferentemente para cada forma de apresentação de dados, desse modo, serão
exemplificados os cálculos para dados brutos, ponderados e agrupados de acordo com exemplo
inicial.
➢ Cálculo da Média para Dados Brutos:
Para esse cálculo basta considerar cada repetição, mesmo que repetida, na fórmula
original da média.
𝟎 + 𝟓 + 𝟏𝟎 + 𝟏𝟓 + 𝟏𝟓 + 𝟏𝟓 + 𝟐𝟎 + 𝟐𝟎 + 𝟑𝟎
̅=
𝑿
𝟗
𝟏𝟑𝟎
̅=
𝑿 = 𝟏𝟒, 𝟒𝟒 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
𝟗
Baseado no exemplo, o valor médio da quantidade de drogas apreendido, em nove
semanas de estudo, corresponde a 14,44 kg/semana. Perceba que a unidade de medida
permanece a mesma que o fenômeno estudado.
MUDE SUA VIDA!

40
➢ Cálculo da Média para Dados Ponderados:

Em uma tabela de frequência, o cálculo da média pode ser efetuado semelhante a uma
média ponderada, em que a frequência corresponde ao peso de cada observação. Para o cálculo,
é suficiente ter informações da frequência absoluta ou relativa. Observe:
Valor Observado (Xi) Frequência Absoluta (fi) Frequência Relativa (fri)
0 1 1/9
5 1 1/9
10 1 1/9
15 3 3/9
20 2 2/9
30 1 1/9
Soma (Σi) 9 9/9
A tabela informa quantas vezes cada observação se repete no conjunto de dados
observados (frequência absoluta), ou então, à proporção que cada observação representa do
conjunto total (frequência relativa). Assim, o cálculo da média pode ser efetuado utilizando a
frequência absoluta:
∑ 𝑿𝒊 𝒇 𝒊
̅=
𝑿
𝒏
𝟎 × 𝟏 + 𝟓 × 𝟏 + 𝟏𝟎 × 𝟏 + 𝟏𝟓 × 𝟑 + 𝟐𝟎 × 𝟐 + 𝟑𝟎 × 𝟏
̅=
𝑿
𝟗
̅ = 𝟏𝟒, 𝟒𝟒 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
𝑿
Ou então, o cálculo pode ser feito utilizando a frequência relativa:
𝒏
̅ = ∑ 𝑿𝒊 𝒇𝒓𝒊
𝑿
𝒊=𝟏
𝟏 𝟏 𝟏 𝟑 𝟐 𝟏
̅ =𝟎×
𝑿 + 𝟓 × + 𝟏𝟎 × + 𝟏𝟓 × + 𝟐𝟎 × + 𝟑𝟎 ×
𝟗 𝟗 𝟗 𝟗 𝟗 𝟗
̅ = 𝟏𝟒, 𝟒𝟒 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
𝑿
Veja que o cálculo da média com uso da frequência relativa não precisa dividir pelo
número de elementos (n), uma vez que esse termo já é levado em consideração quando
multiplicado com cada observação.
➢ Cálculo da Média para Dados Agrupados:
Quando os dados estão agrupados ocorre perda na precisão, pois não é possível inferir
quais são as observações presentes dentro de cada intervalo. Desse modo, para o cálculo da
média assume-se que as observações coincidem com o ponto médio de cada classe. Observando
a tabela:
MUDE SUA VIDA!

41
Frequência Relativa
Valor Observado (Xi) Frequência Absoluta (fi)
(fri)
0 10 2 2/9
10 20 4 4/9
20 30 3 3/9
Soma (Σi) 9 9/9
O ponto médio de cada classe é calculado da seguinte forma:

𝑳𝑺𝒊 + 𝑳𝑰𝒊
𝑷𝒎𝒊 =
𝟐
Em que 𝑃𝑚𝑖 corresponde ao ponto médio de uma determinada classe (i-ésima classe); 𝐿𝑆𝑖
o limite superior da mesma classe; 𝐿𝐼𝑖 o limite inferior da mesma classe. Assim, os pontos
médios são:
𝟏𝟎 + 𝟎
𝑷𝒎𝟏ª = =𝟓
𝟐
𝟐𝟎 + 𝟏𝟎
𝑷𝒎𝟐ª = = 𝟏𝟓
𝟐
𝟑𝟎 + 𝟐𝟎
𝑷𝒎𝟑ª = = 𝟐𝟓
𝟐
Com isso, a média pode ser calculada utilizando a frequência absoluta da mesma forma
que os dados agrupados, no entanto, deve ser substituído o valor de cada observação pelo ponto
médio da classe:
∑ 𝑷𝒎𝒊 𝒇𝒊
̅=
𝑿
𝒏
𝟓 × 𝟐 + 𝟏𝟓 × 𝟒 + 𝟐𝟓 × 𝟑
̅
𝑿=
𝟗
̅ = 𝟏𝟔, 𝟏𝟏 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
𝑿
Ou então, utilizando a frequência relativa, tem-se:
̅ = ∑ 𝑷𝒎𝒊 𝒇𝒓𝒊
𝑿
𝟐 𝟒 𝟑
̅ =𝟓×
𝑿 + 𝟏𝟓 × + 𝟐𝟓 ×
𝟗 𝟗 𝟗
MUDE SUA VIDA!

42
̅ = 𝟏𝟔, 𝟏𝟏 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
𝑿
O cálculo da média com perda na precisão dos dados acarreta valor diferente daquele
calculado com os dados completos. Quando se trabalha com grande número de observações,
simplificar o conjunto de dados torna-se uma alternativa vantajosa para organização dos dados
mesmo com variação no valor mais apropriado para a média.
Outra informação importante referente a média é sua simbologia. Quando estamos nos
referindo a dados populacionais (censo), a média é representada por µ. Em contraponto, em
̅.
dados amostrais, ela é representada pela letra da variável com traço em cima, por exemplo, 𝑿
MEDIANA (Me)
A mediana é uma medida que divide o conjunto de dados em exatamente 50% de dados
observados para cada lado. Assim, a mediana separa um conjunto de dados em duas partes
com a mesma quantidade de elementos.
Por essa razão, a mediana é um valor de referência para indicar o dado que está
exatamente no centro. É uma medida ideal para ser utilizada quando o objetivo for classificar
os elementos avaliados e distingui-los quanto ao desempenho na metade.
Para calcular e identificar a mediana, é necessário que o conjunto de dados fique ordenado
na forma crescente, em rol. Além disso, se a quantidade de elementos for ímpar, o valor da
mediana corresponde ao valor de central do conjunto de dados. Todavia, se a quantidade de
elementos for par, é preciso calcular a média dos valores centrais para obter a mediana.
➢ Mediana para Dados Brutos:
Inicialmente, os dados devem ser colocados em ordem crescente, após isso deve ser
identificado a posição central. A identificação pode ser de forma visual ou calculando a posição
do centro.
X = {15, 20, 10, 30, 20, 15, 0, 5, 15} n =9

Dados em rol crescente:
Mediana, posição central para número ímpar:
Veja que a mediana é o valor 15 que está na quinta posição dos dados de nove elementos
ordenados. Quando for obter a mediana em um conjunto de dados muito extenso, identificar
MUDE SUA VIDA!

43
visualmente o centro pode ser um pouco difícil, para isso calcular a posição central pode ser
uma alternativa vantajosa.
(𝒏 + 𝟏)
𝑷𝑴𝒆 = 𝒐𝒖 𝟎, 𝟓(𝒏 + 𝟏)
𝟐
(𝟗 + 𝟏)
𝑷𝑴𝒆 = =𝟓
𝟐
Assim, a posição central ou a posição da mediana (PMe) é calculada por 𝑛 + 1 divido por
dois. O cálculo fornece a posição central do conjunto de dados, que nesse caso corresponde a
posição 5. Veja:
Caso os dados apresentem número par no total de elementos, o cálculo da mediana fica
da seguinte forma, considerando outro exemplo hipotético qualquer:
X = {0, 10, 15, 15, 20, 20, 25, 30} n = 8

Visualmente a mediana está localizada:
A posição da mediana está entre a quarta e quinta posição. Nesse caso, deve-se calcular a
média entre os termos que estão no centro. Assim, a mediana é 17,5. Se fosse calcular a posição
central o resultado seria:
(𝟖 + 𝟏)
𝑷𝑴𝒆 = = 𝟒, 𝟓
𝟐
O valor 4,5 indica que a mediana está exatamente no centro entre o 4º termo e 5º termo
do conjunto de dados em análise. Veja:
MUDE SUA VIDA!

44
➢ Mediana para Dados Ponderados:

Para obter o valor da mediana em dados ponderados a melhor informação que indica a
posição do conjunto de dados está na frequência acumulada. Isso porque essa frequência
acumula os valores das observações anteriores e, de certa forma, contabiliza o número de
elementos e indica sua posição.
Desse modo, basta identificar, na frequência acumulada, onde está a posição central e ver
qual observação corresponde a essa posição. O valor que divide a distribuição de frequências
em dois grupos com mesmo número de elementos estará na posição dada por:
∑ 𝒇𝒊 𝒏
𝒐𝒖
𝟐 𝟐
Neste caso, basta identificar a observação que tem frequência acumulada imediatamente
superior à metade da soma das frequências absolutas (ou metade do número total de
observações).
Veja que até o valor de 10 kg/semana há 3 observações acumuladas, já o valor de 15

kg/semana acumula 6 observações que inclui a posição 5ª que é imediatamente superior a 4,5.
Desse modo, a observação 15 kg/semana é a mediana. O aluno não deve confundir a informação
da posição dos dados na frequência com o valor correspondente ao fenômeno estudado. A
mediana sempre será um referente ao fenômeno estudada e terá a mesma unidade de medida
que o mesmo. A posição dos dados ordenados observada na frequência acumulada é apenas um
indicativo para localizar a mediana.
MUDE SUA VIDA!

45
Se na questão forem fornecidos os dados da frequência acumulada relativa (F ri), é

necessário identificar a posição que acumula 50% dos dados. Com isso, basta localizar a
observação que acumula imediatamente superior a 50% de dados.
➢ Mediana para Dados Agrupados:
Para calcular a mediana em conjunto de dados agrupados, é preciso inicialmente
identificar a classe mediana, ou seja, a classe com o intervalo de valores que engloba a mediana.
A identificação da classe mediana funciona da mesma forma que a identificação da

mediana nos dados ponderados. Como os dados são agrupados não é possível identificar o valor
exato da mediana e sim a classe em que ela se encontra. Para isso, basta localizar a classe
∑𝑓 𝑛
imediatamente superior que acumula metade do total dos elementos ( 2 𝑖 𝑜𝑢 2) na frequência
acumulada, ou então, que acumula um pouco mais de 50% na frequência acumulada relativa.
Com isso, é possível inferir que a mediana está localizada entre o valor 10 kg/semana até
20 kg/semana. Para calcular o valor exato da mediana, é necessário utilizar o cálculo da
interpolação linear. Quando se trabalha com dados agrupados, utiliza-se esse método de
cálculo para estimar o valor dentro do intervalo que corresponde proporcionalmente a posição
que acumula um pouco mais da metade dos dados.
O cálculo da interpolação linear trabalha com a ideia de que existe uma proporção entre
a diferença dos valores observados sob a diferença de sua respectiva frequência
acumulada (ou acumulada relativa). Veja a relação matemática:
𝟐𝟎 − 𝟏𝟎 𝑴𝒆 − 𝟏𝟎
=
𝟔 − 𝟐 𝟒, 𝟓 − 𝟐
MUDE SUA VIDA!

46
Valor Observado (Xi) Quantidade Acumulada (Fi)
10 2
Me 4,5
20 6
Essa relação de proporção é a interpolação linear. É possível associar que até o valor de
20 kg/semana acumula-se 6 observações, assim como, para 10 kg/semana acumula-se 2
observações. Logo, a divisão dessas diferenças estabelece uma relação de proporção com
qualquer outra relação nesse conjunto de dados. Assim, é possível igualar com a divisão de
diferenças que tenha a mediana como incógnita, sabendo que a mediana corresponde a
frequência acumulada da metade dos dados, isto é, posição 4,5. Resolvendo a conta matemática
tem-se:
𝟏𝟎 𝑴𝒆 − 𝟏𝟎
=
𝟒 𝟐, 𝟓
𝑴𝒆 − 𝟏𝟎
𝟐, 𝟓 =
𝟐, 𝟓
𝟐, 𝟓 × 𝟐, 𝟓 = 𝑴𝒆 – 𝟏𝟎
𝟔, 𝟐𝟓 + 𝟏𝟎 = 𝑴𝒆
𝑴𝒆 = 𝟏𝟔, 𝟐𝟓 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
Veja que o intervalo que vai de 0 até 10 kg/semana acumula até 2 observações, quase a
metade da posição da mediana (que é 4,5). Desse modo, sabe-se que a mediana estará perto do
meio do intervalo da classe mediana (10 até 20 kg/semana). Enquanto esse cálculo é efetuado,
o aluno deve entender que nunca obterá um valor que extrapole o limite da classe
mediana, assim se porventura ocorrer algum erro no cálculo que passe desse valor é
interessante revisar os cálculos, pois certamente houve algum erro.
A mediana, ao contrário da média, não depende de todos os valores observados; além
disso, sofre baixa influência de valores extremos. Em adição, não pode ser aplicada as
variáveis qualitativas nominais uma vez que não é possível ordenar os dados. A mediana é
adequada quando os dados apresentam grande variabilidade ou distribuição assimétrica, além
de valores extremos indefinidos.
MUDE SUA VIDA!

47
MODA (Mo)
A moda é o valor observado que mais se repete no conjunto de dados, em outras palavras,
é o valor com maior frequência, ou então, valor com maior probabilidade de ocorrer. É
também a medida descritiva que pode ser facilmente identificada em um gráfico de frequência
absoluta (em qualquer tipo de representação gráfica), pois será sempre o pico (ponto mais alto)
do gráfico. Ao contrário da Média e da Mediana, a Moda tem que ser obrigatoriamente um valor
existente no conjunto de dados.
Um conjunto de dados pode ser Unimodal, quando somente um valor tem mais
frequência, exemplo:
𝑿 = {𝟐, 𝟑, 𝟒, 𝟒, 𝟒, 𝟓, 𝟖} 𝑴𝒐 = 𝟒
Pode ser Bimodal (ou Trimodal, assim por diante) quando duas observações possuem
mais frequência do que as demais observações, exemplo:
𝑿 = {𝟐, 𝟑, 𝟒, 𝟒, 𝟒, 𝟔, 𝟕, 𝟕, 𝟕} 𝑴𝒐 = 𝟒 𝒆 𝟕
Quando o conjunto de dados não tem um valor que se repete, não existe moda e classifica-
se como Amodal, exemplo:
X = {2, 4, 7, 8, 9, 10, 15} Mo = Ø
➢ Moda para Dados Brutos:
Quando a questão apresentar dados na forma bruta, para obter a moda, basta identificar
o valor que mais se repete no conjunto de dados. Assim, conforme o exemplo:
X = {0, 5, 10, 15, 15, 15, 20, 20, 30}
Mo = 15 kg/semana
A observação de 15 kg/semana repete-se três vezes e mais nenhuma outra observação
tem esse mesmo número de observações. Logo, a moda é apenas 15 kg/semana.
➢ Moda para Dados Ponderados:
Em situação de dados ponderados, para identificar a observação que corresponde a moda,
devem-se utilizar as informações presente na tabela de frequência absoluta ou relativa.
Praticamente, a observação que possuir maior valor de frequência absoluta ou relativa será a
moda. Como é possível identificar na tabela a seguir:
MUDE SUA VIDA!

48
➢ Moda para dados Agrupados:

Como as observações estão agrupadas em classes, é necessário, primeiramente,
identificar a classe que engloba a moda, denominada de classe modal. Para isso, basta
identificar a classe com maior frequência absoluta ou relativa (igualmente como para dados
ponderados). Portanto:
Após essa etapa, é preciso calcular o valor pontual da moda, que estará dentro dos limites
da classe modal. Para isso, existem quatro metodologias matemáticas diferentes que podem ser
utilizadas.
➢ Moda Bruta
➢ Moda de Pearson
➢ Moda de Czuber
➢ Moda de King
Moda Bruta: é o método mais simples; consiste em tomar como Moda o ponto médio da
classe modal. Assim:
𝟐𝟎 + 𝟑𝟎
𝑴𝒐 = = 𝟐𝟓 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
𝟐
Moda de Pearson: é calculada por meio da média e da mediana. Dessa forma:
̅
𝑴𝒐 = 𝟑𝑴𝒆 − 𝟐𝑿
Consiste na diferença entre três vezes o valor da mediana menos duas vezes o valor da
média. Logo, consoante aos cálculos da média e mediana para dados agrupados (Me = 16,25; 𝑋̅
= 16,11):
𝑴𝒐 = 𝟑 × 𝟏𝟔, 𝟐𝟓 − 𝟐 × 𝟏𝟔, 𝟏𝟏
𝑴𝒐 = 𝟒𝟖, 𝟕𝟓 − 𝟑𝟐, 𝟐𝟐 = 𝟏𝟔, 𝟓𝟑 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
Moda de Czuber: essa metodologia estima a moda baseado nos valores de frequência das
classes modal, anterior a modal e posterior a modal. O cálculo é feito pela seguinte fórmula:
𝒇𝑴𝒐𝒅𝒂𝒍 − 𝒇𝑨𝒏𝒕.
𝑴𝒐 = 𝑳𝒊 + 𝒉
𝟐𝒇𝑴𝒐𝒅𝒂𝒍 − (𝒇𝑨𝒏𝒕. + 𝒇𝑷𝒐𝒔𝒕. )
Em que:
Li: corresponde ao limite inferior da classe modal; Li = 10
h: corresponde a amplitude da classe modal; h =10
𝑓𝑀𝑜𝑑𝑎𝑙 : frequência absoluta da classe modal; 𝑓𝑀𝑜𝑑𝑎𝑙 = 4
𝑓𝐴𝑛𝑡. : frequência anterior a classe modal; 𝑓𝐴𝑛𝑡. = 2
𝑓𝑃𝑜𝑠𝑡. : frequência posterior a classe modal; 𝑓𝑃𝑜𝑠𝑡. = 3
MUDE SUA VIDA!

49
Desse modo, os valores correspondentes a cada informação utilizada na fórmula podem

ser encontrados na tabela:
Com isso, o cálculo é efetuado da seguinte forma:

𝟒 − 𝟐
𝑴𝒐 = 𝟏𝟎 + 𝟏𝟎 ×
𝟐 × 𝟒 − (𝟐 + 𝟑)
𝟐
𝑴𝒐 = 𝟏𝟎 + 𝟏𝟎 ×
𝟖 − 𝟓
𝟐𝟎
𝑴𝒐 = 𝟏𝟎 +
𝟑
𝑴𝒐 = 𝟏𝟎 + 𝟔, 𝟔𝟔𝟔 = 𝟏𝟔, 𝟔𝟔 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
Moda de King: estima a moda baseado nos valores de frequência das classes anterior a
modal e posterior a modal. O cálculo é feito pela seguinte fórmula:
𝒇𝒑𝒐𝒔𝒕.
𝑴𝒐 = 𝑳𝒊 + 𝒉
(𝒇𝑨𝒏𝒕. + 𝒇𝑷𝒐𝒔𝒕. )
Assim, o cálculo é procedido da seguinte maneira:
𝟑
𝑴𝒐 = 𝟏𝟎 + 𝟏𝟎 ×
𝟓
𝟑𝟎
𝑴𝒐 = 𝟏𝟎 + = 𝟏𝟔 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
𝟓
MUDE SUA VIDA!

50
MEDIDAS DE POSIÇÃO: SEPARATRIZES

As separatrizes são valores que dividem todo o conjunto de dados em partes iguais e de
tamanhos específicos. Cada separatriz é nomeada conforme a quantidade de partes que separa
o conjunto de dados. A mediana, como estudado anteriormente, separa os dados no meio (em
duas partes com 50% cada lado). Além de ser uma medida de posição de tendência central, a
mediana também é uma separatriz. Outras separatrizes são: os quartis, os decis e os percentis.
Como as separatrizes separam o conjunto de dados, para isso, é necessário que estejam
em ordem crescente, em rol.
QUARTIS (Q)
Os quartis são valores que dividem o conjunto de dados em quatro partes iguais, com 25%
de dados observados em cada parte. Assim, para dividir o rol de dados, é preciso ter três quartis.
Imagine que a linha central representa uma série de dados observados sobre algum
fenômeno em estudo. Os quartis particionam o conjunto de dados em quatros partes com a
mesma quantidade de elementos.
➢ 1º Quartil (Q1):
É o valor que separa o rol de dados em 25% dos dados à sua esquerda e 75% à direita.
Separa 50% dos dados de cada lado, coincide com a mediana.
MUDE SUA VIDA!

51
Separa o conjunto de dados em 75% dos dados à sua esquerda e 25% à direita.
Para localizar o valor de um quartil, é indicado calcular a posição respectiva que separa
os dados em partes correspondentes ao conceito de cada quartil. Desse modo:
(𝒏 + 𝟏)
𝑷𝑸𝟏 = 𝟎, 𝟐𝟓(𝒏 + 𝟏) =
𝟒
(𝒏 + 𝟏)
𝑷𝑸𝟐 = 𝟎, 𝟓(𝒏 + 𝟏) =
𝟐
𝟑(𝒏 + 𝟏)
𝑷𝑸𝟑 = 𝟎, 𝟕𝟓(𝒏 + 𝟏) =
𝟒
➢ Quartis para Dados Brutos:
Para obter os quartis em uma série de dados brutos, primeiramente, é necessário deixá-
los em rol crescente. Após isso, basta aplicar as fórmulas para calcular a posição respectiva da
observação correspondente a cada quartil.
𝑿 = {𝟎, 𝟓, 𝟏𝟎, 𝟏𝟓, 𝟏𝟓, 𝟏𝟓, 𝟐𝟎, 𝟐𝟎, 𝟑𝟎} 𝒏 = 𝟗

Para calcular a posição do 1º quartil (PQ1):
(𝟗 + 𝟏)
𝑷𝑸𝟏 = 𝟎, 𝟐𝟓(𝟗 + 𝟏) = = 𝟐, 𝟓
𝟒
Assim, o Q1 com posição 2,5 corresponde à média entre o valor da 2ª e 3ª posição:
MUDE SUA VIDA!

52
(𝟗 + 𝟏)
𝑷𝑸𝟐 = 𝟎, 𝟓(𝟗 + 𝟏) = =𝟓
𝟐
Assim, o Q2 corresponde ao valor na 5ª posição:
𝟑(𝟗 + 𝟏)
𝑷𝑸𝟑 = 𝟎, 𝟕𝟓(𝟗 + 𝟏) = = 𝟕, 𝟓
𝟒
Assim, o Q3 com posição 7,5 corresponde à média entre o valor da 7ª e 8ª posição:
➢ Quartis para Dados Ponderados:

Para localizar os quartis em uma tabela de frequência sem intervalo, é necessário
observar a frequência acumulada, pois a Fi apresenta a ideia de posição dos dados (semelhante
ao discutido na mediana para dados ponderados). Cada quartil representa um valor específico
na frequência acumulada, da seguinte forma:
∑ 𝒇𝒊 𝒏
𝑸𝟏 → 𝒐𝒖 𝒐𝒖 𝑭𝒓𝒊 = 𝟐𝟓%
𝟒 𝟒
∑ 𝒇𝒊 𝒏
𝑸𝟐 → 𝒐𝒖 𝒐𝒖 𝑭𝒓𝒊 = 𝟓𝟎%
𝟐 𝟐
𝟑(∑ 𝒇𝒊 ) 𝟑𝒏
𝑸𝟑 → 𝒐𝒖 𝒐𝒖 𝑭𝒓𝒊 = 𝟕𝟓%
𝟒 𝟒
MUDE SUA VIDA!

53
O 1º quartil corresponde à observação imediatamente superior à aquela que acumula 1/4

ou 25% dos dados, que pode ser observado tanto na frequência acumulada quanto na
frequência relativa acumulada. O 2º quartil corresponde à metade ou 50%, e o 3º quartil
corresponde à 3/4 ou 75%. Portanto:
Veja que até a observação de 5 kg/semana se acumula 22%, e a partir de 10 kg/semana

acumula-se 33% dos dados. Dessa forma, o valor 10 contém a posição que separa os dados em
25% à esquerda e 75% à direita. Assim pode-se dizer que o 1º quartil é igual a 10. As mesmas
conclusões podem ser feitas para os 2º e 3 º quartis.
➢ Quartis para Dados Agrupados:
Para calcular os quartis em uma tabela de frequência com intervalos, utiliza-se o mesmo
raciocínio adotado na mediana, a interpolação linear. Primeiro, é necessário identificar a classe
de cada quartil (classe quartílica). As classes dos quartis são identificadas pela mesma forma
que nos dados ponderados. Desse modo:
A segunda classe da tabela de frequência acumula a partir de 22% até 67% dos dados
(engloba 25% e 50% dos dados acumulados). Com isso, é possível inferir que a segunda classe
contém tanto o 1º quanto o 2º quartil. Já a terceira classe engloba 75% dos dados acumulados
e, por isso, contém o 3º quartil.
Após identificar as classes quartílicas, basta aplicar o cálculo de interpolação linear
seguindo a ideia da posição dos quartis:
MUDE SUA VIDA!

54
∑ 𝒇𝒊 𝟗
𝑸𝟏 → = = 𝟐, 𝟐𝟓
𝟒 𝟒
∑ 𝒇𝒊 𝟗
𝑸𝟐 → = = 𝟒, 𝟓
𝟐 𝟐
𝟑(∑ 𝒇𝒊 ) 𝟑×𝟗
𝑸𝟑 → = = 𝟔, 𝟕𝟓
𝟒 𝟒
Assim, os cálculos desenvolvidos são, para Q1:
𝟐𝟎 − 𝟏𝟎 𝑸𝟏 − 𝟏𝟎
=
𝟔 − 𝟐 𝟐, 𝟐𝟓 − 𝟐
𝟏𝟎 𝑸𝟏 − 𝟏𝟎
=
𝟒 𝟎, 𝟐𝟓
𝟏𝟎 × 𝟎, 𝟐𝟓
= 𝑸𝟏 – 𝟏𝟎
𝟒
𝟐, 𝟓
= 𝑸𝟏 – 𝟏𝟎
𝟒
𝑸𝟏 = 𝟏𝟎 + 𝟎, 𝟔𝟐𝟓 = 𝟏𝟎, 𝟔𝟐𝟓
Para Q2:
𝟐𝟎 − 𝟏𝟎 𝑸𝟐 − 𝟏𝟎
=
𝟔 − 𝟐 𝟒, 𝟓 − 𝟐
𝟏𝟎 𝑸𝟐 − 𝟏𝟎
=
𝟒 𝟐, 𝟓
𝑸𝟐 − 𝟏𝟎
𝟐, 𝟓 =
𝟐, 𝟓
𝟐, 𝟓 × 𝟐, 𝟓 = 𝑸𝟐 – 𝟏𝟎
𝟔, 𝟐𝟓 + 𝟏𝟎 = 𝑸𝟐
𝑸𝟐 = 𝟏𝟔, 𝟐𝟓
MUDE SUA VIDA!

55
Para Q3:
𝟑𝟎 − 𝟐𝟎 𝑸𝟐 − 𝟐𝟎
=
𝟗 − 𝟔 𝟔, 𝟕𝟓 − 𝟔
𝟏𝟎 𝑸𝟐 − 𝟐𝟎
=
𝟑 𝟎, 𝟕𝟓
𝟑, 𝟑𝟑 × 𝟎, 𝟕𝟓 = 𝑸𝟑 – 𝟐𝟎
𝟐, 𝟓 = 𝑸𝟑 – 𝟐𝟎
𝑸𝟑 = 𝟐𝟎 + 𝟐, 𝟓 = 𝟐𝟐, 𝟓
DECIS (D)
Os decis são medidas descritivas que dividem uma série em 10 partes iguais. Portanto,
existem nove decis; o primeiro tem 10% dos dados à sua esquerda, e 90% à sua direita; o
segundo tem 20% dos dados à sua esquerda, e 80% à sua direita, e assim por diante, até o nono
decil, que tem 90% dos dados à sua esquerda, e 10% à sua direita.
Para o cálculo da posição dos decis em qualquer forma de apresentação de dados, o

raciocínio atribuído é o mesmo que para todas as outras separatrizes:
Decis (D) Cálculo da posição
1º Decil PD1 = 0,10(n+1)
2º Decil PD2 = 0,20(n+1)
3º Decil PD3 = 0,30(n+1)
4º Decil PD4 = 0,40(n+1)
5º Decil PD5 = 0,50(n+1)
6º Decil PD6 = 0,60(n+1)
7º Decil PD7 = 0,70(n+1)
8º Decil PD8 = 0,80(n+1)
9º Decil PD9 = 0,90(n+1)
MUDE SUA VIDA!

56
PERCENTIL
Os percentis são os 99 valores que separam uma série de dados em 100 partes iguais. O
cálculo dos percentis está relacionado com a percentagem. A posição de cada percentil pode ser
obtida da mesma forma que as demais separatrizes. Exemplo:
Percentil (P) Cálculo da posição
5º Percentil PP5 = 0,05(n+1)
Todas as separatrizes (mediana, quartis, decis e percentis) podem ser relacionadas da
seguinte forma:
Com isso, podemos estabelecer a seguinte relação entre as separatrizes:
𝑴𝒆 = 𝑸𝟐 = 𝑫𝟓 = 𝑪𝟓𝟎
BOX-PLOT
O Box-plot é uma representação gráfica que fornece informações sobre a posição central,
dispersão e assimetria da respectiva distribuição de frequência dos dados. O gráfico utiliza
cinco medidas estatísticas: mínimo, máximo, mediana, primeiro quartil, terceiro quartil.
Ele representa essas cinco medidas em um único conjunto de resultados, conforme apresentado
a seguir:
MUDE SUA VIDA!

57
O box-plot é utilizado para:

➢ Comparar diferentes conjuntos de dados, visualmente, é possível observar dois ou
mais box-plot e verificar o desempenho e posição de cada um;
➢ Fornecer evidência sobre o nível de assimetria da distribuição dos dados, a partir
das posições dos quartis Q1, Me (ou Q2) e Q3;
➢ Identificar observações atípicas (outliers).
Qualquer observação que passe dos limites representados pelo box-plot são considerado
observações atípicas. Estes são chamados de outliers. Um outlier pode ser produto de um erro
de observações ou de arredondamento. Outros sinônimos para outliers: pontos discrepantes,
pontos extremos, valores atípicos ou observações fora de lugar.
De modo geral, um ponto será considerado outlier quando estiver fora do intervalo
denotado dos valores mínimo ou máximo. No entanto, o valor máximo pode ser o limite
superior (Ls) ou a observação máxima (Xmáx), entre elas, aquela que for menor (que mais
limita); o valor mínimo pode ser o limite inferior (Li) ou a observação mínima (Xmín), entre elas,
aquela que for maior (que mais limita). Os limites podem ser calculados da seguinte forma:
Limite Inferior (LI): Q1 – 1,5AQ
Limite Superior (LS): Q3 + 1,5AQ
Sendo AQ a amplitude entre os quartis extremos (Q3 – Q2).
MUDE SUA VIDA!

58
ESQUEMA DE CINCO PONTOS

Existe ainda, outra representação gráfica das cinco medidas descritivas já mencionadas, é
o “esquema dos cinco números”, conforme mostrado genericamente a seguir:
Vamos utilizar o exemplo abordado para o cálculo dos quartis para dados brutos, para
obter os gráficos de box-plot e esquema de cinco pontos. Para isso, é necessário calcular os
limites inferior e superior.
𝑿 = {𝟎, 𝟓, 𝟏𝟎, 𝟏𝟓, 𝟏𝟓, 𝟏𝟓, 𝟐𝟎, 𝟐𝟎, 𝟑𝟎} 𝒏 = 𝟗
𝑸𝟏 = 𝟕, 𝟓 𝑸𝟐 = 𝑴𝒆 = 𝟏𝟓 𝑸𝟑 = 𝟐𝟎
𝑨𝒒 = 𝟐𝟎 − 𝟕, 𝟓 = 𝟏𝟐, 𝟓
𝑳𝒔 = 𝟐𝟎 + 𝟏, 𝟓𝒙𝟏𝟐, 𝟓 = 𝟑𝟖, 𝟕𝟓 ou 𝑿𝑴á𝒙 = 𝟑𝟎
𝑳𝒊 = 𝟕, 𝟓 − 𝟏, 𝟓𝒙𝟏𝟐, 𝟓 = −𝟏𝟏, 𝟐𝟓 ou 𝑿𝑴í𝒏 = 𝟎
Os limites inferior e superior formam um intervalo mais amplo do que as observações de
mínimo e de máximo, portanto, os valores de Xmín e Xmáx devem ser utilizados no box-plot
porque limitam mais o intervalo do conjunto de dados. Assim:
MUDE SUA VIDA!

59
No box-plot, perceba que a mediana e o 3º quartil estão muito mais próximos

numericamente do que no 1º quartil. A linha central dentro do box-plot está situada mais acima
e com distâncias desproporcionais em relação ao Q1 e Q3. Essa situação evidencia a ideia de
distribuição assimétrica que será abordada em detalhes no conteúdo de assimetria (em
medidas de formas) mais a diante.
MEDIDAS DE DISPERSÃO
As medidas de dispersão ou variabilidade permitem visualizar como os dados espalham-
se (ou concentram-se) em torno de um valor central. Essas medidas indicam se um conjunto de
dados é homogêneo ou heterogêneo.
As medidas de posição (tendência central e separatrizes), por si só, não trazem
completude nas informações geradas. Isso pode ser facilmente comprovado quando se observa
dois conjuntos de dados distintos que podem geram a mesma tendência central. Por exemplo,
sejam dois conjuntos qualquer:
X = {12, 12, 14, 14, 13, 13, 12,14} ̅ = 𝟏𝟑 MeX = 13

𝑿
Y = {6, 6, 20, 20, 19, 7. 6, 20} ̅ = 𝟏𝟑 MeY = 13
𝒀
Observe que os valores que compõem a variável X são diferentes comparativamente a
variável Y. No entanto, ambas geram a mesma informação quanto a média e a mediana, isto é,
estão posicionados na sua centralidade no valor numérico 13. Desse modo, as medidas
MUDE SUA VIDA!

60
descritivas de posição precisam ser complementadas quanto o seu grau de dispersão, ou seja,
o quanto os dados se distanciam uns dos outros e de sua posição central (que pode ter como
referência a média ou mediana). Entenda essa relação por meio de gráficos:
Considerando que a linha horizontal representa o valor médio das variáveis, é possível
verificar que a dispersão da variável Y em relação à média é maior do que a variável X. Em
outros aspectos, pode-se afirmar que a variável X é mais homogênea do que a variável Y.
Portanto, as medidas descritivas de dispersão são essenciais e complementares para
compreender a performance do fenômeno estudado.
Ainda, quando falamos em dispersão dos dados, dois conceitos são de fundamental
compreensão: a amplitude e o desvio. O termo amplitude se refere a variação entre os valores
extremos de um conjunto de dados, desse modo, traz a ideia de dispersão máxima. Por outro
lado, o desvio é o distanciamento dos dados observados comparado a um valor de referência (o
desvio deve ser em relação a algum valor), que normalmente é uma medida de tendência
central.
Para quantificar esse aspecto, existem várias medidas descritivas de dispersão, entre elas
existem: amplitude total, amplitude/intervalo interquartílico, desvio quartil, desvio médio,
variância, desvio padrão, coeficiente de variação, coeficiente de variação quartil.
AMPLITUDE TOTAL (AT)

A amplitude total consiste na diferença entre o menor e o maior valor no conjunto de
dados. Desse modo:
𝑨𝑻 = 𝑿𝑴á𝒙 − 𝑿𝑴í𝒏
Essa medida de dispersão não leva em consideração os valores intermediários, perdendo
a informação de como os dados estão distribuídos internamente. Apenas informa a oscilação
máxima que as observações alcançam. É baseada somente em duas observações, por isso, é
altamente influenciada pelos valores extremos. Além de tudo, é possível estabelecer uma
relação direta com a variabilidade: quanto maior a amplitude, maior será a variabilidade do
conjunto de dados.
Na forma de apresentação de dados agrupados, a amplitude total pode ser obtida pela
diferença entre o limite superior da última classe e o limite inferior da primeira classe:
𝑨𝑻 = 𝑳𝒔ú𝒍𝒕. 𝑪𝒍𝒂𝒔𝒔𝒆 − 𝑳𝒊𝟏ª𝒄𝒍𝒂𝒔𝒔𝒆
MUDE SUA VIDA!

61
AMPLITUDE/INTERVALO INTERQUARTIL (AQ)

A amplitude (ou intervalo) interquartil é a diferença entre os quartis extremos, ou seja, a
diferença entre o 3º quartil e o 1º quartil. Assim:
𝑨𝑸 = 𝑸𝟑 − 𝑸𝟏
A amplitude interquartil é uma medida essencial para calcular os limites inferior e
superior do box-plot. Com isso, é possível estabelecer limites menos vulneráveis a valores
extremos, uma vez que os quartis são pouco sensíveis aos outliers (ao contrário do que ocorre
com a amplitude total). A amplitude entre os quartis extremos mostra a variabilidade de 50%
dos dados que estão em torno da mediana, isto é, a distribuição da metade central dos dados.
Entenda pela ilustração:
Essa amplitude não é suficiente para avaliar a variabilidade, pois despreza 50% dos dados
(os extremos). É utilizada para determinar outliers (valores atípicos).
DESVIO QUARTIL (DQ)
Também denominado de amplitude semi-interquatílica, o desvio quartil pode ser
calculado obtendo a metade da amplitude interquartil, da seguinte maneira:
(𝑸𝟑 − 𝑸𝟏 )
𝑫𝑸 =
𝟐
O desvio quartil tem como ponto de referência de centralidade a mediana, uma vez que a
metade da amplitude interquartil é o próprio desvio dos quartis extremos em relação a
mediana.
O desvio quartil apresenta como vantagem o fato de ser uma medida fácil de calcular e de
interpretar. Além do mais, não é afetado pelos valores extremos. Trata-se de uma medida
insensível a distribuição dos dados menores que Q1 e maiores que Q3.
DESVIO-MÉDIO (DM)
Os desvios baseados nos quartis tem como referência a mediana e não consideram todo
conjunto de dados. Para obter uma compreensão completa sobre a variabilidade dos dados é
necessário utilizar a média como ponto de referência para os desvios, pois ela considera todo o
conjunto de observações em seu cálculo. Assim, a partir de agora será abordado medidas de
dispersão baseadas na média, e os desvios de cada observação serão obtidos pela diferença da
média:
𝐃𝐞𝐬𝐯𝐢𝐨 = 𝑿𝒊 – 𝝁
MUDE SUA VIDA!

62
Para compreender o cálculo do desvio-médio, vamos abordar um exemplo com um

conjunto de dados qualquer:
OBJETO DE ESTUDO:
Comprimento de corpos de delitos retirados da cena de um crime, com unidade
de medida em centímetros (cm).
X = {2, 5, 6, 9, 10}
𝟐 + 𝟓 + 𝟔 + 𝟗 + 𝟏𝟎 𝟑𝟐
𝝁= = = 𝟔, 𝟒𝒄𝒎
𝟓 𝟓
Para quantificar a dispersão dos dados, uma alternativa interessante é tirar uma média
dos desvios de cada observação. Entretanto, quando somamos os desvios de cada observação
encontramos o seguinte resultado:
Cada linha da tabela calcula o desvio de uma observação em relação a média, quando
tentamos quantificar todos esses desvios (a própria dispersão do fenômeno estudado) obtemos
como somatório o valor zero. Isso ocorre porque a média é um valor de tendência central que
é quantificada por todas observações, assim os desvios em relação a ela têm o mesmo valor
para o lado negativo como para o lado positivo. Como pode ser observado na tabela acima, os
valores dessa variável desviam no intervalo de [-6,2cm; +6,2cm]. Os desvios possuem a mesma
unidade de medida que o fenômeno em estudo.
Diante dessa situação, alguns recursos matemáticos podem ser aplicados para evitar que
o somatório dos desvios se torne zero, ao mesmo tempo que seja possível quantificar a
dispersão da variável X. Uma alternativa é utilizar a função modular no cálculo dos desvios, isto
é,|𝑋𝑖 − 𝑋̅|, por exemplo:
𝑿𝒊 𝑿𝒊 – 𝝁 |𝑿𝒊 − 𝝁|
2 -4,4 4,4
5 -1,4 1,4
6 -0,4 0,4
9 +2,6 2,6
10 +3,6 3,6
Σ 0 12,4
MUDE SUA VIDA!

63
A função modular despreza o sinal do resultado, trabalhando apenas com o módulo (o

valor numérico). Com isso, todos os valores são somados e se obtém um resultado diferente de
zero, nesse exemplo, o somatório do módulo dos desvios (∑(|𝑋𝑖 − 𝑋̅|) foi 12,4 cm. Dessa
forma, um valor que mensura a dispersão ou a variabilidade dos dados é obtido e partir disso é
possível tirar uma média dos desvios. Essa medida descritiva é definida como desvio médio
(DM).
𝟏𝟐, 𝟒
𝑫𝑴 = = 𝟐, 𝟒𝟖 𝒄𝒎
𝟓
Desse modo, é possível inferir que, em média, os dados dispersam na faixa de ±2,48cm em
relação à centralidade dos dados. Com essa construção, desenvolvemos o raciocínio
matemático por trás da fórmula do desvio-médio. Após todo o exposto, a fórmula do desvio-
médio pode ser definida pela seguinte expressão:
∑|𝑿𝒊 − 𝝁|
𝑫𝑴 =
𝒏
O desvio-médio é o somatório dos desvios em relação à média, em módulo, dividido pelo
número de elementos. Em síntese, o desvio-médio corresponde à média dos valores absolutos
dos desvios.
Contudo, o desvio-médio muitas vezes não é utilizado como medida referente para
descrever a dispersão dos dados. Isso porque a função modular apresenta algumas limitações
matemáticas, compreendê-las não é interessante para o estudo do aluno, seria aprofundar
demais no assunto. O importante é entender que outro recurso matemático deve ser utilizado
para calcular os desvios de modo que o somatório não resulte em zero. Essa outra medida
descritiva é a variância.
VARIÂNCIA (σ2 ou s2)
A variância é uma medida de dispersão que aplica uma função quadrática nos desvios em
relação à média. Desse modo, os desvios com sinais negativos resultam em valores positivos e,
assim, é possível quantificar um valor que representa a dispersão de todo conjunto de dados.
Veja que a construção do raciocínio é semelhante ao desvio-médio, só que ao invés de aplicar o
módulo nos desvios, eles são elevados ao quadrado. Entenda:
𝑿𝒊 𝑿𝒊 – 𝝁 (𝑿𝒊 – 𝝁)2
2 -4,4 19,36
5 -1,4 1,96
6 -0,4 0,16
9 +2,6 6,76
10 +3,6 12,96
Σ 0 41,2
Portanto, o valor 41,2cm2 quantifica a soma de toda a dispersão (variabilidade) no
conjunto de dados em relação à média. Para obter um valor que represente uma variação média,
é interessante dividir pelo número de observações.
𝟒𝟏, 𝟐
𝝈𝟐 = = 𝟖, 𝟐𝟒 𝒄𝒎𝟐
𝟓
MUDE SUA VIDA!

64
Desse modo, a variância dos dados é de 8,24 cm2. Apesar de trabalhar com valores
absolutos do fenômeno estudado, a variância, por elevar os desvios ao quadrado, tem sua
unidade de medida também elevada ao quadrado, como pode ser observado nesse exemplo
hipotético, em cm2. Isso faz com que a informação dessa medida descritiva não tenha a mesma
natureza da variável quantificada, o que implica na necessidade de mais um ajuste matemático
para obter uma medida coerente ao fenômeno em estudo.
Seguindo a linha de raciocínio desenvolvida, a fórmula da variância pode ser definida pelo
somatório dos desvios, em relação a média, elevado ao quadrado e dividido pelo número de
elementos:
𝟐
∑(𝑿𝒊 – 𝝁)𝟐
𝝈 =
𝑵
OBSERVAÇÃO:
O somatório dos desvios, em relação à média, ao quadrado pode também ser
denominado como Variação de X, afinal é o quanto a variável X está variando do
seu centro; outro conceito aplicado pode ser a Soma dos Quadrados de X.
É interessante que aluno associe esses conhecimentos. Veja:
Veja que tanto a simbologia da média (µ) quanto a da variância (σ2) foram representadas
por letras gregas. Conforme abordado nos conceitos iniciais, esses símbolos são aplicados
quando forem medidas referentes a população. Esses detalhes serão explicados com mais
profundidade no conteúdo de estimadores da Estatística Inferencial, por hora, entenda que
para variância, as fórmulas são diferentes quando os dados obtidos são provenientes da
população ou da amostra. Por conseguinte, as fórmulas são:
Basicamente, quando se trata de um conjunto de dados proveniente da população, utiliza-
se o parâmetro populacional da média µ, além de dividir o somatório dos desvios ao quadrado
por N, para assim, obter a variância σ2.
Por outro lado, quando o conjunto de dados for referentes a uma amostra, utiliza-se o
estimador do parâmetro da média 𝑋̅, e divide o somatório dos desvios ao quadrado por n-1,
para obter a variância s2. A princípio, o mais importante nas questões de Estatística Descritiva
é identificar se dados pertencem a uma amostra ou não, e dividir por 𝑛 ou 𝑛 − 1, somente isso.
Mais para frente, no tema de Estatística Inferencial, essa diferença será fundamentada.
Se tratarmos o exemplo anterior como uma amostra, o cálculo ficaria da seguinte forma:
MUDE SUA VIDA!

65
̅ = 𝟔, 𝟒𝒄𝒎
𝑿
𝟐
𝟒𝟏, 𝟐
𝒔 = = 𝟏𝟎, 𝟑 𝒄𝒎𝟐
𝟒
A estimativa da média permanece a mesma que a população, apenas a simbologia o que
ela representa são diferentes. Quanta a variância, o cálculo é feito dividindo por n -1 e se obtém
um resultado diferente. É muito importante identificar na questão se os dados são amostras ou
não, pois isso muda todo o possível resultado de uma questão.
➢ Fórmula Alternativa:
Matematicamente, a fórmula da variância pode ser expressa diferente. Isso porque o
somatório dos desvios ao quadrado pode ser representado por outra notação, essa relação de
igualdade pode simplificar muito os cálculos da variância, além de ser muito aplicada nos
conteúdos mais avançados.
NOTAÇÃO SOBRE O SOMATÓRIO DOS DESVIOS AO QUADRADO:
𝒏 𝒏
𝟐 𝟐 (∑ 𝑿𝒊 )𝟐
∑(𝑿𝒊 − 𝝁) = ∑ 𝑿𝒊 −
𝑵
𝒊=𝟏 𝒊=𝟏
Explicando a notação matemática, veja que o somatório dos desvios ao quadrado

− 𝜇)2 é igual ao somatório de cada observação ao quadrado (∑𝑛𝑖=1 𝑋𝑖 2 ) menos o efeito
(∑𝑛𝑖=1(𝑋𝑖
2
(∑𝑛
𝑖=1 𝑋1 )
da média ( ). Ao aplicar essa igualdade na fórmula da variância populacional temos a
𝑁
seguinte conclusão:
𝟐
𝟐 (∑ 𝑿𝒊 )
∑(𝑿 − 𝝁) 𝟐 ∑ 𝑿𝒊 −
𝟐
𝝈 =
𝒊
= 𝑵
𝑵 𝑵
∑ 𝑿𝒊 𝟐
𝟐
(∑ 𝑿𝒊 )𝟐
𝝈 = −
𝑵 𝑵𝟐
MUDE SUA VIDA!

66
Com essa dedução matemática, é possível definir a variância populacional da seguinte

forma:
𝑽𝒂𝒓𝒊â𝒏𝒄𝒊𝒂 = 𝑴é𝒅𝒊𝒂 𝒅𝒐𝒔 𝑸𝒖𝒂𝒅𝒓𝒂𝒅𝒐𝒔 − 𝑸𝒖𝒂𝒅𝒓𝒂𝒅𝒐 𝒅𝒂 𝑴é𝒅𝒊𝒂
Essa expressão poder ser muito útil nas questões de Estatística que envolvam cálculo da
variância, pois não precisa calcular os desvios de cada observação em relação à média para
depois elevar ao quadrado. Em questões que não são fornecidas cada observação que compõem
o conjunto de dados, essa fórmula é o recurso que deve ser utilizado. Vamos aplicar, no mesmo
exemplo abordado, o cálculo da variância com essa fórmula:
X = {2, 5, 6, 9, 10}
𝝁 = 𝟔, 𝟒𝒄𝒎
Após obter o valor da média, basta calcular a média de cada observação elevada ao
∑ 𝑋𝑖 2
quadrado, isto é, a média dos quadrados ( ). O cálculo pode ser procedido da seguinte
𝑁
maneira:
𝑿𝒊 𝑿𝒊 𝟐
2 4
5 25
6 36
9 81
10 100
2
∑ 𝑋𝑖 246
Se o somatório de cada uma das cinco observações elevadas ao quadrado é igual a 246,
então a média dos quadrados é igual a:
∑ 𝑿𝒊 𝟐 𝟐𝟒𝟔
= = 𝟒𝟗, 𝟐
𝑵 𝟓
MUDE SUA VIDA!

67
Com isso, a variância pode ser facilmente calculada por:
𝟐
∑ 𝑿𝒊 𝟐
𝝈 = − 𝝁𝟐
𝑵
𝝈𝟐 = 𝟒𝟗, 𝟐 − 𝟔, 𝟒𝟐
𝝈𝟐 = 𝟒𝟗, 𝟐 − 𝟒𝟎, 𝟗𝟔 = 𝟖, 𝟐𝟒 𝒄𝒎𝟐
O resultado de 8,24cm2 é o mesmo daquele encontrado utilizando a fórmula original.
Quando os dados pertencerem a uma amostra, a fórmula alternativa não chega na mesma
conclusão anterior (média dos quadrados menos o quadrado da média). Isso porque o
denominador é n -1. Cuidado para não aplicar a dedução abordada anteriormente para dados
amostrais, pois a fórmula alternativa é a seguinte:
𝟐
(∑ 𝑿 𝒊 ) 𝟐
∑(𝑿 − ̅ )𝟐
𝑿 ∑ 𝑿𝒊 −
𝟐
𝒔 =
𝒊
= 𝒏
𝒏 − 𝟏 𝒏 − 𝟏
Se tratarmos o exemplo anterior como uma amostra, é interessante obter, além da soma
dos quadrados de cada observação (∑ 𝑋𝑖 2 ), o somatório total das observações (∑ 𝑋𝑖 ), sem
necessidade de obter a média:
𝑿𝒊 𝑿𝒊 𝟐
2 4
5 25
6 36
9 81
10 100
∑ 𝑿𝒊 = 𝟑𝟐 ∑ 𝑿𝒊 𝟐 = 𝟐𝟒𝟔
Assim, o cálculo pode ser efetuado da seguinte forma:
𝟐
𝟐 ( ∑ 𝑿𝒊 ) 𝟑𝟐𝟐
∑ 𝑿𝒊 − 𝟐𝟒𝟔 −
𝟐
𝒔 = 𝒏 = 𝟓
𝒏 − 𝟏 𝟓 − 𝟏
𝟏𝟎𝟐𝟒
𝟐𝟒𝟔 −
𝒔𝟐 = 𝟓 = 𝟐𝟒𝟔 − 𝟐𝟎𝟒, 𝟖
𝟒 𝟒
𝟐
𝟒𝟏, 𝟐
𝒔 = = 𝟏𝟎, 𝟑 𝒄𝒎𝟐
𝟒
MUDE SUA VIDA!

68
Essa fórmula alternativa é também útil quando o valor da média não é exato, pois não
precisa subtrair cada observação de uma média que pode ter sofrido arredondamento.
DESVIO PADRÃO (σ ou s)
O desvio padrão é uma medida que fornece a ideia de distribuição dos desvios em relação
ao valor da média, semelhante ao desvio-médio. A diferença está que ele não é obtido por meio
da função modular e sim a partir da variância que utiliza a função quadrática.
O cálculo da variância eleva as observações ao quadrado, transformando a natureza do
fenômeno estudado. No exemplo abordado, o valor da variância foi 8,24cm2, desse modo, a
variância deixa de expressar um valor referente ao comprimento linear e transforma-se em
uma grandeza de área, isto é, a variância perde a grandeza do fenômeno estudado. Para
corrigir matematicamente essa distorção é necessário tirar a raiz quadrada da variância, e
transformá-la em um desvio com unidade de medida da variável analisada.
Esse desvio é dito como padrão, pois é muito mais vantajoso matematicamente obter o
desvio por meio da variância do que pela função modular. Em outras palavras, a variância é
apenas um meio para obter a medida de dispersão que melhor representa a variabilidade
absoluta do fenômeno em estudo: o desvio padrão. Assim, pode ser obtido, simplesmente,
extraindo a raiz quadrada da variância:
Com isso, conforme o exemplo abordado anteriormente, o desvio padrão é:
Para interpretar se o desvio padrão está alto ou baixo, devemos compará-lo com o valor
da média. Quanto maior o valor do desvio padrão em relação à média, maior então será a
variação dos dados e mais heterogêneo é o nosso conjunto de observações.
➢ Variância e Desvio Padrão para Dados Brutos:
Com conjunto de dados brutos os cálculos da variância e do desvio padrão podem ser
efetuados pelo método convencional (associado à sua definição e finalidade), como também
podem ser calculados pela fórmula alternativa.
Para o cálculo convencional da variância, pode ser efetuado seguindo as etapas em
sequência lógica:
• 1ª etapa: calcular a média (𝜇 𝑜𝑢 𝑋̅) do conjunto de dados;
• 2ª etapa: obter os desvios, em relação à média, de cada observação
(𝑑𝑖 = 𝑋𝑖 − 𝜇);
• 3ª etapa: elevar cada desvio ao quadrado [𝑑𝑖 = (𝑋𝑖 − 𝜇)2 ];
• 4ª etapa: obter o somatório dos desvios ao quadrado [∑(𝑋𝑖 − 𝜇)2 ];
• 5ª etapa: dividir o somatório por 𝑛 quando o conjunto de dados se tratar de uma
população, ou dividir por 𝑛 − 1 quando for referente a uma amostra. Com isso,
obtém a variância (𝜎 2 𝑜𝑢 𝑠 2 );
MUDE SUA VIDA!

69
• 6ª etapa: extrair a raiz quadrada da variância para obter o desvio padrão

(𝜎 𝑜𝑢 𝑠);
Para o cálculo da fórmula alternativa da variância e desvio padrão, exclusivamente para
dados de uma população, as etapas são:
• 1ª etapa: calcular a média (𝜇 ) do conjunto de dados;
• 2ª etapa: elevar cada observação ao quadrado (𝑋𝑖 2 );
• 3ª etapa: efetuar o somatório de cada observação ao quadrado (∑ 𝑋𝑖 2 );
∑ 𝑋𝑖 2
• 4ª etapa: obter a média dos quadrados ( );
𝑛
• 5ª etapa: elevar o valor da média ao quadrado (𝜇 2 );
• 6ª etapa: obter a diferença entre a média dos quadrados e o quadrado da média
∑ 𝑋𝑖 2
( − 𝜇 2 ). Com isso, será obtido o valor da variância (𝜎 2 );
𝑛
• 7ª etapa: extrair a raiz quadrada da variância para obter o desvio padrão;
OBSERVAÇÃO:
Uma informação que pode ser bem útil em provas, é que o desvio padrão nunca
será superior a metade da amplitude total. Isso porque se o desvio padrão consiste
em um valor médio de dispersão em relação à média (𝑋̅), ele nunca será maior que o
desvio máximo que pode ocorrer em um conjunto de dados observados, isto é, desvio
entre a observação máxima ou mínima em relação à média. Logo:
➢ Variância e Desvio padrão para dados ponderados ou agrupados:

O cálculo dessas medidas de dispersão em dados ponderados ou agrupados são
semelhantes a forma como são obtidas as médias. Basta entender que cada observação além de
representar um valor da variável analisada, também possui um desvio em relação a média.
Assim, se alguma observação se repete duas vezes, o desvio dessa observação em relação a
média também se repete duas vezes.
Para exemplificar essa aplicação será abordado um exemplo com dados agrupados, no
entanto, entenda que para dados ponderados o mesmo raciocínio é feito. A diferença está que
para dados agrupados assume-se que os dados coincidem com o ponto médio da classe, e para
os dados ponderados trabalha-se com o valor exato e sua respectiva frequência.
OBJETO DE ESTUDO:
Dados de uma amostra referentes ao peso de mercadorias exportadas
ilegalmente, em quilogramas, apreendidas por diversas operações policiais.
Valor Observado (Xi) Frequência Absoluta (fi) Frequência Relativa (fri)
0 10 2 20%
10 20 5 50%
20 30 3 30%
MUDE SUA VIDA!

70
Soma (Σ) 10 100%
Assim como para média, para calcular a variância, é necessário utilizar as informações da
frequência absoluta ou relativa. Com isso, a primeira etapa é calcular o ponto médio de cada
classe:
𝟏𝟎 + 𝟎
𝑷𝒎𝟏ª = = 𝟓 𝒌𝒈
𝟐
𝟐𝟎 + 𝟏𝟎
𝑷𝒎𝟐ª = = 𝟏𝟓 𝒌𝒈
𝟐
𝟑𝟎 + 𝟐𝟎
𝑷𝒎𝟑ª = = 𝟐𝟓 𝒌𝒈
𝟐
Após isso, é também preciso calcular a média para obter os desvios em relação a ela:
𝟓 × 𝟐 + 𝟏𝟓 × 𝟓 + 𝟐𝟓 × 𝟑 𝟏𝟔𝟎
̅=
𝑿 = = 𝟏𝟔 𝒌𝒈
𝟏𝟎 𝟏𝟎
Ao considerar que cada observação coincide com o ponto médio de cada classe, é possível
entender que a observação de 5kg tem um desvio de -11kg em relação a média, e que este desvio
se repete duas vezes. O mesmo raciocínio pode ser aplicado aos demais pontos médios.
Portanto, o cálculo dos desvios ao quadrado pode ser esquematizado da seguinte forma:
𝑋𝑖 𝑓𝑖 𝑋𝑖 − 𝜇 (𝑋𝑖 − 𝜇 )2 𝑓𝑖 (𝑋𝑖 − 𝜇 )2
5 2 -11 121 2 × 121 = 242

15 5 -1 1 1×5 = 5
25 3 9 81 3 × 81 = 243
Total 10 0 - 490
Ao obter o desvio de cada observação, deve ser elevado ao quadrado (por questões já
explicadas), e posteriormente multiplicado pela sua respectiva frequência, pois representa a
quantidade de vezes que esse desvio ocorre. Assim, o somatório dos desvios é expresso em
notação matemática por ∑ 𝑓𝑖 (𝑋𝑖 − 𝜇)2 . Consequentemente, o cálculo da variância é concluído
da seguinte maneira:
𝟒𝟗𝟎
𝒔𝟐 = = 𝟓𝟒, 𝟒𝟒 𝒌𝒈𝟐
(𝟏𝟎 − 𝟏)
O exemplo abordado tratava-se de uma amostra, assim o cálculo da variância foi efetuado
dividindo por 𝑛 – 1, isto é, 9. Em seguida, o desvio padrão é obtido pela raiz da variância:
𝒔 = √𝟓𝟒, 𝟒𝟒 𝒌𝒈𝟐 = 𝟕, 𝟑𝟖 𝒌𝒈
MUDE SUA VIDA!
71
Lembre-se que para obter o desvio padrão, é necessário calcular a variância antes!
COEFICIENTE DE VARIAÇÃO (CV)

O desvio padrão é a medida de dispersão mais utilizada para representar a variabilidade
dos dados absolutos referente a um fenômeno específico. No entanto, não é possível comparar
a heterogeneidade de um conjunto de dados de natureza diferentes. Exemplo, sobre a altura e
o peso de um grupo de policiais, não pode ser afirmado que um desvio padrão de 20cm é mais
heterogêneo do que um de 12kg. Primeiramente, essa comparação não pode ser feita porque se
trata de variáveis com grandezas diferentes, e, em segundo, o desvio é calculado em relação à
média, então é necessário ter a média de cada variável como referência. Para solucionar essa
problemática, é interessante utilizar o coeficiente de variação, calculado da seguinte forma:
𝝈 𝒔
𝑪𝑽 = 𝒐𝒖
𝝁 ̅
𝑿
A característica mais interessante do coeficiente de variação é que se trata de uma medida
descritiva adimensional, uma vez que a divisão do desvio padrão sobre a média retira a
unidade, já que ambos têm a mesma unidade de medida. Com isso, é possível comparar
coeficientes de variação de diferentes fenômenos estudados. Desse modo, pode-se inferir sobre
a variabilidade de uma população (ou amostra) em relação a outra. Baseado no que foi exposto,
o coeficiente de variação é uma medida de variabilidade relativa, e por isso também é
conhecido como dispersão relativa.
O coeficiente de variação pode ser expresso em porcentagem caso seja multiplicado por
100. Isso não interfere em nada quanto ao seu valor, magnitude ou interpretação. Para
exemplificar sua aplicação, será utilizado o mesmo exemplo abordado nos cálculos anteriores.
Assim, o cálculo é representado:
O cálculo do coeficiente de variação terá diferentes resultados ao se tratar de uma

população ou amostra. Quanto maior o coeficiente de variação, maior é a dispersão dos dados
sobre a média, assim é possível inferir que a média não seria uma boa medida para representar
o conjunto de dados. Para ter uma ideia dos valores de CV e o que eles representam, pode ser
utilizado a seguinte interpretação:
Menor que 10%: significa que é a média é um ótimo representante do conjunto dos
dados, pois existe uma pequena dispersão;
Entre 10% e 20%: a média é uma boa representante, pois existe uma pequena dispersão
dos dados em torno da média;
Entre 20% e 35%: é um valor razoável, utilizar a média pode ser suficiente, pois existe
uma razoável dispersão dos dados dela;
Entre 35% e 50%: a média representa fracamente, pois existe uma grande dispersão dos
dados em torno dela;
MUDE SUA VIDA!

72
Acima de 50%: a média não é capaz de representar o conjunto de dados, pois existe uma
enorme dispersão.
COEFICIENTE DE VARIAÇÃO QUARTIL (CVQ)
O coeficiente de variação quartil é uma medida com interpretações semelhantes ao CV,
porém é relativa aos desvios dos quartis (também é adimensional). É uma medida útil para
comparação de diferentes variáveis quando possuem a presença de muito valores atípicos
(outliers). Nessa situação, é mais interessante observar a variação dos dados concentrados em
torno de 50% da mediana. O cálculo é assim efetuado da seguinte forma:
𝑨𝒒 𝑸𝟑 − 𝑸𝟏
𝑪𝑽𝑸 = =
𝑸𝟑 + 𝑸𝟏 𝑸𝟑 + 𝑸𝟏
MEDIDAS DE FORMA
As medidas de forma, ou de formato, caracterizam como os dados estão distribuídos em
relação a si mesmos. Com essas medidas, é possível determinar uma tendência da curva de
frequência. As principais informações são quanto a assimetria e o grau de achatamento da
distribuição (curtose). Entenda por distribuição todos os valores que a variável pode assumir e
onde estão mais concentrados (com maior frequência). A melhor forma de representar uma
distribuição é a partir da curva de frequência ou do histograma.
ASSIMETRIA (AS)
A medida de assimetria caracteriza como e quanto a distribuição (ou frequência) dos
dados se afasta de uma condição simétrica, isto é, indica o grau de distorção em relação a
simetria. Os dados são distribuídos simetricamente quando, ao separar em duas partes iguais,
possuem formatos iguais de distribuição para os dois lados. Portanto, ao cortar uma
distribuição na sua mediana, que separa o conjunto de dados em dois grupos de 50%, o formato
das distribuições particionadas devem ser iguais para que a distribuição seja simétrica. Assim:
MUDE SUA VIDA!

73
Na distribuição dos dados representada acima, o ponto da mediana separa em dois

componentes igualmente distribuídos (com a mesma forma). Nessa condição, os dados são
considerados simétricos. Qualquer posicionamento diferente da mediana, modificando as duas
partes da distribuição de modo que não tenham mais formatos iguais, faz com que o conjunto
de dados não tenha mais distribuição simétrica. Desse modo, as distribuições podem ser da
seguinte forma:
➢ Simétrica;
➢ Assimétrica à Esquerda (ou Negativa);
➢ Assimétrica à Direito (ou Positiva);
Os diferentes tipos de distribuições estão associados a outras informações relevantes na
Estatística Descritiva. Basicamente, a assimetria possui uma relação com as medidas de
tendência central, bem como, as separatrizes. Por isso, pode-se detectar a assimetria do
conjunto de dados pelos valores da média, mediana e moda; pelas distâncias dos quartis; pela
presença de valores atípicos; e pelas frequências dos dados. Nesse exposto, os gráficos mais
comuns aplicados em provas, para detectar a assimetria, são a curva de frequência e o box-plot.
➢ Distribuição simétrica:
Os dados com distribuição simétrica têm os valores de média, mediana e moda iguais para
uma distribuição unimodal. Desse modo, em uma curva de frequência com distribuição
simétrica, o pico da curva (ponto com maior frequência) será o valor de todas as três medidas
de tendência central.
Além disso, é possível observar que as distâncias entre os quartis extremos (Q1 e Q3) com
o quartil central (Q2) são iguais, isto é, são equidistantes. Isso ocorre porque os dados são
MUDE SUA VIDA!

74
distribuídos igualmente para ambos os lados, e os quartis Q1 e Q3 estão distanciados da posição

do centro na proporção de 25% cada um.
➢ Distribuição assimétrica à direita (ou positiva):
Em distribuições assimétricas à direita (ou positiva), existem observações extremas para

o lado direito do plano cartesiano – direção para o sentido positivo da variável. A cauda da
distribuição de frequência prolonga-se para o lado direito. Nessa situação, temos que a média
é maior que a mediana, e ambas são maiores que a moda, em uma distribuição unimodal.
Isso ocorre, praticamente, porque a média é uma medida mais sensível a valores extremos, já
que considera todas as observações em seu cálculo. Assim, é possível afirmar que, para onde a
distribuição se deslocar, a média irá se deslocar junto.
A mediana terá um deslocamento bem menor para a direita, e a moda permanece sendo
o valor mais frequente. Em adição, a diferença entre o Q3 e o Q2 é maior do que a diferença
entre o Q2 e o Q1. Essa variação de distância ocorre porque os dados estão mais deslocados
para a direita (lado positivo) e, portanto, o valor da posição do Q3 é mais distante. Na assimetria
à direita, é provável que existam outliers para os valores positivos. A existência de outliers, por
si só, já determina uma distribuição assimétrica, mesmo que seja observado uma equidistância
entre os quartis.
➢ Distribuição Assimétrica à esquerda (ou negativa):
MUDE SUA VIDA!

75
O raciocínio inverso se aplica a uma distribuição assimétrica à esquerda (em direção ao

sentido negativo da variável). A cauda da distribuição de frequência prolonga-se para o lado
esquerdo. Além disso, a média é mais influenciada para o lado esquerdo e se torna o menor
valor das medidas de centralidade, em uma distribuição unimodal. Logo, a moda é maior que
a mediana que é maior que a média. Junto a isso, podem ser observados outliers para o
sentido negativo da variável e a distância entre o Q2 e o Q1 será maior que a distância entre
o Q3 e o Q2.
➢ Assimetria em Distribuições Não Unimodais:
Todas as informações apresentadas, quanto a assimetria, são válidas para dados que
possuem apenas uma moda (unimodal). Quando o conjunto de dados não for unimodal,
algumas informações podem não ser exatamente iguais ao exposto anteriormente. Nessa
circunstância, é recomendado ilustrar a distribuição dos dados em gráficos, particionar o
conjunto de dados no valor da mediana e, por fim, observar se as duas partes têm formato
simétrico. Exemplo:
𝑿𝒊 Freq. Relativa Freq. Acumulada Relativa

2 30% 30%
4 10% 40%
6 20% 60%
8 10% 70%
10 30% 100%
A tabela acima evidencia a distribuição de frequência de uma variável X qualquer. É
possível observar que existem duas modas nesse conjunto de dados (Mo = 2 e 10). A observação
de valor 6 é a mediana, isto é, acumula 50% do conjunto de dados. Desse modo, ao representar
a distribuição de frequências dessa variável e separá-la no valor da mediana teremos a seguinte
ilustração:
MUDE SUA VIDA!

76
Veja que os dois formatos da distribuição particionada são espelhados (simétricos). Desse
modo, temos uma distribuição simétrica em que a moda é diferente da mediana e da média. No
entanto, o valor da média e da mediana são iguais. Assim, ao identificar que se trata de um
conjunto de dados com distribuição não unimodal, a representação gráfica pode ser uma
alternativa interessante para identificar a assimetria dos dados.
➢ Cálculo do Coeficiente de Assimetria:
Além de identificar a assimetria de uma variável pela sua distribuição de frequência, é
possível calcular o coeficiente de assimetria que permite classificar quanto ao tipo de
assimetria, além de quantificar o grau de distorção do conjunto de dados em relação a uma
forma simétrica. As fórmulas mais cobradas em prova para quantificar o coeficiente de
assimetria são:
• Coeficiente de Assimetria de Pearson:
Existem dois coeficientes de Pearson que calculam o grau de assimetria de uma
distribuição de dados, o primeiro coeficiente de Pearson pode ser obtido da seguinte forma:
̅ − 𝑴𝒐)
(𝑿
𝑨𝒔 =
𝒔
O 1º coeficiente de Pearson é calculado a partir da diferença da média pela moda, dividido
pelo desvio padrão. Essa fórmula pode ser inconsistente quando a distribuição dos dados não
foram unimodais, como exemplificado na situação anterior, assim surge a necessidade de um
segundo coeficiente que seja mais eficiente para quantificar a assimetria dos dados em
qualquer situação. Dessa forma, o segundo coeficiente de Pearson pode ser calculado por:
̅ − 𝑴𝒆)
𝟑(𝑿
𝑨𝒔 =
𝒔
O 2º coeficiente de Pearson é obtido por três vezes a diferença entre a média e a mediana,
dividido pelo desvio padrão. Esse coeficiente consegue quantificar com mais eficiência a
assimetria uma vez que o valor da mediana assume apenas um resultado.
Para ambos os coeficientes, os resultados são interpretados da seguinte forma:
• As = 0, dados com distribuição simétrica;
• As > 0, dados com distribuição assimétrica à direita, ou positiva;
MUDE SUA VIDA!

77
• As < 0, dados com distribuição assimétrica à esquerda, ou negativa;

É fácil interpretar os possíveis resultados do coeficiente de assimetria de Pearson já que
os valores positivos indicam uma assimetria positiva, assim como, valores negativos indicam
assimetria negativa. Veja que o sinal do coeficiente de assimetria é determinado pela diferença
da média com a moda ou com a mediana, e o resultado coincide com as relações de assimetria
estudadas. Junto a isso, quanto mais distante o coeficiente de assimetria for em relação a zero,
maior será o grau de distorção da distribuição de frequência em relação a uma forma simétrica.
• Coeficiente Quartílico de Assimetria
O coeficiente quartílico de assimetria trabalha com a ideia das distâncias entre os quartis
e sua relação com a assimetria da distribuição de dados. Assim, o cálculo pode ser efetuado da
seguinte maneira:
𝑸𝟑 + 𝑸𝟏 − 𝟐𝑴𝒆
𝑨𝒔 =
𝑸𝟑 − 𝑸𝟏
Os valores desse coeficiente oscilam entre -1 até +1. A interpretação dos resultados são
as mesmas que o coeficiente de Pearson.
• As = 0, dados com distribuição simétrica;
• As > 0, dados com distribuição assimétrica à direita, ou positiva;
• As < 0, dados com distribuição assimétrica à esquerda, ou negativa;
Os coeficientes de assimetria são todos adimensionais (sem unidade de medida), por isso,
o coeficiente de assimetria de uma variável pode ser comparado com o coeficiente de outra
variável, mesmo sendo dados de natureza completamente diferente. Basicamente, a
comparação fornece a ideia de qual conjunto de dados distancia-se mais de uma forma
simétrica. Para exemplificar o cálculo do coeficiente de assimetria, vamos utilizar o exemplo
abordado no cálculo das medidas de posição.
Conforme os valores do exemplo, o cálculo dos coeficientes de assimetria são:

• 1º Coeficiente de Pearson:
(𝟏𝟒, 𝟒𝟒 − 𝟏𝟓) −𝟎, 𝟔𝟔
𝑨𝒔 = = = −𝟎, 𝟎𝟕𝟓
𝟖, 𝟖𝟐 𝟖, 𝟖𝟐
MUDE SUA VIDA!

78
• 2º Coeficiente de Pearson:
𝟑(𝟏𝟒, 𝟒𝟒 − 𝟏𝟓) −𝟏, 𝟗𝟖
𝑨𝒔 = = = −𝟎, 𝟐𝟐𝟒
𝟖, 𝟖𝟐 𝟖, 𝟖𝟐
• Coeficiente Quartílico:
𝟐𝟎 + 𝟕, 𝟓 − 𝟐𝒙𝟏𝟓 𝟐𝟕, 𝟓 − 𝟑𝟎 −𝟐, 𝟓
𝑨𝒔 = = = = −𝟎, 𝟐
𝟐𝟎 − 𝟕, 𝟓 𝟏𝟐, 𝟓 𝟏𝟐, 𝟓
Todos os resultados obtidos indicam que os dados são distribuídos assimetricamente
para o lado negativo (à esquerda). Como os valores são próximos de zero, é possível inferir que
os dados são levemente assimétricos, sendo sua distribuição de frequência muito próxima a
uma forma assimétrica.
CURTOSE (C)
A medida de curtose indica o grau de concentração dos dados em relação a sua
centralidade, também pode ser abordada como grau de achatamento da curva de frequência.
Basicamente, a forma da curva de frequência em relação à curtose podem ser:
➢ Mesocúrtica:
A distribuição dos dados com curtose mesocúrtica é o ponto de referência para
discriminar os demais tipos de curtose. Isso porque ela possui uma distribuição normal,
comportamento que os fenômenos de modo geral tendem a apresentar. Nesse tipo de curtose,
observa-se um aumento gradativo de frequência quando os dados se aproximam da sua
centralidade (média, mediana e moda), isto é, o grau de achatamento da curva é mediano.
MUDE SUA VIDA!

79
➢ Leptocúrtica:
A curtose leptocúrtica apresenta observações mais concentradas em valores com maiores
frequências (maior concentração na centralidade), comparativamente a curtose mesocúrtica.
Observa-se um aumento mais abrupto na frequência quando se aproxima da centralidade. A
distribuição apresenta uma curva de frequência mais fechada que a normal (ou mais aguda em
sua parte superior).
➢ Platicúrtica:
A curtose platicúrtica apresenta observações mais distribuídas ao longo de todo conjunto
da dados com valores de frequência mais homogêneos entre as observações (menor
concentração na centralidade), comparativamente a curtose mesocúrtica. A curva de
frequência apresenta-se mais aberta que a normal (ou mais achatada na parte superior, como
um platô).
Além de identificar a curtose pela forma da distribuição de frequências, é possível

quantificá-la por meio do coeficiente percentílico de curtose (C). Calculado da seguinte forma:
𝑸𝟑 − 𝑸𝟏 𝑸𝟑 − 𝑸𝟏
𝑪 = 𝒐𝒖
𝟐(𝑷𝟗𝟎 − 𝑷𝟏𝟎 ) 𝟐(𝑫𝟗 − 𝑫𝟏 )
Outra forma de representar a fórmula é:
𝑫𝑸
𝑪 =
(𝑫𝟗 − 𝑫𝟏 )
MUDE SUA VIDA!

80
Os resultados do coeficiente percentílico de curtose podem ser os seguintes:

• C = 0,263 corresponde à curva mesocúrtica, valor observado na curva normal;
• C < 0,263 corresponde à curva leptocúrtica;
• C > 0,263 corresponde à curva platicúrtica;
É possível interpretar que quanto mais distante o coeficiente de curtose estiver do valor
0,263, maior é distorção em relação a curva normal, sendo mais achatada para valores maiores
que 0,263, ou mais aguda para valores menores que 0,263. Além disso, é interessante observar
que o coeficiente é adimensional, sendo passível a comparação com outras distribuições de
dados.
Para exemplificar, será abordado o mesmo exemplo anterior:
O cálculo fica da seguinte forma:

𝟐𝟓 − 𝟕, 𝟓 𝟏𝟕, 𝟓
𝑪 = = = 𝟎, 𝟐𝟗𝟐
𝟐(𝟑𝟎 − 𝟎) 𝟔𝟎
Com o seguinte resultado é possível afirmar que a distribuição dos dados é levemente
platicúrtica, ou seja, as observações estão mais distribuídas por todo intervalo do conjunto de
dados.
TRANSFORMAÇÃO UNIFORME DOS DADOS

Um assunto muito cobrado em concursos, dentro do tópico de Estatística Descritiva, é o
efeito nas medidas descritivas (principalmente tendência central e dispersão) quando ocorre
uma transformação uniforme em todo o conjunto de dados. De modo geral, essa temática
aborda algum fenômeno que modifica a realidade estudada, alterando todo o conjunto de dados
a partir de alguma operação matemática aplicada em todas as observações. Veja que a
transformação de dados deve ser uniforme para todas as observações, caso alguma observação
seja modificada por alguma forma diferente, as informações abordadas nesse tópico não serão
válidas.
Por exemplo, um objeto de estudo avalia a faixa etária de um grupo de pessoas
pertencentes a uma região. Nesse cenário, após cinco anos completos, todas as idades foram
adicionadas em cinco unidades, isto é, todo o conjunto de dados foi modificado somando um
valor constante.
MUDE SUA VIDA!

81
Outro fenômeno bem comum, é quando um conjunto de dados é multiplicado por uma
constante. Por exemplo, quando os salários de uma equipe de funcionários são duplicados por
uma promoção na empresa. Nessa situação, todas as observações são multiplicadas por dois.
Nesse contexto, é interessante compreender o que acontece com as medidas descritivas

após o conjunto de dados sofrer uma modificação uniforme. Essa modificação pode apresentar
resultados diferentes quando os dados são subtraídos/somados por uma constante, ou então,
quando são multiplicados/divididos. Desse modo, será abordado as propriedades das medidas
descritivas mais cobradas em prova – média, moda, mediana, variância, desvio padrão e
coeficiente de variação.
As medidas de posição, todas elas, são influenciadas tanto pela soma/subtração como pela
multiplicação/divisão. Basicamente, se um conjunto de dados sofre qualquer uma dessas
quatro operações matemáticas, as medidas de posição são modificadas igualmente, isto é,
sofrem a mesma transformação matemática que cada uma das observações sofreu. Exemplo:
Quando os dados são transformados em mais cinco unidades, observa-se o seguinte

resultado:
Todos os dados foram deslocados em mais cinco unidades, junto a isso, as medidas que
representam a posição desses dados também são deslocadas na mesma proporção. O mesmo
resultado ocorre se os dados forem multiplicados ou divididos por um valor constante. Assim é
possível representar que:
MUDE SUA VIDA!

82
Medida X X+5 X-10 2x X/4

̅
𝑿 23,89 28,89 13,89 47,78 4,78
Me 20 25 10 40 5
Mo 20 25 10 40 5
Q1 15,5 20,5 10,5 31 3,88
Q3 35 40 25 70 8,75
Quanto as medidas de dispersão (variância e desvio padrão), resultados diferentes são
encontrados nas operações de soma/subtração e multiplicação/divisão. O que determina o
valor das medidas de dispersão é o quantitativo dos desvios em relação à média.
̅
𝒅 𝒊 = 𝑿𝒊 − 𝑿
Quando um conjunto é transformado uniformemente com soma/subtração, a média
também é transformada igualmente e o valor do desvio permanece o mesmo:
Portanto, os valores da variância e do desvio padrão não são alterados pela

soma/subtração. Por outro lado, quando os dados são multiplicados/divididos, os valores são
alterados. Tanto as observações como a média são multiplicadas/divididas por uma constante,
assim o valor do desvio também é alterado na mesma proporção:
Desse modo, se cada desvio é modificado, o valor total da variância e o desvio padrão
também é alterado. Entretanto, vale ressaltar que a variância eleva os valores dos desvios ao
quadrado, então o efeito da constante que for multiplicada/dividida também é elevado ao
quadrado. Já para o desvio padrão, como o valor é submetido a raiz quadrada, o efeito da
multiplicação/divisão altera o desvio padrão na mesma proporção da constante.
Por essa razão, nesse conjunto de dados exemplificado, sabendo que a variância (𝑠 2 ) é
igual a 113,36 e o desvio padrão (𝑠) é igual a 10,65, as transformações de dados causariam os
seguintes efeitos nas medidas de dispersão:
MUDE SUA VIDA!

83
A transformação 𝑋 + 5 e 𝑋 − 10 não modificam o valor da variância e do desvio padrão.

Por outro lado, a transformação de 2X altera o valor da variância multiplicando em 4 vezes e o
valor do desvio padrão em 2 vezes; a transformação X/4 divide o valor da variância em 8 vezes
e o desvio padrão em 4 vezes. Veja:
O coeficiente de variação, divisão do desvio padrão sobre a média, tem seu valor
alterado com operações de soma/subtração, já que o desvio padrão não é modificado e a
média sim. Dessa forma, o coeficiente é modificado devido ao denominador ser somado por
uma constante, enquanto o numerador permanece inalterado. Contudo, quando um conjunto
de dados é transformado por uma multiplicação/divisão, tanto o desvio padrão quanto a média
são modificados na mesma proporção, assim o valor do CV não é alterado. Entenda a partir de
um exemplo qualquer:
O efeito das medidas descritivas com transformação uniforme do conjunto de dados é,

com certeza, o conteúdo mais cobrado no assunto de Estatística Descritiva. Esse mesmo
MUDE SUA VIDA!

84
raciocínio também será desenvolvido no assunto de variáveis aleatórias, por isso é muito
importante que se faça a associação desses conhecimentos. Para sintetizar todo o conteúdo
assimilado, um quadro resumido dos efeitos pode ser bem útil:
QUESTÕES COMENTADAS DO CAPÍTULO

(CESPE – Polícia Federal - Perito Criminal Área 1 - 2018) Tendo em vista que,
diariamente, a Polícia Federal apreende uma quantidade X, em kg, de drogas em
determinado aeroporto do Brasil, e considerando os dados hipotéticos da tabela
precedente, que apresenta os valores observados da variável X em uma amostra aleatória
de 5 dias de apreensões no citado aeroporto, julgue o próximo item.
1. A tabela em questão descreve a distribuição de frequências da quantidade de drogas

apreendidas nos cinco dias que constituem a amostra.
GABARITO: Errado.
A tabela em questão não evidencia uma distribuição de frequência da
quantidade de drogas. Na verdade, essa forma de apresentação de dados
consiste em dados brutos, isto é, as observações da variável quantidade de
MUDE SUA VIDA!

85
drogas apreendidas, em kg, estão dispostas conforme os dados foram coletados

diariamente. Assim, a coleta do 1º dia corresponde a 10 kg, 2º dia corresponde
a 22 kg etc. A questão tenta confundir o candidato com tabela de frequência
(dados ponderados). Porém, veja que não contabilizado suas repetições. Os
dados da variável X são associados com o dia coletado e não a sua frequência.
Caso os dados fossem apresentados em tabela de frequência, a observação de
22 kg/dia seria exposta com uma frequência de 2 repetições. Os dados
apresentados em tabela de frequências seria a seguinte:
2. A moda da distribuição dos valores X registrados na amostra foi igual a 22 kg.

GABARITO: Correto.
A moda consiste na observação que mais se repete em um conjunto de
dados, que apresenta a maior frequência. Para essa amostragem, composta
por cinco observações, a observação de 22 kg/dia se repete duas vezes e é a
única com essa frequência. Portanto, a moda é igual a 22 kg/dia para esse
conjunto de dados apresentado na questão.
3. O desvio padrão amostral da variável X foi inferior a 7 kg.

GABARITO: Correto.
O desvio padrão é uma medida de dispersão que quantifica um valor médio
dos desvios em relação a centralidade (a média). No entanto, para obter essa
estimativa, é necessário elevar cada desvio ao quadrado, pois o simples
somatório obteria um quantitativo igual a zero. Em outras definições, é preciso
calcular a variância para depois obter o desvio padrão, extraindo-se a raiz
quadrada da variância.
Para calcular os desvios em relação à média, é preciso inicialmente calcular
essa medida de tendência central. A média para esse conjunto de dados é:
Após isso, é preciso obter os desvios em relação a média, elevar cada desvio
ao quadrado, e efetuar o somatório desses desvios ao quadrado. Entenda:
MUDE SUA VIDA!

86
Após obter esse somatório, a variância precisa-se ser estimada dividindo

por 𝒏 − 𝟏, isto é, 𝟓 − 𝟏 = 𝟒, pois trata-se de dados amostrais. Desse modo, a
variância e posteriormente o desvio padrão é igual a:
Assim, para esse conjunto de dados, o desvio padrão é a raiz quadrada de

44, um valor ao qual sabe ser inferior a 7 (√49). Com isso, já é o suficiente para
identificar que a questão está correta.
4. A mediana das quantidades X observadas na amostra em questão foi igual a 18 kg.

GABARITO: Errado.
A mediana consiste na medida que separa o conjunto de dados em duas
partes exatamente iguais (50% para cada lado). No entanto, essa separação é
feita com os dados ordenados (em rol crescente). Assim, os dados ordenados
são apresentados da seguinte forma:
Para um conjunto de dados com 5 observações (𝑛 = 5), a terceira posição

corresponde corresponderá a mediana, assim:
MUDE SUA VIDA!

87
Por fim, a mediana corresponde ao valor de 22 kg/dia, e não ao valor 18

kg/dia. A questão tentou confundir o candidato, olhando a posição central sem
ordenar os dados anteriormente.
(CESPE – DEPEN – Agente Penitenciária Federal – Área 4 – 2015) Considerando os

dados da tabela mostrada, que apresenta a distribuição populacional da quantidade diária de
incidentes (N) em determinada penitenciária, julgue os itens que se seguem.
5. A distribuição de N não é simétrica em torno da média, apesar de a média e a mediana
serem iguais.
GABARITO: Correto.
Nos dados apresentados, constata-se que a média de incidentes por dia (𝑋̅)
é igual a:
Além disso, pode ser observado que o valor da mediana também é igual a
2, pois é na observação 2 que se acumula 50% dos dados. Basta, calcular as
frequências acumuladas relativas para descobrir isso. Entenda:
Com isso, temos de fato que a média e a mediana são iguais. Além disso,
a moda também coincide na observação de 2 incidentes/dia. Contudo, apesar da
relação de igualdade entre média, moda e mediana, não há uma relação
simétrica nesse conjunto de dados. Isso pode ser facilmente detectado,
MUDE SUA VIDA!

88
observando a distribuição das frequências abaixo e acima da mediana. Abaixo da

observação 2 temos 30% dos dados observados e acima da mediana temos 20%.
Para melhor ilustrar essa informação entenda pela representação gráfica:
De fato, não há simetria ao observar a distribuição de frequência dos dados

e dois lados particionados pela mediana. Portanto, quando a média for igual a
mediana e a moda, não necessariamente teremos uma distribuição
simétrica.
6. A amplitude total da distribuição é igual a 5, pois há cinco valores possíveis para a

variável N.
GABARITO: Errado.
A amplitude total (AT) consiste na diferença entre a observação máxima e
mínima. Para esse conjunto de dados, a observação máxima é igual a 4 e mínima
igual a 0, logo:
A questão tenta confundir o número de observações (𝑛 = 5) com a amplitude

total. Dessa forma, está errada pois a amplitude não é 5.
7. A moda da distribuição de N é igual a 4, pois esse valor representa a maior quantidade

diária de incidentes que pode ser registrada nessa penitenciária.
GABARITO: Errado.
Mais uma vez, a banca tenta confundir conceitos das medidas descritivas
da Estatística. A moda é a observação que mais se repete, ou então aquela com
maior frequência. Para esse conjunto de dados, a moda é igual a 2 incidentes/dia,
isso porque existe uma frequência de 50% dos dados observados com esse valor.
A maior quantidade diária de incidentes corresponde a observação a
máxima (Xmáx) e não necessariamente coincidirá com a moda.
8. O segundo quartil da distribuição das quantidades diárias de incidentes registradas nessa

penitenciária é igual a 2.
MUDE SUA VIDA!

89
GABARITO: Correto.
O segundo quartil (Q2) é o quartil central que separa o conjunto de dados
em 50% de observações para cada lado, sendo assim, esse quartil coincide com
a mediana. É correto afirmar que o segundo quartil acumula 50% da frequência
dos dados observados, logo, esse valor é igual a 2. O esclarecimento para essa
informação já foi elucidado na questão 5, onde foi obtida a mediana observando
a frequência acumulada.
MUDE SUA VIDA!

90
TEORIA DA PROBABILIDADE
A teoria da probabilidade trabalha com a aplicação da intuição humana para estudar
quaisquer fenômenos do cotidiano. O ser humano, com objetivo de compreender os eventos
que ocorrem ao seu redor, utiliza o princípio básico de aprendizado: a experimentação. Dessa
forma, ele observa os possíveis resultados que um fenômeno pode apresentar, a partir de
experimentos, e tenta quantificar as chances que cada resultado ocorre. Basicamente, é uma
teoria criada a partir da prática, isto é, a partir de observações, estimam-se as possibilidades.
Todo esse conteúdo é fundamental para extrapolar informações incompletas de qualquer
objeto de estudo (base para Estatística Inferencial).
DEFINIÇÕES BÁSICAS
A experimentação é o meio pelo qual o homem simula e observa os possíveis resultados
de um determinado fenômeno em estudo. O resultado de um experimento é um estado final de
acontecimentos que não são previsíveis. De modo geral, os experimentos podem ser
determinísticos ou aleatórios.
➢ Experimento Determinístico (não aleatório):
É aquele que gera resultados constantes, sem variação e não aleatórios. O resultado
desse tipo de experimento, sempre que realizado e repetido nas mesmas circunstâncias, é um
evento determinado sem possibilidades de obter outro resultado. Por exemplo, reduzir a
temperatura da água abaixo de 0º graus Celsius e em condições normais de pressão, acarretará
o congelamento da água.
➢ Experimento Aleatório (Casual):
É o experimento que, mesmo repetido diversas vezes, sob as mesmas circunstâncias,
apresenta resultados diferentes. Desse modo, todas as eventualidades não podem ser
preditas e geram um conjunto de resultados denominado espaço amostral. Para esse tipo de
experimento, o que mais predomina na realidade, deve ser utilizado o conhecimento da
probabilidade, isto é, se os resultados são aleatórios, cabe quantificar as possibilidades que
cada evento tem de ocorrer.
Exemplos básicos de experimentos aleatórios:
• Lançar um dado e observar o resultado da face virada para cima;
• Lançar duas moedas e observar o número de caras obtidas;
• Selecionar uma carta de um baralho de 52 cartas e observar o número.
Nos fenômenos que apresentam resultados aleatórios, é interessante quantificar as
probabilidades – chances ou possibilidades – que cada resultado possui dentro de todos os
possíveis. Para isso, é necessário compreender dois conceitos fundamentais: o espaço amostral
e o evento.
ESPAÇO AMOSTRAL (Ω)
Consiste no conjunto de todos os resultados possíveis de um Experimento Aleatório. A
determinação do espaço amostral está diretamente associada ao fenômeno que se quer
compreender. Nesse material, o espaço amostral será sempre representado pelo símbolo “Ω”.
Além de identificar todo o conjunto que representa o espaço amostral, deve-se contabilizar o
número de elementos possíveis desse conjunto, representado por n(Ω).
Exemplos de como determinar o espaço amostral e o respectivo número de elementos em
Experimentos Aleatórios:
MUDE SUA VIDA!

91
➢ Lançar um dado de seis faces, numerado de 1 a 6, e observar a face de cima:
𝜴 = {𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔} 𝒏(𝜴) = 𝟔
➢ Lançar duas moedas e observar as faces de cima:
𝜴 = {(𝑪𝒂𝒓𝒂, 𝑪𝒂𝒓𝒂); (𝑪𝒂𝒓𝒂, 𝑪𝒐𝒓𝒐𝒂); (𝑪𝒐𝒓𝒐𝒂, 𝑪𝒂𝒓𝒂); (𝑪𝒐𝒓𝒐𝒂, 𝑪𝒐𝒓𝒐𝒂)}
𝒏(𝜴) = 𝟒
➢ Sortear em uma urna um número de 1 a 9.
𝜴 = {𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔, 𝟕, 𝟖, 𝟗} 𝒏(𝜴) = 𝟗
EVENTO
Um evento será um subconjunto do espaço amostral. É qualquer resultado ou conjunto
de resultados, relacionado ao fenômeno em estudo, que se pretende compreender suas
possibilidades de ocorrer. Para determiná-lo, é necessário, em cada situação, compreender os
resultados de interesse. Designaremos um evento qualquer por uma alguma letra maiúscula.
Veja, a partir de exemplos, como determinar um evento e o respectivo número de elementos desse
elemento:
➢ Exemplo 01:
Experimento Aleatório: lançar um dado e observar a face para cima.
Espaço Amostral:
𝜴 = {𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔}; 𝒏(𝜴) = 𝟔
Evento X: obter um resultado par no lançamento do dado. O conjunto do evento X será:
𝑿 = {𝟐, 𝟒, 𝟔} 𝒏(𝑿) = 𝟑
Se o resultado do lançamento do dado pertencer ao conjunto X, haverá a ocorrência do
evento X. Outros eventos podem ser determinados no mesmo experimento de lançar o dado.
Evento Y: obter um múltiplo de 3 no lançamento do dado. O conjunto do evento Y será:
𝒀 = {𝟑, 𝟔} 𝒏(𝒀) = 𝟐.
➢ Exemplo 02:
Experimento Aleatório: resultado de um jogo em uma partida de futebol.
Espaço Amostral:
𝜴 = {𝑽𝒊𝒕ó𝒓𝒊𝒂, 𝑬𝒎𝒑𝒂𝒕𝒆, 𝑫𝒆𝒓𝒓𝒐𝒕𝒂} 𝒏(𝜴) = 𝟑
Evento A: obter uma vitória no jogo. O conjunto do evento A será:
𝑨 = {𝑽𝒊𝒕ó𝒓𝒊𝒂} 𝒏(𝑨) = 𝟏
Evento B: não obter uma derrota no jogo. O conjunto do evento B será:
𝑩 = {𝑽𝒊𝒕ó𝒓𝒊𝒂, 𝑬𝒎𝒑𝒂𝒕𝒆} 𝒏(𝑩) = 𝟐
CÁLCULO DA PROBABILIDADE
Para efetuar o cálculo da probabilidade, deve-se primeiramente identificar e
compreender o fenômeno em estudo, na sua escala ampla. Após isso, é necessário mapear todos
os resultados do experimento aleatório e determinar o espaço amostral e o evento de interesse.
O cálculo da probabilidade de ocorrência de um evento de interesse X consiste no número
de possibilidades que esse evento pode assumir sob o número de todos os resultados possíveis
(espaço amostral). Assim é possível representar da seguinte forma:
MUDE SUA VIDA!

92
𝒏(𝑿) 𝑵º 𝒅𝒆 𝒓𝒆𝒔𝒖𝒍𝒕𝒂𝒅𝒐𝒔 𝒇𝒂𝒗𝒐𝒓á𝒗𝒆𝒊𝒔 𝒂𝒐 𝒆𝒗𝒆𝒏𝒕𝒐 𝑿

𝑷(𝑿) = =
𝒏(𝛀) 𝑵º 𝒅𝒆 𝒓𝒆𝒔𝒖𝒍𝒕𝒂𝒅𝒐𝒔 𝒑𝒐𝒔𝒔í𝒗𝒆𝒊𝒔
𝑵º 𝒅𝒆 𝑬𝒗𝒆𝒏𝒕𝒐𝒔
𝑷(𝑿) =
𝑵º 𝒅𝒐 𝑬𝒔𝒑𝒂ç𝒐 𝑨𝒎𝒐𝒔𝒕𝒓𝒂𝒍
IMPORTANTE!
Essa é a fórmula básica da probabilidade, contudo, ela é somente aplicável
quando os elementos do espaço amostral tiverem a mesma probabilidade de
ocorrer.
Por exemplo, podemos aplicar a fórmula acima em um experimento que
consiste no lançamento de uma moeda “honesta” (não viciada), pois as faces cara e
coroa têm a mesma probabilidade de sorteio. No entanto, não podemos aplicar em
um experimento de lançamento de uma moeda “não honesta” (viciada), pois a
probabilidade de sorteio de uma das faces é maior do que a da outra.
A notação “P(X)” indica a probabilidade de ocorrer o evento X. Sempre nas notações

matemáticas de probabilidade, o que estiver dentro dos parênteses representa o evento de
interesse ao qual se deseja obter o valor de probabilidade da sua ocorrência.
Com esse conhecimento, é interessante estabelecer um padrão toda vez que for realizar
uma questão de probabilidade. Esse tipo de conteúdo depende muito da interpretação do aluno
em cada caso abordado nas questões. Para isso, a forma como as informações devem ser
buscadas e interpretadas pode ser vantajosa seguindo a seguinte sequência lógica:
1º Passo → Identificar o experimento aleatório e compreender qual fenômeno ele
pretende obter informações, definindo assim o número de elementos do espaço amostral n(Ω),
isto é, o número de resultados possíveis;
º Passo → Identificar o evento de interesse, ou seja, dentro dos resultados possíveis quais
são aqueles que a questão tem o objetivo de quantificar. Com isso, define-se o seu respectivo
número de elementos n(X), isto é, o número de resultados favoráveis (ou de interesse);
𝒏(𝑿)
3º Passo → Aplicar a fórmula da Probabilidade: 𝑷(𝑿) = 𝒏(𝛀);
Muitas vezes, para obter a contagem do número de elementos do espaço amostral e do
evento, será necessário fazer uso do princípio fundamental da contagem, como também, utilizar
os recursos matemáticos da combinação, permutação e do arranjo, conforme cada questão.
O aluno precisa ter domínio desses conhecimentos da matemática para não precisar fazer
contagem extensas e quase impraticáveis em uma questão de concurso.
AXIOMAS DA PROBABILIDADE
Os axiomas da probabilidade são propriedades básicas estabelecidas na teoria clássica da
probabilidade que devem ser obedecidas de maneira absoluta. Em outras palavras, toda
informação aplicada ao conteúdo de probabilidade obedece aos axiomas e podem ser utilizados
para solucionar diversas questões de Estatística. São três os principais axiomas da
probabilidade.
1º AXIOMA
Os valores que a probabilidade de um evento X qualquer pode assumir varia de 0 (ou 0%)
até 1 (ou 100%). Assim é possível representar:
MUDE SUA VIDA!

93
No caso de seu valor mínimo, com P(X) = 0, ocorre um evento impossível, isto é, o evento
é um resultado que não pertence ao espaço amostral. Por exemplo, a probabilidade de jogar um
dado de seis faces, numerado de 1 a 6, e obter o número 9. Veja que para esse exemplo o evento
não está nos resultados possíveis, assim esse evento é impossível de ocorrer nesse experimento
aleatório.
Já para situação de valor máximo, com P(X) = 1, ocorre um evento certo, isto é, o evento
é um resultado que engloba todo o espaço amostral. Por exemplo, a probabilidade de jogar um
dado de seis faces, numerado de 1 a 6, e obter um resultado menor que 7. Todos os resultados
possíveis estão contemplados no evento de interesse, desse modo, para esse experimento
aleatório, é certo que irá ocorrer o evento.
2º AXIOMA
A soma das probabilidades de cada elemento que compõe o espaço amostral é igual a 1
(100%). Em outras definições, o espaço amostral contém todos os possíveis resultados de um
experimento aleatório, assim, é possível concluir que se trata de um evento certo. Dessa forma:
A partir desse axioma, é possível obter deduções bem interessantes para resolução de
questões de probabilidade. No exemplo do experimento de um lançamento de um dado de seis
faces, é possível chegar à seguinte conclusão:
𝑷(𝑿 = 𝟏) + 𝑷(𝑿 = 𝟐) + 𝑷(𝑿 = 𝟑) + 𝑷(𝑿 = 𝟒) + 𝑷(𝑿 = 𝟓) + 𝑷(𝑿 = 𝟔) = 𝟏
Dessa forma, a soma da probabilidade de cada resultado possível será 100% das
possibilidades de um experimento aleatório. Nesse exemplo em questão, a soma da
probabilidade de obter cada umas das seis faces de um dado será 1.
3º AXIOMA
A probabilidade de ocorrência de um evento X somada com a probabilidade de não
ocorrência desse mesmo evento é igual a 1. Assim:
A relação de probabilidade entre um evento “X ocorrer” e “X não ocorrer” é de

complementariedade. Dessa forma, são denominados de eventos complementares. Portanto,
um evento complementar são os resultados possíveis que faltam para completar 100% das
possibilidades e, assim, a soma do evento de interesse e o evento complementar é 1.
O complementar de um evento X, pode ser representado por ~X, ¬X ou XC. Assim:
𝑷(𝑿) + 𝑷(𝑿𝑪 ) = 𝟏
Exemplos de eventos complementares:
• P(ganhar o jogo) + P(não ganhar o jogo) = 1;
• P(réu inocente) + P(réu culpado) = 1;
• P(cara) + P(coroa) = 1;
• P(par no dado) + P(ímpar no dado) = 1;
• P(mínimo de 3 pessoas) + P(máximo de 2 pessoas) = 1;
• P(nascer pelo menos 1 menina) + P(nascer nenhuma menina) = 1.
MUDE SUA VIDA!

94
Este axioma será muitas vezes utilizado em questões de probabilidade. Por meio dela,
podemos calcular a probabilidade de um evento ocorrer a partir da probabilidade do seu evento
complementar.
Por exemplo, uma questão pede a probabilidade de ocorrer pelo menos uma cara no
lançamento de cinco moedas, isto é, P(pelo menos 1 cara). É mais fácil calcular a probabilidade
do evento complementar, ou seja, calcular P(nenhuma cara), pois desta forma só haverá uma
situação que corresponde a esse evento: (coroa, coroa, coroa). Calculada essa probabilidade, é
só lançar o resultado na relação existente do 3º axioma, isto é, deve-se subtrair o evento
complementar de 1 (100%) e, assim, será obtido o evento de interesse:
P(pelo menos 1 cara) = 1 – P(nenhuma cara)
INTERAÇÕES ENTRE EVENTOS PROBABILÍSTICOS
Após o estudo de todas as definições básicas sobre a teoria da probabilidade, é
interessante compreender que cada evento probabilístico pode interagir com outro evento. As
formas de interação podem ser bem elucidadas a partir da teoria dos conjuntos. Com isso, as
informações mais importantes nesse tópico é entender como se obtém a probabilidade da
interseção e da união de dois eventos probabilísticos.
INTERSEÇÃO
A interseção de dois eventos probabilísticos consiste na probabilidade de ocorrência
conjunta, isto é, os resultados de cada evento devem ocorrer simultaneamente. Em questões de
probabilidade, é muito provável que a pergunta sobre a interseção dos eventos esteja conectada
de forma expressa pelo conectivo “E”. A probabilidade conjunta de um evento A e B ocorrerem
pode ser representada pela simbologia P(A e B) ou então P(A ∩ B). Entenda pela representação
em diagrama:
A e B são dois eventos probabilísticos quaisquer, que podem estar ou não associados a um
mesmo experimento aleatório. O diagrama de A representa todo o espaço em que A pode
ocorrer; o diagrama de B representa todo o espaço que B pode ocorrer; a interseção de A e B
corresponde a região onde a possibilidade de ocorrência dos dois eventos se sobrepõe, ou seja,
onde podem ocorrer conjuntamente. Para obter o valor da interseção, deve ser utilizado o
princípio da multiplicação da probabilidade. Contudo, para multiplicar as probabilidades, é
necessário conhecer a forma de interação entre os dois eventos probabilísticos, isto é, se são
independentes, dependentes ou mutuamente exclusivos.
MUDE SUA VIDA!

95
UNIÃO
Já a união de dois eventos consiste na probabilidade de ocorrência de qualquer uma das
possibilidades entre A e B, ou seja, inclui a ocorrência somente de A, a ocorrência somente de
B, ou então, a ocorrência de A e B simultaneamente. Em questões de probabilidade, é muito
provável que a pergunta sobre a união dos eventos esteja expressa pelo conectivo “OU”. A
probabilidade do evento A ou B ocorrerem pode ser representada pela simbologia “P(A ou B)”
ou então “P(A ∪ B)”. Entenda pela representação em diagrama:
Na representação do diagrama, é possível compreender que união de dois eventos

probabilísticos quaisquer corresponde a soma da ocorrência somente de A, ocorrência somente
de B e a ocorrência dos dois eventos simultaneamente. Desse modo pode ser aplicado a mesma
dedução matemática para união de conjuntos:
𝑷(𝑨 𝒐𝒖 𝑩) = 𝑷(𝑨) + 𝑷(𝑩) − 𝑷(𝑨 𝒆 𝑩)
Assim, se for somado a probabilidade total de A e B, é necessário subtrair uma vez a
interseção de A e B. Isso porque as probabilidades totais já incluem a interseção, assim ela seria
incluída duas vezes. O cálculo da união depende da ocorrência simultânea dos dois eventos,
destarte, também varia conforme o tipo de interação entre os eventos probabilísticos.
Dessa forma, agora será discutido as formas de interação dos eventos probabilísticos e
como serão efetuados os cálculos de interseção e união conforme cada tipo de interação. Os
eventos podem ser completamente independentes um do outro; podem apresentar uma relação
de dependência; ou então, podem ser mutuamente exclusivos.
EVENTOS DEPENDENTES
Um evento A possui uma relação de dependência com B quando, quando a ocorrência ou
não de um deles afeta a probabilidade de ocorrência do outro. Assim, os valores de
probabilidade do evento A são modificados caso o evento B tenha ocorrido e vice-versa. Nessa
situação, é necessário compreender quais as alterações na probabilidade do evento que ocorre
após ao outro evento que era dependente.
EXEMPLO:
Em uma caixa com 12 bolas, sendo 4 brancas, 2 vermelhas e 6 pretas, qual
é a probabilidade de sortear uma bola preta e uma bola branca, em seguida, sem
reposição das bolas sorteadas?
A probabilidade de sortear, primeiramente, uma bola preta é:
MUDE SUA VIDA!

96
𝟔 𝒃𝒐𝒍𝒂𝒔 𝒑𝒓𝒆𝒕𝒂𝒔 𝟔
𝑷 (𝟏ª 𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂) = =
𝟏𝟐 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍 𝟏𝟐
A probabilidade de sortear uma bola branca, após já ter sorteado uma preta, sem
reposição, é:
𝟒 𝒃𝒐𝒍𝒂𝒔 𝒃𝒓𝒂𝒏𝒄𝒂𝒔 𝟒
𝑷 (𝟐ª 𝑩𝒐𝒍𝒂 𝑩𝒓𝒂𝒏𝒄𝒂) = =
𝟏𝟏 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍 𝟏𝟏
Veja que o espaço amostral no sorteio da segunda bola foi alterado devido ao sorteio
da primeira bola. Ao invés de ter 12 bolas, no segundo sorteio já havia 11 bolas. Assim, esses
eventos probabilísticos possuem uma relação de dependência de tal modo que a ocorrência de
um evento interfere na probabilidade do segundo evento que venha a ocorrer.
Por fim, a probabilidade de sortear uma bola preta e uma branca, em seguida, é:
𝟔 𝟒 𝟐𝟒
𝑷(𝟏ª 𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂 𝒆 𝟐ª 𝑩𝒓𝒂𝒏𝒄𝒂) = × =
𝟏𝟐 𝟏𝟏 𝟏𝟑𝟐
Nesse exemplo, foi questionado sobre a ocorrência dos dois eventos probabilísticos
conjuntamente, isto é, a interseção. Dessa forma, a interseção para eventos que possuem
relação de dependência pode ser expressa da seguinte forma:
𝑷(𝑨 𝒆 𝑩) = 𝑷(𝑨) × 𝑷(𝑩|𝑨)
A notação “P(B|A)” representa a probabilidade do evento B dado que o evento A já tenha
ocorrido (note que B|A não é uma fração). Também é denominada como probabilidade
condicional. Dessa forma, é sempre interessante observar que o segundo evento a ocorrer
deve ser analisado com mais cautela para compreender como a probabilidade irá ser obtida,
após a ocorrência do primeiro evento.
Com isso, é importante entender que a ordem da ocorrência dos eventos interfere no
cálculo, pois a probabilidade de ocorrer o evento B é diferente da probabilidade do evento B
ocorrer depois que o evento A ocorreu, assim como o contrário, desse modo:
𝑷(𝑨) ≠ 𝑷(𝑨|𝑩) 𝑷(𝑩) ≠ 𝑷(𝑩|𝑨)
Portanto, a probabilidade de A e B ocorrerem P(A e B) pode ser diferente da probabilidade
B e A ocorrem P(B e A), não necessariamente serão diferentes, mas levar a ordem em
consideração nos cálculos é relevante. Ao compreender como se calcula a ocorrência
simultânea de dois eventos probabilísticos dependentes, é possível concluir:
EVENTOS INDEPENDENTES
Dois eventos quaisquer A e B, são independentes quando a ocorrência, ou não, de um deles
não afeta a probabilidade de ocorrência do outro. Assim, os valores de probabilidade do evento
A permanecem os mesmos após a ocorrência do evento B e vice-versa.
MUDE SUA VIDA!

97
EXEMPLO:
Em uma caixa com 12 bolas, sendo 4 brancas, 2 vermelhas e 6 pretas, qual é
a probabilidade de sortear uma bola preta e uma bola branca, em seguida, com
reposição das bolas sorteadas?
A probabilidade de sortear, primeiramente, uma bola preta é:

𝑷 (𝟏ª 𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂) = =
A probabilidade de sortear uma bola branca, após já ter sorteado uma preta com
reposição, é:
𝑷 (𝟐ª 𝑩𝒐𝒍𝒂 𝑩𝒓𝒂𝒏𝒄𝒂) = =
O espaço amostral no sorteio da segunda bola não foi alterado devido ao sorteio da
primeira bola, pois houve a reposição da bola na caixa. Desse modo, havia doze bolas tanto no
primeiro como no segundo sorteio. Assim, esses eventos probabilísticos possuem uma relação
de independência.
Por fim, a probabilidade de sortear uma bola preta e uma branca, em seguida, é:
𝟔 𝟒 𝟐𝟒
𝑷(𝟏ª 𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂 𝒆 𝟐ª 𝑩𝒓𝒂𝒏𝒄𝒂) = × =
𝟏𝟐 𝟏𝟐 𝟏𝟒𝟒
Com isso, a ordem em que os eventos ocorrem não interfere no cálculo da probabilidade,
pois a probabilidade de ocorrer o evento B é igual a probabilidade do evento B ocorrer depois
que o evento A ocorreu, assim como o contrário, desse modo:
𝑷(𝑨) = 𝑷(𝑨|𝑩) 𝑷(𝑩) = 𝑷(𝑩|𝑨)
Nesse tipo de interação probabilística, o cálculo da ocorrência conjunta de dois eventos (a
interseção) é expresso por:
𝑷(𝑨 𝒆 𝑩) = 𝑷(𝑨) × 𝑷(𝑩)
Sempre que eventos ocorrerem de forma independente um do outro, a probabilidade da
ocorrência simultânea é o produto das probabilidades de cada evento separadamente. Essa
propriedade de eventos independentes é muito importante no estudo simultâneo de duas
variáveis (dentro do tópico variáveis aleatórias bidimensionais).
Portanto, para eventos independentes, é possível concluir que:
MUDE SUA VIDA!

98
EVENTOS MUTUAMENTE EXCLUSIVOS

Dois eventos quaisquer A e B, são mutuamente exclusivos quando não podem ocorrer
simultaneamente. Desse modo, a ocorrência de um deles certamente exclui a ocorrência do
outro evento. Portanto, não existe interseção entre esses dois eventos (A ∩ B = ∅), podendo ser
representado por diagramas da seguinte maneira:
São eventos disjuntos, que não se interseccionam em nenhum momento. Desse modo, a
interseção pode ser expressa por:
𝑷(𝑨 𝒆 𝑩) = 𝟎
O valor da probabilidade de A e B ocorreram conjuntamente é zero, pois não há interseção.
Ao mesmo tempo, é possível concluir que, se ocorrer A, o evento B certamente não ocorrerá e
vice-versa, portanto:
𝑷(𝑨|𝑩) = 𝟎 (𝑺𝒆 𝑩 𝒐𝒄𝒐𝒓𝒓𝒆𝒖, 𝑨 𝒄𝒆𝒓𝒕𝒂𝒎𝒆𝒏𝒕𝒆 𝒏ã𝒐 𝒐𝒄𝒐𝒓𝒓𝒆𝒓á);
𝑷(𝑩|𝑨) = 𝟎 (𝑺𝒆 𝑨 𝒐𝒄𝒐𝒓𝒓𝒆𝒖, 𝑩 𝒄𝒆𝒓𝒕𝒂𝒎𝒆𝒏𝒕𝒆 𝒏ã𝒐 𝒐𝒄𝒐𝒓𝒓𝒆𝒓á);
EXEMPLO:
Em uma caixa com 12 bolas, sendo 4 brancas, 2 vermelhas e 6 pretas, qual é
a probabilidade, em um sorteio, de obter uma bola preta ou uma bola branca?
Veja que, em situações de eventos mutuamente exclusivos, as perguntas mais coerentes

são sobre a união de eventos. Isso porque, se fosse perguntado sobre a interseção, ficaria óbvio
que, em um sorteio de uma bola, ou se retira uma bola branca ou uma preta. Não há como
ocorrer os dois eventos ao mesmo tempo nesse experimento aleatório (interseção seria igual a
zero). Assim, a resolução para essa questão é feita da seguinte maneira:
A probabilidade de sortear uma bola preta é:
𝑷 (𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂) = =
𝟏𝟎 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍 𝟏𝟐
A probabilidade de sortear uma bola branca é:
𝑷 (𝑩𝒐𝒍𝒂 𝑩𝒓𝒂𝒏𝒄𝒂) = =
𝟏𝟎 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍 𝟏𝟐
Por fim, a probabilidade de sortear uma bola preta ou uma branca, em um sorteio apenas,
é:
𝟔 𝟒 𝟏𝟎
𝑷(𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂 𝒐𝒖 𝑩𝒓𝒂𝒏𝒄𝒂) = + =
𝟏𝟐 𝟏𝟐 𝟏𝟐
MUDE SUA VIDA!

99
Portanto, para eventos mutuamente exclusivos, é possível concluir que:
De modo geral, os cálculos de probabilidade para interseção e união de eventos, conforme

cada tipo de interação, pode ser esquematizado da seguinte forma:
Interação P(A e B) – Interseção P(A ou B) – União
Eventos
P(A e B) = P(A)×P(B|A) P(A ou B) = P(A) + P(B) – P(A)×P(B|A)
Dependentes
Eventos
P(A e B) = P(A)×P(B) P(A ou B) = P(A) + P(B) – P(A)×P(B)
Independentes
Eventos
Mutuamente 0 P(A ou B) = P(A) + P(B)
Exclusivos
PROBABILIDADE CONDICIONAL
A probabilidade condicional é a probabilidade de ocorrência de um evento dado que
outro evento, que pode interferi-lo, ocorreu anteriormente. Em outras definições, trata-se
da probabilidade já abordada no tópico anterior, a ocorrência do evento A dado que B ocorreu
– “P(A|B)”. Quando as questões de Estatística perguntarem sobre probabilidade condicional, o
aluno deve entender que se baseia em uma probabilidade que suas circunstâncias foram
alteradas devido a outro evento que aconteceu a prior e influenciou o evento presente.
A questão é considerada de Probabilidade Condicional quando seu enunciado fornecer
alguma informação sobre o resultado de experimento aleatório que ocorre anteriormente. Para
compreender essa ideia, será abordado um exemplo de questão para trabalhar a interpretação:
Exemplo: (ESAF) Carlos sabe que Ana e Beatriz estão viajando pela Europa. Com as
informações que dispõe, ele estima corretamente que a probabilidade de Ana estar hoje em
Paris é 3/7, que a probabilidade de Beatriz estar hoje em Paris é 2/7, e que a probabilidade de
ambas, Ana e Beatriz, estarem hoje em Paris é 1/7. Carlos então recebe um telefonema de Ana,
informando que ela está hoje em Paris. Com a informação recebida pelo telefonema de Ana,
Carlos agora estima corretamente que a probabilidade de Beatriz também estar hoje em Paris
é igual a 1/3.
A primeira parte (em vermelho) informa toda a problemática da questão e fornece
algumas probabilidades; a segunda parte (em azul) é uma informação adicional que nos revela
um fato. Algo que passa a ser do nosso conhecimento. Não é uma probabilidade, e sim um fato
MUDE SUA VIDA!

100
dado. Uma informação a prior que altera as probabilidades já conhecidas; a terceira parte (em
verde) é a pergunta da questão.
Ao juntar essa pergunta ao fato dado, teremos a seguinte pergunta completa que deve ser
interpretada pelo aluno:
“Qual a probabilidade de Beatriz estar hoje em Paris, dado que Ana está hoje em Paris?”
Estamos diante de uma probabilidade condicional!
Ao identificar uma questão de probabilidade condicional, o aluno deve saber que há duas
alternativas promissoras para solucionar uma questão de probabilidade condicional, são elas:
A forma de resolução dependerá das informações fornecidas pela questão, assim sendo,
uma alternativa pode ser muito mais vantajosa e eficiente do que a outra. Basicamente, se a
questão fornecer os valores de probabilidade da interseção e do evento que interferiu a
ocorrência do outro, utilizar a fórmula da probabilidade condicional já é o suficiente. Contudo,
se foram fornecidas todas as observações organizadas de cada possível evento, o método da
interpretação pode ser muito mais fácil. Vamos abordar essas formas de soluções a partir de
questões.
CÁLCULO PELA FÓRMULA
EXEMPLO ANTERIOR:
Carlos sabe que Ana e Beatriz estão viajando pela Europa. Com as informações
que dispõe, ele estima corretamente que a probabilidade de Ana estar hoje em Paris
é 3/7, que a probabilidade de Beatriz estar hoje em Paris é 2/7, e que a probabilidade
de ambas, Ana e Beatriz, estarem hoje em Paris é 1/7. Carlos então recebe um
telefonema de Ana, informando que ela está hoje em Paris. Com a informação
recebida pelo telefonema de Ana, Carlos agora estima corretamente que a
probabilidade de Beatriz também estar hoje em Paris é igual a 1/3.
Essa questão pode ser facilmente resolvida pela fórmula uma vez que foram fornecidos
os valores das probabilidades da interseção e do evento que interferiu no outro:
𝟏
𝑷(𝑨𝒏𝒂 𝒆 𝑩𝒆𝒂𝒕𝒓𝒊𝒛) =
𝟕
𝟑
𝑷(𝑨𝒏𝒂 ) =
𝟕
MUDE SUA VIDA!

101
O fato de Ana estar em Paris foi o evento que afetou a probabilidade de Beatriz estar em
Paris, assim, é o evento causou a probabilidade condicional. Desse modo a resolução da questão
é:
𝑷(𝑨𝒏𝒂 𝒆 𝑩𝒆𝒂𝒕𝒓𝒊𝒛)
𝑷(𝑩𝒆𝒂𝒕𝒓𝒊𝒛|𝑨𝒏𝒂) =
𝑷(𝑨𝒏𝒂)
𝟏
𝟏
𝑷(𝑩𝒆𝒂𝒕𝒓𝒊𝒛|𝑨𝒏𝒂) = 𝟕 =
𝟑 𝟑
𝟕
Portanto, questão correta!
CÁLCULO PELA INTERPRETAÇÃO
EXEMPLO:
(CESPE) Como forma de melhorar a convivência, as famílias Turing, Russell e
Gödel disputaram, no parque da cidade, em um domingo à tarde, partidas de futebol
e de vôlei. O quadro a seguir mostra os quantitativos de membros de cada família
presentes no parque, distribuídos por gênero.
Considere que, em eventual sorteio de brindes, um nome tenha sido retirado,

ao acaso, do interior de uma urna que continha os nomes de todos os familiares
presentes no evento. Nessa situação, sabendo-se que o sorteado não é uma
mulher da família Gödel, a probabilidade de ser uma mulher da família Russel será
superior a 20%.
A questão fornece o número de elementos para cada possível evento (a família e o gênero).
Com isso, interpretando a questão, é possível compreender que foi fornecida uma informação
a prior que alterou o espaço amostral desse experimento aleatório. Ao citar “sabendo-se que o
sorteado não é uma mulher da família Gödel”, pode ser retirado do espaço amostral a 9
mulheres da família Gödel.
Inicialmente, o espaço amostral, isto é, todas as pessoas que poderiam ser sorteadas:
𝑛(𝛺) = 5 + 6 + 5 + 7 + 5 + 9 = 37 𝑝𝑒𝑠𝑠𝑜𝑎𝑠
Ao reduzir o espaço amostral pela condição fornecida, tem-se:
𝑛(𝛺) = 37 − 9 = 28 𝑝𝑒𝑠𝑠𝑜𝑎𝑠
MUDE SUA VIDA!

102
Com isso, basta aplicar a fórmula básica da probabilidade e obter a probabilidade

condicional:
Portanto, item errado, pois é inferior a 20%.
PROBABILIDADE COMPLEMENTAR
A probabilidade complementar consiste na ocorrência de qualquer outro evento que não
seja o de interesse e complementa o que falta para alcançar 100%. Em outras palavras, é a
probabilidade que complementa os eventos que pertencem ao espaço amostral, mas não
contemplados pelo resultado de interesse. A probabilidade complementar de um evento A pode
ser representada por:
̅)
𝑷(𝑨 𝒏ã𝒐 𝒐𝒄𝒐𝒓𝒓𝒆𝒓) = 𝑷(𝑨𝑪 ) = 𝑷(~𝑨) = 𝑷(¬𝑨) = 𝑷(𝑨
Essa definição está associada ao conceito abordado no 3º axioma da probabilidade:
𝑷(𝑨 𝒐𝒄𝒐𝒓𝒓𝒆𝒓) + 𝑷(𝑨 𝒏ã𝒐 𝒐𝒄𝒐𝒓𝒓𝒆𝒓) = 𝟏
𝑷(𝑨) + 𝑷(𝑨𝑪 ) = 𝟏
Podemos representar a probabilidade complementar a partir de diagramas da seguinte
forma:
Portanto, tudo aquilo que não está contemplado dentro do círculo que representa a
ocorrência do evento A, pertence a ocorrência da complementar de A.
MUDE SUA VIDA!

103
Ao entender que a probabilidade complementar pertence a todo espaço que não está dentro do
diagrama do evento de interesse, podemos obter a probabilidade desconhecida de um evento a
partir das probabilidades condicionais e complementares. Suponha que não se conheça a
probabilidade de um evento B, mas conhece a probabilidade do evento A, bem como a
probabilidade condicional de B dado que A ocorreu e de B dado que A C ocorreu. Com isso,
podemos calcular a probabilidade de B ocorrer, sem o evento condicional, por meio da seguinte
relação:
Basicamente, foi somado os dois componentes que formam todo o evento B. A área que
consiste na interseção entre A e B pode ser calculada pela expressão 𝑃(𝐴) × 𝑃(𝐵|𝐴), enquanto
a área que não faz interseção com B, é o mesmo que dizer que faz interseção entre não A e B,
isto é, AC e B, e pode ser calculada pela expressão 𝑃(𝐴𝐶 ) × 𝑃(𝐵|𝐴𝐶 ). Assim, somando esses dois
componentes temos a probabilidade de ocorrência de B sem eventos condicionais, isto é, P(B).

(CESPE – DEPEN – Agente Penitenciária Federal – Área 4 – 2015) Considerando que,
entre a população carcerária de um presídio, a probabilidade de um detento contrair
tuberculose seja igual a 0,01; que dois detentos sejam selecionados aleatoriamente dessa
população carcerária; e que as ocorrências de tuberculose entre esses detentos sejam eventos
independentes, julgue o próximo item.
1. A probabilidade de os dois detentos na amostra contraírem tuberculose será igual a 0,02.
GABARITO: Errado.
A questão deixa claro que o fato de um prisioneiro contrair tuberculose não
afeta a possibilidade de outro também contrair a doença. Desse modo, temos dois
eventos probabilísticos independentes. Assim, a probabilidade de dois detentos
contraírem tuberculose consiste na interseção desses dois eventos, isto é, na
ocorrência simultânea de que cada amostragem obtenha um prisioneiro com
tuberculose.
Em síntese, a probabilidade conjunta de dois eventos independentes (A e B) é
igual ao produto das probabilidades de ocorrência de cada um. Assim, temos que:
MUDE SUA VIDA!

104
A questão tenta confundir o evento de união com interseção. Efetuando assim

a operação de soma ao invés de multiplicar. Porém, fica claro a ideia de ocorrência
simultânea, e não de alternativamente.
2. A probabilidade de pelo menos um detento na amostra contrair tuberculose será

superior a 0,01 e inferior a 0,03.
GABARITO: Correto.
Ao selecionar dois detentos, com possibilidade de contrair ou não tuberculose,
têm-se as seguintes possibilidades: os dois contraírem a doença; o primeiro contrair
e o segundo não; o primeiro não contrair e o segundo sim; nenhum dos dois
contraírem a doença. Nesse espaço amostral, os resultados que atendem o evento
“pelo menos um” são ou um dos dois contrai a doença, ou os dois contraem a doença.
Baseado nesse campo de possibilidades, é muito mais fácil calcular a
probabilidade desse evento pelo método destrutivo, isto é, 100% menos nenhuma
dos dois contraírem a doença. Esse raciocínio de cálculo pode ser obtido com a
aplicação do terceiro axioma da probabilidade (que fala de eventos complementares).
Portanto, a probabilidade de “pelo menos um” tem como complementar a
probabilidade de “nenhum”. Logo:
Para isso, precisa ser calculado a probabilidade de nenhum dos dois detentos
contraírem tuberculose. Se a probabilidade de um detento contrair a doença é 0,01,
a probabilidade de não contrair é 0,99. Sendo assim, a probabilidade de dois detentos
selecionados aleatoriamente não contraírem a doença, sabendo que são eventos
independentes, é igual:
Assim, temos que a complementar é igual a:
Por fim, a questão está correta, pois a probabilidade de 0,0199 está contida no
intervalo de 0,01<P(X)<0,03.
(CESPE – DEPEN – Agente Penitenciária Federal – Área 4 – 2015) Considerando que

um estudo a respeito da saúde mental em meio prisional tenha mostrado que, se A = “o preso
apresenta perturbação antissocial da personalidade" e B = “o preso apresenta depressão",
então P(A) = 0,6 e P(B) = 0,5, julgue o item seguinte a partir dessas informações.
3. Se houver independência entre os eventos A e B, então P(A ∩ B) = 0.
GABARITO: Errado.
A questão tenta confundir eventos independentes com eventos mutuamente
exclusivos. Os eventos independentes são aqueles que a ocorrência de um evento
não afeta a probabilidade de ocorrência dou outro evento. Isso não exclui a
MUDE SUA VIDA!

105
possibilidade dos dois eventos ocorrem simultaneamente, ou seja, dois eventos A e

B podem ser independentes e possuírem uma interseção P(A ∩ B) > 0.
Eventos que são mutuamente exclusivos apresentam obrigatoriamente uma
interseção igual a zero, isto é, P(A ∩ B) = 0. Porém, eventos independentes não
necessariamente terá esse resultado.
4. Se B ⊂ A, então P(A∪B) = 0,6.

GABARITO: Correto.
A expressão B ⊂ A indica que o evento probabilístico B está contido no evento
A. Isso de fato pode ocorrer, pois o evento a é maior que B e, portanto, pode englobar
toda a ocorrência de B. Dessa forma, temos a seguinte representa em diagrama:
Ainda, a questão informa que a probabilidade da união de A e B é igual a 0,6,

isto é igual a P(A) [P(A ∪ B)=P(A)=0,6]. De fato, isso está correto. A probabilidade
da união de dois eventos é calculada por:
A soma das probabilidades individuais menos a probabilidade simultânea de A

e B. Veja que a probabilidade da interseção de A e B, sendo que B ⊂ A, é a própria
probabilidade de B. Isso porque sempre que B ocorrer, A também irá ocorrer, desse
modo, a ocorrência simultânea de A e B é todo o evento B [P(A ∩ B)=P(B)=0,5]. Por
fim, temos que a união dos dois eventos é:
Assim, a questão está correta ao afirmar exatamente isso.
MUDE SUA VIDA!

106
VARIÁVEIS ALEATÓRIAS
Uma variável aleatória corresponde a qualquer característica de um fenômeno estudado
pelo homem a partir de um experimento aleatório. Desse modo, cada possível resultado do
experimento é associado a um número real por meio de uma atribuição ou uma função. Essa
função ou atribuição que interliga um fenômeno da realidade para qualquer número real é a
própria variável aleatória.
Cada resultado, por se tratar de um experimento aleatório, está associado a uma

probabilidade de ocorrer. Assim, uma variável aleatória X qualquer corresponde a associação
entre os valores que ela pode assumir junto a uma probabilidade respectiva. Além disso, é
interessante observar que os valores que representam o fenômeno aleatório são dados
numéricos, isto é, quantitativo, pois não seria possível cálculos de probabilidade em dados
categóricos. Sendo assim, dados de natureza qualitativa são transformados em dados
quantitativos a partir de alguma atribuição ou contagem. Portanto, uma variável aleatória pode
ser dos seguintes tipos:
Conforme o tipo da variável aleatória, há muitas variações no tratamento matemático e

na forma como a probabilidade é distribuída. Por essa razão, um estudo aprofundado deve ser
feito para as variáveis aleatórias discretas e para as variáveis aleatórias contínuas.
IMPORTANTE:
Ao se falar em variáveis aleatórias, estamos tentando representar um
fenômeno de uma realidade específica a partir de função. Com isso, trabalha-se com
as probabilidades de cada resultado possível deste fenômeno, por meio de um
experimento aleatório. Assim, não há o que se falar, nesse capítulo, de amostra,
e sim quantificar e inferir sobre toda a população com uso do princípio da
probabilidade. Todos os cálculos que serão abordados aqui, trabalham com a ideia
de representar a população.
MUDE SUA VIDA!

107
VARIÁVEIS ALEATÓRIAS DISCRETAS

Função que atribui um número real a cada resultado de um experimento aleatório que
assume valores de natureza discreta. Assim, os fenômenos estudados são avaliados em
números reais provenientes de contagens ou atribuições de sucesso e fracasso e, por isso,
somente assumem valores de números inteiros. Como exemplo: contagem de número de
filhos; registros de ocorrências de crimes; acerto de tiros em um alvo (sucesso ou fracasso).
Para compreender melhor uma variável aleatória discreta, será desenvolvido toda a
construção dos conceitos a partir de um exemplo.
➢ Experimento Aleatório:
Lançamento de uma moeda três vezes consecutivas.
➢ Espaço Amostral (Resultados possíveis – Ω):
Ω = {(coroa, coroa, coroa), (coroa, coroa, cara), (coroa, cara, coroa), (coroa, cara, cara),
(cara, cara, cara), (cara, cara, coroa), (cara, coroa, cara), (cara, coroa, coroa)}
➢ Definição da Variável Aleatória Discreta (X):
X = número de caras obtidas no lançamento de três moedas.
Assim, o experimento aleatório sobre o lançamento de uma moeda é definido por variável
aleatória discreta X que pode assumir os valores 0, 1, 2 e 3:
• 𝑿 = 𝟎, corresponde ao evento (coroa, coroa, coroa);
• 𝑿 = 𝟏, corresponde aos eventos (coroa, coroa, cara), (coroa, cara, coroa),
(cara, coroa, coroa);
• 𝑿 = 𝟐, corresponde aos eventos (coroa, cara, cara), (cara, cara, coroa),
(cara, coroa, cara);
• 𝑿 = 𝟑, corresponde ao evento (cara, cara, cara);
Sobretudo, veja que a variável X assume um número finito de valores. Ainda, com essa
definição, o experimento aleatório sobre o lançamento de uma moeda, de natureza
originalmente qualitativa (cara ou coroa), sofre uma transformação de variável qualitativa
nominal para uma variável quantitativa discreta, uma vez que foi feita uma contagem do
número de caras.
MUDE SUA VIDA!

108
FUNÇÃO MASSA DE PROBABILIDADE

O valor que a variável aleatória discreta pode assumir deve ser associado à sua respectiva
probabilidade. Para variáveis discretas, denominamos essa associação de função massa de
probabilidade, simbolizada por “P(X)”, pois indica a probabilidade exatamente no ponto (no
valor específico que a variável assume).
Com isso, ao observar todo espaço amostral do experimento em exemplo, é fácil entender
que a probabilidade de obter, no lançamento de uma moeda três vezes, é igual:
X = 0 → Nenhuma cara, (coroa, coroa, coroa).
1
Há 1 resultado favorável em 8 resultados possíveis, assim, P(X=0) = 8;
X = 1 → Uma cara, (coroa, coroa, cara), (coroa, cara, coroa), (cara, coroa, coroa);
3
Há 3 resultados favoráveis em 8 resultados possíveis, assim, P(X=1) = 8;
X = 2 → Duas caras, (coroa, cara, cara), (cara, cara, coroa), (cara, coroa, cara);
3
Há 3 resultados favoráveis em 8 resultados possíveis, assim, P(X=2) = 8;
X = 3 → Três caras, (cara, cara, cara).
1
Há 1 resultado favorável em 8 resultados possíveis, assim, P(X=0) = 8;
Portanto, sempre que se falar de variável aleatória, o aluno deve entender que temos
valores que variam e que representam todo o fenômeno em estudo combinado com uma
probabilidade de cada possível resultado ocorrer (pois trata-se de um evento aleatório).
Desse modo, as probabilidades associadas aos valores da variável discreta X, no exemplo, são:
Xi P(Xi)
0 1/8
1 3/8
2 3/8
3 1/8
Soma 1
Assim, conforme a propriedade do segundo axioma da probabilidade, é possível concluir
que:
∑ 𝑷(𝑿𝒊 ) = 𝟏
𝑷(𝑿𝟏 ) + 𝑷(𝑿𝟐 )+. . . + 𝑷(𝑿𝒏 ) = 𝟏

A soma das probabilidades de cada valor que a variável aleatória discreta pode assumir
será sempre igual a 100%. A função massa de probabilidade pode ser representada
graficamente pela seguinte ilustração:
MUDE SUA VIDA!

109
A representação gráfica é semelhante ao gráfico de colunas, isso porque ilustra a ideia de

valores que representam fenômenos do mundo real que podem ser categóricos ou números
discretos, sem uma transição entre um valor e outro. Cada valor possui sua respectiva
probabilidade no ponto; essa função P(X) é aplicada somente em variáveis aleatórias discretas.
FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA DE PROBABILIDADE
A função de distribuição acumulada de probabilidade, nas variáveis aleatórias discretas,
representa a soma da probabilidade de um valor específico mais as probabilidades dos valores
inferiores a ele. Basicamente, é a mesma ideia da frequência acumulada, discutida no tópico da
Estatística Descritiva, só que nesse assunto refere-se as probabilidades. Matematicamente,
define-se função acumulada como sendo a probabilidade da variável aleatória discreta X
assumir um valor menor ou igual a xi (um valor qualquer). Assim:
𝑭(𝑿𝒊 ) = 𝑷(𝑿 ≤ 𝑿𝒊 ) = ∑ 𝑷(𝑿𝒊 )

𝑥𝑖 ≤𝑥
Entenda que a notação simplesmente expressa as somas das probabilidades de um valor
Xi e todos inferiores a ele. A expressão Xi simboliza qualquer valor que a variável discreta pode
assumir, enquanto a expressão X representa todo o fenômeno atribuído pela variável aleatória.
Para quantificar os valores da função de distribuição acumulada, basta ir somando todas as
probabilidades das linhas anteriores. Será abordado o mesmo exemplo desenvolvido nesse
capítulo para construir a F(Xi):
MUDE SUA VIDA!

110
O valor de F(Xi) na última linha deve ser sempre igual a 1, e na primeira linha será F(Xi) =
P(Xi). É importante ressaltar que a Função de Probabilidade P(Xi) e a Função de Distribuição
Acumulada F(Xi) fornecem todas as informações sobre a variável aleatória discreta X, e a partir
de uma função sempre é possível obter a outra. De forma simples, podem ser geradas assim:
Por fim, a Função de Distribuição Acumulada de Probabilidade para variáveis aleatórias

discretas podem ser representadas graficamente da seguinte forma:
Todo gráfico F(Xi) de uma variável aleatória discreta apresenta esse modelo. É um gráfico
que tem a forma de uma “escada”, com saltos de descontinuidade nos valores que X pode
assumir. Por exemplo, ao alcançar o valor X = 1, a probabilidade salta do valor 0,125 para 0,5,
pois acumula a probabilidade 0,125 do valor X = 0 mais a probabilidade de 0,375 do valor X =
1.
VALOR ESPERADO – E(X)
O valor esperado de uma variável aleatória X corresponde ao valor médio que espera ser
obtido observando os resultados de um experimento aleatório várias vezes. Em outras palavras,
ao se reproduzir um experimento aleatório diversas vezes, a média formada pelos resultados
encontrados tende a ser o valor esperado.
MUDE SUA VIDA!

111
É muito comum, em questões sobre o assunto de variáveis aleatórias, ser perguntado qual
a média de determinado objeto de estudo. Apesar de existir uma sutil diferença conceitual entre
média e valor esperado, podem ser consideradas sinônimos.
Em função dessa definição, o valor esperado pode também ser denominado como
esperança matemática, expectância ou simplesmente a média da variável aleatória, simbolizado
por “E(X)” – dentro dos parênteses é expresso a variável aleatória que pretende quantificar o
valor esperado. O valor esperado também pode ser simbolizado dessa forma:
𝑬(𝑿) = 𝝁𝑋
Cada valor de uma variável aleatória discreta possui uma probabilidade de ocorrer
associada, o valor esperado nada mais é do que o somatório da multiplicação de um valor Xi
pela sua respectiva probabilidade P(Xi) de ocorrer:
𝒏
𝑬(𝑿) = ∑ 𝑿𝒊 𝑷(𝑿𝒊 )
𝒊=𝟏
𝑬(𝑿) = 𝑿𝟏 𝑷(𝑿𝟏 ) + 𝑿𝟐 𝑷(𝑿𝟐 )+. . . +𝑿𝒏 𝑷(𝑿𝒏 )
Para compreender sua aplicação, será calculado o valor esperado do experimento
aleatório lançamento de uma moeda três vezes consecutivas:
𝑿𝒊 𝑷(𝑿𝒊 ) 𝑿𝒊 𝑷(𝑿𝒊 )
0 1/8 = 0,125 𝟎 × 𝟎, 𝟏𝟐𝟓 = 𝟎
1 3/8 = 0,375 𝟏 × 𝟎, 𝟑𝟕𝟓 = 𝟎, 𝟑𝟕𝟓
2 3/8 = 0,375 𝟐 × 𝟎, 𝟑𝟕𝟓 = 𝟎, 𝟕𝟓
3 1/8 = 0,125 𝟑 × 𝟎, 𝟏𝟐𝟓 = 𝟎, 𝟑𝟕𝟓
Soma 1 𝑬(𝑿) = 𝟏, 𝟓
𝑬(𝑿) = 𝟎 × 𝟎, 𝟏𝟐𝟓 + 𝟏 × 𝟎, 𝟑𝟕𝟓 + 𝟐 × 𝟎, 𝟑𝟕𝟓 + 𝟑 × 𝟎, 𝟏𝟐𝟓
𝑬(𝑿) = 𝟎 + 𝟎, 𝟑𝟕𝟓 + 𝟎, 𝟕𝟓 + 𝟎, 𝟑𝟕𝟓 = 𝟏, 𝟓
Portanto, para o experimento aleatório do exemplo, o valor esperado é de 1,5 vezes que o
resultado será a face cara do lançamento de uma moeda três vezes. Para melhor compreensão,
entenda que não existe o resultado 1,5 número de caras em contagem (variável discreta);
contudo, se for repetido o experimento aleatório várias vezes, será observado muito mais
resultados oscilando entre 1 e 2 número de caras, e a média dos resultados desses experimentos
espera-se ser um valor de 1,5.
O valor esperado está sempre entre o valor mínimo e o valor máximo que uma variável
aleatória pode assumir.
A definição de probabilidade está muito associada a ideia frequência relativa – quantidade
𝑓 𝑛(𝑋)
de repetições de uma observação sobre o total 𝑛𝑖, isto é, evento sobre espaço amostral 𝑛(𝛺). Por
isso, é fácil associar o cálculo da média, na Estatística Descritiva, com o do valor esperado nas
variáveis aleatórias discretas:
MUDE SUA VIDA!

112
Estatística Descritiva Variável Aleatória Discreta
Frequência Relativa: Probabilidade:

𝒇𝒊 𝒏(𝑿)
𝒇𝒓𝒊 = 𝑷(𝑿𝒊 ) =
𝒏 𝒏(𝜴)
Média: Valor Esperado:

µ = ∑ 𝑿𝒊 𝒇𝒓𝒊 𝑬(𝑿) = ∑ 𝑿𝒊 𝑷(𝑿𝒊 )
Essa associação de conhecimentos é bem interessante para fixar e melhor compreender

estes assuntos. De modo geral, enquanto na Estatística Descritiva trabalhamos com um
conjunto de dados com intenção de descrevê-los, nas Variáveis Aleatórias Discretas
trabalhamos com os possíveis valores que um fenômeno pode assumir e suas probabilidades
de ocorrência.
Em outro ponto de vista, na Estatística Descritiva, trabalha-se com um conjunto de dados
já coletados (uma perspectiva presente) e quantificamos as repetições (frequência) de uma
observação, além de uma proporção de interesse (frequência relativa); nas Variáveis Aleatórias
Discretas, já conhecemos o comportamento do fenômeno e tentamos predizer o que irá ocorrer
(uma perspectiva futura). Assim, a proporção observada no presente serve como base para
obter a probabilidade desse evento ocorrer no futuro. Há apenas uma pequena alteração no
ponto de vista.
Outra informação muito aplicada em provas, é o conhecimento sobre as propriedades do
valor esperado. São equivalências matemáticas que sempre serão aplicadas em uma
determinada condição. São elas:
Propriedade I. O valor esperado de um experimento aleatório que apresenta apenas um
resultado, isto é, quando a variável aleatória assume apenas um valor, uma constante (k), tem-
se:
𝑬(𝒌) = 𝒌
Se uma variável aleatória assume sempre o mesmo valor, o valor esperado é a própria
constante.
Propriedade II. O valor esperado de uma variável aleatória que foi somada/subtraída
por um valor constante (k) e teve valores modificados, tem a seguinte característica:
𝑬(𝑿 ± 𝒌) = 𝑬(𝑿) ± 𝒌
Em outras palavras, é o mesmo que calcular o valor esperado normalmente e depois
somar pela constante que modifica a variável aleatória. Essa propriedade é o mesmo estudado
na Estatística Descritiva, quando todo o conjunto de dados eram somados/subtraídos
uniformemente por um valor. Afinal, somar/subtrair uma variável aleatória, que representa
todo um fenômeno, é o mesmo que modificar cada valor que ela pode assumir. Veja pelo
exemplo:
MUDE SUA VIDA!

113
Assim, a soma/subtração altera os valores que a variável aleatória pode assumir, mas as
probabilidades permanecem as mesmas, já que se trata do mesmo experimento aleatório. Por
isso, o valor esperado de 1,5 é alterado em +5 para 6,5.
Propriedade III. O valor esperado de uma variável aleatória que foi multiplica/dividida
por um valor constante (k) e teve seus valores modificados, tem a seguinte característica:
𝑬(𝒌. 𝑿) = 𝒌. 𝑬(𝑿)
Basta calcular o valor esperado independentemente e multiplicar pela constante. Esse
também é o mesmo efeito observado na média, estudado no tópico de Estatística Descritiva,
que pode ser esclarecido pela seguinte forma:
MUDE SUA VIDA!

114
Propriedade IV. O valor esperado da soma/subtração de duas variáveis aleatórias

quaisquer é igual a soma do valor esperado de cada variável separadamente, isto é:
𝑬(𝑿 ± 𝒀) = 𝑬(𝑿) ± 𝑬(𝒀)
Essa propriedade é muito aplicada em provas, basicamente, quando for abordado uma
questão de transformação de variáveis que soma variáveis aleatórias, deve-se entender que
basta somar/subtrair os valores esperados de cada uma, para obter o valor esperado da nova
variável aleatória proveniente da transformação.
Propriedade V. O valor esperado da multiplicação/divisão de duas variáveis aleatórias,
quando independentes, é igual ao produto do valor esperado de cada variável aleatória
separadamente, isto é:
E(X.Y) = E(X).E(Y), se X e Y forem independentes.
Veja que para essa propriedade ser aplicada, é necessário existir uma relação de
independência entre as variáveis. Esse conteúdo será melhor abordado nas variáveis aleatórias
bidimensionais, quando se tem o interesse de estudar o efeito associado de duas variáveis
aleatórias. Por hora, apenas entenda que é necessário a independência entre as variáveis para
aplicar essa propriedade.
MEDIANA – Me(X)
Para obter o valor da mediana e da moda de uma variável aleatória discreta, utiliza-se um
raciocínio semelhante ao que foi visto na Estatística Descritiva em medidas de posição. Naquele
tópico, observou-se que a Mediana é o elemento central da distribuição, com quantidade
acumulada de elementos igual a n/2 (ou 50% do total). Além disso, verificou-se que a moda
corresponde ao elemento que mais se repete no conjunto, valor que possui a maior frequência
fi.
Em uma variável aleatória discreta, a mediana pode ser obtida a partir da função de
distribuição acumulada de probabilidade F(Xi). O primeiro valor associado a probabilidade que
acumulada mais que 0,5 (50%) representará a mediana. Caso o valor acumule exatamente 50%,
a mediana é média entre esse valor e o valor superior consecutivo. Assim, no mesmo exemplo
já abordado:
Como o valor X = 1 acumula exatamente 50% dos dados, a mediana deve ser a média entre
o valor 1 e 2, portanto, Me(X) = 1,5.
MODA – Mo(X)
A moda de variável aleatória discreta é simplesmente o valor da variável com maior
probabilidade de ocorrer P(Xi), isto é, basta identificar na função massa de probabilidade o
valor com maior probabilidade. Assim:
MUDE SUA VIDA!

115
Nesse exemplo, a moda são os valores 1 e 2, já que ambos apresentam a mesma

probabilidade de ocorrer no experimento aleatório.
VARIÂNCIA – VAR(X)
A Variância é a medida de dispersão que indica a variabilidade dos valores da variável
aleatória em relação ao valor esperado (média). Contudo, deve-se levar em consideração que,
cada desvio em relação ao valor esperado, possui uma probabilidade de ocorrer P(Xi). Assim,
com o mesmo raciocínio já discutido no tópico da Estatística Descritiva, deve-se efetuar o
somatório dos desvios elevados ao quadrado multiplicado pela sua probabilidade de ocorrer:
𝒅𝒆𝒔𝒗𝒊𝒐𝒊 = [𝑿𝒊 − 𝑬(𝑿)]
𝑽𝒂𝒓(𝑿) = ∑[𝑿𝒊 − 𝑬(𝑿)]𝟐 𝑷(𝑿𝒊 )

Aplicando esse conhecimento no exemplo em tela, tem-se:
𝑽𝒂𝒓(𝑿) = 𝟎, 𝟕𝟓
Ao efetuar todos os cálculos seguindo as etapas da construção da variância, obtém-se um
valor de 0,75. Entretanto, veja que calcular a variância por esse raciocínio pode ser
extremamente trabalhoso e muitas vezes gerar resultados fracionários que complicam na hora
da prova. Para isso, é altamente vantajoso utilizar a fórmula alternativa da variância
populacional, conhecida como “a média dos quadrados menos o quadrado da média”,
MUDE SUA VIDA!

116
abordado no tópico de Estatística Descritiva. Com isso, aplicando nos conceitos das variáveis
aleatórias, a fórmula é adaptada para seguinte condição “a esperança do quadrado menos o
quadrado da esperança”, entenda:
𝑽𝒂𝒓(𝑿) = 𝑬(𝑿𝟐 ) – [𝑬(𝑿)]𝟐

Sendo:
𝑬(𝑿) = ∑ 𝑿𝒊 𝑷(𝑿𝒊 )
𝑬(𝑿𝟐 ) = ∑ 𝑿𝒊 𝟐 𝑷(𝑿𝒊 )
Dessa forma, é necessário calcular o valor esperado E(X), como também, calcular o valor
esperado dos valores da variável aleatória elevados ao quadrado E(X2):
Para calcular o valor de E(X2), basta elevar ao quadrado cada valor que a variável
aleatória pode assumir, em seguida, multiplique pela respectiva probabilidade e efetue o
somatório (semelhante ao cálculo do valor esperado normal). Assim, tem-se os seguintes
resultados:
𝑬(𝑿) = 𝟏, 𝟓
𝑬(𝑿𝟐 ) = 𝟑
𝑽𝒂𝒓(𝑿) = 𝟑 − 𝟏, 𝟓𝟐 = 𝟑 − 𝟐, 𝟐𝟓 = 𝟎, 𝟕𝟓
O mesmo resultado foi alcançado com essa fórmula, obtendo valores mais fáceis de operar
matematicamente. Em razão disso, essa fórmula alternativa pode ser um recurso mais
vantajoso para efetuar os cálculos da variância em variáveis aleatórias discretas.
A variância de uma variável aleatória pode também ser representada pela seguinte
simbologia:
𝑽𝒂𝒓(𝑿) = 𝝈𝒙 𝟐
Assim como o valor esperado, a variância possui propriedades importantes muito
aplicadas em provas. Também é um conhecimento associado a transformação uniforme de
MUDE SUA VIDA!

117
dados na Estatística Descritiva. As propriedades são equivalências matemáticas que sempre

serão aplicadas em uma determinada condição. São elas:
Propriedade I. A variância de um experimento aleatório que apresenta apenas um
resultado, isto é, quando a variável aleatória assume apenas um valor, uma constante (k), tem-
se:
𝑽𝒂𝒓(𝒌) = 𝟎
Se uma variável aleatória assume sempre o mesmo valor, não existe dispersão em relação
ao valor esperado, uma vez que o valor k é o próprio E(k). Portanto, a variabilidade é zero.
Propriedade II. O valor esperado de uma variável aleatória que foi somada/subtraída
por um valor constante (k) e teve valores modificados, tem a seguinte característica:
𝑽𝒂𝒓(𝑿 ± 𝒌) = 𝑽𝒂𝒓(𝑿)
O valor da variância não é alterado quando a variável aleatória é transformada com
operações de soma/subtração. O mesmo raciocínio abordado em Estatística Descritiva é aqui
aplicado, como o valor esperado é alterado com soma/subtração os desvios permanecem os
mesmos e a variância não se altera.
Propriedade III. A variância de uma variável aleatória que foi multiplica/dividida por um
valor constante (k) e teve seus valores modificados, tem a seguinte característica:
𝑽𝒂𝒓(𝒌. 𝑿) = 𝒌𝟐 . 𝑽𝒂𝒓(𝑿)
A constante k multiplica os valores dos desvios, porém, como são elevados ao quadrado,
a constante multiplica/divide a variância pelo seu valor ao quadrado. Basta calcular a variância
independentemente e multiplicar pelo quadrado da constante.
Propriedade IV. A variância proveniente da soma/subtração de duas variáveis
aleatórias, independentes entre si, é igual a soma da variância de cada variável separadamente,
isto é:
𝑽𝒂𝒓(𝑿 ± 𝒀) = 𝑽𝒂𝒓(𝑿) + 𝑽𝒂𝒓(𝒀)
Veja que, mesmo se for efetuado a subtração entre variáveis aleatórias independentes, a
nova variância corresponderá a soma das variâncias de cada variável. Essa propriedade é
muito aplicada em provas e pode ser muito útil para deduzir novas informações.
Propriedade V. A variância proveniente da soma/subtração de duas variáveis aleatórias
que não são independentes entre si é expressa pela seguinte igualdade:
𝑽𝒂𝒓(𝑿 ± 𝒀) = 𝑽𝒂𝒓(𝑿) + 𝑽𝒂𝒓(𝒀) ± 𝟐𝑪𝒐𝒗(𝑿, 𝒀)
A variância da soma/subtração de variáveis aleatórias é afetada pelo efeito da covariância
[Cov(X,Y)]. Em resumo, a covariância é o efeito associado da variabilidade de duas variáveis
aleatórias. Esse assunto será abordado com maior detalhe no conteúdo de variáveis aleatórias
bidimensionais. Por enquanto, apenas entenda que existe esse efeito na variância da soma de
variáveis aleatórias, gerando a propriedade V.
Conforme a operação matemática aplicada, a covariância soma ou subtrai, em duas vezes
seu valor, a nova variância. A propriedade IV e V são basicamente a mesma informação, porém,
quando as variáveis são independentes o valor de covariância é igual a zero, aplicando-se a
propriedade IV.
A variância é um quantitativo da dispersão dos dados, no entanto, ela não gera
interpretações diretamente relacionadas ao fenômeno estudado. Isso porque seus valores são
elevados ao quadrado e a unidade de medida também (nesse exemplo, número de caras2). Para
tanto, é possível compreender que quanto maior a variância, maior será dispersão dos dados.
Mas, a informação que gera a melhor compreensão da variabilidade de uma variável aleatória
são o desvio padrão e o coeficiente de variação.
MUDE SUA VIDA!

118
DESVIO-PADRÃO – DP(X)
O desvio-padrão consiste na raiz quadrada da variância de uma variável aleatória. Esse
cálculo se baseia no mesmo princípio abordado em Estatística Descritiva, isto é, com a
finalidade de transforma a unidade de medida na mesma do fenômeno estudado. Em síntese, a
variância é calculada para obter posteriormente o desvio-padrão, assim:
𝑫𝑷(𝑿) = √𝑽𝒂𝒓(𝑿)
Conforme o exemplo construído nesse capítulo, o desvio padrão da variável aleatória X é
igual a:
𝑫𝑷(𝑿) = √𝟎, 𝟕𝟓 = 𝟎, 𝟖𝟕
Com isso, é possível inferir que a variável aleatória X (número de faces caras no arremesso
de uma moeda três vezes) tem um valor esperado de 1,5 e desvio-padrão de 0,87. Portanto, ao
se efetuar o experimento aleatório (lançar uma moeda três vezes) diversas vezes, espera-se
encontrar uma média de 1,5 número de resultados com a face cara virada para cima, e esse
resultado tende a dispersa-se em 0,87 para mais ou para menos.
COEFICIENTE DE VARIAÇÃO – CV(X)
Além do desvio padrão, é interessante obter o coeficiente de variação de uma variável
aleatória, pois ele permite obter uma ideia de dispersão relativa ao valor esperado. Permitindo
assim, comparar a dispersão de uma variável aleatória com outra. Desse modo:
𝑫𝑷(𝑿)
𝑪𝑽(𝑿) =
𝑬(𝑿)
Conforme o exemplo, o coeficiente de variação é:
𝟎, 𝟖𝟕
𝑪𝑽(𝑿) = = 𝟎, 𝟓𝟖 = 𝟓𝟖%
𝟏, 𝟓
Dessa forma, a variável aleatória estudada possui uma elevada variação (58%) em relação
ao valor esperado (média). Isso indica que a variação dos resultados possíveis nesse
experimento aleatório é maior do que a metade do valor esperado. Portanto, o E(X) não é capaz
de representar, por si só, o experimento aleatório.
DISTRIBUIÇÕES DE PROBABILIDADE DISCRETA

A distribuição de probabilidade é o instrumento na Estatística que descreve o
comportamento aleatório que um fenômeno pode apresentar, isto é, ela apresenta todos os
possíveis resultados de uma variável aleatória e suas respectivas probabilidades. Basicamente,
a melhor forma de compreender como a probabilidade de uma variável aleatória é distribuída
é por meio de representações gráficas.
Para o exemplo abordado nesse capítulo, vamos interpretar e compreender a distribuição
de probabilidade. Sobretudo, pode ser observado que as probabilidades estão distribuídas
simetricamente nos valores 1 e 2 com probabilidade de 3/8, como também, 0 e 3 com
probabilidade de 1/8. Com isso, ao se particionar os dados no valor de sua mediana, é possível
verificar a relação de simetria e que as probabilidades são maiores no centro e reduzem para
extremidade. Esse experimento aleatório em questão se encaixa na distribuição Binomial que
será apresentado em breve. Veja, por meio de gráfico, a relação de simetria, a dispersão e
distribuição das probabilidades dessa variável aleatória:
MUDE SUA VIDA!

119
Dentre as distribuições discretas de probabilidade existem distribuições muito úteis para

solucionar questões práticas do cotidiano. Desse modo, essas distribuições específicas devem
ter maior enfoque nos estudos de Estatística devido a sua enorme aplicação no mundo real. As
principais distribuições discretas de probabilidade são:
Com certeza, as distribuições de probabilidade é um dos grandes tópicos mais cobrados

nas provas de Estatística. Nesse conteúdo, é muito importante compreender e identificar as
pressuposições de cada distribuição; as características que a define; os cálculos de
probabilidade; a obtenção do valor esperado e da variância. Dentre as distribuições citadas, o
maior enfoque de estudo deve estar em Bernoulli, Binomial e Poisson.
MUDE SUA VIDA!

120
DISTRIBUIÇÃO UNIFORME DISCRETA

A distribuição uniforme discreta é quando todos os valores possíveis de uma variável
aleatória X têm a mesma probabilidade de ocorrer. Assim, a probabilidade está distribuída
uniformemente sobre todos os valores que a variável aleatória pode assumir. Essa distribuição
é observada em fenômenos como: o lançamento de um dado não viciado, lançamento de moeda
não viciada, retirada de bolas numeradas de 1 a 10 dentro de uma urna, entre outros.
Considerando como exemplo o lançamento de um dado não viciado, é possível
representar uma distribuição discreta de probabilidade uniforme da seguinte forma:
A probabilidade de cada possível resultado do experimento aleatório, com distribuição

uniforme discreta, é a divisão de 100% de ocorrência sobre número de resultados que a
variável discreta pode assumir. Assim:
𝟏
𝑷(𝑿𝒊 ) =
𝒏
𝟏
𝑷(𝑿𝒊 ) =
𝟔
Portanto, o único parâmetro necessário para estabelecer uma distribuição uniforme
discreta é o 𝑛. Assim, uma variável aleatória que segue essa distribuição é representada por:
𝑿~𝑼𝒅(𝒏)
Isto é, uma variável aleatória X qualquer segue uma distribuição (~) uniforme discreta
(𝑈𝑑) com parâmetro 𝑛.
As probabilidades são distribuídas igualmente para todo valor da variável aleatória X,
assim, em representação gráfica a função massa de probabilidade P(Xi) e função de densidade
acumulada de probabilidade F(Xi) é representada da seguinte forma:
MUDE SUA VIDA!

121
Quando a variável aleatória é distribuída uniformemente, o valor esperado pode ser

obtido da mesma forma que o cálculo da média aritmética simples:
∑ 𝑿𝒊
𝑬(𝑿) =
𝒏
Assim, para o experimento de lançamento de um dado, tem-se:
𝟏 + 𝟐 + 𝟑 + 𝟒 + 𝟓 + 𝟔 𝟐𝟏
𝑬(𝑿) = = = 𝟑, 𝟓
𝟔 𝟔
Ao mesmo tempo, a variância pode ser obtida pelo método normalmente calculado, sem
precisar multiplicar os desvios com as respectivas probabilidades, já que a mesma para cada
valor da variável aleatória X:
∑[𝑿𝒊 − 𝑬(𝑿)]𝟐
𝑽𝒂𝒓(𝑿) =
𝒏
No exemplo, é possível obter a variância e posteriormente o desvio padrão da seguinte
forma:
MUDE SUA VIDA!

122
𝟏𝟕, 𝟓
𝑽𝒂𝒓(𝑿) = = 𝟐, 𝟗𝟐
𝟔
𝑫𝑷(𝑿) = √𝟐, 𝟗𝟐 = 𝟏, 𝟕𝟏
De modo geral, para uma distribuição discreta de probabilidade uniforme, pode ser
aplicado os mesmos cálculos abordados na Estatística Descritiva para dados brutos, uma vez
que a probabilidade é igual para cada valor da variável aleatória X.
DISTRIBUIÇÃO DE BERNOULLI
A distribuição de probabilidade discreta de Bernoulli aplica o princípio da redução do
espaço amostral em apenas dois eventos possíveis – a probabilidade de sucesso e a de
fracasso. De certa forma, essa distribuição utiliza o conceito do terceiro axioma da
probabilidade, isto é, qualquer espaço amostral pode ser interpretado pela probabilidade de
um determinado evento ocorrer e pela probabilidade de o mesmo evento não ocorrer (evento
complementar).
Veja, por exemplo, o lançamento de um dado normal com seis resultados possíveis Ω = {1,
2, 3, 4, 5 e 6}, com probabilidade de 1/6 cada resultado. Esse mesmo experimento aleatório
pode ter seu espaço amostral reduzido em apenas dois resultados, exemplo, obter a face de
número 2 e não obter a face de número 2, Ω = {obter 2; não obter 2}, com probabilidade de 1/6
em obter a face 2, e 5/6 em não obter a face 2. Nessa diferença de interpretação do experimento
aleatório, ocorre a mudança de uma distribuição discreta uniforme para uma distribuição
discreta de Bernoulli.
Com isso, uma variável aleatória X com distribuição de Bernoulli tem dois resultados
possíveis: um é denominado evento de sucesso, atribuindo valor X=1, com probabilidade de
sucesso “p”; e outro é denominado evento de fracasso, atribuindo valor X=0, com probabilidade
de fracasso “q”, em que q = 1-p. Dessa forma:
MUDE SUA VIDA!

123
Experimento Fracasso Sucesso

Valor – X 0 1
Probabilidade – P(X) 1-p=q p
Assim, quando uma variável discreta X é caracterizada por esses pressupostos, ela segue
a distribuição de probabilidade de Bernoulli. A simbologia “X~Bernoulli(p)” indica que a
variável aleatória X segue distribuição de Bernoulli com parâmetro p (probabilidade de
sucesso). O parâmetro da distribuição é única informação necessária para estabelecer a
distribuição de probabilidade, em distribuição de Bernoulli, basta conhecer a probabilidade de
sucesso para encontrar as demais informações.
𝑿~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑)
𝑷(𝑿=𝒔𝒖𝒄𝒆𝒔𝒔𝒐) = 𝒑
𝑷(𝑿=𝒇𝒓𝒂𝒄𝒂𝒔𝒔𝒐) = 𝟏 − 𝒑 = 𝒒
O critério para adotar qual evento é considerado sucesso ou fracasso é totalmente
subjetivo. Nesse caso, a questão deve fornecer aquilo que ela considera como sucesso
(adotando 𝑋 = 1) e aquilo que considera como fracasso (adotando 𝑋 = 0).
O parâmetro da distribuição de Bernoulli (probabilidade de sucesso “p”) pode ser obtido
a partir de inúmeras observações do experimento aleatório. Com isso, utilizando uma
amostragem, é possível efetuar uma estimativa da probabilidade de sucesso de um
determinado evento. Nas questões de Estatística que envolverem variáveis aleatórias discretas,
o parâmetro “p” geralmente é fornecido. Caso a questão se tratar de amostragem ou Estatística
Inferencial, a estimativa da probabilidade “p”, também conceituada como proporção, pode ser
alvo de questão.
Qualquer evento que é interpretado por resultados categóricos (sim ou não; é ou não é;
ocorre ou não ocorre) pode ser representação por uma variável aleatória discreta com
distribuição Bernoulli. Assim alguns exemplos de experimentos aleatórios que se encaixam
nessa distribuição:
➢ Lançamento de uma moeda: sucesso = cara (X=1); fracasso = coroa (X=0);
➢ Acertar tiro em um alvo: sucesso = acerto (X=1); fracasso = erro (X=0);
➢ Tirar uma carta ímpar do baralho: sucesso = ímpar (X=1); fracasso = par (X=0);
➢ Operação de resgate: sucesso = resgatado (X=1); fracasso = não resgatado (X=0);
➢ Condenação de um réu: sucesso = condenado (X=1); fracasso = absolvido (X=0);
OBJETO DE ESTUDO
Para exemplificar toda a performance dessa distribuição, será considerado a
seguinte variável aleatória X: capacidade, de um atirador de elite, de acertar o alvo
desejado. Para estudar esse fenômeno, foi analisado vários ensaios prévios e obteve-
se que o atirador de elite possui uma probabilidade de acerto igual a 80% (p = 0,8).
𝒑 = 𝟎, 𝟖
𝒒 = 𝟏 − 𝟎, 𝟖 = 𝟎, 𝟐
MUDE SUA VIDA!

124
A distribuição de probabilidade é graficamente representada:
O valor esperado (média) de uma variável aleatória com distribuição de Bernoulli pode
ser facilmente simplificado pela seguinte expressão:
Assim:
Dessa forma, conforme o exemplo, o valor esperado é:

𝑬(𝑿) = 𝟎, 𝟖 𝒂𝒄𝒆𝒓𝒕𝒐𝒔
Além disso, obter a variância de uma variável aleatória com distribuição de Bernoulli é
outra informação muito importante e perguntada em provas. É possível simplificar esse
conhecimento da seguinte forma:
MUDE SUA VIDA!

125
Assim, a variância, no exemplo, tem o seguinte valor:
𝑽𝒂𝒓(𝑿) = 𝟎, 𝟖 × 𝟎, 𝟐 = 𝟎, 𝟏𝟔 𝒂𝒄𝒆𝒓𝒕𝒐𝒔𝟐
Com a dedução da variância, também é possível obter o desvio padrão e o coeficiente de
variação de uma variável aleatória que segue distribuição de Bernoulli:
𝑫𝑷(𝑿) = √𝒑𝒒
𝑫𝑷(𝑿) = √𝟎, 𝟏𝟔 = 𝟎, 𝟒 𝒂𝒄𝒆𝒓𝒕𝒐𝒔
𝑫𝑷(𝑿) √𝒑𝒒
𝐶𝑽(𝑿) = =
𝑬(𝑿) 𝒑
𝟎, 𝟒
𝑪𝑽(𝑿) = = 𝟎, 𝟓 = 𝟓𝟎%
𝟎, 𝟖
Em síntese de tudo abordado da distribuição de Bernoulli, as principais deduções e
fórmulas são:
DISTRIBUIÇÃO BINOMIAL
A distribuição discreta de probabilidade Binomial consiste na realização de sucessivos
experimentos aleatórios de Bernoulli, isto é, a repetição de “n” experimentos com apenas
dois resultados possíveis (sucesso e fracasso). Sobretudo, para uma variável aleatória discreta
seguir uma distribuição Binomial, deve atender os seguintes pressupostos:
➢ É composto por experimentos de Bernoulli que irão se repetir “n” vezes (n > 1 e
finito);
➢ Cada experimento, individualmente, assume apenas dois resultados (sucesso e
fracasso) – pressupostos de Bernoulli;
MUDE SUA VIDA!

126
➢ A cada repetição do experimento Bernoulli, as probabilidades de sucesso e fracasso

se mantêm constantes (os eventos são independentes);
Se caso um desses pressupostos não forem obedecidos, a variável aleatória não seguirá
uma distribuição Binomial e todas as deduções matemáticas não poderão ser aplicadas. Em
destaque a última pressuposição, se apenas as probabilidades de sucesso e fracasso forem
alteradas a cada experimento de Bernoulli, os dados seguirão a distribuição Hipergeométrica.
EXEMPLO:
No caso de retiradas (por exemplo, bolas de uma urna) ou sorteios (por
exemplo, pessoas sorteadas para uma pesquisa), a probabilidade Binomial só poderá
ser utilizada se o experimento for com reposição, pois neste caso a probabilidade
de sucesso não varia ao longo do experimento. Caso contrário, se for sem
reposição, deverá ser utilizada a probabilidade Hipergeométrica.
De modo geral, uma variável aleatória Y qualquer que segue distribuição Binomial é
simbolizada pela notação:
𝒀~𝑩(𝒏, 𝒑)
Os parâmetros da distribuição binomial são: a probabilidade de sucesso “p” de cada
experimento aleatório de Bernoulli (uma vez que são independentes, é uma probabilidade que
não se altera); e o número de vezes “n” que esse experimento é repetido. Com essas duas
informações, é possível definir toda distribuição de probabilidade binomial.
Qualquer evento que se encaixe na distribuição de Bernoulli, pode se tornar Binomial se
repetido mais do que uma vez, assim, a Binomial é a soma de “n” variáveis de Bernoulli
independentes.
𝑿~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑) + 𝑿~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑)+. . . + 𝒏 𝒗𝒆𝒛𝒆𝒔 = 𝒀~𝑩(𝒏, 𝒑)

Como o experimento se repete n vezes, as questões que envolvem a probabilidade de uma
distribuição Binomial, normalmente, perguntam quantas vezes irão conseguir tal resultado em
uma quantidade de vezes que o experimento foi repetido. Por isso, geralmente, trazem no
enunciado a seguinte pergunta:
“Qual a probabilidade de se obter s sucessos em n tentativas?”
OBJETO DE ESTUDO
O mesmo experimento exemplificado na distribuição de Bernoulli pode ser
abordado para essa distribuição, alterando o objeto de estudo para a seguinte forma:
para analisar a habilidade de um atirador de elite, foram feitos vários ensaios quanto
a exatidão de seus tiros. Nesse estudo, obteve-se que probabilidade de acerto o alvo
é igual a 80%. Dessa forma, qual a probabilidade desse atirador acertar o alvo duas
vezes em três disparos;
𝒏 = 𝟑 𝒅𝒊𝒔𝒑𝒂𝒓𝒐𝒔
𝒑 = 𝟎, 𝟖
𝒒 = 𝟏 − 𝟎, 𝟖 = 𝟎, 𝟐
MUDE SUA VIDA!

127
É possível entender que, do total de três repetições do experimento, o atirador poderá

acertar (sucesso) ou errar (fracasso) o alvo. Com isso, o “n” é composto pela soma de “s”
sucessos e “f” fracassos.
𝒏=𝒔+𝒇
Nesse exemplo, como o interesse é obter a probabilidade dois acertos em três tentativas,
tem-se que:
𝒔 = 𝟐 𝒂𝒄𝒆𝒓𝒕𝒐𝒔 𝒇 = 𝟏 𝒆𝒓𝒓𝒐
𝒏 = 𝟐 + 𝟏 = 𝟑 disparos
Sobretudo, compreendendo o fenômeno de uma distribuição Binomial, a probabilidade
pode ser calculada pela seguinte expressão:
Em que a combinação de “s” resultados de sucesso em “n” tentativas é expressa por:

𝒏!
𝑪𝒏,𝒔 =
(𝒏 − 𝒔)! 𝒔!
Conforme o exemplo abordado, o cálculo da probabilidade, para acertar dois tiros em três
tentativas, ficará da seguinte forma:
p = 0,8 q = 0,2 n=3 s=2 f =1
𝟑! 𝟑. 𝟐. 𝟏
𝑪𝒏,𝒔 = = =𝟑
(𝟑 − 𝟐)! 𝟐! 𝟏. 𝟐. 𝟏
𝑷(𝒀=𝟐) = 𝟑 × 𝟎, 𝟖𝟐 × 𝟎, 𝟐𝟏 = 𝟑 × 𝟎, 𝟔𝟒 × 𝟎, 𝟐 = 𝟎, 𝟑𝟖𝟒
Simplesmente, decorar a fórmula da probabilidade Binomial, pode ser uma alternativa

não muito viável para obter sucesso em questões de Estatística. Para tanto, é interessante
compreender cada componente da fórmula, estudando o espaço amostral de um experimento
Binomial com poucas repetições, veja:
MUDE SUA VIDA!

128
Dessa forma, é possível compreender que em três disparos existem oito possibilidades
diferentes de acertar ou errar o alvo. Dessas possibilidades, possuem quatro resultados
distintos, pois a ordem dos acertos e erros dos disparos não mudam o resultado (acertar duas
vezes em três tiros). Além disso, existem três possibilidades de acertar dois em três disparos.
Para obter essa quantidade, o recurso matemático apropriado é a combinação, isto é, quantifica
o número de vezes que ocorrerá o resultado desejado em todas as possíveis combinações do
experimento Binomial. Por último, as probabilidades dos três experimentos interagem de modo
independente, portanto, pode ser aplicado o produto das probabilidades, de modo que se
multiplica a probabilidade de sucesso elevado ao número de vezes que ocorrerá esse resultado
e o fracasso também ao número de vezes que ocorrerá.
Assim, aplicando-se esse raciocínio ao exemplo em tela, é possível compreender que

ocorrerá três vezes a probabilidade de 0,128 que corresponde a acerta dois disparos em três
tentativas. A fórmula pode assim ser esclarecida da seguinte forma:
Esse comportamento da distribuição Binomial irá se repetir conforme quantas vezes um

experimento Bernoulli for repetido. Cada vez que aumenta o número de repetições “n”, maiores
são as combinações possíveis do espaço amostral e fica muito trabalhoso ilustrar todos os
resultados possíveis. Por isso, é interessante compreender o fenômeno em exemplos pequenos
MUDE SUA VIDA!

129
e aplicar os cálculos matemáticos para qualquer variável aleatória que siga as distribuições de
probabilidade Binomial.
IMPORTANTE:
Não confunda a expressão Binomial com a ideia de que a variável aleatória X
assumirá somente dois valores (0 e 1), pois a distribuição Binomial é a soma de
experimentos de duas possibilidades (experimento de Bernoulli). O que determina a
quantidade de valores da variável aleatória X é o “n”, portanto, para uma variável
Binomial X com n igual a 3, existem os seguintes valores:
𝑋 = 0 → Não acertar nenhum disparo no alvo; 𝑃(𝑋=0) = 0,008
𝑋 = 1 → Acerta um de três disparos no alvo; 𝑃(𝑋=1) = 3 × 0,032 = 0,096
𝑋 = 2 → Acerta dois de três disparos no alvo; 𝑃(𝑋=2) = 3 × 0,128 = 0,384
𝑋 = 3 → Acerta os três disparos no alvo; 𝑃(𝑋=3) = 0,512
Assim sendo, a variável X pode assumir os valores: 𝑋 = 0, 1, 2, 3, . . . , 𝑛. Os valores
representam a contagem de 𝑠 sucessos que podem ocorrer em 𝑛 tentativas. Isto é,
o número de valores que a variável Binomial poderá assumir é igual a n + 1. Para
cada um desses valores de X, podemos calcular a probabilidade associada por meio
da fórmula Binomial.
Ainda, é interessante compreender como fica representada graficamente a distribuição

de probabilidade Binomial. Veja para o exemplo discutido:
A forma como a Binomial será distribuída dependerá das probabilidades de sucesso (𝑝) e
fracasso (𝑓), de modo que, para experimentos Binomiais com probabilidade de sucesso maiores
que 50%, terá maior massa de probabilidade para eventos que representam mais sucessos
obtidos (no exemplo em questão, para n = 3, terá maior massa de probabilidade para valores 2
e 3). O contrário seria observado para um experimento Binomial com probabilidade de sucesso
menor que 50%, isto é, maior massa de probabilidade para eventos relacionados ao fracasso
(no exemplo, valores 0 e 1).
No exemplo, com valor de n = 3, como o 𝑝 é maior que 80%, o gráfico da função massa de
probabilidade 𝑃(𝑋𝑖) será crescente; caso os valores de 𝑝 fossem menor que 20% o gráfico 𝑃(𝑋𝑖)
seria decrescente; e para valores entre 20% a 80% o gráfico terá maior massa de probabilidade
nos valores centrais.
O número de experimentos Bernoulli (𝑛) determinará quantos valores uma distribuição
Binomial poderá assumir, sendo obtido pela função de n + 1. Com o aumento do 𝑛, aumenta-se
o número de combinações possíveis de sucesso no total de tentativas.
Ainda, é interessante obter o valor esperado de uma variável aleatória que segue
distribuição Binomial. Para isso, é mais fácil entender que uma variável Binomial é a soma de
MUDE SUA VIDA!

130
variáveis aleatórias, independentes entre si, com distribuição de Bernoulli. Nessa circunstância
é possível aplicar a propriedade IV do valor esperado. Assim, se o valor esperado em Bernoulli
é 𝐸(𝑋) = 𝑝, em uma variável Binomial Y será:
𝒀~𝑩(𝒏, 𝒑) = 𝑿𝟏 ~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑) + 𝑿𝟐 ~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑)+. . . +𝑿𝒏 ~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑)
𝑬(𝒀) = 𝑬(𝑿𝟏 ) + 𝑬(𝑿𝟐 )+. . . + 𝑬(𝑿𝒏 )

𝑬(𝒀) = 𝒑𝟏 + 𝒑𝟐 +. . . +𝒑𝒏 = 𝒏𝒑
Basicamente, o cálculo do valor esperado da Binomial é uma expansão da Bernoulli, ou

seja, multiplica-se a probabilidade de sucesso por quantas vezes o experimento Bernoulli irá se
repetir. Ao identificar que uma variável aleatória segue uma distribuição Binomial, é muito mais
prático aplicar essa fórmula comparativamente ao cálculo original do valor esperado [𝐸(𝑋) =
∑ 𝑋𝑖 𝑃(𝑋𝑖 )]. Muitas questões de Estatística, podem ser facilmente resolvidas com essa fórmula.
Desse modo, pelo exemplo apresentado, o valor esperado é:
𝑬(𝒀) = 𝟑 × 𝟎, 𝟖 = 𝟐, 𝟒 𝒂𝒄𝒆𝒓𝒕𝒐𝒔
Com isso, ao disparar três tiros em um alvo, e repetir esse experimento várias vezes, os
disparos efetuados pelo atirador de elite terão em média 2,4 acertos, isto é, predominará
resultados com 2 a 3 acertos.
Nessa mesma ideia, pode ser calculado o valor esperado, a média, para o resultado
fracasso com probabilidade 𝒒, isto é, a média de não ocorrer o evento de sucesso (¬𝑌) que
representa sua complementar:
𝑬(¬𝒀) = 𝒏𝒒
𝑬(¬𝒀) = 𝟑𝒙𝟎, 𝟐 = 𝟎, 𝟔 𝒆𝒓𝒓𝒐𝒔
Ou também pode ser obtido por:
𝑬(¬𝒀) = 𝒏 − 𝑬(𝒀)
𝑬(¬𝒀) = 𝟑 − 𝟐, 𝟒 = 𝟎, 𝟔 𝒆𝒓𝒓𝒐𝒔
O mesmo raciocínio da soma das variáveis Bernoulli pode ser aplicado para obter a
fórmula da variância em uma distribuição Binomial. Uma vez que a variável Binomial
corresponde a soma de variáveis Bernoulli independentes, pode ser aplicado a propriedade
IV da variância. Assim, se a variância em Bernoulli é 𝑉𝑎𝑟(𝑋) = 𝑝𝑞, em uma variável Binomial Y
será:
𝒀~𝑩(𝒏, 𝒑) = 𝑿𝟏 ~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑) + 𝑿𝟐 ~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑)+. . . +𝑿𝒏 ~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑)
𝑽𝒂𝒓(𝒀) = 𝑽𝒂𝒓(𝑿𝟏 ) + 𝑽𝒂𝒓(𝑿𝟐 )+. . . + 𝑽𝒂𝒓(𝑿𝒏 )

𝑽𝒂𝒓(𝒀) = 𝒑𝟏 × 𝒒𝟏 + 𝒑𝟐 × 𝒒𝟐 +. . . +𝒑𝒏 × 𝒒𝒏 = 𝒏𝒑𝒒
MUDE SUA VIDA!

131
Com isso, é possível obter informações quanto a dispersão da variável aleatória Y. Para o
exemplo abordado, a variância tem o seguinte valor:
𝑽𝒂𝒓(𝒀) = 𝟑 × 𝟎, 𝟖 × 𝟎, 𝟐 = 𝟎, 𝟒𝟖 𝒂𝒄𝒆𝒓𝒕𝒐𝒔𝟐
Consequentemente, o desvio padrão e o coeficiente de variação são:
𝑫𝑷(𝒀) = √𝒏𝒑𝒒
𝑫𝑷(𝒀) = √𝟑𝒙𝟎, 𝟖𝒙𝟎, 𝟐 = 𝟎, 𝟔𝟗 𝒂𝒄𝒆𝒓𝒕𝒐𝒔

𝑫𝑷(𝒀) √𝒏𝒑𝒒
𝑪𝑽(𝒀) = =
𝑬(𝒀) 𝒏𝒑
𝟎, 𝟔𝟗
𝑪𝑽(𝒀) = = 𝟎, 𝟐𝟖𝟕𝟓 = 𝟐𝟖, 𝟕𝟓%
𝟐, 𝟒
Em síntese, as principais deduções e fórmulas da distribuição Binomial são:
DISTRIBUIÇÃO DE POISSON
A distribuição discreta de Poisson consiste em experimentos aleatórios que quantificam
a probabilidade de ocorrer um determinado evento sobre um intervalo contínuo de tentativas,
que, geralmente, se trata de um intervalo de tempo ou espaço. Desse modo, essa distribuição
não é empregada em experimentos com objetivo de avaliar o número de ocorrências obtidas
em 𝑛 tentativas (como ocorre no caso da distribuição Binomial), mas sim no número de
ocorrências durante um intervalo contínuo – sua frequência.
Por exemplo:
• O número de vezes que o telefone toca em um intervalo de 5 horas;
• O número de acidentes automobilísticos ocorridos em uma rodovia em um mês;
• O número de defeitos encontrados em um rolo de arame de 500m.
Convém notar que, nos exemplos acima, não há interesse em se determinar a
probabilidade de o telefone tocar, ou de o acidente ocorrer, ou de o defeito existir, mas sim na
frequência de sua ocorrência, como, por exemplo, o telefone tocar 10 vezes no intervalo de
duas horas. Em razão disso, as questões que envolvem essa temática costumam ter o seguinte
modelo:
“Qual a probabilidade de obter x ocorrências em determinado intervalo (de tempo
ou espaço)? “
MUDE SUA VIDA!

132
A distribuição de Poisson tem as mesmas pressuposições de uma distribuição Binomial,

porém o número de sucessos (s) poderá ocorrer em 𝑛 tentativas durante um intervalo infinito
(contínuo). Com isso, nessa distribuição, é comum trabalhar com a ideia de ocorrências
(representada por “𝑘”), ao invés de uma quantidade determinada de 𝑠 eventos de sucesso e 𝑓
eventos de fracasso. Sobretudo, as pressuposições podem ser adaptadas da seguinte forma:
➢ Trata-se de eventos que podem ocorrer e não ocorrer (espaço amostral reduzido a
duas possibilidades: sucesso ou fracasso);
➢ É composto por experimentos de Bernoulli que ocorrem em um intervalo contínuo
(𝑛 tende ao infinito);
➢ A ocorrência de um evento, em um intervalo contínuo, é independente da
ocorrência de outro evento (probabilidade de ocorrência permanece constante no
decorrer do intervalo contínuo);
➢ O número médio de ocorrências por unidade de intervalo contínuo deve
permanecer constante (µ).
Portanto, uma variável aleatória X qualquer que representa o número de ocorrências
independentes em um intervalo de tempo ou espaço seguirá a distribuição de probabilidade de
Poisson. Simbolicamente expresso da seguinte forma:
𝑿~𝑷𝒐𝒊𝒔𝒔𝒐𝒏(µ)
Assim, X segue distribuição de Poisson com parâmetro µ, sendo “µ” o número médio de
ocorrências no intervalo definido pela probabilidade.
A variável X de Poisson pode assumir os valores: 𝑋 = 0, 1, 2, 3, . . . , +∞. Deve-se observar
que o valor de X não tem um limite (tende ao infinito), diferentemente da variável Binomial que
poderia ser expresso pela função n+1. Para cada um desses valores de X, podemos calcular a
probabilidade associada por meio da fórmula de Poisson.
Nessas circunstâncias, a probabilidade de um determinado evento se comporta de tal
modo que pode ser obtida a partir da seguinte fórmula:
Em que:
𝑘: É o número de ocorrências em um intervalo (variável);
𝑃(𝑋=𝑘) : Corresponde a probabilidade de 𝑘 ocorrências em um intervalo contínuo, para
variável aleatória X;
𝜇: Corresponde a média de ocorrências no intervalo definido pela probabilidade
(frequência média de ocorrência no intervalo específico; parâmetro da distribuição);
𝑒: Constante Neperiana; 𝑒 ≅ 2,72;
A fórmula matemática da probabilidade de Poisson nada mais é do que uma dedução do
modelo Binomial para o caso em que se tem infinitas tentativas de sucesso ou fracasso.
Compreender o raciocínio matemático para esse caso não é muito interessante para aluno,
basta apenas associar essa fórmula com um evento que segue uma distribuição de Poisson, além
de ter bem claro quais são suas pressuposições. Muitas vezes, a fórmula matemática será
fornecida na questão, sendo exigido do aluno a compreensão dessa distribuição e a forma como
a informação pode ser manipulada e interpretada.
Para entender a aplicação da distribuição de Poisson, vamos adaptar o mesmo exemplo
abordado em Bernoulli e Binomial.
MUDE SUA VIDA!

133
OBJETO DE ESTUDO:
Para analisar a habilidade de um atirador de elite, foram feitos vários ensaios
quanto a exatidão de seus tiros. Nesse estudo, obteve-se que probabilidade de acerto
o alvo é igual a 80%. Dessa forma, qual a probabilidade desse atirador acertar o alvo
sete vezes em 20 minutos, sabendo que em média ele acerta 30 tiros em uma
hora.
Geralmente, nas questões de Poisson, não são fornecidos valores de probabilidade de

sucesso 𝑝, e sim uma frequência média de ocorrências µ. Veja que o interesse é obter a
probabilidade de acertar o alvo 7 vezes no intervalo de 20 minutos. Junto a isso, foi fornecido
uma frequência média de 30 acertos em uma hora (60 minutos). Nesse tipo de problema,
quando é fornecido uma frequência média em intervalo de tempo diferente da frequência
definida pela probabilidade de interesse (20 minutos), é necessário obter a média para o
mesmo intervalo. Portanto, uma simples regra de três é suficiente para obter a µ.
𝟑𝟎 𝒂𝒄𝒆𝒓𝒕𝒐𝒔 𝝁
=
𝟔𝟎 𝒎𝒊𝒏 𝟐𝟎𝒎𝒊𝒏
𝟒𝟎𝟎
𝝁= = 𝟏𝟎 𝒂𝒄𝒆𝒓𝒕𝒐𝒔/ 𝟐𝟎 𝒎𝒊𝒏
𝟔𝟎
𝝁 = 𝟏𝟎
Com essa informação, é possível calcular a probabilidade de o atirador acertar 7 tiros no
intervalo de 20 minutos da seguinte forma:
𝒆−𝟏𝟎 𝟏𝟎𝟕
𝑷(𝑿=𝟕) =
𝟕!
As perguntas sobre a probabilidade de uma variável aleatória com distribuição de
Poisson, muitas vezes, não exigem a solução completa da fórmula apresentada. É mais
frequente trabalhar com a ideia de determinar 𝑘 ocorrências e sua frequência média µ,
colocando apenas os valores na fórmula. Quando uma questão exigir a solução matemática,
normalmente, será fornecido os valores dos cálculos exponenciais mais complexos de se obter
manualmente, nesse caso, por exemplo, seria fornecido o valor da constante "𝑒" elevado a
alguns valores de potências específicos para posterior resolução do cálculo:
Valor que seria normalmente fornecido na questão → 𝑒 −10 = 4,54𝑥10−5
𝟒, 𝟓𝟒 × 𝟏𝟎−𝟓 × 𝟏𝟎𝟕 𝟒, 𝟓𝟒 × 𝟏𝟎𝟎 𝟒𝟓𝟒

𝑷(𝑿=𝟕) = = = = 𝟎, 𝟎𝟗
𝟕! 𝟓𝟎𝟒𝟎 𝟓𝟎𝟒𝟎
𝑷(𝑿=𝟕) = 𝟎, 𝟎𝟗 = 𝟗%
Dessa forma, a probabilidade de o atirador de elite acertar 7 vezes o alvo, no intervalo de
20 minutos, tem 9% de chances de ocorrer.
MUDE SUA VIDA!

134
Tendo conhecimento que um fenômeno segue uma distribuição de Poisson, é possível

definir a probabilidade de qualquer 𝑘 ocorrência para uma frequência média µ. Assim, para o
exemplo em questão, as probabilidades ficam distribuídas da seguinte maneira:
MUDE SUA VIDA!

135
Graficamente, pode ser ilustrada da seguinte forma:
Basicamente, a probabilidade aumenta conforme os valores da variável X se aproximam

da frequência média de ocorrências µ, após esse valor, as probabilidades começam a reduzir,
tornando-se desprezíveis (próximas de zero) quando se distanciam consideravelmente do
parâmetro µ. Ainda assim, é possível estimar uma probabilidade de ocorrência para os infinitos
valores que X pode assumir, no entanto, sua distribuição concentra-se em µ e ínfima em valores
muito distantes a ela.
A distribuição de Poisson é associada a “eventos raros”, isso porque sua probabilidade é
particionada nas infinitas 𝑘 ocorrências que a variável aleatória pode assumir. O que pode ser
facilmente compreendido ao observar o gráfico da função de massa de probabilidade de
Poisson.
Apesar da fórmula de probabilidade de Poisson ser mais complexa, em compensação a
definição do valor esperado e da variância é muito mais simples nessa distribuição. Isso porque
essas informações são definidas assim:
Isso mesmo, o valor esperado, em módulo, é igual a variância de uma variável aleatória
que segue distribuição Poisson. Em adição, a própria frequência média de ocorrências µ
corresponde ao valor em módulo do E(X) e Var(X). Assim, uma vez encontrada a média de
ocorrências no intervalo definido pela probabilidade, já se obtém a média e a variância da
variável aleatória. Conforme o exemplo tem-se:
𝑬(𝑿) = 𝟏𝟎 𝒂𝒄𝒆𝒓𝒕𝒐𝒔
𝑽𝒂𝒓(𝑿) = 𝟏𝟎 𝐚𝐜𝐞𝐫𝐭𝐨𝐬 𝟐
Com isso, também é possível calcular o desvio padrão e o coeficiente de variação:
𝑫𝑷(𝑿) = √𝝁
𝑫𝑷(𝑿) = √𝟏𝟎 = 𝟑, 𝟏𝟔 𝒂𝒄𝒆𝒓𝒕𝒐𝒔

𝑫𝑷(𝑿) √𝝁
𝑪𝑽(𝑿) = =
𝑬(𝑿) 𝝁
𝟑, 𝟏𝟔
𝑪𝑽(𝑿) = = 𝟎, 𝟑𝟏𝟔 = 𝟑𝟏, 𝟔%
𝟏𝟎
MUDE SUA VIDA!

136
➢ Aproximação da Distribuição de Poisson para Binomial:

As definições aplicadas na distribuição de Poisson podem ser utilizadas como
aproximação de uma distribuição Binomial. Existem fenômenos que seguem a rigor uma
distribuição Binomial, no entanto, matematicamente se tornaria muito trabalhoso sua
resolução. Nessas situações, uma aproximação da distribuição de Poisson pode solucionar a
questão com muito mais agilidade, obtendo valores muito semelhantes. Primeiramente, é
interessante entender que a diferença entre duas distribuições Binomial e Poisson quaisquer,
com mesmo valor esperado E(X), está na seguinte relação:
Enquanto em uma distribuição Binomial o valor de tentativas 𝑛 (experimentos de

Bernoulli) é finito e determinado, o valor 𝑛 em Poisson tende ao infinito (+∞). Nesse caso, a
distribuição de Poisson é uma condição singular onde o 𝑛 aumenta infinitamente e a
probabilidade de sucesso 𝑝 é ínfima (próximo a zero) o que praticamente mantém constante
uma média µ. Com esse raciocínio, é possível aproximar a distribuição de Poisson quando a
Binomial apresenta os parâmetros nas seguintes condições:
• O valor de 𝑛 for elevado, geralmente, para 𝑛 ≥ 100;
• O valor de 𝑝 muito pequeno (eventos raros), geralmente, para 𝑝 ≤ 0,1;
• Também pode ser observado pelo valor 𝑛𝑝 ≤ 10;
Nessas condições dizemos que a distribuição Binomial converge para a distribuição de
Poisson. Em situações com valores elevados de 𝑛, pode ser consumido muito tempo usando os
cálculos da distribuição Binomial. Além disso, valores muito pequenos de 𝑝 podem gerar
cálculos trabalhosos com decimais. Portanto, nessa situação, quando o aluno se deparar com
uma variável aleatória que segue uma distribuição Binomial, porém os seus parâmetros
apresentam as condições citadas acima, utilizar a distribuição de Poisson aproximada pode ser
uma excelente alternativa para responder à questão com agilidade e eficiência. Vamos
visualizar a aplicação desse recurso a partir do mesmo exemplo adaptado:
Qual a probabilidade de um atirador sem experiência em armas acertar exatamente 5
vezes o alvo em 200 disparos, sabendo que a probabilidade de acerto é de 5%.
Conforme o exemplo, há interesse em quantificar a probabilidade de o atirador acertar 5
disparos em 200 tentativas, assim, o valor 𝑛 é finito e o experimento segue todos os requisitos
de uma distribuição Binomial. Entretanto, o cálculo da probabilidade ficaria muito extenso e
quase impraticável de se efetuar manualmente, veja:
𝑷(𝑿=𝟓) = 𝑪𝟐𝟎𝟎,𝟓 × 𝟎, 𝟎𝟓𝟓 × 𝟎, 𝟗𝟓𝟏𝟗𝟓

𝟐𝟎𝟎! 𝟐𝟎𝟎 × 𝟏𝟗𝟗 × 𝟏𝟗𝟖 × 𝟏𝟗𝟕 × 𝟏𝟗𝟔 × 𝟏𝟗𝟓!
𝑪𝟐𝟎𝟎,𝟓 = =
(𝟐𝟎𝟎 − 𝟓)! 𝟓! 𝟏𝟗𝟓! × 𝟓!
MUDE SUA VIDA!

137
As condições para aproximação da distribuição Binomial para Poisson estão satisfeitas,

pois 𝑛 = 200 e 𝑝 = 0,05. Nessa condição, utilizar a aproximação é uma excelente alternativa
para responder essa questão com maior simplicidade nos cálculos. Então, X segue
aproximadamente distribuição Poisson com parâmetro µ = 𝑛𝑝, isto é, converge para Poisson:
𝑿~𝑷𝒐𝒊𝒔𝒔𝒐𝒏(𝝁 = 𝒏𝒑)
Para isso, é necessário estabelecer o parâmetro µ da Poisson que pode ser obtido pelo
produto de 𝑛𝑝:
𝝁 = 𝒏𝒑 = 𝟐𝟎𝟎 × 𝟎, 𝟎𝟓 = 𝟏𝟎 𝒂𝒄𝒆𝒓𝒕𝒐𝒔 𝒂 𝒄𝒂𝒅𝒂 𝟐𝟎𝟎 𝒕𝒆𝒏𝒕𝒂𝒏𝒕𝒊𝒗𝒂𝒔
Com isso, obtém-se uma ideia da frequência de acertos que o atirador possui – acerta 10
a cada 200 disparos. Tendo esse parâmetro, é calculado a probabilidade de obter 5 acertos, isto
é, ocorrência 𝑘 = 5 𝑎𝑐𝑒𝑟𝑡𝑜𝑠 𝑒𝑚 200 𝑡𝑒𝑛𝑡𝑎𝑡𝑖𝑣𝑎𝑠.
𝒆−𝟏𝟎 𝟏𝟎𝟓
𝑷(𝑿=𝟓𝟎) =
𝟓!
Sabendo que 𝑒 −10 = 4,54𝑥10−5, o resultado ficará:
𝟒, 𝟓𝟒𝒙𝟏𝟎−𝟓 𝟏𝟎𝟓 𝟒, 𝟓𝟒
𝑷(𝑿=𝟓) = = ≅ 𝟎, 𝟎𝟑𝟒
𝟓! 𝟏𝟐𝟎
O cálculo efetuado pela Binomial teria o seguinte resultado:
𝑷(𝑿=𝟓) = 𝑪𝟐𝟎𝟎,𝟓 𝒙𝟎, 𝟎𝟓𝟓 𝒙𝟎, 𝟗𝟓𝟏𝟗𝟓 ≅ 𝟎, 𝟎𝟑𝟔

Os resultados geraram valores próximos, pois se trata de uma aproximação. Contudo, já é
possível compreender a tendência desse experimento aleatório e seria suficiente para acertar
uma questão da prova.
Em síntese, as principais deduções e fórmulas da distribuição de Poisson são:
DISTRIBUIÇÃO HIPERGEOMÉTRICA
A distribuição Hipergeométrica é caracterizada por fenômenos com pressuposições
semelhantes a uma distribuição Binomial, com única exceção de que as probabilidades para
cada experimento Bernoulli (evento de sucesso ou fracasso) não permanece a mesma. Em
outras palavras, corresponde a uma distribuição de probabilidade que descreve os resultados
de uma sequência de experimentos Bernoulli dependentes. Assim, para caracterizar uma
variável aleatória X qualquer que segue distribuição Hipergeométrica, os seguintes
pressupostos devem ser obedecidos:
➢ É composto por experimentos de Bernoulli que irão se repetir “n” vezes (n > 1 e
finito);
MUDE SUA VIDA!

138

são alteradas (os eventos possuem uma relação de dependência);
O exemplo mais clássico para entender os fenômenos que seguem a distribuição
Hipergeométrica é retirada ou sorteio de elementos sem reposição. Quando a retirada de itens
é feita sem reposição, a probabilidade de sucesso é modificada à medida que os itens são
retirados, dessa forma, não se pode aplicar a probabilidade Binomial. Nessa situação, a
distribuição de probabilidade Hipergeométrica é a mais apropriada para explicar todo o
comportamento probabilístico do fenômeno estudado. Essa distribuição é extremamente
aplicada no contexto de amostragem sem reposição.
A fórmula matemática para quantificar a probabilidade de uma distribuição
Hipergeométrica é definida por:
Em que:
𝑠: É o número de sucessos desejados (variável);
𝑃(𝑋=𝑠) : Corresponde a probabilidade de obter 𝑠 eventos de sucesso, para variável aleatória
X;
𝑁: Corresponde a quantidade total de elementos de uma população qualquer
(parâmetro);
𝑛: Corresponde a quantidade de elementos (tentativas) que serão sorteados, semelhante
a ideia de uma amostra (parâmetro);
𝑚: Corresponde a quantidade total de um elemento específico e de interesse dentro de
toda a população avaliada (parâmetro).
A fórmula da probabilidade Hipergeométrica é complexa para compreender a ideia de sua
distribuição, pois apresenta muitos parâmetros. Sua aplicação prática, em exemplos, é muito
mais interessante para estudá-la.
É importante entender que para quantificar a probabilidade de eventos com
dependências (Hipergeométrica) são necessárias mais informações comparativamente a
evento independentes (Binomial). Além de saber quantas 𝑛 tentativas (experimento Bernoulli)
será efetuada e quantos 𝑠 sucessos se pretendem obter, é preciso conhecer os 𝑁 elementos
sujeitos a sofrer tal experimento (população total) e a quantidade de 𝑚 elementos (dentro da
população) que tem o interesse de se obter (ou ser sorteado). Assim, uma variável aleatória X
qualquer que segue distribuição Hipergeométrica é simbolizada por:
𝑿~𝑯(𝑵, 𝒎, 𝒏)
Assim, X configura-se variável aleatória discreta que representa o número de 𝑠 sucessos
ocorridos em 𝑛 extrações sem reposição.
OBJETO DE ESTUDO:
Um experimento aleatório consiste na retirada sem reposição de processos
administrativos dentro de um caixa. Sabe-se que existem no total 20 processos, e
destes, 14 processos estão em andamento e 6 processos já foram arquivados. Três
processos foram retirados aleatoriamente dessa caixa. Se X corresponde a variável
aleatória definida pelo número de processos em andamento retirados, qual é a
probabilidade de se obter dois processos em andamento dos três retirados?
MUDE SUA VIDA!

139
Para obter a probabilidade Hipergeométrica, é necessário conhecer o número de

elementos da população em estudo (𝑁) e uma possível subdivisão dentro desta população (𝑚)
associada ao objeto de interesse e o seu complementar (o que não é de interesse), entenda:
Com isso, é possível dividir a população (processos administrativos) em duas

subpopulações (𝑚𝑠 processos em andamento e 𝑚𝑓 processos arquivados). Ao mesmo tempo,
pode-se determinar a probabilidade do primeiro sorteio de um elemento de cada subpopulação
[P(ms) e P(mf)]. Esse é o contexto apresentado em uma questão sobre a distribuição
Hipergeométrica, serão fornecidos: o total de elementos de uma população (𝑁); uma subdivisão
desta população (𝑚𝑠 𝑒 𝑚𝑓 ); junto as 𝑛 tentativas ou sorteios (experimento Bernoulli); e os 𝑠
eventos de sucesso desejados. Para exemplo apresentado as informações são as seguintes:
𝑁 = 20 𝑃𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑠 𝐴𝑑𝑚𝑖𝑛𝑖𝑠𝑡𝑟𝑎𝑡𝑖𝑣𝑜𝑠 (𝑝𝑜𝑝𝑢𝑙𝑎çã𝑜);
𝑚𝑠 = 14 𝑃𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑠 𝑒𝑚 𝐴𝑛𝑑𝑎𝑚𝑒𝑛𝑡𝑜 (𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑑𝑒 𝑖𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒);
𝑚𝑓 = (𝑁 − 𝑚𝑠 ) = 6 𝑃𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑠 𝐴𝑟𝑞𝑢𝑖𝑣𝑎𝑑𝑜𝑠 (𝑒𝑙𝑒𝑚𝑒𝑛𝑡𝑜𝑠 𝑐𝑜𝑚𝑝𝑙𝑒𝑚𝑒𝑛𝑡𝑎𝑟𝑒𝑠);
𝑛 = 3 𝑃𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑠 𝑅𝑒𝑡𝑖𝑟𝑎𝑑𝑜𝑠 𝑑𝑎 𝐶𝑎𝑖𝑥𝑎, 𝑠𝑒𝑚 𝑟𝑒𝑝𝑜𝑠𝑖çã𝑜;
𝑠 = 2 𝑃𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑠 𝑒𝑚 𝐴𝑛𝑑𝑎𝑚𝑒𝑛𝑡𝑜 (𝑠𝑢𝑐𝑒𝑠𝑠𝑜);
𝑓 = (𝑛 − 𝑠) = 1 𝑃𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑠 𝐴𝑟𝑞𝑢𝑖𝑣𝑎𝑑𝑜 (𝑓𝑟𝑎𝑐𝑎𝑠𝑠𝑜).
Conhecendo toda a problemática e cada elemento que compõem o fenômeno estudado é
mais fácil identificar a fórmula de probabilidade Hipergeométrica da seguinte maneira:
As combinações apenas são os recursos matemático para encontrar a quantidade de

elementos que compõe o evento e o espaço amostral. Assim, o numerador corresponde ao
produto das possibilidades de obter 𝑠 sucessos com 𝑓 fracassos, que caracteriza todo o evento
determinado pela questão. Em contrapartida, o denominador representa todos resultados
possíveis pelo experimento, isto é, o espaço amostral (Ω):
MUDE SUA VIDA!

140
Na distribuição Binomial, simplesmente, é multiplicado a quantidade de vezes que o

evento de interesse se repete (Cn,s) com as probabilidades p e q constantes elevadas a
quantidade de vezes em que ocorrem. Na Hipergeométrica, o número de resultados favoráveis
(evento desejado) depende da sua composição, isto é, das combinações possíveis dos 𝑠
sucessos, multiplicados pelas combinações possíveis dos 𝑓 fracassos. Esse produto forma
evento de interesse (o numerador da fórmula) que depende do que foi solicitada na questão.
Para exemplo abordado, o evento de interesse é obter dois processos em andamento
dos três retirados, dessa forma, é composto por dois processos em andamento e um processo
arquivado. O raciocínio para obter as combinações adequadas pode ser ilustrado da seguinte
forma:
Em suma, o cálculo da probabilidade para se obter 2 processos administrativos em

andamento de três retiradas aleatórias sem reposição é igual a:
𝑪𝟏𝟒,𝟐 × 𝑪𝟔,𝟏 𝟗𝟏 × 𝟔
𝑷(𝑿=𝟐) = = = 𝟎, 𝟒𝟖
𝑪𝟐𝟎,𝟑 𝟏𝟏𝟒𝟎
A variável aleatória X que segue distribuição Hipergeométrica pode assumir os valores
𝑋 = 0, 1, 2, . . . , 𝑛. Os valores representam a contagem de 𝑠 sucessos que podem ocorrer em 𝑛
tentativas. Assim, o número valores que a varável X pode assumir segue a função 𝑛 + 1, como
MUDE SUA VIDA!

141
ocorre na Binomial. Para o exemplo em questão, a distribuição de probabilidade pode ser

denotada por:
A distribuição também pode ser representada graficamente da seguinte forma:
Após isso, é interessante determinar o valor esperado da variável aleatória X que segue
uma distribuição Hipergeométrica. O E(X) pode ser obtido a partir da seguinte fórmula:
O cálculo é o mesmo que para Binomial, uma vez que a razão ms/N consiste na
probabilidade do primeiro sorteio/retirada do experimento aleatório. Assim:
𝑬(𝑿) = 𝒏𝑷(𝒎𝒔 )
MUDE SUA VIDA!

142
Conforme o exemplo, o cálculo fica da seguinte forma:

𝟏𝟒
𝑬(𝑿) = 𝟑 × = 𝟑 × 𝟎, 𝟕 = 𝟐, 𝟏
𝟐𝟎
𝑬(𝑿) = 𝟐, 𝟏 𝑷𝒓𝒐𝒄𝒆𝒔𝒔𝒐𝒔 𝑨𝒅𝒎. 𝑹𝒆𝒕𝒊𝒓𝒂𝒅𝒐𝒔
Em adição, a variância é calculada de forma semelhante a distribuição Binomial
[𝑉𝑎𝑟(𝑋) = 𝑛𝑝𝑞], porém é aplicado um fator de correção (𝑭𝑪 ) devido a retirada de reposição
do fenômeno Hipergeométrico. Portanto:
𝑽𝒂𝒓(𝑿) = 𝒏 × 𝑷(𝒎𝒔 ) × 𝑷(𝒎𝒇) × 𝑭𝒄

O fator de correção é calculado a partir da seguinte fórmula:
(𝑵 − 𝒏)
𝑭𝒄 =
(𝑵 − 𝟏)
Com todas essas informações, o valor da variância para o exemplo em questão é:
(𝟐𝟎 − 𝟑) 𝟏𝟕
𝑭𝒄 = = = 𝟎, 𝟖𝟗
(𝟐𝟎 − 𝟏) 𝟏𝟗
𝟏𝟒 𝟔
𝑽𝒂𝒓(𝑿) = 𝟑 × × × 𝟎, 𝟖𝟗
𝟐𝟎 𝟐𝟎
𝑽𝒂𝒓(𝑿) = 𝟑 × 𝟎, 𝟕 × 𝟎, 𝟑 × 𝟎, 𝟖𝟗
𝑽𝒂𝒓(𝑿) = 𝟑 × 𝟎, 𝟕 × 𝟎, 𝟑 × 𝟎, 𝟖𝟗 = 𝟎, 𝟓𝟔
𝑽𝒂𝒓(𝑿) = 𝟎, 𝟓𝟔 𝐏𝐫𝐨𝐜. 𝐀𝐝𝐦. 𝐑𝐞𝐭𝐢𝐫𝐚𝐝𝐨𝐬 𝟐
MUDE SUA VIDA!
143
Com isso:
𝑫𝑷(𝑿) = √𝒏 × 𝑷(𝒎𝒔 ) × 𝑷(𝒎𝒇 ) × 𝑭𝒄
𝑫𝑷(𝑿) = √𝟎, 𝟓𝟔 = 𝟎, 𝟕𝟓
𝑫𝑷(𝑿) = 𝟎, 𝟕𝟓 𝐏𝐫𝐨𝐜. 𝐀𝐝𝐦. 𝐑𝐞𝐭𝐢𝐫𝐚𝐝𝐨𝐬
√𝒏 × 𝑷(𝒎𝒔 ) × 𝑷(𝒎𝒇) × 𝑭𝒄
𝑪𝑽(𝑿) =
𝒏 × 𝑷(𝒎𝒔 )
𝟎, 𝟕𝟓
𝑪𝑽(𝑿) = = 𝟎, 𝟑𝟔 = 𝟑𝟔%
𝟐, 𝟏
➢ Relação entre as Distribuições Hipergeométrica e Binomial:
Ambas as distribuições (Hipergeométrica e Binomial) descrevem a probabilidade que um
evento que ocorre 𝑠 vezes em 𝑛 tentativas. Para a distribuição Binomial, a probabilidade é a
mesma para cada experimento Bernoulli. Já para a distribuição Hipergeométrica, cada
experimento muda a probabilidade subsequente, pois não há reposição.
Em situações em que a diferença entre a população total (𝑁) e os elementos sorteados (𝑛)
é muito grande (𝑁 >> 𝑛), o resultado da probabilidade entre uma distribuição Binomial e
Hipergeométrica, praticamente, não apresenta relevantes diferenças entre estas
probabilidades, sendo pequena o suficiente para ignorar a maioria das aplicações. Já para
situações com pequena diferença entre população e elementos sorteados (𝑁 << 𝑛), a
distribuição Hipergeométrica obtém probabilidades discrepantes comparativamente a
Binomial. O efeito de dependência entre os eventos exerce um grande efeito sobre o resultado
do próximo sorteio, alterando significativamente a probabilidade de uma variável aleatória X
para 𝑠 sucessos. Como regra prática considera-se que X~H(N,n,p) pode ser aproximada por
X~B(n,p) quando 𝑁 ≥ 10𝑛.
A principal diferença entre a distribuição Hipergeométrica e Binomial está alteração da

probabilidade a cada evento sem reposição. Matematicamente, esse efeito afeta o valor da
probabilidade e a variância da distribuição Hipergeométrica, observado pela presença de um
fato de correção (FC). Sendo assim, a aproximação entre essas distribuições pode ser
fundamentada pelo valor do fator de correção que, em situações de 𝑁 ≥ 10𝑛, é muito próximo
de um:
MUDE SUA VIDA!

144
𝑵−𝒏
𝑵 >> 𝒏 → 𝑭𝑪 = ≅𝟏
𝑵−𝟏
Nessa condição, a variância de uma variável aleatória com distribuição Hipergeométrica
𝑋~𝐻(𝑁, 𝑚, 𝑛) é igual a variância uma variável aleatória com distribuição Binomial 𝑌~𝐵(𝑛, 𝑝).
Portanto, a distribuição Hipergeométrica converge para um Binomial quando o N tende ao
infinito (𝑁 → ∞). A aproximação da distribuição Hipergeométrica pela Binomial é útil, uma vez
que o cálculo da função de probabilidade é mais simples no segundo caso.
Em síntese, as principais deduções e fórmulas da distribuição de Hipergeométrica são:
DISTRIBUIÇÃO GEOMÉTRICA
A distribuição discreta de probabilidade Geométrica consiste em um experimento
aleatório que está interessado na probabilidade de um determinado resultado (sucesso e
fracasso) acontecer pela primeira vez em uma tentativa 𝑛 específica. As pressuposições que
caracterizam essa distribuição são:
➢ É composto por 𝑛 tentativas de experimentos Bernoulli que irão se repetir até obter
sucesso pela primeira vez na tentativa 𝑛 (n > 1 e finito);
se mantêm constantes (os eventos são independentes);
Assim, essa distribuição analisa a seguinte questão:
“Qual a probabilidade de obter sucesso, pela primeira vez, na tentativa 𝒏?”
Assim a variável aleatória X que segue distribuição Geométrica assume valores que
representam o número de fracassos (𝑓) antes de obter o primeiro sucesso 𝑋 = 0, 1, 2, . . . , +∞.
Assim, calculamos o valor de X que corresponde a 𝑓 fracassos ocorridos. O primeiro sucesso
pode ocorrer em valores que tendem ao infinito, apesar da probabilidade ser cada vez menor.
Quando X segue distribuição Geométrica, pode ser simbolizada da seguinte forma:
𝑿~𝑮(𝒑)
O único parâmetro da distribuição Geométrica é a probabilidade de obter sucesso no
experimento Bernoulli, isto é:
O 𝑛 nessa distribuição não é parâmetro e sim variável, pois o objetivo é detectar a

probabilidade de determinado evento ocorrer pela primeira vez em uma tentativa 𝑛. Assim,
sabe-se que pode obter sucesso pela primeira vez em qualquer 𝑛 tentativa, e, quando obter
sucesso na tentativa 𝑛, todas as demais foram obtidos o resultado fracasso (𝑓). Desse modo, os
eventos podem {Sucesso; Fracasso, Sucesso; Fracasso, Fracasso, Sucesso; ...+∞}. Veja:
MUDE SUA VIDA!

145
Nesse exposto, podemos definir a função massa de probabilidade para uma distribuição
Geométrica da seguinte forma:
Ou então:
𝑷(𝑿=𝒇) = 𝒑𝒒𝒇
Em que:
𝑃(𝑋=𝑓) : Corresponde a probabilidade de obter f eventos de fracasso até alcançar o
primeiro resultado sucesso, para variável aleatória X;
𝑝: Probabilidade de obter sucesso;
(1 − 𝑝) = 𝑞: Probabilidade de obter fracasso;
𝑓: Número de fracassos.
Facilmente, o raciocínio desenvolvido para obter essa fórmula pode ser compreendido a
partir do seguinte esquema:
Essa distribuição é chamada Geométrica, pois apresenta o mesmo comportamento de

progressão geométrica estuda na matemática (mesma fórmula para obter um termo da
progressão).
Para trabalhar com a aplicação da distribuição Geométrica, será abordado um exemplo
semelhante ao abordado na distribuição Binomial.
OBJETO DE ESTUDO:
Qual a probabilidade de um atirador de elite acertar no quinto disparo,
sabendo que sua probabilidade de acertar um disparo é igual a 80% (𝑝 = 0,8).
MUDE SUA VIDA!

146
Quando o exemplo aborda a probabilidade de acertar o quinto disparo,

consequentemente o atirador errará os quatro primeiros tiros. Nessa problemática, devemos
determinar a probabilidade de acertar o quinto disparo com quatro fracassos anteriormente
(𝑓 = 4), isto é:
𝑷(𝑿=𝟒) = 𝟎, 𝟖 × 𝟎, 𝟐𝟒
𝑷(𝑿=𝟒) = 𝟎, 𝟖 × 𝟎, 𝟎𝟎𝟏𝟔 = 𝟎, 𝟎𝟎𝟏𝟐𝟖 = 𝟎, 𝟏𝟐𝟖%
Em suma, a probabilidade de o atirador de elite acertar somente no quinto disparo é muito
baixa (0,128%), pois ele tem elevada experiência em acertar o alvo com probabilidade alta de
acertar um disparo em um dos quatro tiros anteriores. Conforme o valor do parâmetro 𝑝, à
medida que aumenta tentativa 𝑛 que se deseja acertar pela primeira vez, as probabilidades
evidenciam que se torna mais difícil esse evento ocorrer. Para isso, é interessante compreender
a distribuição das probabilidades Geométrica nesse exemplo em questão:
Ao aumentar o número de falhas necessárias para alcançar o sucesso pela primeira vez na
tentativa 𝑛, observa-se que é cada mais improvável o atirador de elite só acertar o 1º tiro em
muitas tentativas. Graficamente, é possível visualizar esse comportamento:
MUDE SUA VIDA!

147
Veja que a distribuição é assimétrica para o lado positivo com valores probabilidade
tendendo ao +∞ e se aproximando de zero. Para esse tipo padrão de comportamento
probabilístico, matematicamente, pode ser definido o valor esperado a partir da seguinte
fórmula:
A resolução matemática para chegar nessa igualdade não é muito interessante para o
aluno estudar. No entanto, é interessante associar essa fórmula do valor esperado com
comportamento observado no gráfico. A mesma dedução matemática será efetuada mais a
frente para a distribuição contínua de probabilidade Exponencial. Vincular esse conhecimento
pode ser útil para responder rapidamente uma questão sobre a média dessas duas distribuições
(Geométrica e Exponencial).
Conforme o exemplo abordado, o valor esperado será:
𝟏
𝑬(𝑿) = = 𝟏, 𝟐𝟓 𝑫𝒊𝒔𝒑𝒂𝒓𝒐𝒔
𝟎, 𝟖
Com isso, espera-se que o atirador acerte o alvo pela primeira vez em média no primeiro
disparo ou no segundo disparo na proporção de obter um valor esperado de 1,25.
Além disso, o valor da variância para uma distribuição Geométrica pode ser calculado pela
expressão:
Com isso, a dispersão sobre o experimento em exemplo tem o seguinte valor:

𝟏 − 𝟎, 𝟖 𝟎, 𝟐
𝑽𝒂𝒓(𝑿) = 𝟐
= = 𝟎, 𝟑𝟏𝟐𝟓 𝒅𝒊𝒔𝒑𝒂𝒓𝒐𝒔𝟐
𝟎, 𝟖 𝟎, 𝟔𝟒
𝟏−𝒑
𝑫𝑷(𝑿) = √
𝒑𝟐
𝑫𝑷(𝑿) = √𝟎, 𝟑𝟏𝟐𝟓 = 𝟎, 𝟓𝟔 𝒅𝒊𝒔𝒑𝒂𝒓𝒐𝒔
MUDE SUA VIDA!

148
𝟏−𝒑
𝑫𝑷(𝑿) √
𝒑𝟐
𝑪𝑽(𝑿) = =
𝑬(𝑿) 𝟏
𝒑
𝟎, 𝟓𝟔
𝑪𝑽(𝑿) = = 𝟎, 𝟒𝟒𝟖 = 𝟒𝟒, 𝟖%
𝟏, 𝟐𝟓
Em síntese, as principais deduções e fórmulas da distribuição Geométrica são:
Com essas informações, toda a teoria necessária, para desenvolver o assunto sobre
variáveis aleatórias discretas, foi finalizada. Em síntese, as principais informações sobre as
distribuições discretas mais importantes podem ser expostas no seguinte quadro:
VARIÁVEIS ALEATÓRIAS CONTÍNUAS

Função que atribui um número real a cada resultado de um experimento aleatório que
assume valores de natureza contínua. Assim, os fenômenos estudados são avaliados em
números reais provenientes de medições ou mensurações e, por isso, podem assumir valores
decimais/fracionários. Além disso, é importante lembrar que existe um intervalo infinito entre
um valor e outro (ideia de continuidade). Como exemplo de fenômenos com natureza contínua:
peso, altura, tempo, velocidade, volume etc.
Para compreender melhor uma variável aleatória contínua, será desenvolvido toda a
construção do estudo de um fenômeno por meio de um experimento aleatório.
MUDE SUA VIDA!

149
Quantificar o peso de 30 policiais, em quilogramas.
➢ Resultados possíveis (Espaço Amostral – Ω):
Ω = [50kg, 130kg]
➢ Definição da variável aleatória contínua (X):
X = A pesagem de um policial.
Assim, X corresponde a uma variável aleatória contínua que pode assumir quaisquer
valores entre 50 kg e 130 kg, isto é, qualquer valor fracionário dentro de um intervalo definido.
Desse modo, a variável possui uma quantidade não enumerável de valores.
Nas variáveis discretas, a função que atribui o fenômeno estudado para um número real
pode ser simplesmente a contagem ou a representação de sucesso e fracasso {0;1}. Já nas
variáveis contínuas, para interligar um fenômeno de natureza contínua com números, é preciso
atribuir uma função matemática [𝑓(𝑥)] que represente os valores mensurados no mundo real
(nesse exemplo, por qualquer instrumento que mensura o peso, como uma balança,).
No exemplo, o experimento aleatório avalia o desempenho de 30 policiais que possuem
um peso oscilando entre 50 a 130kg. A função matemática, que corresponde a variável aleatória
contínua, define o peso específico que um policial pode ter. Muitos instrumentos quantificam
os fenômenos do mundo real e tentam expressar um número que o represente. Por exemplo:
• A balança que quantifica o peso;
• A trena que quantifica o comprimento;
• O velocímetro que quantifica a velocidade;
• O termômetro que quantifica a temperatura;
• O relógio que quantifica o tempo;
• A moeda que quantifica o monetário;
FUNÇÃO DENSIDADE DE PROBABILIDADE F(X)
Além de compreender os valores que uma variável contínua pode assumir, deve-se
entender que existe uma probabilidade associada aos resultados do experimento aleatório.
Como uma variável contínua pode ter qualquer valor fracionário, não se consegue enumerar
todos os possíveis valores e as suas respectivas probabilidades. Ao invés disso, a abordagem
mais conveniente é desenvolver a ideia de que a probabilidade está diluída no intervalo de
valores que a variável contínua contempla. Assim, é necessário calcular a densidade de
MUDE SUA VIDA!

150
probabilidade (𝒅𝒑) que corresponde a probabilidade dividida por um intervalo de valores

(ℎ):
𝑷(𝑿)
𝒅𝒑 =
𝒉
Com isso, não se trabalha com a probabilidade no ponto (como nas variáveis discretas) e
sim uma densidade de probabilidade distribuída com maior ou menor intensidade em
intervalos específicos. Assim, não há de se falar em função massa de probabilidade para
variáveis contínuas. Nesse caso, deve-se construir uma função densidade de probabilidade,
também denominado como curva de probabilidade. Exemplos de algumas funções:
Essas funções associam a variável aleatória contínua com a densidade de probabilidade e

explicam o comportamento observado no experimento aleatório. Cada distribuição de
probabilidade específica tem sua função densidade de probabilidade, como ilustrado acima
para a distribuição Normal e Exponencial (serão estudadas com mais rigor em seguida). Não
se preocupe aluno em entender ou decorar essas fórmulas (principalmente a Normal), pois não
é o objetivo das provas de Estatística em concursos. Apenas entenda que existe uma função
matemática que associa os valores da variável contínua, os parâmetros da distribuição e a
densidade de probabilidade.
Ao se estudar o exemplo em questão, deve ser observado a relação da densidade de
probabilidade no intervalo de [50kg; 130kg] com os valores da variável aleatória X.
Graficamente, um possível comportamento desse fenômeno poderia ser da seguinte forma:
Nesse exemplo hipotético, observa-se que entre os 30 policiais havia uma maior
densidade de probabilidade nos valores mais ao centro do intervalo [50kg; 130kg] e reduzindo
aos extremos. O interessante é compreender que em variáveis contínuas não se representa os
gráficos com probabilidade no ponto (com colunas), e sim a partir de uma linha contínua que
forma a curva de probabilidade, pois pode assumir infinitos valores dentro do intervalo.
Para determinar a probabilidade em variáveis contínuas, é preciso determinar a área
abaixo da curva de probabilidade no intervalo de interesse. Como a maioria das distribuições
comuns em variáveis aleatórias contínuas formam curvas, o recurso matemático mais indicado
para calcular a área abaixo é o cálculo de integral. Denotado pela simbologia:
𝑷(𝒙) = ∫ 𝒇(𝒙)𝒅𝒙
MUDE SUA VIDA!

151
Para provas de carreiras policiais, não é interessante expandir o conhecimento para os

cálculos de integral. As chances desse cálculo ser cobrado em prova é muito baixa, comparado
a energia que um aluno gasta (principalmente aqueles que não são das exatas) para dominar o
assunto. Desse modo, não se recomenda o estudo de integral. Basta apenas o aluno entender
que essa ferramenta tem aplicabilidade em variáveis contínuas. Os valores de probabilidade de
variáveis contínuas são fornecidos nas questões e são tabelados para distribuições mais
comuns. Saber manusear essa informação tabelada e compreender o fenômeno de natureza
contínua é, com certeza, a essência que o aluno deve ter nessa parte do assunto.
A função densidade de probabilidade 𝑓(𝑥) tem as seguintes características:
➢ Os valores da curva de probabilidade serão valores iguais ou maior que zero.
𝒇(𝒙) ≥ 𝟎
➢ A área total abaixo da curva de probabilidade corresponde a toda probabilidade do
fenômeno estudado.
𝑿𝒎á𝒙
𝑷(𝑿) = ∫ 𝒇(𝒙)𝒅𝒙 = 𝟏 = 𝟏𝟎𝟎%
𝑿𝒎í𝒏
Assim, para o exemplo que mensura o peso de um grupo de 30 policiais, com valores
oscilando no intervalo de [50kg, 130kg], a área abaixo dessa curva de probabilidade contempla
100% da ocorrência do peso de um policial.
Por se tratar de variáveis de natureza contínua, sempre abordaremos o valor da

probabilidade em um intervalo de valores. Isso porque não é interessante calcular o valor da
probabilidade no ponto, pois, para variáveis contínuas, de qualquer distribuição, sempre
teremos o resultado zero. Exemplo, a probabilidade de um policial ter exatamente 70kg:
FIQUE ATENTO!
Esse tipo de informação resolve rapidamente muitas perguntas de
probabilidade de variáveis contínuas. As bancas de modo geral gostam de perguntar
esse tipo de pergunta induzindo o aluno ao erro. Então, vamos repetir mais uma vez:
a probabilidade no ponto, para variáveis contínuas, é igual a zero.
MUDE SUA VIDA!

152
Esse resultado pode ser justificado pela ideia de a probabilidade ser composta pela razão
do evento sob o espaço amostral. Assim, o evento seria um valor específico e o espaço amostral
seria todos os resultados possíveis que, em variáveis contínuas, é um intervalo infinito.
Portanto, um valor dividido por algo infinitamente grande tende a zero. Entenda:
𝑋 = 70 70
𝑃(𝑥=70) = = =0
𝛺=∞ ∞
Com isso, entendemos que as probabilidades em variáveis contínuas devem ser estimadas
em intervalo. Desse modo, as perguntam mais adequadas são:
• Qual a probabilidade de um policial ter peso maior que 70 kg?
• Qual a probabilidade de um policial ter peso menor que 100kg?
• Qual probabilidade de um policial ter mais que 60 kg e menos que 90kg?
MUDE SUA VIDA!

153
Ao se tratar de variáveis contínuas, as perguntas sobre probabilidade em intervalos são

as mais apropriadas. Outra observação interessante, é que o resultado probabilidade “maior
que” (>) não difere da probabilidade “maior ou igual que” (≥) referente ao mesmo valor, isso
porque probabilidade no ponto é igual a zero, por exemplo:
𝑷(𝑿>𝟕𝟎) = 𝑷(𝑿≥𝟕𝟎)
FUNÇÃO DISTRIBUIÇÃO ACUMULADA DE PROBABILIDADE F(X)
A função distribuição acumulada de probabilidade [𝐹(𝑋)] para variáveis contínuas
corresponde ao valor de probabilidade de um determinado valor 𝑋𝑖 acumulado a todo valor
inferior a ele. Dessa forma, representa a probabilidade de uma variável aleatória ser menor ou
igual a um valor real 𝑋𝑖 . Assim, na função densidade de probabilidade [𝑓(𝑋)], ela corresponde
a área delimitada à direita pelo 𝑋𝑖 em questão. Consoante ao exemplo abordado, a
probabilidade acumulada até 100kg [𝐹(𝑋=100) ] corresponde a probabilidade de ser menor ou
igual a 100kg (lembrando que 𝑃(𝑋<100) = 𝑃(𝑋≤100) ):
Matematicamente, a função que representa 𝐹(𝑋) é representada por:

𝑿𝒊
𝑭(𝑿) = 𝑷(𝑿≤𝑿𝒊) = ∫ 𝒇(𝒙)𝒅𝒙
−∞
Mais uma vez, não se preocupe com o cálculo de integral apresentado, é apenas o recurso
matemático para calcular a área do gráfico. O ideal é que o aluno associe a ideia do termo
“acumulada” ao mesmo do que foi exposto nas variáveis aleatórias discretas e na Estatística
Descritiva. Portanto, trata-se da acumulação da probabilidade iniciando do limite inferior com
zero de probabilidade acumulada até alcançar 100% no limite máximo.
As funções de distribuição acumulada de probabilidade têm três propriedades básicas:
➢ A função distribuição acumulada tem valores oscilando entre 0 ≤ 𝐹(𝑋) ≤ 1;
➢ A 𝐹(𝑋) nunca é decrescente;
➢ A 𝐹(𝑋) é uma função contínua a direita e tem limite à esquerda;
Conforme o exemplo sobre o estudo do peso de 30 policiais, a função densidade
acumulada de probabilidade poderia ser representada graficamente da seguinte forma:
MUDE SUA VIDA!

154
VALOR ESPERADO E VARIÂNCIA

O conceito e aplicação do valor esperado e da variância são idênticos aos abordados nas
variáveis aleatórias discretas. A diferença está no procedimento matemático para obter essas
informações. Enquanto nas variáveis discretas trabalhava-se com a probabilidade no ponto, nas
variáveis contínuas os cálculos são aplicados na probabilidade obtida pela função densidade de
probabilidade. Desse modo, os cálculos para obter o valor esperado e a variância são por meio
de funções integrais e, por isso, não serão aprofundados nesse material voltado para concurso
público da Polícia Federal.
O valor esperado E(X) consiste no produto dos valores que uma variável aleatória X pode
assumir com a probabilidade obtida pela função densidade de probabilidade. Assim, o valor
esperado pode ser obtido pela integral de X multiplicado pela função densidade f(X):
𝑬(𝑿) = ∫ 𝑿𝒇(𝑿)𝒅𝑿
A variância Var(X) pode ser obtida pela fórmula alternativa: “a esperança do quadrado
menos o quadrado da esperança”, entenda:
𝑽𝒂𝒓(𝑿) = 𝑬(𝑿𝟐 ) – [𝑬(𝑿)]𝟐
[𝑬(𝑿)]𝟐 = ∫ 𝑿𝟐 𝒇(𝑿)𝒅𝑿
𝑽𝒂𝒓(𝑿) = ∫ 𝑿𝟐 𝒇(𝑿)𝒅𝑿 − ∫ 𝑿𝒇(𝑿)𝒅𝑿
MEDIANA ME(X) E MODA (X)

A mediana [𝑀𝑒(𝑋)] consiste no elemento central do espaço amostral que particiona os
valores da variável aleatória X em 50%. Nas variáveis contínuas, a mediana é o valor de Xi com
função distribuição acumulada igual a 0,5 [𝐹(𝑋) = 0,5].
Considerando o exemplo anterior, e supondo que a distribuição do peso dos 30 policiais
é simétrica (média = mediana = moda), teríamos mediana igual a 90 kg:
MUDE SUA VIDA!

155
Em adição, a moda [𝑀𝑜(𝑋)] de uma variável aleatória corresponde com maior

probabilidade de ocorrer. No caso das variáveis contínuas, corresponde ao valor de X com
maior densidade de probabilidade. Portanto, a moda pode ser facilmente detectada como ponto
máximo (pico) da função densidade de probabilidade [𝑓(𝑋)]. Para o exemplo em questão
teríamos:
DISTRIBUIÇÕES DE PROBABILIDADE CONTÍNUAS

Como já abordado nas variáveis discretas, a distribuição de probabilidade é o instrumento
na Estatística que descreve o comportamento aleatório que um fenômeno pode apresentar. A
diferença no caso contínuo é que a distribuição esta diluída na densidade de probabilidade
(probabilidade sob intervalo de valores) e é representada por uma curva de probabilidade.
Desse modo, é muito indicado visualizar a representação gráfica para compreender todos os
resultados do experimento aleatório junto as probabilidades.
Para o exemplo abordado dos 30 policiais, pode ser observado que as densidades de
probabilidade estão distribuídas simetricamente de modo que possui maior probabilidade no
centro do intervalo (𝑋 = 90𝑘𝑔) e reduzem para extremidade de 50kg e 130kg. Essa forma se
encaixa muito bem na distribuição Normal que será abordada em breve. Entenda a
representação gráfica que ilustra a probabilidade:
MUDE SUA VIDA!

156
Assim como nas distribuições discretas, existem distribuições contínuas de probabilidade

muito aplicadas no mundo real que explicam os fenômenos do cotidiano e são muito úteis para
solucionar questões práticas. Desse modo, essas distribuições específicas devem ter maior
enfoque nos estudos de Estatística devido. As principais distribuições contínuas de
probabilidade são:
Para cada distribuição, é muito importante compreender e identificar as pressuposições;

as características que a define; os cálculos de probabilidade; a obtenção do valor esperado e da
variância. Dentre as distribuições citadas, o maior enfoque de estudo deve estar na distribuição
Normal sem dúvida alguma.
As distribuições t de Student, Qui-quadrado e F de Snedecor são muito aplicadas nos
testes de hipóteses, portanto, um estudo aprofundado sobre essas distribuições será efetuado
nos tópicos específicos da Estatística Inferencial e Análise de Regressão, mais a frente, quando
seu conhecimento for necessário.
DISTRIBUIÇÃO UNIFORME CONTÍNUA
A distribuição uniforme contínua é quando todos os valores possíveis dentro do intervalo
de uma variável aleatória contínua X têm a mesma função densidade de probabilidade [𝑓(𝑥)].
Com isso, a probabilidade está distribuída uniformemente sobre todo o intervalor de valor de
uma variável contínua, isto é, a probabilidade é proporcional ao tamanho do intervalo estudado.
MUDE SUA VIDA!

157
Como a probabilidade está diluída uniformemente por todo o intervalo, a função

densidade de probabilidade que satisfaz essa condição é:
Em que:
𝑋𝑚á𝑥 : Corresponde ao limite máximo que a variável aleatória X pode assumir;
𝑋𝑚í𝑛 : Corresponde ao limite mínimo que a variável aleatória X pode assumir;
Com essa fórmula de 𝑓(𝑋), pode-se verificar que a densidade de probabilidade está
distribuída igualmente para qualquer valor contido no intervalo que a variável aleatória
contínua X pode assumir. Assim, uma variável aleatória X segue distribuição uniforme com
parâmetros 𝑋𝑚á𝑥 𝑒 𝑋𝑚í𝑛 .
𝑿~𝑼𝒄(𝑿𝒎á𝒙 , 𝑿𝒎í𝒏 )
OBJETO DE ESTUDO:
Uma rodovia apresenta variação na altura da pavimentação distribuída
uniformemente no intervalo de [5 a 30cm]. Qual a probabilidade da altura da
pavimentação está entre 10cm a 20cm em um determinado ponto?
Primeiramente, é interessante compreender que a variável aleatória contínua consiste na

altura da pavimentação que pode assumir valores entre 5cm até 30cm durante todo o percurso
da rodovia. Além disso, a probabilidade de detectar uma altura específica é igual para todo valor
dentro do intervalo. Com isso, podemos verificar que a função densidade de probabilidade é
representada graficamente da seguinte forma:
𝟏 𝟏
𝒇(𝑿) = = = 𝟎, 𝟎𝟒
(𝟑𝟎 − 𝟓) 𝟐𝟓
O valor da função densidade de probabilidade informa que a probabilidade está

uniformemente distribuída em 0,04 para qualquer ponto entre 5cm até 30cm (segmento de
reta linear e paralelo ao eixo X). Em outras palavras, a probabilidade para o intervalo de 1cm
corresponde a 0,04 (ou 4%).
Em complemento, para qualquer outro ponto não contido no intervalo tem densidade de
probabilidade igual a zero. Veja também que a função distribuição acumulada de probabilidade
[𝐹(𝑋)] tem um crescimento linear, pois a cada valor acrescenta-se igualmente 0,04.
MUDE SUA VIDA!

158
Para obter a probabilidade em um determinado intervalo com distribuição uniforme de

probabilidade, basta compreender que toda área abaixo do gráfico tem 100% de probabilidade.
Com isso, qualquer intervalo menor contido entre [5cm, 30cm] tem probabilidade proporcional
a sua amplitude, uma vez que a distribuição é uniforme em qualquer ponto. Dessa forma, para
obter a probabilidade no intervalo de [10cm, 20cm], basta somente estabelecer uma relação de
proporcionalidade:
(𝟑𝟎 − 𝟓) → 𝟏𝟎𝟎%
(𝟐𝟎 − 𝟏𝟎) → 𝑷(𝟏𝟎<𝑿<𝟐𝟎)
(𝟐𝟎 − 𝟏𝟎) 𝟏𝟎
𝑷(𝟏𝟎<𝑿<𝟐𝟎) = = = 𝟒𝟎% = 𝟎, 𝟒
(𝟑𝟎 − 𝟓) 𝟐𝟓
Ou então, se a função densidade de probabilidade é igual a 0,04 (no intervalo de 1cm a
probabilidade é 4%), basta multiplicar a amplitude do intervalo [10, 20cm] pela 𝑓(𝑋):
𝑷(𝟏𝟎<𝑿<𝟐𝟎) = 𝟎, 𝟎𝟒 × 𝟏𝟎 = 𝟎, 𝟒 = 𝟒𝟎%
Desse modo, podemos visualizar graficamente o resultado:
Com isso, podemos inferir que a probabilidade de encontrar uma altura de pavimentação
na rodovia na faixa de 10 a 20cm é igual a 40%.
Além disso, outras definições importantes são encontradas em uma distribuição uniforme
contínua de probabilidade. Entre elas, o valor esperado [E(X)] dessa distribuição pode ser
expresso pela seguinte fórmula:
Essa definição pode ser obtida desenvolvendo o cálculo de integral apresentado

anteriormente para o valor esperado. No entanto, basta associar que a média de uma
distribuição uniforme é a média do intervalo de valores que a variável contínua pode assumir,
isto é, o ponto médio do intervalo. Desse modo, o valor esperado para variável aleatória X
abordada no exemplo é igual a:
𝟑𝟎 + 𝟓 𝟑𝟓
𝑬(𝑿) = = = 𝟏𝟕, 𝟓𝒄𝒎
𝟐 𝟐
MUDE SUA VIDA!

159
Portanto, espera-se encontrar em média uma altura de 17,5 cm no decorrer de todo

percurso da rodovia.
Em adição, outra informação importante de se obter para uma variável aleatória é a sua
variabilidade. Para isso, é preciso calcular a variância que em uma distribuição contínua
uniforme de probabilidade pode ser simplificada pela seguinte expressão:
Mais uma vez, essa fórmula simplificada é resultado dos cálculos de integral aplicada para
variância de variáveis aleatórias contínuas. É muito mais conveniente decorar essa fórmula
para resolver questões desse assunto do que compreender toda a dedução matemática. Assim,
para o exemplo em questão a variância apresenta o seguinte valor:
(𝟑𝟎 − 𝟓)𝟐 𝟐𝟓𝟐 𝟔𝟐𝟓

𝑽𝒂𝒓(𝑿) = = = = 𝟓𝟐, 𝟎𝟖𝒄𝒎𝟐
𝟏𝟐 𝟏𝟐 𝟏𝟐
Lembrando que o valor da variância sempre terá unidade de medida ao quadrado da
unidade de medida original da variável aleatória estudada, nesse exemplo, a unidade é cm2.
Para obter informações mais coerentes sobre o fenômeno estudado é interessante
calcular o desvio padrão e o coeficiente de variação. Portanto:
(𝑿𝒎á𝒙 − 𝑿𝒎í𝒏 )𝟐
𝑫𝑷(𝑿) = √𝑽𝒂𝒓(𝑿) = √
𝟏𝟐
𝑫𝑷(𝑿) = √𝟓𝟐, 𝟎𝟖 = 𝟕, 𝟐𝟐𝒄𝒎

𝑫𝑷(𝑿) 𝟕, 𝟐𝟐𝒄𝒎
𝑪𝑽(𝑿) = = = 𝟎, 𝟒𝟏 = 𝟒𝟏%
𝑬(𝑿) 𝟏𝟕, 𝟓𝒄𝒎
Por fim, a altura da pavimentação, no decorrer de toda a rodovia, oscila na faixa de 7,22cm
em relação ao valor esperado, o que representa um coeficiente de variação de 41%.
DISTRIBUIÇÃO EXPONENCIAL
A distribuição contínua Exponencial de probabilidade é utilizada para descrever
fenômenos que envolvem o tempo ou o espaço transcorrido para que um determinado evento
aconteça. Essa distribuição apresenta uma conexão muito próxima com a distribuição de
Poisson, pois a Exponencial descreve o tempo entre as ocorrências de sucessivos eventos de
uma Poisson. Em outras palavras, ela analisa inversamente o experimento: ao invés de obter a
probabilidade de uma ocorrência em um intervalo de tempo ou espaço, a Exponencial estuda o
intervalo ou o espaço entre as ocorrências de eventos com taxas constantes (permite
caracterizar o tempo/distância entre as ocorrências oriundas de um processo de Poisson).
De uma forma bastante resumida, imagine uma variável aleatória Poisson em que temos
a contagem do número de ocorrências em um intervalo contínuo. Suponha agora que estejamos
interessados em verificar a probabilidade do tempo transcorrido entre duas ocorrências
consecutivas. Esta última é considerada uma variável aleatória exponencial. Desse modo,
podemos representar os experimentos da seguinte forma:
MUDE SUA VIDA!

160
No esquema acima, podemos compreender que em um determinado intervalo de tempo

(representado pela seta azul) ocorrem 𝑘 ocorrências (representado pelo círculo verde). No
experimento aleatório com distribuição Poisson, estamos preocupados em estudar a
quantidade de ocorrências em intervalo de tempo, isto é, sua frequência. Em contrapartida, no
experimento aleatório com distribuição Exponencial, estamos preocupados em estudar a
variação do tempo entre as ocorrências. Veja que ocorrer e não ocorrer consiste em uma
variável aleatória discreta, enquanto o tempo entre ocorrências consiste em uma variável
aleatória contínua.
A distribuição Exponencial depende de pressuposições semelhantes àquela estabelecida
para um experimento aleatório caracterizado com distribuição de Poisson, a única diferença é
que a variável estudada consiste no tempo ou no espaço. Assim, as pressuposições podem ser
as seguintes:
➢ Trata-se do tempo/espaço entre eventos que podem ocorrer e não ocorrer;
➢ A ocorrência de um evento, em um intervalo contínuo, é independente da
ocorrência de outro evento (probabilidade de ocorrência permanece constante no
decorrer do intervalo contínuo);
➢ O número médio de ocorrências por unidade tempo/espaço deve permanecer
constante. Nessa distribuição, o termo mais utilizado é taxa de ocorrência (λ).
Esta é uma distribuição que se caracteriza por ter uma função de taxa de ocorrências
constante (λ), assim como na Poisson, em que o termo mais apropriado nesta distribuição é a
média de ocorrências, representado por µ. A distribuição exponencial é a única distribuição
contínua com esta propriedade. O seu parâmetro λ é a taxa de ocorrência por intervalo. Assim,
uma variável aleatória contínua X segue distribuição Exponencial com parâmetro λ e é
representada por:
𝑿~𝑬𝒙𝒑(𝝀)
A distribuição Exponencial é usada extensivamente como um modelo para o tempo de
vida de certos produtos e materiais. Como também, é frequentemente usada em estudos de
confiabilidade que se estuda o tempo até a falha de um equipamento – muito comum em
MUDE SUA VIDA!

161
componentes eletrônicos. Portanto, exemplos comuns que seguem uma distribuição

Exponencial podem ser:
• O tempo entre falhas de um equipamento;
• O tempo entre as chegadas de viaturas policiais em uma operação;
• O tempo entre as chegadas de aeronaves a um aeroporto específico;
• O tempo entre a ocorrência de crimes em um município;
• A distância entre dois furos sucessivos em um encanamento com defeito.
• A distância entre grandes buracos em uma rodovia movimentada.
Para compreender melhor como estudar um fenômeno que segue distribuição
Exponencial, será abordado o mesmo exemplo apresentado em Poisson modificando a variável
de interesse.
OBJETO DE ESTUDO:
Ao invés de questionar “qual a probabilidade de um atirador de elite acertar o
alvo sete vezes em 20 minutos”, é abordado o seguinte experimento aleatório:
“qual a probabilidade, do tempo entre dois disparos que acertam o alvo, ocorrer entre
10 a 15 segundos? Sabendo que em média ele acerta 30 tiros em um minuto (60
segundos).
Em primeiro lugar, é necessário obter a taxa de ocorrência por segundo, uma vez que a
probabilidade questiona o intervalo de tempo em segundos. Assim, se o atirador acerta 30 tiros
em um minuto, é o mesmo que dizer que tem uma taxa de 0,5 acertos/segundo (30/60 = 0,5).
Contudo, trabalhando com a ideia de taxa constante de ocorrência, a função densidade de
probabilidade pode ser expressa pela seguinte fórmula:
Em que:
𝑓(𝑋): corresponde a função densidade de probabilidade da variável aleatória contínua X;
𝜆: corresponde a taxa de ocorrência do fenômeno estudado por unidade de tempo;
𝑒: constante Neperiana; 𝑒 ≅ 2,72;
𝑥: valor de tempo ou espaço que variável contínua pode assumir, sendo 𝑥 ≥ 0;
Para o exemplo em questão, com 𝜆 = 0,5 ocorrência/s, a função densidade de
probabilidade fica seguinte forma:
𝒇(𝑿) = 𝟎, 𝟓𝒆−𝟎,𝟓𝒙
Essa função densidade de probabilidade, graficamente, apresenta o seguinte
comportamento:
MUDE SUA VIDA!

162
Dessa forma, a densidade de probabilidade é igual a taxa de ocorrência λ no valor de 𝑋 =

0, reduzindo em escala exponencial conforme o tempo avança. Isso implica que quanto maior o
intervalo de tempo entre as ocorrências menor é a probabilidade de ocorrer esse intervalo de
tempo.
Para estimar a probabilidade do intervalo de uma variável que segue distribuição
Exponencial, é necessário efetuar o cálculo de integral no intervalo determinado. Para o
exemplo em questão teríamos o seguinte cálculo:
𝟏𝟓
𝑷(𝟏𝟎<𝑿<𝟏𝟎) = ∫ 𝟎, 𝟓𝒆−𝟎,𝟓𝒙
𝟏𝟎
O cálculo específico de probabilidade da distribuição Exponencial é resolvido obtendo a

área de baixa da função densidade, isto é, por cálculo de integral. Como já abordado, não iremos
trabalhar com cálculo integral em um material direcionado para carreiras policiais. O
importante é entender o que representa a probabilidade em intervalo contínuo na distribuição
Exponencial.
Junto a esse raciocínio, é interessante compreender a função distribuição acumulada de
probabilidade para uma variável com distribuição exponencial. Expressa por:
Sendo representada no exemplo por:
𝑭(𝑿) = 𝟏 − 𝒆−𝟎,𝟓𝒙
Além disso, graficamente é representada da seguinte forma:
MUDE SUA VIDA!

163
Essa 𝐹(𝑋) é muito importante, pois fornece a posição dos valores de X em relação a curva
de probabilidade. Lembrando que a 𝐹(𝑋) = 0,5 corresponde ao valor da mediana [𝑀𝑒(𝑋)].
Assim, podemos observar a seguinte relação de posição dos valores de X e sua posição na curva
de probabilidade:
Com esses cálculos é possível verificar que a mediana está próxima de 1,4 segundos de
intervalo entre as ocorrências, particionando 50% de ocorrer para valores menor do que 1,4
segundos e 50% para valores maiores que 1,4 segundos.
Além de compreender as funções densidade e acumulada, é muito importante estabelecer

o valor esperado [𝐸(𝑋)] de uma distribuição exponencial. Essa informação é fácil de associar
com o conceito estabelecido pela taxa de ocorrência λ. O valor esperado de uma distribuição
exponencial é expresso:
MUDE SUA VIDA!

164
O valor esperado é o inverso da taxa média de ocorrências por unidade de tempo. Isso
facilmente pode ser explicado, pois, se λ consiste no número médio de ocorrências por unidade
de tempo, inverter esse valor gera o tempo médio por ocorrência, ou seja, o valor esperado.
Portanto, podemos associar que a média de uma distribuição Exponencial é o inverso da

média de uma distribuição Poisson, já que a relação estudada consiste em variáveis
inversamente proporcionais. Para o exemplo em questão, temos o seguinte valor esperado:
𝝀 = 𝟎, 𝟓 𝒐𝒄𝒐𝒓𝒓ê𝒏𝒄𝒊𝒂/𝒔𝒆𝒈𝒖𝒏𝒅𝒐
𝟏 𝟏
𝑬(𝑿) = = = 𝟐 𝒔𝒆𝒈𝒖𝒏𝒅𝒐𝒔/ 𝒐𝒄𝒐𝒓𝒓ê𝒏𝒄𝒊𝒂
𝝀 𝟎, 𝟓
Uma informação muito importante e com grandes chances de ser cobrada em prova
consiste na assimetria de uma distribuição Exponencial. Como é possível observar
graficamente, uma distribuição exponencial sempre terá assimetria positiva (à direita) e com
isso se tem a seguinte informação:
Se a assimetria é voltada para a direita, o valor esperado é maior do que a mediana, que é
maior do que a moda. Sendo que a moda será sempre zero, em uma distribuição exponencial.
Essa relação é muito importante, pois sempre que encontrar a média de uma distribuição
exponencial, ela será maior que sua mediana, portanto, terá função acumulada de probabilidade
maior do que 50%. Conforme a tabela de valor de F(X), o valor de X que corresponde a 2
segundos possui 63,2% de probabilidade acumulada.
Por último, é interessante obter a variabilidade de uma variável contínua que segue
distribuição exponencial. A partir dos cálculos de integral, obtém-se a seguinte expressão:
MUDE SUA VIDA!

165
A variância é igual o inverso do quadrado da taxa média de ocorrência por unidade de

tempo (λ). Desse modo:
𝟏
𝑽𝒂𝒓(𝑿) = 𝟐
= 𝟒 𝒔𝒆𝒈𝒖𝒏𝒅𝒐𝒔𝟐 /𝒐𝒄𝒐𝒓𝒓ê𝒏𝒄𝒊𝒂𝟐
𝟎, 𝟓
Em seguida, podemos calcular o desvio padrão e o coeficiente de variação:
𝟏 𝟏
𝑫𝑷(𝑿) = √ =
𝝀𝟐 𝝀
𝟏
𝑫𝑷(𝑿) = = 𝟐 𝒐𝒄𝒐𝒓𝒓ê𝒏𝒄𝒊𝒂𝒔/𝒔𝒆𝒈𝒖𝒏𝒅𝒐
𝟎, 𝟓
Com isso, obtemos uma informação valiosa e muito útil em uma distribuição Exponencial
de probabilidade – o valor esperado em uma distribuição Exponencial é igual ao desvio padrão.
Somente essa igualdade pode ser o suficiente para responder questões de prova sobre esse
assunto. Portanto, memorize esse conhecimento:
Consequentemente, devido essa relação, o coeficiente de variação será sempre 100%:

𝑫𝑷(𝑿) 𝟐
𝑪𝑽(𝑿) = = = 𝟏𝟎𝟎%
𝑬(𝑿) 𝟐
DISTRIBUIÇÃO NORMAL
A mais importante distribuição contínua de probabilidade é a distribuição Normal (ou
curva Normal), também conhecida como distribuição de Gauss (ou Curva de Gauss). Consiste
na curva de probabilidade que mais explica os fenômenos de natureza contínua. Esse é um
comportamento natural que muitos fenômenos nas pesquisas socioeconômicas, biológicas,
entre outros, correspondem à distribuição Normal ou se aproximam dela.
Preste atenção, esse é o conteúdo mais cobrado nas provas de estatísticas, sem dúvida
alguma! Devido sua enorme aplicabilidade no mundo real, a distribuição Normal é aplicada em
questões de probabilidade de variáveis contínuas, como também, utilizada para fundamentar
os intervalos de segurança, teste de hipóteses, tamanho amostral etc. Dessa forma, essa é o
conteúdo que o aluno deve mais aprofundar e conhecer especificadamente todas as suas
características e aplicações.
Portanto, toda curva Normal é caracterizada pelas seguintes informações:
➢ Tem formato de “sino”;
➢ Sua distribuição é simétrica;
MUDE SUA VIDA!

166
➢ As medidas de centralidade coincidem (Média = Mediana = Moda);

➢ Os quartis são equidistantes (𝑄2 − 𝑄1 = 𝑄3 − 𝑄2 );
➢ Probabilidade de 50% para cada lado de sua forma simétrica;
➢ É unimodal;
➢ Sua curtose é Mesocúrtica;
➢ Prolonga-se de -∞ a +∞;
➢ Valores distantes da média apresentam menor probabilidade;
➢ É especificada pela média e desvio padrão (σ);
Veja a ilustração que evidencia as características de uma curva Normal:
Desse modo, sempre que uma variável aleatória contínua X for identificada com
distribuição Normal todas as características apresentadas acima são informações absolutas e
devem ser levadas em consideração ao estudar o experimento aleatório em questão. Muitas
questões de Estatística podem ser rapidamente resolvidas conhecendo essas características,
por exemplo, a probabilidade de ocorrer um valor acima ou abaixo da média sempre será de
50%.
Para obter a probabilidade de qualquer intervalo contínuo específico, é necessário
calcular a área abaixo da curva Normal no intervalo de interesse correspondente. A função
densidade de probabilidade que define essa curva Normal no formato de “sino” é:
Não se preocupe com essa fórmula, a função densidade de probabilidade da distribuição

Normal não é necessária para calcular as probabilidades de interesse. Isso porque existem
outros métodos mais simples para serem utilizados. Ela serve apenas para sabermos que
haverá infinitas curvas normais, cada uma delas definidas pela média (µ) e pela variância (σ 2)
do experimento aleatório.
Assim, uma variável aleatória contínua X que segue uma distribuição Normal tem como
parâmetros a média (µ) e variância (σ2), simbolicamente representado por:
𝑿~𝑵(𝝁, 𝝈𝟐 )
MUDE SUA VIDA!

167
Apesar de ser utilizado a variância na fórmula como parâmetro, utiliza-se o desvio padrão
para associar o efeito da dispersão do fenômeno estudado (pois apresenta a mesma unidade de
medida). Então, cada curva normal é definida por uma combinação de média e desvio padrão
específica. Com isso, é interessante identificar graficamente como os valores da média e do
desvio padrão modificam a representação de uma curva Normal.
A média (µ) trata-se de uma medida de posição, assim, ela afeta todo o posicionamento de
uma curva Normal, sem modificar o formato da distribuição. Entenda:
Veja como referência inicial a curva Normal B com média µ𝐵 , ela possui um
posicionamento específico na escala de valores da variável aleatória X sendo concentrada em
torno da µ𝐵 . Se esse mesmo fenômeno sofrer uma modificação nos valores que altere a média,
então teremos uma nova curva Normal deslocada para um novo posicionamento da escala de
valores da variável X. Na curva C, temos alterações que aumentam o valor da média e deslocam
toda a curva Normal para o lado direito (positivo), já, na curva A, temos alterações que
reduziram a média, deslocando para o lado esquerdo (negativo). Esse raciocínio de comparação
serve tanto para transformação nos valores de um fenômeno estudado, como para comparação
de diferentes fenômenos com a mesma unidade de medida.
Assim, no exemplo ilustrado, tem-se a seguinte informação:
µ𝑪 > µ𝑩 > µ𝑨
O desvio padrão é uma medida de dispersão que indica o quanto os dados se distanciam
da média. Desse modo, a alteração do desvio padrão afeta a largura da curva Normal, pois,
quanto maior é a quantidade de dados distantes da centralidade, maior é a probabilidade dessas
observações ocorrerem, isto é, a função densidade de probabilidade da Normal é mais larga.
Entenda:
MUDE SUA VIDA!

168
Na curva Normal A, o desvio padrão observado é menor comparativamente ao observado

na curva normal B. A largura da distribuição é afetada pela dispersão dos valores que a variável
X pode assumir, desse modo, valores mais distantes da média (observado na curva B) tem maior
probabilidade de ocorrer do que comparado na curva A.
Assim, no exemplo ilustrado, observa-se a seguinte informação:
𝝈 𝑩 > 𝝈𝑨
Outra informação muito relevante trata-se da propriedade da curva Normal, que pode ser
ilustrada da seguinte forma:
Isso significa que se uma variável aleatória que segue uma distribuição Normal apresenta
cerca de 68,3% de seus valores no intervalo de um desvio padrão (±1𝜎) a contar de cada lado
da média (µ); cerca de 95,5% no intervalo de dois desvios padrões (±2𝜎) a contar da média; e
cerca de 99,7% no intervalo de três desvios padrões (3σ) a contar da média.
Conhecer essa proporção de valores concentrados em uma distribuição Normal pode ser
muito útil para resolver questões de prova. Por isso, é recomendável que memorize esse
conhecimento. Basicamente, se você conhece a média e o desvio padrão de uma distribuição
Normal, sabe-se quase onde todos os valores estarão concentrados.
OBJETO DE ESTUDO:
A variável X trata-se do peso de um grupo de animais e sabe-se que segue uma
distribuição Normal com média de 40kg e desvio padrão igual a 5kg. Com isso, é
possível inferir que quase 100% de probabilidade dos valores estarão concentrados
no intervalo de [25kg, 55kg]. Isso porque esse intervalo corresponde a amplitude de
±3𝜎, ou seja, 3 vezes 5kg que acarreta ±15𝑘𝑔 de desvio em relação ao valor 40kg.
Essa propriedade da Normal permite ter uma ideia geral dos possíveis valores de
probabilidades nos intervalos determinados pela questão, a partir disso, é possível encontrar
facilmente algum erro de cálculo de probabilidade, ou até mesmo responde uma questão com
muita facilidade e rapidez. Veja, por exemplo, que a probabilidade do intervalo de 35kg até 45kg
não poderá ser inferior a aproximadamente 68%, caso detecte uma relação que estabelece essa
propriedade, com certeza, trata-se de um erro.
MUDE SUA VIDA!

169
Assim, para o exemplo abordado, X segue uma distribuição Normal com parâmetros:
𝑿~𝑵(𝟒𝟎𝒌𝒈, 𝟐𝟓𝒌𝒈𝟐 )
Variância de 25kg2 que corresponde a um desvio padrão de 5kg. Para essa distribuição,
os valores de probabilidade nos intervalos entre desvios-padrão são aqueles conforme a
propriedade da curva Normal (µ = 40𝑘𝑔, 𝜎 = 5𝑘𝑔).
➢ A probabilidade de um animal pesar entre 35 a 45kg (±1𝜎):
DISTRIBUIÇÃO NORMAL PADRÃO

Para calcular a probabilidade de qualquer outro intervalo de uma variável aleatória X com
distribuição Normal, é necessário obter a área sob a curva Normal dentro dos limites do
intervalo correspondente. No entanto, aplicar o cálculo de integral para função densidade da
Normal é muito inviável para se aplicar no cotidiano. Desse modo, é muito mais interessante
obter essa relação de valores de probabilidade já em tabelas.
MUDE SUA VIDA!

170
Contudo, como existem infinitas curvas Normais, construída por uma combinação de µ e
σ, seriam geradas infinitas tabelas para auxiliar nos cálculos sob a curva. Com isso, uma solução
eficiente é estabelecer uma transformação que padroniza os valores de qualquer fenômeno
estudado, sendo necessário utilizar apenas uma única tabela de auxílio. Assim, é efetuado uma
transformação matemática nos valores de uma variável contínua com distribuição Normal
qualquer, resultando na distribuição Normal Padrão (ou Padronizada). Em outras palavras,
haverá uma única tabela para descobrirmos as probabilidades de toda e qualquer variável
contínua que tenha distribuição Normal.
Geralmente, utiliza-se a letra Z para representar uma variável com distribuição Normal
padrão. Qualquer distribuição Normal X específica pode ser transformada matematicamente
em uma variável Normal padronizada Z da seguinte forma:
Sendo que:
𝑋: corresponde a um valor específico da variável aleatória X com distribuição Normal;
𝜇𝑥 : corresponde a média da variável aleatória X;
𝜎𝑥 : corresponde ao desvio padrão da variável aleatória X;
𝑍: corresponde a um valor transformado com distribuição Normal Padrão
correspondente ao valor de X.
Ao aplicar a transformação, será obtido um valor de Z com distribuição Normal Padrão
que terá valor esperado e variância modificados para a 0 e 1, respectivamente. A explicação
para esse resultado é baseada na transformação de variáveis aleatórias, tópico que será
abordado em seguida, e lá será explicado sobre essa padronização.
Outra informação importante na padronização dos dados é que o valor Z, com
distribuição Normal padrão, é adimensional (não tem unidade de medida). Portanto, qualquer
variável X que foi padronizada para Z pode ser comparada com qualquer outro fenômeno que
também foi transformado para distribuição Normal Padrão. A variável Z, por essa razão, é
chamada de Escore Padronizado.
Dessa forma, temos a definição de uma característica muito importante: toda variável que
apresentar uma distribuição Normal Padrão sempre terá médio igual a zero e desvio padrão
igual a 1. Assim:
𝒁~𝑵(𝟎, 𝟏)
A partir dessa transformação, não será necessário calcular o valor da probabilidade por
cálculo integral. Basta apenas padronizar uma variável aleatória com distribuição Normal;
identificar a área sob a curva Normal correspondente ao intervalo de interesse; e encontrar o
valor tabelado que representa a probabilidade da área determinada. Para melhor entender essa
aplicação, vamos trabalhar com um exemplo.
MUDE SUA VIDA!

171
OBJETO DE ESTUDO:
A variável aleatória X corresponde ao peso de armas de fogo, traficadas
ilegalmente, que são apreendidas por toda a região da fronteira de Rondônia. Sabe-
se que essa variável segue distribuição Normal com µ = 90𝑘𝑔 e 𝜎 = 10𝑘𝑔. Com objetivo
de estudar o tráfico ilegal de armas, alguns valores de probabilidade são
interessantes conhecer.
➢ Qual a probabilidade de apreender 60 kg de armas ilegais? 𝑃(𝑋=60𝑘𝑔) .

➢ Qual a probabilidade de apreender menos de 90 kg de armas ilegais? 𝑃(𝑋<90𝑘𝑔) .
➢ Qual a probabilidade de apreender menos de 80 kg de armas ilegais? 𝑃(𝑋<80𝑘𝑔)
➢ Qual a probabilidade de apreender mais de 120 kg de armas ilegais? 𝑃(𝑋>120𝑘𝑔) .
➢ Qual a probabilidade de apreender armas ilegais entre 80 a 115 kg? 𝑃(80𝑘𝑔<𝑋<115𝑘𝑔) .
➢ Qual a probabilidade de apreender armas ilegais com menos de 60 kg ou mais de
120kg. 𝑃(𝑋<60𝑘𝑔) 𝑜𝑢 𝑃(𝑋>120𝑘𝑔) .
➢ Qual a probabilidade de apreender armar ilegais entre 60 a 75 kg ou entre 100 a 120
kg? 𝑃(60𝑘𝑔<𝑋<75𝑘𝑔) 𝑜𝑢 𝑃(100𝑘𝑔<𝑋<120𝑘𝑔) .
Ao identificar valores de interesse que seguem uma distribuição Normal, o primeiro passo
é transformar esses valores para uma distribuição Normal Padrão. Assim, conforme os
questionamentos acima, é necessário transformar os valores da variável aleatória X (60kg,
75kg, 80kg, 90kg, 100kg e 120kg) para os respectivos valores de Z.
𝑿~𝑵(𝟗𝟎𝒌𝒈, 𝟏𝟎𝟎𝒌𝒈𝟐 ) → 𝒁~𝑵(𝟎, 𝟏)

A transformação para os valores de interesse ficará a seguinte:
𝑋~𝑁(90,100) Transformação 𝒁~𝑵(𝟎, 𝟏)

𝟔𝟎−𝟗𝟎 −𝟑𝟎
60 kg Z= = -3
𝟏𝟎 𝟏𝟎
𝟕𝟓−𝟗𝟎 −𝟏𝟓
75 kg Z= = -1,5
𝟏𝟎 𝟏𝟎
𝟖𝟎−𝟗𝟎 −𝟏𝟎
80 kg Z= = -1
𝟏𝟎 𝟏𝟎
𝟗𝟎−𝟗𝟎 𝟎
90 kg Z= = 𝟏𝟎 0
𝟏𝟎
𝟏𝟎𝟎−𝟗𝟎 𝟏𝟎
100 kg Z= = 𝟏𝟎 1
𝟏𝟎
𝟏𝟏𝟓−𝟗𝟎 𝟐𝟓
115 kg Z= = 𝟏𝟎 2,5
𝟏𝟎
𝟏𝟐𝟎−𝟗𝟎 𝟑𝟎
120 kg Z= 𝟏𝟎
= 𝟏𝟎 3
MUDE SUA VIDA!

172
Em representação gráfica temos a seguinte ilustração:
Veja que, ao transformar os valores de 60kg, 75kg, 80kg, 90kg, 100kg e 120kg, foram
encontrados valores de Z correspondentes. Algumas observações são interessantes:
• O valor Z correspondente a média de 90 kg é igual a 0;
• Valores abaixo da média de 90 kg, correspondem a valores Z negativos;
• Valores acima da média de 90 kg, correspondem a valores Z positivos;
• Valores distantes a um desvio padrão (±1𝜎) da média, isto é, distanciados a 10
kg da média de 90kg (80kg e 100kg), correspondem aos valores Z de -1 e 1;
• Valores distantes a um desvio padrão (±3𝜎) da média, isto é, 60kg e 120kg,
correspondem aos valores Z de -3 e 3;
Assim, para cada probabilidade de X que foi questionada no exemplo, temos um
respectivo intervalo de valores de Z que corresponde a mesma probabilidade:
MUDE SUA VIDA!

173
Ao calcular o valor de Z correspondente, é necessário identificar na tabela da Normal

Padrão o valor de probabilidade respectivo a área sob a curva de frequência de interesse.
Primeiramente, precisa-se conhecer uma tabela Normal padronizada e entender como obter os
valores de probabilidade dela. Veja um exemplo de tabela abaixo:
Observação: A variável aleatória Normal Padrão, em seu aspecto geral, é

representada pela letra Z, enquanto o valor de Z calculado como Z C.
A tabela Normal Padrão é consultada, basicamente, pelo valor de Z C calculado pela

fórmula da padronização. Ao transformar um valor de X para Z, conforme a área de interesse,
deve-se buscar o valor de probabilidade na tabela. Veja todo raciocínio desenvolvido:
No exemplo trabalhado, vamos supor que há interesse de calcular a probabilidade de ser
apreendido uma quantidade entre 90 até 115 kg de armas ilegais [𝑃(90𝑘𝑔<𝑋<115𝑘𝑔) ]. Para isso,
transforma-se esses valores em Z (distribuição Normal Padrão). Assim, a probabilidade de
interesse corresponde a Z no intervalo de 0 a 2,5 [𝑃(0<𝑍<2,5) ]. Veja que é exatamente o tipo de
área que a tabela calcula, isto é, ela calcula a área de um valor ZC positivo até a média zero,
representado pela notação 𝑃(0<𝑍<𝑍𝐶 ) . Graficamente, representado por:
MUDE SUA VIDA!

174
Após isso, deve-se identificar o valor de probabilidade na tabela Normal Padrão que
corresponde a 2,5. Cada linha da tabela, apresenta o valor inteiro de ZC e a primeira casa decimal
desse número. Cada coluna da tabela, informa o valor da segunda casa decimal do valor de Z C.
Portanto, para o exemplo em questão, deve-se pegar o número com valor de 2,50, isto é, linha
com valor de 2,5 e coluna com valor 0, formando o 𝑍𝐶 = 2,50. Veja:
O valor de probabilidade que corresponde a respectiva área ilustrada é 0,49379 ou

49,38%. A tabela em questão não informa o zero na frente para reduzir informação, mas temos
conhecimento para entender que probabilidade varia de 1 a 0. Assim, a probabilidade de
apreender armar ilegais entre 90 a 115kg é de 49,38%. Isso porque esse intervalo corresponde
ao intervalo de Z respectivo obtido na tabela. Portanto:
O exemplo trabalho estava na probabilidade exatamente igual a apresentada na tabela da

Normal Padrão, assim, simplesmente obter o valor na tabela já resolve o problema questionado.
No entanto, muitas vezes, não se terá exatamente esse interesse. Por isso, é muito importante
saber manusear as informações de probabilidade que podem ser obtidas em uma curva Normal
Padrão. Dessa forma, será trabalhado a obtenção das probabilidades de todos os valores
questionados no exemplo abordado, com µ = 90𝑘𝑔 e 𝜎 = 10𝑘𝑔.
MUDE SUA VIDA!

175
➢ Qual a probabilidade de apreender 60 kg de armas ilegais? 𝑷(𝑿=𝟔𝟎𝒌𝒈) .

Nessa questão, nem seria necessário fazer a transformação para Z, uma vez que a
probabilidade no ponto sempre será zero em uma variável de natureza contínua. Desse modo:
𝑷(𝑿=𝟔𝟎𝒌𝒈) = 𝟎
➢ Qual a probabilidade de apreender menos de 90 kg de armas ilegais? 𝑷(𝑿<𝟗𝟎𝒌𝒈) .
Novamente, não seria necessário transformar o valor em Z e consultar a tabela, uma vez
que 90 kg corresponde exatamente a média. A distribuição Normal é simétrica, com isso, média
e mediana correspondem ao mesmo valor e qualquer valor no intervalo acima da média ou
abaixo dela tem probabilidade de 50%. Desse modo:
𝑷(𝑿<𝟗𝟎𝒌𝒈) = 𝟓𝟎%
➢ Qual a probabilidade de apreender menos de 80 kg de armas ilegais? 𝑷(𝑿<𝟖𝟎𝒌𝒈)
A partir dessas perguntas, precisaremos de fato fazer todo o procedimento de
transformação e consultar a tabela para obter o valor de probabilidade. Em primeiro lugar, foi
visto que 80 kg corresponde ao escore padronizado -1,00 (𝑍𝐶 = −1,00). Agora é muito
importante desenhar a distribuição Normal Padrão e representar a área de interesse. Veja:
O objetivo é obter a probabilidade de apreender uma quantidade inferior a 80 kg de armas

ilegais, que corresponde a probabilidade de um valor menor do que um escore padronizado de
-1,00. Entretanto, na tabela, não temos a área de valores negativos de ZC. Nessa situação, é muito
importante aplicar os conhecimentos sobre as características de uma distribuição Normal. Uma
vez que se trata de uma distribuição simétrica, os valores de probabilidade são espelhados para
lado positivo e negativo da média. Nessa situação, basta encontrar o valor de ZC do lado positivo
que corresponde ao lado negativo. Veja na ilustração o exemplo que representa isso:
MUDE SUA VIDA!

176
Assim, graficamente, consegue-se compreender que a probabilidade de um valor ser

menor do que o escore padronizado -1 é igual a probabilidade de um valor ser maior do que +1.
Dessa forma, é necessário consultar a tabela para valor de ZC igual a 1. Veja:
O valor encontrado na tabela Normal Padrão, corresponde a probabilidade do intervalo

entre escore 0 até 1,00 [𝑃(0<𝑍<1) = 34,13%]. Contudo, a questão pede a probabilidade de obter
valores menores que -1,00, que é correspondente a probabilidade de obter valores maiores que
1,00. Nessa situação, podemos simplesmente subtrais o valor encontrado de 50%, uma vez que
cada lado de uma distribuição Normal tem 50% de probabilidade, a área complementar à
encontrada na tabela corresponde a 50% menos 34,13%. Veja:
MUDE SUA VIDA!

177
É muito importante saber manusear todo comportamento probabilístico de uma

distribuição Normal, para que, conforme a questão perguntada, seja obtida a área
correspondente. Por fim, a probabilidade de apreender uma quantidade de armas ilegais
inferior a 80 kg é:
𝑷(𝑿<𝟖𝟎𝒌𝒈) = 𝟏𝟓, 𝟖𝟕%

➢ Qual a probabilidade de apreender mais de 120 kg de armas ilegais?
𝑷(𝑿>𝟏𝟐𝟎𝒌𝒈) .
Primeiramente, precisamos obter o valor de Z correspondente a 120 kg, que para essa
distribuição Normal, equivale ao escore padronizado de 3,00. Assim, queremos saber a
probabilidade de Z ser maior que 3 [𝑃(𝑍>3) ]. Na tabela Normal Padrão, obtemos o valor de
49,86% para obter um valor entre 0 a 3 [𝑃(0<𝑍<3) = 49,86%]. Com isso, basta obter a
complementar para alcançar 50%. Veja:
Portanto, a probabilidade de apreender mais de 120kg de armas ilegais é:
𝑷(𝑿>𝟏𝟐𝟎𝒌𝒈) = 𝟎, 𝟏𝟒%
➢ Qual a probabilidade de apreender armas ilegais entre 80 a 115 kg?
𝑷(𝟖𝟎𝒌𝒈<𝑿<𝟏𝟏𝟓𝒌𝒈) .
Nesse questionamento, estamos preocupados em obter a probabilidade em um intervalo
específico, com limite inferior e superior definido. Uma forma obter essa probabilidade é
consultar na tabela a probabilidade do intervalo entre [80, 90kg] e [90,115kg] e somar os dois
componentes, obtendo assim a probabilidade no intervalo [80, 115kg]. A transformação desses
valores em Z corresponde a -1, para valor de 80kg, e 2,5, para o valor de 115 kg.
Ambas as probabilidades já foram obtidas em raciocínios anteriores. A probabilidade de
obter valor de Z entre -1 até 0 é equivalente a probabilidade de obter valor entre 0 até 1
[𝑃(−1<𝑍<0) = 𝑃(0<𝑍<1) ] Conforme já consultado na tabela, o valor é de 34,13% [𝑃(0<𝑍<1) =
34,13%].
Em complemento, a probabilidade de obter um valor de Z entre 0 até 2,5 corresponde na
tabela por 49,38% [𝑃(0<Z<2,5) = 49,38%]. Dessa forma, a probabilidade de interesse
corresponde a soma desses dois intervalos. Portanto, podemos representar graficamente:
MUDE SUA VIDA!

178
Por fim, a probabilidade de obter um valor entre 80kg até 115 kg corresponde a:
𝑷(𝟖𝟎𝒌𝒈<𝑿<𝟏𝟏𝟓𝒌𝒈) = 𝟑𝟒, 𝟏𝟑 + 𝟒𝟗, 𝟑𝟖 = 𝟖𝟑, 𝟓𝟏%

➢ Qual a probabilidade de apreender armas ilegais com menos de 60 kg ou mais
de 120kg. 𝑷(𝑿<𝟔𝟎𝒌𝒈) 𝒐𝒖 𝑷(𝑿>𝟏𝟐𝟎𝒌𝒈) .
Para essa problemática, precisamos obter a probabilidade de dois intervalos mutuamente
exclusivos, isto é, que não possuem interseção. Assim, podemos calcular a probabilidade de
cada intervalo independentemente e somar os dois valores.
Em primeiro, podemos obter a probabilidade apreender uma quantidade de armas ilegais
inferior a 60 kg, que corresponde ao escore padronizado -3,00 [𝑃(𝑍<−3) ]. Como estamos
trabalhando com lado negativo da distribuição Normal Padrão, precisamos detectar o valor
correspondente no lado positivo fornecido pela tabela. A probabilidade de um valor de Z ser
menor que -3 é igual a probabilidade de um valor de Z ser maio que 3 [𝑃(𝑍<−3) = 𝑃(𝑍>3) ]. Ao
consultar a tabela Normal Padrão, temos que a probabilidade de Z no intervalo de 0 a 3 é
49,86% [𝑃(0<𝑍<3) = 49,86%]. Assim:
Em segundo, precisamos calcular a probabilidade de obter armas ilegais em quantidade

superior a 120kg. Ao transformar esse respectivo valor em Z, temos um escore padronizado
igual a 3. Aqui temos uma observação interessante, o valor de 120kg corresponde a mesma
distância da média que o valor de 60kg. Assim, eles são valores espelhados nessa distribuição
Normal com distância de ±3𝜎. Dessa forma, a probabilidade bastaria simplesmente obter o
valor de uma delas e multiplicar por dois. Veja:
MUDE SUA VIDA!

179
Então, a probabilidade de obter uma quantidade de armas ilegais inferior a 60 kg ou

superior a 120 kg é igual a:
𝑷(𝑿<𝟔𝟎𝒌𝒈) 𝒐𝒖 𝑷(𝑿<𝟏𝟐𝟎𝒌𝒈) = 𝟎, 𝟏𝟒 + 𝟎, 𝟏𝟒 = 𝟎, 𝟐𝟖%

➢ Qual a probabilidade de apreender armar ilegais entre 60 a 75 kg ou entre 100 a 120
kg? 𝑷(𝟔𝟎𝒌𝒈<𝑿<𝟕𝟓𝒌𝒈) 𝒐𝒖 𝑷(𝟏𝟎𝟎𝒌𝒈<𝑿<𝟏𝟐𝟎𝒌𝒈) .
Nessa última questão, temos o interesse de obter a probabilidade de dois intervalos

específicos. Assim, é necessário obter a probabilidade de cada intervalo e depois somá-los.
O primeiro intervalo de interesse em X [60, 75kg] corresponde ao intervalo de valores em
Z de [-3;-1,5]. Sempre que estivermos trabalhando com intervalo de valores abaixo da média na
escala negativa, para essa tabela Normal Padrão, precisamos obter a relação de igualdade do
respectivo intervalo na escala positiva que pode ser identificado pelo gráfico:
Desse modo, temos que:
𝑷(−𝟑<𝒁<−𝟏,𝟓) = 𝑷(𝟏,𝟓<𝒁<𝟑)
Agora, precisamos buscar na tabela os intervalos de valores de interesse. Em primeiro,
temos que pegar a probabilidade que corresponde a toda a área de Z entre os escores 0 a 3 (que
na tabela obtemos a probabilidade de 49,86%). Depois, buscamos na tabela a área
correspondente ao intervalo 0 a 1,5 (que na tabela obtemos a probabilidade de 43,32%). Com
isso, como há sobreposição dessas áreas, a subtração das probabilidades irá fornecer
exatamente a probabilidade do intervalo de Z entre 1,5 a 3. Entenda essa informação a partir
da representação gráfica:
MUDE SUA VIDA!

180
Ao subtrair as duas áreas obtidas pela tabela, é desconsiderado o intervalo de 0 a 1,5,

permanecendo apenas a probabilidade da área correspondente ao valor de Z de 1,5 até 3,0.
O segundo intervalo de interesse em X [100, 120kg] corresponde ao intervalo de valores
em Z de [1;3]. Como já corresponde a valores acima da média na escala positiva, não precisamos
nos preocupar em achar um intervalo equivalente. Basta aplicar o mesmo raciocínio que o
anterior.
Obtém-se o valor da tabela correspondente ao intervalo em Z de 0 a 1,0 [𝑃(0<𝑍<1) =
34,13%]. Em seguida, obtém-se o valor da tabela correspondente ao intervalo em Z de 0 a 3,0
[𝑃(0<𝑍<3) = 49,86%]. Após isso, deve-se subtrair essas duas áreas e obter o resultado de
interesse. Entenda:
Assim, obtemos a probabilidade dos dois intervalos de interesse e o resultado é:

𝑷(𝟔𝟎𝒌𝒈<𝑿<𝟕𝟓𝒌𝒈) 𝒐𝒖 𝑷(𝟏𝟎𝟎𝒌𝒈<𝑿<𝟏𝟐𝟎𝒌𝒈) = 𝟔, 𝟓𝟒 + 𝟏𝟓, 𝟕𝟑 = 𝟐𝟐, 𝟐𝟕%
Todas as probabilidades questionadas foram resolvidas a partir do pleno conhecimento
da distribuição Normal Padrão e da forma como os valores devem ser retirados da tabela. O
sucesso em responder uma questão sobre distribuição Normal deve-se principalmente em
MUDE SUA VIDA!

181
entender a notação de matemática de probabilidade e sua respectiva ilustração gráfica. Sempre,

em questão sobre distribuição Normal, é recomendável fazer o desenho da distribuição, além
de identificar os valores de interesse e suas respectivas área sob a curva Normal.
Muitas vezes, as questões podem não fornecer uma parte da tabela Normal Padrão, mas
apenas fornecer algum valor específico denotado por simbologia matemático. Portanto, você
pode encontrar simplesmente a notação 𝑃(0<𝑍<1) = 0,3413. Com essa simbologia, deve-se
entender que se trata da área da Normal Padrão respectiva ao valor Z de 0 até 1.
Outra forma de encontrar os valores tabelados de Z é a partir da distribuição Normal
Padrão acumulada. Assim, a tabela informa o valor de probabilidade correspondente a área de
um valor menor que ZC. Com isso, temos a seguinte tabela:
Com essa tabela, o valor que encontramos corresponde a probabilidade de obter um valor
menor que o ZC, incluindo toda escala negativa. Dessa forma, como a tabela se trata dos valores
positivos, é basicamente composta pelos valores da tabela anterior mais 50% que corresponde
todo lado negativo. Além da forma de tabela, pode ser encontrado em prova a simples notação
matemática de um valor específico, que seria representado por 𝑃(𝑍<𝑍𝐶 ) . Desse modo, a
probabilidade acumulada para ZC igual a 2 corresponde a notação 𝑃(𝑍<2) e seu valor pode ser
encontrado da seguinte forma:
MUDE SUA VIDA!

182
Além de tudo abordado até o momento sobre distribuição Normal, pode ser encontrado
uma problemática que fornece o valor de probabilidade e é questionado o respectivo valor da
variável X que possui essa probabilidade. Vamos trabalhar com o mesmo exemplo abordado
nesse tópico.
OBJETO DE ESTUDO:
A variável aleatória X corresponde ao peso de armas de fogo, traficadas
ilegalmente, que são apreendidas por toda a região da fronteira de Rondônia. Sabe-
se que essa variável segue distribuição Normal com µ = 90𝑘𝑔 e 𝜎 = 10𝑘𝑔. Qual é a
quantidade em kg que corresponde a probabilidade acumulada de 96%?
Nesse caso, temos todo o raciocínio inverso sobre a distribuição Normal. Com a
probabilidade, estamos interessados em encontrar um valor de X correspondente. Nesse tipo
de questão deve ser fornecida uma tabela, que muitas vezes é resumida. Com essa tabela,
devemos encontrar o valor de Z que corresponde a probabilidade de 96%. Veja:

Conforme a tabela, a valor Z de 1,75 acumula a probabilidade de aproximadamente 96%.
Dessa forma, é necessário fazer o cálculo da transformação padronizada para achar o respectivo
valor de X. Portanto:
MUDE SUA VIDA!

183
𝑿 − 𝝁𝑿
𝒁=
𝝈𝑿
𝑿 − 𝟗𝟎
𝟏, 𝟕𝟓 =
𝟏𝟎
𝟏, 𝟕𝟓 × 𝟏𝟎 = 𝑿 − 𝟗𝟎
𝟏𝟕, 𝟓 = 𝑿 − 𝟗𝟎
𝑿 = 𝟗𝟎 + 𝟏𝟕, 𝟓 = 𝟏𝟎𝟕, 𝟓 𝒌𝒈
Assim, a quantidade de armas ilegais apreendidas que acumula 96% de ocorrer,
corresponde a obter uma apreensão de até 107,5 kg.
TRANSFORMAÇÃO DE VARIÁVEIS ALEATÓRIAS

A transformação de variáveis aleatórias consiste na aplicação de operações matemáticas
que modificam os valores que uma variável aleatória pode assumir. Essa ferramenta pode ser
aplicada para transformar uma variável aleatória X, de um respectivo fenômeno, em outra
variável aleatória Y que representa outro fenômeno no mundo real. Vamos abordar essa
transformação a partir de um exemplo.
EFEITO DE UMA CONSTANTE COM VARIÁVEIS ALEATÓRIAS
Uma variável aleatória pode ser transformada a partir de uma operação matemática com
uma constante. Assim, podemos ter os valores que uma variável aleatória pode assumir
modificados com operação de soma/subtração ou multiplicação/divisão por um mesmo valor
(constante). Para isso, precisamos compreender o que ocorre com os valores da variável
aleatória, além do valor esperado e variância. Basicamente, aqui temos as mesmas
propriedades da média e da variância vistas na transformação uniforme de um conjunto dados,
abordado em Estatística Descritiva.
Vamos abordar a partir de um exemplo:
OBJETO DE ESTUDO:
Uma variável aleatória X corresponde ao número de investigados que podem
ser presos dos três possíveis suspeitos de uma investigação criminal sobre lavagem
de dinheiro. A probabilidade de um prisioneiro ser preso corresponde a 60% e são
eventos independentes. A variável Y corresponde ao dinheiro, em mil R$, retornado
aos cofres públicos, conforme o resultado dessa investigação. Sabe-se que a
investigação gerou gastos de 5 mil reais, porém cada investigado preso gera um
retorno financeiro ao Estado no valor de 12 mil reais. Qual é o valor esperado [E(Y)]
e o desvio padrão [DP(Y)] da variável aleatória Y?
O exemplo apresentado trata-se de uma situação contextualizada que apresenta uma

transformação de variáveis aleatórias. Nessa situação, é interessante compreender o que
corresponde cada variável aleatória, bem como a relação matemática que representa a
igualdade entre essas duas variáveis aleatórias.
A variável aleatória X corresponde a um fenômeno que se encaixa nos pressupostos de
uma distribuição Binomial: é composto por 3 três experimentos com dois resultados possíveis
MUDE SUA VIDA!

184
(ser preso ou não ser preso) e a probabilidade de um investigado ser preso não afeta a prisão
do outro. O valor esperado, a variância e o desvio padrão podem ser calculados da seguinte
forma:
𝑬(𝑿) = 𝒏𝒑 = 𝟑 × 𝟎, 𝟔 = 𝟏, 𝟖 𝒑𝒓𝒆𝒔𝒐𝒔
𝑽𝒂𝒓(𝑿) = 𝒏𝒑𝒒 = 𝟑 × 𝟎, 𝟔 × 𝟎, 𝟒 = 𝟎, 𝟕𝟐 𝒑𝒓𝒆𝒔𝒐𝒔𝟐
𝑫𝑷(𝑿) = √𝟎, 𝟕𝟐 = 𝟎, 𝟖𝟓 𝒑𝒓𝒆𝒔𝒐𝒔
A variável Y corresponde a outro fenômeno que pode ser explicado pelos valores da
variável X. Assim, é interessante obter a relação de igualdade entre essas duas variáveis. A
variável Y corresponde ao dinheiro que é retornado aos cofres públicos. A ocorrência da
investigação, independentemente, de obter presos gera um gasto de R$ 5 mil, ao mesmo tempo,
cada investigado preso proporciona um retorno financeiro de R$ 12 mil. Portanto, a relação das
variáveis X e Y pode ser definida da seguinte expressão:
𝒀 = 𝟏𝟐𝑿 − 𝟓
A cada investigado preso tem-se um retorno de R$ 12 mil aos cofres públicos e haverá um
gasto de R$ 5 mil reais pela investigação independente de prender ou não alguém. Com essa
relação, é possível obter o valor esperado de Y, bem como a variância por meio das suas
propriedades. Conforme a operação matemática aplicada na variável aleatória, o valor esperado
e variância sofrem os seguintes efeitos:
Assim, consoante ao apresentado na tabela, as operações de soma/subtração e

multiplicação/divisão por um valor constante, modificam o valor esperado na mesma
proporção. Quanto a variância, ela não sofre efeito de soma/subtração e é multiplicada/divida
pelo quadrado da constante. Portanto, com essas informações, já se consegue calcular o valor
esperado e a variância de Y.
➢ Valor Esperado E(Y):
𝑬(𝒀) = 𝟏𝟐 × 𝑬(𝑿) − 𝟓
𝑬(𝒀) = 𝟏𝟐 × 𝟏, 𝟖 − 𝟓
𝑬(𝒀) = 𝟐𝟏, 𝟔 − 𝟓
𝑬(𝒀) = 𝟏𝟔, 𝟔 𝒎𝒊𝒍 𝑹$
MUDE SUA VIDA!

185
➢ Variância Var(Y):
𝑽𝒂𝒓(𝒀) = 𝟏𝟐𝟐 × 𝑽𝒂𝒓(𝑿)

𝑽𝒂𝒓(𝒀) = 𝟏𝟐𝟐 × 𝟎, 𝟕𝟐
𝑽𝒂𝒓(𝒀) = 𝟏𝟒𝟒 × 𝟎, 𝟕𝟐
𝑽𝒂𝒓(𝒀) = 𝟏𝟎𝟑, 𝟔𝟖 𝒎𝒊𝒍 𝑹$𝟐
Para obter informações sobre uma nova variável aleatória proveniente de uma
transformação, basta aplicar as propriedades do valor esperado e da variância conforme as
operações matemáticas.
Nas transformações que envolvem a soma/subtração por uma constante, a nova variável
aleatória tem seu valor esperado alterado na mesma magnitude da constante. Enquanto a
variância não sofre nenhuma modificação, permanecendo o mesmo valor.
Nas transformações que envolvam a multiplicação/divisão por uma constante, a nova
variável aleatória tem seu valor esperado alterado pela mesma operação matemática. Por outro
lado, a variância é modificada, sendo multiplicada/divida pelo quadrado da constante.
Com a aplicação dessas propriedades temos a transformação de uma variável aleatória X
que corresponde ao número de investigados presos para uma variável Y que corresponde ao
valor monetário retornado aos cofres públicos.
Observe que efetuar uma operação matemática em uma varável aleatória é semelhante
que modificar uniformemente todo um conjunto de dados, como abordado na Estatística
Descritiva (no tópico transformação uniforme do conjunto de dados). A diferença é mais
conceitual, pois a variável aleatória trata-se da possibilidade de valores que um experimento
pode resultar, modificá-la com soma/subtração ou multiplicação/divisão apenas altera os
valores da variável aleatória, mas não afeta as probabilidades. Entenda a partir desse esquema:
No fenômeno representado pela variável aleatória X com distribuição Binomial, os valores
variam entre 0, 1, 2 e 3 investigados presos. Após a transformação observa-se que:
MUDE SUA VIDA!

186
➢ Zero dos três investigados presos resulta no prejuízo de R$ 5 mil reais;

➢ Um dos três investigados presos resulta no retorno de R$ 7 mil reais;
➢ Dois dos três investigados presos resulta no retorno de R$ 19 mil reais;
➢ Três dos três investigados presos resulta no retorno de R$ 31 mil reais;
Veja que os valores da variável X e Y são modificados, no entanto a probabilidade P(X) e
P(Y) são as mesmas para os valores associados pela transformação. A variável Y deixa de seguir
uma distribuição Binomial, porém ainda apresenta natureza discreta porque assume valores
determinados {-5; 7; 19; 31} de acordo com o resultado da investigação.
TRANSFORMAÇÃO DA NORMAL PADRÃO
Outro exemplo de transformação variáveis aleatórias muito aplicada é a padronização de
uma variável contínua X com distribuição Normal em Z com distribuição Normal Padrão. O
cálculo de padronização transforma qualquer variável em uma distribuição com média igual a
zero e desvio padrão igual a 1. O procedimento matemático é o seguinte:
𝐗 − 𝝁𝑿
𝒁=
𝝈𝑿
A variável Z é resultado da subtração de X pelo valor de sua média e posteriormente da
divisão pelo seu desvio padrão. Essa transformação, aplicando as propriedades, resulta em uma
variável Z com média e desvio padrão sempre 0 e 1, respectivamente. O procedimento
matemático para se chegar a esse valor já foi comprovado no tópico de distribui Normal Padrão.
➢ Valor Esperado da variável Z [E(Z)]:
O Valor Esperado sofre efeito de soma/subtração, conforme estudado nas suas

propriedades. Dessa maneira, ao subtrair a variável aleatória X por uma constante que
corresponde ao valor da sua média, temos que o valor transformado Z apresentará valor
esperado igual a zero. Assim, o valor da média de uma variável aleatória X corresponde ao valor
zero na variável aleatória Z.
➢ Variância da variável Z [Var(Z)]:
A variância não sofre efeito de soma/subtração, então a subtração por um valor

correspondente a média de X não afeta a variância da variável Z transformada. Contudo, a
divisão/multiplicação de um valor constante modifica a variância multiplicando/dividindo pelo
quadrado dessa constante. Isso pode ser observado pelas propriedades da variância, como
também no tópico do efeito das medidas descritivas com transformação uniforme no conjunto
de dados. Portanto, como a variável X é dividida por uma constante que corresponde ao seu
próprio desvio padrão, a variância é dividida pelo quadrado do desvio padrão, que corresponde
a própria variância. Por fim, temos a divisão de variância sob variância resulta no valor 1. Como
a variância é igual a 1, o desvio padrão também será igual a 1 [𝐷𝑃(𝑋) = √1 = 1]. Dessa forma,
MUDE SUA VIDA!

187
qualquer valor de X com distância de um desvio padrão da média, para mais ou para menos,
corresponderá ao valor Z igual a 1.
TRANSFORMAÇÃO DE SOMA DE VARIÁVEIS ALEATÓRIAS
Outro procedimento muito cobrado nesse assunto consiste na soma de variáveis
aleatórias, resultando em uma nova variável. Quando duas variáveis aleatórias são somadas,
temos a alteração nos valores que ela pode assumir, bem como modifica-se a distribuição das
suas probabilidades. Vamos abordar a partir de um novo exemplo.
OBJETO DE ESTUDO:
Duas variáveis aleatórias X e Y correspondem ao tempo para efetuar uma
determinada operação judicial. Ambas possuem distribuição Normal e são
independentes entre si. A variável X tem média igual a 42 min e desvio padrão igual
a 3 min. Por outro lado, a variável Y tem média igual 34 min e desvio padrão de 5
min. Outra variável aleatória W é o resultado da diferença dos tempos, isto é,
diferença entre a variável X com Y (𝑊 = 𝑋 − 𝑌). Qual é o valor esperado [E(W)] e a
variância [Var(X)] dessa nova variável aleatória?
Nesse outro exemplo, não temos uma transformação pelo efeito de uma constante, e sim,
devido a soma/subtração entre variáveis. Com esse tipo de transformação aplica-se a seguinte
propriedade:
Para isso, devemos aplicar as propriedades adequadas e será obtido os seguintes resultados:
➢ Valor Esperado E(W):
𝑬(𝑾) = 𝑬(𝑿) − 𝑬(𝒀)

𝑬(𝑾) = 𝟒𝟐 − 𝟑𝟒 = 𝟖 𝒎𝒊𝒏
➢ Variância Var(W):
𝑽𝒂𝒓(𝑾) = 𝑽𝒂𝒓(𝑿) + 𝑽𝒂𝒓(𝒀)

𝑽𝒂𝒓(𝑾) = 𝟑𝟐 + 𝟓𝟐 = 𝟑𝟒 𝒎𝒊𝒏𝟐
No exemplo em questão, foi fornecido os valores do desvio padrão, entretanto, a
propriedade quanto a soma das variáveis aleatórias é aplicada a variância. Portanto, o aluno
deve prestar bastante atenção para não confundir essa aplicação. O mais indicado é obter os
valores da variância e aplicar sua propriedade para não correr o risco de errar o resultado. De
modo geral, temos a seguinte transformação:
MUDE SUA VIDA!

188
É importante ressaltar que a nova variância, mesmo ocorrendo a subtração entre as duas
variáveis, não resultará na diferença entre as variâncias e sim na soma. Essa é a
propriedade da variância em que a soma/subtração de duas variáveis aleatórias independentes
sempre irá resultar na soma das variâncias. A subtração de variáveis somente modifica o efeito
da covariância que, em caso de independência, é zero e, portanto, não se observa essa
propriedade. Sobre a covariância, esse assunto será abordado com detalhes no tópico de
“Variáveis Aleatórias Bidimensionais”.
Em resumo, as principais transformações de variáveis aleatórias podem ser apresentadas
no seguinte esquema:
Quando uma nova variável aleatória é criada a partir da multiplicação entre outras duas
variáveis, tem-se o surgimento de uma variável bidimensional. Esse estudo está preocupado
em trabalhar com efeito associado de dois fenômenos simultaneamente. No momento mais
apropriado, será desenvolvido todo esse conteúdo.

(CESPE – Polícia Federal – Agente – 2018) O valor diário (em R$ mil) apreendido de
contrabando em determinada região do país é uma variável aleatória W que segue
distribuição normal com média igual a R$ 10 mil e desvio padrão igual a R$ 4 mil.
1. Nessa situação hipotética, a razão W-20/ √4 segue distribuição normal padrão.
GABARITO: Errado.
A questão aplica uma transformação para variável aleatória W, com distribuição
Normal, e pergunta se essa transformação resultará em uma distribuição Normal
Padrão. Para uma variável seguir distribuição normal padrão, ela deve ter média e
desvio padrão igual a:
MUDE SUA VIDA!

189
Dessa forma, basta aplicar as propriedades do valor esperado e da variância

para certificar se a transformação W-20/√4 resultará em uma variável com média
zero e desvio padrão igual a 1. Veja que a transformação resultou em operações de
subtração e divisão, com isso, sabe-se que o valor esperado e a variância sofrerão
os seguintes efeitos:
Então, a subtração de −20 afetará a média em −20, porém não afetará o valor
da variância e do desvio padrão. A divisão por √𝟒 = 𝟐, dividirá a média por 2 e dividirá
a variância por 4 e o desvio padrão por 2.
Portanto, para o valor esperado de 𝐸(𝑊) = 𝑅$ 10 𝑚𝑖𝑙 temos que:
Somente com essa informação já conseguimos certificar que a transformação

W-20/√4 não resultará em uma variável com distribuição normal. Porém vamos
observar o efeito da transformação para o desvio padrão 𝐷𝑃(𝑊) = 𝑅$ 4 𝑚𝑖𝑙:
Com isso, a transformação resulta em uma nova variável com média igual a -5
e desvio padrão igual a 2. Portanto, não segue uma distribuição Normal Padrão.
2. Nessa situação hipotética, P(W > R$ 10 mil) = 0,5.

GABARITO: Correto.
A questão enforma que a variável aleatória W segue uma distribuição Normal
com média igual a R$ 10 mil. Ao conhecer o fenômeno probabilístico de uma
distribuição Normal, sabe-se que ela é simétrica, isto é, a média é igual a mediana.
Assim, qualquer valor abaixo ou acima da média (que nesse caso é R$ 10 mil) tem
probabilidade de 50%. A questão expressa exatamente isso: P(W>R$ 10 mil) = 0,5.
MUDE SUA VIDA!

190
3. Nessa situação hipotética, se W1 e W2 forem duas cópias independentes e identicamente

distribuídas como W, então a soma W1 + W2 seguirá distribuição normal com média igual
a R$ 20 mil e desvio padrão igual a R$ 8 mil.
GABARITO: Errado.
A questão fornece outra aplicação de transformação de variáveis aleatórias e
pergunta os valores da média e desvio padrão dessa nova variável. A transformação
aplicada consiste na soma de duas variáveis aleatórias W1 + W2 independentes e
idênticas (distribuição Normal, média de R$ 10 mil, desvio padrão igual R$ 4 mil e
variância de R$2 16 mil). Ao somar duas variáveis aleatórias independentes, temos
a aplicação da seguinte propriedade:
Em outros termos, a soma de duas variáveis aleatórias resultará em uma nova

variável com valor esperado (média) igual a soma da média de cada variável. O
mesmo ocorre com a variância. Portanto, temos que:
Veja que a propriedade da soma das variáveis aleatórias se aplica a variância

e não ao desvio padrão. O desvio padrão da nova variável aleatória, que
denominamos de W3, é igual a √𝟑𝟐 ≅ 𝟓, 𝟔𝟔. Este valor, no entanto, é diferente de R$
8 mil fornecido na questão. Fica bem evidente que a banca queria que o candidato
se confundisse com a propriedade das transformações de variáveis aleatórias e
aplica-se a soma dos desvios padrões o que levaria ao resultado de R$ 8 mil.
(CESPE – Polícia Federal – Agente – 2018) Determinado órgão governamental estimou

que a probabilidade 𝑝 de um ex-condenado voltar a ser condenado por algum crime no prazo
de 5 anos, contados a partir da data da libertação, seja igual a 0,25. Essa estimativa foi obtida
com base em um levantamento por amostragem aleatória simples de 1.875 processos judiciais,
aplicando-se o método da máxima verossimilhança a partir da distribuição de Bernoulli.
Sabendo que P(Z < 2) = 0,975, em que Z representa a distribuição normal padrão, julgue
o item que segue, em relação a essa situação hipotética.
4. Se X seguir uma distribuição binomial com parâmetros n = 1.000 e probabilidade de
sucesso p, a estimativa de máxima verossimilhança da média de X será superior a 300.
MUDE SUA VIDA!

191
GABARITO: Errado.
A variável a aleatória X consiste na volta de um ex-condenado cometer algum
outro crime. Foi afirmado que ela segue distribuição Binomial com parâmetro 𝑛 =
1000, isto é, ela analisa as chances de 1000 ex-condenados voltarem ou não a
cometer outro crime. A probabilidade de sucesso 𝑝 corresponde a 0,25 (isto é, 25%
de chances de voltar a ser condenado). Assim, tendo todos os parâmetros de uma
Binomial, a média ou valor esperado corresponde a seguinte expressão:
Basta multiplicar a probabilidade de sucesso p com o número n de eventos

Bernoulli (voltar ou não ser condenado). Portanto, a média de ocorrência é que a
cada 1000 ex-condenados, espera-se que 250 sejam condenados novamente por
algum outro crime. Questão errado, pois afirma ser superior a 300.
5. Em um grupo formado aleatoriamente por 4 ex-condenados libertos no mesmo dia,

estima-se que a probabilidade de que apenas um deles volte a ser condenado por algum
crime no prazo de 5 anos, contados a partir do dia em que eles foram libertados, seja
superior a 0,4.
GABARITO: Correto.
Inicialmente, deve-se compreender que o estudo sobre um condenado voltar a
cometer algum outro crime caracteriza-se uma distribuição de Bernoulli com 𝑝 =
0,25 (ou volta cometer crime ou não volta). A partir do momento que se observa um
grupo de 4 ex-condenados, ocorre a expansão para uma distribuição Binomial com
𝑛 = 4.
Não confunda o intervalo de 5 anos fornecido na questão, pensando ser uma
distribuição de Poisson. A questão deixou claro que está preocupada em obter a
probabilidade de um dos quatro prisioneiros voltar a ser condenado, isto é, tem
um 𝑛 definido. O prazo de 5 anos apenas foi tempo máximo observando esse
fenômeno, a questão não está preocupada com frequência de ocorrência no intervalo
de tempo.
Desse modo, devemos aplicar a probabilidade Binomial para um de quatro ex-
condenados voltar a cometer outro crime. Para isso, devemos aplicar a combinação
de 4 em 1, probabilidade de sucesso igual a 0,25 e fracasso 0,75:
Se os valores decimais forem transformados em fração, o cálculo será

facilitado:
Por fim, a questão está correta, pois a probabilidade é superior a 0,4.
MUDE SUA VIDA!

192
(CESPE – Polícia Federal – Escrivão – 2018) Um estudo mostrou que a quantidade

mensal Y (em quilogramas) de drogas ilícitas apreendidas em certo local segue uma
distribuição exponencial e que a média da variável aleatória Y é igual a 10 kg.
Considerando que F(y) = P(Y ≤ y) represente a função de distribuição de Y, em que y é
uma possível quantidade de interesse (em kg), e que 0,37 seja valor aproximado de e -1 , julgue
o item subsecutivo.
6. A quantidade 10 kg corresponde ao valor mais provável da distribuição Y de modo que
P(Y = 10 kg) ≥ 0,50.
GABARITO: Errado.
A questão apresenta uma variável aleatória que corresponde a apreensão de
drogas ilícitas, em kg, e que segue uma distribuição exponencial. Junto a isso,
sabemos que a variável é de natureza contínua. Somente com essas informações a
questão pode resolvida rapidamente. Isso porque, ao se falar de variáveis aleatórias
contínuas, a probabilidade no ponto, nesse caso igual a 10 P(Y = 10 kg), sempre
será zero. Portanto, como a questão afirma que é maior ou igual a 50% P(Y = 10
kg) ≥ 0,50, facilmente é possível identificar o erro nessa igualdade. Trata-se da
clássica pegadinha sobre a probabilidade no ponto de variáveis contínuas, fique
atento pois é uma pergunta bem frequente!
7. P(Y ≥ 10 kg) > P(Y < 10 kg)

GABARITO: Errado.
Sabemos que a média dessa variável é igual a 10 kg, portanto, o parâmetro λ
corresponde ao inverso desse valor, isto é, 0,1. Porém, podemos resolver esta
questão sem aplicar o cálculo de função distribuição acumulada F(X), como foi
indiretamente sugerido. Isso porque, ao se perguntar a probabilidade de obter um
valor maior ou menor que a média, em uma exponencial, sabemos a resposta
simplesmente pelo fato de ser uma distribuição assimétrica positiva.
Uma distribuição assimétrica positiva tem a média maior que a mediana,
desse modo, abaixo da média temos mais que 50% dos dados acumulados e
consequentemente acima da média temos uma probabilidade menor que a metade.
Entenda:
MUDE SUA VIDA!

193
Logo, a questão está errada, pois afirma exatamente o contrário.

Podemos comprovar esse resultado também utilizando a fórmula da distribuição
acumulada de probabilidade exponencial, em que:
A média em uma distribuição exponencial acumula 63% de probabilidade

acumulada, portanto, existe uma probabilidade maior de obter drogas
apreendidas abaixo da média.
8. O desvio padrão da variável aleatória Y é superior a 12 kg.

GABARITO: Errado.
Conhecendo as propriedades de uma distribuição exponencial, facilmente

podemos responder essa questão. Isso porque o valor esperado (média) é igual
ao desvio padrão na exponencial. Logo, o desvio padrão será 10 kg de drogas
apreendidas e não superior a 12 kg. Veja as deduções:
MUDE SUA VIDA!

194
(CESPE – Polícia Federal – Papiloscopista – 2018) De acordo com uma agência

internacional de combate ao tráfico de drogas, o volume diário de cocaína líquida (X, em litros)
apreendida por seus agentes segue uma distribuição normal com média igual a 50 L e desvio
padrão igual a 10 L.
A partir dessas informações e considerando que Z representa uma distribuição normal
padrão, em que P(Z ≤ -2) = 0,025, julgue os itens subsecutivos.
9. O valor mais provável para a realização da variável X é 50 litros, de modo que P(X = 50
litros) > P(X = 30 litros).
GABARITO: Errado.
Mais uma vez a CESPE na Polícia Federal utilizando a pegadinha da
probabilidade no ponto para distribuições de probabilidade de variáveis
contínuas! A probabilidade para um valor específico, seja P(X = 50 litros), seja P(X
= 30 litros), será sempre zero. Logo, a questão está errada pois não como uma
probabilidade no ponto ser maior que a outra (ambas são iguais a zero). Assim:
10. P(X < 60 litros) = P(X ≥ 40 litros)

GABARITO: Correto.
Essa é outro tipo de questão que pode ser respondida simplesmente
conhecendo as propriedades de uma distribuição Normal. Veja que a questão
pergunta sobre a probabilidade de dois valores que estão afastados da média a
mesma distância. O valor de 40 L está a menos um desvio padrão da média 50 L,
enquanto o valor de 60 L está a mais um desvio padrão da média 50L. Com isso,
temos que a P(X < 60 litros) e a P(X ≥ 40 litros) são espelhadas. Entenda:
Logo, questão está correta ao afirmar que as probabilidades são iguais.
MUDE SUA VIDA!

195
11. P(X > 70 litros) = 0,05.

GABARITO: Errado.
Para conhecer a probabilidade de qualquer valor de uma distribuição Normal
precisamos transformá-lo para uma distribuição Normal Padrão. Para isso basta
aplicar a fórmula:
Assim, a probabilidade de obter um valor maior que 70 L corresponde a obter

um valor Z maior que 2, P(X > 70 litros) = P(Z > 2). A probabilidade de 𝑍 > 2 é
simétrica (espelhada) a probabilidade de 𝑍 < −2, informação dada pela questão.
Logo, se P(Z ≤ -2) = 0,025, então probabilidade P(Z > 2) = 0,025 (veja que o sinal
de igual não interfere em nada. Portanto a questão está errada já que afirma ser
igual a 0,05.
(CESPE – Polícia Federal – Papiloscopista – 2018) Em determinado município, o

número diário X de registros de novos armamentos segue uma distribuição de Poisson, cuja
função de probabilidade é expressa por em que k = 0, 1, 2, ..., e M é um

parâmetro.
Considerando que a tabela precedente mostra as realizações da variável aleatória X em

uma amostra aleatória simples constituída por cinco dias, julgue o item que segue.
12. Com base no critério de mínimos quadrados ordinários, estima-se que o parâmetro M
seja igual a 4 registros por dia.
GABARITO: Correto.
O valor diário de novos armamentos segue uma distribuição de Poisson, sendo
seu parâmetro a frequência média de ocorrências sobre um intervalo de
tempo, representado nessa questão por M.
Assim, para determinar esse parâmetro precisamos observar o comportamento

dessa variável X e determinar uma frequência média de ocorrências. A questão nos
fornece uma amostragem de cinco dias, com cinco observações quanto a variável
registro de novos armamentos. Para obter o parâmetro M, basta calcular a média
dessas cinco observações e, com isso, obter um valor de registros por dia. Logo:
MUDE SUA VIDA!

196
O critério de mínimos quadrados apenas se trata da forma de estimativa, para

a média utilizamos o cálculo de média aritmética normal. Por fim, a questão está
correta, pois o valor corresponde a 4 registros por dia.
13. Como a tabela não contempla uma realização do evento X = 7, é correto afirmar que
P(X = 7) = 0.
GABARITO: Errado.
A amostragem consiste em apenas algumas observações utilizadas para
estimar o comportamento probabilístico da variável aleatória X que segue distribuição
de Poisson. Assim, o fato de não ser observado a observação de 7 registros de armas,
não quer dizer que a probabilidade dessa observação é igual a zero. Ao afirmar que
uma variável segue distribuição de Poisson, sabemos que a probabilidade é mais
elevada próximo ao parâmetro M e reduz conforme se afasta dele, no entanto, todos
os possíveis valores de registros têm uma probabilidade de ocorrer (por mais
que algumas observações tenha uma pequena probabilidade). Veja como distribuído
essa variável X:
Se aplicarmos a fórmula de Poisson encontraremos um valor de probabilidade

para a ocorrência de 7 registro de armas:
Por conseguinte, a questão está errada uma vez que o valor de probabilidade
𝑋 = 7 é diferente de zero.
14. A estimativa de máxima verossimilhança do desvio padrão da distribuição da variável X

é igual a 2 registros por dia.
GABARITO: Correto.
Em uma variável aleatória que segue distribuição de Poisson, o valor esperado
(média) é igual a variância, isto é:
Assim, como o desvio padrão é a raiz quadrada da variância, logo temos que:
A questão afirma exatamente esse valor, portanto, correta.
MUDE SUA VIDA!

197
AMOSTRAGEM
O assunto de amostragem trabalha essencialmente sobre como os dados serão coletados
de modo que essa coleta represente fidedignamente o fenômeno que se pretende
compreender, isto é, o objeto de estudo. Como abordado na parte introdutória de Estatística, o
objeto de estudo é composto pelos elementos que serão avaliados e pela característica
analisada nesses elementos. Sobretudo, ao estudar um fenômeno de interesse, queremos obter
inferências verídicas sobre ele e, portanto, é extremamente essencial que, tanto os elementos
como a característica, sejam coletados sem qualquer viés. Isso porque de nada adiantaria
trabalhar com todos os recursos que a Estatística oferece se os dados analisados não
representarem aquilo que queremos estudar.
Nesse conteúdo, desenvolve-se o ponto de partida de qualquer análise Estatística: a
determinação do objeto de estudo e como os dados serão coletados. Os dados brutos são
praticamente a matéria-prima da Estatística e, se eles forem extraídos de forma viciada
(tendenciosa), qualquer inferência obtida gerará informações inválidas e incoerentes ao
fenômeno estudado. A essência da Estatística é transformar dados em informações, em face
disso essa ciência tem uma enorme preocupação em obter dados que permitam concluir algo
verdadeiro sobre o fenômeno de interesse. Entenda a importância da representatividade dos
dados a partir de um exemplo.
EXEMPLO:
Um estudo pretende obter informações sobre a taxa de desemprego na
população da capital de São Paulo. Essa pesquisa é feita por meio de entrevistas nas
pessoas que passavam por um local público. Porém, ao avaliar as pessoas no local,
o pesquisador não se preocupa em identificar se as pessoas entrevistadas são
realmente da capital. Com essa falha, o pesquisador acaba entrevistando muitos
turistas. Em suma, os dados coletados não representam a capital São Paulo que é a
população a qual quer obter inferências. Não importa a metodologia estatística
empregada nesse conjunto de dados, eles nunca irão obter informações fidedignas
ao objeto de estudo estabelecido originalmente.
Baseado nessa essência, ao abordar sobre os elementos de um conjunto, é interessante

compreender que se trata de uma unidade de avaliação, isto é, algo em que será extraído um
dado bruto. Essa unidade de avaliação pode ser um indivíduo, um animal, um objeto, uma
cidade, um evento, ou qualquer outra coisa que compõe um conjunto maior. Esse conjunto
representa o nosso universo Estatístico, que é denominado de população. Assim, população é o
conjunto de unidades de avaliação no qual são extraídos dados brutos sobre uma característica
de interesse comum a todos.
Quando coletamos exaustivamente todos os dados referente a uma população específica
temos um Censo. Contudo, nem sempre é conveniente ou possível coletar dados de todos os
elementos de uma população inteira. Muitas vezes, obter um censo pode levar muito tempo,
gastar muito dinheiro, ou até mesmo ser impossível. Por exemplo, imagine avaliar toda a
população da China com intuito de obter informações desse país. Isso seria impraticável, uma
vez que muitas pessoas nascem e morrem em um pequeno intervalo de tempo. Perante a essa
problemática, é muito mais viável coletar dados de parte da população, essa fração de
elementos é denominada de amostra. Em adição, a coleta de dados planejada dos elementos
que compõe essa amostra trata-se da amostragem. E, por último, cada elemento individual que
compõe a amostra é a unidade amostral.
MUDE SUA VIDA!

198
Após trabalhar com toda essa construção lógica sobre obter dados de uma população
substancialmente grande, veja o esquema que representa a ideia de amostragem:
A amostragem é a coleta de dados referente a uma população que origina uma amostra.
Com essa amostra, tem-se o objetivo de gerar informações a respeito de toda a população, isto
é, pretende-se obter inferências com a utilização de dados incompletos. Para essa finalidade, é
preciso que a amostra seja uma representação completa da população para a característica
(variável) avaliada. Contudo, para que isso ocorra, a amostragem deve extrair dados na
quantidade de elementos necessárias para que, a partir dela, seja possível efetuar uma
generalização. Em outras palavras, as inferências da amostra devem coincidir com a informação
real da população.
Nesse conteúdo, é importante que aluno entenda que estamos trabalhando com dados
incompletos e, por isso, deverá ser aplicado as ferramentas da Estatística Inferencial. No
entanto, antes disso, o primeiro passo é a coleta adequada de dados para posteriormente
aplicar a Estatística Inferencial e alcançar uma generalização eficiente. Para obter um conjunto
dados satisfatório, é necessário ter um tamanho amostral (número de elementos da amostra)
suficientemente grande, bem como conhecer o erro da estimativa da amostra em relação a
população. Essas duas informações serão estudadas no tópico da Estatística Inferencial, pois
aplica conceito abordados melhor lá. No momento, apenas entenda que essas informações são
importantes para iniciar uma amostragem também.
Para deixar mais claro as informações detalhadas nesse tópico, será apresentado todos os
conceitos dos termos citados:
Termo Conceito
Conjunto de elementos que compõe todo universo estatístico no qual
População são extraídos dados brutos referentes a uma característica comum a
todos.
Conjunto de dados coletados exaustivamente de todos os elementos que
Censo
compõem a população de interesse.
Unidade de avaliação de um conjunto maior onde será extraído um dado
Elemento
bruto.
Subconjunto da população composto por uma fração dos elementos da
Amostra
população.
Coleta de dados planejada de parte dos elementos da população, trabalha
Amostragem
com a ideia de dados incompletos
Inferências feitas a partir da amostra que geram informações que
Generalização
extrapolam para toda a população.
Unidade Elemento da amostra, a unidade em que será extraído um dado bruto de
Amostral um conjunto de dados incompletos
Técnica de Modo ou método como selecionamos parte dos elementos de uma
Amostragem população para extrair dados deles
MUDE SUA VIDA!

199
A amostragem pode ser efetuada por diferentes técnicas, entre elas as principais são:
As técnicas ou métodos de amostragem referem-se ao modo como selecionamos parte dos

elementos de uma população para extrair dados deles. Essas técnicas são divididas em dois
grandes grupos: probabilística e a não probabilística.
As técnicas de amostragem não probabilísticas trabalham com a seleção de unidades
amostrais a partir de alguma convenção subjetiva do homem, isto é, há uma escolha deliberada
dos elementos da amostra. Elas não são metodologias muito interessantes, uma vez que o viés
humano interfere fortemente na hora da seleção dos elementos. No entanto, elas são úteis em
pesquisas iniciais que tentam evidenciar alguma tendência ou então em situações que as
amostragens probabilísticas não conseguem ser aplicadas. É importante somente que o aluno
entenda que elas existem e que são tipificadas em amostragem por conveniência, intencional,
quotas e desproporcional.
Em contrapartida, a amostragem probabilística trabalha com a ideia de que cada elemento
da população tem uma probabilidade conhecida para fazer parte da amostra. Essa amostragem
preocupa-se muito com a seleção das unidades amostrais sem qualquer viés humano. Desse
modo, ela trabalha com seleção aleatória por algum mecanismo de sorteio ou escolha de modo
que seja apenas o acaso que decide quem irá compor a amostra. Essas metodologias têm muito
mais credibilidade, pois retira o viés do subconsciente do humano por trás desse estudo. Essas
técnicas são chamadas de amostragens aleatórias e distinguem-se entre si basicamente pela
heterogeneidade existente dentro da população e pela forma como são arranjadas. As
principais amostragens aleatórias cobradas em provas são:
MUDE SUA VIDA!

200
AMOSTRAGEM ALEATÓRIA SIMPLES

Consiste na técnica em que todos os elementos da população têm a mesma chance
(probabilidade) de serem selecionados. A seleção pode ser feita por quaisquer mecanismos de
sorteio que ofereça a mesma probabilidade para cada elemento ser sorteado. A seleção pode
ser feita com ou sem reposição do elemento já sorteado. Uma amostragem com reposição
mantém a probabilidade igual durante toda a amostragem aleatória simples. Enquanto uma
amostragem sem reposição altera as probabilidades a cada sorteio, contudo, no momento
específico de um sorteio todos os elementos têm a mesma probabilidade de serem sorteadas.
OBJETO DE ESTUDO:
Um objeto de estudo tem o objetivo de avaliar a regulagem de fábrica do lote
027D de armamento de rifles, todos do mesmo tipo e marca, produzido por uma
empresa. O lote é composto por 24 rifles, porém, devido a demora para analisar toda
sua regulagem no tempo exigido, foram amostrados apenas 6 rifles do total. Para
isso, utilizou-se o método de amostragem simples.
Veja a representação dessa amostragem:
A população de estudo consiste em todos os rifles presente no lote 027D. O tamanho da

população (𝑁) é composto por 24 rifles no total. Desse total, foram amostrados 6 rifles para
serem avaliados, esse é o tamanho da amostra (𝑛). A unidade amostral é cada rifle que foi
avaliado quanto a sua regulagem. A regulagem de fábrica do rifle é variável mensurada. Cada
rifle foi selecionado por algum mecanismo de sorteio, nesse caso, sem reposição, pois não seria
vantajoso avaliar a regulagem do mesmo rifle.
Com isso, no primeiro sorteio, a probabilidade de qualquer um dos rifles ser sorteado é
de 1/24. No próximo sorteio, a probabilidade é de 1/23 de qualquer um dos rifles ser sorteado.
A probabilidade, nesse caso, muda conforme o sorteio, mas é a mesma dentro de cada sorteio.
Esse tipo de amostragem é indicado quando a população apresenta homogeneidade
quanto a característica analisada. Nesse exemplo, a população é composta por rifles do mesmo
tipo e marca, assim, simplesmente sortear os 24 rifles, sem se preocupar em dividir a população,
já é o suficiente para obter dados que representam a população.
MUDE SUA VIDA!

201
AMOSTRAGEM ALEATÓRIA ESTRATIFICADA

Esse tipo de amostragem consiste em dividir a população em subgrupos mais
homogêneos (estratos) de tal forma que haja uma homogeneidade dentro dos estratos e uma
heterogeneidade entre os estratos. Essa estratificação é indicada quando existe uma
heterogeneidade para a variável analisada, de modo que comprometa as inferências feita na
amostra se não for considerada. Após dividir a população em estratos, o sorteio das unidades
amostrais em cada estrato é realizado de forma aleatória simples. A amostra total é composta
por elementos selecionados dentro de cada estrato.
OBJETO DE ESTUDO:
Um objeto de estudo tem o objetivo de avaliar o desempenho técnico de uma
equipe de policiais para executar uma operação de risco. A equipe é composta por
14 policiais, mas, devido o tempo para todas as análises, serão analisados apenas 7
policiais. A equipe possui 4 policiais veteranos, 6 policiais com experiência
intermediária e 4 policiais novatos.
Nesse contexto, será aplicado uma amostragem aleatória estratificada, veja a ilustração:
A população é representada nesse esquema por simbologias diferentes, isso porque existe
uma heterogeneidade considerável que pode afetar a representativa da amostragem. O
desempenho de um policial veterano, com elevada experiência, tende a ser maior que os
policiais novatos, portanto, esse contraste deve ser considerado na amostragem. Imagine se
uma amostragem aleatória simples tivesse sido aplicada nesse objeto de estudo e tivesse sido
sorteado apenas policiais veteranos e intermediários. Na análise feita nessa amostra, teríamos
um desempenho técnico da equipe policial maior do que realmente seria constato na população.
A utilização dessa amostragem depende muito da característica avaliada, pois, para o
mesmo exemplo, se fosse selecionados os policiais quanto a sua estatura, o fato de um policial
ser veterano ou novato não influencia diretamente sua estatura biológica. Então, no mesmo
exemplo, avaliando outra característica, a amostragem estratificada não seria necessária e
poderia ser aplicado uma amostragem simples.
MUDE SUA VIDA!

202
Desse modo, divide-se a população estudada em estratos que separam os elementos

quanto a um atributo que afeta a amostragem. Nesse exemplo, a população deve ser separada
em três estratos: policiais veteranos, intermediários e novatos. Veja:
Ao dividir em estratos que homogêneos dentro deles, pode ser efetuada uma amostragem
simples em cada estrato uma vez que não existe um atributo que possa prejudicar a
representatividade da amostra. Essa amostragem pode levar em consideração a proporção de
elementos que compõe cada estrato, ou então, apenas amostrar uma quantidade uniforme em
cada elemento. Com isso, temos uma divisão quanto a amostragem estratificada: amostragem
estratificada proporcional ou amostragem estratificada uniforme.
Amostragem Aleatória Estratificada Proporcional: a proporcionalidade do tamanho
de cada estrato da população é mantida na amostra. Assim, conforme exemplo, se na população
os estratos veteranos, intermediários e novatos têm proporção de 4/14; 6/14 e 4/14,
respectivamente, a amostra deverá ter a mesma proporção. Entenda:
Em cada estrato, foi amostrado uma quantidade de elementos proporcional ao total. A

fração amostral foi de 50%, obtendo uma amostra de tamanho 7. Os estratos veteranos,
intermediários e novatos apresentam a seguinte proporção na amostra 2/7, 3/7 e 2/7,
correspondente a proporção na população.
Amostragem Aleatória Estratificada Uniforme: seleciona-se o mesmo número de
elementos em cada estrato. É um processo usual quando se deseja comparar os diversos
extratos.
MUDE SUA VIDA!

203
Veja pela ilustração:
Cada estrato possui a mesma quantidade de elementos. O tamanho da mostra foi ajustado
para 6 para que tivesse uma divisão com resultado uniforme para cada estrato. Nessa
amostragem, simplesmente obtém-se o tamanho da amostra e divide pelo número de estratos.
AMOSTRAGEM ALEATÓRIA POR CONGLOMERADOS

Nessa amostragem, a população é dividida em pequenos grupos, denominados de
conglomerados, em seguida, é sorteado aleatoriamente apenas alguns desses conglomerados.
A amostra será composta pelos elementos dentro dos conglomerados sorteados. Este esquema
amostral é utilizado quando há uma subdivisão da população em conglomerado de modo que
sejam bastante semelhantes entre si, mas com fortes discrepâncias dentro dos conglomerados,
assim, é como se cada conglomerado representasse uma pequena população de estudo (grupos
que refletem a população como um todo).
OBJETO DE ESTUDO:
Um objeto de estudo tem o interesse de avaliar o desempenho escolar de um
município do interior de Santa Catarina. Esse município é composto por quatro
colégios que possuem oito turmas de várias séries. Cada colégio apresenta um grupo
de alunos com características semelhantes entre os colégios e dentro de cada colégio
há uma variação das turmas quanto as séries de ensino. Nesse contexto, utilizou-se
uma amostragem aleatória por conglomerados.
Entenda a partir do esquema:
MUDE SUA VIDA!

204
A população é composta por quatro conglomerados, que nesse caso, é representado pelos
colégios. Cada colégio tem oito turmas de diferentes séries de ensino. Veja que, se observar
apenas um colégio, já existe a representação de toda a população. E dentro do colégio há uma
heterogeneidade. Isso é o que caracteriza os conglomerados e nessa situação ao invés de
selecionar os elementos podem ser selecionados os conglomerados. Nesse exemplo, foram
sorteados dois colégios ao invés de selecionar diretamente os alunos.
AMOSTRAGEM ALEATÓRIA SISTEMÁTICA

A amostragem sistemática consiste em selecionar elementos de uma população a partir
de um fator de seleção pré-determinado, por exemplo, a cada dez elementos sorteia-se um. Essa
amostragem é conveniente quando a população está ordenada segundo algum critério como
fichas, equipamentos em série de produção, lista telefônica etc.
OBJETO DE ESTUDO:
Um objeto de estudo tem o interesse de avaliar o formato de peças eletrônicas
produzidas em uma série de produção. Para isso, foi aplicada a amostragem aleatória
sistemática com fator de seleção igual a 3 (𝑘 = 3).
Veja pela representação:
A seleção iniciou na primeira peça da série, e a cada três peças foi selecionado uma nova
para compor a amostra. O fator de seleção, muitas vezes, representado por k, foi 3. Em outras
palavras, a cada três posições seleciona-se uma nova peça para compor a amostra.
A amostragem sistemática somente pode ser aplicada se a ordenação dos elementos não
tiver relação com a variável de interesse. Por exemplo, imagine que se pretende obter uma
amostra de idades de uma listagem justamente ordenada desta forma. Neste caso, a
amostragem sistemática não seria apropriada (a não ser que fosse reordenados).
MUDE SUA VIDA!

205

(CESPE – Polícia Federal – Escrivão – 2018) Uma pesquisa realizada com passageiros
estrangeiros que se encontravam em determinado aeroporto durante um grande evento
esportivo no país teve como finalidade investigar a sensação de segurança nos voos
internacionais. Foram entrevistados 1.000 passageiros, alocando-se a amostra de acordo com
o continente de origem de cada um — África, América do Norte (AN), América do Sul (AS),
Ásia/Oceania (A/O) ou Europa. Na tabela seguinte, N é o tamanho populacional de passageiros
em voos internacionais no período de interesse da pesquisa; n é o tamanho da amostra por
origem; P é o percentual dos passageiros entrevistados que se manifestaram satisfeitos no que
se refere à sensação de segurança.
Em cada grupo de origem, os passageiros entrevistados foram selecionados por

amostragem aleatória simples. A última linha da tabela mostra o total populacional no período
da pesquisa, o tamanho total da amostra e Ppop representa o percentual populacional de
passageiros satisfeitos.
A partir dessas informações, julgue o próximo item.
1. Nessa pesquisa, cada grupo de origem representa uma unidade amostral, da qual foi
retirada uma amostra aleatória simples.
GABARITO: Errado.
A unidade amostral consiste no elemento ao qual foi retirado um dado
bruto. Para essa pesquisa, foram entrevistadas pessoas de diferentes grupos de
origem. Contudo, cada pessoa foi entrevistada quanto a sensação de segurança nos
voos internacionais, assim uma pessoa entrevistada consiste no elemento
avaliado, isto é, na unidade amostral.
A população de estudo são todas as pessoas que viajaram, em voos
internacionais, para o evento esportivo. Contudo, cada pessoa veio de um local
diferente (de um grupo de origem diferente). Esse grupo de origem corresponde a
uma característica dentro da população estudada que causa uma heterogeneidade
na variável segurança nos voos. Assim, uma amostragem estratificada nessa
população deve ser aplicada para controlar essa fonte de variação.
Em resumo, temos as seguintes informações extraídas nessa investigação:
Logo, questão errada pois afirma que o grupo de origem se trata da unidade
amostral, quando na verdade consiste em um estrato.
MUDE SUA VIDA!

206
2. Na situação apresentada, o desenho amostral é conhecido como amostragem aleatória

por conglomerados, visto que a população de passageiros foi dividida por grupos de
origem.
GABARITO: Errado.
A amostragem por conglomerados é aplicada quando temos grupos que, por si
só, representam uma mini população. Isto é, os elementos dentro do
conglomerado são heterogêneos e a variação entre os conglomerados é
muito pequena (são similares). Toda a população consiste nos passageiros que
foram visitar o evento esportivo. Contudo, dentro deles existe uma variação referente
ao grupo de origem. Cada pessoa entrevistada, proveniente de um local diferente,
pode apresentar uma sensação de segurança de voo influencia pelo o continente de
onde veio. Assim, temos uma fonte de variação que deixa a população heterogênea
quanto a variável de interesse.
Entre os grupos de origem temos uma heterogeneidade (pessoas de
continentes diferentes, com cultura, hábitos etc. diferentes) e dentro de cada grupo
de origem uma homogeneidade (pessoas do mesmo continente). Logo, o grupo de
origem tem um conceito inverso ao conglomerado, trata-se na verdade de estratos.
Por conseguinte, a amostragem realizada nessa investigação é a amostragem
aleatória estratificada e não por conglomerados.
3. Considerando o referido desenho amostral, estima-se que o percentual populacional Ppop

seja inferior a 79%.
GABARITO: Correto.
Para calcular a estimativa da proporção populacional Ppop, é necessário
compreender que cada grupo de origem consiste em um estrato. Desse modo,
precisamos obter a quantidade de passageiros satisfeitos em cada estrato e, após
isso, obter a proporção populacional considerando os indivíduos satisfeitos de cada
grupo de origem (pois assim teremos o valor de percentual da população – todos os
passageiros que foram para o evento esportivo). Logo:
Para o continente da África, temos que, dos 100 entrevistados, 80% estão
satisfeitos com os voos, isto é, 80 passageiros; para a América do Norte, dos 300
passageiros, 70% estão satisfeitos, isto é, 210 passageiros; e assim por diante.
Ao obter a quantidade de indivíduos satisfeitos em todos grupos de origem,
basta dividir pelo total. Com isso, a proporção populacional corresponde a 78%, valor
inferior a 79%, portanto, questão correta.
MUDE SUA VIDA!

207
(CESPE – Polícia Federal – Perito Criminal Área 9 – 2018) Tendo em vista que a
abordagem da população sobre o conjunto de unidades amostrais pode ser aleatória,
sistemática ou mista, e que, entre esses arranjos estruturais, situam-se os processos de
amostragem mais usuais em inventários florestais — amostragem aleatória simples,
amostragem estratificada, amostragem sistemática, amostragem em dois estágios e
amostragem em conglomerados —, julgue o próximo item, relativo a esses processos de
amostragem.
4. Comparativamente ao processo de amostragem aleatória simples, o processo de
amostragem estratificada só aumentará a precisão das estimativas quando houver
diferença significativa entre as médias dos estratos.
GABARITO: Correto.
Se não houver diferença significativa entre as médias dos estratos, indica que
o processo de amostragem não precisa ser estratificado. Isso porque a
característica que foi utilizada para estratificar a população não causa um efeito
significativo para diferenciá-la, em outras palavras, não há por que separar em
estratos e o sorteio pode ser feito em toda a população. Dessa forma, a amostram
aleatória estratificada não aumentará a precisão das estimativas
(representatividade). Logo, a amostragem simples apresentará a mesma precisão
que a amostragem estratificada.
5. O processo de amostragem aleatória simples requer que todas as combinações possíveis

de n unidades amostrais da população tenham igual chance de participar da amostra; que
a área florestal a ser inventariada seja tratada como uma população única; e que a seleção
das amostras possa ser realizada com ou sem reposição.
GABARITO: Correto.
A questão define exatamente uma amostragem aleatória simples: todos os
elementos com a mesma probabilidade de ser sorteado; todos os elementos
representam uma população única (sem estratos ou conglomerados); e a seleção
pode ser efetuada com ou sem reposição.
MUDE SUA VIDA!

208
ESTATÍSTICA INFERENCIAL
A Estatística Inferencial é aplicada para trabalhar com conjunto de dados amostrais, isto
é, com dados incompletos a respeito do fenômeno em estudo. No entanto, esse conteúdo
trabalha com as incertezas e tenta compreender todo seu comportamento variável e aleatório,
a partir disso, toma decisões, gera conclusões satisfatórias e generaliza informações com maior
probabilidade de acerto e consequentemente menor probabilidade de erro. As informações
geradas estão sujeitas a erros e imprecisão, e, desse modo, cabe à Estatística Inferencial
quantificar essas incertezas e avaliar a credibilidade da informação.
Na investigação de fenômenos, tem-se o objetivo de conhecer algum fato sobre
determinada população, por exemplo, a média do peso de mercadorias transportadas, o
percentual de intenções de voto para um determinado candidato, etc. Muitas vezes, essa
população é composta por milhares (às vezes, milhões) de elementos (nesse caso, pessoas, mas
poderia ser qualquer coisa), de tal modo que seria muito difícil pesquisar o valor correto, pois
seria inviável pesquisar todos os elementos. Nesse caso, temos de recorrer aos valores
encontrados em uma amostra. Uma fração menor da população de interesse. Nesse contexto,
trabalha-se com informações incompletas e o recurso mais adequado para obter conclusões
sobre isso é utilizar a Estatística Inferencial.
Para construir o conhecimento necessário até a Estatística Inferencial, todo conteúdo
abordado até esse tópico são pré-requisitos:
➢ Primeiramente, uma Amostragem deve ser efetuada com a técnica adequada que
permita a maior representatividade da população de estudo. De nada adiantaria
utilizar a Estatística Inferencial em um conjunto de dados tendencioso, pois
qualquer inferência proveniente disso acarretaria informações incoerentes.
➢ Em segundo, após coletar o conjunto de dados da amostra, é necessário descrever e
resumir esses dados, utilizando assim as ferramentas da Estatística Descritiva. As
medidas provenientes da amostra são estimativas pontuais (variáveis e aleatórias)
da população, isto é, informações que tentam inferir sobre o todo.
➢ Por fim, todo o fundamento gerado pela Teoria da Probabilidade estuda a
distribuição probabilística dos dados amostrais, seu comportamento variável e
aleatório, além de avaliar se as estimativas permitem obter inferências válidas sobre
uma probabilidade de erro baixa.
Nessa dinâmica, entendemos com maior clareza que os conhecimentos anteriores são
alicerces fundamentais para toda a eficiência que a Estatística Inferencial é capaz de promover.
MUDE SUA VIDA!

209
Na Estatística Inferencial, as principais informações que podem ser obtidas e cobradas no

concurso públicos são as seguintes:
➢ Distribuição Amostral: estudo da distribuição da amostra para compreender seu
comportamento aleatório e variável e, com isso, fazer estimativas mais precisas da
população;
➢ Estimativa Pontual: medidas que descrevem a amostra em prol de representar a
população, isto é, média, mediana, moda, variância, desvio padrão, proporção etc.;
➢ Intervalo de Confiança: por se tratar de dados incompletos, estima-se uma
margem de oscilação (um intervalo de segurança) que esse valor pode ter.
Geralmente aplicada para média e proporção;
➢ Tamanho amostral: a partir dos conhecimentos de uma distribuição amostral, é
possível inferir o tamanho necessário de uma amostra para que ela obtenha uma
representatividade eficiente;
➢ Erro de estimativa: estuda o erro do valor estimado na amostra em relação ao
verdadeiro parâmetro populacional. Com isso, é possível inferir sobre a
credibilidade da generalização feita com os dados da amostra;
➢ Teste de hipóteses: comprova, com uma margem de erro, se as estimativas
pontuais são diferentes significativamente do parâmetro populacional ou entre
diferentes amostras.
De forma bem sucinta, essas são as principais ferramentas aplicadas na Estatística
Inferencial:
DISTRIBUIÇÃO AMOSTRAL
A amostragem consiste na retirada aleatória de dados de parte da população de interesse.
Como se trata de uma retirada aleatória, toda vez que o processo de amostragem for repetido,
a probabilidade de obter-se o mesmo conjunto de dados amostrais é pequena. Em outras
palavras, as estimativas feitas nas amostras comportam-se como variáveis aleatórias. Dessa
forma, conclui-se que todas as possíveis amostras de uma população geram estimativas
(valores) com probabilidade de ocorrer. Assim, a média (𝑋̅), a variância (𝑠 2 ), e a proporção (𝑝̂ )
amostral são variáveis aleatórias e apresentam uma distribuição amostral de probabilidade.
A distribuição amostral consiste na distribuição de probabilidades das estimativas feitas
na amostra, considerando todas as amostras possíveis de mesmo tamanho (𝒏) tomadas da
mesma população. É necessário fixar o tamanho da amostra para estudar seu comportamento
aleatório com menos variáveis. Essas distribuições são chamadas amostrais porque
representam o comportamento das estimativas baseado na repetição incontável do processo
de amostragem. Entenda:
MUDE SUA VIDA!

210
A população de um objeto de estudo qualquer apresenta seus parâmetros (𝜃), como

média (𝜇), variância (𝜎 2 ) e proporção (𝑃), que são constantes, muitas vezes desconhecidas.
Cada amostragem coleta dados de uma parte da população e gera uma amostra. Cada amostra
apresenta seus estimadores do parâmetro populacional (𝜃̂), como média (𝑋̅), variância (𝑠 2 ) e
proporção (𝑝̂ ), que tentam obter o mesmo valor populacional (estimam o parâmetro). O
conjunto de cada possível amostra da mesma população gera uma variável aleatória dos
estimadores. Assim, temos uma distribuição amostral para a média, variância e proporção.
A notação 𝜃 representa um parâmetro populacional genérico, qualquer um deles. Por
outro lado, a notação 𝜃̂ representa um estimador do parâmetro populacional genérico, isto é,
qualquer informação (medida descritiva) obtida na amostra.
De modo geral, conhecer a distribuição de probabilidade amostral permite fazer
inferências dos seus estimadores de modo que seja possível efetuar uma generalização para
toda a população de interesse. Se conhecermos toda a distribuição de probabilidade de uma
estimativa, é possível obter seu valor esperado e sua variabilidade. Assim, a partir de apenas
uma amostragem, é possível fazer a estimativa e calcular a possível oscilação que esse valor
pode ter.
Os principais parâmetros de interesse para compreender um fenômeno em estudo são: a
média (𝜇) e a proporção (𝑃). Esses dois parâmetros são essenciais para interpretar as
principais distribuições probabilísticas. A média é essencial para variáveis que seguem uma
distribuição de Poisson, Exponencial e Normal, ao mesmo tempo, a proporção é importante
para determinar as distribuições de Bernoulli, Binomial, Hipergeométrica e Geométrica. Como
muitas vezes esses parâmetros são desconhecidos é preciso estimá-los por meio de amostras.
Assim, as distribuições amostrais de maior interesse referem-se a média amostral (𝑋̅) e a
proporção amostral (𝑝̂ ).
̅)
DISTRIBUIÇÃO DA MÉDIA AMOSTRAL (𝑿
A média amostral é a estimativa de uma medida descritiva que tenta representar o
desempenho de toda uma população em apenas um valor numérico. É uma medida de posição
que fornece de centralidade e muito importante para obter distribuições de probabilidade.
Vamos estudar o comportamento da variável aleatória média amostral (𝑋̅) a partir de um
exemplo com uma população pequena, retirando todas as amostragens possíveis para um
determinado tamanho (𝑛). Com isso, será estudado toda a distribuição amostral e calculado o
valor esperado e a variância da variável aleatória 𝑋̅.
MUDE SUA VIDA!

211
OBJETO DE ESTUDO:
Um objeto de estudo estatístico consiste em avaliar uma equipe de quatro
médicos quanto a quantidade média de cirurgias efetuadas por dia (representada por
C). Nesse contexto, temos uma população composta por apenas quatro elementos
(𝑁 = 4). Os valores observados da população (censo) correspondem: 2, 3, 5 e 8
cirurgias por dia. Para essa população, será estudado a distribuição de todas as
possíveis amostragens diferentes de tamanho igual a 2 (𝑛 = 2). O objetivo é avaliar o
desempenho médio dessa equipe.
Todas as possíveis amostragens aleatórias simples (simbolizada por 𝑐𝑖 ), de tamanho 2,

com reposição, são representadas a seguir:
𝑪 = {𝟐, 𝟑, 𝟓, 𝟖}
𝒄𝟏 = {𝟐, 𝟐} 𝒄𝟓 = {𝟑, 𝟐} 𝒄𝟗 = {𝟓, 𝟐} 𝒄𝟏𝟑 = {𝟖, 𝟐}
𝒄𝟐 = {𝟐, 𝟑} 𝒄𝟔 = {𝟑, 𝟑} 𝒄𝟏𝟎 = {𝟓, 𝟑} 𝒄𝟏𝟒 = {𝟖, 𝟑}
𝒄𝟑 = {𝟐, 𝟓} 𝒄𝟕 = {𝟑, 𝟓} 𝒄𝟏𝟏 = {𝟓, 𝟓} 𝒄𝟏𝟓 = {𝟖, 𝟓}
𝒄𝟒 = {𝟐, 𝟖} 𝒄𝟖 = {𝟑, 𝟖} 𝒄𝟏𝟐 = {𝟓, 𝟖} 𝒄𝟏𝟔 = {𝟖, 𝟖}
Primeiro, vamos obter os parâmetros populacionais da média (𝜇) e variância (𝜎 2 ) para
depois comparar com a distribuição amostral da 𝑋̅. Como se trata de uma população pequena,
o cálculo pode ser feito com facilidade:
𝟐 + 𝟑 + 𝟓 + 𝟖 𝟏𝟖
𝝁= = = 𝟒, 𝟓 𝒄𝒊𝒓𝒖𝒓𝒈𝒊𝒂𝒔/𝒅𝒊𝒂
𝟒 𝟒
(𝟐 − 𝟒, 𝟓)𝟐 + (𝟑 − 𝟒, 𝟓)𝟐 + (𝟓 − 𝟒, 𝟓)𝟐 + (𝟖 − 𝟒, 𝟓)𝟐
𝟐
𝝈 =
𝟒
𝝈𝟐 = 𝟓, 𝟐𝟓 𝒄𝒊𝒓𝒖𝒓𝒈𝒊𝒂𝒔𝟐 /𝒅𝒊𝒂𝟐
Em segundo, será calculado a média de todas as amostras possíveis:
𝟐+𝟐 𝟑+𝟐 𝟓+𝟐 𝟖+𝟐

̅ 𝒄𝟏 =
𝑿 =𝟐 ̅ 𝒄𝟓 =
𝑿 = 𝟐, 𝟓 ̅ 𝒄𝟗 =
𝑿 = 𝟑, 𝟓 ̅ 𝒄𝟏𝟑 =
𝑿 =𝟓
𝟐 𝟐 𝟐 𝟐
𝟐+𝟑 𝟑+𝟑 𝟓+𝟑 𝟖+𝟑

̅ 𝒄𝟐 =
𝑿 = 𝟐, 𝟓 ̅ 𝒄𝟔 =
𝑿 =𝟑 ̅ 𝒄𝟏𝟎 =
𝑿 =𝟒 ̅ 𝒄𝟏𝟒 =
𝑿 = 𝟓, 𝟓
𝟐 𝟐 𝟐 𝟐
𝟐+𝟓 𝟑+𝟓 𝟓+𝟓 𝟖+𝟓

̅ 𝒄𝟑 =
𝑿 = 𝟑, 𝟓 ̅ 𝒄𝟕 =
𝑿 =𝟒 ̅ 𝒄𝟏𝟐 =
𝑿 =𝟓 ̅ 𝒄𝟏𝟓 =
𝑿 = 𝟔, 𝟓
𝟐 𝟐 𝟐 𝟐
𝟐+𝟖 𝟑+𝟖 𝟓+𝟖 𝟖+𝟖

̅ 𝒄𝟒 =
𝑿 =𝟓 ̅ 𝒄𝟖 =
𝑿 = 𝟓, 𝟓 ̅ 𝒄𝟏𝟐 =
𝑿 = 𝟔, 𝟓 ̅ 𝒄𝟏𝟔 =
𝑿 =𝟖
𝟐 𝟐 𝟐 𝟐
MUDE SUA VIDA!

212
Para cada amostragem, temos um conjunto de valores (nesse caso de 𝑛 = 2), que geram
uma média amostral. Todas as possíveis médias amostrais, com probabilidade de ocorrer
devido a aleatoriedade da amostragem, formam a variável aleatória da média amostral (𝑋̅).
Tendo esse conhecimento, vamos representar a função massa de probabilidade da distribuição
amostral da 𝑋̅ e calcular seu valor esperado [𝐸(𝑋̅)]:
̅ 𝒊)
Média Amostral (𝑿 ̅ 𝒊 )]
Probabilidade [P(𝑿 ̅ 𝒊 × P(𝑿
𝑿 ̅ 𝒊)
2 1/16 2/16
2,5 2/16 5/16
3 1/16 3/16
3,5 2/16 7/12
4 2/16 8/12
5 3/16 15/12
5,5 2/16 11/12
6,5 2/16 13/12
8 1/16 8/19
Soma (𝜮) 1 ̅
𝑬(𝑿) = 𝟕𝟐/𝟏𝟔 = 𝟒, 𝟓
Portanto, a partir do estudo da distribuição da média amostral, pode ser concluído que o
valor esperado dessa variável aleatória é igual a média populacional. Assim:
Com isso, ao efetuar diversos processos de amostragens aleatórias, espera-se que a média
das estimativas da 𝑋̅ seja igual ao parâmetro populacional 𝜇.
Por fim, vamos estudar a variabilidade que a 𝑋̅ apresenta ao tentar quantificar o
parâmetro populacional. Para esse objetivo, será calculado a variância da variável aleatória 𝑋̅.
Entenda:
̅𝒊
𝑿 ̅ 𝒊𝟐
𝑿 ̅ 𝒊)
P(𝑿 𝑿̅ 𝒊 × P(𝑿 ̅ 𝒊) ̅ 𝒊 𝟐 × 𝐏(𝑿
𝑿 ̅ 𝒊)
2 4 1/16 2/16 4/16
2,5 6,25 2/16 5/16 12,5/16
3 9 1/16 3/16 9/16
3,5 12,25 2/16 7/12 24,5/16
4 16 2/16 8/12 32/16
5 25 3/16 15/12 75/16
5,5 30,25 2/16 11/12 60,5/16
6,5 42,25 2/16 13/12 84,5/16
8 64 1/16 8/19 64/16
Soma (𝛴) - 1 𝑬(𝑿 ̅ ) = 𝟒, 𝟓 ̅ 𝟐 ) = 𝟐𝟐, 𝟖𝟕𝟓
𝑬(𝑿
MUDE SUA VIDA!

213
̅ ) = 𝟐𝟐, 𝟖𝟕𝟓 − 𝟒, 𝟓𝟐
𝑽𝒂𝒓(𝑿
̅ ) = 𝟐𝟐, 𝟖𝟕𝟓 − 𝟐𝟎, 𝟐𝟓 = 𝟐, 𝟔𝟐𝟓 𝒄𝒊𝒓𝒖𝒓𝒈𝒊𝒂𝒔𝟐 /𝒅𝒊𝒂𝟐
𝑽𝒂𝒓(𝑿
Ao calcular a variância da média amostral, observa-se que o valor não coincide com a
variância populacional (𝜎 2 ). No entanto, é possível constatar uma relação matemática entre
elas, veja:
Nesse exemplo, a variância da população é igual ao dobro da variância da média amostral.

Essa relação é observada, pois a amostragem é composta por dois elementos. Se o mesmo
experimento fosse efetuado com amostragem de 3 elementos (𝑛 = 3), a variância populacional
seria o triplo da variância da 𝑋̅. Isto é, a variabilidade da média amostral consiste na variância
da população dividida pelo tamanho da amostra. Assim, temos uma importante relação:
É importante com essa definição associar a seguinte ideia: a média amostral, que tenta
representar todo um comportamento populacional, apresenta uma variabilidade na sua
estimativa. Portanto, toda vez que calculamos uma média amostral, sabe-se que ocorrerá uma
dispersão que pode ser calculada por essa expressão matemática.
Contudo, sabemos que a variância, ao elevar as observações ao quadrado, perde a
natureza inicial do fenômeno em estudo. Então, para isso, extraímos a raiz quadrada da
variância, obtendo o desvio padrão:
Quanto a variabilidade da média amostral, o seu desvio padrão é a informação mais

importante, pois indica um desvio de mesma natureza (unidade de medida) que o fenômeno
estudado. Com isso, essa informação é que pode ser aplicada para obter o desvio da estimativa
da média amostral (mais a frente, veremos como intervalo de confiança).
Baseado nisso, temos um sutil modificação conceitual muito interessante para abordar
nesse momento. Como o estimador da média amostral consiste na tentativa de acertar o
parâmetro populacional, o desvio padrão, que representa a dispersão desse estimador, pode
também ser interpretado como o erro que a média amostral pode apresentar na tentativa de
acertar o parâmetro, sendo assim conhecido como o erro padrão. Afinal, quanto menor o valor
do erro padrão, mais próximas estarão as médias amostrais da média populacional. Assim,
temos definição conceitual muito importante:
MUDE SUA VIDA!

214
Em síntese, o erro padrão é o possível erro que a média amostral apresenta ao tentar
estimar uma informação sobre o todo, isto é, sobre o parâmetro populacional.
̂)
DISTRIBUIÇÃO DA PROPORÇÃO AMOSTRAL (𝒑
A proporção amostral, avaliando um conjunto de dados, consiste na quantidade de
observações que atende um evento desejado (de interesse) sobre o total de observações
registradas. Pode ser definido pela seguinte fórmula:
𝑿 𝑵º 𝒅𝒆 𝒐𝒃𝒔𝒆𝒓𝒗𝒂çõ𝒆𝒔 𝒅𝒆 𝒊𝒏𝒕𝒆𝒓𝒆𝒔𝒔𝒆
̂=
𝒑 =
𝒏 𝑵º 𝒕𝒐𝒕𝒂𝒍 𝒅𝒆 𝒐𝒃𝒔𝒆𝒓𝒗𝒂çõ𝒆𝒔
A proporção amostral tenta estimar corretamente a verdadeira proporção encontrada em
uma população de estudo, isto é, o parâmetro populacional 𝑃. Essa informação está fortemente
relacionada com a probabilidade de sucesso estudada nas distribuições de probabilidade das
variáveis discretas. Afinal, para obter todo comportamento probabilístico de uma Bernoulli, por
exemplo, inicialmente precisamos estimar a probabilidade de sucesso que é um parâmetro
dessa distribuição. Essa probabilidade de sucesso, assim como qualquer outra informação na
Estatística, é obtida a partir de observações de experimentos reproduzidos no mundo real. Isto
é, aquela probabilidade de sucesso precisa ser estimada de algum lugar, portanto, a forma de
obter essa informação é partir da estimativa da proporção em um conjunto de dados amostrais.
Vamos fazer essa associação lá no exemplo apresentado na distribuição Binomial.
Naquele tópico, foi abordado que a probabilidade de um atirador de elite acertar o alvo era de
80%. Porém, como se alcançou esse valor de 80%? Inicialmente, vários experimentos de
disparos no alvo foram efetuados, com atirador de elite, e foi estimado a proporção de vezes
que ele acertou o alvo em relação ao total de disparos efetuados.
Associando essa informação, vamos fazer o mesmo estudo da distribuição amostral, só
que agora observando o comportamento da variável aleatória proporção amostral (𝑝̂ ). O
mesmo exemplo será aplicado
OBJETO DE ESTUDO:
Um objeto de estudo consiste em avaliar uma equipe de quatro médicos quanto
a quantidade média de cirurgias efetuadas por dia (representada por C). Nesse
contexto, temos uma população composta por apenas quatro elementos (𝑁 = 4). Os
valores observados da população (censo) correspondem: 2, 3, 5 e 8 cirurgias por dia.
Para essa população, será estudado a distribuição de todas as possíveis amostragens
diferentes de tamanho igual a 2 (𝑛 = 2). O objetivo é estimar a proporção de médicos
que fazem mais do que 4 cirurgias por dia.
Todas as possíveis amostragens aleatórias simples (simbolizada por 𝑐𝑖 ), de tamanho 2,

com reposição, são representadas a seguir:
MUDE SUA VIDA!

215
𝑪 = {𝟐, 𝟑, 𝟓, 𝟖}
𝒄𝟏 = {𝟐, 𝟐} 𝒄𝟓 = {𝟑, 𝟐} 𝒄𝟗 = {𝟓, 𝟐} 𝒄𝟏𝟑 = {𝟖, 𝟐}
𝒄𝟐 = {𝟐, 𝟑} 𝒄𝟔 = {𝟑, 𝟑} 𝒄𝟏𝟎 = {𝟓, 𝟑} 𝒄𝟏𝟒 = {𝟖, 𝟑}
𝒄𝟑 = {𝟐, 𝟓} 𝒄𝟕 = {𝟑, 𝟓} 𝒄𝟏𝟏 = {𝟓, 𝟓} 𝒄𝟏𝟓 = {𝟖, 𝟓}
𝒄𝟒 = {𝟐, 𝟖} 𝒄𝟖 = {𝟑, 𝟖} 𝒄𝟏𝟐 = {𝟓, 𝟖} 𝒄𝟏𝟔 = {𝟖, 𝟖}
Primeiramente, vamos estimar a proporção de médicos que fazem mais do que quatro
cirurgias por dia na população de estudo:
𝒏(𝒐𝒃𝒔𝒆𝒓𝒗𝒂çõ𝒆𝒔 𝒅𝒆 𝒊𝒏𝒕𝒆𝒓𝒆𝒔𝒔𝒆) 𝟐
𝑷(𝑿>𝟒) = = = 𝟓𝟎%
𝒏(𝒕𝒐𝒕𝒂𝒍 𝒅𝒆 𝒐𝒃𝒔𝒆𝒓𝒗𝒂çõ𝒆𝒔) 𝟒
Portanto, dois de quatro médicos (50%) fazem mais do que quatro cirurgias por dia.
Podemos estimar a variância dessa proporção, seguindo as pressuposições de uma
distribuição de Bernoulli, isto é:
𝝈𝟐 𝑷 = 𝑷 × (𝟏 − 𝑷)
𝝈𝟐 𝑷 = 𝟎, 𝟓 × 𝟎, 𝟓 = 𝟎, 𝟐𝟓
Agora vamos observar as proporções amostrais de cada possível amostragem:
𝒄𝟏 = {𝟐, 𝟐} 𝒄𝟓 = {𝟑, 𝟐} 𝒄𝟗 = {𝟓, 𝟐} 𝒄𝟏𝟑 = {𝟖, 𝟐}

𝟎 𝟎 𝟏 𝟏
̂𝒄𝟏 = = 𝟎%
𝒑 ̂𝒄𝟓 = = 𝟎%
𝒑 ̂𝒄𝟗 = = 𝟓𝟎%
𝒑 ̂𝒄𝟏𝟑 = = 𝟓𝟎%
𝒑
𝟐 𝟐 𝟐 𝟐
𝒄𝟐 = {𝟐, 𝟑} 𝒄𝟔 = {𝟑, 𝟑} 𝑐10 = {5,3} 𝑐14 = {8,3}

𝟎 𝟎 𝟏 𝟏
̂𝒄𝟐 = = 𝟎%
𝒑 ̂𝒄𝟔 = = 𝟎%
𝒑 ̂𝑐10 = = 𝟓𝟎%
𝒑 ̂𝟏𝟒 = = 𝟓𝟎%
𝒑
𝟐 𝟐 𝟐 𝟐
𝒄𝟑 = {𝟐, 𝟓} 𝑐7 = {3,5} 𝑐11 = {5,5} 𝑐15 = {8,5}

𝟏 𝟏 𝟐 𝟐
̂𝒄𝟑 = = 𝟓𝟎%
𝒑 ̂𝑐𝟕 = = 𝟓𝟎%
𝒑 ̂ 𝑐11 = = 𝟏𝟎𝟎% 𝒑
𝒑 ̂ 𝑐15 = = 𝟏𝟎𝟎%
𝟐 𝟐 𝟐 𝟐
𝒄𝟒 = {𝟐, 𝟖} 𝑐8 = {3,8} 𝑐12 = {5,8} 𝑐16 = {8,8}

𝟏 𝟏 𝟐 𝟐
̂𝒄𝟒 = = 𝟓𝟎%
𝒑 ̂𝑐8 = = 𝟓𝟎%
𝒑 ̂ 𝑐12 = = 𝟏𝟎𝟎% 𝒑
𝒑 ̂ 𝑐16 = = 𝟏𝟎𝟎%
𝟐 𝟐 𝟐 𝟐
Agora, vamos estudar a variável aleatória da proporção amostral (𝑝̂ ), obtendeo seu valor
esperado:
MUDE SUA VIDA!

216
̂𝒊 )
Proporção Amostral (𝒑 ̂𝒊 )]
Probabilidade [P(𝒑 ̂𝒊 × P(𝒑
𝒑 ̂𝒊)
0 4/16 0
0,5 8/16 4/16
1 4/16 4/16
Soma (𝛴) 1 ̂) = 𝟖/𝟏𝟔 = 𝟎, 𝟓

𝑬(𝒑
Com isso, chegamos na mesma conclusão da média amostral, ou seja, o valor esperado da
proporção amostral é igual a proporção populacional.
As mesmas conclusões obtidas na média amostral equivalem para proporção amostral.

Portanto, ao repetir vários processos de amostragens, espera-se que proporção amostral seja
igual a proporção populacional.
Quanto a variância da proporção amostral:
̂𝒊
𝒑 ̂𝒊 𝟐
𝒑 ̂𝒊 )
P(𝒑 ̂𝒊 × P(𝒑
𝒑 ̂𝒊) ̂𝒊 𝟐 × P(𝒑
𝒑 ̂𝒊 )
0 0 4/16 0 0
0,5 0,25 8/16 4/16 2/16
1 1 4/16 4/16 4/16
Soma (𝜮) - 1 ̂ ) = 𝟎, 𝟓
𝑬(𝒑 ̂𝒊 𝟐 ) = 𝟎, 𝟑𝟕𝟓
𝑬(𝒑
̂) = 𝟎, 𝟑𝟕𝟓 − 𝟎, 𝟓𝟐
𝑽𝒂𝒓(𝒑
̂) = 𝟎, 𝟑𝟕𝟓 − 𝟎, 𝟐𝟓 = 𝟎, 𝟏𝟐𝟓
𝑽𝒂𝒓(𝒑
Em relação a variância da proporção amostral, obtém-se a mesma ideia: a variância
observada nas diferentes amostragens é igual a variância da proporção populacional dividida
pelo tamanho da amostra (𝑛). Nesse exemplo, constata-se que a variância da proporção
populacional é o dobro da variância da proporção amostral, pois o tamanho da amostra é igual
a 2.
MUDE SUA VIDA!

217
Por último, o desvio padrão, que representa a dispersão das possíveis estimativas da
proporção amostral, nos fornece a ideia do erro padrão que esse estimador pode apresentar.
̂)
ESTIMADORES (𝜽
As informações provenientes de uma população são os valores exatos e absolutos que tem
o objetivo de ser encontrado em qualquer objeto de estudo estatístico. Essas informações
denominam-se de parâmetros populacionais, são constantes, muitas vezes desconhecidas, que
fornecem o valor exato do fenômeno estudado. No entanto, em muitas situações, é muito difícil
ou impossível pesquisar toda a população, devido a isso, precisa-se obter informações de uma
amostra. Essas informações são estimativas que tentam alcançar o valor populacional, e são
denominadas de estimador de parâmetro populacional. Portanto, os estimadores são todas as
informações extraídas de uma amostra.
EXEMPLO:
Um estudo pretende obter a média de idade dos estudantes universitários da
cidade de São Paulo. Como há muitos estudantes é efetuado uma amostragem
aleatória simples, analisando 100 estudantes. A média da amostra encontrada foi de
22 anos, então, essa é a estimativa para a média de idade de todos os estudantes
universitários de São Paulo. Contudo, a média de idade dos universitários de São
Paulo é realmente 22 anos? Não dá para saber, a não ser que todos os estudantes
universitários fossem pesquisados. Portanto, o parâmetro populacional e o estimador
(ou estimativa do parâmetro) são coisas diferentes e, consequentemente, devem ser
representados de maneira diferente.
MUDE SUA VIDA!

218
As principais informações obtidas em um conjunto de dados são: a média, o desvio padrão,

a variância, o tamanho, e a proporção. Devido a natureza diferente dessas informações quando
proveniente de uma população ou de uma amostra, tem-se uma diferença na forma como são
representadas, simbolicamente:
Os parâmetros específicos, como média e variância, são representados por letras gregas
ou letras em maiúsculo, por outro lado, os estimadores são representados por letras do alfabeto
normal e letras minúsculas. Enquanto o parâmetro populacional é, em geral, um valor fixo, o
estimador depende da amostra, portanto, está associado a uma distribuição de probabilidade
e, assim, é uma variável aleatória.
O estimador não é igual ao parâmetro populacional. Para que o estimador seja eficiente
na tentativa de estimar o parâmetro, é preciso, ou pelo menos, desejável que ele atenda a
algumas propriedades. As principais propriedades dos estimadores são:
ESTIMADOR NÃO VIESADO

A primeira propriedade (desejável) de um estimador é que seja não viesado, ou também
denominado de não viciado ou não tendencioso. Essa propriedade consiste na ideia de que o
estimador, na média, acerte o valor correto. Em outras palavras, se fosse possível repetir a
amostragem – que nada mais é que um experimento aleatório – um número de vezes muito
grande (infinito), o valor médio das estimativas encontradas em cada experimento seria o valor
correto do parâmetro populacional.
MUDE SUA VIDA!

219
Essa propriedade também pode ser compreendida pela seguinte ideia: para o estimador
não ser viesado, o valor esperado (média) da distribuição amostral do estimador deve
convergir para o parâmetro populacional.
𝑬(𝑬𝒔𝒕𝒊𝒎𝒂𝒅𝒐𝒓) = 𝑷𝒂𝒓â𝒎𝒆𝒕𝒓𝒐
̂) = 𝜽
𝑬(𝜽
EXEMPLO:
Um objeto de estudo analisa o número de filhos das famílias em um município
do Estado de Tocantins. Para alcançar esse objetivo foi retirada uma amostra de toda
a população do local. Dessa amostra foi estimada a média de filhos por família. Para
comprovar que essa média é um estimador não viesado, foi repetido o processo de
amostragem diversas vezes, e a cada amostragem foi obtido um valor de média
diferente. O valor esperado dessas médias estimadas [𝐸(𝑋̅ )], isto é, a média das
estimativas foi igual ao parâmetro populacional (𝜇) obtido, posteriormente, em um
censo desse município de Tocantins.
Assim podemos representar a seguinte ideia:

̅) = 𝝁
𝑬(𝑿
Assim, a estimativa da média amostral pelo cálculo da média aritmética é considerada um

parâmetro não viesado uma vez que a média das suas estimativas é igual a média populacional.
Vamos analisar cada estimador quanto a essas propriedades:
∑𝑋
➢ A média amostral 𝑋̅, dado pelo cálculo da média aritmética (𝑋̅ = 𝑛 𝑖 ), é um
estimador não viesado da média populacional 𝜇, pois tem-se que 𝐸(𝑋̅) = 𝜇.
∑(𝑋 −𝑋̅)2
➢ A variância amostral 𝜎̂ 2 , dado pela fórmula 𝜎̂ 2 = 𝑖
, é um estimador viesado
𝑛
da variância populacional 𝜎 2 , pois não temos a relação de igualdade, isto é, 𝐸(𝜎̂ 2 ) ≠
𝜎 2 . Dessa forma, a estimativa da variância amostral dividindo por n é tendenciosa.
∑(𝑋 −𝑋̅ )2
➢ A variância amostral 𝑠̂ 2 , dado pela fórmula 𝑠̂ 2 = 𝑛−1
𝑖
, é um estimador não
viesado da variância populacional 𝜎 , pois tem-se que 𝐸(𝑠̂ ) = 𝜎 2 .
2 2
MUDE SUA VIDA!

220
𝑋 𝑁º 𝑑𝑒 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 𝑖𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒
➢ A proporção amostral 𝑝̂ , dado pela fórmula 𝑝̂ = 𝑛 = 𝑁º 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 , é um
estimador não viesado da proporção populacional P, pois tem-se que 𝐸(𝑝̂ ) = P.
O parâmetro de estimador não viesado permite concluir que o procedimento matemático
mais apropriado para estimar a variância e o desvio padrão amostral consiste em dividir por
𝑛 − 1. Essa conclusão é alcançada porque, ao observar as distribuições das estimativas de s2 e
s, observa-se que a média converge para o parâmetro populacional.
ESTIMADOR EFICIENTE
Para estimador ser eficiente, não basta que acerte na média. É desejável que, além disso,
ele seja o mais preciso possível, não disperse muito, em outras palavras, tenha a menor
variância possível. Desse modo, a propriedade eficiente engloba as seguintes ideais:
O conceito de não viesado é acumulado no estimador eficiente, além disso, precisa ser
avaliada a distribuição das amostragens e avaliar, entre eles, aquele com menor variância. Para
inferir que um estimador é eficiente, deve ser comparado a outro estimador com maior
variância. Suponha que três diferentes estimadores (E1, E2 e E3) estão sendo analisados quanto
a eficiência, para isso será observado toda a distribuição de suas estimativas feita em cada
amostragem. Entenda por esquemas:
O círculo representa toda a população do objeto de estudo, e o círculo verde central indica
o verdadeiro parâmetro populacional (𝜃). Cada X representa a estimativa de uma amostra e o
círculo central entre os X a média da estimativa do parâmetro (𝜃̂). Com essa ilustração é
possível inferir que o estimador E1 é viesado (tendencioso), pois na média estima um parâmetro
incompatível ao da população. Em contrapartida, os estimadores E2 e E3 são não viesados, pois
na média das estimativas acertam o parâmetro populacional. Desse modo, cabe identificar qual
MUDE SUA VIDA!

221
dos dois estimadores é mais eficiente. Para isso, basta analisar sua precisão, ou seja, se as
estimativas estão mais próximas uma das outras, se possuem baixa variância. Na representação,
é possível visualizar que E3 é mais eficiente do que E2. Pois:
𝑽𝒂𝒓(𝑬𝟑 ) < 𝑽𝒂𝒓(𝑬𝟐 )

A variância dos estimadores nos fornece a dispersão das amostragens em relação média,
que, para um estimador não viesado, consiste no parâmetro populacional. Quanto menor a
variância, maior a precisão e exatidão da estimativa.
Conforme abordado na distribuição da média e proporção amostral, a variância desses
dois estimadores pode ser calculada da seguinte forma:
𝝈𝟐 𝑿 𝑷(𝟏 − 𝑷)
̅) =
𝑽𝒂𝒓(𝑿 ̂) =
𝑽𝒂𝒓(𝒑
𝒏 𝒏
É possível demonstrar que, se a variável segue uma distribuição normal, a média amostral
e proporção amostral são estimadores eficiente da média e proporção populacional.
ESTIMADOR CONSISTENTE
Um estimador apresenta a propriedade consistente se, à medida que o tamanho da
amostra cresce, ele for convergindo para o valor verdadeiro do parâmetro. Em outras palavras,
quando o tamanho da amostra aumenta infinitamente, o estimador tende a torna-se uma
informação exata do parâmetro populacional, isto é, uma constante com valor esperado igual
ao parâmetro e variância igual a zero. Essa propriedade pode ser expressa, matematicamente:
As simbologias Lim 𝐸(𝜃̂) 𝑒 Lim 𝑉𝑎𝑟(𝜃̂) indicam o que ocorrerá com valor esperado e
𝑛→∞ 𝑛→∞
variância do estimador (𝜃̂) com o aumento, tendendo ao infinito, do tamanho amostral (𝑛).
A média amostral e a proporção amostral são estimadores consistentes, pois:
MUDE SUA VIDA!

222
Além disso, também são consistentes os estimadores:

➢ A variância amostral 𝜎̂ 2 é estimador consistente, porém viesado;
➢ A variância amostral 𝑠̂ 2 é um estimador consistente, além de não viesado.
Com isso, é possível constatar que um estimador viesado pode ser consistente. Ao mesmo
tempo, um estimador não viesado não significa que ele é consistente.
ESTIMADOR DE MÁXIMA VEROSSIMILHANÇA
A propriedade do estimador de máxima verossimilhança consiste em estimar os
parâmetros populacionais de forma que maximizem a chance (a probabilidade, a
verossimilhança) de que os valores obtidos na amostra sigam, de fato, a distribuição
previamente conhecida. Isso se aplica quando se conhece qual é a distribuição de probabilidade
da população.
Em outras palavras, ao conhecer a distribuição de probabilidade do fenômeno em estudo,
um estimador terá máxima verossimilhança quando proporcionar valores que sigam essa
distribuição, isto é, torna a amostra observada mais verossímil possível. Por exemplo, se a
distribuição de uma variável aleatória segue distribuição Poisson com parâmetro µ, o estimador
de máxima verossimilhança será a média que maximize a chance de a amostra apresentar uma
distribuição de Poisson.
São estimadores de máxima verossimilhança:
∑𝑋
➢ A média amostral 𝑋̅, dado pelo cálculo da média aritmética (𝑋̅ = 𝑛 𝑖 ), é um
estimador máxima verossimilhança;
∑(𝑋 −𝑋̅)2
➢ A variância amostral 𝜎̂ 2 , dado pela fórmula 𝜎̂ 2 = 𝑖
, é um estimador de
𝑛
máxima verossimilhança;
𝑠 𝑁º 𝑑𝑒 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 𝑖𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒
➢ A proporção amostral 𝑝̂ , dado pela fórmula 𝑝̂ = = , é um
𝑛 𝑁º 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑒𝑣𝑒𝑛𝑡𝑜𝑠
estimador de máxima verossimilhança.
Em contraste, não é estimador de máxima verossimilhança:
∑(𝑋𝑖 −𝑋̅ )2
➢ A variância amostral 𝑠̂ 2 , dado pela fórmula 𝑠̂ 2 = , não é um estimador de
𝑛−1
máxima verossimilhança.
Com essas informações podemos observar que, para a Variância, os estimadores não
coincidem. O estimador que tem a propriedade de não viciado não é o mesmo que tem a máxima
verossimilhança. De modo geral preza-se pela propriedade não viesado na hora estimar a
variância. Entretanto, se uma questão priorizar pela máxima verossimilhança ou for uma
questão mais teórica é interessante destacar que:
MUDE SUA VIDA!

223
DISTRIBUIÇÃO 𝒕 DE STUDENT
Nesse momento, é necessário incluir o conhecimento sobre outra distribuição de
probabilidade de variáveis aleatórias contínuas: a distribuição 𝑡 de Student.
Essa distribuição de probabilidade é praticamente uma adaptação da distribuição Normal
Padrão. Isso porque, para padronizar uma variável aleatória Normal X qualquer, é necessário
que os parâmetros populacionais 𝜇 e 𝜎 sejam conhecidos. No entanto, muitas vezes o desvio
padrão é desconhecido e não podemos padronizar os valores para Z na fórmula:
𝑿−𝝁
𝒁=
𝝈
Ao invés disso, substituímos o parâmetro populacional do desvio padrão (𝜎) pela
estimativa do parâmetro, o desvio padrão amostral (𝑠). Com isso, cria-se uma outra distribuição
de probabilidade que trabalha com informações da amostra, denominada distribuição 𝑡 de
Student. Assim, em vez obter um valor de Z, a variável aleatória Normal X é padronizada para
um valor 𝑡, pela seguinte fórmula:
𝑿−𝝁
𝒕=
𝒔
A distribuição t é similar a distribuição Z, em que ambas são simétricas na média com
valor µ = 0. Além disso, ambas as distribuições são em forma de sino, porém a distribuição t
de Student é mais variável em virtude dos valores dependerem das flutuações amostrais de
duas estimativas, 𝑋̅ e 𝑠 2 . A distribuição de t difere de Z, pois a variação de t depende do tamanho
da amostra 𝑛 que deve ser sempre maior do que 1.
A distribuição de 𝑡 varia de acordo com o tamanho da amostra (𝑛) e, por isso, possui uma
distribuição de probabilidade para cada grau de liberdade (𝑮𝑳). Essa informação é calculada
pela seguinte expressão:
𝑮𝑳 = 𝒏 − 𝟏
O grau de liberdade é compreendido pelo tamanho da amostra menos um. Isso está
associado com a ideia de dados amostrais, onde o desvio padrão não viesado precisa ser
dividido por 𝑛 − 1. Sempre que estiver trabalhando com dados amostrais, vamos tratar de
graus de liberdade. Para compreender a ideia de graus de liberdade veja o exemplo seguinte.
EXEMPLO:
Considere um conjunto de dados qualquer. Graus de liberdade é o número de
valores deste conjunto de dados que podem variar após terem sido impostas certas
restrições a todos os valores. Consideremos que 10 estudantes obtiveram em um
teste média 8.0. Assim, a soma das 10 notas deve ser 80 (restrição). Portanto, neste
caso, temos um grau de liberdade de 10 − 1 = 9, pois as nove primeiras notas podem
ser escolhidas aleatoriamente, contudo a 10a nota deve ser igual a [80 −
(𝑆𝑜𝑚𝑎 𝑑𝑎𝑠 9 𝑝𝑟𝑖𝑚𝑒𝑖𝑟𝑎𝑠 𝑛𝑜𝑡𝑎𝑠)].
Dessa forma, uma variável aleatória 𝑡 apresenta distribuição t de Student, tendo como
parâmetros a média, a variância amostral e os graus de liberdade. Assim:
𝒕~𝒕 𝒅𝒆 𝑺𝒕𝒖𝒅𝒆𝒏𝒕(𝝁, 𝒔𝟐 , 𝑮𝑳)
MUDE SUA VIDA!

224
Um fenômeno interessante é observado com o aumento da amostra. Pode ser observado

que quanto maior o grau de liberdade, mais a distribuição 𝑡 de Student se aproxima da
distribuição Normal. Esse conhecimento será aprofundado em breve com o Teorema do Limite
Central.
Isso pode ser observado pela curva de distribuição:
Então, basicamente a distribuição 𝑡 substitui a Normal Padrão quando o desvio padrão

populacional (𝜎) é desconhecido e trabalha-se com amostras pequenas. Por isso, essa
distribuição é conceituada como distribuição das pequenas amostras.
Os escores padronizadas de 𝑡 são tabelados assim como a Normal Padrão, informando o
valor da variável e uma área de probabilidade específica. No entanto, como a distribuição 𝑡
apresenta mais flutuações devido ao desvio-padrão amostral, a tabela apresenta mais uma
variável: o grau de liberdade. Veja:
MUDE SUA VIDA!

225
Assim, a tabela tem em cada linha os graus de liberdade (𝐺𝐿) e cada coluna a
probabilidade superior a um valor 𝑡𝑡𝑎𝑏 tabelado específico [𝑃(𝑡>𝑡𝑡𝑎𝑏 ) ], também identificado
como área da cauda superior.
TEOREMA DO LIMITE CENTRAL

A capacidade de usar amostras para fazer inferências sobre parâmetros populacionais
depende do conhecimento da distribuição amostral. O conhecimento sobre a centralidade e a
dispersão da distribuição amostral da média e da proporção já foram estudadas, no entanto,
precisamos ainda de outra informação: a forma da distribuição amostral para conhecer sua
função de probabilidade.
Existe uma tendência para as distribuições de médias e proporções se apresentarem
aproximadamente Normais. No caso das médias amostrais, pode-se demonstrar
matematicamente que, se uma população tem distribuição Normal, a distribuição das médias
amostrais extraídas da população também tem distribuição Normal, para qualquer tamanho da
amostra.
Além disso, mesmo no caso de um distribuição não-normal, a distribuição das médias
amostrais será aproximadamente normal, desde que a amostra seja suficientemente grande.
Este é um resultado muito interessante, pois nos diz que não é necessário conhecer a
distribuição de uma população para podermos fazer inferências sobre ela a partir de
dados amostrais. A única restrição é que o tamanho da amostra seja suficientemente grande.
Uma regra prática muito usada, aplicada na teoria, é que amostra deve ser composta por 30 ou
mais observações.
Quando 𝑛 for suficientemente grande, a curva de frequência analisada aproxima-se do
comportamento de uma distribuição de probabilidade Normal. Essa aproximação pode ser
verificada analisando-se os gráficos que mostram o comportamento da curva da variável média
amostral (𝑋̅) para várias formas da distribuição da população e para várias formas da amostra
conforme o seu tamanho (n). Observe:
Esses exemplos sugerem que, quando o tamanho da amostra aumenta,

independentemente da forma da distribuição da população (primeira linha), a distribuição
amostral da variável aproxima-se cada vez mais de uma distribuição Normal. Para populações
que são originalmente Normais, as amostragens, mesmo com pequeno tamanho, já apresentam
MUDE SUA VIDA!

226
uma distribuição Normal. Contudo, em distribuições não-Normais, como Uniforme e

Exponencial, o teorema do limite central é alcançado com mais de 30 observações (𝑛 ≥ 30).
Estes resultados são conhecidos como o Teorema do Limite Central e é um
conhecimento fundamental para aplicar o Intervalo de Confiança e o Teste de Hipóteses em
informações incompletas, ou seja, provenientes da amostra. Afinal, conhecendo a distribuição
probabilística da amostra podemos inferir sobre o potencial de suas estimativas.
Assim podemos estabelecer duas regras essenciais sobre esse teorema:
➢ Se a população sobre amostragem tem distribuição Normal, a distribuição das
médias amostrais também será Normal para todos os tamanhos da amostra.
➢ Se a população sobre amostragem tem distribuição não-Normal, a distribuição
amostral será aproximadamente normal para grandes amostras.
De modo geral, com o Teorema do Limite Central podemos concluir que, conforme
aumenta o tamanho da amostra, a distribuição amostral tende a Normal.
Para amostras pequenas (𝑛 < 30) a distribuição de probabilidade mais adequada é a 𝑡 de

Student. Conforme o teorema, esse fenômeno também é aplicado com a distribuição 𝑡 de
Student que tende a Normal. Portanto, mesmo se o desvio padrão populacional é desconhecido,
para amostras grandes (𝑛 ≥ 30), aplica-se a Normal.
Vamos aplicar toda essa teoria, a partir de um exemplo, e obter inferências de dados
extraídos de uma amostra.
OBJETO DE ESTUDO:
Um objeto de estudo avalia a área desmatada em toda região da Floresta
Amazônica. A população de interesse consiste em toda a Floresta Amazônica, a
variável X que representa esse fenômeno apresentou uma média igual a 100 km2 e
variância igual a 324 km4. Desse estudo, foi retirada uma amostra de 36 elementos.
Com esse exemplo, podemos obter as seguintes informações:

➢ Qual a média da distribuição amostral?
A média amostral é igual a média populacional, pois é estimador não viesado. Assim:
𝝁𝑿̅ = 𝝁𝑿 = 𝟏𝟎𝟎 𝒌𝒎𝟐

➢ Qual o desvio padrão da distribuição amostral?
𝜎
O desvio padrão da média amostral é igual a , com isso:
√𝑛
Desvio Padrão da População:
𝝈 = √𝝈𝟐 = √𝟑𝟐𝟒 = 𝟏𝟖 𝒌𝒎𝟐
MUDE SUA VIDA!

227
Desvio Padrão da Média Amostral:

𝝈 𝟏𝟖 𝟏𝟖
𝝈𝑿̅ = = = = 𝟑 𝒌𝒎𝟐
√𝒏 √𝟑𝟔 𝟔
➢ Qual a probabilidade de que, nessa amostra, seja encontrada uma média amostral
superior a 106 km2 [𝑃(𝑋>106) ]? (Considere: 𝑃(𝑍<2) = 0,9772)
Em face ao teorema do limite central, sabemos que a média amostral segue uma
distribuição Normal, com média igual a 100 km2 e desvio padrão igual a 3 km2. Dessa forma,
para encontrar a probabilidade em qualquer intervalo, basta aplicar os conhecimentos sobre
uma distribuição Normal.
Primeiramente, deve-se transformar o valor de interesse na Normal Padrão (𝑋 → 𝑍):
𝑿 − 𝝁𝑿 𝟏𝟎𝟔 − 𝟏𝟎𝟎 𝟔
𝒁= = = =𝟐
𝝈𝑿 𝟑 𝟑
Com isso temos que:
𝑷(𝑿>𝟏𝟎𝟔) = 𝑷(𝒁>𝟐) = 𝟏 − 𝟎, 𝟗𝟕𝟕𝟐 = 𝟎, 𝟎𝟐𝟐𝟖 = 𝟐, 𝟐𝟖%

LEI DOS GRANDES NÚMEROS
A teoria da Probabilidade estuda as chances de um determinado evento acontecer. Esse
tipo de lógica tem diversas utilidades no cotidiano, sendo uma delas a estimação de valores
esperados [E(X)] de experimentos aleatórios. Nessa temática, é aplicada a Lei dos Grandes
Números. Essa lei afirma que a média aritmética dos valores observados tende a esperança da
variável aleatória, isto é, quanto mais vezes um experimento aleatório se repete, a
probabilidade de determinado evento acontecer se aproxima da probabilidade esperada.
Como a amostragem se trata de um experimento aleatório, a Lei dos Grandes Números

também pode ser interpretada da seguinte forma: quando a amostra cresce (tende a infinito),
a média ou a proporção amostral converge para a média ou proporção populacional. Sendo
assim, quanto maior a amostra, mais o valor obtido pela média ou pela proporção amostral
estará próximo do valor “correto”. Repare que essa lei equivale a afirmação de que esses
estimadores são consistentes em relação a seus respectivos parâmetros populacionais. Vamos
entender essa teoria a partir de uma aplicação prática.
MUDE SUA VIDA!

228
EXEMPLO:
Suponha que um município tenha duas delegacias de polícia: a primeira é uma
delegacia grande, localizada no centro da cidade, com frequência de registos de
denúncias na faixa de 30 por semana; a segunda é uma delegacia menor, em um
bairro do interior, com 8 registros de denúncia por semana. Estudos avançados
afirmam que 80% das denúncias criminosas tem como suspeito pessoas do sexo
masculino. Durante o período de um ano, ambas as delegacias registram denúncias
em que 60% eram causadas por homens. Em qual das duas delegacias foi observado
mais semanas com proporções que desviam dos estudos avançados?
Em primeiro lugar, o aluno deve entender que os estudos avançados fornecidos
no exemplo sugerem a ideia de parâmetros populacionais, isto é, que os eventos de
denúncias registradas nas delegacias apresentam, como responsáveis, a proporção
de 80% homens e 20% mulheres. Então é como se o valor esperado da proporção
de homens responsáveis pelas denúncias feitas na delegacia fosse 80% [𝐸(𝑝) = 0,8].
Após entender essa ideia, aplica-se alei dos grandes números e terá a resposta para
questão.
A delegacia maior no centro, com mais eventos de denúncias registradas por
semana, tem maior número de observações (𝑛). Assim, as proporções observadas
nessa delegacia tendem a ser mais próximas do valor esperado. Em contrapartida, a
delegacia menor apresentará mais registros por semana que foge da proporção
esperada de homens como responsáveis pela denúncia. Portando, a delegacia menor
apresentará mais semanas com proporção de 60% homens e 40% mulheres.
A Lei dos Grandes Números, entretanto, aparece em duas versões, de acordo com o tipo
de convergência: lei fraca dos grandes números e lei forte dos grandes números.
A Lei Fraca dos Grandes Números estabelece que a média amostral converge em
probabilidade para a média populacional, enquanto a Lei Forte dos Grandes Números
estabelece que a média amostral converge quase certamente (convergência com
probabilidade 1) para a média populacional.
A convergência quase certa implica convergência em probabilidade, mas a recíproca não

é verdadeira. Isto é, a convergência quase certa é mais “forte” do que a convergência em
probabilidade.
Como é óbvio, as condições para que se verifique a Lei Forte são mais restritas. Para que
se verifique a Lei Fraca, basta que os valores Xi sejam uma sequência de números aleatórios
com variância finita, mas não necessariamente independentes. Para que se verifique a Lei Forte,
é necessário que os valores Xi sejam independentes e identicamente distribuídos: uma
sequência de lances de dados, uma sequência de cara ou coroa com uma moeda etc.
Essa teoria é muito útil na Estatística, pois pode auxiliar na amostragem, calculando o
número de vezes que um experimento deve ser repetido para que se obtenha um valor que
realmente represente a população de estudo.
MUDE SUA VIDA!

229
ESTIMATIVAS PONTUAIS
Conforme todo conhecimento já acumulado, podemos concluir que a estimação é o
processo que utiliza dados amostrais parar estimar informações sobre todo universo de estudo,
isto é, parâmetros populacionais.
As estimativas pontuais são aquelas que originam uma única estimativa do parâmetro. As
principais informações obtidas das amostras:
➢ Estimativa Pontual da Média Populacional (𝝁)
A estimativa da média populacional µ é a média amostral 𝑋̅. Para um conjunto de valores
amostrais, ela é calculada por meio da fórmula da média aritmética:
➢ Estimativa Pontual da Variância Populacional (𝝈𝟐 )

A estimativa pontual da variância populacional 𝜎 2 é a variância amostral 𝑠 2 . Para um
conjunto de valores amostrais, ele é calculado por meio da fórmula:
A fórmula da variância com o (𝑛 − 1) no denominador na fração torna a estimativa da

variância em uma estimativa não tendencioso (não viesado), pois a média de todas as variâncias
possíveis para uma amostra de tamanho n de uma população, obtidas pela fórmula acima, é
igual ao desvio padrão populacional.
➢ Estimativa Pontual do Desvio padrão Populacional (𝝈)
A estimativa pontual do desvio padrão 𝜎 é o desvio padrão amostral 𝑠. Para um conjunto
de valores amostrais, ele é calculado por meio da fórmula:
Obtendo a variância, o desvio padrão pode ser facilmente calculado extraindo a raiz
quadrada.
➢ Estimativa Pontual da Proporção Populacional (𝑷)

A estimativa pontual da proporção 𝑃 é a proporção amostral 𝑝̂ . Para um conjunto de
valores amostrais, ela é calculada por meio da fórmula:
MUDE SUA VIDA!

230
Basicamente, as estimativas pontuais consistem na aplicação dos cálculos de medidas

descritivas na amostra, obtendo assim informações pontuais sobre a centralidade, dispersão e
proporção. Afinal, a estatística descritiva resume um conjunto de dados, nesse caso amostrais,
e geram uma informação incerta sobre toda a população.
INTERVALO DE CONFIANÇA (IC)

As estimativas pontuais, como a média amostral, podem apresentar valores diferentes da
média populacional, embora os dois valores em geral sejam próximos. Em virtude dessa
variabilidade (pois a estimativa depende da amostra utilizada), é usual incluir uma estimativa
intervalar para acompanhar a estimativa pontual. A construção da estimativa intervalar é feita
por meio do Intervalo de Confiança (IC). Essa nova estimativa proporciona um intervalo de
possíveis valores do parâmetro populacional. Assim, a apresentação mais coerente sobre uma
estimativa do parâmetro populacional, por se tratar de dados incompletos, é:
Assim, qualquer estimativa proveniente da amostra, é eficientemente apresentada por

meio da estimativa pontual, calculada pelas medidas descritivas, junto ao intervalo de confiança
(a variação que estimativa pode apresentar). Para a estimativa da média e proporção
populacional teríamos a seguinte representação:
Na escala de valores da variável estudada, a estimativa pontual e intervalar apresentam a
seguinte relação:
Assim, as estimativas pontual e intervalar da média (𝑋̅) e da proporção (𝑝̂ ) podem ser
representadas:
MUDE SUA VIDA!

231
Entenda a partir de exemplos:

➢ Uma estimativa pontual diria que a média da temperatura na cidade de Curitiba, no
mês de março do corrente ano, é da ordem de 25 ºC. Já uma estimativa intervalar
diria que está entre 23° C e 27° C;
➢ Uma estimativa pontual diria que a proporção de um determinado candidato tem

37% das intenções de voto. Já uma estimativa intervalar diria que o candidato tem
entre 34% e 40% das intenções de voto (ou 37% com uma margem de erro de 3%
para cima ou para baixo).
Em síntese, o Intervalo de Confiança apresenta um intervalo de valores, centrado na

estimativa pontual, no qual acredita-se, com um risco conhecido de erro, englobar o
parâmetro populacional.
INTERVALO DE CONFIANÇA PARA A MÉDIA
Primeiramente, deve-se obter a estimativa pontual da média a partir dos dados amostrais.
Após isso, deve-se obter o intervalo de confiança. Esse intervalo é calculado a partir do erro
padrão da média amostral multiplicado por uma variável aleatória que apresenta um risco de
erro conhecido. Essa variável aleatória é um escore padronizado (adimensional) que segue ou
uma distribuição Normal Padrão (𝑍) ou uma distribuição t de Student (𝑡). Assim, o Intervalo de
Confiança é o produto do erro padrão da média amostral com a distribuição de probabilidade
que esse erro apresenta, gerando, assim, o intervalo de valores que a estimativa apresenta ao
tentar acertar o parâmetro populacional.
MUDE SUA VIDA!

232
Em face dessas variações, existe mais de uma fórmula para calcular um intervalo de
confiança (𝐼𝐶). Com isso, a construção para o intervalo de confiança da média de uma população
depende de dois fatores:
➢ Se o desvio padrão da população (𝝈) é conhecido
Caso o desvio padrão populacional seja conhecido (fornecido na questão) é utilizado essa
informação no cálculo do intervalo de confiança e aplica-se independentemente do tamanha
amostral o escore padronizado Z. Por outro lado, caso o desvio padrão populacional seja
desconhecido, deve ser utilizado o desvio padrão amostral (s), que poderá ser fornecido
diretamente na questão ou então deverá ser calculado com base nos dados apresentados na
questão.
➢ Se o tamanho da amostra é relativamente grande (𝒏 ≥ 𝟑𝟎)
Em situações que o desvio padrão populacional é desconhecido, o tamanho da amostra
influencia qual escore padronizado será utilizado (Z ou t). Conforme o Teorema do Limite
Central, vimos que amostras com tamanho igual ou superior a 30 já apresentam uma
distribuição de probabilidade próxima a Normal, portanto, usa-se a variável padronizada Z que
apresenta essa distribuição. Para tamanhos de amostra inferiores a 30 elementos, a variável 𝑡
com distribuição 𝑡 de Student representa melhor o comportamento probabilístico (mais a
frente iremos estudar essa distribuição de probabilidade contínua e a variável aleatória 𝑡, no
momento, apenas entenda que amostras pequenas são melhor representadas por essa
distribuição).
Por conseguinte, o intervalo de segurança, de acordo com o conhecimento do desvio
padrão e tamanho da amostra, pode ser calculado de três formas:
MUDE SUA VIDA!

233
As simbologias nas fórmulas consistem em:

𝑋̅: é a média da amostral.
σ: é o desvio padrão da população.
s: é o desvio padrão da amostra.
n: é o tamanho da amostra.
𝑍: é a variável aleatória associada a distribuição de probabilidade Normal Padrão
𝑡: é a variável aleatória associada a distribuição de probabilidade t de Student.
Para poder definir o intervalo de confiança, é preciso saber qual o valor 𝑍 ou 𝑡 deve ser
utilizado. Para isso, a questão fornecerá um nível de confiança (ou grau de confiança, ou
coeficiente de confiança). O valor de Z (ou de t) é definido a partir desse nível de confiança. Isso
porque essas variáveis aleatórias estão associadas a uma distribuição de probabilidade
conhecida e que representa os dados amostrais. Ao conhecer uma distribuição Normal Padrão
de probabilidade, conhecemos um valor respectivo que engloba, por exemplo, 95% da variação
da estimativa centrado na média populacional. Dessa forma, o produto desse valor com o erro
padrão caracteriza um intervalo com 95% de chances de englobar a média populacional.
Tecnicamente, 95% de todos os intervalos de confiança que construirmos conterão o verdadeiro
valor do parâmetro (dado que todas as suposições envolvidas estejam corretas). Então, ao obter um
intervalo de confiança para o parâmetro 𝜇, para cada uma dentre 100 amostras aleatórias da
população, somente 5, em média destes intervalos de confiança não conterão 𝜇.
O grau de confiança mais cobrado nas questões de concursos, e um dos mais usados na prática
Estatística, é o de 95%. O 𝑍 correspondente a este grau é o 𝑍 = 1,96 (convém memorizar esse valor).
Isso facilmente pode ser encontrado ao observar a tabela da distribuição Normal Padrão, em que
obtemos 95% de probabilidade centrada na média (47,5% para cada lado da média):
Com o valor de 𝑍 = 1,96 é obtido uma amplitude, centrada na média, que corresponde
uma área de probabilidade de 95% na Normal Padrão. A área residual é de 2,5% para cada lado,
gerando 5% de risco erro, essa área será estudada com mais detalhamento nos testes de
hipótese (associada a probabilidade de erro).
As formas de apresentação dos valores Z na tabela da Normal Padrão são: pelo intervalo
da média (𝑍 = 0) até o valor ZC de interesse [𝑃(0<𝑍<𝑧𝑐) ], ou então, pela probabilidade acumulada
até o valor ZC de interesse𝑃(𝑍<𝑧𝑐) . Assim, para 95% de confiança centrado na média, o valor Z de
1,96 pode ser encontrado da seguinte forma:
MUDE SUA VIDA!

234
➢ 𝑃(0<𝑍<1,96) = 0,475 → Metade da área de 95% centrada na média, 0 até 1,96;

➢ 𝑃(𝑍<1,96) = 0,975 → Probabilidade acumulada até 1,96, acumula 95% de confiança +
2,5% do risco de erro da margem inferior.
É importante que o aluno entenda que o valor de 1,96 é o mais usual para calcular o
intervalo de segurança. No entanto, se a questão solicitar outra percentagem, basta identificar
na tabela o valor que acumula a área, centrada na média, correspondente a probabilidade
solicitada na questão.
Em síntese, vamos interpretar as informações geradas na estimação intervalar. O valor da
média amostral (na hipótese do desvio padrão populacional conhecido) tem a seguinte
oscilação:
O centro do intervalo é a 𝑋̅;

𝜎
O limite inferior é 𝑋̅ − 𝑍 𝑛;
√
𝜎
O limite superior é 𝑋̅ + 𝑍 ;
√𝑛
𝜎
A amplitude do intervalo de confiança é igual a 2 × 𝑍 ;
√𝑛
Conhecendo a distribuição da média amostral e associando ela a Normal Padrão, podemos

representar o desenho do intervalo de confiança dentro da curva Normal, para 95% de nível de
confiança (𝑍 = 1,96), da seguinte forma:
MUDE SUA VIDA!

235
Agora vamos aplicar todos esses conhecimentos por meio de exemplos (um para cada
fórmula).
OBJETO DE ESTUDO 01:
Um objeto de estudo estatístico tem o objetivo de avaliar o desempenho médio
da velocidade, em m/s, de atletas de corrida. Para isso, foram amostrados 100 atletas
de corrida. Foi estimada uma média de 8,2 m/s. Além disso, sabe-se que essa
variável segue uma distribuição Normal e o desvio padrão, estudado por várias
competições olímpicas, é de 2,4 m/s.
Nessas condições, qual é o intervalo de confiança, com 95%, para a estimativa de 𝜇?

Em primeiro lugar, deve-se identificar qual fórmula do intervalo de confiança deve ser
aplicada. Como foi fornecido um desvio padrão referente a variável estudada, entende-se que é
uma informação populacional gerada por meio de várias observações de provas olímpicas. Com
isso temos um 𝝈 conhecido. Assim, o intervalo de confiança para a estimativa de 𝜇 é:
𝝈 𝝈
𝑰𝑪 = 𝒁 ̅±𝒁
𝑿
√𝒏 √𝒏
Em seguida, vamos organizar todas as informações obtidas no exemplo:
➢ O valor de Z para 95% de confiança é 1,96;
➢ O desvio padrão populacional (𝜎) é 2,4 m/s;
➢ O tamanho da amostra (𝑛) é de 100 atletas;
➢ A média amostral (𝑋̅) que estima a média populacional 𝜇 é de 8,2 m/s.
Com todas essas informações, a estimação intervalar pode ser representada por:
O valor do intervalo de confiança é:
MUDE SUA VIDA!

236
Com isso, podemos inferir que a média estimada de 8,2 m/s tem um intervalo de confiança
na faixa de 0,47 m/s para mais ou para menos. Portanto:
Limite Inferior: 8,20 − 0,47 = 7,73 𝑚/𝑠;

Limite Superior: 8,20 + 0,47 = 8,67 𝑚/𝑠;
Amplitude do intervalo de confiança: 2 × 0,47 = 0,94 𝑚/𝑠;
Concluindo o exemplo, o intervalo de confiança é [7,73; 8,67 m/s].

Um objeto de estudo estatístico tem o objetivo de avaliar o tempo, em minutos,
necessário para realizar uma operação policial específica. Foram analisadas 400
operações policiais de mesma natureza.
Foram obtidos, a partir da amostra, os seguintes dados:
Tempo (min) Frequência
30 25
60 10
90 5
Qual é o intervalo de 90% de confiança para a estimativa de 𝝁?
Z tem distribuição normal padrão, então:
➢ 𝑃(𝑍 < 1,44) = 0,925;
➢ 𝑃(𝑍 < 1,64) = 0,950;
➢ 𝑃(𝑍 < 2,05) = 0,980;
➢ 𝑃(𝑍 < 2,40) = 0,992.
MUDE SUA VIDA!

237
Nesse exemplo, não temos um desvio padrão populacional (𝜎) conhecido. Portanto, é
necessário utilizar o desvio padrão amostral (estimativa do parâmetro populacional) para
calcular o intervalo de confiança. Portanto, a partir da tabela de frequência, deve ser calculado
a média e o desvio padrão amostral.
A média amostral (𝑋̅) é:
𝟑𝟎 × 𝟐𝟓 + 𝟔𝟎 × 𝟏𝟎 + 𝟗𝟎 × 𝟓 𝟏𝟖𝟎𝟎𝟎
̅=
𝑿 = = 𝟒𝟓 𝒎𝒊𝒏
𝟒𝟎 𝟒𝟎𝟎
O desvio padrão amostral (s) é:
𝟐
(𝟑𝟎 − 𝟒𝟓)𝟐 + (𝟔𝟎 − 𝟒𝟓)𝟐 + (𝟗𝟎 − 𝟒𝟓)𝟐
𝒔 =
𝟒𝟎 − 𝟏
𝟐𝟐𝟓 + 𝟐𝟐𝟓 + 𝟐𝟒𝟕𝟓 𝟐𝟒𝟕𝟓
𝒔𝟐 = = = 𝟔𝟑, 𝟒𝟔 𝒎𝒊𝒏𝟐
𝟑𝟗 𝟑𝟗
𝒔 = √𝟔𝟑, 𝟒𝟔 ≅ 𝟖 𝒎𝒊𝒏
Após extrair as medidas necessárias na amostra, é possível obter o intervalo de confiança.
Como a amostra possui um tamanho maior que 30 elementos (𝑛 ≥ 30), o intervalo de confiança
pode ser obtido com uso da variável Z (Normal Padrão), a diferença apenas será devido ao uso
do desvio padrão amostral. Assim:
𝒔 𝒔
𝑰𝑪 = 𝒁 ̅±𝒁
𝑿
√𝒏 √𝒏
Assim:
𝟖
𝟒𝟓 ± 𝒁
√𝟒𝟎
Ainda não foi definido o valor de Z adequado para 90% de confiança. Muitas vezes, quando
a questão fornecer um nível de confiança diferente de 95% (mais usual em prova), será
fornecido valores Z com suas respectivas probabilidades. Nessa situação, precisamos
identificar o valor de Z que corresponderá a 90%.
Veja que os valores de Z são fornecidos a partir da distribuição acumulada de
probabilidade [𝑃(𝑍<𝑍𝐶 ) ]. No entanto, o grau de confiança é centrado na média, assim precisamos
ter 45% para cada lado da média, restando 5% de risco de erro em cada extremidade. Entenda
da representação gráfica da curva Normal Padrão:
MUDE SUA VIDA!

238
Se temos um nível de confiança menor, a área de confiança é menor e a área de risco de

erro aumenta. Com 90% de confiança, tem-se um resíduo de 10% que representa o risco de
erro. Como o intervalo é centrado na média, esse risco é distribuído igualmente para os dois
lados, isto é, 5% para cada extremidade.
Agora, analisando a probabilidade acumulada até um valor Z positivo, devemos encontrar
um valor Z que acumule 90% do nível de confiança mais 5% do risco de erro na extremidade
negativa, ou seja, acumule 95% de probabilidade [𝑃(𝑍<𝑍𝐶 ) = 0,95]. Dessa forma:
Para a distribuição 𝑡 o valor que representa o grau de confiança de 95% depende do

tamanho da amostra. Convém observar que a variável t será utilizada somente se o desvio
padrão populacional for desconhecido e o tamanho da amostra for inferior a 30.
Com isso, basta identificar qual valor Z daqueles fornecidos no exemplo, possui uma
probabilidade acumulada de 95%. Ao observá-los, é possível concluir:
Portanto, o escore padronizado de Z que acumula 95% corresponde a 1,64. Por fim, o
intervalo de confiança é:
𝟖
𝟒𝟓 ± 𝟏, 𝟔𝟒
√𝟒𝟎
𝟖
𝑰𝑪 = 𝟏, 𝟔𝟒 = 𝟏, 𝟔𝟒 × 𝟏, 𝟐𝟕 = 𝟐, 𝟎𝟖 𝒎𝒊𝒏
𝟔, 𝟑
𝟒𝟓 ± 𝟐, 𝟎𝟖 𝒎𝒊𝒏
MUDE SUA VIDA!

239
Limite Inferior: 45 − 2,08 = 43,92 𝑚𝑖𝑛;

Limite Superior: 45 + 2,08 = 47,08 𝑚𝑖𝑛;
Amplitude do intervalo de confiança: 2 × 2,08 = 4,16 𝑚𝑖𝑛;
Concluindo o exemplo, o intervalo de confiança é [43,92; 47,08 min].

Com esse exemplo, uma observação interessante pode ser efetuada em relação ao valor Z
e o nível de confiança: quanto maior o nível de confiança, maior é a área englobada na média e
maior é o valor Z.
Em complemento, para distribuição Normal Padrão, os valores de confiança e seus valores

Z respectivos mais utilizados são:
Nível de Confiança Risco de Erro Valor Z
10%
90% 1,64
(5% em cada extremo)
5%
95% 1,96
(2,5% em cada extremo)
1%
99% 2,58
(0,5% em cada extremo)

Um objeto de estudo estatístico tem o objetivo de avaliar a quantidade média
de processos julgados por dia no tribunal do município de Piracicaba -SP. Para esse
estudo, foram analisadas por 9 dias a quantidade média de processos julgados.
Nesses dias analisados, foram obtidas uma média de 7 processos por dia e um desvio
padrão de 1,4 processos por dia.
Qual é o intervalo de confiança com nível de 95% para estimativa do parâmetro 𝝁?

Para auxiliar nesse exemplo a seguinte tabela é fornecida:
MUDE SUA VIDA!

240
Para responder esse exemplo, a primeira coisa a ser identificada é que cada dia de análise
consiste em um elemento da amostra, bem como, os 16 dias de análise é o tamanho amostral. A
população de interesse é todos os processos julgados no tribunal de Piracicaba, que pode ser
compreendida como uma população infinita, sem fim determinado. Em segundo, deve-se ser
interpretado que a média e o desvio padrão, calculados nos 9 dias, são amostras, isto é, são
estimativas. Dessa forma, não temos desvio padrão populacional conhecido e nossa amostra é
considerada pequena (𝑛 < 9). Essas informações nos direcionam para utilização da terceira
fórmula do intervalo de confiança:
𝒔 𝒔
𝑰𝑪 = 𝒕 ̅±𝒕
𝑿
√𝒏 √𝒏
Assim:
𝟏, 𝟒
𝟕±𝒕
√𝟏𝟔
Após identificar a forma adequada de calcular o intervalo de segurança, precisa ser
identificado o valor de t apropriado. A variável t é um escore padronizado com distribuição t de
Student. Não vamos entrar em muitos detalhes com essa variável no momento, apenas
compreenda que se trata de uma distribuição de probabilidade contínua que explica os
processos de amostragens de pequeno tamanho (𝑛 < 30). É uma distribuição semelhante
Normal quanto à forma, porém o valor apropriado de t varia conforme o tamanho da amostra
(𝑛) além do nível de confiança aplicado no intervalo. Essa distribuição será estudada com mais
detalhes no tópico de teste de hipóteses.
Para localizar o valor na tabela, precisamos obter o grau de liberdade (GL) e o nível de
confiança. O grau de liberdade corresponde, simplesmente, a 𝑛 − 1. O nível de confiança é 95%,
com isso sabemos que o risco de erro (ou probabilidade de erro) é 2,5% para os dois extremos.
Observe que o valor t fornecido na tabela equivale a área de probabilidade para valores
superior a ele [𝑃(𝑡>𝑡𝑡𝑎𝑏 ) ], desse modo, um valor 𝑡 com área no extremo superior de 2,5% (0,025)
representa um intervalo de confiança de 95%. Entenda:
MUDE SUA VIDA!

241
A expressão 𝑡𝑡𝑎𝑏 corresponde ao valor de 𝑡 tabelado, o valor de referência que deve ser
localizado e aplicado na fórmula. Em suma, temos as informações necessárias para encontrar o
𝑡𝑡𝑎𝑏 para essa questão.
Com isso, o valor de 𝑡𝑡𝑎𝑏 é igual a aproximadamente 2,31:
Ao detectar o valor de t, resta apenas aplicar os cálculos:
MUDE SUA VIDA!

242
𝟏, 𝟒
𝟕 ± 𝟐, 𝟑𝟏
√𝟏𝟔
𝟏,𝟒
𝑰𝑪 = 𝟐, 𝟑𝟏 = 𝟐, 𝟑𝟏 × 𝟎, 𝟑𝟓 = 𝟎, 𝟖𝟏 𝒑𝒓𝒐𝒄𝒆𝒔𝒔𝒐𝒔
𝟒
𝟕 ± 𝟎, 𝟖𝟏 𝒑𝒓𝒐𝒄𝒆𝒔𝒔𝒐𝒔
Limite Inferior: 7 − 0,81 = 6,19 𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑠;
Limite Superior: 7 + 0,81 = 7,81 𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑠;
Amplitude do intervalo de confiança: 2 × 0,81 = 1,62 𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑠;
Concluindo o exemplo, o intervalo de confiança é [6,19; 7,81 processos].

INTERVALO DE CONFIANÇA PARA PROPORÇÃO
A estimativa da proporção populacional está preocupada em quantificar a percentagem
de um evento de interesse sobre os totais possíveis. Assim, os principais questionamentos dessa
informação são: Qual a percentagem de peças, em uma grande remessa, que apresenta defeito?
Que proporção de bolas em uma urna é vermelha? Qual é a porcentagem de eleitores com
intenção de voto para determinado candidato? Essas perguntas e outras análogas podem ser
respondidas utilizando-se os dados da amostra para estimar o parâmetro populacional.
Tal como antes na média, as estimativas serão pontuais e intervalares. A estimativa de
proporções populacionais (P) é muito semelhante à de médias populacionais, com uma
simplificação: a distribuição t de Student não é utilizada. Assim, evita-se completamente o
problema de usar t ou Z. As razões para isso não são muito interessantes saber. O importante é
que para proporção amostral utiliza somente a distribuição Normal Padrão. O princípio para
aplicar o intervalo de confiança na proporção então é representado dessa forma:
MUDE SUA VIDA!

243
A proporção amostral (𝑝̂ ) é utilizada como estimativa pontual da verdadeira proporção.

Por exemplo, se estamos interessados em saber a proporção (ou porcentagem) de peças
defeituosas em um grande lote, e selecionando uma amostra de 40 peças, encontramos 5 peças
defeituosas, então a proporção 𝑝̂ da amostra é 5/40 ou 12,5%. A estimativa intervalar (intervalo
de confiança) da proporção populacional é simétrica em relação à proporção amostral
(centrada na proporção), tal como ocorre com o intervalo para a média populacional em relação
à média amostral (𝑋̅). E a sua fórmula é a seguinte:
̂(𝟏 − 𝒑
√𝒑 ̂)
̂±𝒁
𝒑
√𝒏
OBJETO DE ESTUDO:
Uma amostra aleatória de 1600 pessoas de um município evidencia que 64%
são favoráveis a alteração do regime jurídico para aplicação de penas mais severas.
Qual é o intervalo de confiança, com nível de confiança de 95%, para a estimativa

da proporção P?
Poucas informações são necessárias para aplicar esse cálculo:
A proporção amostral 𝑝̂ favoráveis a penas mais severas é 64%;
O escore padronizado Z, para 95%, corresponde a 1,96.
Com isso, o intervalo de confiança é:
√𝟎, 𝟔𝟒(𝟏 − 𝟎, 𝟔𝟒)

𝟎, 𝟔𝟒 ± 𝟏, 𝟗𝟔
√𝟏𝟔𝟎𝟎
√𝟎, 𝟔𝟒 × 𝟎, 𝟑𝟔 √𝟎, 𝟔𝟒 × √𝟎, 𝟑𝟔
𝑰𝑪 = 𝟏, 𝟗𝟔 = 𝟏, 𝟗𝟔
𝟒𝟎 𝟒𝟎
𝟎, 𝟖 × 𝟎, 𝟔
𝑰𝑪 = 𝟏, 𝟗𝟔 = 𝟏, 𝟗𝟔 × 𝟎, 𝟏𝟐 = 𝟎, 𝟎𝟐𝟒
𝟒𝟎
Portanto, a estimativa intervalar da proporção fica a seguinte:
𝟔𝟒% ± 𝟐, 𝟒%
Limite Inferior: 64 − 2,4 = 61,6 %;
Limite Superior: 64 + 2,4 = 66,4 %;
Amplitude do intervalo de confiança: 2 × 2,4 = 4,8%;
MUDE SUA VIDA!

244
ERRO PADRÃO (𝝈𝜽̂ ) X ERRO DE ESTIMATIVA (𝑬)

Dois conceitos muito aplicados nas provas de Estatísticas referem-se ao Erro Padrão e
Erro de Estimativa (ou estimação, ou amostral). A uma leve diferença matemática e conceitual
entre esses dois tipos de erro que deve ser bem esclarecido.
O Erro Padrão, como já abordado no tópico distribuição amostral, consiste no desvio
padrão da estimativa do parâmetro populacional (𝜎𝜃̂ ). Esse erro consiste na ideia de dispersão
(variabilidade) de uma medida descritiva a partir de vários processos de amostragens.
Conforme já estudado para a distribuição da média e proporção amostral, são calculados da
seguinte forma:
𝜎
Erro padrão da Média Amostral→ 𝜎𝑋̅ =
√𝑛
√𝑝̂(1−𝑝̂)
Erro padrão da Proporção Amostral→ 𝜎𝑝̂ =
√𝑛
Já o erro de estimativa (𝐸) diz respeito a diferença entre a estimativa efetuada por uma
amostra e o verdadeira valor da população, isto é, o erro que uma estimativa apresenta ao
tentar acertar o parâmetro. Também pode ser definida como a diferença entre um resultado
amostral e o verdadeiro resultado populacional. Tais erros resultam das variações na
amostragem aleatória. Não há dúvida de que uma amostra não representa perfeitamente
uma população. Ou seja, a utilização de uma amostra implica na aceitação de uma margem de
erro, denominado erro de estimativa ou erro amostral.
Nesse contexto, o erro de estimativa pode ser o desvio entre a média amostral (𝑋̅) e a
verdadeira média da população (𝜇), ou então, o desvio da proporção amostral (𝑝̂ ) e a
verdadeira proporção populacional (P).
O erro de estimativa, em outras palavras, é a variação apresentada no intervalo de

confiança (𝑬 = 𝑰𝑪). Se o intervalo de confiança apresenta a variação que a estimativa do
parâmetro pode sofrer, o erro máximo da estimativa será caso o verdadeiro valor da população
esteja em um dos extremos do intervalo. Seria a situação com maior diferença. Entenda:
MUDE SUA VIDA!

245
Portanto, o erro de estimativa é a diferença do limite do intervalo de confiança com a

estimativa pontual (𝜃̂). Também pode ser compreendido como margem de erro ou erro
máximo de estimativa. Esse valor identifica a diferença máxima entre a média amostral (𝑋̅) e
a verdadeira média populacional (𝜇). Assim:
𝜎 𝜎
➢ Se o intervalo de confiança é 𝑋̅ ± 𝑍 𝑛, então 𝐸 = 𝑍 𝑛;
√ √
𝑠 𝑠
➢ Se o intervalo de confiança é 𝑋̅ ± 𝑍 𝑛, então 𝐸 = 𝑍 𝑛;
√ √
𝑠 𝑠
➢ Se o intervalo de confiança é 𝑋̅ ± 𝑡 , então 𝐸 = 𝑡 ;
√𝑛 √𝑛
√𝑝̂(1−𝑝̂) √𝑝̂(1−𝑝̂)
➢ Se o intervalo de confiança é 𝑝̂ ± 𝑍 , então 𝐸 = 𝑍 ;
√𝑛 √𝑛
TAMANHO AMOSTRAL (𝒏)

Durante o conteúdo de amostragem, vimos que uma amostra com representatividade
precisa ser obtida aleatoriamente e suficientemente grande (↑ 𝑛). Os estudos efetuados pelas
distribuições amostrais permitem determinar um tamanho mínimo de uma amostra (𝑛) para
garantir o menor erro amostral possível.
Portanto, esse estudo está preocupado determinar o tamanho amostral ideal para
compreender um fenômeno coerentemente. A partir das informações obtidas nesse tópico,
temos uma informação importante para dar seguimento a todo um processo de análise
estatística: a coleta de dados amostrais. Para posteriormente, obter estimativas confiáveis do
parâmetro populacional.
A determinação do tamanho de uma amostra é um problema de grande importância,
porque:
➢ Amostras desnecessariamente grandes acarretam desperdício de tempo, de mão de
obra e de dinheiro;
➢ Amostras excessivamente pequenas podem não ser representativas e levar a
resultados não confiáveis.
Em muitos casos é possível determinar o tamanho mínimo de uma amostra para estimar
um parâmetro estatístico.
Não podemos evitar a ocorrência do erro amostral, pois a amostra não representa toda a
população, porém podemos limitar seu valor através da escolha de uma amostra de tamanho
adequado. Em uma questão de determinação do tamanho amostral, não sabemos, é claro, o
valor de n. Assim como definiremos o uso da distribuição Normal ou t Student? Neste caso, é
padronizado o uso apenas da distribuição Normal. Portanto, só usaremos uma das três
margens de erro abaixo:
MUDE SUA VIDA!

246
𝜎 𝑠
Erro de estimativa para a média → 𝐸 = 𝑍 𝑜𝑢 𝐸 = 𝑍
√ 𝑛 √𝑛
√𝑝̂(1−𝑝̂)
Erro de estimativa para a proporção → 𝐸 = 𝑍
√𝑛
Nas três possíveis fórmulas acima, observa-se que o erro (E) depende de Z e de n. A
variável Z também pode ser associada ao nível de confiança, pois são diretamente
proporcionais. Dessa forma, quando se aumenta o nível de confiança, aumenta-se a margem de
erro 𝐸, consequentemente, a amplitude do intervalo de confiança. Portanto, para aumentar o
nível de confiança sem aumentar a amplitude do intervalo de confiança, é necessário aumentar
o tamanho da amostra.
Para encontrarmos o tamanho da amostra, isolamos o valor de n na fórmula do erro de
estimativa. Para a média, temos que:
𝝈 𝝈
𝑬=𝒁 → √𝒏 = 𝒁
√𝒏 𝑬
Quando a questão não fornecer o desvio padrão populacional (𝜎) do fenômeno em estudo,
utiliza-se a fórmula com o desvio padrão amostral (𝑠).
Com a determinação da fórmula para definir o tamanho amostral, podemos obter muitas
conclusões:
➢ Obviamente, o erro amostral e o tamanho da amostra seguem sentidos contrários
(inversamente proporcionais). Quanto maior o tamanho da amostra, menor o erro
cometido e vice-versa.
➢ Além disso, quanto maior o nível de confiança (ou valor Z) que se pretende obter na
estimativa de uma amostra, maior deve ser o tamanho amostral.
Para estimar uma proporção, o cálculo adequado para o tamanho da amostra, conforme a
fórmula:
MUDE SUA VIDA!

247
̂(𝟏 − 𝒑
√𝒑 ̂) ̂(𝟏 − 𝒑
√𝒑 ̂)
𝑬=𝒁 → √𝒏 = 𝒁
√𝒏 𝑬
Nesta última fórmula, se o valor da proporção p não for fornecido ou se não for possível
ser obtido a partir dos dados do enunciado da questão, então consideraremos p igual a 1/2 ou
0,5. Entre os valores possíveis para p, o valor 1/2 é o que fornece o maior valor para o tamanho
da amostra (n). Vamos estudar agora a partir de um exemplo.
OBJETO DE ESTUDO:
Uma substância química é utilizada por um grupo de sequestradores na região
Sul do Brasil. Para compreender como ocorre o efeito dessa toxina e estudar todo
trajeto criminoso, foi avaliado o tempo, em minutos, dessa toxina agir no ser humano
e deixá-lo inconsciente. Esse tempo X é uma variável aleatória com distribuição
Normal, com média 𝜇 e desvio padrão 𝜎.
Supondo que o valor de σ é 10 min, qual deve ser o tamanho da amostra para que o
estimador não se afaste de μ por mais do que 2 min, com probabilidade de 95% de
confiança?
Segundo o exemplo, o estimador (média amostral) não deve se afastar da média
populacional (μ) por mais do que 2 minutos. A diferença entre a média amostral e a média
populacional é exatamente o erro de estimativa (E). Desse modo, deve ser considerado um erro
amostral igual a 2 (𝐸 = 2).
Além disso, a questão forneceu um desvio padrão (𝜎) igual a 10 e nível de confiança igual
a 95% (𝑍 = 1,96). Portanto, o tamanho da amostra pode ser calculado da seguinte forma:
𝝈 𝟐
𝒏 = (𝒁 )
𝑬
𝟏𝟎 𝟐
𝒏 = (𝟏, 𝟗𝟔 ) = 𝟗, 𝟖𝟐 ≅ 𝟗𝟔 𝒆𝒍𝒆𝒎𝒆𝒏𝒕𝒐𝒔
𝟐
Portanto, se o efeito da substância for avaliado em 96 vezes, será garantido um erro
máximo de estimativa de 2 min.
TESTE DE HIPÓTESES (TESTE Z OU t)

As ferramentas da Estatística Descritiva em dados amostrais realizam uma análise
exploratória, isto é, levantam hipóteses. A partir da média, variância e proporção (as principais
analisadas) podemos identificar tendências comportamentais do fenômeno estudado. No
entanto, não pode ser efetuada nenhuma inferência apenas com essas medidas, pois trata-se de
estimativas do parâmetro populacional. Nessa situação, é necessário utilizar ferramentas
estatísticas para testar as hipóteses levantadas e com isso tomar decisões com a baixa
probabilidade de erro.
MUDE SUA VIDA!

248
O teste de hipóteses é uma ferramenta estatística que nos auxilia na tomada de decisões,
sobre uma ou mais populações, baseadas nas informações obtidas das amostras. Essas
informações têm natureza incompleta e, por isso, precisam ser testadas. Dessa forma, os testes
de hipóteses permitem verificar se os dados amostrais trazem evidência que apoiem ou não
(rejeitar ou não rejeitar) uma hipótese formulada. A partir do resultado de um teste de
hipóteses podemos inferir, extrapolar e tirar conclusões de interesse.
FORMULAÇÃO DE HIPÓTESES ESTATÍSTICAS
Ao observa padrões e comportamentos de algum fenômeno em estudo, hipóteses podem
ser questionadas e formuladas. Isso ocorre com bastante frequência nas atividades do dia a dia,
e muitas vezes criamos hipóteses sem perceber. Por exemplo, um agente de polícia tem fortes
indícios que um homem é o assassino de um crime que está investigando. O policial observa
que está encontrando esse homem mais do que o comum na sua rotina. Encontra casualmente
esse suspeito na rua, no parque e no shopping. Baseado nessas informações o agente fórmula
as seguintes hipóteses:
➢ Primeira hipótese: o suspeito não está perseguindo o policial;
➢ Segunda hipótese: o suspeito está perseguindo o policial;
Suponhamos que fosse verdade a primeira hipótese. Então, o suspeito só estaria nos
mesmos lugares que o policial por mera coincidência e acaso, não intencionalmente. No
entanto, como o suspeito começou aparecer mais frequentemente na rotina do policial após o
crime, isso não deve ser coincidência, portanto, a primeira hipótese deve ser rejeitada.
Nessa formulação de hipótese empírica, duas observações devem se analisadas: a
primeira é o critério de coincidência (ou casualidade), o agente encontrou o suspeito apenas
três vezes e já considera isso fora do padrão; a segunda é que mesmo o raciocínio correto, a
conclusão pode ser falsa, o suspeito pode nem ser o assassino e nem sequer saber que o policial
está o investigando.
Esse exemplo desenvolve todo o raciocínio investigativo que deve se desenvolvido para o
teste de hipóteses. Temos informações que são incompletas, mas que segurem indícios
(hipóteses) que precisam ser verificadas. Na Estatística Inferencial aplica-se toda essa
construção para tudo aquilo que pode ser coletados dados e obter medidas numéricas.
Então, o procedimento inicial para testar hipóteses é estabelecer duas hipóteses: a
primeira hipótese, também conhecida como Hipótese Nula (que chamaremos de H 0), será
sempre uma hipótese de igualdade. Isto é, supõe-se que determinado parâmetro (média,
proporção etc.) é igual a um número. A segunda hipótese, chamada de Hipótese Alternativa (que
denominaremos de H1 ou HA), contradiz a hipótese nula de alguma forma, portanto, é uma
desigualdade: pode ser “o parâmetro é diferente do número” (≠), “maior do que o número”
(>) ou “menor do que o número” (<). Podemos ter, então, três pares de hipóteses possíveis em
um teste para um determinado parâmetro:
MUDE SUA VIDA!

249
Nessa representação, estamos questionando se o valor do parâmetro populacional

estimado (𝜇 𝑒 𝑃) é igual a um parâmetro já conhecido na teoria ou por outros estudos (µ0 e P0).
Assim µ0 e P0 é um valor qualquer que a média µ ou a proporção P originalmente pode assumir
e será nosso valor de referência ao fenômeno estudado.
Uma hipótese simples é assim definida quando se específica apenas um valor para o
parâmetro. Dessa forma, a hipótese de igualdade é considerada simples, pois afirma que o
parâmetro assumirá apenas um único valor (H0: 𝜇 = 𝜇0 ). Em contrapartida, uma hipótese
composta especifica mais de um valor possível para o parâmetro. Com isso, podemos associar
que uma hipótese alternativa é classificada como composta, já que, ao afirmar uma
desigualdade (H1: 𝜇 = 𝜇0 ), qualquer valor diferente da hipótese nula pode ser uma alternativa
para contemplar o resultado testado. Portanto, se uma hipótese nula sugerir que a média é igual
a 12, uma hipótese alternativa pode ser média igual a 10, 11, 13, 14 etc.
Por essa razão, é preciso saber que a Hipótese Nula (H0) é sempre aquela que será, de fato,
testada! Afinal, é muito mais fácil tentar provar uma hipótese simples com um parâmetro e,
caso for rejeitada, qualquer resultado alternativo será válido, uma vez que a informação
específica de H0 já foi solucionada.
Uma vez realizado o teste com a Hipótese Nula, poderão advir dois resultados:
➢ H0 será aceita (ou não será rejeitada);
➢ H0 será rejeitada.
Quando se rejeita a Hipótese Nula (H0), aceita-se a Hipótese Alternativa (H1)
consequentemente.
Em seguida, deve ser estabelecido o que é “muita coincidência”, isto é, qual a
probabilidade que não será aceita a hipótese H0. Essa probabilidade é conhecida como
significância do teste (ou nível de significância), que será designada por α. Corresponde a área
de rejeição de um teste de hipóteses. Se o valor de 𝑍 ou 𝑡 calculado pelo teste estiver localizado
nessa área, a hipótese H0 será rejeitada e, consequentemente, a hipótese alternativa será aceita.
Portanto, deve ser analisado os 3 diferentes tipos de Teste de Hipóteses comentados
acima.
➢ Teste Bilateral (ou Bicaudal):
Neste desenho, temos que as duas áreas laterais, que estão destacadas em vermelho. Essas
duas áreas correspondem à chamada região crítica ou região de rejeição de H0.
MUDE SUA VIDA!

250
Vemos, pois, que neste primeiro tipo de Teste de Hipóteses, a região crítica localiza-se nas
duas laterais (nas duas caudas) do desenho. Isso explica o nome teste bilateral (ou bicaudal).
Sempre que o objetivo da hipótese é saber se valor é diferente do parâmetro, divide-se a área
de rejeição em duas partes, por isso são representadas por 𝛼/2. Assim, se o nível de
significância é 5%, no teste bilateral repartirmos 2,5% para cada extremo, pois não sabemos se
o valor é maior ou menor que o parâmetro. Além disso, a área central do desenho será chamada
de região de aceitação de H0.
➢ Teste Unilateral à Direita (ou Unicaudal à Direita):
Neste caso, só haverá uma região crítica, na lateral direita do desenho, enquanto a região
de aceitação corresponde a todo o restante da área sob a curva!
Nesse teste, estamos preocupados em saber se o valor encontrado é superior ao
parâmetro já conhecido. Assim, direcionamos toda a margem de rejeição 𝛼 para o lado em que
sabemos que valor pode ser encontrado.
➢ Teste Unilateral à Esquerda (ou Unicaudal à Esquerda):
MUDE SUA VIDA!

251
A única região crítica agora estará bem na lateral esquerda do desenho, enquanto a região
de aceitação corresponde a todo o restante da área sob a curva.
A utilização de um teste unilateral ou bilateral depende das informações ou suspeitas
obtidas anteriormente no estudo, ou seja, a formulação da hipótese alternativa irá depender do
grau de conhecimento que se tem a prior sobre o problema. Em uma questão de Estatística, ou
será fornecido de forma expressa que o teste de hipóteses é bilateral/unilateral, ou pelo
contexto da questão será induzida a ideia de que o valor testado deve ser menor ou maior (caso
não se forneça nenhuma ideia a respeito, o teste bilateral é o padrão aplicado).
ESTATÍSTICAS DE TESTE Z OU T
Os testes de hipóteses são fundamentados a partir de uma distribuição de probabilidade
conhecida. Conforme o Teorema do Limite Central e o estudo da forma das distribuições
amostrais, as principais distribuições de probabilidade aplicadas são a Z Normal Padrão e a 𝑡
de Student. A utilização da distribuição apropriada segue os mesmos conhecidos aplicados no
intervalo de segurança (conhecimento do desvio padrão populacional e o tamanho da amostra).
Então, precisamos do valor 𝑍 ou 𝑡 para testar nossas hipóteses, esses valores são também de
estatísticas Z ou t.
Para realizar o teste, será preciso descobrir dois valores de Z (ou t): um deles será
encontrado na tabela da curva Normal Padronizada. Será o Z tabelado! E o outro deles será
determinado por meio da fórmula de padronização (um cálculo). Esse será chamado Z
calculado.
Vamos abordar sobre toda a construção da estatística Z, mas o mesmo raciocínio é

aplicado para 𝑡. É importante saber que o Z tabelado é o primeiro a ser buscado! Ele será
encontrado na tabela, a partir do nível de significância estabelecido pela questão. É ele que
definirá o limite entre a região crítica (rejeição) e a região de aceitação da curva! Por esse
motivo, o Z tabelado será também chamado de Z crítico, podendo ser designado por Zc. Por
questão de didática, será denotado o Z tabelado de Ztab.
MUDE SUA VIDA!

252
O Ztab é o limite entre a região de aceitação e a de rejeição de H0 (ponto de fronteira entre

aceitar ou rejeitar). Trata-se de um valor Z que será encontrado na tabela de probabilidades da
Curva Normal Padrão, com base no valor do nível de significância (α) adotado. O percentual do
nível de significância α será a própria área que estará sob a curva, na região crítica do desenho.
O teste bilateral é o único em que o Ztab aparece duas vezes no desenho (como –Ztab e +Ztab),
uma vez que há duas regiões críticas. Do mesmo modo, o α estará dividido em duas metades
(α/2), uma para cada lado do desenho. Por essa razão, é normal aparecer em alguns livros ou
provas de concurso o –Ztab e o +Ztab, simbolizados, respectivamente, por –Zα/2 e +Zα/2.
A área da região de aceitação é igual à diferença entre a área total (de valor 1 ou 100%) e
a soma das áreas laterais (de valor α) resultando em uma área igual a (1-α). Podemos associar
essa área com o assunto “Intervalo de Confiança”, a região de aceitação é exatamente aquela
região de confiança vista naquele tópico. Por isso, podemos chamar o nível de confiança de 1-
α.
Nos testes unilaterais só haverá uma região crítica e, portanto, o Ztab só vai aparecer uma
vez. A região crítica é uma só e a área corresponderá diretamente a α. O valor de Ztab para a
direita será positivo e o valor Ztab para a esquerda será negativo.
Agora, o próximo passo é aprender como determinar esse valor de Ztab. Para isso,
precisamos identificar, qual é o valor de α (nível de significância) que o enunciado está
admitindo para esse teste? Conhecendo o valor de α (área da região crítica), poderemos
facilmente, mediante uma rápida consulta à tabela das probabilidades da Curva Normal Padrão,
determinar o valor do Ztab. Assim, no teste de hipóteses bilateral, considerando o que já
aprendemos sobre a simetria da Curva Normal, para descobrir o valor do Ztab com nível de
significância𝛼, por exemplo, devemos encontrar as seguintes relações:
Nas questões de Estatística podemos encontrar duas notações de probabilidade: a

probabilidade acumulada da Normal Padrão até o valor Ztab [𝑃(𝑍<𝑍𝑡𝑎𝑏 ) ]; ou então a
probabilidade entre a média zero até o valor de Ztab [𝑃(0<𝑍<𝑍𝑡𝑎𝑏 ) ]. Sabendo o nível de
significância facilmente podemos achar a probabilidade correspondente ao valor de Ztab de
interesse.
Para probabilidade acumulada até Z: 𝑃(𝑍<𝑍𝑡𝑎𝑏 ) = 1 − 𝛼/2
Para probabilidade entre média e valor de Z: 𝑃(0<𝑍<𝑍𝑡𝑎𝑏 ) = 0,5 − 𝛼/2
Assim, se estivermos em um teste de hipóteses bilateral, e a questão disser que 𝛼 = 5%,
teremos que 𝛼/2 = 2,5%.
O valor a ser encontrado nas duas possíveis notações será com 𝛼 = 5%:
Para probabilidade acumulada até Z: 𝑃(𝑍<𝑍𝑡𝑎𝑏 ) = 1 − 0,025 = 0,975;
Para probabilidade entre média e valor de Z: 𝑃(0<𝑍<𝑍𝑡𝑎𝑏 ) = 0,5 − 0,025 = 0,475;
Assim ao consultar a tabela Z Normal Padrão teríamos o valor de 1,96. Exato! O mesmo
valor do intervalo de confiança de 95%, isso porque um nível de confiança de 95% corresponde
a um nível de significância (risco ou probabilidade de erro) de 5%. Veja pela representação
gráfica:
MUDE SUA VIDA!

253
Em caso de teste unilaterais teríamos outra relação de valores para encontrar. Veja:
Para probabilidade acumulada até Z: 𝑃(𝑍<𝑍𝑡𝑎𝑏 ) = 1 − 𝛼

Para probabilidade entre média e valor de Z: 𝑃(0<𝑍<𝑍𝑡𝑎𝑏 ) = 0,5 − 𝛼
Assim, se a questão apresentar 𝛼 = 5%, teremos:
Assim o valor a ser encontrado nas duas possíveis notações será com 𝛼 = 5%:
Para probabilidade acumulada até Z: 𝑃(𝑍<𝑍𝑡𝑎𝑏 ) = 1 − 0,05 = 0,95;
Para probabilidade entre média e valor de Z: 𝑃(0<𝑍<𝑍𝑡𝑎𝑏 ) = 0,5 − 0,05 = 0,45;
Assim ao consultar a tabela Z Normal Padrão teríamos o valor de 1,64. Esse é o mesmo
valor do intervalo de confiança de 90%, isso porque um nível de confiança de 90% centrado na
média corresponde a um nível de significância (risco ou probabilidade de erro) de 10%, isto é
5% para cada lado. É interessante fazer a associação do nível de significância com o nível de
confiança, pois eles se complementam. Só não esqueça de associar que, para testes unilaterais,
a área crítica é direcionada totalmente para um lado diferentemente do intervalo de confiança.
Quando se tratar do teste unilateral à esquerda, deve ser pego o valor de Z negativo, isto
é, o mesmo valor do lado positivo espelhado, na relação simétrica, para o lado negativo. Nesse
caso, com nível de significância de 5% seria o valor -1,64.
MUDE SUA VIDA!

254
Muitas vezes, as questões na prova irão fornecer alguns valor específicos de probabilidade
Z. Outra forma, é apresentar uma parte da tabela em que terá as informações necessárias para
questão. O importante para encontrar o valor Z tabelado e sempre desenhar a distribuição
Normal Padrão e identificar qual informação de probabilidade está sendo fornecida (acumulada
ou distância entre a média e o valor).
Como apresentado anteriormente, o teste de hipóteses será a comparação entre dois
valores Z. Já obtivemos o Ztab, que nos fornece o valor crítico que separa a área de rejeição da
área de aceitação. Agora, precisa ser calculada a estatística de teste Z, que é obtido a partir do
cálculo de padronização, vamos denominar de Zcal. O valor de Z calculado é a estatística de teste
propriamente dito, pois consiste em transformar a hipótese que se pretende testar em um valor
Normal Padrão Z.
Vamos supor que a hipótese de interesse é verificar se uma média estimada 𝑋̅ não difere
estatisticamente de um parâmetro da 𝜇 populacional conhecida. Nesse caso, estamos
interessados em saber se a diferença da estimativa com o parâmetro não difere
significativamente. Assim, transformamos esse valor 𝑋̅ em uma estatística de teste Z e
calculamos o valor Zcal.
Para uma padronização Normal qualquer em Z temos:
𝑿−𝝁
𝒁𝒄𝒂𝒍 =
𝝈
Como se trata da média amostral, a padronização em Z é:

̅−𝝁 𝑿
𝑿 ̅−𝝁
𝒁𝒄𝒂𝒍 = = 𝝈
𝝈𝑿̅
√𝒏
Em que:
𝑋̅: é a média da amostra;
µ: é a média presumida para a população (é a informação que será testada);
σ: é o desvio padrão populacional; e
n: é o número de elementos da amostra.
Por fim, temos dois valores essenciais para o teste de hipóteses. O Z tab define a região
crítica de aceitação ou rejeição de H0. Esse valor depende do nível de significância estabelecido
na questão. Por outro lado, o Zcal informa onde o valor que queremos testar está localizado na
distribuição Normal Padrão, assim podemos identificar se ele está na área de rejeição ou
aceitação.
MUDE SUA VIDA!

255
Portanto, conforme a relação desse dois valores, temos duas possíveis conclusões para
hipótese H0:
➢ 1ª) Se o Zcal estiver na área de aceitação de H0, aceita-se a hipótese H0 (ou H0 não
será rejeitada), para isso o valor em módulo de Zcal será menor que Ztab (|𝑍𝑐𝑎𝑙 | <
|𝑍𝑡𝑎𝑏 |);
➢ 2ª) Se o Zcal estiver na área de rejeição de H0, diremos que H0 será rejeitada, para
isso o valor em módulo de Zcal será maior que Ztab (|𝑍𝑐𝑎𝑙 | > |𝑍𝑡𝑎𝑏 |); Dessa forma, a
hipótese alternativa H1 será aceita!
Essa é a essência de qualquer teste de hipótese estatístico, que pode ser aplicada para
testar a média amostral, como também a proporção amostral (são os principais cobrados em
prova). O importante é entender que devemos ter um critério para considerar algo diferente
significativamente, definindo o 𝛼; como também, precisamos calcular a estatística de teste e
verificar se está posicionada na área de rejeição ou aceitação.
Além disso, o valor de Zcal ser calculado diferente conforme as informações dispostas na
questão. Aqui, aplicamos o mesmo raciocínio que no intervalo de confiança.
Se o desvio padrão populacional (𝜎) não for conhecido, trabalharemos com o desvio
padrão amostral (𝑠), que possivelmente deverá ser calculado na questão pelos dados amostrais.
Nessa situação e se a amostra for grande (𝑛 ≥ 30), a estatística de teste Zcal é obtida da seguinte
forma:
̅−𝝁
𝑿
𝒁𝒄𝒂𝒍 = 𝒔
√𝒏
Nessa ideia, trabalha-se com os dados disponíveis e efetua-se o teste de hipóteses.
Porém, há uma única situação em que a curva Z (Normal Padrão) será substituída por uma
outra distribuição – a Curva 𝑡 de Student – conhecida como distribuição das pequenas amostras.
Assim, será utilizado a estatística de teste 𝑡 quando o desvio padrão populacional (𝜎) não for
conhecido e amostra for pequena (𝑛 < 30). Com isso, obtemos o tcal.
MUDE SUA VIDA!

256
̅−𝝁
𝑿
𝒕𝒄𝒂𝒍 = 𝒔
√𝒏
O teste de hipótese utilizando a distribuição 𝑡 de Student segue a mesma essência que
apresentada para o teste 𝑍. Só fique atento, pois, para obter o valor ttab, é necessário conhecer
o tamanho da amostra e aplicar os graus de liberdade (𝑛 − 1). A tabela 𝑡 de Student depende
também dessa informação. Assim, para achar o 𝑡𝑡𝑎𝑏 :
TESTE DE HIPÓTESES PARA A MÉDIA

Após conhecer toda a essência e o raciocínio que deve ser desenvolvido para aplicar o
teste de hipóteses, vamos efetuar um teste para uma média estimada. Será desenvolvida toda a
construção necessária para resolver uma questão de teste de hipóteses com eficiência. Para
isso, todo esse tópico será desenvolvido a partir de um exemplo.
OBJETO DE ESTUDO:
Uma investigação policial analisa o uso ilegal de medicamentos para causar a
dependência química dos seus consumidores. Para isso, o investigador coletou uma
amostra aleatória de 9 clientes quanto ao consumo médio de medicamentos por mês,
esses dados apresentam distribuição Normal e de tamanho infinito. Essa amostra
apresentou média igual a R$ 400,00, com um desvio padrão igual a R$ 50,00. Os
registros históricos nas farmácias indicam que o consumo médio de medicamentos
da população em estudo é igual a R$ 350,00. Com esse estudo, deseja-se testar a
hipótese, com 5% de significância, sobre a veracidade do parâmetro populacional 𝜇
obtido pelos registros históricos e se há um aumento no consumo de medicamento,
qual será a decisão tomada?
𝑃(𝑡>2,31) = 0,025, para 𝐺𝐿 = 8;

𝑃(𝑡>1,86) = 0,05, para 𝐺𝐿 = 8;
𝑃(𝑡>2,26) = 0,025, para 𝐺𝐿 = 9;
𝑃(𝑡>1,83) = 0,05, para 𝐺𝐿 = 9;
Em primeiro, deve ser formulada a hipótese que será testada, conforme apresentado no
exemplo. O objetivo é testar se média populacional equivale aos registros históricos do valor de
R$ 350,00. Assim a hipótese é:
MUDE SUA VIDA!

257
O exemplo formula uma hipótese bilateral, pois apenas está interessada em saber se o
parâmetro 𝜇 é verdadeiro. Portanto, qualquer valor diferente de R$350,00 atenderá ao objetivo
da hipótese.
Em segundo, precisa ser definir pelo exemplo qual a distribuição de probabilidade mais
apropriada para efetuar o teste de hipóteses (curva Normal Z ou curva t de Student). Uma vez
que não temos o desvio padrão populacional (𝜎) e nossa amostra corresponde a 9 elementos
(𝑛 = 9), a curva 𝒕 de Student é a mais apropriada para esse exemplo.
Identificando a distribuição de probabilidade adequada, é necessário encontrar o valor de
𝑡𝑡𝑎𝑏 que limita as regiões de aceitação e rejeição de H0. Com nível de significância de 5%, o valor
de 𝑡𝑡𝑎𝑏 apropriado para essa questão é 2,31. Isso porque os graus de liberdade correspondem
a 8 (9 − 1 = 8) e área de significância encontrada a frente do valor 𝑡𝑡𝑎𝑏 será de 2,5% (pois testes
bilaterais particionam o 𝛼 em 2 (𝛼/2), isto é, 0,5/2 = 0,025.
𝒕𝒕𝒂𝒃 = 𝟐, 𝟑𝟏
Com esse valor é interessante identificar esse valor a partir da representação gráfica da
curva de 𝑡 de Student. É altamente recomendável que o aluno faça o desenho para solucionar a
questão. Assim:
MUDE SUA VIDA!

258
Após definido o valor de 𝑡𝑡𝑎𝑏 , precisamos calcular a estatística de teste 𝑡, isto é, o valor do
𝑡𝑐𝑎𝑙 . Coletando as informações necessárias temos que o cálculo ficará:
̅ = 𝟒𝟎𝟎; 𝒔 = 𝟓𝟎;
𝒏 = 𝟗; 𝝁 = 𝟑𝟓𝟎; 𝑿
̅ − 𝝁 𝟒𝟎𝟎 − 𝟑𝟓𝟎
𝑿
𝒕𝒄𝒂𝒍 = 𝒔 =
𝟓𝟎
√𝒏 √𝟗
𝟓𝟎
𝒕𝒄𝒂𝒍 = =𝟑
𝟓𝟎
𝟑
Obtendo o valor de 𝑡𝑐𝑎𝑙 , é interessante colocá-lo na representação gráfica e verificar em
qual área (rejeição ou aceitação) o valor da estatística 𝑡 ficará localizado. Veja:
Por fim, verificamos pelo teste 𝑡 que a hipótese nula H0 é rejeitada. Em consequência,
aceita-se a hipótese alternativa H1. Portanto, a partir da nossa amostra, não podemos afirmar,
a 5% de probabilidade de erro, que o consumo médio de medicamentos por mês na
população estudada é de R$ 350,00. Assim, esse resultado pode evidenciar que os registros
históricos não condizem com o consumo médio dos clientes na farmácia, o que sugere algum
fator ter influenciado nessa diferença, apontando indícios sobre o uso ilegal de medicamentos
para causar dependência.
Veja que ao concluir a hipótese tomamos uma decisão de negar essa informação, mas
sempre enfatizando uma baixa probabilidade de erro. Isso é um teste de hipótese estatístico,
afirmar algo a partir de dados incompletos e com a menor probabilidade de erro possível.
MUDE SUA VIDA!

259
Em síntese, o teste de hipóteses para a média pode ser representado pelo seguinte roteiro
de procedimentos:
TESTE DE HIPÓTESES PARA A PROPORÇÃO

Quase tudo que foi explicado sobre o teste de hipóteses da média também se aplicará ao
teste de hipóteses da proporção (𝑃). A essência de um teste de hipótese permanece a mesma:
obter a estatística do teste e verificar, dentro de um nível de significância, se podemos rejeitar
ou não a hipótese nula.
Assim como no intervalo de confiança da proporção, não será utilizado a distribuição 𝑡 de
Student. Em qualquer situação, será aplicado apenas a Curva Normal (Z) para o teste de
hipóteses. O valor de Z calculado (𝑍𝑐𝑎𝑙 ) a proporção amostral segue o mesmo raciocínio que
aplicado na média. Assim, tem-se:
̂−𝑷
𝒑 ̂−𝑷
𝒑
𝒁𝒄𝒂𝒍 = =
𝝈𝑷
√𝑷(𝟏 − 𝑷)
𝒏
Em que:
𝑝̂ : é a proporção amostral;
𝑃: é a proporção presumida para a população (é quem será testada na hipótese H0);
𝑛: é o número de elementos da amostra.
No assunto de intervalo de confiança da proporção, era utilizado, dentro da raiz do
denominador da fórmula, a proporção amostral 𝑝̂ . Porém, isso era feito porque não se conhecia
a proporção populacional, aliás, estávamos em busca dessa informação. Aqui, como temos a
proporção presumida para a população (𝑃), então usaremos esse parâmetro.
OBJETO DE ESTUDO:
Um estudo sobre a personalidade criminosa das pessoas afirma que 8 a cada
10 prisioneiros voltam a cometer um crime. Com objetivo de verificar essa
informação, foram observados 64 registros de prisioneiros e destes 45 já tiveram
caso reincidência criminal. A partir dessas informações, qual é o resultado do teste a
hipótese que tenta mostrar que essa proporção é na verdade inferior a encontrada
no estudo?
MUDE SUA VIDA!

260
Em primeiro, deve ser definido a hipótese que será testada. Lembrando que H0 será uma
hipótese de igualdade, e H1, de desigualdade (≠, > ou <). Conforme o sinal de H1, teremos a
definição do teste a ser realizado, se bilateral (H1 com sinal de ≠), ou unilateral esquerdo (H1
com sinal de <), ou unilateral direito (H1 com sinal de >). Nesse exemplo, temos o objetivo de
testar se a proporção P é igual a 8/10 (80%) ou se é inferior isso. Assim, as hipóteses são:
A hipótese testada é unilateral à esquerda, pois estamos preocupados apenas em

comprovar que a proporção de criminosos reincidentes é inferior a 80%. O nível de
significância para comprovar essa hipótese é 5%, desse modo, na tabela Normal padrão
sabemos que 1,64 acumula 95% de probabilidade, deixando 5% de margem após esse valor. Na
escala negativa, o valor -1,64 espelha as mesmas probabilidades. Entenda:
Agora, é preciso calcular a estatística de teste Z, isto é, o valor de Zcal. Portanto:

𝟒𝟓 𝟖
̂=
𝒑 = 𝟎, 𝟕; 𝑷 = = 𝟎, 𝟖; 𝒏 = 𝟔𝟒
𝟔𝟒 𝟏𝟎
Por fim:
𝟎, 𝟕 − 𝟎, 𝟖 −𝟎, 𝟏
−𝟎, 𝟏 × 𝟖
𝒁𝒄𝒂𝒍 = = = = −𝟐
√ 𝟎, 𝟏𝟔 𝟎, 𝟒
√𝟎, 𝟖(𝟏 − 𝟎, 𝟖) 𝟖
𝟔𝟒
𝒁𝒄𝒂𝒍 = −𝟐
Ao calcular a estatística Zcal, basta identificar sua posição na escala da distribuição Normal
Padrão Z e verificar em qual área esse valor está localizado. Veja:
MUDE SUA VIDA!

261
Por fim, verificamos pelo teste 𝑍, a 5% de probabilidade de erro, que a hipótese nula H0
é rejeitada. Em consequência, aceita-se a hipótese alternativa H1, em que 𝑃 < 80%. Portanto,
têm-se evidências suficientes para afirmar que a proporção de criminosos reincidentes não é
de 80% e sim um valor menor.
Em síntese, o procedimento do teste pode ser esquematizado da seguinte forma:
MUDE SUA VIDA!

262
VALOR-P (Ф) 𝒙 NÍVEL DE SIGNIFICÂNCIA (Α)

O nível de significância α corresponde a probabilidade de erro ao afirmar que uma
hipótese nula (H0) deve ser rejeitada. O valor α corresponde também a toda área abaixo da
curva de probabilidade em que H0 deve ser rejeitada. Esse nível é escolhido subjetivamente
como critério para estabelecer a decisão de uma hipótese. É a partir desse nível (muitas vezes,
definido na questão) que encontramos o valor de Ztab ou ttab. Assim, Ztab ou ttab delimita a região
de rejeição de H0 e essa delimitação projeta uma área menor na curva de probabilidade que
apresenta uma percentagem α. A posição dessa área varia conforme o teste bilateral/unilateral:
Em contraponto, denomina-se P-valor ou valor-P (simbolizado por Փ) a percentagem da

área inferior projetada pela delimitação de Zcal ou tcal. Podendo ser representado a seguinte
forma:
O valor-P (também denominado de nível descritivo do teste ou probabilidade de

significância) é o valor limite entre a aceitação e rejeição da hipótese H 0. Em outras palavras é
o menor nível de significância em que a hipótese nula pode ser rejeitada.
Assim, temos uma área de rejeição projetada após o Ztab (ou ttab), como também, área
do valor-P após o Zcal (ou tcal). Com isso, além de conferir o resultado do teste de hipóteses
pelo valor tabelado e calculado, o resultado pode ser obtido pela relação da área de rejeição
versus área do valor-P. É mais um método de verificação!
Para conferir o resultado do teste de hipóteses, é necessário comparar as duas áreas
projetadas, podendo encontrar os seguintes resultados: i) 𝑣𝑎𝑙𝑜𝑟 − 𝑃 (Փ) >
𝑁í𝑣𝑒𝑙 𝑑𝑒 𝑠𝑖𝑔𝑖𝑛𝑖𝑓𝑖𝑐â𝑛𝑐𝑖𝑎 (𝛼); ou ii) 𝑣𝑎𝑙𝑜𝑟 − 𝑃 ≤ 𝛼. Ambas as áreas podem ser encontradas na
tabela da curva Normal Padrão ou 𝑡 de Student. Com isso temos dois resultados:
➢ 𝒗𝒂𝒍𝒐𝒓 − 𝑷 (Փ) > 𝑵í𝒗𝒆𝒍 𝒅𝒆 𝑺𝒊𝒈𝒏𝒊𝒇𝒊𝒄â𝒏𝒄𝒊𝒂 (𝜶): nessa situação, observa-se que a
área do valor-P é maior que a área de rejeição. Ou seja, a área de rejeição fica dentro
da área do valor-P, e por isso o Zcal ou tcal vai estar fora da região de rejeição. Sendo
assim, a hipótese H0 será aceita! Observe como ficam as áreas representadas na
curva de probabilidade nos três tipos de teste de hipóteses:
MUDE SUA VIDA!

263
➢ 𝒗𝒂𝒍𝒐𝒓 − 𝑷 (Փ) ≤ 𝑵í𝒗𝒆𝒍 𝒅𝒆 𝑺𝒊𝒈𝒏𝒊𝒇𝒊𝒄â𝒏𝒄𝒊𝒂 (𝜶): nessa possibilidade, observa-se

que a área do valor-P é menor ou igual à área de rejeição. Isto é, a área de rejeição
abrange (encobre) a área do valor-P e, por isso, o valor de Zcal ou tcal estará dentro
da rejeição. Portanto, nessa situação, a hipótese H0 será rejeitada. Observe como
ficam as áreas representadas na curva de probabilidade nos três tipos de teste de
hipóteses:
Ao invés de ser fornecido informações para calcular o Zcal ou tcal, algumas questões de
Estatística podem fornecer apenas o valor-P que está diretamente relacionado as estatísticas
de teste. Nesse cenário, o aluno precisa compreender a relação entre o valor-P (Փ) e o nível de
significância (𝛼) para responder efetivamente à questão. Basta associar que a área projetada
do valor-P ocorre a partir do Zcal ou tcal, assim se essa área for maior que a área de rejeição quer
dizer há riscos consideráveis em rejeitar H0, a recíproca é correta também. Vamos ver esse
estudo por meio de um exemplo de questão.
OBJETO DE ESTUDO
Um objeto de estudo avalia se um lote de um produto alimentar X apresenta
uma média de 14% de carboidrato. Para isso foi efetuado um teste de hipótese que
apresentou um valor-P igual a 0,03. Nessa situação, se o critério da análise
considerar um nível de significância de 5% ou de 1%, quais seriam os resultados
possíveis?
MUDE SUA VIDA!

264
Para o nível de significância de 1%, o valor-P de 3% é maior do que o nível de significância

de 1%. Portanto, para um critério de 1% de probabilidade de erro, há riscos consideráveis para
rejeitar H0, dessa forma, a hipótese nula deve ser aceita!
Para o nível de significância de 5%, o valor-P de 3% é menor do que o nível de significância
de 5%. Portanto, para um critério de 5% de probabilidade de erro, há riscos desconsideráveis
para rejeitar H0, dessa forma, a hipótese nula deve ser rejeitada!
Em testes de hipótese, pode-se rejeitar a hipótese nula, a 5% de probabilidade de erro,
caso o valor-P seja menor que 5%. Isto é, o valor-P é o menor nível de significância com que se
rejeitaria a hipótese nula. Em termos gerais, um valor-P pequeno significa que a probabilidade
de obter um valor da estatística de teste como o observado é muito improvável, levando assim
à rejeição da hipótese nula.
Se em alguma situação for necessário encontrar o valor-P, deverá ser fornecida,
integralmente ou em parte, a tabela da Normal Padrão ou a tabela de 𝑡 de Student. Com ela,
basta fazer o caminho inverso do efetuado para encontrar Ztab ou ttab; ou seja, ao invés de
procurar um valor 𝑍 ou 𝑡 baseado em uma probabilidade pré-determinada, deve-se calcular o
valor Zcal ou tcal e encontrar na tabela a probabilidade respectiva a esse valor.
Por exemplo, imagine que uma -estatística de teste 𝑡 obteve o escore de 1,38 (𝑡𝑐𝑎𝑙 = 1,38)
com uma amostra de 10 elementos (graus de liberdade igual a 9, 𝐺𝐿 = 9). Com isso:
Assim, para 𝑡𝑐𝑎𝑙 = 1,38 com 𝐺𝐿 = 9, tem-se aproximadamente um valor-P de 0,10 (Փ =

10%). Veja que isso ocorreu, pois, a área informada nessa tabela corresponder exatamente ao
conceito da área de valor-P.
Agora, imagine que o valor de tcal é igual a 1,72 com 𝐺𝐿 = 9, nesse caso seria encontrado:
MUDE SUA VIDA!

265
Nesse caso, temos um valor não expresso na tabela, no entanto podemos encontrar uma
relação aproximada para o valor-P (Փ), ou seja, ele será um valor inferior a 10% e superior a
5%. Só com essa informação pode ser o suficiente para resolver a questão caso, por exemplo, o
nível de significância for 5%, pois a hipótese H0 seria aceitada.
TIPOS DE ERROS NO TESTE DE HIPÓTESES
Na Estatística Inferencial, trabalha-se com fenômenos aleatórios e informações
incompletas. Devido a isso, nenhum teste de hipótese é 100% certo. Como o teste é baseado em
probabilidades, sempre há uma possibilidade, mesmo que baixa, de chegar a uma conclusão
errada. O resultado de uma hipótese é afirmado a partir de uma probabilidade de erro
conhecida. Isso quer dizer que, mesmo utilizando toda a teoria da probabilidade ao nosso favor,
estaremos sujeitos a erros casuais e aleatórios com baixa probabilidade de ocorrer. Portanto,
no teste de hipóteses, deve-se estar ciente de que esses erros existem e devemos utilizar essa
informação ao nosso favor.
Quando é realizado um teste de hipóteses, dois tipos de erros são possíveis: tipo I e tipo
II. Os riscos desses dois erros estão inversamente relacionados. Portanto, deve ser determinado
qual erro tem consequências mais severas para situação em análise antes que sejam definidos
os riscos. De forma bem sintética, os dois erros podem ser definidos como:
➢ Erro tipo I: ocorre quando se rejeita a hipótese nula (𝑯𝟎 ), quando ela é
verdadeira. Em outras palavras, consiste em afirmar que os objetos em estudo são
diferentes quando na verdade não são.
A probabilidade de cometer um erro do tipo I é o próprio nível de significância α, que é
definido de forma subjetiva no teste de hipóteses (informação que geralmente é fornecida na
questão). Um α de 0,05 indica uma chance de 5% de erro ao rejeitar a hipótese nula. Veja
que o erro tipo I é inversamente associado ao grau de confiança obtido por 1 − 𝛼.
𝑷(𝑬𝒓𝒓𝒐 𝑻𝒊𝒑𝒐 𝑰) = 𝜶 = 𝟏 − 𝑵í𝒗𝒆𝒍 𝒅𝒆 𝑪𝒐𝒏𝒇𝒊𝒂𝒏ç𝒂

O Erro tipo I é controlado aumentando o rigor do critério de rejeição de uma hipótese H0,
uma vez que, sendo mais rigoroso para rejeitar H0, menor é o risco de rejeitar uma hipótese
verdadeira. Assim, é interessante reduzir o nível de significância e aumentar o de confiança.
MUDE SUA VIDA!

266
Para reduzir este risco de erro, deve-se usar um valor baixo para o nível de significância
α. Entretanto, usar um valor inferior para α significa que existirá menos probabilidade de
detectar uma diferença verdadeira, se realmente existir uma, isto é, ser muito criterioso
pode ocasionar em não encontrar algum resultado de interesse. Assim, o controle do Erro tipo
I deve ser consideravelmente equilibrado, pois, ao mesmo tempo que controla erros, pode
perder resultados de interesse.
➢ Erro tipo II: ocorre quando se aceita a hipótese nula, quando ela é falsa. Em
outras palavras, ocorre esse erro ao se afirmar que os objetos em estudo são iguais
quando na verdade são diferentes.
A probabilidade de cometer um erro de tipo II é β, que está relacionado com a potência
do teste (são complementares, ou seja, 1 − 𝛽).
𝑷(𝑬𝒓𝒓𝒐 𝑻𝒊𝒑𝒐 𝑰𝑰) = 𝜷 = 𝟏 − 𝑷𝒐𝒕ê𝒏𝒄𝒊𝒂 𝒅𝒐 𝑻𝒆𝒔𝒕𝒆

O Erro tipo II é controlado reduzindo o rigor na hipótese H0, o que aumentaria as chances
de encontrar diferenças factuais. Ao reduzir o rigor H0, aumenta-se as chances de o valor
testado pertencer a outras distribuições, ou seja, qualquer outro valor diferente do testado em
H0. Isso quer dizer que reduzimos o rigor da rejeição da hipótese alternativa H1 que é composta.
Cada valor alternativo que a hipótese H1 contempla, possui uma distribuição de probabilidade
e um nível de rigor 𝛽. Assim, ao contrário de 𝛼 que é único específico para o parâmetro testado,
𝛽 corresponde ao rigor de qualquer outro valor que o fenômeno testado pode assumir, ou seja,
temos um 𝛽 para cada valor alternativo.
O risco de cometer um erro do tipo II pode ser reduzido, e, com isso, assegurará que o seu
teste tenha uma potência suficiente. Isso pode ser garantido com o aumento do tamanho
amostral, sendo grande o suficiente para detectar uma diferença prática, quando realmente
existir uma.
A probabilidade de detectar diferenças significativas, isto é, diferenças que realmente são

devido ao objeto em estudo (e não ao acaso), reduzem com o cuidado em cometer o Erro tipo I
e aumentam com o controle do Erro tipo II. Portanto, controlar os dois tipos de erros são
atitudes antagônicas (inversamente relacionadas) e deve-se ter uma ponderação de qual erro
precisa ter um cuidado mais rigoroso. Conhecer essa relação é muito importante.
MUDE SUA VIDA!

267
Cuidado, não confunda a relação inversamente proporcional no controle dos dois tipos de
Erro, com a relação entre 𝛼 e 𝛽. Aumentar um pode acarretar reduzir o outro, porém esses dois
níveis não são complementares. Isso quer dizer que a soma dos dois não resultará em 1 ou
100%. Possui uma relação de dependência, uma correlação negativa apenas. O nível de
significância 𝛼 é complementar ao grau de confiança, e o nível 𝛽 é complementar da potência
do teste. Portanto, não faça essa confusão:
Sobretudo, ao analisar todas as possíveis decisões que um teste de hipóteses pode

resultar, espera-se, naturalmente, que a hipótese nula seja aceita quando verdadeira e rejeitada
quando falsa. No entanto, os resultados desfavoráveis para tomada de decisão também podem
ocorrer. Logo, há quatro resultados possíveis em um teste, conforme mostrado na tabela abaixo.
Vamos compreender os tipos de erro em uma situação prática.
EXEMPLO:
Imagine que agentes da Polícia Federal estão investigando a casa de um
suspeito. Ao entrar no local, encontram uma substância química desconhecida e
suspeita. Para verificar a natureza dessa substância, os agentes pedem auxílio dos
peritos que efetuam uma análise rápida e indicativa sobre a substância. Para ser
considerada uma substância química ilegal, ela deve ter, no mínimo, a composição
de 70mg de um princípio ativo X, com desvio padrão de 2mg (valores teóricos
conhecidos). Várias amostras foram feitas da substância encontrada, e obteve um
valor de 64 mg.
Com isso, a seguinte hipótese deve ser testada:
MUDE SUA VIDA!

268
Sabemos que a hipótese alternativa é unilateral a esquerda, pois no mínimo 70 mg já seria

o suficiente para criminalizar a posse da substância, ou seja, não precisamos comprovar um
valor que pode ser superior 70 mg uma vez que já seria crime.
Um Erro tipo I ocorreria se os policiais concluíssem que a amostra não corresponde a
substância química ilegal quando na verdade é ilegal (rejeita-se H0 quando de fato é
verdadeira). Isto é, a média obtida pelas amostras corresponde a menos de 70 mg, quando na
verdade é igual significativamente. Nessa situação, os policiais deixariam de prender um
criminoso que estava em posse de algo ilegal. Assim, o criminoso ficaria livre e poderia
continuar seus atos ilícitos, gerando mais prejuízos a sociedade.
Um Erro tipo II ocorreria se os policiais concluíssem que a amostra é uma substância
ilícita quando na verdade não é (aceita-se H0 quando de fato é falsa). Isto é, a média obtida pelas
amostras corresponde a um valor igual a 70 mg quando na verdade é menor significativamente.
Nessa outra situação, os policiais prenderiam em flagrante sem ter o ordenamento jurídico aos
seus favores. Isso acarretaria a prisão de um inocente que mais tarde, com apoio da defesa dos
advogados e profissionais particulares, poderia comprovar o erro da perícia e gerar prejuízos
aos policiais envolvidos. Fora que moveria toda o Estado, dinheiro público, devido a um erro
casual.
Conforme o teste de hipóteses é conduzido, os riscos de cometer os Erros do tipo I e do
tipo II devem ser avaliados e ponderados. Se as consequências de um erro forem mais sérias ou
dispendiosas do que o outro tipo de erro, o nível de significância e uma potência para o teste
deve corresponder a gravidade relativa dessas consequências.
Contudo, é muito mais fácil controlar o nível de significância 𝛼, pois a hipótese nula (H0)
consiste em uma hipótese de igualdade, isto é, simples (apenas um parâmetro). Com isso, existe
uma única distribuição de probabilidade para esse parâmetro e apenas um 𝛼. Em contrapartida,
a hipótese alternativa, que é composta (assume qualquer parâmetro que negue a hipótese
nula), desse modo, qualquer valor diferente se encaixa na hipótese alternativa e apresentaria
uma distribuição de probabilidade específica com seu respectivo valor 𝛽. Assim, é muito mais
fácil controlar equilibradamente 𝛼 e consequentemente mantém-se ajustados todos os níveis
𝛽.
POTÊNCIA DO TESTE DE HIPÓTESES
A potência do teste de hipótese corresponde à probabilidade de rejeitar a hipótese nula
(H0) quando a hipótese alternativa (H1) é verdadeira. Pode também ser interpretada como a
probabilidade de rejeitar corretamente uma hipótese nula que de fato é falsa. Ela é obtida a
partir da complementar de 𝛽, assim:
𝑷𝒐𝒕ê𝒏𝒄𝒊𝒂 𝒅𝒐 𝑻𝒆𝒔𝒕𝒆 = 𝟏 − 𝜷
Para calcular a potência do teste, é preciso fixar um parâmetro alternativo que acredita
ser o verdadeiro, isto é, qualquer outro valor que não pertença a igualdade da hipótese nula H0
que representa o parâmetro corretamente. Lembre-se que existem inúmeros 𝛽 um para cada
possível valor alternativo que o parâmetro pode assumir (especificado na desigualdade da
hipótese H1). Adota-se que esse valor alternativo corresponde a informação verdadeira e, com
MUDE SUA VIDA!

269
isso, a potência do teste fornecerá a probabilidade de encontrar a diferença entre o valor

correto ao analisar o parâmetro errado.
EXEMPLO:
Suponha que esteja sendo avaliado a hipótese de que uma média teoricamente
conhecida é igual a 50 (𝜇 = 50). No entanto, a média verdadeira desse fenômeno
corresponde a 52, com valor 𝛽 = 26,43%.
Assim, a potência do teste é de:
𝑷𝒐𝒕ê𝒏𝒄𝒊𝒂 𝒅𝒐 𝑻𝒆𝒔𝒕𝒆 = 𝟏 − 𝟎, 𝟐𝟔𝟒𝟑 = 𝟎, 𝟕𝟑𝟓𝟕

𝑷𝒐𝒕ê𝒏𝒄𝒊𝒂 𝒅𝒐 𝑻𝒆𝒔𝒕𝒆 = 𝟕𝟑, 𝟓𝟕%
Interpreta-se esse resultado da seguinte maneira: se a verdadeira média do fenômeno
estudado for 52, será detectado uma diferença em relação a informação errada de 50 em
73,57% das vezes em que for efetuado esse teste.
TESTE QUI-QUADRADO (𝓧𝟐 )

O teste Qui-Quadrado é um teste estatístico aplicado a dados qualitativos (categóricos),
geralmente nominais, em que é avaliado as frequências ou as proporções das classes. Afinal,
uma forma eficiente de avaliar dados qualitativos, a partir de uma expressão numérica, é por
meio da sua frequência ou da sua proporção, já que não é possível quantificar média e variância.
Esse teste tem o objetivo de avaliar se as frequências observadas ocorrem por acaso ou são
influenciadas por alguma classe ou fator. Desse modo, esse teste baseia-se na comparação de
frequências observadas em amostras com frequências esperadas, conforme o contexto de cada
questão.
Existem vários testes Qui-Quadrado, além do teste que utiliza as frequências de dados
qualitativos. No entanto, o mais abordado e cobrado em concursos públicos é esse teste em
questão, denominado especificamente como teste Qui-Quadrado de Pearson. É somente
interessante que aluno entenda que não necessariamente um teste de qui-quadrado trabalha
com frequências. No entanto, os demais testes de qui-quadrado são poucos prováveis de cair
em provas das carreiras policiais.
DISTRIBUIÇÃO DE QUI-QUADRADO
Primeiramente, é necessário conhecer a distribuição Qui-Quadrado que é base para
estatística desse teste. A estatística de teste aplicada nesse tópico segue uma distribuição de
probabilidade contínua denominada “Qui-Quadrado” (representada por 𝒳2), por isso o nome
do teste.
A distribuição de probabilidade Qui-Quadrado é formada a partir da soma de variáveis
Normais Padronizadas (𝑍1 , 𝑍2 , . . . , 𝑍𝑛 ) elevadas ao quadrado. Lembre-se que todas as variáveis
Z tem média igual a zero e desvio padrão igual a 1. A soma de 𝑛 variáveis Z, sendo cada uma
elevada ao quadrado, origina uma distribuição Qui-Quadrado. Pode ser representada por:
𝒏
𝓧𝟐 = ∑ 𝒁𝒊 𝟐 = 𝒁𝟏 𝟐 + 𝒁𝟐 𝟐 +. . . +𝒁𝒏 𝟐
𝒊=𝟏
Pode-se afirmar que a variável 𝒳 2 tem distribuição Qui-Quadrado com 𝐺𝐿 graus de
liberdade. Sobretudo, é interessante que o aluno lembre que a variável Qui-Quadrado 𝒳 2 é uma
MUDE SUA VIDA!

270
soma dos quadrados de variáveis Normais Padronizadas, em caso de questões mais teóricas
isso pode ser cobrado. Dessa forma:
𝓧𝟐 ~𝑸𝒖𝒊 − 𝑸𝒖𝒂𝒅𝒓𝒂𝒅𝒐(𝑮𝑳)
A curva de probabilidade (função densidade de probabilidade) do Qui-Quadrado tem a
seguinte forma:
A distribuição Qui-Quadrado assume essa forma com o aumento dos graus de liberdade,
geralmente 𝐺𝐿 ≥ 3. Com poucos GL ela assume uma forma semelhante a uma exponencial.
A cauda à direita não é limitada, segue para +∞, enquanto a cauda à esquerda não
prossegue para o lado negativo, uma vez que o Qui-Quadrado é uma soma de quadrados, desse
modo ela não assume valores negativos.
Assim como as outras distribuições de probabilidade contínua, os valores de 𝒳 2 são
tabelados. A forma de encontrar os valores desejados é muito semelhante a tabela 𝑡 de Student,
pois também varia conforme graus de liberdade e a probabilidade de interesse (área do
gráfico). Um exemplo de tabela já apresentada em prova é:
MUDE SUA VIDA!

271
Esta tabela dá os valores dos Qui-Quadrados 𝒳𝑝 2 acumulado (miolo da tabela), que

correspondem a uma área de probabilidade p (linha superior da tabela) na cauda esquerda
(parte sombreada da curva) e a um número específico de graus de liberdade, representada
nessa tabela por 𝑣 (primeira coluna).
ESTATÍSTICA QUI-QUADRADO
Nessa estatística, trabalha-se com variáveis qualitativas que possuem observações de
frequências em cada classe (dado não numérico que a variável pode assumir). Por exemplo, ao
analisar os tipos de drogas apreendidas nas regiões de fronteira do Brasil, poderíamos ter a
seguinte representação:
Tipos de Drogas Frequência (𝒇𝒊 ) Proporção ou Freq. Relativa
Cocaína 1700 57%
Heroína 840 28%
Liamba 90 3%
Cannabis 350 12%
Total 2170 100%
Nesse contexto, temos a variável qualitativa “tipos de drogas”, e dentro dela as classes (os
dados não numéricos que ela pode assumir) Cocaína, Heroína, Liamba e Cannabis. Para cada
classe, temos a contagem de vezes que foi apreendido essa droga, representado pela frequência,
como também proporção em relação ao total (mesma ideia de frequência relativa). Essa é uma
possível forma de representar as variáveis qualitativas e o mais comum de ser cobrado no
conteúdo do teste Qui-Quadrado.
Para aplicar esse teste de hipótese, algumas pressuposições devem ser atendidas:
➢ As variáveis são de natureza qualitativa (categórica);
➢ As observações devem ser independentes entre si;
➢ As observações devem ser contagens, frequências ou proporções;
➢ Cada observação pertence a somente uma classe, isto é, cada classe são eventos
mutuamente exclusivos;
➢ Não pode ser aplicado com amostras pequenas (inferiores a 5 observações por
classe);
O princípio básico deste teste é comparar as frequências, ou seja, possíveis divergências
entre as frequências observadas no mundo real versus as frequências esperadas para um certo
evento.
MUDE SUA VIDA!

272
Para iniciar o teste Qui-Quadrado, devem ser formuladas as hipóteses. De forma genérica,
neste teste, as hipóteses serão as seguintes: a hipótese nula (H0) consistirá na igualdade entre
as frequências observadas nas amostras (𝐹𝑜𝑏𝑠 ) e as frequências esperadas (𝐹𝑒𝑠𝑝 ); enquanto a
hipótese alternativa (H1) consistirá na diferença entre essas frequências.
Após isso, o teste Qui-Quadrado também se baseia na comparação de um valor Qui-

Quadrado tabelado (𝒳𝑇𝑎𝑏 2 ) que delimita a área de aceitação e rejeição de H0; com um valor Qui-
Quadrado calculado (𝒳𝐶𝑎𝑙 2 ) que consiste na estatística do teste e determina o resultado (a
hipótese que deve ser escolhida).
Com o objetivo de encontrar esses valores é interessante observar algumas características

da distribuição Qui-Quadrado. O Teste Qui-Quadrado será sempre um teste unilateral à
direita. Portanto, à direita do Qui-Quadrado tabelado (𝒳𝑡𝑎𝑏2
) se encontra a região de rejeição
de H0 (com área igual ao nível de significância do teste α ) e à esquerda, a região de aceitação
de H0 (com área igual a 100% – α ). Entenda:
Para obter o valor de 𝒳𝑇𝑎𝑏 2 , basta consultar a tabela da Distribuição Qui-Quadrado com o
respectivo grau de liberdade e nível de significância (𝛼). Por exemplo, para 𝛼 = 5% e 𝐺𝐿 = 9,
encontraríamos o valor de 9,49. Veja:
MUDE SUA VIDA!

273
Em seguida, é necessário calcular a estatística do teste Qui-Quadrado 𝒳𝑐𝑎𝑙

2
(também
conhecida por Qui-Quadrado observado). Para desenvolver esse cálculo é interessante
construir todo seu raciocínio. A primeira informação importante é quantificar o desvio da
frequência que foi observada no mundo real (na amostra) com aquela frequência que se
esperava. Isto é:
𝒅𝒆𝒔𝒗𝒊𝒐 = 𝒇𝒐𝒃𝒔 − 𝒇𝒆𝒔𝒑

Essa diferença corresponde a dispersão da classe de uma variável qualitativa. Cada classe
apresentará seu respectivo desvio em relação a uma frequência esperada. Após isso, ao se
dividir esses desvios pela frequência esperada, temos a proporção do quanto a frequência
observada desviou da esperada. Portanto:
𝒇𝒐𝒃𝒔 − 𝒇𝒆𝒔𝒑
𝑷𝒓𝒐𝒑𝒐𝒓çã𝒐 𝒅𝒐 𝒅𝒆𝒔𝒗𝒊𝒐 =
𝒇𝒆𝒔𝒑
Para cada classe teremos um desvio e uma proporção do desvio, e precisaríamos
quantificar tudo isso em um valor só. No entanto, como qualquer outro desvio o seu somatório
será igual a zero. Assim, da mesma forma como na variância, será elevado cada desvio ao
quadrado para que se consiga quantificar os desvios.
𝟐
(𝒇𝒐𝒃𝒔 − 𝒇𝒆𝒔𝒑 )
𝑷𝒓𝒐𝒑𝒐𝒓çã𝒐 𝒅𝒐 𝒅𝒆𝒔𝒗𝒊𝒐 𝒂𝒐 𝒒𝒖𝒂𝒅𝒓𝒂𝒅𝒐 =
𝒇𝒆𝒔𝒑
MUDE SUA VIDA!

274
Sobretudo, com o desenvolvimento de todas essas informações, a estatística Qui-

Quadrado 𝒳𝐶𝑎𝑙 2 consiste no somatório da proporção dos desvios ao quadrado, representada da
seguinte forma:
𝟐
𝟐 (𝒇𝒐𝒃𝒔 − 𝒇𝒆𝒔𝒑 )
𝓧𝒄𝒂𝒍 = ∑[ ]
𝒇𝒆𝒔𝒑
Em que:
2
𝒳𝑐𝑎𝑙 : estatística de teste Qui-Quadrado (ou Qui-Quadrado calculado);
𝐹𝑜𝑏𝑠 : frequência observada de uma classe específica;
𝐹𝑒𝑠𝑝 : frequência esperada de uma classe específica;
Com essa fórmula é possível observar que quando as frequências observadas são muito
próximas às esperadas, o valor de X² é pequeno, e quando as divergências são grandes,
consequentemente assume valores altos.
O teste Qui-Quadrado é, essencialmente, um mecanismo pelo qual os desvios de uma
proporção hipotética são reduzidos a um único valor, que permite determinar uma
probabilidade a respeito da casualidade ou não dos desvios entre as proporções observadas e
esperadas.
Ao obter o valor de 𝒳𝐶𝑎𝑙 2 , basta representá-lo na distribuição de Qui-Quadrado e verificar
em qual região a estatística do teste está posicionada. Conforme a região 𝒳𝐶𝑎𝑙 2 , a hipótese H0
será rejeitada ou aceita. Veja a partir da representação gráfica:
Por fim, ao analisar do valor tabelado e calculado é possível obter o resultado do teste de
hipóteses (a tomada de decisão sobre a hipótese nula).
Esse teste de hipóteses se destina a encontrar uma dispersão não esperada para variáveis
qualitativas, ou então, avaliar a associação (relação de dependência) existente entre variáveis
qualitativas. Conforme o objetivo da análise, o teste Qui-Quadrado apresenta algumas
interpretações e procedimentos matemáticos diferentes. Baseado nisso, os testes Qui-
Quadrado são utilizados para dois principais objetivos:
MUDE SUA VIDA!

275
Essas são as duas principais aplicações do teste Qui-Quadrado e serão abordadas

detalhadamente cada uma.
TESTE DE ADEQUAÇÃO DE AJUSTAMENTO
Nesse tipo de teste Qui-Quadrado, será analisado a adequabilidade de uma distribuição
de frequências observadas em relação a uma distribuição teórica. Isto é, analisa se as
frequências observadas em cada classe diferem de um padrão pré-estabelecido. Nesse teste, é
analisada a relação de frequências de apenas uma variável qualitativa.
OBJETO DE ESTUDO:
Uma delegacia de polícia analisa se as aberturas de inquérito policial ocorrem
independentemente durante os dias da semana, isto é, se não há variação na
abertura de inquérito em algum dia da semana específico. Para isso, foram analisadas
as aberturas de inquérito nos dias de uma semana, observando os seguintes
resultados:
Segunda Terça Quarta Quinta Sexta

18 31 29 30 17
Com bases nesses dados, é possível afirmar, a 5% de probabilidade de erro, que o dia da
semana não afeta na abertura do inquérito?
Esse é o cenário apresentado para um teste Qui-Quadrado de adequação de ajustamento.
Tem-se uma variável qualitativa dias da semana, além da contagem (a frequência) da abertura
de inquéritos policiais por dia da semana. Veja que o objetivo nessa análise é obter informações
sobre a influência do dia da semana, ou seja, influência da variável qualitativa. É muito
importante ter essa ideia bem fundamenta para identificar o teste a ser utilizado.
As hipóteses para esse teste são:
O conjunto de dados apresentados na tabela consiste nas frequências observadas do

fenômeno. No entanto, precisa ser determinado a frequência esperada. Para essa questão, como
se espera que ocorra a abertura de inquérito independentemente a cada dia da semana, seria o
mesmo que afirmar que cada dia teria a mesma quantidade de inquéritos (pelo menos é o que
se espera). Desse moco, as frequências observadas foram desse padrão seriam apenas variações
casuais. Para comprovar isso é necessário o teste de hipótese Qui-Quadrado.
O total de ocorrências registradas foram:
MUDE SUA VIDA!

276
𝑻𝒐𝒕𝒂𝒍 = 𝟏𝟖 + 𝟑𝟏 + 𝟐𝟗 + 𝟑𝟎 + 𝟏𝟕 = 𝟏𝟐𝟓
Espera-se que essas 125 aberturar de inquérito policial ocorrem igualmente no decorrer
dos dias da semana. Assim, as frequências esperadas são 125/5 = 25:
Segunda Terça Quarta Quinta Sexta
25 25 25 25 25
Determinando as frequências observada e esperada, deve ser efetuado o teste de
hipóteses. Primeiramente, o valor de 𝒳𝑡𝑎𝑏 2
, para nível de significância de 5% e graus de
liberdade 4 (𝑁º 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒𝑠 – 1 = 4), é igual a 9,49 (conforme tabela Qui-Quadrado).
Após isso, precisa ser obtido o 𝒳𝑐𝑎𝑙

2
a partir da fórmula já apresentada. Para esse cálculo
é interessante proceder pela seguinte tabela:
(𝒇𝑶𝒃𝒔 − 𝒇𝑬𝒔𝒑 )𝟐
Semana 𝒇𝑶𝒃𝒔 𝒇𝑬𝒔𝒑 𝒇𝑶𝒃𝒔 − 𝒇𝑬𝒔𝒑 (𝒇𝑶𝒃𝒔 − 𝒇𝑬𝒔𝒑 )𝟐
𝒇𝑬𝒔𝒑
Segunda 18 25 -7 49 49/25 = 1,96
Terça 31 25 6 36 36/25 = 1,44
Quarta 29 25 4 16 16/25 = 0,64
Quinta 30 25 5 25 25/25 = 1,00
Sexta 17 25 -8 64 64/25 = 2,56
Total 125 125 0 - 𝓧𝟐𝒄𝒂𝒍 = 𝟕, 𝟔𝟎
Ao efetuar o cálculo do qui-quadrado seguinte o raciocínio desenvolvido anteriormente,

em etapa por etapa é possível alcançar o valor 𝒳𝑐𝑎𝑙 2
com eficiência. As vezes pode até ser um
cálculo trabalhoso (com muitos procedimentos, porém não é difícil).
Obtendo o valor 𝒳𝑐𝑎𝑙
2
, basta agora colocá-lo na distribuição Qui-Quadrado e observar em
qual região ele estará posicionado. Veja:
MUDE SUA VIDA!

277
O valor de 7,60 fica posicionado na área de aceitação de H0. Portanto, aceita-se a hipótese
H0, que, para qualquer teste de hipótese Qui-Quadrado, consiste em afirmar que a frequência
observada é igual a frequência esperada. Como conclusão, verifica-se que os dias da semana
não influenciam a abertura de inquérito policial e as diferenças observadas foram devido a
mera casualidade.
TESTE DE INDEPENDÊNCIA
Para esse teste Qui-Quadrado, é analisado duas variáveis qualitativas e observa-se se as
frequências são modificadas devido a diferença das classes. Esse é o teste mais comum aplicado
nas provas de Estatística, em que apresenta uma tabela de dupla entrada. Vamos aborda esse
teste a partir de um exemplo.
OBJETO DE ESTUDO:
Uma pesquisa realizada com uma amostra de 200 clientes analisa se há
influência na escolha de uma marca de automóvel conforme o sexo do cliente. Assim,
os dados coletados foram apresentados na seguinte tabela:
Sexo do Marca de Automóvel

Total
Cliente A B C
Masculino 20 70 30 120
Feminino 40 15 25 80
Total 60 85 55 200
Com essas informações, existe alguma relação, a 5% de probabilidade de erro, entre o sexo
do cliente e a escolha da marca do automóvel?
Essa já é uma construção de hipóteses mais complexa, uma vez que as frequências
consistem na interseção de dois eventos (duas variáveis qualitativas). Nesse teste de hipóteses,
a preocupação está se as frequências observadas quanto ao sexo do cliente têm suas proporções
modificadas conforme a marca do automóvel, ou seja, se a escolha de um automóvel é
influenciada pelo sexo do cliente. Assim, podemos estabelecer as seguintes hipóteses:
Conforme o teste de hipótese, se a frequência esperada for igual a frequência observa isso
indicará que a escolha da marca do automóvel ocorrerá independentemente do sexo do cliente.
A recíproca também se estabelece, ou seja, se houver diferenças significativas entre as
frequências indica que há alguma influência na escolha do automóvel e no sexo do cliente.
Então, após estabelecer as hipóteses, deve ser obtido a tabela com as frequências
esperadas. Para isso, podemos efetuar uma análise sobre os totais do sexo do cliente e da marca
de automóvel. Ao fixar sobre o total do sexo masculino e feminino observamos que 60% dos
200 clientes eram homens e 40 % dos clientes eram mulheres. Assim, considerando que a
escolha da marca do automóvel não seja influenciada pelo sexo, espera-se que do total de cada
marca seja observada a mesma proporção de homes e mulheres (60%; 40%). Veja:
MUDE SUA VIDA!

278
Sexo do Marca de Automóvel

Total
Cliente A B C
Masculino 36 (60%) 51 (60%) 33 (60%) 120 (60%)
Feminino 24 (40%) 34 (40%) 22 (40%) 80 (40%)
Total 60 (100%) 85 (100%) 55 (100%) 200 (100%)
Sendo assim, para achar as frequências esperadas basta fixar as proporções totais de uma
variável qualitativa e distribuir na mesma proporção para cada classe da outra variável. Nesse
caso, foi fixado as proporções de 60% masculino e 40% feminino e distribuído nessa proporção
para cada marca de automóvel. Isso é a frequência que se espera caso não haja nenhuma relação
entre essas variáveis.
A próxima etapa é identificar o valor de 𝒳𝑡𝑎𝑏
2
com nível de 5% de significância. Além é
preciso calcular o número de graus de liberdade que para esse tipo de teste é calculado da
seguinte forma:
𝑮𝑳 = (𝑵º𝑪𝒐𝒍𝒖𝒏𝒂𝒔 − 𝟏) × (𝑵º𝑳𝒊𝒏𝒉𝒂𝒔 − 𝟏)
𝑮𝑳 = (𝟑 − 𝟏) × (𝟐 − 𝟏) = 𝟐
O número de linhas e colunas nada mais é do que p número de classes de cada variável
qualitativa, essa informação pode ser facilmente identificada na tabela:
Com isso, o valor 𝒳𝑡𝑎𝑏

2
para 2 graus de liberdade e 𝛼 = 5% corresponde a 5,99:
MUDE SUA VIDA!

279
Com isso, delimita-se a área de rejeição e aceitação de H0 dentro da distribuição de Qui-

Quadrado com 2 graus de liberdade:
Em seguida, deve ser efetuado o cálculo da estatística de teste Qui-Quadrado 𝒳𝐶𝑎𝑙

2
, que
pode ser precedido pela seguinte tabela:
𝟐
(𝒇𝑶𝒃𝒔 − 𝒇𝑬𝒔𝒑 )𝟐
Sexo Marca 𝒇𝑶𝒃𝒔 𝒇𝑬𝒔𝒑 𝒇𝑶𝒃𝒔 − 𝒇𝑬𝒔𝒑 (𝒇𝑶𝒃𝒔 − 𝒇𝑬𝒔𝒑 )
𝒇𝑬𝒔𝒑
M A 20 36 -16 256 256/36 = 7,11
M B 70 51 19 361 361/51 = 7,08
M C 30 33 -3 9 9/33 = 0,27
F A 40 24 16 256 256/24 = 10,67
F B 15 34 -19 361 361/34 = 10,62
F C 25 22 3 9 9/25 = 0,41
Total 200 200 0 - 𝓧𝟐𝒄𝒂𝒍 = 𝟑𝟔, 𝟏𝟔
No final, veja que foi obtido um valor de 𝒳𝐶𝑎𝑙

2
(36,16) bem maior do que o limite crítica de
𝒳𝑡𝑎𝑏 (5,99). Ou seja, a variação encontrada entre a frequência observada e frequência esperada
2
é muito maior do que mera casualidade. Veja pela distribuição de probabilidade Qui-Quadrado:
MUDE SUA VIDA!

280
Assim, rejeita-se a hipótese H0 a 5% de probabilidade de erro. Dessa forma, pode ser

afirma que há uma relação de dependência entre a escolha da marca de automóvel com o sexo
do cliente, isto é, mulheres preferem uma marca diferente das dos homens.

(CESPE – Polícia Federal – Agente – 2018) Determinado órgão governamental estimou
que a probabilidade p de um ex-condenado voltar a ser condenado por algum crime no
prazo de 5 anos, contados a partir da data da libertação, seja igual a 0,25. Essa estimativa
foi obtida com base em um levantamento por amostragem aleatória simples de 1.875
processos judiciais, aplicando-se o método da máxima verossimilhança a partir da
distribuição de Bernoulli.
Sabendo que P(Z < 2) = 0,975, em que Z representa a distribuição normal padrão, julgue
o item que segue, em relação a essa situação hipotética.
1. A estimativa intervalar 0,25 ± 0,05 representa o intervalo de 95% de confiança do
parâmetro populacional p.
GABARITO: Errado.
A estimativa intervalar da proporção é composta pelos seguintes elementos:
A estimativa pontual da proporção corresponde de fato a 0,25. Contudo, o intervalo

de confiança precisa ser calculado. Conforme apresentado na questão, o valor que
corresponde ao nível de confiança de 95% é 𝑍 = 2 (veja que a questão arredondou o valor
de Z quando na verdade é igual a 1,96).
O valor de 𝑍 = 2 corresponde ao nível de 95% porque acumula até 0,975, isso indica
que possui um risco de erro de 2,5% para o extremo positivo e 2,5% para o extremo
negativo, obtendo 95% de confiança na região central. Entenda que a notação
P(Z<2)=0,975 que dizer que existe uma probabilidade acumulada de 0,975, isto é, 95%
de confiança + 2,5% de risco de erro no extremo negativo:
√𝑝(1−𝑝)
Assim, sabendo que 𝑍 = 2 e que o erro padrão da proporção é igual a 𝑝 = ,
√𝑛
logo temos que o intervalo de confiança é igual a:
MUDE SUA VIDA!

281
Por fim, a questão está errada uma vez que a estimativa intervalar apropriada
para essa amostra é 𝟎, 𝟐𝟓 ± 𝟎, 𝟎𝟐.
2. O erro padrão da estimativa da probabilidade p foi igual a 0,01.

GABARITO: Correto.
O erro padrão da estimativa da probabilidade ou proporção 𝑝 já foi calculado
indiretamente na estimativa intervalar. O erro padrão da proporção de 0,25 é:
O resultado do cálculo coincide com a informação da questão. Portanto, o erro

padrão de fato é 0,01.
(CESPE – Polícia Federal – Escrivão – 2018) O tempo gasto (em dias) na preparação
para determinada operação policial é uma variável aleatória X que segue distribuição normal
com média M, desconhecida, e desvio padrão igual a 3 dias. A observação de uma amostra
aleatória de 100 outras operações policiais semelhantes a essa produziu uma média amostral
igual a 10 dias.
MUDE SUA VIDA!

282
Com referência a essas informações, julgue o item que segue, sabendo que P(Z > 2) =
0,025, em que Z denota uma variável aleatória normal padrão.
3. A expressão 10 dias ± 6 dias corresponde a um intervalo de 95% de confiança para a
média populacional M.
GABARITO: Errado.
Mais uma questão perguntando sobre intervalo de confiança. Dentro da
Estatística Inferencial, com certeza, é o assunto mais frequente na Cespe.
Em primeiro, precisamos verificar que o desvio padrão populacional foi
fornecido, logo utilizaremos a distribuição Normal padrão Z, pois:
Veja que foi informado a probabilidade de P(Z > 2) que é a complementar da

probabilidade anteriormente fornecida na questão 1 e 2, P(Z < 2). Isso indica que
𝒁 = 𝟐 é o valor correspondente ao intervalo de 95% de confiança (foi arredondado
para essa questão também). Assim, tendo todas as informações para calcular o
intervalo de confiança (𝜎 = 3; 𝑛 = 100):
Dessa forma, questão está errada, pois a estimativa intervalar com 95% de
confiança é igual a 10 ± 0,6. Isto é, intervalor de mais ou menos 0,6 dias. E não de 6
dias.
(CESPE – Polícia Federal – Escrivão 2018) Uma pesquisa realizada com passageiros
estrangeiros que se encontravam em determinado aeroporto durante um grande evento
esportivo no país teve como finalidade investigar a sensação de segurança nos voos
internacionais. Foram entrevistados 1.000 passageiros, alocando-se a amostra de acordo com
o continente de origem de cada um — África, América do Norte (AN), América do Sul (AS),
Ásia/Oceania (A/O) ou Europa. Na tabela seguinte, N é o tamanho populacional de passageiros
em voos internacionais no período de interesse da pesquisa; n é o tamanho da amostra por
origem; P é o percentual dos passageiros entrevistados que se manifestaram satisfeitos no que
se refere à sensação de segurança.
MUDE SUA VIDA!

283
Em cada grupo de origem, os passageiros entrevistados foram selecionados por

amostragem aleatória simples. A última linha da tabela mostra o total populacional no período
da pesquisa, o tamanho total da amostra e Ppop representa o percentual populacional de
passageiros satisfeitos.
A partir dessas informações, julgue o próximo item.
4. A estimativa do percentual populacional de passageiros originários da África que se
mostraram satisfeitos com a sensação de segurança nos voos internacionais foi igual a
80% e a estimativa do erro padrão associado a esse resultado foi inferior a 4%.
GABARITO: Errado.
A questão solicita a estimativa da proporção de passageiros provenientes da
África que se mostraram satisfeitos com a sensação de segurança. Logo, conforme
a tabela a estimativa pontual foi de 80% e temos 𝑛 = 100. Para obter o erro padrão
da estimativa da proporção precisamos aplicar a mesma fórmula desenvolvida na
questão 2, logo:
Dessa forma, a questão está errada, pois o valor é exatamente 4% e não

inferior a esse valor.
MUDE SUA VIDA!

284
VARIÁVEIS ALEATÓRIAS BIDIMENSIONAIS

No estudo de variáveis aleatórias, o resultado do experimento em questão pode ser
registrado como um único valor X. No entanto, um experimento aleatório pode dar origem a um
conjunto de variáveis observadas e pode ser interessante estudá-las conjuntamente. Existem
muitos casos em que há interesse por dois resultados simultâneos como, por exemplo, observar
o peso e altura de uma pessoa, o índice de criminalidade com educação, renda familiar e
desemprego etc.
Desse modo, a partir desse capítulo há interesse em quantificar a relação entre duas
variáveis, além de estudar o efeito conjunto que ambas causam sobre um fenômeno. Assim, a
variável aleatória consistirá no par ordenado de duas variáveis aleatórias, isto é, uma
observação específica de uma variável X associada a uma observação específica da variável Y,
formando um par ordenada de observação (X, Y).
Para tanto, tem:-se a seguinte definição para as variáveis aleatórias bidimensionais: “Seja
um espaço amostral associado a um experimento aleatório; e X e Y duas variáveis aleatórias
quaisquer. Então o par da função (X, Y) associa um resultado do fenômeno aleatório em um par
de número reais. Isso define uma variável aleatória bidimensional, que pode ser composta por
duas variáveis discretas, contínuas ou mista.”
Então as duas variáveis aleatórias associadas podem ser natureza diferente (discreta e
contínua) formando uma variável aleatória mista. Contudo, no conteúdo de variáveis aleatórias
bidimensionais, a variável contínua é raramente exigida em concursos. Assim, seria aumentado
a complexidade do conteúdo tendo baixa probabilidade de cair em prova. Desse modo, vamos
nos restringir apenas a variável aleatória bidimensional compostas por um par de variáveis
discretas. O mais interessante é o que o aluno compreenda a ideia de associar duas
características dentro do fenômeno estudado.
Para compreender esse assunto, vamos fazer toda a construção de uma variável aleatória
bidimensional.
Processo de avaliação de um projeto administrativo, composto pela classificação de
investimento e aprovação do projeto.
Classificação da categoria de investimento no projeto administrativo: pode ser A, B, C ou
D, com probabilidade 1/4 para cada uma; a categoria A corresponde a um grau de investimento
mais baixo e aumenta gradativamente para até D;
Aprovação do projeto administrativo: pode ser deferido com probabilidade 2/3 ou pode
ser indeferido com probabilidade de 1/3;
➢ Espaço Amostral Associado (Resultados possíveis – Ω):
Ω = {(A, Def.); (A, Ind.); (B, Def.); (B, Ind.); (C, Def.); (C, Ind.); (D, Def.); (D, Ind.)}
➢ Definição da variável aleatória bidimensional (X, Y):
𝑋 = Atribuição numérica conforme o grau de investimento no projeto:
(𝐴 = 1; 𝐵 = 2; 𝐶 = 3 𝑒 𝐷 = 4);
𝑌 = Atribuição de sucesso para deferido (𝑋 = 1) e fracasso para indeferido (𝑋 = 0);
𝑋, 𝑌 = Par ordenado de todas as possíveis combinações de X com Y:
{(1,0); (1, 1); (2, 0); (2, 1); (3, 0); (3, 1); (4, 0); (4, 1)}.
MUDE SUA VIDA!

285
Assim, o experimento aleatório processo de avaliação de um projeto administrativo,

composto pelo grau de investimento e aprovação, é definido por variável aleatória
bidimensional discreta (X, Y) que pode assumir os valores:
X, Y = (1, 0) corresponde ao evento (investimento A, indeferido);
X, Y = (1, 1) corresponde ao evento (investimento A, deferido);
X, Y = (2, 0) corresponde ao evento (investimento B, indeferido);
X, Y = (2, 1) corresponde ao evento (investimento B, deferido);
X, Y = (3, 0) corresponde ao evento (investimento C, indeferido);
X, Y = (3, 1) corresponde ao evento (investimento C, deferido);
X, Y = (4, 0) corresponde ao evento (investimento D, indeferido);
X, Y = (4, 1) corresponde ao evento (investimento D, deferido);
DISTRIBUIÇÃO DE PROBABILIDADE CONJUNTA

O par de valores que a variável aleatória bidimensional pode assumir deve ser associado
à sua respectiva probabilidade ocorrer. Denomina-se probabilidade conjunta a interseção
entre as probabilidades X e Y para um determinado valor de cada variável, isto é, a ocorrência
simultânea de dois eventos específicos que X e Y podem assumir. Veja que essa probabilidade
conjunta é semelhante da interseção trabalha na Teoria da Probabilidade, assim podemos
representar por:
𝑷(𝑿=𝑿𝒊 𝒆 𝒀=𝒀𝒋 ) = 𝑷(𝑿=𝑿𝒊,𝒀=𝒀𝒋 )

Pode ser representado por “e” ou por “,” terá o mesmo sentido.
Conforme o exemplo em tela, poderia ser questionado qual é a probabilidade do projeto
ser classificado com investimento B (𝑋 = 2) e ser indeferido (𝑌 = 0), para essa situação
específica a simbologia da probabilidade conjunta seria:
𝑷(𝑿=𝟐 𝒆 𝒀=𝟎) = 𝑷(𝑿=𝟐,𝒀=𝟎)

Em síntese, nas variáveis aleatórias bidimensionais, tem-se um par de valores que sofrem
variação (X, Y) combinado com uma probabilidade conjunta de ocorrer. Desse modo, para esse
exemplo, as probabilidades conjuntas associadas a cada par de valor que a variável aleatória
bidimensional pode assumir é:
MUDE SUA VIDA!

286
Resultado do
Experimento 𝑷(𝑿𝒊 ) 𝑷(𝒀𝒋 ) 𝑷(𝑿𝒊 𝒀𝒋 )
𝑿𝒊 𝒀𝒋
1 0 1/4 1/3 1/4 × 1/3 = 1/12
1 1 1/4 2/3 1/4 × 2/3 = 2/12
2 0 1/4 1/3 1/4 × 1/3 = 1/12
2 1 1/4 2/3 1/4 × 2/3 = 2/12
3 0 1/4 1/3 1/4 × 1/3 = 1/12
3 1 1/4 2/3 1/4 × 2/3 = 2/12
4 0 1/4 1/3 1/4 × 1/3 = 1/12
4 1 1/4 2/3 1/4 × 2/3 = 2/12
Os possíveis valores de X são representados por Xi pois apresentam 4 resultados (assim,
denomina-se o i-ésimo resultado de X);
Os possíveis valores de Y são representados por Yi pois apresentam 2 resultados (assim,
denomina-se o j-ésimo resultado de Y);
A partir da tabela de resultados, podemos montar a distribuição de probabilidade
conjunta de X e Y:
Evento Evento 𝒀𝒋
𝑿𝒊 0 1
1 1/12 2/12
2 1/12 2/12
3 1/12 2/12
4 1/12 2/12
Com isso, temos que i-ésimo resultado de X representa cada linha da tabela e j-ésimo
resultado de Y representa cada coluna.
Observe que a soma de todas as probabilidades apresentadas na tabela acima é igual a 1.
Com isso, deve-se saber que a probabilidade conjunta de uma variável aleatória bidimensional
tem condições que devem ser obedecidas. Se (X,Y) é uma variável aleatória bidimensional
discreta, sua função de probabilidade conjunta representada por 𝑃(𝑋, 𝑌), que associa um valor
de probabilidade a cada valor do par (𝑋𝑖 , 𝑌𝑗 ), deve satisfazer as seguintes condições:
➢ A probabilidade para cada par (𝑋𝑖 , 𝑌𝑗 ) é um valor não-negativo:
𝑷(𝑿𝒊 , 𝒀𝒋 ) ≥ 𝟎
➢ A soma das probabilidades conjuntas correspondentes a cada par (𝑋𝑖 , 𝑌𝑗 ) é igual a 1:
∑ 𝑷(𝑿𝒊 , 𝒀𝒋 ) = 𝟏
Soma de cada 𝑖 ocorrência de X associada a cada 𝑗 ocorrência de Y.
DISTRIBUIÇÃO DE PROBABILIDADE MARGINAL

A distribuição de probabilidade marginal consiste na distribuição de probabilidade da
variável X e Y separadamente. Dada uma variável aleatória bidimensional e sua distribuição de
probabilidade conjunta, pode ser obtido a distribuição da variável X e a distribuição da variável
Y. Essas distribuições isoladas são calculadas e posicionadas nas regiões marginais (extremos)
da tabela de probabilidade conjunta, por isso, tem essa denominação.
MUDE SUA VIDA!

287
Desse modo, para variáveis aleatórias discretas, tem-se uma distribuição de

probabilidade marginal para X, dada pela expressão:
𝑷(𝑿𝒊 ) = ∑ 𝑷(𝑿𝒊 , 𝒀𝒋 )
𝒋
Isto é, a soma das probabilidades conjuntas das colunas j para cada Xi
Além disso, tem-se uma distribuição de probabilidade marginal para Y, dada por:
𝑷(𝒀𝒊 ) = ∑ 𝑷(𝑿𝒊 , 𝒀𝒋 )
𝒊
Isto é, a soma das probabilidades conjuntas das linhas i para cada Yj;
Em resumo ao exposto, para obter a probabilidade marginal de X, basta somar as
probabilidades em cada linha. Em adição, para obter a probabilidade marginal de Y, basta
somar as probabilidades em cada coluna. Entenda conforme o exemplo já abordado:
Evento 𝒀𝒋
Evento
P(𝑿𝒊 )
𝑿𝒊 0 1
1 1/12 2/12 𝑃(𝑋=1) = 3/12 = 1/4

2 1/12 2/12 𝑃(𝑋=2) = 3/12 = 1/4
3 1/12 2/12 𝑃(𝑋=3) = 3/12 = 1/4
4 1/12 2/12 𝑃(𝑋=4) = 3/12 = 1/4
P(𝒀𝒋 ) 𝑃(𝑦=0) = 4/12 = 1/3 𝑃(𝑦=1) = 8/12 = 2/3 Soma = 1,0
Na última coluna, à direita, temos a distribuição de probabilidade marginal da variável X,

e na última linha, temos a distribuição de probabilidade marginal da variável Y. como já dito, o
nome marginal refere-se à posição dessas probabilidades na tabela. Veja a construção das duas
probabilidades, para 𝑃(𝑋𝑖 ):
MUDE SUA VIDA!

288
E para 𝑃(𝑌𝑗 ):
É interessante que aluno associe que a probabilidade marginal nada mais é que
probabilidade de um evento só. Contudo, apesar de ser apenas um novo conceito para algo já
visto, o aluno pode ser colocado em um cenário em que é fornecida a probabilidade conjunta
de dois eventos e a questão peça a probabilidade marginal, nesse momento é interessante
associar esses informações e fazer a mesma construção abordada nesse tópico.
INDEPENDÊNCIA ENTRE VARIÁVEIS ALEATÓRIAS

Seja (X, Y) uma variável aleatória discreta bidimensional. Diremos que X e Y são variáveis
aleatórias independentes se, e somente se:
𝑷(𝑿𝒊 , 𝒀𝒋 ) = 𝑷(𝑿𝒊 ) × 𝑷(𝒀𝒋 ), 𝒑𝒂𝒓𝒂 𝒕𝒐𝒅𝒐𝒔 𝒐𝒔 𝒑𝒂𝒓𝒆𝒔 (𝒕𝒐𝒅𝒐 𝐢 𝒆 𝐣)

Assim, pode ser compreendido que duas variáveis aleatórias discretas são ditas
independentes se a ocorrência de qualquer valor (um resultado) de uma delas não altera a
probabilidade de ocorrência dos valores da outra. Nessa lógica, a probabilidade de um par de
valores X e Y é igual que o produto da probabilidade de (X, Y) independentemente, pois não há
interferência entre um evento e outro.
Para o exemplo abordado nesse capítulo, pode ser observado que classificação da
categoria de investimento ocorre independentemente da aprovação do projeto. Isso porque a
probabilidade conjunta em cada ponto é igual ao produto das probabilidades de cada evento
separadamente, veja:
𝑷(𝑿=𝟏,𝒀=𝟎) = 𝟏/𝟏𝟐, isso é igual a 𝑷(𝑿=𝟏) × 𝑷(𝒀=𝟎) = 𝟏/𝟒 × 𝟏/𝟑 = 𝟏/𝟏𝟐;
𝑷(𝑿=𝟏,𝒀=𝟏) = 𝟐/𝟏𝟐, isso é igual a 𝑷(𝑿=𝟏) × 𝑷(𝒀=𝟏) = 𝟏/𝟒 × 𝟐/𝟑 = 𝟐/𝟏𝟐;
𝑷(𝑿=𝟐,𝒀=𝟎) = 𝟏/𝟏𝟐, isso é igual a 𝑷(𝑿=𝟐) × 𝑷(𝒀=𝟎) = 𝟏/𝟒 × 𝟏/𝟑 = 𝟏/𝟏𝟐;
Essa igualdade ocorrerá todos os pares (X, Y), portanto, pode ser afirmado que as duas
variáveis aleatórias são independentes.
Em complemento, também pode ser observado que a probabilidade condicional de
variáveis aleatórias que são independentes não interfere na probabilidade simples de um
evento. Por exemplo, a probabilidade de 𝑋 = 1, dado que 𝑌 = 0 será igual a probabilidade de
𝑋 = 1, pois se são independentes um evento não interfere na ocorrência do outro.
𝑷(𝑿=𝟏| 𝒀=𝟎) = 𝑷(𝑿=𝟏)
MUDE SUA VIDA!

289
Em termos práticos, nesse exemplo, a probabilidade de um projeto ser classificado com

grau de investimento A (𝑋 = 1) dado que foi indeferido (𝑌 = 0) é mesma probabilidade caso
ainda não tivesse ocorrido o processo de aprovação do projeto (caso ainda não tivesse sido
deferido ou indeferido). Assim:
𝑷(𝑿=𝟏| 𝒀=𝟎) = 𝟏/𝟒

𝑷(𝑿=𝟏) = 𝟏/𝟒
DISTRIBUIÇÃO DE PROBABILIDADE CONDICIONAL
A probabilidade condicional consiste na probabilidade de um evento X dado que um Y
ocorreu. É a mesma probabilidade trabalha no capítulo da Teoria da Probabilidade, só que
agora esse conceito será aplicado a partir de uma variável aleatória bidimensional, isto é, a
probabilidade condicional associada ao par de valores que a variável pode assumir.
É possível utilizar a tabela da distribuição conjunta de duas variáveis para calcular as
probabilidades condicionais. Suponha que é de interesse obter qual a probabilidade de X ser
igual a 3, dado que Y é 1. Contextualizando com o exemplo trabalhado, é o mesmo que afirmar
qual é a probabilidade do projeto ser classificado com nível de investimento C, dado que ele
deferido (simbolicamente representado por 𝑃(𝑋=3|𝑌=1) ).
Pela definição de probabilidade condicional, podemos aplicar a seguinte fórmula:
𝑷(𝑿=𝟑 𝒆 𝒀=𝟏)
𝑷(𝑿=𝟑| 𝒀=𝟏) =
𝑷(𝒀=𝟏)
Isto é, a probabilidade condicional 𝑋 = 3, dado que 𝑌 = 1, é igual a divisão da
probabilidade da interseção entre esses dois eventos sobre a probabilidade de 𝑌 = 1 que
ocorreu anteriormente. Lembre-se que a probabilidade da interseção nada mais é que a
probabilidade conjunta de 𝑋 = 3 e 𝑌 = 1. Além disso, a probabilidade de 𝑌 = 1 consiste na
probabilidade marginal de Y. Assim, o cálculo seria o seguinte:
𝟐/𝟏𝟐 𝟏
𝑷(𝑿=𝟑| 𝒀=𝟏) = =
𝟐/𝟑 𝟒
O resultado foi o mesmo que a probabilidade de 𝑋 = 3, pois esse exemplo trata-se de
variáveis aleatórias independentes, desse modo o fato do projeto ser deferido (𝑌 = 1) não afeta
a classificação dele para categoria C (𝑋 = 3).
Ao repetir o mesmo procedimento para todos os valores de X, dado que o projeto foi
deferido (𝑌 = 1), temos a distribuição condicional de X, dado que 𝑌 = 1. Veja:
𝑿𝒊 1 2 3 4
𝑷(𝑿𝒊 |𝒀=𝟏) 𝟏/𝟒 𝟏/𝟒 𝟏/𝟒 𝟏/𝟒
Para compreender melhor a diferença de uma distribuição de probabilidade condicional,
vamos abordar o mesmo exemplo só que agora considerando que classificação de investimento
do projeto interfere na aprovação, ou seja, existe uma relação de dependência entre as variáveis
X e Y.
Nesse novo exemplo, vamos supor que projetos com baixo investimento (categoria A e B)
sempre são aprovados, enquanto projetos de elevado investimento (categoria D) não são de
MUDE SUA VIDA!

290
interesse da empresa. Por último, projeto de categoria C permanece nas mesmas proporções.
Baseado nisso, temos outra distribuição de probabilidade conjunta que reflete o efeito da
classificação de investimento na aprovação do projeto. Veja a nova tabela:
Evento 𝒀𝒋
Evento
𝑿𝒊 0 1 P(𝑿𝒊 )
1 0 3/12 𝑃(𝑋=1) = 1/4

2 0 3/12 𝑃(𝑋=2) = 1/4
3 1/12 2/12 𝑃(𝑋=3) = 1/4
4 3/12 0 𝑃(𝑋=4) = 1/4
P(𝒀𝒋 ) 𝑃(𝑦=0) = 1/3 𝑃(𝑦=1) = 2/3 Soma = 1,0
As probabilidades marginais permanecem a mesma. Isso porque de modo geral ainda há

a probabilidade de 1/3 para o projeto ser indeferido, no entanto as proporções para cada
categoria foram modificadas. Ainda há a probabilidade de 1/4 do projeto pertencer a categoria
B (𝑋 = 2), no entanto, sempre que for B será deferido.
Podemos ter certeza de que não existe uma relação de independência, porque a
probabilidade conjunta em cada par não é produto da probabilidade de X e Y separadamente.
Por exemplo, a probabilidade do projeto ser categoria A e indeferido é zero, diferente do
produto de 1/3 com 1/4.
𝑷(𝑿=𝟏 𝒆 𝒀=𝟎) = 𝟎, isso é diferente de 𝑷(𝑿=𝟏) × 𝑷(𝒀=𝟎) = 𝟏/𝟒 × 𝟏/𝟑 = 𝟏/𝟏𝟐;
𝑷(𝑿=𝟏 𝒆 𝒀=𝟎) ≠ 𝑷(𝑿=𝟏) × 𝑷(𝒀=𝟎)

As probabilidades conjuntas foram modificadas baseadas em uma relação hipotética
sobre o investimento e aprovação do projeto. Baseado nisso, podemos obter a distribuição
condicional de X, dado que o projeto foi deferido (𝑌 = 1). As probabilidades condicionais são:
𝟑/𝟏𝟐 𝟗 𝟑
𝑷(𝑿=𝟏| 𝒀=𝟏) = = =
𝟐/𝟑 𝟐𝟒 𝟖
𝟑/𝟏𝟐 𝟗 𝟑
𝑷(𝑿=𝟐| 𝒀=𝟏) = = =
𝟐/𝟑 𝟐𝟒 𝟖
𝟐/𝟏𝟐 𝟑 𝟏 𝟐
𝑷(𝑿=𝟑| 𝒀=𝟏) = = = =
𝟐/𝟑 𝟏𝟐 𝟒 𝟖
𝟎
𝑷(𝑿=𝟒| 𝒀=𝟏) = =𝟎
𝟐/𝟑
Desse modo, sabendo que o projeto foi deferido, as probabilidades de o projeto pertencer
a uma das quatro classes de investimento são modificadas para:
MUDE SUA VIDA!

291
𝑿𝒊 1 2 3 4
𝑷(𝑿𝒊 |𝒀=𝟏) 𝟑/𝟖 𝟑/𝟖 𝟐/𝟖 𝟎
Matematicamente, isso consiste na distribuição condicional de X, dado que 𝑌 = 1. O
somatório da probabilidade é igual a 1, pois uma vez que sabemos que o projeto foi deferido só
resta classificar quanto ao investimento, totalizando todas as possibilidades em 100%. Isso é a
distribuição de probabilidade condicional para variáveis aleatórias não independentes.
VALOR ESPERADO E(X, Y)

Para representar o valor esperado de uma variável aleatória bidimensional em apenas um
valor, precisa-se transformar os valores de X e Y em um valor só. Assim, para obter um valor
esperado que representa todo o fenômeno, calcula-se a esperança do produto das variáveis, isto
é, E(XY). Quando representada essa transformação no tópico “Transformação de Variáveis
Aleatórias”, foi direcionado que o produto de variáveis aleatórias seria abordado nesse capítulo.
Então agora, vamos dar procedimento a ele.
O valor esperado para uma variável aleatória bidimensional discreta, representado
𝐸(𝑋, 𝑌) consiste no somatório do produto do valor de 𝑋𝑖 com o valor de 𝑌𝑗 e com a probabilidade
conjunta P(𝑋𝑖 , 𝑌𝑗 ). Assim, podemos representar:
𝑬(𝑿𝒀) = ∑ 𝑿𝒊 × 𝒀𝒋 × 𝑷(𝑿𝒊 ,𝒀𝒋)

Para demostrar essa aplicação, vamos abordar a construção do cálculo do valor esperado
para o exemplo em que as variáveis X e Y são independentes. As probabilidades conjuntas são:
Evento 𝒀𝒋
Evento
𝑿𝒊 0 1
1 1/12 2/12
2 1/12 2/12
3 1/12 2/12
4 1/12 2/12
O cálculo do valor esperado E(XY) pode ser procedido da seguinte forma:
Resultado do
Experimento 𝑿𝒊 × 𝒀𝒋 𝑷(𝑿𝒊 𝒀𝒋 ) 𝑿𝒊 × 𝒀𝒋 × 𝑷(𝑿𝒊 𝒀𝒋 )
𝑿𝒊 𝒀𝒋
1 0 0 1/12 0
1 1 1 2/12 2/12
2 0 0 1/12 0
2 1 2 2/12 4/12
3 0 0 1/12 0
3 1 3 2/12 6/12
4 0 0 1/12 0
4 1 4 2/12 8/12
Soma 1 𝑬(𝑿𝒀) = 𝟐𝟎/𝟏𝟐
MUDE SUA VIDA!

292
Assim, o valor esperado da variável bidimensional é:
𝟐𝟎 𝟓
𝑬(𝑿𝒀) = =
𝟏𝟐 𝟑
Com esse resultado podemos conferir uma propriedade interessante sobre o valor
esperado já discutida anteriormente em “Variáveis Aleatórias”. Quando a variável X e Y são
independentes, o valor esperado do produto das variáveis é igual o produto do valor esperado
de cada variável separadamente:
𝑺𝒆 𝑿 𝒆 𝒀 𝒔ã𝒐 𝒊𝒏𝒅𝒆𝒑𝒆𝒏𝒅𝒆𝒏𝒕𝒆𝒔, 𝒆𝒏𝒕ã𝒐 𝑬(𝑿𝒀) = 𝑬(𝑿) × 𝑬(𝒀)

Vale destacar que a recíproca não necessariamente é verdadeira!
Para conferir essa propriedade, vamos calcular o valor esperado de cada variável
aleatória. A variável X consiste nas categorias de investimento no projeto com ¼ de
probabilidade para cada uma das quatro categorias, assim:
𝟏 𝟏 𝟏 𝟏 𝟓
𝑬(𝑿) = 𝟏 × + 𝟐 × + 𝟑 × + 𝟒 = = 𝟐, 𝟓
𝟒 𝟒 𝟒 𝟒 𝟐
Observação: trata-se de uma distribuição de uniforme, portanto o valor esperado é igual
a média aritmética dos quatros valores.
Por outro lado, a variável Y consiste no resultado da aprovação do projeto, isto é, se ele
é indeferido (𝑌 = 0) ou deferido (𝑌 = 1), com probabilidade de 1/3 e 2/3 respectivamente.
Portanto:
𝟏 𝟐 𝟐
𝑬(𝒀) = 𝟎 × +𝟏× =
𝟑 𝟑 𝟑
Observação: trata-se de uma distribuição de Bernoulli, portanto valor esperado é igual a
probabilidade de sucesso.
Com esses resultados, podemos certificar a propriedade do valor esperado, veja:
𝟓 𝟐 𝟓
𝑬(𝑿) × 𝑬(𝒀) = × =
𝟐 𝟑 𝟑
𝟓
𝑬(𝑿𝒀) =
𝟑
Portanto, confirma-se a propriedade:
𝑬(𝑿𝒀) = 𝑬(𝑿) × 𝑬(𝒀)

No entanto, essa propriedade só ocorrerá se as variáveis X e Y forem independentes! No
exemplo seguinte, com dependência das variáveis X e Y, essa igualdade não seria estabelecida.
MUDE SUA VIDA!

293
VALOR ESPERADO CONDICIONAL E(X|Y)

Ao representar um único valor esperado para uma variável aleatória bidimensional
𝐸(𝑋, 𝑌), podemos obter um valor não muito coerente de média esperada, uma vez que ocorre o
produto das unidades de medida de X e Y. Devido essa razão, o valor esperado bidimensional
não tem muita credibilidade quanto a informação, porém é essencial para obter outras
informações, como a covariância.
Diante desse exposto, uma medida de média interessante é o valor de esperado
condicional, isto é, o valor esperado da variável X, dado que o evento Y ocorreu. Assim, temos
uma ideia de média relacionada a duas variáveis aleatórios. Portanto, representa-se por E(X|Y)
o valor esperado condicional de X, dado que Y ocorreu. Vamos abordar de forma prática,
baseado no exemplo em que as variáveis X e Y são dependentes:
Evento 𝒀𝒋
Evento
P(𝑿𝒊 )
𝑿𝒊 0 1
1 0 3/12 𝑃(𝑋=1) = 1/4
2 0 3/12 𝑃(𝑋=2) = 1/4
3 1/12 2/12 𝑃(𝑋=3) = 1/4
4 3/12 0 𝑃(𝑋=4) = 1/4
P(𝒀𝒋 ) 𝑃(𝑦=0) = 1/3 𝑃(𝑦=1) = 2/3 Soma = 1,0
Nesse exemplo, foi definido a distribuição de probabilidade condicional para a categoria

de investimento do projeto (X), dado que ele foi deferido (𝑌 = 1):
𝑿𝒊 1 2 3 4
𝑷(𝑿𝒊 |𝒀=𝟏) 𝟑/𝟖 𝟑/𝟖 𝟐/𝟖 𝟎
Com isso, pode ser calculado o valor esperado da categoria de investimento do projeto,
sabendo que ele foi deferido, representado pela simbologia 𝐸(𝑋|𝑌 = 1). O cálculo é
representado por:
𝑬(𝑿| 𝒀 = 𝟏) = ∑ 𝑿𝒊 × 𝑷(𝑿𝒊 |𝒀=𝟏)

Desse modo, tem-se:
𝟑 𝟑 𝟐 𝟏𝟓
𝑬(𝑿| 𝒀 = 𝟏) = 𝟏 × =𝟐× +𝟑× +𝟒×𝟎= = 𝟏, 𝟖𝟕𝟓
𝟖 𝟖 𝟖 𝟖
Então, sabendo que o projeto foi deferido (𝑌 = 1), pode ser interpretado que o valor
esperado após essa condição é 1,875, isto é, ao se repetir esse experimento aleatório sobre essa
condição, será obtido uma categoria de investimento entre A e B, predominantemente.
O valor esperado condicional pode ser calculado considerando que cada um dos
resultados de X ou Y ocorreu anteriormente. Nesse exemplo, poderia ser calculado os valores
esperados condicionais de X para cada resultado de Y:
𝑬(𝑿| 𝒀 = 𝟎) 𝑬(𝑿| 𝒀 = 𝟏)
MUDE SUA VIDA!
294
Como também, poderia ser calculado os valores esperados condicionais de Y para cada
resultado de X:
𝑬(𝒀| 𝑿 = 𝟏) 𝑬(𝒀| 𝑿 = 𝟐) 𝑬(𝒀| 𝑿 = 𝟑) 𝑬(𝒀| 𝑿 = 𝟒)

Os cálculos, os procedimentos e as interpretações seguem o mesmo raciocínio que
abordado para 𝐸(𝑋|𝑌 = 1), alterando apenas as informações correspondentes a cada um.
COVARIÂNCIA COV(X, Y)
Ao se falar de variáveis aleatórias bidimensionais, a medida de dispersão associada a esse
par de variáveis denomina-se Covariância. Enquanto o Desvio Padrão e a Variância são medidas
de dispersão usadas para uma única variável, a covariância é medida que mensura a dispersão
conjunta de duas características.
Assim, é aplicado o mesmo conceito do desvio em relação a média, só que agora é
analisado o produto do desvio de X em relação a sua média com o desvio de Y em relação a sua
média, somando cada produto do desvio associado par a par. Desse modo, calcula-se a variância
pela seguinte expressão:
̅ )(𝒀𝒊 − 𝒀
∑(𝑿𝒊 − 𝑿 ̅)
𝑪𝒐𝒗(𝑿, 𝒀) =
𝒏
Em que:
𝐶𝑜𝑣(𝑋, 𝑌): Covariância entre a variável X e Y;
(𝑋𝑖 − 𝑋̅): Desvios das observações de X em relação a sua média (𝑋̅);
(𝑌𝑖 − 𝑌̅): Desvios das observações de Y em relação a sua média (𝑌̅);
∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅): Somatório das multiplicações dos desvios de X e Y;
𝑛: Número de pares associados de observações X e Y.
Por essa fórmula, conseguimos identificar que a covariância é uma medida que quantifica
a variação conjunta de duas variáveis. Veja:
Além disso, outra observação muito importante é que o número de elementos (𝑛) consiste
no número de pares de informações 𝑋𝑖 , 𝑌𝑖 (par ordenado de todas as possíveis combinações
de X com Y). Se fosse analisar o exemplo sobre processo de avaliação de um projeto, analisando
apenas os valores que poderiam ocorrer, seria obtido o seguinte valor:
𝑿, 𝒀 = {(𝟏, 𝟎); (𝟏, 𝟏); (𝟐, 𝟎); (𝟐, 𝟏); (𝟑, 𝟎); (𝟑, 𝟏); (𝟒, 𝟎); (𝟒, 𝟏)}.
𝒏(𝑿,𝒀) = 𝟖 𝒑𝒂𝒓𝒆𝒔
MUDE SUA VIDA!

295
Esse é o cálculo da covariância para um conjunto de dados coletados. Mas, assim como a
variância pode ser calculada por um método alternativo, a covariância também possui outro
método de cálculo bem útil. Essa alternativa ocorre devido a seguinte igualdade:
A partir dessa expressão conseguimos obter a seguinte dedução para o cálculo da

variância:
(∑ 𝑿𝒊 ) (∑ 𝒀𝒊 )
∑ 𝑿𝒊 𝒀𝒊 −
𝑪𝒐𝒗(𝑿, 𝒀) = 𝒏
𝒏
∑ 𝑿𝒊 𝒀𝒊 (∑ 𝑿𝒊 ) (∑ 𝒀𝒊 )
𝑪𝒐𝒗(𝑿, 𝒀) = −
𝒏 𝒏𝟐
Com essa dedução, é obtido a seguinte expressão:

∑ 𝑋𝑖 𝑌𝑖
𝐶𝑜𝑣(𝑋, 𝑌) = − 𝑋̅ 𝑌̅
𝑛
Em outras definições, obtém-se a seguinte analogia “covariância é a média do produto XY
menos o produto da média de X e Y.”
No entanto, toda a representação de cálculo matemático acima trabalha com a ideia de

calcular a covariância para um conjunto de dados coletados. Isto é, a forma representada
demonstra como deve ser calculada a covariância como medida descritiva de dispersão
conjunta de duas variáveis. Veja que é utilizado a expressão tamanho da amostra (𝑛) e média
amostral (𝑋̅), conceitos que não são aplicados em variáveis aleatórias e sim para descrever um
conjunto de dados amostrais. Essas fórmulas serão muito aplicadas no capítulo de “Análise de
Regressão Linear”.
De forma correta, ao se falar em variáveis aleatórias bidimensionais, tem-se os possíveis
valores que o par de variáveis pode assumir, o valor esperado e a probabilidade conjunta de
cada par ocorrer. Assim, a covariância pode ser expressa por:
MUDE SUA VIDA!

296
𝑪𝒐𝒗(𝑿, 𝒀) = ∑[ 𝑿𝒊 − 𝑬(𝑿)][𝒀𝒋 − 𝑬(𝒀)]𝑷(𝑿𝒊,𝒀𝒋 )

Destarte, podemos afirmar que a covariância é produto dos desvios de X, em relação ao
seu valor esperado, com os desvios de Y, em relação ao seu valor esperado, junto a
probabilidade conjunta de cada par (𝑋, 𝑌).
Porém, além dessa definição, é muito mais fácil obter a covariância em variáveis aleatórias
bidimensionais a partir da fórmula alternativa. Com isso, a seguinte expressão é obtida:
𝑪𝒐𝒗(𝑿, 𝒀) = 𝑬(𝑿𝒀) − 𝑬(𝑿) × 𝑬(𝒀)

Adaptando a expressão anterior para a seguinte frase:
Esta última expressão é a mais utilizada para calcular a covariância, em adição, pode ser
aplicada tanto para variável bidimensional discreta como para contínua e mista.
Após toda essa definição matemática, vamos aplicar o cálculo da covariância no exemplo
sobre o processo de avaliação de um projeto administrativo. Veja:
𝑿𝒊 0 1
1 1/12 2/12
2 1/12 2/12
3 1/12 2/12
4 1/12 2/12
Para esse exemplo, em que categoria de investimento e aprovação do projeto ocorrem
independentemente já obtivemos as seguintes informações:
𝟓 𝟓 𝟐
𝑬(𝑿𝒀) = 𝑬(𝑿) = 𝑬(𝒀) =
𝟑 𝟐 𝟑
Ao aplicar o cálculo da covariância, obtém-se a seguinte conclusão:
𝟓 𝟓 𝟐
𝑪𝒐𝒗(𝑿, 𝒀) = − × =𝟎
𝟑 𝟐 𝟑
Nesse exemplo, obtém-se uma conclusão muito importante. Para variáveis aleatórias
independentes, o valor da covariância será sempre igual a zero. Isso porque não existe
dispersão associada entre variáveis ocorrem independentemente, isto é, não suas ocorrências
e variações não estão associadas. Matematicamente, já poderíamos chegar nessa conclusão,
uma vez que para variáveis aleatórias independentes temos que:
𝑬(𝑿𝒀) = 𝑬(𝑿) × 𝑬(𝒀)

Logo:
𝑪𝒐𝒗(𝑿, 𝒀) = 𝑬(𝑿𝒀) − 𝑬(𝑿) × 𝑬(𝒀) = 𝟎
MUDE SUA VIDA!

297
No entanto, a recíproca não necessariamente é verdadeira, isto é, o fato da covariância ser

zero [𝐶𝑜𝑣(𝑋, 𝑌)] não implica que X e Y são independentes!
𝑆𝑒 𝑋 𝑒 𝑌 𝑠ã𝑜 𝑖𝑛𝑑𝑒𝑝𝑒𝑛𝑑𝑒𝑛𝑡𝑒𝑠, 𝑒𝑛𝑡ã𝑜 𝑎 𝐶𝑜𝑣(𝑋, 𝑌) = 0

Agora vamos aplicar o mesmo procedimento para o exemplo em que a categoria de
investimento e a aprovação do projeto possuem uma relação de dependência (uma interfere na
outra):
𝑿𝒊 0 1 P(𝑿𝒊 )
1 0 3/12 𝑃(𝑋=1) = 1/4

2 0 3/12 𝑃(𝑋=2) = 1/4
3 1/12 2/12 𝑃(𝑋=3) = 1/4
4 3/12 0 𝑃(𝑋=4) = 1/4
P(𝒀𝒋 ) 𝑃(𝑦=0) = 1/3 𝑃(𝑦=1) = 2/3 Soma = 1,0
Inicialmente, precisa ser calculado o valor esperado do produto XY e de cada variável

separadamente. Desse modo:
Resultado do
Experimento 𝑿𝒊 × 𝒀𝒋 𝑷(𝑿𝒊 𝒀𝒋 ) 𝑿𝒊 × 𝒀𝒋 × 𝑷(𝑿𝒊 𝒀𝒋 )
𝑿𝒊 𝒀𝒋
1 0 0 0 0
1 1 1 3/12 3/12
2 0 0 0 0
2 1 2 3/12 6/12
3 0 0 1/12 0
3 1 3 2/12 6/12
4 0 0 3/12 0
4 1 4 0 0
Soma 1 𝑬(𝑿𝒀) = 𝟏𝟓/𝟏𝟐
Logo, o valor esperado do produto XY é:
𝟏𝟓 𝟓
𝑬(𝑿𝒀) = =
𝟏𝟐 𝟒
O valor esperado para X e Y permanecem os mesmos:
𝟓 𝟐
𝑬(𝑿) = 𝑬(𝒀) =
𝟐 𝟑
Por fim, a covariância apresenta o seguinte valor:
𝟓 𝟓 𝟐 𝟓
𝑪𝒐𝒗(𝑿, 𝒀) = − × =− = −𝟎, 𝟒𝟐
𝟒 𝟐 𝟑 𝟏𝟐
MUDE SUA VIDA!
298
Quando houver uma relação de dependência entre as variáveis X e Y possivelmente a

covariância apresentará um valor diferente de zero. Observe que, diferente da variância que
sempre é um valor positivo, a covariância pode ser negativa, conforme observado nesse
exemplo. Com isso, precisamos interpretar os possíveis resultados da covariância.
A covariância é uma maneira de verificar se duas variáveis estão associadas, pois ela
quantifica se variam conjuntamente. Ou seja, ela quantifica se as mudanças em uma variável
correspondem a mudanças similares na outra variável. Quando uma variável se desvia da sua
média, espera-se que a outra variável associada desvie da sua média de maneira similar (ou de
maneira diretamente oposta).
Ao observar que a variância é o produto dos desvios de X e Y em relação suas respectivas
médias, temos as seguintes possibilidades:
➢ Se ambos os desvios são positivos ou negativos, isso resultará em um valor positivo
do produto dos desvios, consequentemente, os desvios ocorrem na mesma
direção;
➢ Se um desvio é positivo e o outro negativo, isso resultará em um valor negativo do
produto dos desvios, consequentemente, os desvios ocorrem em direções
opostas;
Com isso, podemos chegar as seguintes interpretações:
Outra informação importante sobre a covariância é que ela depende das unidades de
medida para fazer qualquer interpretação. Uma vez que ela é a média dos desvios associados
de X e Y, a unidade de medida da covariância corresponde ao produto da unidade de medida de
cada variável. Assim, se a variável X é medida em centímetros (cm) e a variável Y é medida em
horas (h), a covariância será medida em centímetros vezes horas (cm.h). Esse conhecimento é
interessante, pois com isso sabemos que não podemos inferir se um par de variáveis apresenta
uma covariância maior ou menor que outro par de variáveis com unidades de medida
diferentes.
Acerca da covariância, também é interessante compreender suas propriedades.
Propriedade I. A covariância não é influenciada por transformações de soma/subtração:
𝑪𝒐𝒗(𝑿 ± 𝒂, 𝒀 ± 𝒃) = 𝑪𝒐𝒗(𝑿, 𝒀)
Isso quer dizer que se a variável X ou Y forem modificadas por uma soma/subtração
uniforme (por uma constante 𝑎 ou 𝑏), os desvios em relação a média permanecem os mesmos,
assim a covariância não muda.
MUDE SUA VIDA!

299
Propriedade II. A covariância é influenciada por transformações de

multiplicação/divisão na mesma proporção que o par de variável foi modificada:
𝑪𝒐𝒗(𝑿. 𝒂, 𝒀. 𝒃) = 𝒂. 𝒃. 𝑪𝒐𝒗(𝑿, 𝒀)
Os desvios da média são alterados na mesma proporção que multiplicação/divisão da
constante 𝑎 e 𝑏. Logo, a covariância é modificada na mesma escala.
Propriedade III. A covariância de duas variáveis idênticas corresponde a própria
variância dessa variável:
𝑪𝒐𝒗(𝑿, 𝑿) = 𝑽𝒂𝒓(𝑿)
Os desvios de duas variáveis idênticas são a mesma coisa que os desvios ao quadrado de
uma variável, em outras palavras, é o conceito da própria variância.
Propriedade IV. A ordem das variáveis no cálculo não modifica a covariância:
𝑪𝒐𝒗(𝑿, 𝒀) = 𝑪𝒐𝒗(𝒀, 𝑿)
Isso porque os produtos dos desvios associados permanecem os mesmos.
Propriedade V. A variância da soma/subtração de duas variáveis aleatórias quaisquer é
obtida em função do efeito da covariância:
𝑽𝒂𝒓(𝑿 + 𝒀) = 𝑽𝒂𝒓(𝑿) + 𝑽𝒂𝒓(𝒀) + 𝟐𝑪𝒐𝒗(𝒀, 𝑿)

𝑽𝒂𝒓(𝑿 − 𝒀) = 𝑽𝒂𝒓(𝑿) + 𝑽𝒂𝒓(𝒀) − 𝟐𝑪𝒐𝒗(𝒀, 𝑿)
Essa propriedade já foi apresentada na explicação sobre a variância. Agora com
conhecimento da covariância fica mais bem esclarecido esse efeito na soma das variáveis, uma
vez que a covariância representa o efeito associado da dispersão de X e Y.
Se X e Y são independentes, a covariância é zero [𝐶𝑜𝑣(𝑋, 𝑌)], logo:
𝑽𝒂𝒓(𝑿 ± 𝒀) = 𝑽𝒂𝒓(𝑿) + 𝑽𝒂𝒓(𝒀)

Isso explica por que não há efeito da covariância nas variáveis independentes, pois a
covariância é nula. Outra observação importante é que as variâncias serão somadas
independente de soma ou subtração na transformação de variáveis.

1. (CS-UFG – Câmara de Goiânia – Assessor Técnico – 2018) O quadro a seguir
representa a distribuição de probabilidade de duas variáveis aleatórias X e Y.
A partir dessa distribuição, qual é a probabilidade condicional de X=2 dado que Y=1 ?
a) 1/8
b) 1/4
c) 3/8
d) 1/2
MUDE SUA VIDA!

300
GARABITO: D.
A questão apresenta a probabilidade conjunta de duas variáveis aleatórias X e
Y. Ao questionar a probabilidade condicional de X assumir o valor 2, dado que Y foi
igual a 1, temos a seguinte notação:
𝑷(𝑿=2 𝒆 𝒀=𝟏)
𝑷(𝑿=2| 𝒀=𝟏) =
𝑷(𝒀=𝟏)
Sendo que, já sabemos a probabilidade conjunto (a interseção) de X=2 e
Y=1.Basta olhar o cruzamento dessas duas informações na tabela:
Logo, 𝑷(𝑿 = 𝟐 𝒆 𝒀 = 𝟏) = 𝟐/𝟖.

Como também, podemos identificar a probabilidade de Y=1, obtendo a
probabilidade marginal, isto é, somando toma a linha que corresponde a Y igual a 1:
𝟏 𝟐 𝟏 𝟒 𝟏
𝑷(𝒀=𝟏) = + + = =
𝟖 𝟖 𝟖 𝟖 𝟐
Por fim, a probabilidade condicional solicitada é igual a:
2/8 1
𝑷(𝑿=2| 𝒀=𝟏) = =
1/2 2
2. (FADESP – UEPA – Técnico de Nível Superior – 2020) Considere o quadro abaixo,

representando a distribuição conjunta de X e Y.
Considere as seguintes afirmações:

I. X e Y são independentes;
II. P(X =1 ou Y=2)=0,14;
III. E(X)=1,9 e E(Y)=2,3.
MUDE SUA VIDA!

301
Pode-se afirmar que
a) somente I está correta.

b) I e II estão corretas.
c) I e III estão corretas.
d) Todas as afirmações estão corretas.
GARABITO: C.
A afirmativa I está correta, pois se multiplicamos as probabilidades marginais
da variável X e Y, obtemos a probabilidade conjunta correspondente. E isso ocorre
para todos os pontos. Logo, as variáveis X e Y são independentes.
Por exemplo, a probabilidade conjunta de P(X=1 e Y=1) pode ser obtida
multiplicando a probabilidade marginal de P(X=1) e P(Y=1), com isso, temos que:
𝑷(𝑿 = 𝟏 𝒆 𝒀 = 𝟏) = 𝐏(𝐗 = 𝟏) × 𝐏(𝐘 = 𝟏)
Na tabela, podemos representar o seguinte produto:
Esse mesmo raciocínio se aplica a o todas as probabilidades conjuntas.

Portanto, X e Y são realmente independentes.
Referente a afirmativa II, basta aplicar o raciocínio da união de eventos
probabilísticos. Assim temos que a união de P(X=1 ou Y=2):
𝐏(𝐗 = 𝟏 𝐨𝐮 𝐘 = 𝟐) = 𝐏(𝐗 = 𝟏) + 𝐏(𝐘 = 𝟐) − 𝐏(𝐗 = 𝟏 𝐞 𝐘 = 𝟐)
Como já temos as informações pela tabela, o cálculo fica da seguinte forma:
𝐏(𝐗 = 𝟏 𝐨𝐮 𝐘 = 𝟐) = 𝟎, 𝟒 + 𝟎, 𝟑 − 𝟎, 𝟏𝟐 = 0,58
Portanto, o item II está errado.
Para afirmativa III, basta calcular o valor esperado das duas variáveis, isto é,
o somatório do produto do valor com sua respectiva probabilidade marginal:
𝑬(𝑿) = 𝟏 × 𝟎, 𝟒 + 𝟐 × 𝟎, 𝟑 + 𝟑 × 𝟎, 𝟑 = 𝟏, 𝟗
𝑬(𝒀) = 𝟏 × 𝟎, 𝟐 + 𝟐 × 𝟎, 𝟑 + 𝟑 × 𝟎, 𝟓 = 𝟐, 𝟑
Logo, o item III está correto.
Assim temos, temos as afirmativas I e III corretas, assim resposta é a letra C.
MUDE SUA VIDA!

302
ANÁLISE DE REGRESSÃO LINEAR

A análise de regressão linear estuda a relação entre as variáveis, isto é, entre as
características observadas. Nesse capítulo, estaremos muito mais focados em analisar o efeito
que uma característica causa na outra. Até o capítulo de Estatística Inferencial, as análises
estavam preocupadas em obter inferências sobre uma variável quanto a população de estudo.
As medidas estatísticas como a média, a moda, a mediana, a variância, bem como os teste de
hipóteses geravam informações a respeito de somente uma variável. A partir de agora, a análise
de regressão linear desenvolverá medidas descritivas sobre duas ou mais variáveis, além de
efetuar inferências sobre essa relação.
Quando duas variáveis X e Y não são independentes, existe alguma contribuição na
variação de X que modifica a variável Y, isto é, as alterações sofridas em X são acompanhadas
por alterações sofridas em Y. Para quantificar e compreender esse efeito é necessário um
estudo sobre a relação entre essas variáveis. Parar estudar o efeito entre as variáveis X e Y
quaisquer, algumas medidas descritivas são essenciais, como a covariância Cov(X, Y) e o
coeficiente de correlação (r). Além dessas medidas, pode ser ajustado uma regressão linear
(uma reta) que tenta explicar o comportamento entre duas variáveis X e Y, a partir de um
modelo de equação de 1º grau.
Somente pelo conhecimento empírico, já se consegue imaginar o efeito entre
características de interesse. De modo geral, temos variáveis que se interagem de forma
diretamente proporcional e outras que interagem inversamente. Veja, as relações entre:
Horas de Trabalho x Remuneração
Tráficos de Drogas x Registro de Homicídios
Segurança Pública x Índice Populacional
Ao analisar esses pares de variáveis, consegue-se imaginar uma relação entre elas, de
modo que ao aumentar uma variável a outra também terá um acréscimo positivo. Em
contrapartida, ao analisar:
Nível de Escolaridade x Índice de Violência
Corrupção do Poder Público x Credibilidade na Política
Saúde Pública x Índice de Enfermidade
As relações entre as variáveis sugerem uma contribuição inversa, a ocorrência de uma
reduz o a ocorrência da outra. Isso tudo, apenas é um senso comum sobre as variáveis, no
entanto, a Estatística não trabalha com o empírico. Desse modo, é preciso compreender e
quantificar essa relação.
Com base nessa ideia, importantes informações podem ser obtidas ao estudar duas
variáveis conjuntamente, como, por exemplo: a existência de uma contribuição entre uma
variável e outra; como se comporta ou qual é a forma dessa relação; qual é o grau de associação
(magnitude) ou força entre essas variáveis; o quanto é possível explicar essa relação em um
modelo de regressão linear; e quanto dessa relação não pode ser explicada por um modelo de
regressão linear; etc. Todas essas informações são a essência de uma análise de regressão
linear.
MUDE SUA VIDA!

303
CORRELAÇÃO LINEAR (r)

O coeficiente de correlação linear (𝑟) é uma medida que descreve o grau de associação
linear entre duas variáveis em estudo. A partir desse coeficiente, podemos detectar se existe
uma associação entre variáveis e quantificar qual é a magnitude dessa associação. Assim, por
meio da correlação linear podemos obter se há uma força (fenômeno) unindo as duas variáveis
e como uma se comporta em relação à outra.
Em outras definições, o termo correlação significa relação em dois sentidos (co + relação),
e é usado na Estatística para designar a força que mantém unidos dois conjuntos de valores
(duas variáveis). A verificação da existência dessa força e do grau de associação entre as
variáveis são as informações essenciais obtidas pela correlação.
O cálculo da correlação linear entre uma variável X e Y é efetuado da seguinte forma:
𝑪𝒐𝒗(𝑿, 𝒀)
𝒓(𝑿,𝒀) =
𝒔𝑿 × 𝒔𝒀
Em que:
𝑟(𝑋,𝑌) : Coeficiente de correlação linear amostral entre X e Y;
𝐶𝑜𝑣(𝑋, 𝑌): Covariância amostral entre a variável X e Y;
𝑠𝑋 : Desvio padrão amostral da variável X;
𝑠𝑌 : Desvio padrão amostral da variável Y.
Existe também a correlação linear como parâmetro populacional, simbolizada por 𝜌(𝑋,𝑌) .
Basicamente, é utilizado quando possui dados de toda a população e no seu cálculo é utilizado
os parâmetros populacionais (divisão por 𝑛). No entanto, devido à dificuldade de obter dados
populacionais de duas variáveis, quase sempre se trabalha com amostras.
𝑪𝑶𝑽(𝑿, 𝒀)
𝝆(𝑿,𝒀) =
𝝈𝑿 × 𝝈𝒀
Em que:
𝜌(𝑋,𝑌) : Coeficiente de correlação linear populacional entre X e Y;
𝐶𝑂𝑉(𝑋, 𝑌): Covariância populacional entre a variável X e Y;
𝜎𝑋 : Desvio padrão populacional da variável X;
𝜎𝑌 : Desvio padrão populacional da variável Y.
INTERPRETAÇÃO DOS VALORES DA CORRELAÇÃO

A correlação linear é obtida pelo pela divisão da covariância de (X, Y) com o produto dos
desvios de X e Y. Essa metodologia de cálculo define especificamente o coeficiente de correlação
linear de Pearson (𝑟), é de longe a metodologia mais cobrada em prova!
A covariância é uma informação sobre a associação linear entre duas variáveis, no
entanto, ela depende da unidade de medida e suas inferências são limitadas. Para superar esse
problema, a covariância precisa ser convertida em um conjunto padrão de unidades
(padronização). Assim, ao dividir a covariância pelo desvio padrão de X e Y, as unidades de
medida se cortam e temos uma covariância padronizada, isto é, uma medida adimensional que
pode fazer comparações sobre a associação de variáveis de qualquer outro fenômeno. Este é o
coeficiente de correlação linear, uma informação mais independente que a covariância para
estudar a relação entre variáveis.
O resultado do cálculo do coeficiente de correlação sempre estará compreendido entre -1
ate +1. Então nunca se terá valores maior do que +1 ou menor do que -1. O resultado de
correlação linear igual a zero indica que não há uma correlação linear entre as variáveis
MUDE SUA VIDA!

304
(cuidado! Dizer que não há correlação linear, não exclui o fato de existir correlações de outra
natureza, como quadrática, cúbica, exponencial etc.).
À medida que o resultado da correlação linear vai se afastando do zero, em direção aos
extremos (-1 ou +1), aumenta-se a intensidade da força que une essas duas variáveis! Quando
o resultado da fórmula é igual a – 1 ou a +1, então se diz que a correlação é máxima. Ou seja, é
máxima a força que une as duas variáveis. Dessa maneira, correlação linear igual a +1 é dita
correlação perfeita positiva, enquanto correlação linear igual a –1 denomina-se correlação
perfeita negativa.
Com o valor do coeficiente de correlação verifica-se se existe uma força que une as duas
variáveis. Além disso, é interessante compreender o comportamento dessa força. Isso pode ser
verificado pelo sinal do coeficiente. O valor do sinal da correlação é determinado pelo a
covariância (única que pode gerar valores negativos). Desse modo, a interpretação do sinal
segue a mesma ideia do que observado na covariância: valores positivos indica uma variação
entre as variáveis na mesma direção; valores negativos indicam variação entre as variáveis em
direções opostas.
Se o resultado da correlação linear der um valor maior que zero (positivo), teremos que
as variáveis se comportam em um mesmo sentido de variação, ou seja, aumentando-se o valor
de uma, aumenta também a outra, e diminuindo-se uma, diminui também a outra. É claro que
isso será mais perceptível quando a correlação tiver valor próximo de +1.
Se o resultado da correlação linear for menor que zero (negativo), as variáveis se
comportarão em sentidos inversos, ou seja, aumentando-se o valor de uma, será reduzido o
valor da outra; e vice-versa. Isso será mais perceptível quando a correlação tiver valor próximo
de –1.
Uma forma eficiente de averiguar a possibilidade de correlação entre duas variáveis é por
meio do gráfico de dispersão ou de correlação (apresentado no tópico de “Gráfico” em
Estatística Descritiva). Vamos construir esse gráfico a partir de um exemplo e associar aos
conceitos abordados.
MUDE SUA VIDA!

305
OBJETO DE ESTUDO:
Uma investigação policial tem o objetivo de estudar a correlação entre tráfico
de armas ilegais, em mil kg de armas apreendidas, com o tráfico de drogas (X), em
mil kg de drogas apreendidas (Y), na capital de São Paulo. Para esse estudo, foram
coletados dados de cinco regiões da capital.
Segue as informações:
Tráfico de Armas (X) 5 7 9 8 12
Tráfico de Drogas (Y) 1 3 4 5 8
Ao trabalhar com conjunto de dados pareados, é interessante identificar que cada amostra
consiste em um par de informações das variáveis analisadas, vamos representar o tamanho
dessa amostra por 𝑛(𝑥,𝑦) .
Assim, outra forma de apresentação de dados é:
𝒏(𝑿,𝒀) = {(𝟓, 𝟏); (𝟕, 𝟑); (𝟗, 𝟒); (𝟖, 𝟓); (𝟏𝟐, 𝟖)}
Unindo todos os pares associados por um ponto em um plano cartesiano, temos o gráfico
de dispersão com a seguinte forma:
Ao observar o gráfico de dispersão, é possível identificar uma tendência de correlação, de

modo que o aumento do tráfico de armas contribui para aumentar o tráfico de drogas. Pelo
menos é o que se espera pela análise gráfica. Além disso, veja que a ideia de correlação linear
evidencia a possibilidade de traçar uma reta sobre comportamento. É fácil perceber que é
impossível unir os pontos em uma reta perfeita, todavia estes pontos estão dispostos em torno
de uma reta, que não necessariamente passa por todos os pontos. Entenda:
MUDE SUA VIDA!

306
Portanto, é possível forma uma reta entre os pontos, no sentido crescente. Isso evidencia
uma correlação linear positiva, porém não perfeita pois a reta não passa perfeitamente por
todos os pontos. Assim, temos uma força parcial positiva entre as duas variáveis de modo que
se comportam para mesma direção, obtendo um coeficiente de correlação linear positivo (0 <
𝑟 < 1).
Vamos trabalhar esse mesmo raciocínio com outro exemplo.
OBJETO DE ESTUDO:
Um grupo de médicos analisa a correlação do tempo necessário para o efeito
do medicamento no paciente (X), em minutos, em relação à dosagem aplicada do
medicamento (Y), em mg/kg.
Seguem os dados coletados:

Tempo de Efeito (X) 30 24 15 18 8
Dose do Medicamento (Y) 3 4 6 7 9
Temos os seguintes pares de informação:
𝒏(𝑿,𝒀) = {(𝟑𝟎, 𝟑); (𝟐𝟒, 𝟒); (𝟏𝟓, 𝟔); (𝟏𝟖, 𝟕); (𝟖, 𝟗)}
O gráfico de dispersão para esse estudo evidencia a seguinte informação:
Agora nesse estudo, é possível verificar uma tendência inversa no comportamento entre
duas variáveis. Ou seja, com aumento da dosagem do medicamente o tempo para o efeito no
paciente é reduzido. Da mesma forma que no exemplo anterior, é possível traçar uma reta não
perfeito entre os pontos:
MUDE SUA VIDA!

307
Nesse estudo, é possível forma uma reta entre os pontos, no sentido decrescente. Isso
evidencia uma correlação linear negativa, porém não perfeita pois a reta não passa exatamente
por todos os pontos. Assim, temos uma força parcial negativa entre as duas variáveis de modo
que se comportam para direções oposta, obtendo um coeficiente de correlação linear negativo
(−1 < 𝑟 < 0).
Outra possibilidade, ao avaliar a associação entre duas variáveis, é não encontrar uma
correlação linear entre eles de modo que elas possam ocorrer independentemente ou
apresentaram outro tipo de correlação. Nessa situação, pode ser ter a seguinte gráfica:
Variável Y
Variável X
Nessa situação, não é possível afirmar que existe uma correlação linear entre as variáveis
de modo que os pontos se associam aleatoriamente sem haver uma força que contribui para
influenciar os valores das variáveis. Nessa hipótese, teremos uma correlação linear nula (𝑟 =
0).
Com isso, obtém-se todas formas de interpretação do coeficiente de correlação é as
possíveis formas de detectar o fenômeno de associação entre variáveis com o valor obtido. Em
síntese a tudo abordado, tem-se:
MUDE SUA VIDA!

308
CÁLCULO DA CORRELAÇÃO
Então, agora vamos analisar como proceder matematicamente para calcular o coeficiente
de correlação da forma mais eficiente possível, de acordo com as informações obtidas na
questão. Para calcular a correlação linear, precisamos obter a covariância (X,Y) e os desvios
padrões de X e Y. Vale lembrar que nesse momento temos dados amostrais, então o melhor
estimador não viesado divide por 𝑛 − 1.
➢ Covariância (X, Y):
̅ )(𝒀𝒊 − 𝒀
∑(𝑿𝒊 − 𝑿 ̅)
𝑪𝒐𝒗(𝑿, 𝒀) =
𝒏−𝟏
➢ Desvio Padrão de X:
̅ )𝟐
∑(𝑿𝒊 − 𝑿
𝒔𝑿 = √𝒔𝟐𝑿 𝒔𝟐𝑿 =
𝒏−𝟏
Logo:
̅ )𝟐
∑(𝑿𝒊 − 𝑿
𝒔𝑿 = √
𝒏−𝟏
➢ Desvio Padrão de Y:
∑( 𝒀𝒊 − ̅ )𝟐
𝒀
𝒔𝒀 = √𝒔𝟐𝒀 𝒔𝟐𝒀 =
𝒏−𝟏
Logo:
̅ )𝟐
∑(𝒀𝒊 − 𝒀
𝒔𝒀 = √
𝒏−𝟏
Conforme o aprendizado adquirido durante todo estudo de Estatística, esses são os
procedimentos matemáticos apropriados para obter essas medidas descritivas de dispersão.
No entanto, podemos facilitar bastante o cálculo ao analisar a fórmula da correlação, como
também aplicar o cálculo alternativo dessas medidas. Veja:
𝒓(𝑿,𝒀) =
𝒔𝑿 × 𝒔𝒀
MUDE SUA VIDA!

309
Substituindo as informações pela fórmula temos que:
∑(𝑿𝒊 − 𝑿̅ )(𝒀𝒊 − 𝒀
̅)
𝒓(𝑿,𝒀) = 𝒏−𝟏
̅ 𝟐 ̅ 𝟐
√∑(𝑿𝒊 − 𝑿) × √∑(𝒀𝒊 − 𝒀)
𝒏−𝟏 𝒏−𝟏
Ao analisar a fórmula dessa maneira, a primeira informação importante que podemos
extrair é que 𝑛 − 1 da covariância pode ser cortado com o 𝑛 − 1 dos desvios padrões de X e Y
que estão dentro da raiz se multiplicando!
Com isso, temos uma nova expressão para calcular o coeficiente de correlação:
̅ )(𝒀𝒊 − 𝒀
∑(𝑿𝒊 − 𝑿 ̅)
𝒓(𝑿,𝒀) =
̅ )𝟐 × √∑(𝒀𝒊 − 𝒀
√∑(𝑿𝒊 − 𝑿 ̅ )𝟐
Assim, podemos obter a correlação apenas com o somatório dos desvios do produto (X,Y)
e dos desvios ao quadrado de X e Y, extraindo a raiz quadrada destes para voltar a mesma
unidade de medida do fenômeno em estudo.
Além disso, se aplicarmos aquelas igualdades referentes aos desvios tratadas no tópico da
“Variância” e “Covariância”, será obtido a soma dos produtos de X e Y, com também a soma dos
quadrados de X e de Y. Com isso, pode-se obter uma nova expressão para calcular a correlação
linear. Veja detalhadamente:
➢ Soma dos Produtos de X e Y (𝑺𝑿𝒀 ) ou Co-variação de (X,Y)
(∑ 𝑿𝒊 ) (∑ 𝒀𝒊 )
𝑺𝑿𝒀 ̅ )(𝒀𝒊 − 𝒀
= ∑(𝑿𝒊 − 𝑿 ̅ ) = ∑ 𝑿𝒊 𝒀𝒊 −
𝒏
➢ Soma dos Quadrados de X (𝑺𝑿𝑿 ) ou Variação de X:
𝟐
(∑ 𝑿𝒊 )
𝑺𝑿𝑿 ̅ 𝟐 𝟐
= ∑(𝑿𝒊 − 𝑿) = ∑ 𝑿𝒊 −
𝒏
➢ Soma dos Quadrados de Y (𝑺𝒀𝒀 ) ou Variação de Y:
𝟐
(∑ 𝒀𝒊 )
𝑺𝒀𝒀 ( ̅ ) 𝟐 𝟐
= ∑ 𝒀𝒊 − 𝒀 = ∑ 𝒀𝒊 −
𝒏
MUDE SUA VIDA!

310
Por fim, o coeficiente de correlação (𝑟) pode também ser calculado por:
(∑ 𝑿𝒊 ) (∑ 𝒀𝒊 )
∑ 𝑿𝒊 𝒀𝒊 −
𝒓(𝑿,𝒀) = 𝒏
𝟐 𝟐
√∑ 𝑿𝟐 − (∑ 𝑿 𝒊 ) √∑ 𝒀𝟐 − ( ∑ 𝒀 𝒊 )
𝒊 𝒏 × 𝒊 𝒏
Que pode ser expresso de forma resumida por:
𝑺𝑿𝒀
𝒓(𝑿,𝒀) =
√𝑺𝑿𝑿 × √𝑺𝒀𝒀
Essa expressão matemática, de modo geral é mais prática e usada para calcular um
coeficiente de correlação. O aluno pode achar muito difícil memorizar essa fórmula, porém se
cada compartimento (covariância e desvio padrão) for analisado separadamente, associando
com as fórmulas alternativas, a fórmula da correlação pode ser construída encaixando os
conhecimentos. Contudo, de modo geral, as provas não costumam pedir o coeficiente de
correlação por essa fórmula conceitual e construtiva. Muitas vezes, o cálculo da correlação é
cobrado por outras deduções mais simples de informações que veremos em seguida. De
qualquer forma, o aluno precisa entender toda a definição conceitual da correlação linear,
sendo esse conhecimento necessário.
Com todas essas informações, a escolha em calcular a correlação, utilizando os desvios em
relação à média ou o somatório de X e Y, dependerá das informações na questão. Às vezes, a
covariância e os desvios podem ser fornecidos e cálculo será bem mais simples.
Observação: baseado nas fórmulas apresentadas, podemos uma associação
simples e bem útil entre a covariância e a variância em prol de memorizar as
fórmulas. Veja que a variância de uma variável X é a mesma coisa que a covariância
(X, X).
Veja:
𝟐
𝟐
(∑ 𝑿 𝒊 ) (∑𝑿𝒊 ) (∑ 𝑿𝒊 )
∑ 𝑿𝒊 − = ∑ 𝑿𝒊 𝑿𝒊 −
𝒏 𝒏
Observa-se que o desenvolvimento acima resultou em duas parcelas, nas quais só aparece
a variável X. Assim, o que muda da fórmula da variância para a covariância é que trabalhamos
com duas variáveis diferentes. Portanto, temos duas variáveis X e Y, e não apenas X. O segundo
X de cada parcela é substituído. Veja:
MUDE SUA VIDA!

311
Vamos praticar esse cálculo da forma mais comum cobrada e compreender sua
interpretação a partir de um novo exemplo.
OBJETO DE ESTUDO:
Uma investigação sobre trotes de denúncia nas delegacias estuda a correlação
entre número de crimes que ocorrem na cidade (X) com o número de denúncias
registradas na delegacia dessa cidade (Y). Para esse estudo, foram coletados os
registros de 5 semanas.
Segue os dados coletados:

Nº de Crimes (X) 2 5 8 10 10
Nº de Denúncias (Y) 1 2 3 4 5
Para efetuar o cálculo, devemos completar os seguintes somatórios:
𝑿 𝒀 𝑿𝟐 𝒀𝟐 𝑿𝒀
2 1 4 1 2
5 2 25 4 10
8 3 64 9 24
10 4 100 16 40
10 5 100 25 50
∑ 𝑿 = 𝟑𝟓 ∑ 𝒀 = 𝟏𝟓
𝟐 𝟐
∑ 𝑿𝟐 = 𝟐𝟗𝟑 ∑ 𝒀𝟐 = 𝟓𝟓 ∑ 𝑿𝒀 = 𝟏𝟐𝟔
(∑ 𝑿) = 𝟏𝟐𝟐𝟓 (∑ 𝒀) = 𝟐𝟐𝟓
Por fim a correlação linear é a seguinte:

𝟑𝟓 × 𝟏𝟓
𝟏𝟐𝟔 −
𝒓(𝑿,𝒀) = 𝟓
√𝟐𝟗𝟑 − 𝟏𝟐𝟐𝟓 × √𝟓𝟓 − 𝟐𝟐𝟓
𝟓 𝟓
𝟏𝟐𝟔 − 𝟏𝟎𝟓
𝒓(𝑿,𝒀) =
√𝟐𝟗𝟑 − 𝟐𝟒𝟓 × √𝟓𝟓 − 𝟒𝟓
𝟐𝟏 𝟐𝟏
𝒓(𝑿,𝒀) = = = 𝟎, 𝟗𝟏
√𝟒𝟖 × √𝟏𝟎 𝟐𝟏, 𝟗
𝒓(𝑿,𝒀) = 𝟎, 𝟗𝟏 = 𝟗𝟏%
MUDE SUA VIDA!

312
Desse modo, temos uma correlação linear de 0,91, isto é, a força que une o comportamento
dessas variáveis é na faixa de 91%, de modo que variam para mesma direção. Assim, conforme
o número de denúncias registradas na delegacia, há um aumento de crimes que ocorre pela
cidade com correlação linear de 91%.
Sobretudo, é interessante compreender que correlação não é o mesmo que causa e efeito.
Duas variáveis podem estar altamente correlacionadas e, no entanto, não haver relação de
causa e efeito entre elas, podendo existir, por exemplo, uma outra variável que provoque a
variação nessas duas variáveis. O importante é compreender que a correlação indica que existe
algum fenômeno de interação que explica essas variações, que pode ser uma relação de causa e
efeito ou outro fator mais complexo interagindo sobre elas.
Em outras palavras, a correlação não implica que um causa o outro. Podemos dizer que
duas variáveis X e Y estão correlacionadas, mas não que X causa Y ou que Y causa X – as variáveis
simplesmente estão relacionadas ou associadas uma com a outra.
PROPRIEDADES DA CORRELAÇÃO
Para finalizar o conhecimento sobre a medida de correlação linear, precisamos
compreender o que ocorre com esse coeficiente se houver uma transformação uniforme nas
variáveis analisadas. De forma bem suscinta, a correlação não é afetada por operações de
soma/subtração, também não é afetada por operações de multiplicação/divisão por uma
constante positiva. Contudo, se umas das variáveis for multiplicada/divida por uma
constante negativa o sinal da correlação é modificado. Essa forma de uma transformação de
dados alterar a correlação entre duas variáveis. Segue as principais notações sobre as
propriedades da correlação:
Propriedade I. A correlação de X e Y é igual a correlação de Y com X:
𝒓(𝑿,𝒀) = 𝒓(𝒀,𝑿 )
Propriedade II. A correlação de duas variáveis idênticas é uma correlação perfeita:
𝒓(𝑿,𝑿) = 𝟏
Propriedade III. O efeito de soma/subtração por uma constante nas variáveis não afeta
a correlação:
𝒓(𝑿+𝒂,𝒀+𝒃) = 𝒓(𝑿,𝒀)
MUDE SUA VIDA!

313
Propriedade IV. O efeito de multiplicação/divisão por uma constante positiva nas

variáveis não afeta a correlação:
𝒓(𝒂𝑿,𝒃𝒀) = 𝒓(𝑿,𝒀)
Propriedade V. O efeito de multiplicação/divisão por uma constante negativa nas
variáveis afeta o sinal da correlação:
𝒓(−𝒂𝑿,𝒃𝒀) = −𝒓(𝑿,𝒀)
𝒓(𝒂𝑿,−𝒃𝒀) = −𝒓(𝑿,𝒀)
Contudo, se as duas variáveis sofrem efeito de uma constante negativa, a correlação
permanece com o mesmo valor:
𝒓(−𝒂𝑿,−𝒃𝒀) = 𝒓(𝑿,𝒀)
TESTE DE HIPÓTESES NA CORRELAÇÃO
A correlação entre duas variáveis é mensurada pelo coeficiente 𝑟, observando dados
amostrais, no entanto, pode ser detectado um valor expressivo de correlação devido a fatores
aleatórios e não necessariamente pela força que X e Y exercem uma na outra. Essa correlação
observada ao acaso, denomina-se correlação espúria. Para detectar se uma correlação foi
obtida devido a fatores aleatórios, é necessário efetuar um teste de hipótese no coeficiente de
correlação linear populacional (𝜌). Isto é, se a correlação observada na amostra corresponde a
um relacionamento entre X e Y de fato, ou se a variação é devida ao acaso. Basicamente o teste
de hipótese, verifica se 𝑟 é igual a zero ou significativamente diferente de zero.
O teste de hipótese aplicado é o teste 𝑡 com distribuição de probabilidade de t de Student

com 𝑛 − 2 graus de liberdade. Segue a mesma ideia apresentada no tópico “Teste de Hipóteses”,
em que se obtém um t tabelado a partir do nível de significância 𝛼; e um t calculado, nesse caso,
dado pela equação:
O erro padrão do coeficiente de correlação é a medida de dispersão (desvio padrão de 𝑟)

que quantifica a variabilidade da estimativa da força associada entre X e Y. Assim, ao estimar
um valor de 𝑟, a sua distribuição amostral apresenta uma variância na estimativa. A variância
da estimativa de 𝑟 é dada por:
MUDE SUA VIDA!

314
Logo, o erro padrão da estimativa da correlação linear (desvio padrão) é:
√𝟏 − 𝒓𝟐
𝒔𝒓 =
√𝒏 − 𝟐
O erro padrão da estimativa é obtido ao observar o comportamento da distribuição
amostral de 𝑟 em todas as amostragens possíveis de um determinado tamanho. É a mesma ideia
que foi apresentado no tópico “Distribuição Amostral” no capítulo “Estatística Inferencial”.
Mais à frente veremos que 𝑟 2 é o componente que explica a relação entre duas variáveis
X e Y (denominado de Coeficiente de Determinação). Com isso, o aluno conseguirá associar
que a expressão 1 − 𝑟 2 é tudo aquilo não é explicado pela associação entre X e Y. Além disso,
pode ser associado que o graus de liberdade é subtraído por 2, uma vez que se têm dois
conjuntos de dados (uma para X e outro para Y), esse raciocínio facilitará a compreensão do
aluno.
Por fim, ao calcular os valores 𝑡𝑡𝑎𝑏 e 𝑡𝐶𝑎𝑙 , o resultado do teste de hipóteses será decidido
pela posição do 𝑡𝐶𝑎𝑙 na distribuição de probabilidade de t de Student. O teste deve ser bilateral
uma vez que 𝑟 pode ser positivo ou negativo.
OBJETO DE ESTUDO:
Uma investigação sobre trotes de denúncia nas delegacias estuda a correlação
entre número de crimes que ocorrem na cidade (X) com o número de denúncias
registradas na delegacia dessa cidade (Y). Para esse estudo, foram coletados os
registros de 5 semanas.
Nº de Crimes (X) 2 5 8 10 10
Nº de Denúncias (Y) 1 2 3 4 5
Existe uma correlação Linear significativa a 5% de probabilidade de erro?
Existe cinco pares de amostras, logo:
𝑮𝑳 = 𝟓 − 𝟐 = 𝟑
MUDE SUA VIDA!

315
O valor de 𝑡𝑡𝑎𝑏 a 5% de probabilidade de erro (teste bilateral), para 3 graus de liberdade

é:
𝒕𝒕𝒂𝒃 = 𝟑, 𝟏𝟖
O valor de 𝑡𝑐𝑎𝑙 é:
𝒓(𝑿,𝒀) √𝟏 − 𝒓𝟐
𝒕𝒄𝒂𝒍 = 𝒔𝒓 =
𝒔𝒓 √𝒏 − 𝟐
√𝟏 − 𝟎, 𝟗𝟏𝟐 √𝟎, 𝟏𝟕
𝒔𝒓 = = = 𝟎, 𝟐𝟒
√𝟓 − 𝟐 √ 𝟑
𝟎, 𝟗𝟏
𝒕𝒄𝒂𝒍 = = 𝟑, 𝟕𝟖
𝟎, 𝟐𝟒
Por fim, ao analisar a distribuição t de Student, temos que:
A correlação de 0,91 detectada entre número de crimes com número de denúncias é

significativa, a 5% de probabilidade de erro.
MUDE SUA VIDA!

316
REGRESSÃO LINEAR
No estudo da correlação entre duas variáveis, foi verificado a existência de uma
dependência (força) entre elas e como se comportavam em relação as suas variações. Uma vez
caracterizado este efeito de correlação, procura-se descrever o comportamento de duas
variáveis associadas, por meio de uma função matemática (uma equação de 1º grau). A
estimação dos parâmetros dessa função matemática é o principal objetivo da regressão linear.
Assim, aquela reta (tendência de comportamento linear) visualizada sob o gráfico de dispersão
deve ser analisada e representada a partir de uma equação matemática.
No último exemplo do tópico de correlação linear, foi captado uma associação entre as
variáveis analisadas, de modo que pode ser representado da seguinte forma:
Com isso, foi verificado que existe uma dependência entre o número de crimes com o
número de denúncias registradas, pois foi constado uma correlação de 91%, isto é, uma forte
associação de que, quando a variável número de crimes aumenta, a outra também tem esse
efeito. Após isso, é preciso estudar como essa relação pode ser explicada e quantificada. O
processo de encontrar especificamente a forma da relação entre X e Y é chamado de regressão.
Se essa forma pode ser explicada por uma reta (como parece ser o caso), então esse processo
trata-se de uma regressão linear.
Em outras definições, quando dois fenômenos do mundo real possuem uma interação de
modo que um interfere no outro, a análise de regressão tenta expressar matematicamente essa
interação. A forma como isso pode ser estudado é obtendo dados sobre as características que
representam o fenômeno (as variáveis), e a partir desses dados tentar aplicar um modelo
estatístico. No caso específico da regressão linear, tenta-se representar essa interação por meio
de função linear (uma modelagem estatística de função de 1º grau). Em síntese, a regressão
linear tenta regredir o máximo de informações possíveis de um comportamento complexo que
ocorre no mundo real em um simples modelo matemático.
Por coseguinte, a forma para representar a relação entre duas variáveis X e Y por meio de
uma regressão linear é dada pelo seguinte modelo estatístico:
𝒀𝒊 = 𝜶 + 𝜷𝑿𝒊 + 𝜺𝒊
Em que:
𝑌𝑖 : Variável dependente que será explicada a partir do modelo de regressão linear;
𝑋𝑖 : Variável Independente que explicará o comportamento de Y;
𝛼: Constante de regressão (intercepto da reta) – Parâmetro populacional;
𝛽: Coeficiente de regressão (inclinação da reta) – Parâmetro populacional;
𝜀𝑖 :Erros da regressão (variável), desvios da reta estimada em relação ao comportamento
observado;
Esse modelo representa a relação de duas variáveis com dados populacionais
(informações completa sobre o relacionamento). No entanto, predominantemente, não temos
MUDE SUA VIDA!

317
informação dessa magnitude e efetuamos uma análise de regressão com dados amostrais. Dessa
forma, trabalha-se com um modelo que tenta estimar os verdadeiros parâmetros 𝛼 e 𝛽, que
modelam a forma da relação entre X e Y. Assim, o modelo mais apropriado para as análises na
realidade é:
𝒀𝒊 = 𝒂 + 𝒃𝑿𝒊 + 𝜺𝒊
Em que:
𝑎: Estimativa do parâmetro da constante de regressão;
𝑏: Estimativa do parâmetro do coeficiente de regressão.
Destarte, será estudado cada componente do modelo da regressão linear, analisando os
cálculos necessários para estimar os parâmetros, além das inferências que podem ser obtidas
sobre a relação entre a variável X e Y.
VARIÁVEL INDEPENDENTE (X) X VARIÁVEL DEPENDENTE (Y)
Para estudar eficientemente a relação de duas variáveis, é necessário ter controle sobre
os valores de uma variável. Essa variável é convenientemente a variável X, ao qual é
denominada como a variável independente, pode também ser denominada de variável
explicativa, regressora, preditora ou explanatória. A variável independente é a variável cuja
variação é usada para explicar as variações da variável dependente. O importante é entender
que a variável independente deve predizer o valor da variável Y, ou seja, Y é afetado por X. Para
isso, é interessante que X seja uma variável em que os dados sejam de fácil obtenção pelo
homem. Assim, temos que a variável X não depende de Y para ser quantificada, porém X deve
conseguir satisfatoriamente explicar (predizer) as variações de Y. Se os valores de X são
controlados para obter uma predição de Y com eficiência, então X é uma variável não aleatória.
Em contraponto, a variável Y é a variável dependente, pois se tenta explicar sua variação
a partir dos valores de X, ou seja, Y varia em função de X – baseado nessa ideia de função,
podemos representar Y por f(X). A variável pode também ser denominada por variável
resposta, explicada ou predita. Assim, Y é a variável cuja variação será explicada pela outra
variável, a independente. As variações dos valores de Y ocorrem aleatoriamente, no entanto,
por meio da análise de regressão linear, espera-se explicar esse comportamento aleatório.
Então, para que a análise de regressão funcione corretamente, a primeira pressuposição é obter
uma variável X independente que possa explicar, em maior parte, o comportamento de outra
variável Y.
Na correlação linear, trabalha-se apenas os dados de duas variáveis quaisquer e
quantifica-se o grau de associação entre elas. Na regressão linear, precisamos ter uma relação
de causa e efeito clara, para fazer um estudo eficiente sobre a forma da relação entre as
variáveis. Desse modo, é preciso que uma delas seja independente e tenha seus valores
controlados pelo homem. Isso precisa ser planejado previamente na coleta de dados, caso
contrário uma pressuposição básica da análise de regressão não será atendida, e não teremos
um modelo de regressão linear confiável.
MUDE SUA VIDA!

318
Vamos ver alguns exemplos práticos de variáveis independente e dependente:

➢ A quantidade de uma substância específica no corpo de um cadáver que permite
estimar o tempo após a morte da vítima;
• Variável Independente (X): quantidade da substância presente no cadáver
(mg/kg);
• Variável Dependente (Y): tempo após a morte da vítima (horas);
➢ O número de vagas em um concurso que permite modelar uma estimativa da
quantidade de inscritos;
• Variável Independente (X): número de vagas em um concurso;
• Variável Dependente (Y): número de inscritos em um concurso;
➢ A partir do valor investido em marketing na empresa, estimar a as vendas obtidas;
• Variável Independente (X): investimento em marketing (R$);
• Variável Dependente (Y): vendas da empresa (R$);
➢ Mensuração das dobras cutâneas do corpo humano para estimar o índice de
gordura;
• Variável Independente (X): comprimento das dobras cutâneas (cm);
• Variável Dependente (Y): índice de gordura corporal (%);
➢ Mensurar a temperatura superficial de uma estrada para estimar a dilatação da
pavimentação;
• Variável Independente (X): temperatura superficial da estrada (ºC);
• Variável Dependente (Y): dilatação da pavimentação (cm);
Por meio desses exemplos, é possível compreender claramente que existem variáveis no
mundo real mais fáceis de ser mensurada e que podem explicar, em grande parte, outras
variáveis menos acessíveis ao ser humano.
Dessa forma, ao efetuar uma análise de regressão, determina-se um intervalo de valores
de interesse da variável independente X e observa-se o resultado aleatório de Y para um
respectivo valor de X.
OBJETO DE ESTUDO:
Foram escolhidas 5 cidades com taxa de desemprego de 5, 10, 15, 20 e 25%
registrado por órgãos de pesquisas confiáveis. Em seguida, durante um mês, foi
quantificado a quantidade homicídios, em cada cidade.
Taxa de desemprego (X) 5 10 15 20 25

Nº de homicídios/mês (Y) 10 13 18 26 39
Nesse exemplo, veja que é muito mais acessível obter as informações sobre a taxa de
desemprego nas cidades, pois órgãos de pesquisas já coletam esses dados. A partir deles, tenta
se obter um modelo matemático que explica a ocorrência de homicídios na cidade. Ao se
escolher as cidades com taxas específicas de desemprego (X), tem-se o controle sobre a variável
independente que deixa de ser aleatória. Em cada cidade, com respectiva taxa de desemprego,
é observado um número de homicídios por mês (Y). Essa é uma variável dependente que irá
oscilar de acordo com os valores determinados de X.
“Controla-se os valores de X e observa-se a variação de Y em função de X”
MUDE SUA VIDA!

319
CONSTANTE DE REGRESSÃO (A)

A constante de regressão é um parâmetro da regressão (representada por 𝑎) que consiste
no valor da variável dependente Y sem a interferência (ou ocorrência) da variável preditora X.
Em outras palavras, é a observação da variável Y, quando X for igual a zero. Na equação de uma
reta, 𝑎 também denominado de intercepto ou coeficiente de linear.
Pode ser visualizada constante de regressão como o ponto da reta que intercepta o eixo
Y. Veja:
O ponto representado na reta de regressão simboliza o valor correspondente ao par de

informação em que X é nulo e Y apresenta um valor 𝑎 (uma constante de regressão). Desse
modo, essa seria a informação isolada de Y caso não houvesse a interferência de X.
Vamos aplicar esse conceito sobre uma reta de regressão ajustada que representa a
relação entre taxa de analfabetismo (X), em %, com valor de mercadorias ilegais apreendidas
(Y), em mil R$. Imagine, hipoteticamente, que o estudo sobre essas variáveis apresentou o
seguinte modelo de regressão linear:
Nesse modelo, podemos inferir que, em regiões onde não há analfabetismo (taxa de 0%),
ainda se encontra a ocorrência de contrabando ilegal de mercadorias em que se espera
apreender um valor de R$ 1,5 mil. Isso evidencia que mesmo sem a contribuição da taxa de
analfabetismo ainda existe o contrabando, isto é, Y existe mesmo sem ocorrer X.
A constante de regressão apresenta a mesma unidade de medida da variável Y, nesse
exemplo, 𝑎 = 𝑅$ 1,5 𝑚𝑖𝑙.
MUDE SUA VIDA!

320
COEFICIENTE DE REGRESSÃO (b)

O coeficiente de regressão, representado pela letra 𝑏, é a informação mais importante de
um modelo de regressão linear, pois é a partir desse coeficiente que temos a contribuição da
variável X em relação a variável Y. O parâmetro 𝑏 na equação de uma reta representa a
inclinação da reta ou também denominado coeficiente angular. Em outras definições, 𝑏
representa quantas unidades de Y (variável dependente) são afetadas com ocorrência de mais
uma unidade de X. Vamos abordar esse conceito sobre o mesmo exemplo da relação de taxa de
analfabetismo com contrabando de mercadorias:
Nessa reta, foram identificados dois pontos: o primeiro indica que com 10% de taxa de
analfabetismo, estima-se um contrabando de R$ 35,5 mil; o segundo indica que com 11% na
taxa de analfabetismo, estima-se um contrabando de R$ 38,9 mil. Na variação desses pontos,
pode ser observado que um acréscimo de 1% da variável X (taxa de analfabetismo) contribui
na acréscimo do contrabando da região em R$ 3,4 mil, exatamente o valor de 𝑏. Portanto, o
coeficiente de regressão de 3,4, nesse exemplo, representa que, a cada 1% da taxa de
analfabetismo, há uma contribuição no contrabando de mercadorias de R$ 3,4 mil.
Na equação de uma reta, o coeficiente de regressão é a inclinação da reta, ou seja, é a
tangente do ângulo formado pela reta com o eixo X. Pode também ser calculado pela variação
de dois pontos de Y divido pela variação dos dois pontos de X respectivo. Entenda:
MUDE SUA VIDA!

321
Desse modo, conforme os dois pontos apresentados pelo exemplo (10; 35,5) e (11;38,9),
teríamos o seguinte cálculo para 𝑏:
𝟑𝟖, 𝟗 − 𝟑𝟓, 𝟓 𝟑, 𝟒
𝒃= = = 𝟑, 𝟒 𝒎𝒊𝒍 𝑹$ / %
𝟏𝟏 − 𝟏𝟎 𝟏
A unidade de medida de 𝑏 sempre será a unidade de medida Y sobre a unidade de medida
de X. Com essa unidade, define-se 𝑏 = 3,4 como um acréscimo de R$ 3,4 mil na ocorrência de
contrabando para cada um 1% da taxa de analfabetismo.
Ao compreender esse conceito, podemos entender a influência que o parâmetro 𝑏 causa
na regressão linear. O sinal de 𝑏 determina se a reta é crescente (+𝑏) ou descrente (−𝑏), ou
seja, um valor de 𝒃 positivo indica que X contribui para aumenta Y, enquanto 𝒃 negativo
indica que X contribui para reduzir Y. Caso o valor de 𝑏 for nulo, não existe uma regressão
linear, apenas uma constante, isto é, X não afeta o valor de Y. Entenda:
Além do sinal o valor em módulo de 𝑏 evidencia a inclinação da reta, isto é, valores 𝑏 mais
distantes de zero inclinam a reta de regressão para o eixo vertical (eixo Y), enquanto valores de
𝑏 mais próximos de zero inclinam a reta de regressão para o eixo horizontal (eixo X).
MUDE SUA VIDA!

322
ERROS DA REGRESSÃO (𝜺𝒊 )

Ao representar a relação de duas variáveis a partir de um modelo de regressão, é natural
que não seja possível captar toda a variação de Y em função X no modelo de regressão linear.
Assim, existirá uma variação de Y em função de X que não será explicada pelo modelo de
regressão linear, essa variação denomina-se de erros da regressão (ou resíduos),
representado por 𝜀𝑖 . No gráfico da regressão linear, esses erros são representados pelos pontos
que não passam pela reta, isto é, os erros da regressão consistem nos desvios entre o ponto em
relação a reta. Entenda:
O modelo de regressão linear, dado por 𝒀̂ 𝒊 = 𝒂 + 𝒃𝑿𝒊 , tenta predizer um valor Y a partir
de um valor de X conhecido. Assim, ao obter um valor de Y a partir de X, utilizando o modelo de
regressão, temos um valor estimado 𝑌̂. Esse valor corresponde exatamente ao valor traçado
pela reta. Contudo, é comum que o valor Y observado (representado pelo ponto) não seja
exatamente aquele 𝑌̂ estimado pela reta. Nesse sentido, temos que os erros da regressão é
representado por:
̂𝒊
𝜺𝒊 = 𝒀𝒊 − 𝒀
Portanto, os erros 𝜀𝑖 ilustrados no gráfico são explicados pela diferença (vertical) entre o
valor observado 𝑌𝑖 (referente ao ponto) e o valor estimado 𝑌̂𝑖 (valor exato traçado pela reta).
Para compreender a ideia dos erros da regressão, vamos aplicar sobre um exemplo.
OBJETO DE ESTUDO:
Para ter mais controle sobre a produção dos funcionários, uma empresa aplicou
uma análise de regressão linear para modelar a quantidade de equipamentos
fabricados (X) pelos seus funcionários, em relação ao tempo necessário para
produção (Y), em minutos.
Nº de equipamentos (X)
2 4 6 8 10
Tempo de Produção (Y)
14 10 19 20 21
MUDE SUA VIDA!

323
Ao se aplicar a análise de regressão linear, encontraríamos o seguinte modelo:
Desse modo, a reta de regressão 𝒀 ̂ 𝒊 = 𝟗, 𝟔 + 𝟏, 𝟐𝑿𝒊 estima um valor 𝑌̂𝑖 que não condiz
exatamente com os valores observados nesse estudo. Assim, temos a relação de valores
observados no mundo real 𝑌𝑖 e os valões estimados pela equação da reta 𝑌̂𝑖 :
Valor Observado Equação da Reta Valor Estimado Erros da regressão
(𝒀𝒊 ) ̂ 𝒊 = 𝟗, 𝟔 + 𝟏, 𝟐𝑿𝒊 )
(𝒀 ̂𝒊)
(𝒀 ̂ 𝒊)
(𝜺𝒊 = 𝒀𝒊 − 𝒀
14 𝑌̂𝑖 = 9,6 + 1,2 × 𝟐 12 +2
10 𝑌̂𝑖 = 9,6 + 1,2 × 𝟒 14,4 -4,4
19 𝑌̂𝑖 = 9,6 + 1,2 × 𝟔 16,8 +2,2
20 𝑌̂𝑖 = 9,6 + 1,2 × 𝟖 19,2 0,8
21 𝑌̂𝑖 = 9,6 + 1,2 × 𝟏𝟎 21,6 -0,6
∑ 𝜀𝑖 = 0
Com isso, verifica-se que existem desvios entre os valores observados e aqueles estimados
pela equação da reta. Esses desvios são erros da regressão em cada ponto. Veja que os erros
desviam em relação a reta de modo que seu somatório é igual a zero. Graficamente, temos a
seguinte representação dos erros da regressão:
Os erros da regressão ocorrem porque não existe um relacionamento perfeito entre as

duas variáveis na população. Há possivelmente outras variáveis que influenciam os valores da
variável dependente Y que não entram na análise de regressão. Essa dispersão significa que há
muitas equações de regressão diferentes, que poderiam concebivelmente ser obtidas. Para cada
valor de X, pode haver muitos valores possíveis de Y.
MUDE SUA VIDA!

324
Observe que os valores de 𝜀𝑖 são variáveis e aleatórios, assim, algumas características

importantes devem ser observadas nos erros da regressão:
➢ A variável independente X não está correlacionada com os resíduos; isto é, a
variável independente não é aleatória;
➢ A relação entre a variável X e Y deve ser linear;
➢ O valor esperado do termo distúrbio é zero; isto é, 𝑬(𝜺𝒊 ) = 𝟎, já que a soma dos erros
da regressão é igual a zero;
➢ Os resíduos 𝜀𝑖 são extraídos de uma distribuição com variância constante
(homoscedasticidade);
➢ Os resíduos são distribuídos independentemente; isto é, o resíduo para uma
observação 𝜀1 não está correlacionado com outra observação 𝜀2 ;
➢ Os erros da regressão apresentam distribuição normal, média zero e variância 𝜎𝑒2
(variância dos erros da regressão), como geralmente se trata de dados amostrais
temos uma estimativa 𝑠𝑒2 ;
𝜺𝒊 ~ N (0, 𝝈𝟐𝒆 )
Ao se quantificar os erros da regressão, a questão que surge na análise é “o quanto são
precisas as estimativas da regressão?” Para isso, é necessário descrever toda a distribuição dos
erros da regressão. A dispersão presente na estimativa da reta da regressão pode ser quantifica
pela variância dos erros da regressão (dos resíduos). Essa informação pode ser obtida por:
∑ 𝜺𝟐𝒊 ̂ 𝒊 )𝟐
∑(𝒀𝒊 − 𝒀
𝒔𝟐𝒆 = =
𝒏−𝟐 𝒏−𝟐
Em que:
𝑠𝑒2 : Variância dos erros da regressão;
∑ 𝜀𝑖2 = ∑(𝑌𝑖 − 𝑌̂𝑖 )2 : Somatório dos erros da regressão ao quadrado;
𝑛 − 2: Graus de liberdade para dois conjuntos de dados amostrais (X e Y);
Basicamente, é a mesma ideia do cálculo de variância, só que nesse caso é em relação ao
valor observado (𝑌𝑖 ) com o valor estimado pela reta (𝑌̂𝑖 ). Os valores são elevados ao quadrado
para que o somatório não iguale a zero, e é divido por 𝑛 − 2 pois trata-se de dois conjuntos de
dados amostrais então cada um possui um último valor aleatório previsível. Na mesma ideia, a
variância eleva as unidades de medida dos erros ao quadrado e precisa ser transformada para
mesma unidade.
Ao extrair a raiz quadrada da variância, obtemos o desvio padrão dos erros da regressão,
também conceituado como erro da estimativa da regressão (𝒔𝒆 ). Essa medida é quem
realmente quantifica o desvio padrão dos valores previstos da variável dependente Y ao redor
da linha de regressão estimada 𝑌̂𝑖 (dispersão das observações amostrais em relação a reta de
regressão). Quanto menor a dispersão dos erros da regressão (𝑠𝑒 ) mais precisas serão as
estimativas. Essa medida então é expressa por:
̂ 𝒊 )𝟐
√∑(𝒀𝒊 − 𝒀
𝒔𝒆 = √𝒔𝟐𝒆 =
√𝒏 − 𝟐
MUDE SUA VIDA!

325
Conforme o exemplo construído pode obter o erro da estimativa da regressão (𝑠𝑒 ) por:
Valor Observado Valor Estimado Erros da regressão Erros ao quadrado

(𝒀𝒊 ) ̂𝒊)
(𝒀 ̂ 𝒊)
(𝜺𝒊 = 𝒀𝒊 − 𝒀 ̂ 𝒊 )𝟐 ]
[𝜺𝟐𝒊 = (𝒀𝒊 − 𝒀
14 12 +2 4
10 14,4 -4,4 19,36
19 16,8 +2,2 4,84
20 19,2 0,8 0,64
21 21,6 -0,6 0,36
∑ 𝜀𝑖 = 0 ∑ 𝜀𝑖2 = 29,2
Desse modo, a variância dos erros da regressão e os erros de estimativa da regressão,
nesse exemplo, são:
𝟐𝟗, 𝟐
𝒔𝟐𝒆 = = 𝟗, 𝟕𝟑 𝒎𝒊𝒏𝟐
𝟑
𝒔𝒆 = √𝟗, 𝟕𝟑 = 𝟑, 𝟏𝟐 𝒎𝒊𝒏
Em conclusão, a reta de regressão 𝑌̂𝑖 = 9,6 + 1,2𝑋𝑖 , que estima o tempo de produção de
equipamentos em função da quantidade de equipamentos, apresenta em média um erro de
estimativa (uma imprecisão) de 3,12 min.
Ao observar os resultados desse exemplo, algumas informações quanto a interpretação
desse fenômeno pode ser efetuada:
➢ Quanto menor o erro padrão da estimativa da regressão, melhor é o ajuste da reta;
➢ O erro padrão estima a proximidade dos valores estimados com os reais valores
observados;
➢ Os erros da regressão e o erro padrão estão na mesma unidade de medida que Y.
PRESSUPOSIÇÕES DA REGRESSÃO LINEAR
Diante de todo exposto, foi estudado os componentes que integram o modelo de uma
regressão linear. Em síntese a tudo abordado, podemos definir que um modelo de regressão
linear apresenta as seguintes informações:
MUDE SUA VIDA!

326
Para que esse modelo de regressão seja alcançado eficientemente, as seguintes

pressuposições devem ser atendidas:
➢ A relação entre X e Y é linear (os acréscimos/decréscimo em X produzem
acréscimos/decréscimo proporcionais em Y e a razão de crescimento é constante);
➢ Os valores de X são fixados arbitrariamente (X não é uma variável aleatória);
➢ Y é uma variável aleatória que depende, entre outras coisas, dos valores de X;
➢ O erro aleatório é uma variável aleatória com distribuição normal, com média zero
e variância 𝜎𝑒2 . [ 𝜀𝑖 ~ N (0, 𝜎𝑒2 )].
➢ 𝜀𝑖 representa a variação de Y que não é explicada pela variável independente X;
➢ Os erros são considerados independentes
REGRESSÃO LINEAR SIMPLES
A regressão linear simples é composta pela relação entre uma variável dependente Y com
sua variação explicada por uma variável independente X. Desse modo, a regressão simples
utiliza apenas uma variável para modelar o comportamento de Y, ou seja, trabalha com relação
de um para um. O modelo estatístico da regressão linear simples é o que foi apresentado até o
momento:
𝒀𝒊 = 𝒂 + 𝒃𝑿𝒊 + 𝜺𝒊
Em que:
𝑌𝑖 : Variável dependente que será explicada a partir do modelo de regressão linear;
𝑋𝑖 : Variável Independente que explicará o comportamento de Y;
𝑎: Constante de regressão (intercepto da reta) – Parâmetro da regressão linear;
𝑏: Coeficiente de regressão (inclinação da reta) – Parâmetro da regressão linear;
𝜀𝑖 :Erros da regressão (variável), desvios da reta estimada em relação ao comportamento
observado;
Esse modelo pode ser representado em forma gráfica em plano bidimensional, em que a
variável independente X é representada pelo eixo horizontal (abscissas), enquanto dependente
Y é representada no eixo vertical (ordenada):
MUDE SUA VIDA!

327
REGRESSÃO LINEAR MÚLTIPLA

A regressão linear múltipla estuda a relação de uma única variável dependente Y com duas ou
mais variáveis independentes (𝑋1 , 𝑋2 , . . . , 𝑋𝑘 ), consiste em uma extensão da análise de regressão
linear simples. De modo similar, a análise estabelece uma equação linear que pode explicar os
valores de Y em função das diversas variáveis independentes.
O objetivo de aplicar um modelo de regressão com variáveis independentes adicionais é
melhorar a capacidade de predição do comportamento de Y, uma vez que inclui mais variáveis no
modelo. Desse modo, a regressão múltipla pode captar mais fontes de variação que não seriam
explicadas por uma regressão simples. O modelo da regressão linear múltipla é:
𝒀𝒊 = 𝒂 + 𝒃𝟏 𝑿𝟏𝒊 + 𝒃𝟐 𝑿𝟐𝒊 +. . . + 𝒃𝒌 𝑿𝒌𝒊 + 𝜺𝒊
Esse modelo possui 𝑘 variáveis independentes, sendo que para cada X existe um coeficiente 𝑏
associado. Os parâmetros 𝑏𝑖 são denominados de coeficientes de regressão parciais, uma vez que
sozinhos não explicam toda a variação de Y, somente a partir do efeito associados de todos os 𝑏𝑖 .
Assim como na regressão simples, o coeficiente 𝑏𝑖 quantifica a alteração em Y para uma dada
variação em 𝑋𝑖 , mantidos todos os demais constantes.
Com o aumento de variáveis independentes, fica impossível representar graficamente as
variações do modelo, já que extrapolam as três dimensões. Até duas variáveis independentes é
possível representar o modelo por meio de um gráfico tridimensional, mais do que isso é
impossível.
ESTIMADOR DOS MÍNIMOS QUADRADOS

Após conhecer o modelo de regressão linear e todas as informações que ele pode fornecer, é
necessário estimar os valores os parâmetros do modelo: a constante de regressão "𝑎" e o
coeficiente de regressão "𝑏". A metodologia mais aplicada para ajustar uma reta a um conjunto de
pontos é denominado Método dos Mínimos Quadrados. Por esse método, a reta resultante tem
duas características importantes:
➢ A soma dos desvios verticais dos pontos em relação à reta é zero, isto é, a soma dos erros
da regressão é zero:
̂𝒊) = 𝟎
∑ 𝜺𝒊 = ∑(𝒀𝒊 − 𝒀
➢ A soma dos quadrados dos erros da regressão (desvios) deve ser mínima:
̂ 𝒊 )𝟐 = 𝑴í𝒏𝒊𝒎𝒂
∑ 𝜺𝟐𝒊 = ∑(𝒀𝒊 − 𝒀
Com a aplicação do método, obtêm-se expressões matemáticas para estimar 𝑎 e 𝑏, de forma

que essas características sejam atendidas.
Assim, a partir de dados amostrais obtidos à respeito de duas variáveis (uma independente e
outra dependente) é possível estimar um modelo de regressão linear utilizando os procedimentos
matemáticos definidos pelo método dos mínimos quadrados. Para isso, vamos abordar um exemplo
anteriormente apresentado e construir todo o modelo de regressão linear.
OBJETO DE ESTUDO:
Foram escolhidas 5 cidades com taxa de desemprego de 5, 10, 15, 20 e 25% registrado
por órgãos de pesquisas confiáveis. Em seguida, durante um mês, foi quantificado a ocorrência
de homicídios, em cada cidade.

MUDE SUA VIDA!

328
ESTIMATIVA DO 𝒃
Para obtenção do coeficiente de regressão linear (𝑏) a partir de uma amostra de pares
ordenados, é necessário aplicar a seguinte fórmula:
𝒃=
𝒔𝟐𝑿
Portanto, o coeficiente de regressão linear pode ser obtido pela divisão entre a covariância
(X,Y) com a variância de X. O que define se o sinal de 𝑏 e faz com que a reta de regressão seja
crescente ou decrescente é a covariância (assim como na correlação), já que ela quantifica a
variação associada e direção dessas variações.
Ainda, assim como no coeficiente de correlação, o 𝑛 − 1 pode ser cortado da fórmula,
simplificando para seguinte expressão:
𝑺𝑿𝒀
𝒃=
𝑺𝑿𝑿
Com isso temos que 𝑏 é a divisão da soma dos produtos (X,Y) com a soma dos quadrados
de X. Expandindo a fórmula teríamos a seguinte notação:
(∑ 𝑿𝒊 ) (∑ 𝒀𝒊 )
̅ )(𝒀𝒊 − 𝒀
∑(𝑿𝒊 − 𝑿 ̅) ∑ 𝑿𝒊 𝒀𝒊 −
𝒃= 𝒐𝒖 𝒃 = 𝒏
∑(𝑿𝒊 − 𝑿̅ )𝟐 (∑ 𝑿𝒊 )
𝟐
𝟐
∑ 𝑿𝒊 −
𝒏
Mais uma vez, os cálculos demostram ser exaustivos e um pouco de difícil memorização.
No entanto, o aluno precisa conhecer a essência desse cálculo e entender que, nas provas de
carreiras policiais, o coeficiente de regressão é cobrado em questões que já fornecem o desvio
padrão, a variância, ou outras informações que simplificam o cálculo. Contudo, para manusear
essas informações de modo eficiente, é preciso conhecer a essência desses cálculos. Mais a
frente irão ser apresentas outras fórmulas que permitem um cálculo mais rápido de 𝒃 e são
frequentemente cobradas nos concursos.
Vamos estimar o 𝑏 a partir do exemplo anterior citado, para isso, vamos proceder com a
fórmula que usa os desvios em relação à média:
𝑿𝒊 𝒀𝒊 ̅)
(𝑿𝒊 − 𝑿 ̅)
(𝒀𝒊 − 𝒀 ̅ )𝟐
(𝑿𝒊 − 𝑿 ̅ )(𝒀𝒊 − 𝒀
(𝑿𝒊 − 𝑿 ̅)
5 12 -10 -9,6 100 96
10 13 -5 -8,2 25 41
15 18 0 -3,2 0 0
20 26 5 4,8 25 24
25 39 10 17,8 100 178

̅ = 𝟏𝟓
𝑿 ̅ = 𝟐𝟏, 𝟔
𝒀 - - 𝜮 = 𝟐𝟓𝟎 𝜮 = 𝟑𝟑𝟓
MUDE SUA VIDA!

329
Dessa forma, temos que o valor de 𝑏 é igual a:
𝟑𝟓𝟓
𝒃= = 𝟏, 𝟑𝟒
𝟐𝟓𝟎
Assim, observa-se um aumento de 1,34 homicídios/mês com o aumento de 1% da taxa de
desemprego na região estudada. Com essa informação, temos o efeito que a variável
independente taxa de desemprego causa sobre a ocorrência de homicídios presentes na região,
para esse estudo. Veja que, ao efetuar os cálculos com as unidades de medidas, pode ser
observado que 𝑏 apresenta a unidade Nº de homicídios/ % de desemprego:
𝑵º𝒉𝒐𝒎𝒊𝒄í𝒅𝒊𝒐𝒔
𝟑𝟓𝟓 ×% 𝑵º𝒉𝒐𝒎𝒊𝒄í𝒅𝒊𝒐𝒔
𝒃= 𝑴ê𝒔 = 𝟏, 𝟑𝟒
𝟐𝟓𝟎 %𝟐 𝑴ê𝒔 × %
ESTIMATIVA DO 𝒂
A constante de regressão 𝑎 pode ser calculada a partir da seguinte expressão:
̅ − 𝒃𝑿
𝒂=𝒀 ̅
Para obter 𝑎 por meio dessa fórmula, é preciso já ter estimado o valor de 𝑏. Essa fórmula
pode ser explicada facilmente pelo assunto na abordado em transformação de variáveis. Veja
que a equação da reta nada mais é que uma transformação da variável X em Y. Nessa ideia,
sabemos que a média sofre efeito de multiplicação/divisão e soma/subtração, portanto, o valor
médio de X seria multiplicado/divido por 𝑏 e somado/subtraído por 𝑎 para obter o valor médio
de Y. Como não sabemos o valor de 𝑎, basta isolar:
̅ = 𝒂 + 𝒃𝑿
𝒀 ̅ → ̅ − 𝒃𝑿
𝒂=𝒀 ̅
Conforme o exemplo construído, temos a seguinte constante de regressão:
𝒂 = 𝟐𝟏, 𝟔 − 𝟏, 𝟑𝟒 × 𝟏𝟓
𝒂 = 𝟐𝟏, 𝟔 − 𝟐𝟎, 𝟏 = 𝟏, 𝟓 𝑵º𝒉𝒐𝒎𝒊𝒄í𝒅𝒊𝒐𝒔/𝒎ê𝒔
Em função disso, espera-se ainda encontrar 1,5 homicídios em regiões onde não há
desemprego. Devido a variável Y ser de natureza discreta, trabalha-se com a ideia de encontrar
entre 1 ou 2 homicídios por mês.
MUDE SUA VIDA!

330
̂ PELA RETA DE REGRESSÃO

ESTIMATIVA DE 𝒀
Após estimar os parâmetros 𝑎 e 𝑏, obtém-se a seguinte reta de regressão linear:
Por meio dessa equação de primeiro grau, podemos estimar a ocorrência de homicídios
por mês (𝑌̂) em uma cidade a partir da sua taxa de desemprego. Por exemplo, quantos registros
de homicídios por mês espera-se encontrar em uma cidade com taxa de desemprego de 18%?
Para isso basta aplicar a equação da reta:
Portanto, em uma cidade com taxa de desemprego de 18%, se espera encontrar uma
frequência de 25 a 26 homicídios por mês. Manusear a equação de regressão linear, estimando
os possíveis valores de uma variável é uma questão muito comum sobre esse tópico. Por isso, é
interessante que aluno pratique a aplicação de uma equação linear e compreenda as
informações que podem ser obtidas conforme as variáveis em estudo.
Baseado nas inferências sobre a regressão linear, temos uma outra pressuposição
importante: a equação da reta não deve ser aplicada para estimar valores fora do intervalo
controlado da variável X que foi planejado incialmente. Para esse exemplo, foram avaliadas
cidades de 5% até 25% de taxa de desemprego, portanto, as estimativas de homicídio devem
ser feitas em cidades com taxa de desemprego nesse intervalo. Essa limitação do uso da reta de
regressão é recomenda uma vez que não foi observado o comportamento da variável Y em
função de X para fora do intervalo estudado. Nada garante o comportamento entre X e Y
permanecerá o mesmo.
MUDE SUA VIDA!

331
RELAÇÃO ENTRE B X R
Ao conhecer as fórmulas que definem o coeficiente de regressão linear (𝑏) e o coeficiente
de regressão (𝑟), podemos encontrar uma relação importante entre essas duas medidas. Ao
analisar as fórmulas de 𝑏 e 𝑟 em função de X e Y, obtém-se a seguinte relação:
𝑪𝒐𝒗(𝑿, 𝒀) 𝐂𝐨𝐯(𝐗, 𝐘)
𝒃= 𝐫=
𝒔𝟐𝑿 𝐬𝐗 × 𝐬𝐘
𝒃= 𝐫=
𝒔𝑿 × 𝒔𝑿 𝐬𝐗 × 𝐬𝐘
𝒃 × 𝒔𝑿 = 𝐫 × 𝐬𝐘 =
𝒔𝑿 𝐬𝐗
𝒃 × 𝒔𝑿 = 𝐫 × 𝐬𝐘
Em que 𝑠𝑋 e 𝑠𝑌 são os desvios padrões das variáveis X e Y, respectivamente. Como 𝑠𝑋 e 𝑠𝑌

são sempre positivos, então o sinal de “b” é o mesmo de “r”. Isso concorda com a informação
que cada um proporciona, pois uma correlação negativa indica uma reta decrescente entre X e
Y e, portanto, o coeficiente angular é negativo. E o contrário, uma correlação positiva indica uma
reta crescente entre X e Y e, portanto, o coeficiente angular é positivo.
Com certeza, essa relação entre os coeficientes 𝑏 e 𝑟 é muito importante e tem alta
probabilidade de cair em prova. É muito comum a banca fornecer dados como os desvios
padrões e a equação da reta e a partir disso pergunta o valor do coeficiente de correlação. Ou
então, formula uma pergunta a ideia inversa. Domina essa equação matemática é fundamental
para obter sucesso em questões sobre “Análise de Regressão Linear”!
TESTE DE HIPÓTESES NA REGRESSÃO

Mesmo quando há pouco ou nenhum relacionamento entre as variáveis de uma
população, é possível obter valores amostrais que façam as variáveis parecerem relacionadas.
Isso ocorre devido a fatores aleatórios na amostragem que podem produzir um
“relacionamento” que na verdade não condiz com a realidade do fenômeno estudado. Sendo
assim, torna-se importante testar a estimativa do coeficiente de regressão (ou angular).
Após ajustar uma equação de regressão, deve ser verificado sua adequabilidade, por meio
de testes de hipóteses para o coeficiente de regressão. Contudo, para efetuar esse teste,
precisamos assumir como verdadeira a pressuposição de que os erros da regressão apresentam
distribuição Normal. Essa informação deve ser expressa na questão! O teste de hipótese,
basicamente, testa a existência da inclinação da reta, isto é, se o coeficiente de regressão é nulo
ou diferente de zero (se existir regressão, existi uma contribuição de X afetando o valor de Y).
Portanto:
MUDE SUA VIDA!

332
O teste de hipóteses verifica se a estimativa do coeficiente de regressão 𝑏 quantifica uma

relação verdadeira (uma regressão linear) entre a variável X e Y. Isto é, testa a existência de um
parâmetro populacional 𝛽.
Essas hipóteses estão relacionadas com a significância da regressão. Se existir regressão,
o coeficiente angular da reta será diferente de zero. Aceitar H0 (ou não rejeitar H0) é equivalente
a concluir que não há relação linear entre X e Y, pois aceita-se que o coeficiente de regressão é
igual a zero (uma reta horizontal). Por outro lado, se a hipótese nula for rejeitada (H1 será
aceita), isso indica que X contribui para explicar a variabilidade em Y.
Aceitar (ou não rejeitar) a hipótese nula H0: β = 0 é equivalente a concluir que não há
nenhuma relação linear entre X e Y. Seguem duas ilustrações dessa situação, em que o
coeficiente de regressão é zero (reta horizontal):
No primeiro gráfico, observa-se que não há relação (correlação) entre as variáveis e, no

segundo gráfico, observa-se que não há relação linear entre as variáveis, mas que
possivelmente há uma relação não linear, pois os pontos parecem descrever uma parábola. Ou
seja, a regressão adequada é por meio de uma equação do segundo grau.
Rejeitar a hipótese nula H0: β = 0, implica que X tem importância ao explicar a
variabilidade de Y. Seguem duas ilustrações dessa situação, em que o coeficiente angular é
diferente de zero:
MUDE SUA VIDA!

333
Embora a reta de regressão do segundo gráfico não esteja tão bem ajustada aos pontos
como ocorre no primeiro gráfico, pode-se afirmar, por meio de teste de hipóteses, que a reta de
regressão represente a relação de X e Y significativamente.
O teste de hipótese é aplicado pela estatística de teste 𝑡, baseado na distribuição 𝑡 de
Student. Para aplicar o teste de hipótese, novamente temos um valor de 𝑡𝑡𝑎𝑏 , em função do
nível de significância 𝜶 e 𝒏 − 𝟐 graus de liberdade; e um valor de 𝑡𝑐𝑎𝑙 obtido pelo seguinte
cálculo:
Em que:
𝑏: coeficiente de regressão (ou angular) estimado pela relação de duas variáveis;
𝑠𝑏 : erro padrão (desvio padrão) da estimativa do coeficiente da regressão 𝑏.
Ao efetuar essa divisão, obtém-se uma estatística de teste t com distribuição 𝑡 de Student
para 𝑛 − 2 graus de liberdade (pois são dois conjuntos de dados, X e Y). A estimativa do
coeficiente de regressão amostral 𝑏 também é uma variável aleatória, ao observar sua
distribuição amostral temos que a variância de 𝑏 é igual a:
A variância da estimativa do coeficiente de regressão é dada pela divisão da variância dos

erros da regressão (imprecisão das estimativas da reta da regressão) sob a variação de X
(desvios de X ao quadrado, em relação à sua média). Desse modo, o erro padrão do coeficiente
de regressão 𝑏 é a raiz quadrada da variância:
𝒔𝒆
𝒔𝒃 = √𝒔𝟐𝒃 =
̅ )𝟐
√∑(𝑿 − 𝑿
Como já conhecemos o cálculo do erro da estimativa da regressão, a fórmula pode ainda
ser detalhada da seguinte forma:
̂ 𝒊 )𝟐
√∑(𝒀𝒊 − 𝒀
𝒔𝒃 = √𝒏 − 𝟐
√∑(𝑿 − 𝑿̅ )𝟐
No entanto, é muito mais interessante entender essas fórmulas em componentes (ou
compartimentos) que se encaixam sob uma sequência lógica de informação gerada. Assim como
o coeficiente 𝑏 representa a contribuição em Y para cada unidade de X, podemos associar que
o erro padrão (ou desvio padrão) do coeficiente da regressão 𝒔𝒃 representa a contribuição
no erro de estimativa (𝒔𝒆 ) para cada unidade de desvio de X em relação à sua média.
Entenda:
MUDE SUA VIDA!

334
Com isso, obtém um valor de 𝑡𝑐𝑎𝑙 e 𝑡𝑡𝑎𝑏 que devem ser confrontados para decidir sobre o
resultado do teste de hipóteses. A hipótese H0 será aceita ou rejeitada conforme a posição de
𝑡𝑐𝑎𝑙 na distribuição de t de Student.
O teste aplicado será bilateral, pois b pode assumir valores positivos e negativos.
OBJETO DE ESTUDO:
quantificado a ocorrência de homicídios, em cada cidade.

Nesse exemplo, foi obtido o seguinte modelo de regressão linear:
𝒀𝒊 = 𝟏, 𝟓 + 𝟏, 𝟑𝟒𝑿𝒊 + 𝜺𝒊
Contudo, existe uma relação linear entre X e Y significativa a 5% de probabilidade?
Existe cinco pares de amostras, logo:
𝑮𝑳 = 𝟓 − 𝟐 = 𝟑
O valor de 𝑡𝑡𝑎𝑏 a 5% de probabilidade de erro (teste bilateral), para 3 graus de liberdade
é:
𝒕𝒕𝒂𝒃 = 𝟑, 𝟏𝟖
MUDE SUA VIDA!

335
O valor de 𝑡𝑐𝑎𝑙 é:
𝒃 𝒔𝒆 ̂ 𝒊 )𝟐
√∑(𝒀𝒊 − 𝒀
𝒕𝒄𝒂𝒍 = 𝒔𝒃 = 𝒔𝒆 =
𝒔𝒃 ̅ )𝟐
√∑(𝑿 − 𝑿 √𝒏 − 𝟐
Para obter essas informações, os seguintes cálculos devem ser procedidos:
(𝑿𝒊 − 𝑿 ̅ )𝟐
(𝑿𝒊 − 𝑿 ̂𝒊
𝒀 ̂𝒊
𝒀𝒊 − 𝒀 ̂ 𝒊 )𝟐
(𝒀𝒊 − 𝒀
5 12 -10 100 8,2 3,8 14,44
10 13 -5 25 14,9 -1,9 3,61
15 18 0 0 21,6 -3,6 12,96
20 26 5 25 28,3 -2,3 5,29
25 39 10 100 35 4 16
̅ = 𝟏𝟓
𝑿 ̅ = 𝟐𝟏, 𝟔
𝒀 - 𝜮 = 𝟐𝟓𝟎 - 𝜮=𝟎 𝜮 = 𝟓𝟐, 𝟑
̂ 𝒊 )𝟐
√∑(𝒀𝒊 − 𝒀 √𝟓𝟐, 𝟑 𝟕, 𝟐𝟑
𝒔𝒆 = = = = 𝟒, 𝟏𝟕
√𝒏 − 𝟐√𝟑 𝟏, 𝟕𝟑
𝒔𝒆𝟒, 𝟏𝟕 𝟒, 𝟏𝟕
𝒔𝒃 = = = = 𝟎, 𝟐𝟔
̅
√∑(𝑿 − 𝑿)𝟐 √𝟐𝟓𝟎 𝟏𝟓, 𝟖𝟏
𝟏, 𝟑𝟒
𝒕𝒄𝒂𝒍 = = 𝟓, 𝟏𝟓
𝟎, 𝟐𝟔
Observação: o aluno não deve ficar preocupado com os cálculos fracionados e
de raiz demostrados acima, apenas estamos desenvolvendo o mesmo exemplo
abordado. Dificilmente conseguimos obter valores fechados em todo o
desenvolvimento. É muito interessante compreender de onde cada informação foi
extraída e como deve proceder para obter a estatística de teste 𝑡 para o coeficiente
de regressão 𝑏. Em provas que perguntarem especificadamente esse procedimento,
serão abordados cálculos mais manejáveis matematicamente.
Por fim, ao analisar a distribuição 𝑡 de Student, temos que:
MUDE SUA VIDA!

336
Como resultado, a regressão linear estimada entre taxa de desemprego e número de

homicídios por mês existe, dessa forma, há uma relação linear crescente que evidencia o
aumento de homicídios por mês conforme o aumento do desemprego na região, a 5% de
probabilidade de erro.
ANÁLISE DE VARIÂNCIA
O modelo básico da regressão linear expressa a relação de X e Y por meio de uma equação
da reta. Em adição, o teste de hipótese do coeficiente de regressão verifica a existência
significativa dessa relação linear entre X e Y. Além desses procedimentos, é necessário utilizar
a análise de variância para obter o quanto a reta de regressão explica os valores observados de
Y utilizados para o ajuste. Portanto, a análise de variância tem o objetivo de quantificar a
dispersão da regressão linear, analisando o quanto o modelo linear explica o comportamento
de Y e o quanto não pode ser explicado.
Sobretudo, ao efetuarmos uma análise de regressão, parte da variação de Y é explicada
em função da variação de X (por meio da reta de regressão 𝑌̂𝑖 = 𝑎 + 𝑏𝑋𝑖 ); a outra parte da
variação é causada por fatores aleatórios não explicados pelo modelo (𝜀𝑖 ). Desse modo, toda a
dispersão (ou variabilidade) de uma regressão linear (variação total da regressão) pode ser
expressa pelos seguintes componentes:
Esse é a essência da análise de variância da regressão: quantificar os componentes

causadores da variação de Y e evidenciar a capacidade do modelo de regressão linear em
explicar a variação de Y.
COMPONENTES DA VARIÂNCIA DA REGRESSÃO
O primeiro passo para compreender a análise de variância da regressão é particionar e
estudar os dois componentes da variação total de Y. É necessário entender o que cada
componente representa sobre os valores da variável dependente Y e como eles podem ser
quantificados e representados matematicamente.
A variabilidade de qualquer variável Y é mensurada a partir dos desvios em relação à sua
média (𝑌𝑖 − 𝑌̅), esses são os desvios que quantificam a variação total de Y. No entanto, na
regressão linear, cada desvio em relação à média é composto: pelo desvio da observação Y em
relação ao valor estimado pela regressão (𝑌𝑖 − 𝑌̂𝑖 ), que consiste no erro de regressão; e pelos
os desvios do valor estimado em relação a média (𝑌̂𝑖 − 𝑌̅), que consiste na dispersão captada
(explicada) pela regressão linear. Com isso, temos que cada desvio (a unidade de dispersão
de uma variável), na regressão linear, é denotado por:
𝑫𝒆𝒔𝒗𝒊𝒐 𝑻𝒐𝒕𝒂𝒍 𝒅𝒆 𝒀𝒊 = 𝑫𝒆𝒔𝒗𝒊𝒐 Explicado pela Regressão + Desvio do Erro de Regressão
Assim, cada observação de Y apresenta um desvio em relação à sua média, sendo
composto por uma parte explicada pela regressão e outra devido fatores aleatórios (não
explicados). Matematicamente, um desvio de Y pode ser representado por:
MUDE SUA VIDA!

337
Em que:
𝑌𝑖 : são os valores observados da variável Y, que fazem o par com os valores X;
𝑌̂𝑖 : são os valores da variável Y estimados pela reta de regressão;
𝑌̅: é a média da variável Y.
Ao observar a construção de uma regressão linear, podemos identificar, graficamente, o
desvio da variável Y e seus partição em componentes – explicado e não explicado pela regressão
–, entenda:
O primeiro gráfico ilustra a dispersão dos pontos (valores observados de Y) em relação a

sua centralidade (média 𝑌̅). Nesse gráfico, podemos observar o desvio de um ponto
especificamente em relação a média, formando o desvio total. Ao construir uma regressão
linear entre X e Y, no segundo gráfico, observa-se que esse desvio total é particionado por um
desvio explicado pela regressão e um desvio devido ao erro da regressão (causa aleatórias não
explicada). Portanto, observando um ponto específico podemos ter a seguinte representação
de um desvio:
MUDE SUA VIDA!

338
Até o momento, estamos analisando a composição de apenas um desvio de uma

observação. Contudo, sabe-se que a regressão é composta por vários pontos e cada um possui
seu respectivo desvio. Assim, para representar toda a variabilidade da variável Y submetida a
regressão linear, é necessário ter os somatórios e todos os desvios. Porém, ao se falar de desvios
em relação à média, sabe-se que seu somatório é zero, e, para evitar esse problema, cada desvio
é elevado ao quadrado. Desse modo, tem-se o somatório dos desvios ao quadrado, ou
também denominado de variação, ou então de soma dos quadrados:
➢ O termo ∑(𝒀𝒊 − 𝒀 ̅ )𝟐 é denominado de Soma dos Quadrados Totais (SQT) ou

Variação Total, quantifica a variabilidade total da variável Y em torno da sua média;
➢ O termo ∑(𝒀 ̅ )2 é denominado de Soma dos Quadrados Explicados pela
̂𝒊 − 𝒀
Regressão (SQE), ou Variação Explicada, quantifica a variabilidade de Y estimado
pela regressão em torno da média, isto é, representa a parte do SQT explicada pela
regressão de Y em função de X;
➢ O termo ∑(𝒀𝒊 − 𝒀 ̂ 𝒊 )2 é denominado de Soma dos Quadrados dos Resíduos (SQR),
ou Variação Não Explicada, quantifica a variabilidade de 𝑌 observado com o 𝑌̂
estimado pela reta de regressão, isto é, o que não explicado pela regressão de Y em
função de X.
Assim, outra notação que pode ser usada para representar os componentes da
variabilidade de Y é:
𝑺𝑸𝑻 = 𝑺𝑸𝑬 + 𝑺𝑸𝑹

Após obter os valores dos desvios ao quadrado, podemos determinar a variância de cada
componente. Para isso, basta dividir cada soma dos quadrados (ou variação) pelo seu
respectivo grau de liberdade. Assim, temos que a soma dos quadrados dividida pelos
respectivos graus de liberdade gera a variância, que também é denominado de Quadrado
Médio (QM). Portanto:
➢ 𝑺𝑸𝑻 corresponde a variação total de Y, desse modo, seus graus de liberdade
correspondem a 𝒏 − 𝟏 e com isso obtém-se a variância de Y (𝑠𝑌2 ), ou o quadrado
médio total:
𝑺𝑸𝑻 ∑(𝒀𝒊 − 𝒀̅ )𝟐
𝑸𝑴𝑻 = =
𝒏−𝟏 𝒏−𝟏
➢ 𝑺𝑸𝑬 corresponde a variação explicada pela regressão linear, desse modo, o grau de
liberdade corresponde a 1, pois temos apenas um coeficiente de regressão 𝑏 (uma
variável independente X) explicando a variação de Y (em regressões múltiplas, os
graus de liberdade correspondem ao número de variáveis independentes). Com isso,
obtém a variância explicada ou quadrado médio explicado pela regressão:
̅ )2
̂𝒊 − 𝒀
𝑺𝑸𝑬 ∑(𝒀
𝑸𝑴𝑬 = =
𝟏 𝟏
MUDE SUA VIDA!
339
➢ 𝑺𝑸𝑹 corresponde a variação não explicada pela regressão linear, desse modo, os
graus de liberdade correspondem ao resto para completar o total, ou seja, se o total
de graus de liberdade é 𝑛 − 1, e 1 grau de liberdade corresponde ao componente
explicado, o resíduo terá 𝒏 − 𝟐 graus de liberdade. Com isso, obtém a variância não
explicada ou quadrado médio dos resíduos:
𝑺𝑸𝑹 ̂ 𝒊 )𝟐
∑(𝒀𝒊 − 𝒀
𝑸𝑴𝑬 = =
𝒏−𝟐 𝒏−𝟐
Por fim, podemos representar todos os componentes da variância de uma regressão linear
simples a partir de uma tabela:
Soma dos
Quadrado Médio
Causas de Variação Graus de Liberdade Quadrados
(ou Variância)
(ou Variação)
Explicada 𝑺𝑸𝑬
1 SQE 𝑸𝑴𝑬 =
(Regressão) 𝟏
𝑺𝑸𝑹
Resíduo (Erro) 𝒏−𝟐 SQR 𝑸𝑴𝑬 =
𝒏−𝟐
𝑺𝑸𝑻
Total 𝒏−𝟏 SQT 𝑸𝑴𝑬 =
𝒏−𝟏
Com isso, temos a tabela de análise de variância com a decomposição da soma dos
quadrados totais em seus dois componentes: a variação explicada e a não explicada pela
regressão linear.
Junto a esse conhecimento, outra informação muito importante pode ser deduzida pela
reta da regressão. Ao analisar o componente explicado pela regressão, podemos ter a seguinte
igualdade:
Em outras palavras, os desvios explicados pela regressão consistem no efeito da variação

de X multiplicado pela sua contribuição em Y (isto é, coeficiente de regressão 𝑏). Como os
desvios devem ser elevados ao quadrado, logo 𝑏 é elevado ao quadrado para multiplicar a
variação de X.
Assim temos uma igualdade muito importante, pois a partir de uma tabela de variância
podemos obter o coeficiente de regressão linear (𝒃) ou a variação de X! Um detalhe
importante para essa fórmula é que não conseguimos definir o sinal de 𝑏, pois foi elevado ao
quadrado. Assim, ou questão fornece a relação entre X e Y, ou deve ser detectado nos valores
observados.
COEFICIENTE DE DETERMINAÇÃO (𝒓𝟐 )

Conhecendo os componentes da variância da regressão, podemos definir um novo
coeficiente muito aplicado na análise de regressão. O r2 é denominado de coeficiente de
determinação (ou explicação), pois consiste na proporção da variação total de Y que é explicada
pela regressão linear (pela variação da variável independente X), em outras palavras, esse
coeficiente determina o poder explicativo de um modelo de regressão linear.
MUDE SUA VIDA!

340
O poder explicativo da regressão tem por objetivo avaliar a “qualidade” do ajuste da reta
de regressão aos pontos (X, Y). Baseado nesse conceito, podemos obter o coeficiente de
determinação a partir da seguinte proporção:
𝟐
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑬𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂 𝒑𝒆𝒍𝒂 𝑹𝒆𝒈𝒓𝒆𝒔𝒔ã𝒐 𝑺𝑸𝑬
𝐫 = =
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍 𝑺𝑸𝑻
Com esse cálculo, obtém a proporção (ou porcentagem) do quanto o modelo de regressão
linear explica o comportamento variável de Y. Sobretudo, como a variação explicada se trata de
um componente do total, o valor de r2 sempre irá oscilar entre 0 até 1 (0 a 100%). Se r2 é
próximo de 1, isso significa que a variação explicada responde por uma grande percentagem da
variação total, isto é, o modelo de regressão linear explica eficientemente a variação de Y. Por
outro lado, valores de r2 próximos de zero indicam que há muito variação de Y não explicada
pelo modelo de regressão, isto é, muitas variações devido a fatores aleatórios.
O cálculo de r2 pode também ser pela variação dos resíduos SQR, uma vez que SQE
corresponde a diferença do total menos os erros (SQT – SQR). Veja:
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍 − 𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍 𝑺𝑸𝑻 − 𝑺𝑸𝑹
𝐫𝟐 = =
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍 𝑺𝑸𝑻
Como SQR é a complementar de SQE para obter o total, também podemos deduzir que o
complementar do coeficiente de determinação é a proporção da variação residual sobre o total.
Logo:
𝑺𝑸𝑹
𝟐
𝟏−𝐫 =
𝑺𝑸𝑻
Em síntese, o ajustamento da reta de regressão aos pontos observados é mais eficiente
quanto mais perto de 1 estiver o valor do coeficiente de determinação r2. Se 𝑟 2 = 0,81, por
exemplo, indica que aproximadamente 81% da variação em Y está relacionada com a variação
de X e é explicada eficientemente pelo modelo linear. Em contraponto, 19% da variação em Y
não é explicada em função de X.
Esse coeficiente, não por acaso, é representado por 𝑟 2 , pois trata-se do coeficiente de
correlação 𝒓 elevado ao quadrado. Ou seja, quanto maior a correlação linear (força de
associação) entre uma variável (X,Y), maior é eficiência de explicar Y em função de X por um
modelo de regressão linear.
𝒓𝟐 = (𝒓)𝟐
𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑫𝒆𝒕𝒆𝒓𝒎𝒊𝒏𝒂çã𝒐 = (𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑪𝒐𝒓𝒓𝒆𝒍𝒂çã𝒐)𝟐
MUDE SUA VIDA!

341
É muito comum questões de Estatística cobrarem sobre coeficiente de correlação, a partir

da análise de variância da regressão. Para obter o resultado, basta encontrar a proporção que
representa o coeficiente de determinação e extrair a raiz quadrada. O contrário também é
comum, ou seja, em questões de correlação perguntar o valor de r2. Essa igualdade resolve
facilmente esses tipos de questões. Veja que não conseguimos definir o sinal da correlação,
para isso é preciso observar a relação entre as variáveis.
Vejamos o que ocorre com a Soma dos Quadrados em duas situações particulares:
➢ Correlação Perfeita (𝑟 = 1 ou 𝑟 =– 1): Nessa situação, a reta ajustada passa
exatamente sobre todos os pontos observados. Assim, todos os erros são iguais a
zero, e a regressão linear explica toda a variação de Y. Logo:
SQR = 0
SQT = SQE
Coeficiente de Determinação (r2) = 100%
➢ Correlação Nula (𝒓 = 𝟎): Nesse caso, a reta de regressão é paralela ao eixo X

(coeficiente angular “𝑏” igual a zero). A reta de regressão não consegue explicar as
variações de Y e praticamente não passa por nenhum ponto, logo:
SQE = 0
SQT = SQR
Coeficiente de Determinação (r2) = 0
MUDE SUA VIDA!

342
DISTRIBUIÇÃO F DE SNEDECOR
Para dar continuidade a respeito da análise de regressão linear, precisamos conhecer uma
nova distribuição de probabilidade utilizada para efetuar testes de hipóteses na variância. A
distribuição 𝐹 de Snedecor, também conhecida como distribuição de Fisher, corresponde a uma
distribuição de probabilidade contínua que é frequentemente utilizada na inferência estatística
para análise da variância.
Em testes de hipóteses, um importante exemplo da distribuição 𝐹 de Snedecor
corresponde a estatística F. Suponha que temos duas populações independentes com
distribuições Normais e variâncias iguais a 𝜎 2 . Ao extrair duas amostras, uma para cada
população independente, pode ser analisado se as variâncias amostrais 𝒔𝟐𝑨 e 𝒔𝟐𝑩 são diferentes
entre si ou não. Para isso, é preciso aplicar a divisão entre essas variâncias (variância maior
sob a menor).
𝑨𝒎𝒐𝒔𝒕𝒓𝒂 𝑨 → 𝑨𝒑𝒓𝒆𝒔𝒆𝒏𝒕𝒂 𝒗𝒂𝒓𝒊â𝒏𝒄𝒊𝒂 𝒔𝟐𝑨 𝒄𝒐𝒎 𝒏 𝒆𝒍𝒆𝒎𝒆𝒏𝒕𝒐𝒔

𝑨𝒎𝒐𝒔𝒕𝒓𝒂 𝑩 → 𝑨𝒑𝒓𝒆𝒔𝒆𝒏𝒕𝒂 𝒗𝒂𝒓𝒊â𝒏𝒄𝒊𝒂 𝒔𝟐𝑩 𝒄𝒐𝒎 𝒎 𝒆𝒍𝒆𝒎𝒆𝒏𝒕𝒐𝒔
𝒔𝟐𝑨 > 𝒔𝟐𝑩
Logo:
𝒔𝟐𝑨
~ 𝑭(𝒏 − 𝟏, 𝒎 − 𝟏)
𝒔𝟐𝑩
Desse modo, a divisão entre as variâncias amostrais corresponde a uma variável aleatória
com distribuição de Snedecor com 𝒏 − 𝟏 graus de liberdade no numerador e 𝒎 − 𝟏 graus de
liberdade no denominador, em que 𝒔𝟐𝑨 e 𝒔𝟐𝑩 são as variâncias amostrais da primeira e da
segunda amostra, respectivamente.
A razão entre as variâncias obtém um valor de quantas vezes a variância da amostra
A é superior a variância da amostra B. Em consequência, a Estatística de teste 𝐹 verifica se
essa razão é significativa e, portanto, as variâncias serão diferentes.
A distribuição 𝐹 de Snedecor é determinada por dois tipos de graus de liberdade, os
correspondentes à variância no numerador, e os que correspondem à variância no
denominador. A forma da distribuição 𝐹 de Snedecor varia conforme esses parâmetros, porém,
de modo geral, a função densidade distribui os valores de F da seguinte forma:
MUDE SUA VIDA!

343
É uma distribuição assimétrica para direita, tem limite inferior determinado e tende para
o lado positivo sem limite (+∞). Não assume valores negativos uma vez que a variância é
sempre elevada ao quadrado. A área total sob cada curva de uma distribuição 𝐹 é igual a 1.
Os valores de probabilidade são tabelados conforme os graus de liberdade do numerador
e denominador. Geralmente apresenta uma tabela específica para cada nível de significância 𝛼.
Segue em exemplo, uma tabela F para 5% de probabilidade de erro, em que os graus de
liberdade do numerador correspondem as colunas e os graus de liberdade do denominador
correspondem as linhas:
TESTE DE HIPÓTESES DA VARIÂNCIA (TESTE F)

Após conhecer sobre a distribuição de probabilidade 𝐹, podemos aplicar o conceito da
Estatística F para testar os dois componentes da variância da regressão. Isto é, pode ser
aplicado um teste de hipótese que verifica da se a variância explicada pela regressão é
diferente e superior a variância dos erros da regressão. Assim, se F corresponde a divisão
de duas variâncias, a estatística F para análise de variância da regressão é:
𝑸𝑴𝑬 𝑽𝒂𝒓𝒊â𝒏𝒄𝒊𝒂 𝑬𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂

𝑭= =
𝑸𝑴𝑹 𝑽𝒂𝒓𝒊â𝒏𝒄𝒊𝒂 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍
A razão QME/QMR, para uma regressão linear simples, tem distribuição F de Snedecor
com 1 graus de liberdade no numerador e 𝑛 − 2 graus de liberdade no denominador:
𝑸𝑴𝑬
𝑭= ~𝑭 𝒅𝒆 𝑺𝒏𝒆𝒅𝒆𝒄𝒐𝒓(𝟏, 𝒏 − 𝟐)
𝑸𝑴𝑹
Com a estatística F acima, obtém-se quantas vezes a variância explicada pela regressão é
superior a variância dos resíduos. Se está estatística for significativa, então temos que modelo
de regressão possui uma variância explicada significativamente superior aos efeitos aleatórios.
Portanto, o modelo apresenta inferências válidas.
Baseado nessa ideia, o teste 𝐹 da análise de variância da regressão apresenta as seguintes
hipóteses:
MUDE SUA VIDA!

344
Assim como qualquer teste de hipóteses, precisamos obter um Ftab conforme o nível de
significância 𝛼 e os graus de liberdade 1 no numerador e 𝑛 − 2 no denominador. O Ftab
delimitará a área de rejeição e aceitação de H0. Além disso, devemos calcular uma estatística
Fcal, obtida pela razão QME/QMR.
Com isso, confrontamos os valores na distribuição de probabilidade F de Snedecor e
verificamos o resultado do teste de hipóteses.
➢ Se Fcal ficar na área de aceitação de H0, a hipótese nula será aceita e as variâncias
serão iguais, portanto, o modelo de regressão linear não explicará eficientemente
as variações de Y;
➢ Se Fcal ficar na área de rejeição de H0, a hipótese nula será rejeitada e a variância
explicada pela regressão será superior a variância residual, portanto, o modelo
de regressão linear explicará eficientemente as variações de Y;
O teste F pode ser apresentado na tabela de análise de variância da regressão:
Causas de Graus de Soma dos Quadrados Quadrado Médio

Teste F
Variação Liberdade (ou Variação) (ou Variância)
Explicada 𝑺𝑸𝑬 𝑸𝑴𝑬

1 SQE 𝑸𝑴𝑬 =
(Regressão) 𝟏 𝑸𝑴𝑹
𝑺𝑸𝑹
Resíduo (Erro) 𝒏−𝟐 SQR 𝑸𝑴𝑹 = -
𝒏−𝟐
𝑺𝑸𝑻
Total 𝒏−𝟏 SQT 𝑸𝑴𝑻 = -
𝒏−𝟏
MUDE SUA VIDA!

345
A estatística 𝐹 pode também ser obtida a partir do coeficiente de determinação (r2),

conforme demonstrado a seguir:
𝑺𝑸𝑬
𝑸𝑴𝑬
𝑭= = 𝟏
𝑸𝑴𝑹 𝑺𝑸𝑹
𝒏−𝟐
Se dividir cada componente da fração por SQT, temos que:
𝑺𝑸𝑬
𝑸𝑴𝑬 𝐒𝐐𝐓
𝑭= =
𝑸𝑴𝑹 𝑺𝑸𝑹
𝐒𝐐𝐓(𝒏 − 𝟐)
O valor da razão não é alterado se a mesma operação matemática ocorre no numerador e
denominador, com isso, temos que:
𝟐
𝑺𝑸𝑬
𝐫 =
𝑺𝑸𝑻
𝑺𝑸𝑬
𝟏 − 𝐫𝟐 =
𝑺𝑸𝑻
𝐫𝟐 𝐫 𝟐 (𝒏 − 𝟐)
𝑭= =
𝟏 − 𝐫𝟐 𝟏 − 𝐫𝟐
𝒏−𝟐
𝐫 𝟐 (𝒏 − 𝟐)
𝑭=
𝟏 − 𝐫𝟐
Para finalizar a abordagem sobre análise de variância na regressão, vamos aplicar todo o
conhecimento obtido em um exemplo anteriormente trabalhado.
OBJETO DE ESTUDO:
quantificado a ocorrência de homicídios, em cada cidade.

Nesse exemplo, foi obtido o seguinte modelo de regressão linear:
𝒀𝒊 = 𝟏, 𝟓 + 𝟏, 𝟑𝟒𝑿𝒊 + 𝜺𝒊
MUDE SUA VIDA!

346
Qual é conclusão sobre a validade desse modelo quanto a análise da variância, a 5%

de probabilidade de erro?
Para variável Y, temos cinco dados amostrais, portanto 4 graus de liberdade.
Primeiramente, é necessário obter todos os componentes da variância, assim procede-se
da seguinte maneira:
(𝒀𝒊 − 𝒀 ̅ )𝟐
(𝒀𝒊 − 𝒀 ̂𝒊
𝒀 ̂𝒊 − 𝒀
𝒀 ̅ ̂𝒊 − 𝒀
(𝒀 ̅ )𝟐
5 12 -9,6 92,16 8,2 -13,4 179,56
10 13 -8,6 73,96 14,9 -6,7 44,89
15 18 -3,6 12,96 21,6 0 0
20 26 4,4 19,36 28,3 6,7 44,89
25 39 17,4 302,76 35 13,4 179,56
̅ = 𝟏𝟓
𝑿 ̅ = 𝟐𝟏, 𝟔
𝒀 𝜮=𝟎 𝜮 = 𝟓𝟎𝟏, 𝟐 - 𝜮=𝟎 𝜮 = 𝟒𝟒𝟖, 𝟗
̂𝒊
𝒀𝒊 − 𝒀 ̂ 𝒊 )𝟐
(𝒀𝒊 − 𝒀
3,8 14,44
-1,9 3,61
-3,6 12,96
-2,3 5,29
4 16
𝜮=𝟎 𝜮 = 𝟓𝟐, 𝟑
Após os procedimentos matemáticos, temos os componentes da variação:
𝑺𝑸𝑻 = 𝟓𝟎𝟏, 𝟐
𝑺𝑸𝑬 = 𝟒𝟒𝟖, 𝟗
𝑺𝑸𝑹 = 𝟓𝟐, 𝟑
𝟓𝟎𝟏, 𝟐 = 𝟒𝟒𝟖, 𝟗 + 𝟓𝟐, 𝟑
Desse modo, a tabela de análise de variância pode ser preenchida:
Soma dos Quadrado
Causas de Graus de
Quadrados Médio Teste F
Variação Liberdade
(ou Variação) (ou Variância)
Explicada 𝟒𝟒𝟖, 𝟗 𝟒𝟒𝟖, 𝟗
1 448,9 = 𝟒𝟒𝟖, 𝟗
(Regressão) 𝟏 𝟏𝟕, 𝟒𝟑
Resíduo 𝟓𝟐, 𝟑
𝟑 52,3 = 𝟏𝟕, 𝟒𝟑 -
(Erro) 𝟑
𝟓𝟎𝟏, 𝟐
Total 𝟒 501,2 = 𝟏𝟐𝟓, 𝟑 -
𝟒
MUDE SUA VIDA!

347
O valor de Ftab para nível de significância de 5%, com 1 grau de liberdade no numerador e
3 no denominador, é igual a:
𝑭𝒕𝒂𝒃 = 𝟏𝟎, 𝟏𝟑
Em concomitante, o valor da estatística Fcal:
𝟒𝟒𝟖, 𝟗
𝑭𝒄𝒂𝒍 = = 𝟐𝟓, 𝟕𝟓
𝟏𝟕, 𝟒𝟑
Veja que o valor de Fcal de 25,75 representa que a variância explicada pela regressão linear
é 25,75 vezes maior que a variância residual. Para que essa estatística seja significativa, basta
que a variância explicada seja maior em 10,13 (Ftab) vezes que a residual. Portanto, o resultado
do teste de hipóteses:
MUDE SUA VIDA!

348
Logo, a variância explicada pela regressão é significativamente superior a variância

residual, dessa forma, o modelo de regressão linear explica as variações observadas da variável
dependente Y eficientemente. Assim, a regressão é significativa, a 5% de probabilidade de erro,
e o modelo é válido.
Em síntese, o teste F é equivalente ao teste de hipótese do coeficiente de regressão linear
H0: 𝛽 = 0.Isso porque, ao rejeitar a hipótese nula, conclui-se que a variável independente tem
importância para explicar a variabilidade de Y.
Além do teste F, podemos quantificar o coeficiente de determinação:
𝟒𝟒𝟖, 𝟗
𝐫𝟐 = = 𝟎, 𝟖𝟗 = 𝟖𝟗%
𝟓𝟎𝟏, 𝟐
Por conseguinte, 89% da variação da variável dependente Y é explicada pelo modelo de
regressão linear 𝑌̂𝑖 = 1,5 + 1,34𝑋𝑖 , enquanto apenas 11% é devido a causa aleatórias não
explicadas (𝜀𝑖 ).
ANÁLISE DE RESÍDUOS
A Análise de Resíduos ( ou erros da regressão) consiste em um conjunto de técnicas para
investigar a adequabilidade do modelo com base nos resíduos. Os resíduos contêm informação
sobre o motivo do modelo não ter se ajustado bem aos dados. Além disso, a análise de resíduos
consegue indicar se uma ou mais suposições do modelo foram violadas.
Conforme as pressuposições apresentadas na análise de regressão, podemos identificar
pelos resíduos de houve a violação de umas das pressuposições. Os principais problemas
detectados por meio da análise dos resíduos são:
➢ Não-linearidade da relação entre X e Y ;
➢ Não Normalidade dos erros;
➢ Variância não-constante dos erros (heterocedasticidade);
➢ Correlação entre os erros;
➢ Presença de outliers ou observações atípicas;
➢ O modelo foi mal especificado (outras variáveis deveriam ser incluídas).
Identificar a violação dessas pressuposições é importante para validar as informações
obtidas pela análise de regressão. Uma vez que elas são violadas, os estimadores de mínimos
quadrados deixam de ser bons estimadores, além de que os testes de hipóteses não serão mais
apropriados.
MUDE SUA VIDA!

349
A análise de resíduos pode ser efetuada a partir de análise gráficas em que é observado
alguma tendência que indique a violação das pressuposições. As principais análises podem ser:
Histograma dos Resíduos
Análise de Resíduos
Gráfico de Probabilidade Normal dos
Resíduos
Gráfico Resíduos versus Valores
Estimados
Gráfico Resíduos versus Variáveis
Indpendentes
Gráfico Resíduos versus Tempo ou
Espaço
HISTOGRAMA DOS RESÍDUOS (𝜺𝒊 )
Uma forma para estudar a normalidade dos resíduos da regressão linear é a partir de um
histograma (gráfico de frequências dos resíduos). Nesse histograma, os valores de 𝜀𝑖 devem ser
simétricos em torno de zero. Caso contrário é um indicativo de não normalidade dos resíduos
ou ajuste não adequado do modelo de regressão linear. O uso do histograma torna-se útil com
amostras grandes.
A forma de um histograma que apresenta uma distribuição ideal é:
Qualquer outra forma gráfica do histograma que mude o padrão de assimetria é um

indicativo que os erros da regressão não seguem distribuição Normal. Por exemplo:
MUDE SUA VIDA!

350
GRÁFICO DE PROBABILIDADE NORMAL DOS RESÍDUOS (𝜺𝒊 )

O gráfico de probabilidade Normal dos resíduos é composto pelos valores de 𝜀𝑖 no eixo X
e o percentil respectivo de cada observação de 𝜀𝑖 (dados ordenados). Se os pontos plotados
nesse gráfico caem em torno de uma reta, indica que a distribuição é adequada (Normal).
Portanto, esse gráfico permite identificar se os 𝜀𝑖 seguem distribuição Normal e, também,
podem detectar dados atípicos.
Um exemplo de visualização gráfica ideal que indica a não violação das pressuposições
pode ser:
Se cada observação de 𝜀𝑖 corresponder a valores de percentil sob a forma de uma reta,

temos o indicativo de uma distribuição Normal, pois com aumento dos valores de 𝜀𝑖 a proporção
dos dados aumenta gradativamente.
Em situações em que os resíduos não seguem uma distribuição Normal, será observado
uma relação não linear. Veja:
MUDE SUA VIDA!

351
Nesse outro exemplo, vemos que há uma concentração de observações negativas de 𝜀𝑖

acumulando uma fração maior dos primeiros percentis. Assim, os pontos não se ajustam muito
bem a uma reta. Além disso, fornece a ideia de erros da regressão concentrados na cauda
esquerda (negativa), ou seja, uma distribuição assimétrica para esquerda o que foge da
normalidade.
̂𝒊)
GRÁFICO DE RESÍDUOS (𝜺𝒊 ) VERSUS VALORES ESTIMADOS (𝒀
Um gráfico de dispersão entre os erros da regressão com os valores estimados pela
regressão permite identificar: variância heterogênea dos 𝜀𝑖 ; não linearidade entre X e Y; valores
atípicos (outliers). O gráfico é disposto no eixo horizontal os valores de 𝑌̂, e no eixo vertical os
valores dos resíduos.
Para que essas pressuposições sejam atendidas, a forma gráfica ideal entre os resíduos e
os valores estimados é uma nuvem de pontos aleatórias e homogêneas em torno do eixo
horizontal 𝜀𝑖 = 0. Veja:
Quando a dispersão dos erros, de acordo com o aumento do valor estimado, for aleatória
e sem pontos atípicos indica a existência de uma variância constante para representar os erros
da regressão, ausência de valores atípicos e inexistência de relação não linear entre os dados.
As linhas tracejadas vermelhas mostram que a dispersão aleatória segue um padrão constante.
Em situações que os resíduos não apresentam uma variância constante, pode ser
observado que os resíduos aumentam ou diminuem com os valores estimados, os pontos
formam uma curva ao redor de zero, não estão dispostos aleatoriamente, poucos pontos no
gráfico ficam muito distantes dos demais (dispersão não homogênea dos pontos). Exemplo:
MUDE SUA VIDA!

352
Nesse outro gráfico, temos que a dispersão dos resíduos vai aumentando de acordo com
aumento dos valores estimados. Isso evidencia uma variância não constante (heterogênea)
para os resíduos, com maiores variações aleatórias de acordo com aumento de valores
estimados. Uma solução para corrigir esse problema é efetuar alguma transformação
matemática na variável Y de modo que essa dispersão se transforme em um valor constante.
Outra irregularidade que pode ser detectada é a presença de valores atípicos (outliers).
Essas observações fogem na nuvem aleatória e constante formada pelos pontos dos 𝜀𝑖 com 𝑌̂.
Entenda:
Os pontos que estão fora da linha tracejada indicam uma observação mal ajustada pelo
modelo de regressão, provavelmente se refere a outliers.
Além disso, a partir desse gráfico pode ser observado uma relação não linear entre os
resíduos e os valores estimados. Veja:
Nesse caso, podemos deduzir que regressão adequada não é linear. Desse modo, é
recomendado aplicar uma análise de regressão não linear.
MUDE SUA VIDA!

353
GRÁFICO DE RESÍDUOS (𝜺𝒊 ) VERSUS VARIÁVEL INDEPENDENTE (𝑿𝒊 )

Esse gráfico fornecerá as mesmas informações que aquelas vistas no gráfico de resíduos
e valores estimados. Além disso, pode ser efetuado um gráfico com variáveis independentes
não incluídas no modelo (para verificar a necessidade de um modelo de regressão múltipla). Se
houver algum padrão entre os erros da regressão e a variável não incluída, indica que existe
uma variação aleatória que pode ser explicada ao incluir essa variável independente no modelo.
GRÁFICO RESÍDUOS (𝜺𝒊 ) VERSUS TEMPO OU ESPAÇO
Quando os dados são coletados sequencialmente no tempo (por exemplo, coleta a cada
uma hora), ou então, quando são coletados sobre uma sequência espacial (por exemplo, de
acordo com a profundidade), pode existir a correlação entre os erros da regressão. Os resíduos
𝜀𝑖 devem ser independentes entre si. Esse gráfico tem o objetivo de verifica se os dados estão
correlacionados no tempo ou no espaço.
Para isso, os erros são plotados na ordem em que foram coletados de acordo com a
sequência temporal ou espacial. A presença de algum padrão indica correlação entres os
resíduos. Dessa forma, encontraremos que os dados são autocorrelacionados. A
autocorrelação pode ser positiva ou negativa.
Uma autocorrelação positiva indica que se um erro está acima de zero, o próximo tente
a estar também. Entenda:
Uma autocorrelação negativa indica que se um erro está acima de zero, o próximo tente
a estar abaixo. Entenda:
MUDE SUA VIDA!

354
Em síntese a tudo analisado, podemos resumir em uma tabela os gráficos dos resíduos
estudados e as pressuposições que são avaliadas em cada um:
Gráficos dos Resíduos Pressuposições Avaliadas

Histograma dos resíduos
Normalidade do Resíduo
Probabilidade Normal
Variância Constante (homogênea)
𝜀𝑖 vs 𝑌̂𝑖
Linearidade do Modelo
𝜀𝑖 vs 𝑋𝑖
Presença de Outliers
𝜀𝑖 vs Variáveis não incluídas Suficiência do Modelo de Regressão
𝜀𝑖 vs Tempo ou Espaço Ausência de Autocorrelação

(CESPE – Polícia Federal – Agente – 2018) Um pesquisador estudou a relação entre a
taxa de criminalidade (Y) e a taxa de desocupação da população economicamente ativa
(X) em determinada região do país. Esse pesquisador aplicou um modelo de regressão
linear simples na forma Y = bX + a + ε, em que b representa o coeficiente angular, a é o
intercepto do modelo e ε denota o erro aleatório com média zero e variância σ2. A tabela
a seguir representa a análise de variância (ANOVA) proporcionada por esse modelo.
A respeito dessa situação hipotética, julgue o próximo item, sabendo que b > 0 e que o
desvio padrão amostral da variável X é igual a 2.
1. A estimativa do coeficiente angular b, pelo método de mínimos quadrados ordinários, é
igual a 0,25.
GABARITO: Correto.
A questão apresenta a análise de variância para relação da taxa de
criminalidade (Y) em função da taxa de desocupação da população economicamente
ativa (X). A fonte de variação modelo corresponde aquela explicada pela regressão
linear, enquanto o erro corresponde a variação aleatória não explicada pelo modelo
de regressão.
MUDE SUA VIDA!

355
A variação explicada pela regressão (nessa questão expressa pela soma dos
quadrados do modelo) corresponde a distância do valor estimado 𝑌̂ pelo modelo
em relação a média 𝑌̅, calculado por ∑(𝒀 ̅ )𝟐 . Em adição, essa variação também
̂−𝒀
pode ser explicada em função de X junto ao coeficiente de regressão linear, baseado
na seguinte relação matemática:
Logo, temos que:
Para obter o coeficiente de regressão linear 𝑏, precisamos também encontrar a

variação de X (soma dos quadrados de X). Para obter essa informação podemos
utilizar o desvio padrão de, fornecido na questão, ao nosso favor. Lembre-se que a
variância amostral é composta pelos seguintes elementos:
Com isso podemos chegar na variação de X, já que temos o desvio padrão de

X (𝜎 = 2) e os graus de liberdade total (𝑛 − 1 = 900). Utilizamos os GL total, pois foram
amostrados 901 pares de informações (X,Y), assim temos 901 elementos amostrados
no total para as X e Y. Com isso, temos que a variação de X é:
Após obter a variação de X, podemos voltar a relação inicial entre a variação

explica de Y com a variação de X, tendo apenas como incógnita o coeficiente de
regressão 𝑏:
MUDE SUA VIDA!

356
Como a questão forneceu que 𝑏 > 0, sabemos que ele é de fato positivo. Logo,
questão correta.
2. A estimativa da variância σ2 é superior a 0,5.

GABARITO: Errado.
Pelo o que é possível interpretar da questão a variância σ2 citada trata-se da
variância do erro. Dessa forma, basta calcular o quadrado médio do erro (relação
entre variação do erro sob graus de liberdade do erro). Contudo, apenas observando
que temos a relação de 𝑆𝑄𝐸 = 175 𝑒 𝐺𝐿𝑅 = 899, já conseguimos definir que é inferior a
50%, inferior a metade. Porém, para deixar evidente:
A questão deixa um pouco confusa a interpretação de qual variância ela está

interessada, na do erro ou total, porém em ambos os casos seria obtida uma resposta
inferior a 50%.
3. A correlação linear de Pearson entre a variável resposta Y e a variável regressora X é igual

a 0,75.
GABARITO: Correto.
Para obter a correlação linear entre duas variáveis a partir de uma tabela de
análise de variância, o caminho mais prático é obter o coeficiente de determinação
r2, e depois extrair a raiz quadrada desse coeficiente para obter a correlação linear.
O coeficiente de determinação consiste na proporção do quanto a variação de
Y é explicada pela variação de X, em outras palavras temos que:
Como sabemos que 𝑏 > 0, então a correlação linear também é positiva (relação
diretamente proporcional). Assim, 𝑟 = 0,75 e a questão é correta!
MUDE SUA VIDA!

357
(CESPE – Polícia Federal – Papiloscopista – 2018) O intervalo de tempo entre a morte

de uma vítima até que ela seja encontrada (y em horas) denomina-se intervalo post
mortem. Um grupo de pesquisadores mostrou que esse tempo se relaciona com a
concentração molar de potássio encontrada na vítima (x, em mmol/dm3 ). Esses
pesquisadores consideraram um modelo de regressão linear simples na forma y = ax + b
+ ε, em que a representa o coeficiente angular, b denomina-se intercepto, e ε denota um
erro aleatório que segue distribuição normal com média zero e desvio padrão igual a 4.
As estimativas dos coeficientes a e b, obtidas pelo método dos mínimos quadrados
ordinários foram, respectivamente, iguais a 2,5 e 10. O tamanho da amostra para a
obtenção desses resultados foi n = 101. A média amostral e o desvio padrão amostral da
variável x foram, respectivamente, iguais a 9 mmol/dm3 e 1,6 mmol/dm3 e o desvio
padrão da variável y foi igual a 5 horas.
A respeito dessa situação hipotética, julgue o item a seguir.
OBSERVAÇÃO:
Nessa questão, a banca inverteu as simbologias do coeficiente de regressão e
o intercepto (𝑎 e 𝑏), diferente da questão anterior. Isso é um padrão bem triste para
estudar o perfil da banca. Porém, o aluno não deve se apegar tanto a simbologias
matemáticas e sim associar aos seus conceitos e informações geradas.
4. De acordo com o modelo ajustado, caso a concentração molar de potássio encontrada em

uma vítima seja igual a 2 mmol/dm3 , o valor predito correspondente do intervalo post
mortem será igual a 15 horas.
GABARITO: Correto.
O valor predito da variável dependente Y, corresponde ao valor estimado pelo
modelo de regressão linear. Assim, sabendo que o modelo que estima o tempo post
mortem em função da concentração molar de potássio encontrada na vítima é:
Logo, para 𝑋 = 2 𝑚𝑚𝑜𝑙/𝑑𝑚3 , temos que o valor de 𝑌̂ é igual a:
Assim:
MUDE SUA VIDA!

358
5. O erro padrão associado à estimação do coeficiente angular foi superior a 0,30.

GABARITO: Errado.
O erro padrão associado ao coeficiente angular (coeficiente de regressão),
representado por 𝑠𝑏 consiste no erro de estimativa da regressão (𝑠𝑒 ) sob cada
variação de X. Logo, podemos afirmar que o erro padrão do coeficiente de regressão
𝒔𝒃 representa a contribuição no erro de estimativa (𝒔𝒆 ) para cada unidade de
desvio de X em relação à sua média.
Desse modo, podemos calcular 𝑠𝑏 da seguinte forma:
Dessa forma, para obter essa informação, é necessário o erro padrão da

estimativa da regressão (que nada mais é que o desvio padrão de erro da regressão
𝜀) e, também, da variação de X após retirar a raiz quadrada.
O valor do desvio padrão do erro da regressão foi fornecido na questão
𝒔𝒆 = 𝟒. Já a variação de X pode ser obtida pelo desvio padrão amostral de X que é
1,6 mmol/dm3. Sabendo a definição do desvio padrão, e que 𝑛 = 101, temos que:
Com isso, temos os dois componentes para calcular o erro padrão do coeficiente
angular 𝑠𝑏 , logo:
Em suma, questão está errada, pois não é superior a 0,3.
MUDE SUA VIDA!

359
6. O coeficiente de explicação do modelo (R2) foi superior a 0,70.

GABARITO: Errado.
O coeficiente de explicação (sinônimo de determinação) pode ser obtido
indiretamente pelo coeficiente de correlação (𝑟). Essa relação pode ser utilizada para
obter R2 quando temos dados referente a regressão linear e não temos a
análise de variância. Contudo, para obter o coeficiente de correlação, pode ser
aplicada a relação de igualdade com coeficiente de regressão (𝑏), que é a seguinte
(conforme deduzida na teoria):
Dessa forma, como temos o coeficiente de regressão (𝑏 = 2,5), o desvio padrão

de X (𝑠𝑥 = 1,6) e o desvio padrão de Y (𝑠𝑌 = 5), podemos calcular 𝑟:
Logo, se 𝑟 = 0,8, então 𝑟 2 é:
Portanto, a questão está errada pois o coeficiente de determinação 𝑟 2 é inferior

a 0,70.
7. A média amostral da variável resposta y foi superior a 30 horas.

GABARITO: Correto.
Para obter o valor da média da variável Y (tempo post mortem), basta aplicar
o modelo de regressão linear utilizando o valor médio da variável X (concentração
molar de potássio). Portanto, se conhecemos o modelo de regressão (𝑌 = 2,5𝑋 + 10)
e a média de X (𝑋̅ = 9 mmol/dm3), basta calcular:
Com isso, verificamos que o tempo média post mortem encontrado nesse
estudo foi de 32,5 horas, o que é superior a 30 horas. Portanto, questão correta.
MUDE SUA VIDA!

360

Estatística

Enviado por

Dados do documento

Descrição original:

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estatística

Enviado por

Direitos autorais:

Formatos disponíveis

alfaconcursos.com.

MUDE SUA VIDA!

MUDE SUA VIDA!

VARIÁVEIS ALEATÓRIAS ..................................................................................................................... 107

MUDE SUA VIDA!

QUESTÕES COMENTADAS DO CAPÍTULO ......................................................................................... 206

MUDE SUA VIDA!

DISTRIBUIÇÃO DE PROBABILIDADE CONDICIONAL ........................................................................... 290

MUDE SUA VIDA!

Dessa forma, o principal objetivo da Estatística é o estudo e a compreensão de uma

A Estatística utiliza, principalmente, a matemática aplicada para fazer a transformação

MUDE SUA VIDA!

A Estatística é uma ciência intensamente aplicada nas investigações de fenômenos, por

As informações geradas pela Estatística Descritiva, no exemplo acima, resumem o valor

MUDE SUA VIDA!

A Estatística Descritiva somente é completa e autossuficiente quando é possível obter

As principais técnicas empregadas na Estatística Inferencial são a estimação pontual, a

MUDE SUA VIDA!

MUDE SUA VIDA!

Além disso, é importante entender que o termo elementos corresponde a todas as

Conforme apresentado na ilustração, a fração de elementos retirada de uma população,

MUDE SUA VIDA!

extraídos representem o fenômeno de estudo presente na população. Mais à frente, teremos

MUDE SUA VIDA!

Sobretudo, as principais informações estudadas – média, desvio padrão, variância,

CARACTERÍSTICA AVALIADA: VARIÁVEL

MUDE SUA VIDA!

MUDE SUA VIDA!

MUDE SUA VIDA!

APLICAÇÃO DOS CONCEITOS

2. Uma pesquisa realizada com passageiros estrangeiros que se encontravam em

3. Com o objetivo de estudar o perfil de crescimento de beneficiários de um programa de

MUDE SUA VIDA!

Para avaliar o crescimento dos meninos, foi mensurada a massa corporal, em

4. Uma empresa coletou e armazenou em um banco de dados diversas informações sobre

5. Um pesquisador estudou a relação entre a ocorrência de criminalidade e a quantidade de

MUDE SUA VIDA!

MUDE SUA VIDA!

APRESENTAÇÃO DOS DADOS PARA UMA VARIÁVEL

X = {15, 20, 10, 30, 20, 15, 0, 5, 15}

Os dados brutos mostram que na primeira semana foram coletados 15 kg de drogas na

DADOS PONDERADOS (TABELA DE FREQUÊNCIA SEM INTERVALOS)

MUDE SUA VIDA!

Os tipos de frequência são:

DADOS AGRUPADOS (TABELA DE FREQUÊNCIA COM INTERVALOS)

MUDE SUA VIDA!

As questões de Estatística raramente pedem para estabelecer o número de classes, no

MUDE SUA VIDA!

MUDE SUA VIDA!

➢ Gráfico de Barras da Frequência Acumulada:

➢ Histograma da Frequência Absoluta:

MUDE SUA VIDA!

➢ Histograma da Frequência Acumulada:

O histograma representa o valor da frequência sob um intervalo de valores (intervalo da

Essa ilustração corresponde ao seguinte conjunto de dados brutos:

MUDE SUA VIDA!

𝑿 = {𝟎, 𝟓, 𝟏𝟎, 𝟏𝟓, 𝟏𝟓, 𝟏𝟓, 𝟐𝟎, 𝟐𝟎, 𝟑𝟎}

MUDE SUA VIDA!

➢ Polígono de Frequência Acumulada para Dados Ponderados:

➢ Polígono de Frequência Absoluta para Dados Agrupados:

MUDE SUA VIDA!

➢ Polígono de Frequência Acumulada para Dados Agrupados:

MUDE SUA VIDA!