Escolar Documentos
Profissional Documentos
Cultura Documentos
br
SUMÁRIO
INTRODUÇÃO À ESTATÍSTICA.................................................................................................................. 6
RAMOS DA ESTATÍSTICA ..................................................................................................................... 7
ESTATÍSTICA DESCRITIVA ........................................................................................................................... 7
ESTATÍSTICA INFERENCIAL ......................................................................................................................... 8
OBJETO DE ESTUDO ............................................................................................................................ 9
ELEMENTOS AVALIADOS: POPULAÇÃO ..................................................................................................... 9
CARACTERÍSTICA AVALIADA: VARIÁVEL .................................................................................................. 12
APLICAÇÃO DOS CONCEITOS ............................................................................................................. 15
ESTATÍSTICA DESCRITIVA ...................................................................................................................... 18
APRESENTAÇÃO DOS DADOS PARA UMA VARIÁVEL .......................................................................... 18
DADOS BRUTOS ....................................................................................................................................... 18
DADOS PONDERADOS (TABELA DE FREQUÊNCIA SEM INTERVALOS) ..................................................... 19
DADOS AGRUPADOS (TABELA DE FREQUÊNCIA COM INTERVALOS)....................................................... 20
GRÁFICOS DE FREQUÊNCIA ..................................................................................................................... 22
HISTOGRAMA .......................................................................................................................................... 23
DIAGRAMA DE PONTOS ........................................................................................................................... 24
POLÍGONO DE FREQUÊNCIA .................................................................................................................... 25
CURVA DE FREQUÊNCIA .......................................................................................................................... 27
DIAGRAMA DE RAMOS E FOLHAS ........................................................................................................... 29
APRESENTAÇÃO DE DADOS PARA DUAS OU MAIS VARIÁVEIS ............................................................ 30
TABELAS ................................................................................................................................................... 30
GRÁFICOS................................................................................................................................................. 30
GRÁFICO DE COLUNAS............................................................................................................................. 31
GRÁFICO DE BARRAS ............................................................................................................................... 32
GRÁFICO DE SETORES (PIZZA).................................................................................................................. 32
GRÁFICO DE DISPERSÃO .......................................................................................................................... 33
GRÁFICO DE LINHAS (POLÍGONOS).......................................................................................................... 34
MEDIDAS DESCRITIVAS ..................................................................................................................... 35
MEDIDAS DE POSIÇÃO: TENDÊNCIA CENTRAL ........................................................................................ 36
MÉDIA (𝑿 𝒐𝒖 µ) ....................................................................................................................................... 37
MEDIANA (ME) ........................................................................................................................................ 43
MODA (MO) ............................................................................................................................................. 48
MEDIDAS DE POSIÇÃO: SEPARATRIZES.................................................................................................... 51
QUARTIS (Q)............................................................................................................................................. 51
DECIS (D) .................................................................................................................................................. 56
PERCENTIL................................................................................................................................................ 57
BOX-PLOT................................................................................................................................................. 57
ESQUEMA DE CINCO PONTOS ................................................................................................................. 59
MEDIDAS DE DISPERSÃO ......................................................................................................................... 60
AMPLITUDE TOTAL (AT) ........................................................................................................................... 61
AMPLITUDE/INTERVALO INTERQUARTIL (AQ) ......................................................................................... 62
DESVIO QUARTIL (DQ) .............................................................................................................................. 62
DESVIO-MÉDIO (DM) ................................................................................................................................ 62
VARIÂNCIA (σ2 OU S2) .............................................................................................................................. 64
DESVIO PADRÃO (Σ OU S) ........................................................................................................................ 69
COEFICIENTE DE VARIAÇÃO (CV) ............................................................................................................. 72
COEFICIENTE DE VARIAÇÃO QUARTIL (CVQ) ........................................................................................... 73
MEDIDAS DE FORMA ............................................................................................................................... 73
ASSIMETRIA (AS) ...................................................................................................................................... 73
CURTOSE (C) ............................................................................................................................................ 79
TRANSFORMAÇÃO UNIFORME DOS DADOS ...................................................................................... 81
QUESTÕES COMENTADAS DO CAPÍTULO ........................................................................................... 85
TEORIA DA PROBABILIDADE ................................................................................................................. 91
DEFINIÇÕES BÁSICAS ........................................................................................................................ 91
ESPAÇO AMOSTRAL (Ω) ........................................................................................................................... 91
EVENTO .................................................................................................................................................... 92
CÁLCULO DA PROBABILIDADE ................................................................................................................. 92
AXIOMAS DA PROBABILIDADE .......................................................................................................... 93
1º AXIOMA ............................................................................................................................................... 93
2º AXIOMA ............................................................................................................................................... 94
3º AXIOMA ............................................................................................................................................... 94
INTERAÇÕES ENTRE EVENTOS PROBABILÍSTICOS ............................................................................... 95
INTERSEÇÃO............................................................................................................................................. 95
UNIÃO ...................................................................................................................................................... 96
EVENTOS DEPENDENTES ......................................................................................................................... 96
EVENTOS INDEPENDENTES ...................................................................................................................... 97
EVENTOS MUTUAMENTE EXCLUSIVOS.................................................................................................... 99
PROBABILIDADE CONDICIONAL ...................................................................................................... 100
CÁLCULO PELA FÓRMULA...................................................................................................................... 101
CÁLCULO PELA INTERPRETAÇÃO ........................................................................................................... 102
PROBABILIDADE COMPLEMENTAR .................................................................................................. 103
QUESTÕES COMENTADAS DO CAPÍTULO ......................................................................................... 104
INTRODUÇÃO À ESTATÍSTICA
A Estatística compreende a uma ciência que utiliza um conjunto de métodos científicos,
especialmente apropriados, com a finalidade de:
RAMOS DA ESTATÍSTICA
Antes de começar o estudo direcionado aos tópicos do edital de Estatística, é interessante
compreender alguns conceitos e classificações que serão utilizados durante todo o raciocínio
desenvolvido pela disciplina.
Inicialmente, deve-se entender que a Estatística é dividida em dois grandes campos
conforme o objetivo das análises utilizadas:
ESTATÍSTICA DESCRITIVA
A Estatística Descritiva consiste em análises que resumem concisamente um conjunto de
dados, sintetizam em poucas informações, organizam em tabelas, e ilustram por meio de
gráficos.
Esse campo da Estatística também é aplicado para efetuar análises exploratórias sobre
um conjunto de dados, pois é possível compreender uma tendência genérica dos resultados.
Com uso de medidas descritivas, gráficos e tabelas, pode ser observado um comportamento
padrão, intuitivo e representativo do fenômeno em estudo.
Por exemplo, com o desempenho médio de uma determinada característica obtida a partir
de um conjunto de dados brutos, é possível levantar hipóteses sobre o real desempenho desse
objeto de estudo, ou até mesmo, se sua performance pode ser superior a um outro fenômeno
estudado.
Um conjunto de dados brutos pode ser descritos a partir de medidas como média e desvio
padrão, ou organizados em tabela de frequência. Exemplo:
O valor da média estimada por um conjunto de dados de uma amostra é composto por um
possível erro de estimativa. Baseado nisso, calcula-se um intervalo de confiança em que o valor
estimado pode oscilar, isto é, média é 12,8, mas pode oscilar entre 10,33 até 15,27. De forma
bem genérica, essa é a ideia da Estatística Inferencial que trabalha com informações
incompletas e usa matemática aplicada para generalizar a informação obtida.
OBJETO DE ESTUDO
O objeto de estudo na disciplina de Estatística compreende a um fenômeno do mundo real,
uma realidade específica. Em outras palavras, tudo aquilo que ocorre ao redor do homem e que
ele tem o interesse de compreender suas características e seus comportamentos.
Desse modo, o objeto de estudo pode ser:
• Fenômenos biológicos e naturais;
• Comportamentos sociais;
• Aspectos políticos;
• Avaliação de equipamentos;
• Entre outros.
Praticamente, o objeto de estudo da disciplina é um “coringa”, ou seja, a Estatística pode
ser aplicada em qualquer fenômeno/realidade em que é possível extrair dados.
O fenômeno estudado em cada análise estatística é caracterizado basicamente por dois
componentes essenciais:
➢ Os elementos que serão estudados (População): de quem/onde os dados são
extraídos; e
➢ A característica que será avaliada (Variável): a natureza do dado extraído.
Segue a ilustração:
Dessa forma, em toda questão de Estatística, o aluno deve primeiramente analisar o cenário
apresentado em cada questão. Com isso, deve ser identificado quem são os elementos avaliados
ao qual pretende-se fazer inferências e o que será avaliado em cada elemento (qual
característica, atributo será contabilizado ou mensurado). Essa é uma leitura essencial para
iniciar a resolução de uma questão de Estatística.
ELEMENTOS AVALIADOS: POPULAÇÃO
Quando se refere aos elementos avaliados, deve-se ter o conhecimento pleno de quem
corresponde ao conjunto total de elementos do fenômeno estudado. Isso porque, todas as
inferências obtidas na Estatística serão válidas para todo esse conjunto, portanto não deve
haver conclusões incoerentes a população de estudo.
➢ Parâmetro x Estimativa:
Quando coletamos os dados referentes ao nosso objeto de estudo, é necessário
compreender que as informações geradas (por exemplo, média, desvio padrão, tamanho), a
partir de uma população ou de uma amostra, possuem características diferentes e específicas.
As informações obtidas de uma população, quando possível, são constantes que se
referem ao verdadeiro valor do fenômeno estudado. Isso porque, se todos os elementos de um
objeto de estudo forem analisados, será obtido um valor único e uma informação absoluta sobre
o fenômeno. Portanto, definimos que as informações provenientes de uma população são
parâmetros, ou seja, constantes, muitas vezes desconhecidas, de um valor representativo que
permite modelar a realidade.
Por outro lado, quando se obtêm valores provenientes da amostra, sabe-se que as
informações geradas representam uma fração do fenômeno estudado e, portanto, são valores
variáveis e aleatórios. Com isso, tem-se a ideia de que as informações obtidas da amostra são
estimativas de um parâmetro ao qual se deseja conhecer.
Então, denomina-se estimativa as informações provenientes de dados incompletos com
objetivo de generalizar um parâmetro populacional. Assim, é possível esquematizar:
➢ Variáveis Qualitativas
As variáveis de natureza qualitativa são representadas por dados que não tem informação
numérica e não é possível efetuar cálculos matemáticos com os dados propriamente ditos.
Dessa forma, os dados extraídos correspondem a categorias, classes definidas, ou qualidades.
Podem também ser denominadas por variáveis categóricas. Esta se subdivide em duas outras
classificações: nominais e ordinais.
• Variáveis Qualitativas Nominais:
São compostas por dados que representam qualidade, mas que não possuem nenhuma
ordem ou hierarquia entre eles, apenas identificam as categoriais distintas. Exemplos: gênero
(masculino e feminino), cor (azul, preto, amarelo etc.), país (Brasil, África do Sul, Japão etc.).
Veja que não existe nenhuma ordenação ou relação hierárquica entre os valores que a variável
qualitativa nominal pode assumir.
• Variáveis Qualitativas Ordinais:
Em contrapartida, as variáveis ordinais são aquelas representadas por dados categóricos
que possuem uma determinada ordenação ou hierarquia entre os valores que a variável pode
assumir. Exemplos: classe de renda (baixa, média, alta), experiência profissional (novato,
intermediário, veterano), grau de escolaridade (fundamental, médio, graduação, mestrado,
doutorado). Nesse contexto, é possível estabelecer uma ordem em cada categoria como baixa,
média e alta, ou como em novato, intermediário e veterano.
➢ Variáveis Quantitativas
As variáveis de natureza quantitativa são representadas por dados que possuem
informação numérica e neles podem ser efetuados cálculos matemáticos. Dessa forma, os dados
são basicamente representados por valores numéricos atribuídos, contabilizados ou
mensurados. Esta variável se subdivide em duas classificações: discretas e contínuas.
• Variáveis Quantitativas Discretas
São aquelas representadas por valores numéricos inteiros e definidos, não possuem um
intervalo entre um valor e outro (não possuem valores decimais). Geralmente, essas variáveis
correspondem a atribuição numérica dos eventos de um fenômeno específico (exemplo:
atribuição de fracasso ou sucesso de uma operação {0,1}, atribuição de números para cada face
de um dado {1, 2, 3, 4, 5 e 6} etc.), ou então representam a contagem de algum fenômeno
(exemplo: número de filhos por família, registros de roubos por dia, ocorrências de homicídios
por cidades, etc.). Veja que não é coerente quantificar valores não inteiros (decimais), afinal,
não existe metade de um filho, ou meio homicídio, para esses fenômenos os resultados são
taxativos, ou ocorre ou não ocorre.
• Variáveis Quantitativas Contínuas
Contudo, as variáveis contínuas são aquelas representadas por valores numéricos que
podem ser inteiros e decimais. Existe um intervalo infinito entre um valor e outro. Essas
variáveis estão associadas a fenômenos que no mundo real são mensurados (medidos) por
algum instrumento que o homem criou junto a uma convenção que o homem estabeleceu.
Exemplos: peso, altura, tempo, temperatura, velocidade etc. Veja que existe um intervalo
infinito entre 20 kg e 30 kg, por exemplo, que pode ser 21 kg; 20,5 kg; 20,01 kg; 20,0001 kg e
assim infinitamente representado.
O quadro a seguir resume toda a classificação de variáveis e fornece exemplos:
Em síntese, o quadro acima apresenta o resumo das principais informações que compõem
o objeto de estudo de cada exemplo. Conforme o contexto apresentado em cada questão de
Estatística, é muito importante, na primeira leitura, ter esses conceitos bem determinados. O
aluno deve ter uma visão crítica e analítica para identificar todo o cenário que será apresentado
na questão. Esse é ponto de partida para desenvolvermos todo os demais raciocínios da
disciplina.
ESTATÍSTICA DESCRITIVA
Como já abordado anteriormente, a Estatística Descritiva consiste em análises com
objetivo de descrever, organizar, resumir, simplificar e sintetizar um conjunto de dados
coletados sobre algum fenômeno em estudo. Além disso, ela tem utilidade como análise
exploratória, uma vez que resume o conjunto de dados. Com isso, a Estatística Descritiva
permite apontar tendências e levantar hipóteses sobre os possíveis resultados do fenômeno
estudado.
Como principais ferramentas para esse propósito, a Estatística Descritiva trabalha com
formas sintetizadas de apresentação de dados como tabelas e gráficos. Além disso, utiliza
medidas descritivas que são informações provenientes de cálculos que tentam descrever todo
conjunto de dados.
DADOS BRUTOS
Os dados brutos correspondem a listagem dos dados conforme eles foram coletados em
um estudo qualquer. Cada dado é dito como uma observação feita pelo homem a respeito de
uma variável analisada.
Conforme o exemplo abordado, os dados brutos referentes a quantidade de drogas
apreendidas podem ser representados da seguinte maneira:
Nessa tabela, é indicada a semana e seu respectivo registro de drogas apreendida. Veja
que nessa forma de representação, ainda tratamos de dados brutos.
Com essa análise, já podemos obter uma informação que será muito usada nos cálculos
matemáticos futuramente aplicados, o número de elementos (n). Basicamente, é a quantidade
de observações feitas na coleta de dados, isto é, n = 9. Outra característica que pode ser
observada nos dados brutos é a repetição de dados observados com mesmo valor, isso é uma
distinção muito importante comparada as demais formas de apresentação de dados.
Os dados brutos muitas vezes precisam ser ordenados para estudar a posição e
distribuição dos dados. Quando os dados estão ordenados, denominamos de rol. Exemplo:
∑ 𝒇𝒊 = 𝒏
𝒊=𝟏
Ainda, a soma da frequência relativa deve sempre ser igual a 1 ou 100%.
𝒏
∑ 𝒇𝒓𝒊 = 𝟏 𝒐𝒖 𝟏𝟎𝟎%
𝒊=𝟏
A última linha da frequência acumulada deve ser o número de elementos (n) e a última
linha da frequência acumulada relativa deve ser 1 ou 100%.
A primeira linha da frequência acumulada será igual a primeira linha da frequência
absoluta.
A primeira linha da frequência acumulada relativa será igual a primeira linha da
frequência absoluta.
Para agrupar os dados, é necessário definir duas informações: número de classes (nc) e
amplitude/intervalo da classe (h). Para definir o número de classes, podem ser utilizadas
diferentes metodologias, entre as principais está a regra de Sturges e o critério da raiz
quadrado.
O símbolo indica que o limite inferior está contido na classe e o superior não está. Já na
terceira e última classe, veja que o intervalo foi representado por 20 30, que engloba tanto
limite inferior como superior, para poder englobar todos os dados na tabela de frequência.
As simbologias de intervalos podem ser as seguintes:
➢ Intervalo que inclui o limite inferior e inclui o limite superior;
➢ Intervalo que inclui o limite inferior e exclui o limite superior;
➢ Intervalo que exclui o limite inferior e inclui o limite superior;
➢ Intervalor que exclui limite inferior e exclui o limite superior.
GRÁFICOS DE FREQUÊNCIA
Seguindo com as formas de apresentação de dados da variável X, a frequência pode ser
também ilustrada por meio de gráficos, tanto para os dados ponderados quanto os dados
agrupados. As principais representações gráficas associadas a frequência são: gráfico de barras,
histograma, diagrama de pontos, polígono de frequência e curva de frequência. Vamos abordar
o mesmo exemplo, apresentando as diversas representações gráficas que um mesmo conjunto
de dados pode ter.
GRÁFICO DE BARRAS
O gráfico de barras, com enfoque na frequência dos dados observados, representa em um
eixo as observações de X e, no outro eixo, a frequência de cada observação. Esse gráfico é
utilizado para a frequência de dados ponderados, em outras palavras, esse gráfico representa
a frequência para cada valor observado. Entenda:
➢ Gráfico de Barras da Frequência Absoluta:
HISTOGRAMA
Histograma é uma representação gráfica em retângulos (gráfico de barras verticais ou
barras horizontais) da distribuição de frequências de um conjunto de dados agrupados. Os
histogramas podem ser apresentados das seguintes formas:
DIAGRAMA DE PONTOS
Os dados de uma variável podem ser representados por um diagrama de pontos que
apresenta a frequência de cada observação com uso de pontos, isto é, basicamente um
histograma representado por pontos ao invés de colunas ou barras. Veja como fica
representado o diagrama de pontos, no mesmo exemplo abordado da aula anterior:
O gráfico é representado pelo seguinte esquema:
9
8
Frequência Acumulada 7
6
5
4
3
2
1
0
0 5 10 15 20 25 30
Quantidade de Drogas Apreendidas por Semana (kg/semana)
5
Frequência Absoluta
0
0 10 20 30
Quantidade de Drogas Apreendidas por Semana (kg/semana)
Para dados de frequência acumulada, o gráfico será sempre composto por uma linha
crescente até o número 𝑛 de observações (nesse exemplo, 𝑛 = 9).
CURVA DE FREQUÊNCIA
A curva de frequência evidencia uma imagem tendencial e apresenta o suposto
desempenho que o fenômeno teria com maior números de dados coletados. Esse gráfico é muito
usado para estudar a distribuição e o formato do conjunto de dados. A seguir, a representação
gráfica das curvas de frequência:
➢ Curva de Frequência Absoluta para Dados Ponderados:
Na tabela acima, cada coluna apresenta valores de uma variável diferente, associando os
dados de cada variável nas linhas da tabela. Assim, é possível afirmar que o concurso da Polícia
Federal, oferecerá 650 vagas, tem 85 mil inscritos, remuneração de R$ 12.600,00, e avaliado
por algum critério qualquer com dificuldade alta na prova. Veja que variáveis de diferentes
tipos (qualitativa e quantitativa) podem ser associadas sem problema algum.
GRÁFICOS
Os gráficos, de modo geral, são representações ilustrativas do conjunto de dados brutos
com maior apelo visual. Basicamente, os gráficos devem apresentar simplicidade, clareza na
leitura dos valores e veracidade nas informações sobre o fenômeno estudado. Existem
inúmeros formas de representação gráfica para duas ou mais variáveis, nesse material serão
abordados os principais gráficos cobrados nas provas de Estatística, entre eles, os gráficos de
colunas, barras, setor (pizzas), dispersão e linhas.
GRÁFICO DE COLUNAS
O objeto de estudo exemplificado a seguir será aplicado para ilustrar os gráficos de
colunas, barras e setores.
OBJETO DE ESTUDO:
Quantidade de prisões efetuadas por mês nos estados do sudeste brasileiro.
Rio de janeiro: 6200
São Paulo: 5000
Minas Gerais: 3200
Espírito Santo: 2600
GRÁFICO DE BARRAS
Os gráficos de barras praticamente invertem a relação dos eixos comparado aos gráficos
de colunas. Mas ainda permanece a associação de duas variáveis em que as barras representam
uma variável qualitativa e o comprimento das barras representa a variável quantitativa. O
mesmo exemplo abordado para o gráfico de colunas pode ser abordado no gráfico de barras.
Ainda, os gráficos de setores estabelecem uma relação do ângulo de cada setor com o
quantitativo de cada classe. Desse modo, é possível inferir que o total de prisões por mês
observado nesse exemplo corresponde a um ângulo de 360º. Assim, em simples cálculos de
proporção (regra de três) é possível calcular o ângulo do setor de cada classe. Exemplo:
𝟑𝟔𝟎° = 𝟏𝟎𝟎%
Para o Estado de São Paulo com 29,4%, tem-se:
𝑿 𝟐𝟗, 𝟒%
=
𝟑𝟔𝟎° 𝟏𝟎𝟎%
𝟑𝟔𝟎 × 𝟐𝟗, 𝟒 = 𝟏𝟎𝟎𝑿
𝟏𝟎𝟓𝟖𝟒
𝑿= = 𝟏𝟎𝟓, 𝟖𝟒°
𝟏𝟎𝟎
Assim, pode ser concluído que o setor que representa o estado de São Paulo deve ter um
ângulo de 105,84º nesse gráfico.
GRÁFICO DE DISPERSÃO
O gráfico de dispersão também é conhecido como gráfico de correlação. Isso porque é
possível identificar visualmente pelo gráfico uma tendência de associação entre as variáveis,
mais a frente, no decorrer do conteúdo, iremos trabalhar profundamente com conceito de
correlação. Sobretudo, entenda que o importante desse gráfico é identificar o que ocorre com
valores de uma variável quando a outra variável aumenta ou diminui. Para exemplificar a
aplicação desse gráfico, é necessário trabalhar com outro exemplo.
OBJETO DE ESTUDO:
Uma investigação policial tem objetivo de estudar a associação da quantidade
de drogas apreendidas, em kg, pela Polícia Civil em relação ao desempenho escolar
nos municípios do estado de Mato Grosso. O desempenho escolar foi avaliado pela
média das notas dos alunos de cada município.
Cada ponto presente no gráfico indica uma coordenada (associação) do valor da variável
desempenho médio das escolas com a variável quantidade de drogas apreendidas. Nesse
exemplo, é possível identificar uma tendência em que quanto maior o desempenho médio das
escolas menor é quantidade de drogas apreendidas no município.
O gráfico de dispersão é utilizado para associar duas variáveis quantitativas, não é
recomendado para variáveis qualitativa.
GRÁFICO DE LINHAS (POLÍGONOS)
O gráfico de linhas é semelhante ao polígono de frequência, a diferença é que o gráfico
associa duas variáveis diferentes e não trabalha com a frequência.
OBJETO DE ESTUDO:
Registro de denúncias na delegacia Y no decorrer de 20 dias, após fatos que
levaram a calamidade pública do município.
X = Tempo, em dias {0, 5, 10, 15, 20}
Y = Registro de Denúncias {20, 18, 26, 20, 34}
a ideia de transitividade e progressividade entre um valor e outro, ou seja, existem valores entre
o intervalo do dia inicial da contagem (dia 0) até o 5º dia. Não seria indicado para variáveis
qualitativas, uma vez que as classes são bem definidas sem transição entre um valor e outro,
nesse caso um gráfico de colunas ou barras é o apropriado.
MEDIDAS DESCRITIVAS
As medidas descritivas são resumos numéricos que tentam exprimir o comportamento
observado no conjunto de dados. São informações obtidas por cálculos matemáticos que
resumem, descrevem e interpretam os dados coletados de um fenômeno em estudo. Perante
um conjunto de dados grande, elas são altamente eficientes para tornar a informação manejável
e, com isso, pode-se relacionar os dados e levantar hipóteses de comparação.
No entanto, como acontece sempre que se resume algo, este processo implica na perda de
alguma informação mais detalhada. Por isso, conhecer as informações que podem ser obtidas
por cada medida descritiva, bem como as informações perdidas é essencial para uma análise
exploratória. Para alcançar sua completude, as medidas descritivas devem ser calculadas em
conjunto, pois cada uma extrai uma informação distinta em relação ao conjunto de dados e
quando juntas permitem uma interpretação satisfatória. Por exemplo, o valor da Média (medida
de tendência central) é frequentemente apresentado em associação com o valor do Desvio
Padrão (medida de dispersão).
Sobretudo, as medidas descritivas são classificadas de acordo com o tipo de informação
gerada. Desse modo, os tipos de medidas descritivas são: de posição (tendência central e
separatrizes); de dispersão (absolutas e relativas); e de forma. As principais medidas
descritivas que serão estudadas e sua respectiva classificação é apresentada no esquema a
seguir:
➢ Dados Brutos:
➢ Dados Agrupados:
Frequência
Valor Frequência Frequência Frequência
Acumulada
Observado (Xi) Absoluta (fi) Relativa (fri) Acumulada (Fi)
Relativa (Fri)
̅ 𝒐𝒖 µ)
MÉDIA (𝑿
A média é a medida de centralidade que quantifica o desempenho central (médio) da
variável estudada. É a medida que mais resume o conjunto de dados em informações
diretamente associada ao fenômeno em estudo. A média é considerada como um número que
tem a faculdade de representar uma série de valores. Ela quantifica a centralidade, pois leva em
consideração todos os dados observados em seu cálculo. Desse modo, é também a medida de
posição mais sensível a inserção de novos dados, principalmente se forem valores muitos
discrepantes (extremos) ao desempenho médio.
O desempenho central de um conjunto de dados pode ser obtido de acordo com diferentes
procedimentos matemáticos. Apesar de cálculos distintos, todas as metodologias tentam
resumir uma ideia de centralidade. Desse modo, a média pode ser aritmética (simples ou
ponderada), geométrica e harmônica. Segue o esquema:
̅ ):
➢ Média Aritmética (𝑿
É obtida pela soma de todas as observações do conjunto de dados dividido pelo número
de observações. A média aritmética pode ser simples ou ponderada, essas definições variam
conforme o peso atribuído para cada observação. A média aritmética simples é quando cada
observação tem o mesmo peso ou importância para se considerar no conjunto de dados. Assim,
pode ser representada matematicamente:
∑ 𝑿𝒊 𝑿𝟏 + 𝑿𝟐 + ⋯ + 𝑿𝒏
̅ 𝒔𝒊𝒎𝒑𝒍𝒆𝒔 =
𝑿 =
𝒏 𝒏
Em que 𝑋𝑖 corresponde ao valor de cada observação (na i-ésima observação).
Em contrapartida, a média aritmética ponderada é calculada levando em consideração
diferentes pesos (importância) para cada observação. O cálculo é efetuado pelo somatório do
produto de cada observação associado ao seu respectivo peso, divido pelo total dos pesos
atribuídos. Portanto, é representada:
∑ 𝑿𝒊 𝝆𝒊 𝑿𝟏 𝝆𝟏 + 𝑿𝟐 𝝆𝟐 + ⋯ + 𝑿𝒏 𝝆𝒏
̅ 𝒑𝒐𝒅𝒆𝒓𝒂𝒅𝒂 =
𝑿 =
∑ 𝝆𝒊 𝝆𝟏 + 𝝆𝟐 + ⋯ + 𝝆𝒏
Nota Peso
7,0 3,0
6,0 3,0
8,0 2,0
9,0 1,0
7,0 1,0
Se fosse calcular a média aritmética simples, considerando que todas as notas têm o
mesmo peso para média final do aluno, o cálculo seria da seguinte forma:
𝟕 + 𝟔 + 𝟖 + 𝟗 + 𝟕 𝟑𝟕
̅ 𝒔𝒊𝒎𝒑𝒍𝒆𝒔 =
𝑿 = = 𝟕, 𝟒
𝟓 𝟓
Veja que o cálculo é mesmo que atribuir peso um para cada valor observado.
Se fosse calcular a média aritmética ponderada, considera-se o peso individual de cada
observação. Assim, o cálculo seria:
𝟕×𝟑+𝟔×𝟑+𝟖×𝟐+𝟗×𝟏+𝟕×𝟏 𝟕𝟏
̅ 𝒑𝒐𝒅𝒆𝒓𝒂𝒅𝒂 =
𝑿 = = 𝟕, 𝟏
𝟑+𝟑+𝟐+𝟏+𝟏 𝟏𝟎
Nesse exemplo, a média aritmética ponderada teve valor inferior comparativamente a
média simples. Isso porque o aluno teve notas inferiores nas provas com maior importância
(peso).
̅ ):
➢ Média Geométrica (𝑮
Esse método de cálculo considera o princípio da multiplicação. O cálculo é efetuado
multiplicando cada observação e extraindo a raiz quadrada na potência equivalente ao número
de observações. Assim:
̅ = 𝒏√∏ 𝑿𝒊 = 𝒏√𝑿𝟏 × 𝑿𝟐 × … × 𝑿𝒏
𝑮
O símbolo Π representa o produtório das observações de Xi, isto é, a multiplicação de cada
observação. Tem a mesma ideia de que o somatório Σ, porém, ao invés de utilizar a soma, aplica-
se a multiplicação.
➢ Média Harmônica (𝑯 ̅ ):
O cálculo da média harmônica é efetuado invertendo a fração de cada observação e a
fração principal do cálculo de uma média aritmética simples. Basicamente, esse tipo de cálculo
é recomendado quando envolve grandezas que são inversamente proporcionais (exemplo,
velocidade e tempo). Desse modo, pode ser calculada da seguinte forma:
𝒏 𝒏
̅=
𝑯 =
𝟏 𝟏 𝟏 𝟏
∑ + + ⋯ +
𝑿𝒊 𝑿 𝟏 𝑿𝟐 𝑿𝒏
Dos três tipos de médias apresentadas (aritmética, geométrica e harmônica), a mais
importante e utilizada é a média aritmética simples. Para a maioria das provas de
Estatística, os cálculos da média geométrica e harmônica não são cobrados. O mais importante
é entender que todas as metodologias de cálculos estão preocupadas em quantificar uma
tendência central do conjunto de dados. Além disso, existe uma relação entre essas médias que
é muito cobrada em prova.
Para exemplificar essa relação será utilizado o seguinte conjunto de dados:
X = {1, 3, 9}
➢ Cálculo da Média Aritmética Simples
𝟏+𝟑+𝟗 𝟏𝟑
̅=
𝑿 = = 𝟒, 𝟑𝟑
𝟑 𝟑
➢ Cálculo da Média Geométrica
̅ = 𝟑√𝟏 × 𝟑 × 𝟗 = 𝟑√𝟐𝟕 = 𝟑
𝑮
➢ Cálculo da Média Harmônica
𝟑 𝟑 𝟑 × 𝟗 𝟐𝟕
̅=
𝑯 = = = = 𝟐, 𝟎𝟖
𝟏 𝟏 𝟏 𝟏𝟑 𝟏𝟑 𝟏𝟑
𝟏+𝟑+𝟗 𝟗
Com o exemplo abordado, é possível concluir que para o mesmo conjunto de dados,
somente quando assumirem valores positivos, a relação entre os tipos de média será:
𝑿 ̅≥𝑯
̅≥𝑮 ̅
A média aritmética será sempre maior que a média geométrica que, por sua vez, será
maior que a média harmônica. Somente serão iguais, quando os valores do conjunto de dados
forem idênticos entre si, por exemplo, X = {2, 2, 2, 2, 2}. Essa relação pode não ser verdadeira
quando a variável assumir ao menos um valor negativo.
Apesar das diferentes metodologias de cálculo, agora, toda vez que for abordado sobre
média utilizaremos apenas a média aritmética simples. O cálculo da média pode ser
aplicado diferentemente para cada forma de apresentação de dados, desse modo, serão
exemplificados os cálculos para dados brutos, ponderados e agrupados de acordo com exemplo
inicial.
➢ Cálculo da Média para Dados Brutos:
Para esse cálculo basta considerar cada repetição, mesmo que repetida, na fórmula
original da média.
𝟎 + 𝟓 + 𝟏𝟎 + 𝟏𝟓 + 𝟏𝟓 + 𝟏𝟓 + 𝟐𝟎 + 𝟐𝟎 + 𝟑𝟎
̅=
𝑿
𝟗
𝟏𝟑𝟎
̅=
𝑿 = 𝟏𝟒, 𝟒𝟒 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
𝟗
Baseado no exemplo, o valor médio da quantidade de drogas apreendido, em nove
semanas de estudo, corresponde a 14,44 kg/semana. Perceba que a unidade de medida
permanece a mesma que o fenômeno estudado.
Frequência Relativa
Valor Observado (Xi) Frequência Absoluta (fi)
(fri)
0 10 2 2/9
10 20 4 4/9
20 30 3 3/9
̅ = ∑ 𝑷𝒎𝒊 𝒇𝒓𝒊
𝑿
𝟐 𝟒 𝟑
̅ =𝟓×
𝑿 + 𝟏𝟓 × + 𝟐𝟓 ×
𝟗 𝟗 𝟗
̅ = 𝟏𝟔, 𝟏𝟏 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
𝑿
O cálculo da média com perda na precisão dos dados acarreta valor diferente daquele
calculado com os dados completos. Quando se trabalha com grande número de observações,
simplificar o conjunto de dados torna-se uma alternativa vantajosa para organização dos dados
mesmo com variação no valor mais apropriado para a média.
Outra informação importante referente a média é sua simbologia. Quando estamos nos
referindo a dados populacionais (censo), a média é representada por µ. Em contraponto, em
̅.
dados amostrais, ela é representada pela letra da variável com traço em cima, por exemplo, 𝑿
MEDIANA (Me)
A mediana é uma medida que divide o conjunto de dados em exatamente 50% de dados
observados para cada lado. Assim, a mediana separa um conjunto de dados em duas partes
com a mesma quantidade de elementos.
Por essa razão, a mediana é um valor de referência para indicar o dado que está
exatamente no centro. É uma medida ideal para ser utilizada quando o objetivo for classificar
os elementos avaliados e distingui-los quanto ao desempenho na metade.
Para calcular e identificar a mediana, é necessário que o conjunto de dados fique ordenado
na forma crescente, em rol. Além disso, se a quantidade de elementos for ímpar, o valor da
mediana corresponde ao valor de central do conjunto de dados. Todavia, se a quantidade de
elementos for par, é preciso calcular a média dos valores centrais para obter a mediana.
➢ Mediana para Dados Brutos:
Inicialmente, os dados devem ser colocados em ordem crescente, após isso deve ser
identificado a posição central. A identificação pode ser de forma visual ou calculando a posição
do centro.
Veja que a mediana é o valor 15 que está na quinta posição dos dados de nove elementos
ordenados. Quando for obter a mediana em um conjunto de dados muito extenso, identificar
visualmente o centro pode ser um pouco difícil, para isso calcular a posição central pode ser
uma alternativa vantajosa.
(𝒏 + 𝟏)
𝑷𝑴𝒆 = 𝒐𝒖 𝟎, 𝟓(𝒏 + 𝟏)
𝟐
(𝟗 + 𝟏)
𝑷𝑴𝒆 = =𝟓
𝟐
Assim, a posição central ou a posição da mediana (PMe) é calculada por 𝑛 + 1 divido por
dois. O cálculo fornece a posição central do conjunto de dados, que nesse caso corresponde a
posição 5. Veja:
Caso os dados apresentem número par no total de elementos, o cálculo da mediana fica
da seguinte forma, considerando outro exemplo hipotético qualquer:
A posição da mediana está entre a quarta e quinta posição. Nesse caso, deve-se calcular a
média entre os termos que estão no centro. Assim, a mediana é 17,5. Se fosse calcular a posição
central o resultado seria:
(𝟖 + 𝟏)
𝑷𝑴𝒆 = = 𝟒, 𝟓
𝟐
O valor 4,5 indica que a mediana está exatamente no centro entre o 4º termo e 5º termo
do conjunto de dados em análise. Veja:
10 2
Me 4,5
20 6
Essa relação de proporção é a interpolação linear. É possível associar que até o valor de
20 kg/semana acumula-se 6 observações, assim como, para 10 kg/semana acumula-se 2
observações. Logo, a divisão dessas diferenças estabelece uma relação de proporção com
qualquer outra relação nesse conjunto de dados. Assim, é possível igualar com a divisão de
diferenças que tenha a mediana como incógnita, sabendo que a mediana corresponde a
frequência acumulada da metade dos dados, isto é, posição 4,5. Resolvendo a conta matemática
tem-se:
𝟏𝟎 𝑴𝒆 − 𝟏𝟎
=
𝟒 𝟐, 𝟓
𝑴𝒆 − 𝟏𝟎
𝟐, 𝟓 =
𝟐, 𝟓
𝟐, 𝟓 × 𝟐, 𝟓 = 𝑴𝒆 – 𝟏𝟎
𝟔, 𝟐𝟓 + 𝟏𝟎 = 𝑴𝒆
𝑴𝒆 = 𝟏𝟔, 𝟐𝟓 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
Veja que o intervalo que vai de 0 até 10 kg/semana acumula até 2 observações, quase a
metade da posição da mediana (que é 4,5). Desse modo, sabe-se que a mediana estará perto do
meio do intervalo da classe mediana (10 até 20 kg/semana). Enquanto esse cálculo é efetuado,
o aluno deve entender que nunca obterá um valor que extrapole o limite da classe
mediana, assim se porventura ocorrer algum erro no cálculo que passe desse valor é
interessante revisar os cálculos, pois certamente houve algum erro.
A mediana, ao contrário da média, não depende de todos os valores observados; além
disso, sofre baixa influência de valores extremos. Em adição, não pode ser aplicada as
variáveis qualitativas nominais uma vez que não é possível ordenar os dados. A mediana é
adequada quando os dados apresentam grande variabilidade ou distribuição assimétrica, além
de valores extremos indefinidos.
MODA (Mo)
A moda é o valor observado que mais se repete no conjunto de dados, em outras palavras,
é o valor com maior frequência, ou então, valor com maior probabilidade de ocorrer. É
também a medida descritiva que pode ser facilmente identificada em um gráfico de frequência
absoluta (em qualquer tipo de representação gráfica), pois será sempre o pico (ponto mais alto)
do gráfico. Ao contrário da Média e da Mediana, a Moda tem que ser obrigatoriamente um valor
existente no conjunto de dados.
Um conjunto de dados pode ser Unimodal, quando somente um valor tem mais
frequência, exemplo:
𝑿 = {𝟐, 𝟑, 𝟒, 𝟒, 𝟒, 𝟓, 𝟖} 𝑴𝒐 = 𝟒
Pode ser Bimodal (ou Trimodal, assim por diante) quando duas observações possuem
mais frequência do que as demais observações, exemplo:
𝑿 = {𝟐, 𝟑, 𝟒, 𝟒, 𝟒, 𝟔, 𝟕, 𝟕, 𝟕} 𝑴𝒐 = 𝟒 𝒆 𝟕
Quando o conjunto de dados não tem um valor que se repete, não existe moda e classifica-
se como Amodal, exemplo:
X = {2, 4, 7, 8, 9, 10, 15} Mo = Ø
➢ Moda para Dados Brutos:
Quando a questão apresentar dados na forma bruta, para obter a moda, basta identificar
o valor que mais se repete no conjunto de dados. Assim, conforme o exemplo:
X = {0, 5, 10, 15, 15, 15, 20, 20, 30}
Mo = 15 kg/semana
A observação de 15 kg/semana repete-se três vezes e mais nenhuma outra observação
tem esse mesmo número de observações. Logo, a moda é apenas 15 kg/semana.
➢ Moda para Dados Ponderados:
Em situação de dados ponderados, para identificar a observação que corresponde a moda,
devem-se utilizar as informações presente na tabela de frequência absoluta ou relativa.
Praticamente, a observação que possuir maior valor de frequência absoluta ou relativa será a
moda. Como é possível identificar na tabela a seguir:
Após essa etapa, é preciso calcular o valor pontual da moda, que estará dentro dos limites
da classe modal. Para isso, existem quatro metodologias matemáticas diferentes que podem ser
utilizadas.
➢ Moda Bruta
➢ Moda de Pearson
➢ Moda de Czuber
➢ Moda de King
Moda Bruta: é o método mais simples; consiste em tomar como Moda o ponto médio da
classe modal. Assim:
𝟐𝟎 + 𝟑𝟎
𝑴𝒐 = = 𝟐𝟓 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
𝟐
Moda de Pearson: é calculada por meio da média e da mediana. Dessa forma:
̅
𝑴𝒐 = 𝟑𝑴𝒆 − 𝟐𝑿
Consiste na diferença entre três vezes o valor da mediana menos duas vezes o valor da
média. Logo, consoante aos cálculos da média e mediana para dados agrupados (Me = 16,25; 𝑋̅
= 16,11):
𝑴𝒐 = 𝟑 × 𝟏𝟔, 𝟐𝟓 − 𝟐 × 𝟏𝟔, 𝟏𝟏
𝑴𝒐 = 𝟒𝟖, 𝟕𝟓 − 𝟑𝟐, 𝟐𝟐 = 𝟏𝟔, 𝟓𝟑 𝒌𝒈/𝒔𝒆𝒎𝒂𝒏𝒂
Moda de Czuber: essa metodologia estima a moda baseado nos valores de frequência das
classes modal, anterior a modal e posterior a modal. O cálculo é feito pela seguinte fórmula:
𝒇𝑴𝒐𝒅𝒂𝒍 − 𝒇𝑨𝒏𝒕.
𝑴𝒐 = 𝑳𝒊 + 𝒉
𝟐𝒇𝑴𝒐𝒅𝒂𝒍 − (𝒇𝑨𝒏𝒕. + 𝒇𝑷𝒐𝒔𝒕. )
Em que:
Li: corresponde ao limite inferior da classe modal; Li = 10
h: corresponde a amplitude da classe modal; h =10
𝑓𝑀𝑜𝑑𝑎𝑙 : frequência absoluta da classe modal; 𝑓𝑀𝑜𝑑𝑎𝑙 = 4
𝑓𝐴𝑛𝑡. : frequência anterior a classe modal; 𝑓𝐴𝑛𝑡. = 2
𝑓𝑃𝑜𝑠𝑡. : frequência posterior a classe modal; 𝑓𝑃𝑜𝑠𝑡. = 3
Imagine que a linha central representa uma série de dados observados sobre algum
fenômeno em estudo. Os quartis particionam o conjunto de dados em quatros partes com a
mesma quantidade de elementos.
➢ 1º Quartil (Q1):
É o valor que separa o rol de dados em 25% dos dados à sua esquerda e 75% à direita.
➢ 2º Quartil (Q2):
Separa 50% dos dados de cada lado, coincide com a mediana.
➢ 3º Quartil (Q3):
Separa o conjunto de dados em 75% dos dados à sua esquerda e 25% à direita.
Para localizar o valor de um quartil, é indicado calcular a posição respectiva que separa
os dados em partes correspondentes ao conceito de cada quartil. Desse modo:
(𝒏 + 𝟏)
𝑷𝑸𝟏 = 𝟎, 𝟐𝟓(𝒏 + 𝟏) =
𝟒
(𝒏 + 𝟏)
𝑷𝑸𝟐 = 𝟎, 𝟓(𝒏 + 𝟏) =
𝟐
𝟑(𝒏 + 𝟏)
𝑷𝑸𝟑 = 𝟎, 𝟕𝟓(𝒏 + 𝟏) =
𝟒
➢ Quartis para Dados Brutos:
Para obter os quartis em uma série de dados brutos, primeiramente, é necessário deixá-
los em rol crescente. Após isso, basta aplicar as fórmulas para calcular a posição respectiva da
observação correspondente a cada quartil.
(𝟗 + 𝟏)
𝑷𝑸𝟐 = 𝟎, 𝟓(𝟗 + 𝟏) = =𝟓
𝟐
Assim, o Q2 corresponde ao valor na 5ª posição:
𝟑(𝟗 + 𝟏)
𝑷𝑸𝟑 = 𝟎, 𝟕𝟓(𝟗 + 𝟏) = = 𝟕, 𝟓
𝟒
Assim, o Q3 com posição 7,5 corresponde à média entre o valor da 7ª e 8ª posição:
A segunda classe da tabela de frequência acumula a partir de 22% até 67% dos dados
(engloba 25% e 50% dos dados acumulados). Com isso, é possível inferir que a segunda classe
contém tanto o 1º quanto o 2º quartil. Já a terceira classe engloba 75% dos dados acumulados
e, por isso, contém o 3º quartil.
Após identificar as classes quartílicas, basta aplicar o cálculo de interpolação linear
seguindo a ideia da posição dos quartis:
∑ 𝒇𝒊 𝟗
𝑸𝟏 → = = 𝟐, 𝟐𝟓
𝟒 𝟒
∑ 𝒇𝒊 𝟗
𝑸𝟐 → = = 𝟒, 𝟓
𝟐 𝟐
𝟑(∑ 𝒇𝒊 ) 𝟑×𝟗
𝑸𝟑 → = = 𝟔, 𝟕𝟓
𝟒 𝟒
Assim, os cálculos desenvolvidos são, para Q1:
𝟐𝟎 − 𝟏𝟎 𝑸𝟏 − 𝟏𝟎
=
𝟔 − 𝟐 𝟐, 𝟐𝟓 − 𝟐
𝟏𝟎 𝑸𝟏 − 𝟏𝟎
=
𝟒 𝟎, 𝟐𝟓
𝟏𝟎 × 𝟎, 𝟐𝟓
= 𝑸𝟏 – 𝟏𝟎
𝟒
𝟐, 𝟓
= 𝑸𝟏 – 𝟏𝟎
𝟒
𝑸𝟏 = 𝟏𝟎 + 𝟎, 𝟔𝟐𝟓 = 𝟏𝟎, 𝟔𝟐𝟓
Para Q2:
𝟐𝟎 − 𝟏𝟎 𝑸𝟐 − 𝟏𝟎
=
𝟔 − 𝟐 𝟒, 𝟓 − 𝟐
𝟏𝟎 𝑸𝟐 − 𝟏𝟎
=
𝟒 𝟐, 𝟓
𝑸𝟐 − 𝟏𝟎
𝟐, 𝟓 =
𝟐, 𝟓
𝟐, 𝟓 × 𝟐, 𝟓 = 𝑸𝟐 – 𝟏𝟎
𝟔, 𝟐𝟓 + 𝟏𝟎 = 𝑸𝟐
𝑸𝟐 = 𝟏𝟔, 𝟐𝟓
Para Q3:
𝟑𝟎 − 𝟐𝟎 𝑸𝟐 − 𝟐𝟎
=
𝟗 − 𝟔 𝟔, 𝟕𝟓 − 𝟔
𝟏𝟎 𝑸𝟐 − 𝟐𝟎
=
𝟑 𝟎, 𝟕𝟓
𝟑, 𝟑𝟑 × 𝟎, 𝟕𝟓 = 𝑸𝟑 – 𝟐𝟎
𝟐, 𝟓 = 𝑸𝟑 – 𝟐𝟎
𝑸𝟑 = 𝟐𝟎 + 𝟐, 𝟓 = 𝟐𝟐, 𝟓
DECIS (D)
Os decis são medidas descritivas que dividem uma série em 10 partes iguais. Portanto,
existem nove decis; o primeiro tem 10% dos dados à sua esquerda, e 90% à sua direita; o
segundo tem 20% dos dados à sua esquerda, e 80% à sua direita, e assim por diante, até o nono
decil, que tem 90% dos dados à sua esquerda, e 10% à sua direita.
PERCENTIL
Os percentis são os 99 valores que separam uma série de dados em 100 partes iguais. O
cálculo dos percentis está relacionado com a percentagem. A posição de cada percentil pode ser
obtida da mesma forma que as demais separatrizes. Exemplo:
Percentil (P) Cálculo da posição
5º Percentil PP5 = 0,05(n+1)
20º Percentil PP20 = 0,20(n+1)
32º Percentil PP32 = 0,32(n+1)
50º Percentil PP50 = 0,50(n+1)
80º Percentil PP80 = 0,80(n+1)
Todas as separatrizes (mediana, quartis, decis e percentis) podem ser relacionadas da
seguinte forma:
𝑴𝒆 = 𝑸𝟐 = 𝑫𝟓 = 𝑪𝟓𝟎
BOX-PLOT
O Box-plot é uma representação gráfica que fornece informações sobre a posição central,
dispersão e assimetria da respectiva distribuição de frequência dos dados. O gráfico utiliza
cinco medidas estatísticas: mínimo, máximo, mediana, primeiro quartil, terceiro quartil.
Ele representa essas cinco medidas em um único conjunto de resultados, conforme apresentado
a seguir:
Vamos utilizar o exemplo abordado para o cálculo dos quartis para dados brutos, para
obter os gráficos de box-plot e esquema de cinco pontos. Para isso, é necessário calcular os
limites inferior e superior.
𝑸𝟏 = 𝟕, 𝟓 𝑸𝟐 = 𝑴𝒆 = 𝟏𝟓 𝑸𝟑 = 𝟐𝟎
𝑨𝒒 = 𝟐𝟎 − 𝟕, 𝟓 = 𝟏𝟐, 𝟓
𝑳𝒔 = 𝟐𝟎 + 𝟏, 𝟓𝒙𝟏𝟐, 𝟓 = 𝟑𝟖, 𝟕𝟓 ou 𝑿𝑴á𝒙 = 𝟑𝟎
𝑳𝒊 = 𝟕, 𝟓 − 𝟏, 𝟓𝒙𝟏𝟐, 𝟓 = −𝟏𝟏, 𝟐𝟓 ou 𝑿𝑴í𝒏 = 𝟎
Os limites inferior e superior formam um intervalo mais amplo do que as observações de
mínimo e de máximo, portanto, os valores de Xmín e Xmáx devem ser utilizados no box-plot
porque limitam mais o intervalo do conjunto de dados. Assim:
MEDIDAS DE DISPERSÃO
As medidas de dispersão ou variabilidade permitem visualizar como os dados espalham-
se (ou concentram-se) em torno de um valor central. Essas medidas indicam se um conjunto de
dados é homogêneo ou heterogêneo.
As medidas de posição (tendência central e separatrizes), por si só, não trazem
completude nas informações geradas. Isso pode ser facilmente comprovado quando se observa
dois conjuntos de dados distintos que podem geram a mesma tendência central. Por exemplo,
sejam dois conjuntos qualquer:
descritivas de posição precisam ser complementadas quanto o seu grau de dispersão, ou seja,
o quanto os dados se distanciam uns dos outros e de sua posição central (que pode ter como
referência a média ou mediana). Entenda essa relação por meio de gráficos:
Considerando que a linha horizontal representa o valor médio das variáveis, é possível
verificar que a dispersão da variável Y em relação à média é maior do que a variável X. Em
outros aspectos, pode-se afirmar que a variável X é mais homogênea do que a variável Y.
Portanto, as medidas descritivas de dispersão são essenciais e complementares para
compreender a performance do fenômeno estudado.
Ainda, quando falamos em dispersão dos dados, dois conceitos são de fundamental
compreensão: a amplitude e o desvio. O termo amplitude se refere a variação entre os valores
extremos de um conjunto de dados, desse modo, traz a ideia de dispersão máxima. Por outro
lado, o desvio é o distanciamento dos dados observados comparado a um valor de referência (o
desvio deve ser em relação a algum valor), que normalmente é uma medida de tendência
central.
Para quantificar esse aspecto, existem várias medidas descritivas de dispersão, entre elas
existem: amplitude total, amplitude/intervalo interquartílico, desvio quartil, desvio médio,
variância, desvio padrão, coeficiente de variação, coeficiente de variação quartil.
𝑨𝑸 = 𝑸𝟑 − 𝑸𝟏
A amplitude interquartil é uma medida essencial para calcular os limites inferior e
superior do box-plot. Com isso, é possível estabelecer limites menos vulneráveis a valores
extremos, uma vez que os quartis são pouco sensíveis aos outliers (ao contrário do que ocorre
com a amplitude total). A amplitude entre os quartis extremos mostra a variabilidade de 50%
dos dados que estão em torno da mediana, isto é, a distribuição da metade central dos dados.
Entenda pela ilustração:
Essa amplitude não é suficiente para avaliar a variabilidade, pois despreza 50% dos dados
(os extremos). É utilizada para determinar outliers (valores atípicos).
DESVIO QUARTIL (DQ)
Também denominado de amplitude semi-interquatílica, o desvio quartil pode ser
calculado obtendo a metade da amplitude interquartil, da seguinte maneira:
(𝑸𝟑 − 𝑸𝟏 )
𝑫𝑸 =
𝟐
O desvio quartil tem como ponto de referência de centralidade a mediana, uma vez que a
metade da amplitude interquartil é o próprio desvio dos quartis extremos em relação a
mediana.
O desvio quartil apresenta como vantagem o fato de ser uma medida fácil de calcular e de
interpretar. Além do mais, não é afetado pelos valores extremos. Trata-se de uma medida
insensível a distribuição dos dados menores que Q1 e maiores que Q3.
DESVIO-MÉDIO (DM)
Os desvios baseados nos quartis tem como referência a mediana e não consideram todo
conjunto de dados. Para obter uma compreensão completa sobre a variabilidade dos dados é
necessário utilizar a média como ponto de referência para os desvios, pois ela considera todo o
conjunto de observações em seu cálculo. Assim, a partir de agora será abordado medidas de
dispersão baseadas na média, e os desvios de cada observação serão obtidos pela diferença da
média:
𝐃𝐞𝐬𝐯𝐢𝐨 = 𝑿𝒊 – 𝝁
X = {2, 5, 6, 9, 10}
𝟐 + 𝟓 + 𝟔 + 𝟗 + 𝟏𝟎 𝟑𝟐
𝝁= = = 𝟔, 𝟒𝒄𝒎
𝟓 𝟓
Para quantificar a dispersão dos dados, uma alternativa interessante é tirar uma média
dos desvios de cada observação. Entretanto, quando somamos os desvios de cada observação
encontramos o seguinte resultado:
Cada linha da tabela calcula o desvio de uma observação em relação a média, quando
tentamos quantificar todos esses desvios (a própria dispersão do fenômeno estudado) obtemos
como somatório o valor zero. Isso ocorre porque a média é um valor de tendência central que
é quantificada por todas observações, assim os desvios em relação a ela têm o mesmo valor
para o lado negativo como para o lado positivo. Como pode ser observado na tabela acima, os
valores dessa variável desviam no intervalo de [-6,2cm; +6,2cm]. Os desvios possuem a mesma
unidade de medida que o fenômeno em estudo.
Diante dessa situação, alguns recursos matemáticos podem ser aplicados para evitar que
o somatório dos desvios se torne zero, ao mesmo tempo que seja possível quantificar a
dispersão da variável X. Uma alternativa é utilizar a função modular no cálculo dos desvios, isto
é,|𝑋𝑖 − 𝑋̅|, por exemplo:
𝑿𝒊 𝑿𝒊 – 𝝁 |𝑿𝒊 − 𝝁|
2 -4,4 4,4
5 -1,4 1,4
6 -0,4 0,4
9 +2,6 2,6
10 +3,6 3,6
Σ 0 12,4
𝑿𝒊 𝑿𝒊 – 𝝁 (𝑿𝒊 – 𝝁)2
2 -4,4 19,36
5 -1,4 1,96
6 -0,4 0,16
9 +2,6 6,76
10 +3,6 12,96
Σ 0 41,2
Portanto, o valor 41,2cm2 quantifica a soma de toda a dispersão (variabilidade) no
conjunto de dados em relação à média. Para obter um valor que represente uma variação média,
é interessante dividir pelo número de observações.
𝟒𝟏, 𝟐
𝝈𝟐 = = 𝟖, 𝟐𝟒 𝒄𝒎𝟐
𝟓
Desse modo, a variância dos dados é de 8,24 cm2. Apesar de trabalhar com valores
absolutos do fenômeno estudado, a variância, por elevar os desvios ao quadrado, tem sua
unidade de medida também elevada ao quadrado, como pode ser observado nesse exemplo
hipotético, em cm2. Isso faz com que a informação dessa medida descritiva não tenha a mesma
natureza da variável quantificada, o que implica na necessidade de mais um ajuste matemático
para obter uma medida coerente ao fenômeno em estudo.
Seguindo a linha de raciocínio desenvolvida, a fórmula da variância pode ser definida pelo
somatório dos desvios, em relação a média, elevado ao quadrado e dividido pelo número de
elementos:
𝟐
∑(𝑿𝒊 – 𝝁)𝟐
𝝈 =
𝑵
OBSERVAÇÃO:
O somatório dos desvios, em relação à média, ao quadrado pode também ser
denominado como Variação de X, afinal é o quanto a variável X está variando do
seu centro; outro conceito aplicado pode ser a Soma dos Quadrados de X.
Veja que tanto a simbologia da média (µ) quanto a da variância (σ2) foram representadas
por letras gregas. Conforme abordado nos conceitos iniciais, esses símbolos são aplicados
quando forem medidas referentes a população. Esses detalhes serão explicados com mais
profundidade no conteúdo de estimadores da Estatística Inferencial, por hora, entenda que
para variância, as fórmulas são diferentes quando os dados obtidos são provenientes da
população ou da amostra. Por conseguinte, as fórmulas são:
Basicamente, quando se trata de um conjunto de dados proveniente da população, utiliza-
se o parâmetro populacional da média µ, além de dividir o somatório dos desvios ao quadrado
por N, para assim, obter a variância σ2.
Por outro lado, quando o conjunto de dados for referentes a uma amostra, utiliza-se o
estimador do parâmetro da média 𝑋̅, e divide o somatório dos desvios ao quadrado por n-1,
para obter a variância s2. A princípio, o mais importante nas questões de Estatística Descritiva
é identificar se dados pertencem a uma amostra ou não, e dividir por 𝑛 ou 𝑛 − 1, somente isso.
Mais para frente, no tema de Estatística Inferencial, essa diferença será fundamentada.
Se tratarmos o exemplo anterior como uma amostra, o cálculo ficaria da seguinte forma:
̅ = 𝟔, 𝟒𝒄𝒎
𝑿
𝟐
𝟒𝟏, 𝟐
𝒔 = = 𝟏𝟎, 𝟑 𝒄𝒎𝟐
𝟒
A estimativa da média permanece a mesma que a população, apenas a simbologia o que
ela representa são diferentes. Quanta a variância, o cálculo é feito dividindo por n -1 e se obtém
um resultado diferente. É muito importante identificar na questão se os dados são amostras ou
não, pois isso muda todo o possível resultado de uma questão.
➢ Fórmula Alternativa:
Matematicamente, a fórmula da variância pode ser expressa diferente. Isso porque o
somatório dos desvios ao quadrado pode ser representado por outra notação, essa relação de
igualdade pode simplificar muito os cálculos da variância, além de ser muito aplicada nos
conteúdos mais avançados.
NOTAÇÃO SOBRE O SOMATÓRIO DOS DESVIOS AO QUADRADO:
𝒏 𝒏
𝟐 𝟐 (∑ 𝑿𝒊 )𝟐
∑(𝑿𝒊 − 𝝁) = ∑ 𝑿𝒊 −
𝑵
𝒊=𝟏 𝒊=𝟏
X = {2, 5, 6, 9, 10}
𝝁 = 𝟔, 𝟒𝒄𝒎
Após obter o valor da média, basta calcular a média de cada observação elevada ao
∑ 𝑋𝑖 2
quadrado, isto é, a média dos quadrados ( ). O cálculo pode ser procedido da seguinte
𝑁
maneira:
𝑿𝒊 𝑿𝒊 𝟐
2 4
5 25
6 36
9 81
10 100
2
∑ 𝑋𝑖 246
Se o somatório de cada uma das cinco observações elevadas ao quadrado é igual a 246,
então a média dos quadrados é igual a:
∑ 𝑿𝒊 𝟐 𝟐𝟒𝟔
= = 𝟒𝟗, 𝟐
𝑵 𝟓
𝟐
∑ 𝑿𝒊 𝟐
𝝈 = − 𝝁𝟐
𝑵
𝝈𝟐 = 𝟒𝟗, 𝟐 − 𝟔, 𝟒𝟐
𝝈𝟐 = 𝟒𝟗, 𝟐 − 𝟒𝟎, 𝟗𝟔 = 𝟖, 𝟐𝟒 𝒄𝒎𝟐
O resultado de 8,24cm2 é o mesmo daquele encontrado utilizando a fórmula original.
Quando os dados pertencerem a uma amostra, a fórmula alternativa não chega na mesma
conclusão anterior (média dos quadrados menos o quadrado da média). Isso porque o
denominador é n -1. Cuidado para não aplicar a dedução abordada anteriormente para dados
amostrais, pois a fórmula alternativa é a seguinte:
𝟐
(∑ 𝑿 𝒊 ) 𝟐
∑(𝑿 − ̅ )𝟐
𝑿 ∑ 𝑿𝒊 −
𝟐
𝒔 =
𝒊
= 𝒏
𝒏 − 𝟏 𝒏 − 𝟏
Se tratarmos o exemplo anterior como uma amostra, é interessante obter, além da soma
dos quadrados de cada observação (∑ 𝑋𝑖 2 ), o somatório total das observações (∑ 𝑋𝑖 ), sem
necessidade de obter a média:
𝑿𝒊 𝑿𝒊 𝟐
2 4
5 25
6 36
9 81
10 100
∑ 𝑿𝒊 = 𝟑𝟐 ∑ 𝑿𝒊 𝟐 = 𝟐𝟒𝟔
Assim, o cálculo pode ser efetuado da seguinte forma:
𝟐
𝟐 ( ∑ 𝑿𝒊 ) 𝟑𝟐𝟐
∑ 𝑿𝒊 − 𝟐𝟒𝟔 −
𝟐
𝒔 = 𝒏 = 𝟓
𝒏 − 𝟏 𝟓 − 𝟏
𝟏𝟎𝟐𝟒
𝟐𝟒𝟔 −
𝒔𝟐 = 𝟓 = 𝟐𝟒𝟔 − 𝟐𝟎𝟒, 𝟖
𝟒 𝟒
𝟐
𝟒𝟏, 𝟐
𝒔 = = 𝟏𝟎, 𝟑 𝒄𝒎𝟐
𝟒
Essa fórmula alternativa é também útil quando o valor da média não é exato, pois não
precisa subtrair cada observação de uma média que pode ter sofrido arredondamento.
DESVIO PADRÃO (σ ou s)
O desvio padrão é uma medida que fornece a ideia de distribuição dos desvios em relação
ao valor da média, semelhante ao desvio-médio. A diferença está que ele não é obtido por meio
da função modular e sim a partir da variância que utiliza a função quadrática.
O cálculo da variância eleva as observações ao quadrado, transformando a natureza do
fenômeno estudado. No exemplo abordado, o valor da variância foi 8,24cm2, desse modo, a
variância deixa de expressar um valor referente ao comprimento linear e transforma-se em
uma grandeza de área, isto é, a variância perde a grandeza do fenômeno estudado. Para
corrigir matematicamente essa distorção é necessário tirar a raiz quadrada da variância, e
transformá-la em um desvio com unidade de medida da variável analisada.
Esse desvio é dito como padrão, pois é muito mais vantajoso matematicamente obter o
desvio por meio da variância do que pela função modular. Em outras palavras, a variância é
apenas um meio para obter a medida de dispersão que melhor representa a variabilidade
absoluta do fenômeno em estudo: o desvio padrão. Assim, pode ser obtido, simplesmente,
extraindo a raiz quadrada da variância:
Para interpretar se o desvio padrão está alto ou baixo, devemos compará-lo com o valor
da média. Quanto maior o valor do desvio padrão em relação à média, maior então será a
variação dos dados e mais heterogêneo é o nosso conjunto de observações.
➢ Variância e Desvio Padrão para Dados Brutos:
Com conjunto de dados brutos os cálculos da variância e do desvio padrão podem ser
efetuados pelo método convencional (associado à sua definição e finalidade), como também
podem ser calculados pela fórmula alternativa.
Para o cálculo convencional da variância, pode ser efetuado seguindo as etapas em
sequência lógica:
• 1ª etapa: calcular a média (𝜇 𝑜𝑢 𝑋̅) do conjunto de dados;
• 2ª etapa: obter os desvios, em relação à média, de cada observação
(𝑑𝑖 = 𝑋𝑖 − 𝜇);
• 3ª etapa: elevar cada desvio ao quadrado [𝑑𝑖 = (𝑋𝑖 − 𝜇)2 ];
• 4ª etapa: obter o somatório dos desvios ao quadrado [∑(𝑋𝑖 − 𝜇)2 ];
• 5ª etapa: dividir o somatório por 𝑛 quando o conjunto de dados se tratar de uma
população, ou dividir por 𝑛 − 1 quando for referente a uma amostra. Com isso,
obtém a variância (𝜎 2 𝑜𝑢 𝑠 2 );
0 10 2 20%
10 20 5 50%
20 30 3 30%
Assim como para média, para calcular a variância, é necessário utilizar as informações da
frequência absoluta ou relativa. Com isso, a primeira etapa é calcular o ponto médio de cada
classe:
𝟏𝟎 + 𝟎
𝑷𝒎𝟏ª = = 𝟓 𝒌𝒈
𝟐
𝟐𝟎 + 𝟏𝟎
𝑷𝒎𝟐ª = = 𝟏𝟓 𝒌𝒈
𝟐
𝟑𝟎 + 𝟐𝟎
𝑷𝒎𝟑ª = = 𝟐𝟓 𝒌𝒈
𝟐
Após isso, é também preciso calcular a média para obter os desvios em relação a ela:
𝟓 × 𝟐 + 𝟏𝟓 × 𝟓 + 𝟐𝟓 × 𝟑 𝟏𝟔𝟎
̅=
𝑿 = = 𝟏𝟔 𝒌𝒈
𝟏𝟎 𝟏𝟎
Ao considerar que cada observação coincide com o ponto médio de cada classe, é possível
entender que a observação de 5kg tem um desvio de -11kg em relação a média, e que este desvio
se repete duas vezes. O mesmo raciocínio pode ser aplicado aos demais pontos médios.
Portanto, o cálculo dos desvios ao quadrado pode ser esquematizado da seguinte forma:
𝑋𝑖 𝑓𝑖 𝑋𝑖 − 𝜇 (𝑋𝑖 − 𝜇 )2 𝑓𝑖 (𝑋𝑖 − 𝜇 )2
𝒔 = √𝟓𝟒, 𝟒𝟒 𝒌𝒈𝟐 = 𝟕, 𝟑𝟖 𝒌𝒈
MUDE SUA VIDA!
71
alfaconcursos.com.br
Lembre-se que para obter o desvio padrão, é necessário calcular a variância antes!
Acima de 50%: a média não é capaz de representar o conjunto de dados, pois existe uma
enorme dispersão.
COEFICIENTE DE VARIAÇÃO QUARTIL (CVQ)
O coeficiente de variação quartil é uma medida com interpretações semelhantes ao CV,
porém é relativa aos desvios dos quartis (também é adimensional). É uma medida útil para
comparação de diferentes variáveis quando possuem a presença de muito valores atípicos
(outliers). Nessa situação, é mais interessante observar a variação dos dados concentrados em
torno de 50% da mediana. O cálculo é assim efetuado da seguinte forma:
𝑨𝒒 𝑸𝟑 − 𝑸𝟏
𝑪𝑽𝑸 = =
𝑸𝟑 + 𝑸𝟏 𝑸𝟑 + 𝑸𝟏
MEDIDAS DE FORMA
As medidas de forma, ou de formato, caracterizam como os dados estão distribuídos em
relação a si mesmos. Com essas medidas, é possível determinar uma tendência da curva de
frequência. As principais informações são quanto a assimetria e o grau de achatamento da
distribuição (curtose). Entenda por distribuição todos os valores que a variável pode assumir e
onde estão mais concentrados (com maior frequência). A melhor forma de representar uma
distribuição é a partir da curva de frequência ou do histograma.
ASSIMETRIA (AS)
A medida de assimetria caracteriza como e quanto a distribuição (ou frequência) dos
dados se afasta de uma condição simétrica, isto é, indica o grau de distorção em relação a
simetria. Os dados são distribuídos simetricamente quando, ao separar em duas partes iguais,
possuem formatos iguais de distribuição para os dois lados. Portanto, ao cortar uma
distribuição na sua mediana, que separa o conjunto de dados em dois grupos de 50%, o formato
das distribuições particionadas devem ser iguais para que a distribuição seja simétrica. Assim:
Os dados com distribuição simétrica têm os valores de média, mediana e moda iguais para
uma distribuição unimodal. Desse modo, em uma curva de frequência com distribuição
simétrica, o pico da curva (ponto com maior frequência) será o valor de todas as três medidas
de tendência central.
Além disso, é possível observar que as distâncias entre os quartis extremos (Q1 e Q3) com
o quartil central (Q2) são iguais, isto é, são equidistantes. Isso ocorre porque os dados são
Veja que os dois formatos da distribuição particionada são espelhados (simétricos). Desse
modo, temos uma distribuição simétrica em que a moda é diferente da mediana e da média. No
entanto, o valor da média e da mediana são iguais. Assim, ao identificar que se trata de um
conjunto de dados com distribuição não unimodal, a representação gráfica pode ser uma
alternativa interessante para identificar a assimetria dos dados.
➢ Cálculo do Coeficiente de Assimetria:
Além de identificar a assimetria de uma variável pela sua distribuição de frequência, é
possível calcular o coeficiente de assimetria que permite classificar quanto ao tipo de
assimetria, além de quantificar o grau de distorção do conjunto de dados em relação a uma
forma simétrica. As fórmulas mais cobradas em prova para quantificar o coeficiente de
assimetria são:
• Coeficiente de Assimetria de Pearson:
Existem dois coeficientes de Pearson que calculam o grau de assimetria de uma
distribuição de dados, o primeiro coeficiente de Pearson pode ser obtido da seguinte forma:
̅ − 𝑴𝒐)
(𝑿
𝑨𝒔 =
𝒔
O 1º coeficiente de Pearson é calculado a partir da diferença da média pela moda, dividido
pelo desvio padrão. Essa fórmula pode ser inconsistente quando a distribuição dos dados não
foram unimodais, como exemplificado na situação anterior, assim surge a necessidade de um
segundo coeficiente que seja mais eficiente para quantificar a assimetria dos dados em
qualquer situação. Dessa forma, o segundo coeficiente de Pearson pode ser calculado por:
̅ − 𝑴𝒆)
𝟑(𝑿
𝑨𝒔 =
𝒔
O 2º coeficiente de Pearson é obtido por três vezes a diferença entre a média e a mediana,
dividido pelo desvio padrão. Esse coeficiente consegue quantificar com mais eficiência a
assimetria uma vez que o valor da mediana assume apenas um resultado.
Para ambos os coeficientes, os resultados são interpretados da seguinte forma:
• As = 0, dados com distribuição simétrica;
• As > 0, dados com distribuição assimétrica à direita, ou positiva;
• 2º Coeficiente de Pearson:
𝟑(𝟏𝟒, 𝟒𝟒 − 𝟏𝟓) −𝟏, 𝟗𝟖
𝑨𝒔 = = = −𝟎, 𝟐𝟐𝟒
𝟖, 𝟖𝟐 𝟖, 𝟖𝟐
• Coeficiente Quartílico:
𝟐𝟎 + 𝟕, 𝟓 − 𝟐𝒙𝟏𝟓 𝟐𝟕, 𝟓 − 𝟑𝟎 −𝟐, 𝟓
𝑨𝒔 = = = = −𝟎, 𝟐
𝟐𝟎 − 𝟕, 𝟓 𝟏𝟐, 𝟓 𝟏𝟐, 𝟓
Todos os resultados obtidos indicam que os dados são distribuídos assimetricamente
para o lado negativo (à esquerda). Como os valores são próximos de zero, é possível inferir que
os dados são levemente assimétricos, sendo sua distribuição de frequência muito próxima a
uma forma assimétrica.
CURTOSE (C)
A medida de curtose indica o grau de concentração dos dados em relação a sua
centralidade, também pode ser abordada como grau de achatamento da curva de frequência.
Basicamente, a forma da curva de frequência em relação à curtose podem ser:
➢ Mesocúrtica:
A distribuição dos dados com curtose mesocúrtica é o ponto de referência para
discriminar os demais tipos de curtose. Isso porque ela possui uma distribuição normal,
comportamento que os fenômenos de modo geral tendem a apresentar. Nesse tipo de curtose,
observa-se um aumento gradativo de frequência quando os dados se aproximam da sua
centralidade (média, mediana e moda), isto é, o grau de achatamento da curva é mediano.
➢ Leptocúrtica:
A curtose leptocúrtica apresenta observações mais concentradas em valores com maiores
frequências (maior concentração na centralidade), comparativamente a curtose mesocúrtica.
Observa-se um aumento mais abrupto na frequência quando se aproxima da centralidade. A
distribuição apresenta uma curva de frequência mais fechada que a normal (ou mais aguda em
sua parte superior).
➢ Platicúrtica:
A curtose platicúrtica apresenta observações mais distribuídas ao longo de todo conjunto
da dados com valores de frequência mais homogêneos entre as observações (menor
concentração na centralidade), comparativamente a curtose mesocúrtica. A curva de
frequência apresenta-se mais aberta que a normal (ou mais achatada na parte superior, como
um platô).
Outro fenômeno bem comum, é quando um conjunto de dados é multiplicado por uma
constante. Por exemplo, quando os salários de uma equipe de funcionários são duplicados por
uma promoção na empresa. Nessa situação, todas as observações são multiplicadas por dois.
Todos os dados foram deslocados em mais cinco unidades, junto a isso, as medidas que
representam a posição desses dados também são deslocadas na mesma proporção. O mesmo
resultado ocorre se os dados forem multiplicados ou divididos por um valor constante. Assim é
possível representar que:
Desse modo, se cada desvio é modificado, o valor total da variância e o desvio padrão
também é alterado. Entretanto, vale ressaltar que a variância eleva os valores dos desvios ao
quadrado, então o efeito da constante que for multiplicada/dividida também é elevado ao
quadrado. Já para o desvio padrão, como o valor é submetido a raiz quadrada, o efeito da
multiplicação/divisão altera o desvio padrão na mesma proporção da constante.
Por essa razão, nesse conjunto de dados exemplificado, sabendo que a variância (𝑠 2 ) é
igual a 113,36 e o desvio padrão (𝑠) é igual a 10,65, as transformações de dados causariam os
seguintes efeitos nas medidas de dispersão:
O coeficiente de variação, divisão do desvio padrão sobre a média, tem seu valor
alterado com operações de soma/subtração, já que o desvio padrão não é modificado e a
média sim. Dessa forma, o coeficiente é modificado devido ao denominador ser somado por
uma constante, enquanto o numerador permanece inalterado. Contudo, quando um conjunto
de dados é transformado por uma multiplicação/divisão, tanto o desvio padrão quanto a média
são modificados na mesma proporção, assim o valor do CV não é alterado. Entenda a partir de
um exemplo qualquer:
raciocínio também será desenvolvido no assunto de variáveis aleatórias, por isso é muito
importante que se faça a associação desses conhecimentos. Para sintetizar todo o conteúdo
assimilado, um quadro resumido dos efeitos pode ser bem útil:
Após isso, é preciso obter os desvios em relação a média, elevar cada desvio
ao quadrado, e efetuar o somatório desses desvios ao quadrado. Entenda:
Além disso, pode ser observado que o valor da mediana também é igual a
2, pois é na observação 2 que se acumula 50% dos dados. Basta, calcular as
frequências acumuladas relativas para descobrir isso. Entenda:
Com isso, temos de fato que a média e a mediana são iguais. Além disso,
a moda também coincide na observação de 2 incidentes/dia. Contudo, apesar da
relação de igualdade entre média, moda e mediana, não há uma relação
simétrica nesse conjunto de dados. Isso pode ser facilmente detectado,
GABARITO: Correto.
O segundo quartil (Q2) é o quartil central que separa o conjunto de dados
em 50% de observações para cada lado, sendo assim, esse quartil coincide com
a mediana. É correto afirmar que o segundo quartil acumula 50% da frequência
dos dados observados, logo, esse valor é igual a 2. O esclarecimento para essa
informação já foi elucidado na questão 5, onde foi obtida a mediana observando
a frequência acumulada.
TEORIA DA PROBABILIDADE
A teoria da probabilidade trabalha com a aplicação da intuição humana para estudar
quaisquer fenômenos do cotidiano. O ser humano, com objetivo de compreender os eventos
que ocorrem ao seu redor, utiliza o princípio básico de aprendizado: a experimentação. Dessa
forma, ele observa os possíveis resultados que um fenômeno pode apresentar, a partir de
experimentos, e tenta quantificar as chances que cada resultado ocorre. Basicamente, é uma
teoria criada a partir da prática, isto é, a partir de observações, estimam-se as possibilidades.
Todo esse conteúdo é fundamental para extrapolar informações incompletas de qualquer
objeto de estudo (base para Estatística Inferencial).
DEFINIÇÕES BÁSICAS
A experimentação é o meio pelo qual o homem simula e observa os possíveis resultados
de um determinado fenômeno em estudo. O resultado de um experimento é um estado final de
acontecimentos que não são previsíveis. De modo geral, os experimentos podem ser
determinísticos ou aleatórios.
➢ Experimento Determinístico (não aleatório):
É aquele que gera resultados constantes, sem variação e não aleatórios. O resultado
desse tipo de experimento, sempre que realizado e repetido nas mesmas circunstâncias, é um
evento determinado sem possibilidades de obter outro resultado. Por exemplo, reduzir a
temperatura da água abaixo de 0º graus Celsius e em condições normais de pressão, acarretará
o congelamento da água.
➢ Experimento Aleatório (Casual):
É o experimento que, mesmo repetido diversas vezes, sob as mesmas circunstâncias,
apresenta resultados diferentes. Desse modo, todas as eventualidades não podem ser
preditas e geram um conjunto de resultados denominado espaço amostral. Para esse tipo de
experimento, o que mais predomina na realidade, deve ser utilizado o conhecimento da
probabilidade, isto é, se os resultados são aleatórios, cabe quantificar as possibilidades que
cada evento tem de ocorrer.
Exemplos básicos de experimentos aleatórios:
• Lançar um dado e observar o resultado da face virada para cima;
• Lançar duas moedas e observar o número de caras obtidas;
• Selecionar uma carta de um baralho de 52 cartas e observar o número.
Nos fenômenos que apresentam resultados aleatórios, é interessante quantificar as
probabilidades – chances ou possibilidades – que cada resultado possui dentro de todos os
possíveis. Para isso, é necessário compreender dois conceitos fundamentais: o espaço amostral
e o evento.
ESPAÇO AMOSTRAL (Ω)
Consiste no conjunto de todos os resultados possíveis de um Experimento Aleatório. A
determinação do espaço amostral está diretamente associada ao fenômeno que se quer
compreender. Nesse material, o espaço amostral será sempre representado pelo símbolo “Ω”.
Além de identificar todo o conjunto que representa o espaço amostral, deve-se contabilizar o
número de elementos possíveis desse conjunto, representado por n(Ω).
Exemplos de como determinar o espaço amostral e o respectivo número de elementos em
Experimentos Aleatórios:
𝜴 = {𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔} 𝒏(𝜴) = 𝟔
➢ Lançar duas moedas e observar as faces de cima:
𝜴 = {(𝑪𝒂𝒓𝒂, 𝑪𝒂𝒓𝒂); (𝑪𝒂𝒓𝒂, 𝑪𝒐𝒓𝒐𝒂); (𝑪𝒐𝒓𝒐𝒂, 𝑪𝒂𝒓𝒂); (𝑪𝒐𝒓𝒐𝒂, 𝑪𝒐𝒓𝒐𝒂)}
𝒏(𝜴) = 𝟒
➢ Sortear em uma urna um número de 1 a 9.
𝜴 = {𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔, 𝟕, 𝟖, 𝟗} 𝒏(𝜴) = 𝟗
EVENTO
Um evento será um subconjunto do espaço amostral. É qualquer resultado ou conjunto
de resultados, relacionado ao fenômeno em estudo, que se pretende compreender suas
possibilidades de ocorrer. Para determiná-lo, é necessário, em cada situação, compreender os
resultados de interesse. Designaremos um evento qualquer por uma alguma letra maiúscula.
Veja, a partir de exemplos, como determinar um evento e o respectivo número de elementos desse
elemento:
➢ Exemplo 01:
Experimento Aleatório: lançar um dado e observar a face para cima.
Espaço Amostral:
𝜴 = {𝟏, 𝟐, 𝟑, 𝟒, 𝟓, 𝟔}; 𝒏(𝜴) = 𝟔
Evento X: obter um resultado par no lançamento do dado. O conjunto do evento X será:
𝑿 = {𝟐, 𝟒, 𝟔} 𝒏(𝑿) = 𝟑
Se o resultado do lançamento do dado pertencer ao conjunto X, haverá a ocorrência do
evento X. Outros eventos podem ser determinados no mesmo experimento de lançar o dado.
Evento Y: obter um múltiplo de 3 no lançamento do dado. O conjunto do evento Y será:
𝒀 = {𝟑, 𝟔} 𝒏(𝒀) = 𝟐.
➢ Exemplo 02:
Experimento Aleatório: resultado de um jogo em uma partida de futebol.
Espaço Amostral:
𝜴 = {𝑽𝒊𝒕ó𝒓𝒊𝒂, 𝑬𝒎𝒑𝒂𝒕𝒆, 𝑫𝒆𝒓𝒓𝒐𝒕𝒂} 𝒏(𝜴) = 𝟑
Evento A: obter uma vitória no jogo. O conjunto do evento A será:
𝑨 = {𝑽𝒊𝒕ó𝒓𝒊𝒂} 𝒏(𝑨) = 𝟏
Evento B: não obter uma derrota no jogo. O conjunto do evento B será:
𝑩 = {𝑽𝒊𝒕ó𝒓𝒊𝒂, 𝑬𝒎𝒑𝒂𝒕𝒆} 𝒏(𝑩) = 𝟐
CÁLCULO DA PROBABILIDADE
Para efetuar o cálculo da probabilidade, deve-se primeiramente identificar e
compreender o fenômeno em estudo, na sua escala ampla. Após isso, é necessário mapear todos
os resultados do experimento aleatório e determinar o espaço amostral e o evento de interesse.
O cálculo da probabilidade de ocorrência de um evento de interesse X consiste no número
de possibilidades que esse evento pode assumir sob o número de todos os resultados possíveis
(espaço amostral). Assim é possível representar da seguinte forma:
AXIOMAS DA PROBABILIDADE
Os axiomas da probabilidade são propriedades básicas estabelecidas na teoria clássica da
probabilidade que devem ser obedecidas de maneira absoluta. Em outras palavras, toda
informação aplicada ao conteúdo de probabilidade obedece aos axiomas e podem ser utilizados
para solucionar diversas questões de Estatística. São três os principais axiomas da
probabilidade.
1º AXIOMA
Os valores que a probabilidade de um evento X qualquer pode assumir varia de 0 (ou 0%)
até 1 (ou 100%). Assim é possível representar:
No caso de seu valor mínimo, com P(X) = 0, ocorre um evento impossível, isto é, o evento
é um resultado que não pertence ao espaço amostral. Por exemplo, a probabilidade de jogar um
dado de seis faces, numerado de 1 a 6, e obter o número 9. Veja que para esse exemplo o evento
não está nos resultados possíveis, assim esse evento é impossível de ocorrer nesse experimento
aleatório.
Já para situação de valor máximo, com P(X) = 1, ocorre um evento certo, isto é, o evento
é um resultado que engloba todo o espaço amostral. Por exemplo, a probabilidade de jogar um
dado de seis faces, numerado de 1 a 6, e obter um resultado menor que 7. Todos os resultados
possíveis estão contemplados no evento de interesse, desse modo, para esse experimento
aleatório, é certo que irá ocorrer o evento.
2º AXIOMA
A soma das probabilidades de cada elemento que compõe o espaço amostral é igual a 1
(100%). Em outras definições, o espaço amostral contém todos os possíveis resultados de um
experimento aleatório, assim, é possível concluir que se trata de um evento certo. Dessa forma:
A partir desse axioma, é possível obter deduções bem interessantes para resolução de
questões de probabilidade. No exemplo do experimento de um lançamento de um dado de seis
faces, é possível chegar à seguinte conclusão:
𝑷(𝑿 = 𝟏) + 𝑷(𝑿 = 𝟐) + 𝑷(𝑿 = 𝟑) + 𝑷(𝑿 = 𝟒) + 𝑷(𝑿 = 𝟓) + 𝑷(𝑿 = 𝟔) = 𝟏
Dessa forma, a soma da probabilidade de cada resultado possível será 100% das
possibilidades de um experimento aleatório. Nesse exemplo em questão, a soma da
probabilidade de obter cada umas das seis faces de um dado será 1.
3º AXIOMA
A probabilidade de ocorrência de um evento X somada com a probabilidade de não
ocorrência desse mesmo evento é igual a 1. Assim:
Este axioma será muitas vezes utilizado em questões de probabilidade. Por meio dela,
podemos calcular a probabilidade de um evento ocorrer a partir da probabilidade do seu evento
complementar.
Por exemplo, uma questão pede a probabilidade de ocorrer pelo menos uma cara no
lançamento de cinco moedas, isto é, P(pelo menos 1 cara). É mais fácil calcular a probabilidade
do evento complementar, ou seja, calcular P(nenhuma cara), pois desta forma só haverá uma
situação que corresponde a esse evento: (coroa, coroa, coroa). Calculada essa probabilidade, é
só lançar o resultado na relação existente do 3º axioma, isto é, deve-se subtrair o evento
complementar de 1 (100%) e, assim, será obtido o evento de interesse:
P(pelo menos 1 cara) = 1 – P(nenhuma cara)
INTERAÇÕES ENTRE EVENTOS PROBABILÍSTICOS
Após o estudo de todas as definições básicas sobre a teoria da probabilidade, é
interessante compreender que cada evento probabilístico pode interagir com outro evento. As
formas de interação podem ser bem elucidadas a partir da teoria dos conjuntos. Com isso, as
informações mais importantes nesse tópico é entender como se obtém a probabilidade da
interseção e da união de dois eventos probabilísticos.
INTERSEÇÃO
A interseção de dois eventos probabilísticos consiste na probabilidade de ocorrência
conjunta, isto é, os resultados de cada evento devem ocorrer simultaneamente. Em questões de
probabilidade, é muito provável que a pergunta sobre a interseção dos eventos esteja conectada
de forma expressa pelo conectivo “E”. A probabilidade conjunta de um evento A e B ocorrerem
pode ser representada pela simbologia P(A e B) ou então P(A ∩ B). Entenda pela representação
em diagrama:
A e B são dois eventos probabilísticos quaisquer, que podem estar ou não associados a um
mesmo experimento aleatório. O diagrama de A representa todo o espaço em que A pode
ocorrer; o diagrama de B representa todo o espaço que B pode ocorrer; a interseção de A e B
corresponde a região onde a possibilidade de ocorrência dos dois eventos se sobrepõe, ou seja,
onde podem ocorrer conjuntamente. Para obter o valor da interseção, deve ser utilizado o
princípio da multiplicação da probabilidade. Contudo, para multiplicar as probabilidades, é
necessário conhecer a forma de interação entre os dois eventos probabilísticos, isto é, se são
independentes, dependentes ou mutuamente exclusivos.
UNIÃO
Já a união de dois eventos consiste na probabilidade de ocorrência de qualquer uma das
possibilidades entre A e B, ou seja, inclui a ocorrência somente de A, a ocorrência somente de
B, ou então, a ocorrência de A e B simultaneamente. Em questões de probabilidade, é muito
provável que a pergunta sobre a união dos eventos esteja expressa pelo conectivo “OU”. A
probabilidade do evento A ou B ocorrerem pode ser representada pela simbologia “P(A ou B)”
ou então “P(A ∪ B)”. Entenda pela representação em diagrama:
𝟔 𝒃𝒐𝒍𝒂𝒔 𝒑𝒓𝒆𝒕𝒂𝒔 𝟔
𝑷 (𝟏ª 𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂) = =
𝟏𝟐 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍 𝟏𝟐
A probabilidade de sortear uma bola branca, após já ter sorteado uma preta, sem
reposição, é:
𝟒 𝒃𝒐𝒍𝒂𝒔 𝒃𝒓𝒂𝒏𝒄𝒂𝒔 𝟒
𝑷 (𝟐ª 𝑩𝒐𝒍𝒂 𝑩𝒓𝒂𝒏𝒄𝒂) = =
𝟏𝟏 𝒃𝒐𝒍𝒂𝒔 𝒏𝒐 𝒕𝒐𝒕𝒂𝒍 𝟏𝟏
Veja que o espaço amostral no sorteio da segunda bola foi alterado devido ao sorteio
da primeira bola. Ao invés de ter 12 bolas, no segundo sorteio já havia 11 bolas. Assim, esses
eventos probabilísticos possuem uma relação de dependência de tal modo que a ocorrência de
um evento interfere na probabilidade do segundo evento que venha a ocorrer.
Por fim, a probabilidade de sortear uma bola preta e uma branca, em seguida, é:
𝟔 𝟒 𝟐𝟒
𝑷(𝟏ª 𝑩𝒐𝒍𝒂 𝑷𝒓𝒆𝒕𝒂 𝒆 𝟐ª 𝑩𝒓𝒂𝒏𝒄𝒂) = × =
𝟏𝟐 𝟏𝟏 𝟏𝟑𝟐
Nesse exemplo, foi questionado sobre a ocorrência dos dois eventos probabilísticos
conjuntamente, isto é, a interseção. Dessa forma, a interseção para eventos que possuem
relação de dependência pode ser expressa da seguinte forma:
𝑷(𝑨 𝒆 𝑩) = 𝑷(𝑨) × 𝑷(𝑩|𝑨)
A notação “P(B|A)” representa a probabilidade do evento B dado que o evento A já tenha
ocorrido (note que B|A não é uma fração). Também é denominada como probabilidade
condicional. Dessa forma, é sempre interessante observar que o segundo evento a ocorrer
deve ser analisado com mais cautela para compreender como a probabilidade irá ser obtida,
após a ocorrência do primeiro evento.
Com isso, é importante entender que a ordem da ocorrência dos eventos interfere no
cálculo, pois a probabilidade de ocorrer o evento B é diferente da probabilidade do evento B
ocorrer depois que o evento A ocorreu, assim como o contrário, desse modo:
𝑷(𝑨) ≠ 𝑷(𝑨|𝑩) 𝑷(𝑩) ≠ 𝑷(𝑩|𝑨)
Portanto, a probabilidade de A e B ocorrerem P(A e B) pode ser diferente da probabilidade
B e A ocorrem P(B e A), não necessariamente serão diferentes, mas levar a ordem em
consideração nos cálculos é relevante. Ao compreender como se calcula a ocorrência
simultânea de dois eventos probabilísticos dependentes, é possível concluir:
EVENTOS INDEPENDENTES
Dois eventos quaisquer A e B, são independentes quando a ocorrência, ou não, de um deles
não afeta a probabilidade de ocorrência do outro. Assim, os valores de probabilidade do evento
A permanecem os mesmos após a ocorrência do evento B e vice-versa.
EXEMPLO:
Em uma caixa com 12 bolas, sendo 4 brancas, 2 vermelhas e 6 pretas, qual é
a probabilidade de sortear uma bola preta e uma bola branca, em seguida, com
reposição das bolas sorteadas?
São eventos disjuntos, que não se interseccionam em nenhum momento. Desse modo, a
interseção pode ser expressa por:
𝑷(𝑨 𝒆 𝑩) = 𝟎
O valor da probabilidade de A e B ocorreram conjuntamente é zero, pois não há interseção.
Ao mesmo tempo, é possível concluir que, se ocorrer A, o evento B certamente não ocorrerá e
vice-versa, portanto:
𝑷(𝑨|𝑩) = 𝟎 (𝑺𝒆 𝑩 𝒐𝒄𝒐𝒓𝒓𝒆𝒖, 𝑨 𝒄𝒆𝒓𝒕𝒂𝒎𝒆𝒏𝒕𝒆 𝒏ã𝒐 𝒐𝒄𝒐𝒓𝒓𝒆𝒓á);
𝑷(𝑩|𝑨) = 𝟎 (𝑺𝒆 𝑨 𝒐𝒄𝒐𝒓𝒓𝒆𝒖, 𝑩 𝒄𝒆𝒓𝒕𝒂𝒎𝒆𝒏𝒕𝒆 𝒏ã𝒐 𝒐𝒄𝒐𝒓𝒓𝒆𝒓á);
EXEMPLO:
Em uma caixa com 12 bolas, sendo 4 brancas, 2 vermelhas e 6 pretas, qual é
a probabilidade, em um sorteio, de obter uma bola preta ou uma bola branca?
Eventos
P(A e B) = P(A)×P(B|A) P(A ou B) = P(A) + P(B) – P(A)×P(B|A)
Dependentes
Eventos
P(A e B) = P(A)×P(B) P(A ou B) = P(A) + P(B) – P(A)×P(B)
Independentes
Eventos
Mutuamente 0 P(A ou B) = P(A) + P(B)
Exclusivos
PROBABILIDADE CONDICIONAL
A probabilidade condicional é a probabilidade de ocorrência de um evento dado que
outro evento, que pode interferi-lo, ocorreu anteriormente. Em outras definições, trata-se
da probabilidade já abordada no tópico anterior, a ocorrência do evento A dado que B ocorreu
– “P(A|B)”. Quando as questões de Estatística perguntarem sobre probabilidade condicional, o
aluno deve entender que se baseia em uma probabilidade que suas circunstâncias foram
alteradas devido a outro evento que aconteceu a prior e influenciou o evento presente.
A questão é considerada de Probabilidade Condicional quando seu enunciado fornecer
alguma informação sobre o resultado de experimento aleatório que ocorre anteriormente. Para
compreender essa ideia, será abordado um exemplo de questão para trabalhar a interpretação:
Exemplo: (ESAF) Carlos sabe que Ana e Beatriz estão viajando pela Europa. Com as
informações que dispõe, ele estima corretamente que a probabilidade de Ana estar hoje em
Paris é 3/7, que a probabilidade de Beatriz estar hoje em Paris é 2/7, e que a probabilidade de
ambas, Ana e Beatriz, estarem hoje em Paris é 1/7. Carlos então recebe um telefonema de Ana,
informando que ela está hoje em Paris. Com a informação recebida pelo telefonema de Ana,
Carlos agora estima corretamente que a probabilidade de Beatriz também estar hoje em Paris
é igual a 1/3.
A primeira parte (em vermelho) informa toda a problemática da questão e fornece
algumas probabilidades; a segunda parte (em azul) é uma informação adicional que nos revela
um fato. Algo que passa a ser do nosso conhecimento. Não é uma probabilidade, e sim um fato
dado. Uma informação a prior que altera as probabilidades já conhecidas; a terceira parte (em
verde) é a pergunta da questão.
Ao juntar essa pergunta ao fato dado, teremos a seguinte pergunta completa que deve ser
interpretada pelo aluno:
“Qual a probabilidade de Beatriz estar hoje em Paris, dado que Ana está hoje em Paris?”
Estamos diante de uma probabilidade condicional!
Ao identificar uma questão de probabilidade condicional, o aluno deve saber que há duas
alternativas promissoras para solucionar uma questão de probabilidade condicional, são elas:
A forma de resolução dependerá das informações fornecidas pela questão, assim sendo,
uma alternativa pode ser muito mais vantajosa e eficiente do que a outra. Basicamente, se a
questão fornecer os valores de probabilidade da interseção e do evento que interferiu a
ocorrência do outro, utilizar a fórmula da probabilidade condicional já é o suficiente. Contudo,
se foram fornecidas todas as observações organizadas de cada possível evento, o método da
interpretação pode ser muito mais fácil. Vamos abordar essas formas de soluções a partir de
questões.
CÁLCULO PELA FÓRMULA
EXEMPLO ANTERIOR:
Carlos sabe que Ana e Beatriz estão viajando pela Europa. Com as informações
que dispõe, ele estima corretamente que a probabilidade de Ana estar hoje em Paris
é 3/7, que a probabilidade de Beatriz estar hoje em Paris é 2/7, e que a probabilidade
de ambas, Ana e Beatriz, estarem hoje em Paris é 1/7. Carlos então recebe um
telefonema de Ana, informando que ela está hoje em Paris. Com a informação
recebida pelo telefonema de Ana, Carlos agora estima corretamente que a
probabilidade de Beatriz também estar hoje em Paris é igual a 1/3.
Essa questão pode ser facilmente resolvida pela fórmula uma vez que foram fornecidos
os valores das probabilidades da interseção e do evento que interferiu no outro:
𝟏
𝑷(𝑨𝒏𝒂 𝒆 𝑩𝒆𝒂𝒕𝒓𝒊𝒛) =
𝟕
𝟑
𝑷(𝑨𝒏𝒂 ) =
𝟕
O fato de Ana estar em Paris foi o evento que afetou a probabilidade de Beatriz estar em
Paris, assim, é o evento causou a probabilidade condicional. Desse modo a resolução da questão
é:
𝑷(𝑨𝒏𝒂 𝒆 𝑩𝒆𝒂𝒕𝒓𝒊𝒛)
𝑷(𝑩𝒆𝒂𝒕𝒓𝒊𝒛|𝑨𝒏𝒂) =
𝑷(𝑨𝒏𝒂)
𝟏
𝟏
𝑷(𝑩𝒆𝒂𝒕𝒓𝒊𝒛|𝑨𝒏𝒂) = 𝟕 =
𝟑 𝟑
𝟕
Portanto, questão correta!
CÁLCULO PELA INTERPRETAÇÃO
EXEMPLO:
(CESPE) Como forma de melhorar a convivência, as famílias Turing, Russell e
Gödel disputaram, no parque da cidade, em um domingo à tarde, partidas de futebol
e de vôlei. O quadro a seguir mostra os quantitativos de membros de cada família
presentes no parque, distribuídos por gênero.
A questão fornece o número de elementos para cada possível evento (a família e o gênero).
Com isso, interpretando a questão, é possível compreender que foi fornecida uma informação
a prior que alterou o espaço amostral desse experimento aleatório. Ao citar “sabendo-se que o
sorteado não é uma mulher da família Gödel”, pode ser retirado do espaço amostral a 9
mulheres da família Gödel.
Inicialmente, o espaço amostral, isto é, todas as pessoas que poderiam ser sorteadas:
𝑛(𝛺) = 5 + 6 + 5 + 7 + 5 + 9 = 37 𝑝𝑒𝑠𝑠𝑜𝑎𝑠
Ao reduzir o espaço amostral pela condição fornecida, tem-se:
𝑛(𝛺) = 37 − 9 = 28 𝑝𝑒𝑠𝑠𝑜𝑎𝑠
PROBABILIDADE COMPLEMENTAR
A probabilidade complementar consiste na ocorrência de qualquer outro evento que não
seja o de interesse e complementa o que falta para alcançar 100%. Em outras palavras, é a
probabilidade que complementa os eventos que pertencem ao espaço amostral, mas não
contemplados pelo resultado de interesse. A probabilidade complementar de um evento A pode
ser representada por:
̅)
𝑷(𝑨 𝒏ã𝒐 𝒐𝒄𝒐𝒓𝒓𝒆𝒓) = 𝑷(𝑨𝑪 ) = 𝑷(~𝑨) = 𝑷(¬𝑨) = 𝑷(𝑨
Essa definição está associada ao conceito abordado no 3º axioma da probabilidade:
𝑷(𝑨 𝒐𝒄𝒐𝒓𝒓𝒆𝒓) + 𝑷(𝑨 𝒏ã𝒐 𝒐𝒄𝒐𝒓𝒓𝒆𝒓) = 𝟏
𝑷(𝑨) + 𝑷(𝑨𝑪 ) = 𝟏
Podemos representar a probabilidade complementar a partir de diagramas da seguinte
forma:
Portanto, tudo aquilo que não está contemplado dentro do círculo que representa a
ocorrência do evento A, pertence a ocorrência da complementar de A.
Ao entender que a probabilidade complementar pertence a todo espaço que não está dentro do
diagrama do evento de interesse, podemos obter a probabilidade desconhecida de um evento a
partir das probabilidades condicionais e complementares. Suponha que não se conheça a
probabilidade de um evento B, mas conhece a probabilidade do evento A, bem como a
probabilidade condicional de B dado que A ocorreu e de B dado que A C ocorreu. Com isso,
podemos calcular a probabilidade de B ocorrer, sem o evento condicional, por meio da seguinte
relação:
Basicamente, foi somado os dois componentes que formam todo o evento B. A área que
consiste na interseção entre A e B pode ser calculada pela expressão 𝑃(𝐴) × 𝑃(𝐵|𝐴), enquanto
a área que não faz interseção com B, é o mesmo que dizer que faz interseção entre não A e B,
isto é, AC e B, e pode ser calculada pela expressão 𝑃(𝐴𝐶 ) × 𝑃(𝐵|𝐴𝐶 ). Assim, somando esses dois
componentes temos a probabilidade de ocorrência de B sem eventos condicionais, isto é, P(B).
Para isso, precisa ser calculado a probabilidade de nenhum dos dois detentos
contraírem tuberculose. Se a probabilidade de um detento contrair a doença é 0,01,
a probabilidade de não contrair é 0,99. Sendo assim, a probabilidade de dois detentos
selecionados aleatoriamente não contraírem a doença, sabendo que são eventos
independentes, é igual:
Por fim, a questão está correta, pois a probabilidade de 0,0199 está contida no
intervalo de 0,01<P(X)<0,03.
VARIÁVEIS ALEATÓRIAS
Uma variável aleatória corresponde a qualquer característica de um fenômeno estudado
pelo homem a partir de um experimento aleatório. Desse modo, cada possível resultado do
experimento é associado a um número real por meio de uma atribuição ou uma função. Essa
função ou atribuição que interliga um fenômeno da realidade para qualquer número real é a
própria variável aleatória.
Assim, o experimento aleatório sobre o lançamento de uma moeda é definido por variável
aleatória discreta X que pode assumir os valores 0, 1, 2 e 3:
• 𝑿 = 𝟎, corresponde ao evento (coroa, coroa, coroa);
• 𝑿 = 𝟏, corresponde aos eventos (coroa, coroa, cara), (coroa, cara, coroa),
(cara, coroa, coroa);
• 𝑿 = 𝟐, corresponde aos eventos (coroa, cara, cara), (cara, cara, coroa),
(cara, coroa, cara);
• 𝑿 = 𝟑, corresponde ao evento (cara, cara, cara);
Sobretudo, veja que a variável X assume um número finito de valores. Ainda, com essa
definição, o experimento aleatório sobre o lançamento de uma moeda, de natureza
originalmente qualitativa (cara ou coroa), sofre uma transformação de variável qualitativa
nominal para uma variável quantitativa discreta, uma vez que foi feita uma contagem do
número de caras.
Xi P(Xi)
0 1/8
1 3/8
2 3/8
3 1/8
Soma 1
Assim, conforme a propriedade do segundo axioma da probabilidade, é possível concluir
que:
∑ 𝑷(𝑿𝒊 ) = 𝟏
O valor de F(Xi) na última linha deve ser sempre igual a 1, e na primeira linha será F(Xi) =
P(Xi). É importante ressaltar que a Função de Probabilidade P(Xi) e a Função de Distribuição
Acumulada F(Xi) fornecem todas as informações sobre a variável aleatória discreta X, e a partir
de uma função sempre é possível obter a outra. De forma simples, podem ser geradas assim:
Todo gráfico F(Xi) de uma variável aleatória discreta apresenta esse modelo. É um gráfico
que tem a forma de uma “escada”, com saltos de descontinuidade nos valores que X pode
assumir. Por exemplo, ao alcançar o valor X = 1, a probabilidade salta do valor 0,125 para 0,5,
pois acumula a probabilidade 0,125 do valor X = 0 mais a probabilidade de 0,375 do valor X =
1.
VALOR ESPERADO – E(X)
O valor esperado de uma variável aleatória X corresponde ao valor médio que espera ser
obtido observando os resultados de um experimento aleatório várias vezes. Em outras palavras,
ao se reproduzir um experimento aleatório diversas vezes, a média formada pelos resultados
encontrados tende a ser o valor esperado.
É muito comum, em questões sobre o assunto de variáveis aleatórias, ser perguntado qual
a média de determinado objeto de estudo. Apesar de existir uma sutil diferença conceitual entre
média e valor esperado, podem ser consideradas sinônimos.
Em função dessa definição, o valor esperado pode também ser denominado como
esperança matemática, expectância ou simplesmente a média da variável aleatória, simbolizado
por “E(X)” – dentro dos parênteses é expresso a variável aleatória que pretende quantificar o
valor esperado. O valor esperado também pode ser simbolizado dessa forma:
𝑬(𝑿) = 𝝁𝑋
Cada valor de uma variável aleatória discreta possui uma probabilidade de ocorrer
associada, o valor esperado nada mais é do que o somatório da multiplicação de um valor Xi
pela sua respectiva probabilidade P(Xi) de ocorrer:
𝒏
𝑬(𝑿) = ∑ 𝑿𝒊 𝑷(𝑿𝒊 )
𝒊=𝟏
𝑬(𝑿) = 𝑿𝟏 𝑷(𝑿𝟏 ) + 𝑿𝟐 𝑷(𝑿𝟐 )+. . . +𝑿𝒏 𝑷(𝑿𝒏 )
Para compreender sua aplicação, será calculado o valor esperado do experimento
aleatório lançamento de uma moeda três vezes consecutivas:
𝑿𝒊 𝑷(𝑿𝒊 ) 𝑿𝒊 𝑷(𝑿𝒊 )
0 1/8 = 0,125 𝟎 × 𝟎, 𝟏𝟐𝟓 = 𝟎
1 3/8 = 0,375 𝟏 × 𝟎, 𝟑𝟕𝟓 = 𝟎, 𝟑𝟕𝟓
2 3/8 = 0,375 𝟐 × 𝟎, 𝟑𝟕𝟓 = 𝟎, 𝟕𝟓
3 1/8 = 0,125 𝟑 × 𝟎, 𝟏𝟐𝟓 = 𝟎, 𝟑𝟕𝟓
Soma 1 𝑬(𝑿) = 𝟏, 𝟓
𝑬(𝑿) = 𝟎 × 𝟎, 𝟏𝟐𝟓 + 𝟏 × 𝟎, 𝟑𝟕𝟓 + 𝟐 × 𝟎, 𝟑𝟕𝟓 + 𝟑 × 𝟎, 𝟏𝟐𝟓
𝑬(𝑿) = 𝟎 + 𝟎, 𝟑𝟕𝟓 + 𝟎, 𝟕𝟓 + 𝟎, 𝟑𝟕𝟓 = 𝟏, 𝟓
Portanto, para o experimento aleatório do exemplo, o valor esperado é de 1,5 vezes que o
resultado será a face cara do lançamento de uma moeda três vezes. Para melhor compreensão,
entenda que não existe o resultado 1,5 número de caras em contagem (variável discreta);
contudo, se for repetido o experimento aleatório várias vezes, será observado muito mais
resultados oscilando entre 1 e 2 número de caras, e a média dos resultados desses experimentos
espera-se ser um valor de 1,5.
O valor esperado está sempre entre o valor mínimo e o valor máximo que uma variável
aleatória pode assumir.
A definição de probabilidade está muito associada a ideia frequência relativa – quantidade
𝑓 𝑛(𝑋)
de repetições de uma observação sobre o total 𝑛𝑖, isto é, evento sobre espaço amostral 𝑛(𝛺). Por
isso, é fácil associar o cálculo da média, na Estatística Descritiva, com o do valor esperado nas
variáveis aleatórias discretas:
Assim, a soma/subtração altera os valores que a variável aleatória pode assumir, mas as
probabilidades permanecem as mesmas, já que se trata do mesmo experimento aleatório. Por
isso, o valor esperado de 1,5 é alterado em +5 para 6,5.
Propriedade III. O valor esperado de uma variável aleatória que foi multiplica/dividida
por um valor constante (k) e teve seus valores modificados, tem a seguinte característica:
𝑬(𝒌. 𝑿) = 𝒌. 𝑬(𝑿)
Basta calcular o valor esperado independentemente e multiplicar pela constante. Esse
também é o mesmo efeito observado na média, estudado no tópico de Estatística Descritiva,
que pode ser esclarecido pela seguinte forma:
MEDIANA – Me(X)
Para obter o valor da mediana e da moda de uma variável aleatória discreta, utiliza-se um
raciocínio semelhante ao que foi visto na Estatística Descritiva em medidas de posição. Naquele
tópico, observou-se que a Mediana é o elemento central da distribuição, com quantidade
acumulada de elementos igual a n/2 (ou 50% do total). Além disso, verificou-se que a moda
corresponde ao elemento que mais se repete no conjunto, valor que possui a maior frequência
fi.
Em uma variável aleatória discreta, a mediana pode ser obtida a partir da função de
distribuição acumulada de probabilidade F(Xi). O primeiro valor associado a probabilidade que
acumulada mais que 0,5 (50%) representará a mediana. Caso o valor acumule exatamente 50%,
a mediana é média entre esse valor e o valor superior consecutivo. Assim, no mesmo exemplo
já abordado:
Como o valor X = 1 acumula exatamente 50% dos dados, a mediana deve ser a média entre
o valor 1 e 2, portanto, Me(X) = 1,5.
MODA – Mo(X)
A moda de variável aleatória discreta é simplesmente o valor da variável com maior
probabilidade de ocorrer P(Xi), isto é, basta identificar na função massa de probabilidade o
valor com maior probabilidade. Assim:
𝑽𝒂𝒓(𝑿) = 𝟎, 𝟕𝟓
Ao efetuar todos os cálculos seguindo as etapas da construção da variância, obtém-se um
valor de 0,75. Entretanto, veja que calcular a variância por esse raciocínio pode ser
extremamente trabalhoso e muitas vezes gerar resultados fracionários que complicam na hora
da prova. Para isso, é altamente vantajoso utilizar a fórmula alternativa da variância
populacional, conhecida como “a média dos quadrados menos o quadrado da média”,
abordado no tópico de Estatística Descritiva. Com isso, aplicando nos conceitos das variáveis
aleatórias, a fórmula é adaptada para seguinte condição “a esperança do quadrado menos o
quadrado da esperança”, entenda:
𝑬(𝑿) = ∑ 𝑿𝒊 𝑷(𝑿𝒊 )
𝑬(𝑿𝟐 ) = ∑ 𝑿𝒊 𝟐 𝑷(𝑿𝒊 )
Dessa forma, é necessário calcular o valor esperado E(X), como também, calcular o valor
esperado dos valores da variável aleatória elevados ao quadrado E(X2):
Para calcular o valor de E(X2), basta elevar ao quadrado cada valor que a variável
aleatória pode assumir, em seguida, multiplique pela respectiva probabilidade e efetue o
somatório (semelhante ao cálculo do valor esperado normal). Assim, tem-se os seguintes
resultados:
𝑬(𝑿) = 𝟏, 𝟓
𝑬(𝑿𝟐 ) = 𝟑
𝑽𝒂𝒓(𝑿) = 𝟑 − 𝟏, 𝟓𝟐 = 𝟑 − 𝟐, 𝟐𝟓 = 𝟎, 𝟕𝟓
O mesmo resultado foi alcançado com essa fórmula, obtendo valores mais fáceis de operar
matematicamente. Em razão disso, essa fórmula alternativa pode ser um recurso mais
vantajoso para efetuar os cálculos da variância em variáveis aleatórias discretas.
A variância de uma variável aleatória pode também ser representada pela seguinte
simbologia:
𝑽𝒂𝒓(𝑿) = 𝝈𝒙 𝟐
Assim como o valor esperado, a variância possui propriedades importantes muito
aplicadas em provas. Também é um conhecimento associado a transformação uniforme de
DESVIO-PADRÃO – DP(X)
O desvio-padrão consiste na raiz quadrada da variância de uma variável aleatória. Esse
cálculo se baseia no mesmo princípio abordado em Estatística Descritiva, isto é, com a
finalidade de transforma a unidade de medida na mesma do fenômeno estudado. Em síntese, a
variância é calculada para obter posteriormente o desvio-padrão, assim:
𝑫𝑷(𝑿) = √𝑽𝒂𝒓(𝑿)
Conforme o exemplo construído nesse capítulo, o desvio padrão da variável aleatória X é
igual a:
𝑫𝑷(𝑿) = √𝟎, 𝟕𝟓 = 𝟎, 𝟖𝟕
Com isso, é possível inferir que a variável aleatória X (número de faces caras no arremesso
de uma moeda três vezes) tem um valor esperado de 1,5 e desvio-padrão de 0,87. Portanto, ao
se efetuar o experimento aleatório (lançar uma moeda três vezes) diversas vezes, espera-se
encontrar uma média de 1,5 número de resultados com a face cara virada para cima, e esse
resultado tende a dispersa-se em 0,87 para mais ou para menos.
COEFICIENTE DE VARIAÇÃO – CV(X)
Além do desvio padrão, é interessante obter o coeficiente de variação de uma variável
aleatória, pois ele permite obter uma ideia de dispersão relativa ao valor esperado. Permitindo
assim, comparar a dispersão de uma variável aleatória com outra. Desse modo:
𝑫𝑷(𝑿)
𝑪𝑽(𝑿) =
𝑬(𝑿)
Conforme o exemplo, o coeficiente de variação é:
𝟎, 𝟖𝟕
𝑪𝑽(𝑿) = = 𝟎, 𝟓𝟖 = 𝟓𝟖%
𝟏, 𝟓
Dessa forma, a variável aleatória estudada possui uma elevada variação (58%) em relação
ao valor esperado (média). Isso indica que a variação dos resultados possíveis nesse
experimento aleatório é maior do que a metade do valor esperado. Portanto, o E(X) não é capaz
de representar, por si só, o experimento aleatório.
𝑿~𝑼𝒅(𝒏)
Isto é, uma variável aleatória X qualquer segue uma distribuição (~) uniforme discreta
(𝑈𝑑) com parâmetro 𝑛.
As probabilidades são distribuídas igualmente para todo valor da variável aleatória X,
assim, em representação gráfica a função massa de probabilidade P(Xi) e função de densidade
acumulada de probabilidade F(Xi) é representada da seguinte forma:
∑[𝑿𝒊 − 𝑬(𝑿)]𝟐
𝑽𝒂𝒓(𝑿) =
𝒏
No exemplo, é possível obter a variância e posteriormente o desvio padrão da seguinte
forma:
𝟏𝟕, 𝟓
𝑽𝒂𝒓(𝑿) = = 𝟐, 𝟗𝟐
𝟔
𝑫𝑷(𝑿) = √𝟐, 𝟗𝟐 = 𝟏, 𝟕𝟏
De modo geral, para uma distribuição discreta de probabilidade uniforme, pode ser
aplicado os mesmos cálculos abordados na Estatística Descritiva para dados brutos, uma vez
que a probabilidade é igual para cada valor da variável aleatória X.
DISTRIBUIÇÃO DE BERNOULLI
A distribuição de probabilidade discreta de Bernoulli aplica o princípio da redução do
espaço amostral em apenas dois eventos possíveis – a probabilidade de sucesso e a de
fracasso. De certa forma, essa distribuição utiliza o conceito do terceiro axioma da
probabilidade, isto é, qualquer espaço amostral pode ser interpretado pela probabilidade de
um determinado evento ocorrer e pela probabilidade de o mesmo evento não ocorrer (evento
complementar).
Veja, por exemplo, o lançamento de um dado normal com seis resultados possíveis Ω = {1,
2, 3, 4, 5 e 6}, com probabilidade de 1/6 cada resultado. Esse mesmo experimento aleatório
pode ter seu espaço amostral reduzido em apenas dois resultados, exemplo, obter a face de
número 2 e não obter a face de número 2, Ω = {obter 2; não obter 2}, com probabilidade de 1/6
em obter a face 2, e 5/6 em não obter a face 2. Nessa diferença de interpretação do experimento
aleatório, ocorre a mudança de uma distribuição discreta uniforme para uma distribuição
discreta de Bernoulli.
Com isso, uma variável aleatória X com distribuição de Bernoulli tem dois resultados
possíveis: um é denominado evento de sucesso, atribuindo valor X=1, com probabilidade de
sucesso “p”; e outro é denominado evento de fracasso, atribuindo valor X=0, com probabilidade
de fracasso “q”, em que q = 1-p. Dessa forma:
𝑿~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑)
𝑷(𝑿=𝒔𝒖𝒄𝒆𝒔𝒔𝒐) = 𝒑
𝑷(𝑿=𝒇𝒓𝒂𝒄𝒂𝒔𝒔𝒐) = 𝟏 − 𝒑 = 𝒒
O critério para adotar qual evento é considerado sucesso ou fracasso é totalmente
subjetivo. Nesse caso, a questão deve fornecer aquilo que ela considera como sucesso
(adotando 𝑋 = 1) e aquilo que considera como fracasso (adotando 𝑋 = 0).
O parâmetro da distribuição de Bernoulli (probabilidade de sucesso “p”) pode ser obtido
a partir de inúmeras observações do experimento aleatório. Com isso, utilizando uma
amostragem, é possível efetuar uma estimativa da probabilidade de sucesso de um
determinado evento. Nas questões de Estatística que envolverem variáveis aleatórias discretas,
o parâmetro “p” geralmente é fornecido. Caso a questão se tratar de amostragem ou Estatística
Inferencial, a estimativa da probabilidade “p”, também conceituada como proporção, pode ser
alvo de questão.
Qualquer evento que é interpretado por resultados categóricos (sim ou não; é ou não é;
ocorre ou não ocorre) pode ser representação por uma variável aleatória discreta com
distribuição Bernoulli. Assim alguns exemplos de experimentos aleatórios que se encaixam
nessa distribuição:
➢ Lançamento de uma moeda: sucesso = cara (X=1); fracasso = coroa (X=0);
➢ Acertar tiro em um alvo: sucesso = acerto (X=1); fracasso = erro (X=0);
➢ Tirar uma carta ímpar do baralho: sucesso = ímpar (X=1); fracasso = par (X=0);
➢ Operação de resgate: sucesso = resgatado (X=1); fracasso = não resgatado (X=0);
➢ Condenação de um réu: sucesso = condenado (X=1); fracasso = absolvido (X=0);
OBJETO DE ESTUDO
Para exemplificar toda a performance dessa distribuição, será considerado a
seguinte variável aleatória X: capacidade, de um atirador de elite, de acertar o alvo
desejado. Para estudar esse fenômeno, foi analisado vários ensaios prévios e obteve-
se que o atirador de elite possui uma probabilidade de acerto igual a 80% (p = 0,8).
𝒑 = 𝟎, 𝟖
𝒒 = 𝟏 − 𝟎, 𝟖 = 𝟎, 𝟐
O valor esperado (média) de uma variável aleatória com distribuição de Bernoulli pode
ser facilmente simplificado pela seguinte expressão:
Assim:
𝑽𝒂𝒓(𝑿) = 𝟎, 𝟖 × 𝟎, 𝟐 = 𝟎, 𝟏𝟔 𝒂𝒄𝒆𝒓𝒕𝒐𝒔𝟐
Com a dedução da variância, também é possível obter o desvio padrão e o coeficiente de
variação de uma variável aleatória que segue distribuição de Bernoulli:
𝑫𝑷(𝑿) = √𝒑𝒒
𝑫𝑷(𝑿) √𝒑𝒒
𝐶𝑽(𝑿) = =
𝑬(𝑿) 𝒑
𝟎, 𝟒
𝑪𝑽(𝑿) = = 𝟎, 𝟓 = 𝟓𝟎%
𝟎, 𝟖
Em síntese de tudo abordado da distribuição de Bernoulli, as principais deduções e
fórmulas são:
DISTRIBUIÇÃO BINOMIAL
A distribuição discreta de probabilidade Binomial consiste na realização de sucessivos
experimentos aleatórios de Bernoulli, isto é, a repetição de “n” experimentos com apenas
dois resultados possíveis (sucesso e fracasso). Sobretudo, para uma variável aleatória discreta
seguir uma distribuição Binomial, deve atender os seguintes pressupostos:
➢ É composto por experimentos de Bernoulli que irão se repetir “n” vezes (n > 1 e
finito);
➢ Cada experimento, individualmente, assume apenas dois resultados (sucesso e
fracasso) – pressupostos de Bernoulli;
De modo geral, uma variável aleatória Y qualquer que segue distribuição Binomial é
simbolizada pela notação:
𝒀~𝑩(𝒏, 𝒑)
Os parâmetros da distribuição binomial são: a probabilidade de sucesso “p” de cada
experimento aleatório de Bernoulli (uma vez que são independentes, é uma probabilidade que
não se altera); e o número de vezes “n” que esse experimento é repetido. Com essas duas
informações, é possível definir toda distribuição de probabilidade binomial.
Qualquer evento que se encaixe na distribuição de Bernoulli, pode se tornar Binomial se
repetido mais do que uma vez, assim, a Binomial é a soma de “n” variáveis de Bernoulli
independentes.
𝒏 = 𝟑 𝒅𝒊𝒔𝒑𝒂𝒓𝒐𝒔
𝒑 = 𝟎, 𝟖
𝒒 = 𝟏 − 𝟎, 𝟖 = 𝟎, 𝟐
𝒏=𝒔+𝒇
Nesse exemplo, como o interesse é obter a probabilidade dois acertos em três tentativas,
tem-se que:
𝒔 = 𝟐 𝒂𝒄𝒆𝒓𝒕𝒐𝒔 𝒇 = 𝟏 𝒆𝒓𝒓𝒐
𝒏 = 𝟐 + 𝟏 = 𝟑 disparos
Sobretudo, compreendendo o fenômeno de uma distribuição Binomial, a probabilidade
pode ser calculada pela seguinte expressão:
𝟑! 𝟑. 𝟐. 𝟏
𝑪𝒏,𝒔 = = =𝟑
(𝟑 − 𝟐)! 𝟐! 𝟏. 𝟐. 𝟏
𝑷(𝒀=𝟐) = 𝟑 × 𝟎, 𝟖𝟐 × 𝟎, 𝟐𝟏 = 𝟑 × 𝟎, 𝟔𝟒 × 𝟎, 𝟐 = 𝟎, 𝟑𝟖𝟒
Dessa forma, é possível compreender que em três disparos existem oito possibilidades
diferentes de acertar ou errar o alvo. Dessas possibilidades, possuem quatro resultados
distintos, pois a ordem dos acertos e erros dos disparos não mudam o resultado (acertar duas
vezes em três tiros). Além disso, existem três possibilidades de acertar dois em três disparos.
Para obter essa quantidade, o recurso matemático apropriado é a combinação, isto é, quantifica
o número de vezes que ocorrerá o resultado desejado em todas as possíveis combinações do
experimento Binomial. Por último, as probabilidades dos três experimentos interagem de modo
independente, portanto, pode ser aplicado o produto das probabilidades, de modo que se
multiplica a probabilidade de sucesso elevado ao número de vezes que ocorrerá esse resultado
e o fracasso também ao número de vezes que ocorrerá.
e aplicar os cálculos matemáticos para qualquer variável aleatória que siga as distribuições de
probabilidade Binomial.
IMPORTANTE:
Não confunda a expressão Binomial com a ideia de que a variável aleatória X
assumirá somente dois valores (0 e 1), pois a distribuição Binomial é a soma de
experimentos de duas possibilidades (experimento de Bernoulli). O que determina a
quantidade de valores da variável aleatória X é o “n”, portanto, para uma variável
Binomial X com n igual a 3, existem os seguintes valores:
𝑋 = 0 → Não acertar nenhum disparo no alvo; 𝑃(𝑋=0) = 0,008
𝑋 = 1 → Acerta um de três disparos no alvo; 𝑃(𝑋=1) = 3 × 0,032 = 0,096
𝑋 = 2 → Acerta dois de três disparos no alvo; 𝑃(𝑋=2) = 3 × 0,128 = 0,384
𝑋 = 3 → Acerta os três disparos no alvo; 𝑃(𝑋=3) = 0,512
Assim sendo, a variável X pode assumir os valores: 𝑋 = 0, 1, 2, 3, . . . , 𝑛. Os valores
representam a contagem de 𝑠 sucessos que podem ocorrer em 𝑛 tentativas. Isto é,
o número de valores que a variável Binomial poderá assumir é igual a n + 1. Para
cada um desses valores de X, podemos calcular a probabilidade associada por meio
da fórmula Binomial.
A forma como a Binomial será distribuída dependerá das probabilidades de sucesso (𝑝) e
fracasso (𝑓), de modo que, para experimentos Binomiais com probabilidade de sucesso maiores
que 50%, terá maior massa de probabilidade para eventos que representam mais sucessos
obtidos (no exemplo em questão, para n = 3, terá maior massa de probabilidade para valores 2
e 3). O contrário seria observado para um experimento Binomial com probabilidade de sucesso
menor que 50%, isto é, maior massa de probabilidade para eventos relacionados ao fracasso
(no exemplo, valores 0 e 1).
No exemplo, com valor de n = 3, como o 𝑝 é maior que 80%, o gráfico da função massa de
probabilidade 𝑃(𝑋𝑖) será crescente; caso os valores de 𝑝 fossem menor que 20% o gráfico 𝑃(𝑋𝑖)
seria decrescente; e para valores entre 20% a 80% o gráfico terá maior massa de probabilidade
nos valores centrais.
O número de experimentos Bernoulli (𝑛) determinará quantos valores uma distribuição
Binomial poderá assumir, sendo obtido pela função de n + 1. Com o aumento do 𝑛, aumenta-se
o número de combinações possíveis de sucesso no total de tentativas.
Ainda, é interessante obter o valor esperado de uma variável aleatória que segue
distribuição Binomial. Para isso, é mais fácil entender que uma variável Binomial é a soma de
variáveis aleatórias, independentes entre si, com distribuição de Bernoulli. Nessa circunstância
é possível aplicar a propriedade IV do valor esperado. Assim, se o valor esperado em Bernoulli
é 𝐸(𝑋) = 𝑝, em uma variável Binomial Y será:
𝒀~𝑩(𝒏, 𝒑) = 𝑿𝟏 ~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑) + 𝑿𝟐 ~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑)+. . . +𝑿𝒏 ~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑)
𝑬(𝒀) = 𝟑 × 𝟎, 𝟖 = 𝟐, 𝟒 𝒂𝒄𝒆𝒓𝒕𝒐𝒔
Com isso, ao disparar três tiros em um alvo, e repetir esse experimento várias vezes, os
disparos efetuados pelo atirador de elite terão em média 2,4 acertos, isto é, predominará
resultados com 2 a 3 acertos.
Nessa mesma ideia, pode ser calculado o valor esperado, a média, para o resultado
fracasso com probabilidade 𝒒, isto é, a média de não ocorrer o evento de sucesso (¬𝑌) que
representa sua complementar:
𝑬(¬𝒀) = 𝒏𝒒
𝑬(¬𝒀) = 𝟑𝒙𝟎, 𝟐 = 𝟎, 𝟔 𝒆𝒓𝒓𝒐𝒔
Ou também pode ser obtido por:
𝑬(¬𝒀) = 𝒏 − 𝑬(𝒀)
𝑬(¬𝒀) = 𝟑 − 𝟐, 𝟒 = 𝟎, 𝟔 𝒆𝒓𝒓𝒐𝒔
O mesmo raciocínio da soma das variáveis Bernoulli pode ser aplicado para obter a
fórmula da variância em uma distribuição Binomial. Uma vez que a variável Binomial
corresponde a soma de variáveis Bernoulli independentes, pode ser aplicado a propriedade
IV da variância. Assim, se a variância em Bernoulli é 𝑉𝑎𝑟(𝑋) = 𝑝𝑞, em uma variável Binomial Y
será:
𝒀~𝑩(𝒏, 𝒑) = 𝑿𝟏 ~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑) + 𝑿𝟐 ~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑)+. . . +𝑿𝒏 ~𝑩𝒆𝒓𝒏𝒐𝒖𝒍𝒍𝒊(𝒑)
Com isso, é possível obter informações quanto a dispersão da variável aleatória Y. Para o
exemplo abordado, a variância tem o seguinte valor:
𝑽𝒂𝒓(𝒀) = 𝟑 × 𝟎, 𝟖 × 𝟎, 𝟐 = 𝟎, 𝟒𝟖 𝒂𝒄𝒆𝒓𝒕𝒐𝒔𝟐
Consequentemente, o desvio padrão e o coeficiente de variação são:
𝑫𝑷(𝒀) = √𝒏𝒑𝒒
DISTRIBUIÇÃO DE POISSON
A distribuição discreta de Poisson consiste em experimentos aleatórios que quantificam
a probabilidade de ocorrer um determinado evento sobre um intervalo contínuo de tentativas,
que, geralmente, se trata de um intervalo de tempo ou espaço. Desse modo, essa distribuição
não é empregada em experimentos com objetivo de avaliar o número de ocorrências obtidas
em 𝑛 tentativas (como ocorre no caso da distribuição Binomial), mas sim no número de
ocorrências durante um intervalo contínuo – sua frequência.
Por exemplo:
• O número de vezes que o telefone toca em um intervalo de 5 horas;
• O número de acidentes automobilísticos ocorridos em uma rodovia em um mês;
• O número de defeitos encontrados em um rolo de arame de 500m.
Convém notar que, nos exemplos acima, não há interesse em se determinar a
probabilidade de o telefone tocar, ou de o acidente ocorrer, ou de o defeito existir, mas sim na
frequência de sua ocorrência, como, por exemplo, o telefone tocar 10 vezes no intervalo de
duas horas. Em razão disso, as questões que envolvem essa temática costumam ter o seguinte
modelo:
“Qual a probabilidade de obter x ocorrências em determinado intervalo (de tempo
ou espaço)? “
𝑿~𝑷𝒐𝒊𝒔𝒔𝒐𝒏(µ)
Assim, X segue distribuição de Poisson com parâmetro µ, sendo “µ” o número médio de
ocorrências no intervalo definido pela probabilidade.
A variável X de Poisson pode assumir os valores: 𝑋 = 0, 1, 2, 3, . . . , +∞. Deve-se observar
que o valor de X não tem um limite (tende ao infinito), diferentemente da variável Binomial que
poderia ser expresso pela função n+1. Para cada um desses valores de X, podemos calcular a
probabilidade associada por meio da fórmula de Poisson.
Nessas circunstâncias, a probabilidade de um determinado evento se comporta de tal
modo que pode ser obtida a partir da seguinte fórmula:
Em que:
𝑘: É o número de ocorrências em um intervalo (variável);
𝑃(𝑋=𝑘) : Corresponde a probabilidade de 𝑘 ocorrências em um intervalo contínuo, para
variável aleatória X;
𝜇: Corresponde a média de ocorrências no intervalo definido pela probabilidade
(frequência média de ocorrência no intervalo específico; parâmetro da distribuição);
𝑒: Constante Neperiana; 𝑒 ≅ 2,72;
A fórmula matemática da probabilidade de Poisson nada mais é do que uma dedução do
modelo Binomial para o caso em que se tem infinitas tentativas de sucesso ou fracasso.
Compreender o raciocínio matemático para esse caso não é muito interessante para aluno,
basta apenas associar essa fórmula com um evento que segue uma distribuição de Poisson, além
de ter bem claro quais são suas pressuposições. Muitas vezes, a fórmula matemática será
fornecida na questão, sendo exigido do aluno a compreensão dessa distribuição e a forma como
a informação pode ser manipulada e interpretada.
Para entender a aplicação da distribuição de Poisson, vamos adaptar o mesmo exemplo
abordado em Bernoulli e Binomial.
OBJETO DE ESTUDO:
Para analisar a habilidade de um atirador de elite, foram feitos vários ensaios
quanto a exatidão de seus tiros. Nesse estudo, obteve-se que probabilidade de acerto
o alvo é igual a 80%. Dessa forma, qual a probabilidade desse atirador acertar o alvo
sete vezes em 20 minutos, sabendo que em média ele acerta 30 tiros em uma
hora.
𝒆−𝟏𝟎 𝟏𝟎𝟕
𝑷(𝑿=𝟕) =
𝟕!
As perguntas sobre a probabilidade de uma variável aleatória com distribuição de
Poisson, muitas vezes, não exigem a solução completa da fórmula apresentada. É mais
frequente trabalhar com a ideia de determinar 𝑘 ocorrências e sua frequência média µ,
colocando apenas os valores na fórmula. Quando uma questão exigir a solução matemática,
normalmente, será fornecido os valores dos cálculos exponenciais mais complexos de se obter
manualmente, nesse caso, por exemplo, seria fornecido o valor da constante "𝑒" elevado a
alguns valores de potências específicos para posterior resolução do cálculo:
Valor que seria normalmente fornecido na questão → 𝑒 −10 = 4,54𝑥10−5
Isso mesmo, o valor esperado, em módulo, é igual a variância de uma variável aleatória
que segue distribuição Poisson. Em adição, a própria frequência média de ocorrências µ
corresponde ao valor em módulo do E(X) e Var(X). Assim, uma vez encontrada a média de
ocorrências no intervalo definido pela probabilidade, já se obtém a média e a variância da
variável aleatória. Conforme o exemplo tem-se:
𝑬(𝑿) = 𝟏𝟎 𝒂𝒄𝒆𝒓𝒕𝒐𝒔
𝑽𝒂𝒓(𝑿) = 𝟏𝟎 𝐚𝐜𝐞𝐫𝐭𝐨𝐬 𝟐
Com isso, também é possível calcular o desvio padrão e o coeficiente de variação:
𝑫𝑷(𝑿) = √𝝁
𝒆−𝟏𝟎 𝟏𝟎𝟓
𝑷(𝑿=𝟓𝟎) =
𝟓!
Sabendo que 𝑒 −10 = 4,54𝑥10−5, o resultado ficará:
𝟒, 𝟓𝟒𝒙𝟏𝟎−𝟓 𝟏𝟎𝟓 𝟒, 𝟓𝟒
𝑷(𝑿=𝟓) = = ≅ 𝟎, 𝟎𝟑𝟒
𝟓! 𝟏𝟐𝟎
O cálculo efetuado pela Binomial teria o seguinte resultado:
DISTRIBUIÇÃO HIPERGEOMÉTRICA
A distribuição Hipergeométrica é caracterizada por fenômenos com pressuposições
semelhantes a uma distribuição Binomial, com única exceção de que as probabilidades para
cada experimento Bernoulli (evento de sucesso ou fracasso) não permanece a mesma. Em
outras palavras, corresponde a uma distribuição de probabilidade que descreve os resultados
de uma sequência de experimentos Bernoulli dependentes. Assim, para caracterizar uma
variável aleatória X qualquer que segue distribuição Hipergeométrica, os seguintes
pressupostos devem ser obedecidos:
➢ É composto por experimentos de Bernoulli que irão se repetir “n” vezes (n > 1 e
finito);
Em que:
𝑠: É o número de sucessos desejados (variável);
𝑃(𝑋=𝑠) : Corresponde a probabilidade de obter 𝑠 eventos de sucesso, para variável aleatória
X;
𝑁: Corresponde a quantidade total de elementos de uma população qualquer
(parâmetro);
𝑛: Corresponde a quantidade de elementos (tentativas) que serão sorteados, semelhante
a ideia de uma amostra (parâmetro);
𝑚: Corresponde a quantidade total de um elemento específico e de interesse dentro de
toda a população avaliada (parâmetro).
A fórmula da probabilidade Hipergeométrica é complexa para compreender a ideia de sua
distribuição, pois apresenta muitos parâmetros. Sua aplicação prática, em exemplos, é muito
mais interessante para estudá-la.
É importante entender que para quantificar a probabilidade de eventos com
dependências (Hipergeométrica) são necessárias mais informações comparativamente a
evento independentes (Binomial). Além de saber quantas 𝑛 tentativas (experimento Bernoulli)
será efetuada e quantos 𝑠 sucessos se pretendem obter, é preciso conhecer os 𝑁 elementos
sujeitos a sofrer tal experimento (população total) e a quantidade de 𝑚 elementos (dentro da
população) que tem o interesse de se obter (ou ser sorteado). Assim, uma variável aleatória X
qualquer que segue distribuição Hipergeométrica é simbolizada por:
𝑿~𝑯(𝑵, 𝒎, 𝒏)
Assim, X configura-se variável aleatória discreta que representa o número de 𝑠 sucessos
ocorridos em 𝑛 extrações sem reposição.
OBJETO DE ESTUDO:
Um experimento aleatório consiste na retirada sem reposição de processos
administrativos dentro de um caixa. Sabe-se que existem no total 20 processos, e
destes, 14 processos estão em andamento e 6 processos já foram arquivados. Três
processos foram retirados aleatoriamente dessa caixa. Se X corresponde a variável
aleatória definida pelo número de processos em andamento retirados, qual é a
probabilidade de se obter dois processos em andamento dos três retirados?
Após isso, é interessante determinar o valor esperado da variável aleatória X que segue
uma distribuição Hipergeométrica. O E(X) pode ser obtido a partir da seguinte fórmula:
O cálculo é o mesmo que para Binomial, uma vez que a razão ms/N consiste na
probabilidade do primeiro sorteio/retirada do experimento aleatório. Assim:
𝑬(𝑿) = 𝒏𝑷(𝒎𝒔 )
(𝑵 − 𝒏)
𝑭𝒄 =
(𝑵 − 𝟏)
Com todas essas informações, o valor da variância para o exemplo em questão é:
(𝟐𝟎 − 𝟑) 𝟏𝟕
𝑭𝒄 = = = 𝟎, 𝟖𝟗
(𝟐𝟎 − 𝟏) 𝟏𝟗
𝟏𝟒 𝟔
𝑽𝒂𝒓(𝑿) = 𝟑 × × × 𝟎, 𝟖𝟗
𝟐𝟎 𝟐𝟎
𝑽𝒂𝒓(𝑿) = 𝟑 × 𝟎, 𝟕 × 𝟎, 𝟑 × 𝟎, 𝟖𝟗
𝑽𝒂𝒓(𝑿) = 𝟑 × 𝟎, 𝟕 × 𝟎, 𝟑 × 𝟎, 𝟖𝟗 = 𝟎, 𝟓𝟔
𝑽𝒂𝒓(𝑿) = 𝟎, 𝟓𝟔 𝐏𝐫𝐨𝐜. 𝐀𝐝𝐦. 𝐑𝐞𝐭𝐢𝐫𝐚𝐝𝐨𝐬 𝟐
MUDE SUA VIDA!
143
alfaconcursos.com.br
Com isso:
𝑫𝑷(𝑿) = √𝟎, 𝟓𝟔 = 𝟎, 𝟕𝟓
𝑫𝑷(𝑿) = 𝟎, 𝟕𝟓 𝐏𝐫𝐨𝐜. 𝐀𝐝𝐦. 𝐑𝐞𝐭𝐢𝐫𝐚𝐝𝐨𝐬
√𝒏 × 𝑷(𝒎𝒔 ) × 𝑷(𝒎𝒇) × 𝑭𝒄
𝑪𝑽(𝑿) =
𝒏 × 𝑷(𝒎𝒔 )
𝟎, 𝟕𝟓
𝑪𝑽(𝑿) = = 𝟎, 𝟑𝟔 = 𝟑𝟔%
𝟐, 𝟏
➢ Relação entre as Distribuições Hipergeométrica e Binomial:
Ambas as distribuições (Hipergeométrica e Binomial) descrevem a probabilidade que um
evento que ocorre 𝑠 vezes em 𝑛 tentativas. Para a distribuição Binomial, a probabilidade é a
mesma para cada experimento Bernoulli. Já para a distribuição Hipergeométrica, cada
experimento muda a probabilidade subsequente, pois não há reposição.
Em situações em que a diferença entre a população total (𝑁) e os elementos sorteados (𝑛)
é muito grande (𝑁 >> 𝑛), o resultado da probabilidade entre uma distribuição Binomial e
Hipergeométrica, praticamente, não apresenta relevantes diferenças entre estas
probabilidades, sendo pequena o suficiente para ignorar a maioria das aplicações. Já para
situações com pequena diferença entre população e elementos sorteados (𝑁 << 𝑛), a
distribuição Hipergeométrica obtém probabilidades discrepantes comparativamente a
Binomial. O efeito de dependência entre os eventos exerce um grande efeito sobre o resultado
do próximo sorteio, alterando significativamente a probabilidade de uma variável aleatória X
para 𝑠 sucessos. Como regra prática considera-se que X~H(N,n,p) pode ser aproximada por
X~B(n,p) quando 𝑁 ≥ 10𝑛.
𝑵−𝒏
𝑵 >> 𝒏 → 𝑭𝑪 = ≅𝟏
𝑵−𝟏
Nessa condição, a variância de uma variável aleatória com distribuição Hipergeométrica
𝑋~𝐻(𝑁, 𝑚, 𝑛) é igual a variância uma variável aleatória com distribuição Binomial 𝑌~𝐵(𝑛, 𝑝).
Portanto, a distribuição Hipergeométrica converge para um Binomial quando o N tende ao
infinito (𝑁 → ∞). A aproximação da distribuição Hipergeométrica pela Binomial é útil, uma vez
que o cálculo da função de probabilidade é mais simples no segundo caso.
Em síntese, as principais deduções e fórmulas da distribuição de Hipergeométrica são:
DISTRIBUIÇÃO GEOMÉTRICA
A distribuição discreta de probabilidade Geométrica consiste em um experimento
aleatório que está interessado na probabilidade de um determinado resultado (sucesso e
fracasso) acontecer pela primeira vez em uma tentativa 𝑛 específica. As pressuposições que
caracterizam essa distribuição são:
➢ É composto por 𝑛 tentativas de experimentos Bernoulli que irão se repetir até obter
sucesso pela primeira vez na tentativa 𝑛 (n > 1 e finito);
➢ Cada experimento, individualmente, assume apenas dois resultados (sucesso e
fracasso) – pressupostos de Bernoulli;
➢ A cada repetição do experimento Bernoulli, as probabilidades de sucesso e fracasso
se mantêm constantes (os eventos são independentes);
Assim, essa distribuição analisa a seguinte questão:
“Qual a probabilidade de obter sucesso, pela primeira vez, na tentativa 𝒏?”
Assim a variável aleatória X que segue distribuição Geométrica assume valores que
representam o número de fracassos (𝑓) antes de obter o primeiro sucesso 𝑋 = 0, 1, 2, . . . , +∞.
Assim, calculamos o valor de X que corresponde a 𝑓 fracassos ocorridos. O primeiro sucesso
pode ocorrer em valores que tendem ao infinito, apesar da probabilidade ser cada vez menor.
Quando X segue distribuição Geométrica, pode ser simbolizada da seguinte forma:
𝑿~𝑮(𝒑)
O único parâmetro da distribuição Geométrica é a probabilidade de obter sucesso no
experimento Bernoulli, isto é:
Nesse exposto, podemos definir a função massa de probabilidade para uma distribuição
Geométrica da seguinte forma:
Ou então:
𝑷(𝑿=𝒇) = 𝒑𝒒𝒇
Em que:
𝑃(𝑋=𝑓) : Corresponde a probabilidade de obter f eventos de fracasso até alcançar o
primeiro resultado sucesso, para variável aleatória X;
𝑝: Probabilidade de obter sucesso;
(1 − 𝑝) = 𝑞: Probabilidade de obter fracasso;
𝑓: Número de fracassos.
Facilmente, o raciocínio desenvolvido para obter essa fórmula pode ser compreendido a
partir do seguinte esquema:
𝑷(𝑿=𝟒) = 𝟎, 𝟖 × 𝟎, 𝟐𝟒
𝑷(𝑿=𝟒) = 𝟎, 𝟖 × 𝟎, 𝟎𝟎𝟏𝟔 = 𝟎, 𝟎𝟎𝟏𝟐𝟖 = 𝟎, 𝟏𝟐𝟖%
Em suma, a probabilidade de o atirador de elite acertar somente no quinto disparo é muito
baixa (0,128%), pois ele tem elevada experiência em acertar o alvo com probabilidade alta de
acertar um disparo em um dos quatro tiros anteriores. Conforme o valor do parâmetro 𝑝, à
medida que aumenta tentativa 𝑛 que se deseja acertar pela primeira vez, as probabilidades
evidenciam que se torna mais difícil esse evento ocorrer. Para isso, é interessante compreender
a distribuição das probabilidades Geométrica nesse exemplo em questão:
Ao aumentar o número de falhas necessárias para alcançar o sucesso pela primeira vez na
tentativa 𝑛, observa-se que é cada mais improvável o atirador de elite só acertar o 1º tiro em
muitas tentativas. Graficamente, é possível visualizar esse comportamento:
Veja que a distribuição é assimétrica para o lado positivo com valores probabilidade
tendendo ao +∞ e se aproximando de zero. Para esse tipo padrão de comportamento
probabilístico, matematicamente, pode ser definido o valor esperado a partir da seguinte
fórmula:
A resolução matemática para chegar nessa igualdade não é muito interessante para o
aluno estudar. No entanto, é interessante associar essa fórmula do valor esperado com
comportamento observado no gráfico. A mesma dedução matemática será efetuada mais a
frente para a distribuição contínua de probabilidade Exponencial. Vincular esse conhecimento
pode ser útil para responder rapidamente uma questão sobre a média dessas duas distribuições
(Geométrica e Exponencial).
Conforme o exemplo abordado, o valor esperado será:
𝟏
𝑬(𝑿) = = 𝟏, 𝟐𝟓 𝑫𝒊𝒔𝒑𝒂𝒓𝒐𝒔
𝟎, 𝟖
Com isso, espera-se que o atirador acerte o alvo pela primeira vez em média no primeiro
disparo ou no segundo disparo na proporção de obter um valor esperado de 1,25.
Além disso, o valor da variância para uma distribuição Geométrica pode ser calculado pela
expressão:
𝟏−𝒑
𝑫𝑷(𝑿) = √
𝒑𝟐
𝟏−𝒑
𝑫𝑷(𝑿) √
𝒑𝟐
𝑪𝑽(𝑿) = =
𝑬(𝑿) 𝟏
𝒑
𝟎, 𝟓𝟔
𝑪𝑽(𝑿) = = 𝟎, 𝟒𝟒𝟖 = 𝟒𝟒, 𝟖%
𝟏, 𝟐𝟓
Em síntese, as principais deduções e fórmulas da distribuição Geométrica são:
Com essas informações, toda a teoria necessária, para desenvolver o assunto sobre
variáveis aleatórias discretas, foi finalizada. Em síntese, as principais informações sobre as
distribuições discretas mais importantes podem ser expostas no seguinte quadro:
➢ Experimento Aleatório:
Quantificar o peso de 30 policiais, em quilogramas.
➢ Resultados possíveis (Espaço Amostral – Ω):
Ω = [50kg, 130kg]
➢ Definição da variável aleatória contínua (X):
X = A pesagem de um policial.
Assim, X corresponde a uma variável aleatória contínua que pode assumir quaisquer
valores entre 50 kg e 130 kg, isto é, qualquer valor fracionário dentro de um intervalo definido.
Desse modo, a variável possui uma quantidade não enumerável de valores.
Nas variáveis discretas, a função que atribui o fenômeno estudado para um número real
pode ser simplesmente a contagem ou a representação de sucesso e fracasso {0;1}. Já nas
variáveis contínuas, para interligar um fenômeno de natureza contínua com números, é preciso
atribuir uma função matemática [𝑓(𝑥)] que represente os valores mensurados no mundo real
(nesse exemplo, por qualquer instrumento que mensura o peso, como uma balança,).
No exemplo, o experimento aleatório avalia o desempenho de 30 policiais que possuem
um peso oscilando entre 50 a 130kg. A função matemática, que corresponde a variável aleatória
contínua, define o peso específico que um policial pode ter. Muitos instrumentos quantificam
os fenômenos do mundo real e tentam expressar um número que o represente. Por exemplo:
• A balança que quantifica o peso;
• A trena que quantifica o comprimento;
• O velocímetro que quantifica a velocidade;
• O termômetro que quantifica a temperatura;
• O relógio que quantifica o tempo;
• A moeda que quantifica o monetário;
FUNÇÃO DENSIDADE DE PROBABILIDADE F(X)
Além de compreender os valores que uma variável contínua pode assumir, deve-se
entender que existe uma probabilidade associada aos resultados do experimento aleatório.
Como uma variável contínua pode ter qualquer valor fracionário, não se consegue enumerar
todos os possíveis valores e as suas respectivas probabilidades. Ao invés disso, a abordagem
mais conveniente é desenvolver a ideia de que a probabilidade está diluída no intervalo de
valores que a variável contínua contempla. Assim, é necessário calcular a densidade de
Nesse exemplo hipotético, observa-se que entre os 30 policiais havia uma maior
densidade de probabilidade nos valores mais ao centro do intervalo [50kg; 130kg] e reduzindo
aos extremos. O interessante é compreender que em variáveis contínuas não se representa os
gráficos com probabilidade no ponto (com colunas), e sim a partir de uma linha contínua que
forma a curva de probabilidade, pois pode assumir infinitos valores dentro do intervalo.
Para determinar a probabilidade em variáveis contínuas, é preciso determinar a área
abaixo da curva de probabilidade no intervalo de interesse. Como a maioria das distribuições
comuns em variáveis aleatórias contínuas formam curvas, o recurso matemático mais indicado
para calcular a área abaixo é o cálculo de integral. Denotado pela simbologia:
𝑷(𝒙) = ∫ 𝒇(𝒙)𝒅𝒙
𝒇(𝒙) ≥ 𝟎
➢ A área total abaixo da curva de probabilidade corresponde a toda probabilidade do
fenômeno estudado.
𝑿𝒎á𝒙
𝑷(𝑿) = ∫ 𝒇(𝒙)𝒅𝒙 = 𝟏 = 𝟏𝟎𝟎%
𝑿𝒎í𝒏
Assim, para o exemplo que mensura o peso de um grupo de 30 policiais, com valores
oscilando no intervalo de [50kg, 130kg], a área abaixo dessa curva de probabilidade contempla
100% da ocorrência do peso de um policial.
FIQUE ATENTO!
Esse tipo de informação resolve rapidamente muitas perguntas de
probabilidade de variáveis contínuas. As bancas de modo geral gostam de perguntar
esse tipo de pergunta induzindo o aluno ao erro. Então, vamos repetir mais uma vez:
a probabilidade no ponto, para variáveis contínuas, é igual a zero.
Esse resultado pode ser justificado pela ideia de a probabilidade ser composta pela razão
do evento sob o espaço amostral. Assim, o evento seria um valor específico e o espaço amostral
seria todos os resultados possíveis que, em variáveis contínuas, é um intervalo infinito.
Portanto, um valor dividido por algo infinitamente grande tende a zero. Entenda:
𝑋 = 70 70
𝑃(𝑥=70) = = =0
𝛺=∞ ∞
Com isso, entendemos que as probabilidades em variáveis contínuas devem ser estimadas
em intervalo. Desse modo, as perguntam mais adequadas são:
• Qual a probabilidade de um policial ter peso maior que 70 kg?
𝑷(𝑿>𝟕𝟎) = 𝑷(𝑿≥𝟕𝟎)
FUNÇÃO DISTRIBUIÇÃO ACUMULADA DE PROBABILIDADE F(X)
A função distribuição acumulada de probabilidade [𝐹(𝑋)] para variáveis contínuas
corresponde ao valor de probabilidade de um determinado valor 𝑋𝑖 acumulado a todo valor
inferior a ele. Dessa forma, representa a probabilidade de uma variável aleatória ser menor ou
igual a um valor real 𝑋𝑖 . Assim, na função densidade de probabilidade [𝑓(𝑋)], ela corresponde
a área delimitada à direita pelo 𝑋𝑖 em questão. Consoante ao exemplo abordado, a
probabilidade acumulada até 100kg [𝐹(𝑋=100) ] corresponde a probabilidade de ser menor ou
igual a 100kg (lembrando que 𝑃(𝑋<100) = 𝑃(𝑋≤100) ):
𝑬(𝑿) = ∫ 𝑿𝒇(𝑿)𝒅𝑿
A variância Var(X) pode ser obtida pela fórmula alternativa: “a esperança do quadrado
menos o quadrado da esperança”, entenda:
[𝑬(𝑿)]𝟐 = ∫ 𝑿𝟐 𝒇(𝑿)𝒅𝑿
Em que:
𝑋𝑚á𝑥 : Corresponde ao limite máximo que a variável aleatória X pode assumir;
𝑋𝑚í𝑛 : Corresponde ao limite mínimo que a variável aleatória X pode assumir;
Com essa fórmula de 𝑓(𝑋), pode-se verificar que a densidade de probabilidade está
distribuída igualmente para qualquer valor contido no intervalo que a variável aleatória
contínua X pode assumir. Assim, uma variável aleatória X segue distribuição uniforme com
parâmetros 𝑋𝑚á𝑥 𝑒 𝑋𝑚í𝑛 .
𝑿~𝑼𝒄(𝑿𝒎á𝒙 , 𝑿𝒎í𝒏 )
OBJETO DE ESTUDO:
Uma rodovia apresenta variação na altura da pavimentação distribuída
uniformemente no intervalo de [5 a 30cm]. Qual a probabilidade da altura da
pavimentação está entre 10cm a 20cm em um determinado ponto?
(𝟑𝟎 − 𝟓) → 𝟏𝟎𝟎%
(𝟐𝟎 − 𝟏𝟎) → 𝑷(𝟏𝟎<𝑿<𝟐𝟎)
(𝟐𝟎 − 𝟏𝟎) 𝟏𝟎
𝑷(𝟏𝟎<𝑿<𝟐𝟎) = = = 𝟒𝟎% = 𝟎, 𝟒
(𝟑𝟎 − 𝟓) 𝟐𝟓
Ou então, se a função densidade de probabilidade é igual a 0,04 (no intervalo de 1cm a
probabilidade é 4%), basta multiplicar a amplitude do intervalo [10, 20cm] pela 𝑓(𝑋):
𝑷(𝟏𝟎<𝑿<𝟐𝟎) = 𝟎, 𝟎𝟒 × 𝟏𝟎 = 𝟎, 𝟒 = 𝟒𝟎%
Desse modo, podemos visualizar graficamente o resultado:
Com isso, podemos inferir que a probabilidade de encontrar uma altura de pavimentação
na rodovia na faixa de 10 a 20cm é igual a 40%.
Além disso, outras definições importantes são encontradas em uma distribuição uniforme
contínua de probabilidade. Entre elas, o valor esperado [E(X)] dessa distribuição pode ser
expresso pela seguinte fórmula:
Mais uma vez, essa fórmula simplificada é resultado dos cálculos de integral aplicada para
variância de variáveis aleatórias contínuas. É muito mais conveniente decorar essa fórmula
para resolver questões desse assunto do que compreender toda a dedução matemática. Assim,
para o exemplo em questão a variância apresenta o seguinte valor:
(𝑿𝒎á𝒙 − 𝑿𝒎í𝒏 )𝟐
𝑫𝑷(𝑿) = √𝑽𝒂𝒓(𝑿) = √
𝟏𝟐
𝑿~𝑬𝒙𝒑(𝝀)
A distribuição Exponencial é usada extensivamente como um modelo para o tempo de
vida de certos produtos e materiais. Como também, é frequentemente usada em estudos de
confiabilidade que se estuda o tempo até a falha de um equipamento – muito comum em
Em primeiro lugar, é necessário obter a taxa de ocorrência por segundo, uma vez que a
probabilidade questiona o intervalo de tempo em segundos. Assim, se o atirador acerta 30 tiros
em um minuto, é o mesmo que dizer que tem uma taxa de 0,5 acertos/segundo (30/60 = 0,5).
Contudo, trabalhando com a ideia de taxa constante de ocorrência, a função densidade de
probabilidade pode ser expressa pela seguinte fórmula:
Em que:
𝑓(𝑋): corresponde a função densidade de probabilidade da variável aleatória contínua X;
𝜆: corresponde a taxa de ocorrência do fenômeno estudado por unidade de tempo;
𝑒: constante Neperiana; 𝑒 ≅ 2,72;
𝑥: valor de tempo ou espaço que variável contínua pode assumir, sendo 𝑥 ≥ 0;
Para o exemplo em questão, com 𝜆 = 0,5 ocorrência/s, a função densidade de
probabilidade fica seguinte forma:
𝒇(𝑿) = 𝟎, 𝟓𝒆−𝟎,𝟓𝒙
Essa função densidade de probabilidade, graficamente, apresenta o seguinte
comportamento:
𝑭(𝑿) = 𝟏 − 𝒆−𝟎,𝟓𝒙
Além disso, graficamente é representada da seguinte forma:
Essa 𝐹(𝑋) é muito importante, pois fornece a posição dos valores de X em relação a curva
de probabilidade. Lembrando que a 𝐹(𝑋) = 0,5 corresponde ao valor da mediana [𝑀𝑒(𝑋)].
Assim, podemos observar a seguinte relação de posição dos valores de X e sua posição na curva
de probabilidade:
Com esses cálculos é possível verificar que a mediana está próxima de 1,4 segundos de
intervalo entre as ocorrências, particionando 50% de ocorrer para valores menor do que 1,4
segundos e 50% para valores maiores que 1,4 segundos.
O valor esperado é o inverso da taxa média de ocorrências por unidade de tempo. Isso
facilmente pode ser explicado, pois, se λ consiste no número médio de ocorrências por unidade
de tempo, inverter esse valor gera o tempo médio por ocorrência, ou seja, o valor esperado.
𝝀 = 𝟎, 𝟓 𝒐𝒄𝒐𝒓𝒓ê𝒏𝒄𝒊𝒂/𝒔𝒆𝒈𝒖𝒏𝒅𝒐
𝟏 𝟏
𝑬(𝑿) = = = 𝟐 𝒔𝒆𝒈𝒖𝒏𝒅𝒐𝒔/ 𝒐𝒄𝒐𝒓𝒓ê𝒏𝒄𝒊𝒂
𝝀 𝟎, 𝟓
Uma informação muito importante e com grandes chances de ser cobrada em prova
consiste na assimetria de uma distribuição Exponencial. Como é possível observar
graficamente, uma distribuição exponencial sempre terá assimetria positiva (à direita) e com
isso se tem a seguinte informação:
Se a assimetria é voltada para a direita, o valor esperado é maior do que a mediana, que é
maior do que a moda. Sendo que a moda será sempre zero, em uma distribuição exponencial.
Essa relação é muito importante, pois sempre que encontrar a média de uma distribuição
exponencial, ela será maior que sua mediana, portanto, terá função acumulada de probabilidade
maior do que 50%. Conforme a tabela de valor de F(X), o valor de X que corresponde a 2
segundos possui 63,2% de probabilidade acumulada.
Por último, é interessante obter a variabilidade de uma variável contínua que segue
distribuição exponencial. A partir dos cálculos de integral, obtém-se a seguinte expressão:
𝟏 𝟏
𝑫𝑷(𝑿) = √ =
𝝀𝟐 𝝀
𝟏
𝑫𝑷(𝑿) = = 𝟐 𝒐𝒄𝒐𝒓𝒓ê𝒏𝒄𝒊𝒂𝒔/𝒔𝒆𝒈𝒖𝒏𝒅𝒐
𝟎, 𝟓
Com isso, obtemos uma informação valiosa e muito útil em uma distribuição Exponencial
de probabilidade – o valor esperado em uma distribuição Exponencial é igual ao desvio padrão.
Somente essa igualdade pode ser o suficiente para responder questões de prova sobre esse
assunto. Portanto, memorize esse conhecimento:
Desse modo, sempre que uma variável aleatória contínua X for identificada com
distribuição Normal todas as características apresentadas acima são informações absolutas e
devem ser levadas em consideração ao estudar o experimento aleatório em questão. Muitas
questões de Estatística podem ser rapidamente resolvidas conhecendo essas características,
por exemplo, a probabilidade de ocorrer um valor acima ou abaixo da média sempre será de
50%.
Para obter a probabilidade de qualquer intervalo contínuo específico, é necessário
calcular a área abaixo da curva Normal no intervalo de interesse correspondente. A função
densidade de probabilidade que define essa curva Normal no formato de “sino” é:
𝑿~𝑵(𝝁, 𝝈𝟐 )
Apesar de ser utilizado a variância na fórmula como parâmetro, utiliza-se o desvio padrão
para associar o efeito da dispersão do fenômeno estudado (pois apresenta a mesma unidade de
medida). Então, cada curva normal é definida por uma combinação de média e desvio padrão
específica. Com isso, é interessante identificar graficamente como os valores da média e do
desvio padrão modificam a representação de uma curva Normal.
A média (µ) trata-se de uma medida de posição, assim, ela afeta todo o posicionamento de
uma curva Normal, sem modificar o formato da distribuição. Entenda:
Veja como referência inicial a curva Normal B com média µ𝐵 , ela possui um
posicionamento específico na escala de valores da variável aleatória X sendo concentrada em
torno da µ𝐵 . Se esse mesmo fenômeno sofrer uma modificação nos valores que altere a média,
então teremos uma nova curva Normal deslocada para um novo posicionamento da escala de
valores da variável X. Na curva C, temos alterações que aumentam o valor da média e deslocam
toda a curva Normal para o lado direito (positivo), já, na curva A, temos alterações que
reduziram a média, deslocando para o lado esquerdo (negativo). Esse raciocínio de comparação
serve tanto para transformação nos valores de um fenômeno estudado, como para comparação
de diferentes fenômenos com a mesma unidade de medida.
Assim, no exemplo ilustrado, tem-se a seguinte informação:
µ𝑪 > µ𝑩 > µ𝑨
O desvio padrão é uma medida de dispersão que indica o quanto os dados se distanciam
da média. Desse modo, a alteração do desvio padrão afeta a largura da curva Normal, pois,
quanto maior é a quantidade de dados distantes da centralidade, maior é a probabilidade dessas
observações ocorrerem, isto é, a função densidade de probabilidade da Normal é mais larga.
Entenda:
𝝈 𝑩 > 𝝈𝑨
Outra informação muito relevante trata-se da propriedade da curva Normal, que pode ser
ilustrada da seguinte forma:
Isso significa que se uma variável aleatória que segue uma distribuição Normal apresenta
cerca de 68,3% de seus valores no intervalo de um desvio padrão (±1𝜎) a contar de cada lado
da média (µ); cerca de 95,5% no intervalo de dois desvios padrões (±2𝜎) a contar da média; e
cerca de 99,7% no intervalo de três desvios padrões (3σ) a contar da média.
Conhecer essa proporção de valores concentrados em uma distribuição Normal pode ser
muito útil para resolver questões de prova. Por isso, é recomendável que memorize esse
conhecimento. Basicamente, se você conhece a média e o desvio padrão de uma distribuição
Normal, sabe-se quase onde todos os valores estarão concentrados.
OBJETO DE ESTUDO:
A variável X trata-se do peso de um grupo de animais e sabe-se que segue uma
distribuição Normal com média de 40kg e desvio padrão igual a 5kg. Com isso, é
possível inferir que quase 100% de probabilidade dos valores estarão concentrados
no intervalo de [25kg, 55kg]. Isso porque esse intervalo corresponde a amplitude de
±3𝜎, ou seja, 3 vezes 5kg que acarreta ±15𝑘𝑔 de desvio em relação ao valor 40kg.
Essa propriedade da Normal permite ter uma ideia geral dos possíveis valores de
probabilidades nos intervalos determinados pela questão, a partir disso, é possível encontrar
facilmente algum erro de cálculo de probabilidade, ou até mesmo responde uma questão com
muita facilidade e rapidez. Veja, por exemplo, que a probabilidade do intervalo de 35kg até 45kg
não poderá ser inferior a aproximadamente 68%, caso detecte uma relação que estabelece essa
propriedade, com certeza, trata-se de um erro.
Assim, para o exemplo abordado, X segue uma distribuição Normal com parâmetros:
𝑿~𝑵(𝟒𝟎𝒌𝒈, 𝟐𝟓𝒌𝒈𝟐 )
Variância de 25kg2 que corresponde a um desvio padrão de 5kg. Para essa distribuição,
os valores de probabilidade nos intervalos entre desvios-padrão são aqueles conforme a
propriedade da curva Normal (µ = 40𝑘𝑔, 𝜎 = 5𝑘𝑔).
➢ A probabilidade de um animal pesar entre 35 a 45kg (±1𝜎):
Contudo, como existem infinitas curvas Normais, construída por uma combinação de µ e
σ, seriam geradas infinitas tabelas para auxiliar nos cálculos sob a curva. Com isso, uma solução
eficiente é estabelecer uma transformação que padroniza os valores de qualquer fenômeno
estudado, sendo necessário utilizar apenas uma única tabela de auxílio. Assim, é efetuado uma
transformação matemática nos valores de uma variável contínua com distribuição Normal
qualquer, resultando na distribuição Normal Padrão (ou Padronizada). Em outras palavras,
haverá uma única tabela para descobrirmos as probabilidades de toda e qualquer variável
contínua que tenha distribuição Normal.
Geralmente, utiliza-se a letra Z para representar uma variável com distribuição Normal
padrão. Qualquer distribuição Normal X específica pode ser transformada matematicamente
em uma variável Normal padronizada Z da seguinte forma:
Sendo que:
𝑋: corresponde a um valor específico da variável aleatória X com distribuição Normal;
𝜇𝑥 : corresponde a média da variável aleatória X;
𝜎𝑥 : corresponde ao desvio padrão da variável aleatória X;
𝑍: corresponde a um valor transformado com distribuição Normal Padrão
correspondente ao valor de X.
Ao aplicar a transformação, será obtido um valor de Z com distribuição Normal Padrão
que terá valor esperado e variância modificados para a 0 e 1, respectivamente. A explicação
para esse resultado é baseada na transformação de variáveis aleatórias, tópico que será
abordado em seguida, e lá será explicado sobre essa padronização.
Outra informação importante na padronização dos dados é que o valor Z, com
distribuição Normal padrão, é adimensional (não tem unidade de medida). Portanto, qualquer
variável X que foi padronizada para Z pode ser comparada com qualquer outro fenômeno que
também foi transformado para distribuição Normal Padrão. A variável Z, por essa razão, é
chamada de Escore Padronizado.
Dessa forma, temos a definição de uma característica muito importante: toda variável que
apresentar uma distribuição Normal Padrão sempre terá médio igual a zero e desvio padrão
igual a 1. Assim:
𝒁~𝑵(𝟎, 𝟏)
A partir dessa transformação, não será necessário calcular o valor da probabilidade por
cálculo integral. Basta apenas padronizar uma variável aleatória com distribuição Normal;
identificar a área sob a curva Normal correspondente ao intervalo de interesse; e encontrar o
valor tabelado que representa a probabilidade da área determinada. Para melhor entender essa
aplicação, vamos trabalhar com um exemplo.
OBJETO DE ESTUDO:
A variável aleatória X corresponde ao peso de armas de fogo, traficadas
ilegalmente, que são apreendidas por toda a região da fronteira de Rondônia. Sabe-
se que essa variável segue distribuição Normal com µ = 90𝑘𝑔 e 𝜎 = 10𝑘𝑔. Com objetivo
de estudar o tráfico ilegal de armas, alguns valores de probabilidade são
interessantes conhecer.
Veja que, ao transformar os valores de 60kg, 75kg, 80kg, 90kg, 100kg e 120kg, foram
encontrados valores de Z correspondentes. Algumas observações são interessantes:
• O valor Z correspondente a média de 90 kg é igual a 0;
• Valores abaixo da média de 90 kg, correspondem a valores Z negativos;
• Valores acima da média de 90 kg, correspondem a valores Z positivos;
• Valores distantes a um desvio padrão (±1𝜎) da média, isto é, distanciados a 10
kg da média de 90kg (80kg e 100kg), correspondem aos valores Z de -1 e 1;
• Valores distantes a um desvio padrão (±3𝜎) da média, isto é, 60kg e 120kg,
correspondem aos valores Z de -3 e 3;
Assim, para cada probabilidade de X que foi questionada no exemplo, temos um
respectivo intervalo de valores de Z que corresponde a mesma probabilidade:
Após isso, deve-se identificar o valor de probabilidade na tabela Normal Padrão que
corresponde a 2,5. Cada linha da tabela, apresenta o valor inteiro de ZC e a primeira casa decimal
desse número. Cada coluna da tabela, informa o valor da segunda casa decimal do valor de Z C.
Portanto, para o exemplo em questão, deve-se pegar o número com valor de 2,50, isto é, linha
com valor de 2,5 e coluna com valor 0, formando o 𝑍𝐶 = 2,50. Veja:
𝑷(𝑿=𝟔𝟎𝒌𝒈) = 𝟎
➢ Qual a probabilidade de apreender menos de 90 kg de armas ilegais? 𝑷(𝑿<𝟗𝟎𝒌𝒈) .
Novamente, não seria necessário transformar o valor em Z e consultar a tabela, uma vez
que 90 kg corresponde exatamente a média. A distribuição Normal é simétrica, com isso, média
e mediana correspondem ao mesmo valor e qualquer valor no intervalo acima da média ou
abaixo dela tem probabilidade de 50%. Desse modo:
𝑷(𝑿<𝟗𝟎𝒌𝒈) = 𝟓𝟎%
➢ Qual a probabilidade de apreender menos de 80 kg de armas ilegais? 𝑷(𝑿<𝟖𝟎𝒌𝒈)
A partir dessas perguntas, precisaremos de fato fazer todo o procedimento de
transformação e consultar a tabela para obter o valor de probabilidade. Em primeiro lugar, foi
visto que 80 kg corresponde ao escore padronizado -1,00 (𝑍𝐶 = −1,00). Agora é muito
importante desenhar a distribuição Normal Padrão e representar a área de interesse. Veja:
𝑷(𝑿>𝟏𝟐𝟎𝒌𝒈) = 𝟎, 𝟏𝟒%
➢ Qual a probabilidade de apreender armas ilegais entre 80 a 115 kg?
𝑷(𝟖𝟎𝒌𝒈<𝑿<𝟏𝟏𝟓𝒌𝒈) .
Nesse questionamento, estamos preocupados em obter a probabilidade em um intervalo
específico, com limite inferior e superior definido. Uma forma obter essa probabilidade é
consultar na tabela a probabilidade do intervalo entre [80, 90kg] e [90,115kg] e somar os dois
componentes, obtendo assim a probabilidade no intervalo [80, 115kg]. A transformação desses
valores em Z corresponde a -1, para valor de 80kg, e 2,5, para o valor de 115 kg.
Ambas as probabilidades já foram obtidas em raciocínios anteriores. A probabilidade de
obter valor de Z entre -1 até 0 é equivalente a probabilidade de obter valor entre 0 até 1
[𝑃(−1<𝑍<0) = 𝑃(0<𝑍<1) ] Conforme já consultado na tabela, o valor é de 34,13% [𝑃(0<𝑍<1) =
34,13%].
Em complemento, a probabilidade de obter um valor de Z entre 0 até 2,5 corresponde na
tabela por 49,38% [𝑃(0<Z<2,5) = 49,38%]. Dessa forma, a probabilidade de interesse
corresponde a soma desses dois intervalos. Portanto, podemos representar graficamente:
Por fim, a probabilidade de obter um valor entre 80kg até 115 kg corresponde a:
𝑷(−𝟑<𝒁<−𝟏,𝟓) = 𝑷(𝟏,𝟓<𝒁<𝟑)
Agora, precisamos buscar na tabela os intervalos de valores de interesse. Em primeiro,
temos que pegar a probabilidade que corresponde a toda a área de Z entre os escores 0 a 3 (que
na tabela obtemos a probabilidade de 49,86%). Depois, buscamos na tabela a área
correspondente ao intervalo 0 a 1,5 (que na tabela obtemos a probabilidade de 43,32%). Com
isso, como há sobreposição dessas áreas, a subtração das probabilidades irá fornecer
exatamente a probabilidade do intervalo de Z entre 1,5 a 3. Entenda essa informação a partir
da representação gráfica:
Com essa tabela, o valor que encontramos corresponde a probabilidade de obter um valor
menor que o ZC, incluindo toda escala negativa. Dessa forma, como a tabela se trata dos valores
positivos, é basicamente composta pelos valores da tabela anterior mais 50% que corresponde
todo lado negativo. Além da forma de tabela, pode ser encontrado em prova a simples notação
matemática de um valor específico, que seria representado por 𝑃(𝑍<𝑍𝐶 ) . Desse modo, a
probabilidade acumulada para ZC igual a 2 corresponde a notação 𝑃(𝑍<2) e seu valor pode ser
encontrado da seguinte forma:
Além de tudo abordado até o momento sobre distribuição Normal, pode ser encontrado
uma problemática que fornece o valor de probabilidade e é questionado o respectivo valor da
variável X que possui essa probabilidade. Vamos trabalhar com o mesmo exemplo abordado
nesse tópico.
OBJETO DE ESTUDO:
A variável aleatória X corresponde ao peso de armas de fogo, traficadas
ilegalmente, que são apreendidas por toda a região da fronteira de Rondônia. Sabe-
se que essa variável segue distribuição Normal com µ = 90𝑘𝑔 e 𝜎 = 10𝑘𝑔. Qual é a
quantidade em kg que corresponde a probabilidade acumulada de 96%?
Nesse caso, temos todo o raciocínio inverso sobre a distribuição Normal. Com a
probabilidade, estamos interessados em encontrar um valor de X correspondente. Nesse tipo
de questão deve ser fornecida uma tabela, que muitas vezes é resumida. Com essa tabela,
𝑿 − 𝝁𝑿
𝒁=
𝝈𝑿
𝑿 − 𝟗𝟎
𝟏, 𝟕𝟓 =
𝟏𝟎
𝟏, 𝟕𝟓 × 𝟏𝟎 = 𝑿 − 𝟗𝟎
𝟏𝟕, 𝟓 = 𝑿 − 𝟗𝟎
𝑿 = 𝟗𝟎 + 𝟏𝟕, 𝟓 = 𝟏𝟎𝟕, 𝟓 𝒌𝒈
Assim, a quantidade de armas ilegais apreendidas que acumula 96% de ocorrer,
corresponde a obter uma apreensão de até 107,5 kg.
(ser preso ou não ser preso) e a probabilidade de um investigado ser preso não afeta a prisão
do outro. O valor esperado, a variância e o desvio padrão podem ser calculados da seguinte
forma:
𝑬(𝑿) = 𝒏𝒑 = 𝟑 × 𝟎, 𝟔 = 𝟏, 𝟖 𝒑𝒓𝒆𝒔𝒐𝒔
𝑽𝒂𝒓(𝑿) = 𝒏𝒑𝒒 = 𝟑 × 𝟎, 𝟔 × 𝟎, 𝟒 = 𝟎, 𝟕𝟐 𝒑𝒓𝒆𝒔𝒐𝒔𝟐
𝑫𝑷(𝑿) = √𝟎, 𝟕𝟐 = 𝟎, 𝟖𝟓 𝒑𝒓𝒆𝒔𝒐𝒔
A variável Y corresponde a outro fenômeno que pode ser explicado pelos valores da
variável X. Assim, é interessante obter a relação de igualdade entre essas duas variáveis. A
variável Y corresponde ao dinheiro que é retornado aos cofres públicos. A ocorrência da
investigação, independentemente, de obter presos gera um gasto de R$ 5 mil, ao mesmo tempo,
cada investigado preso proporciona um retorno financeiro de R$ 12 mil. Portanto, a relação das
variáveis X e Y pode ser definida da seguinte expressão:
𝒀 = 𝟏𝟐𝑿 − 𝟓
A cada investigado preso tem-se um retorno de R$ 12 mil aos cofres públicos e haverá um
gasto de R$ 5 mil reais pela investigação independente de prender ou não alguém. Com essa
relação, é possível obter o valor esperado de Y, bem como a variância por meio das suas
propriedades. Conforme a operação matemática aplicada na variável aleatória, o valor esperado
e variância sofrem os seguintes efeitos:
𝑬(𝒀) = 𝟏𝟐 × 𝑬(𝑿) − 𝟓
𝑬(𝒀) = 𝟏𝟐 × 𝟏, 𝟖 − 𝟓
𝑬(𝒀) = 𝟐𝟏, 𝟔 − 𝟓
𝑬(𝒀) = 𝟏𝟔, 𝟔 𝒎𝒊𝒍 𝑹$
➢ Variância Var(Y):
Observe que efetuar uma operação matemática em uma varável aleatória é semelhante
que modificar uniformemente todo um conjunto de dados, como abordado na Estatística
Descritiva (no tópico transformação uniforme do conjunto de dados). A diferença é mais
conceitual, pois a variável aleatória trata-se da possibilidade de valores que um experimento
pode resultar, modificá-la com soma/subtração ou multiplicação/divisão apenas altera os
valores da variável aleatória, mas não afeta as probabilidades. Entenda a partir desse esquema:
No fenômeno representado pela variável aleatória X com distribuição Binomial, os valores
variam entre 0, 1, 2 e 3 investigados presos. Após a transformação observa-se que:
qualquer valor de X com distância de um desvio padrão da média, para mais ou para menos,
corresponderá ao valor Z igual a 1.
TRANSFORMAÇÃO DE SOMA DE VARIÁVEIS ALEATÓRIAS
Outro procedimento muito cobrado nesse assunto consiste na soma de variáveis
aleatórias, resultando em uma nova variável. Quando duas variáveis aleatórias são somadas,
temos a alteração nos valores que ela pode assumir, bem como modifica-se a distribuição das
suas probabilidades. Vamos abordar a partir de um novo exemplo.
OBJETO DE ESTUDO:
Duas variáveis aleatórias X e Y correspondem ao tempo para efetuar uma
determinada operação judicial. Ambas possuem distribuição Normal e são
independentes entre si. A variável X tem média igual a 42 min e desvio padrão igual
a 3 min. Por outro lado, a variável Y tem média igual 34 min e desvio padrão de 5
min. Outra variável aleatória W é o resultado da diferença dos tempos, isto é,
diferença entre a variável X com Y (𝑊 = 𝑋 − 𝑌). Qual é o valor esperado [E(W)] e a
variância [Var(X)] dessa nova variável aleatória?
Nesse outro exemplo, não temos uma transformação pelo efeito de uma constante, e sim,
devido a soma/subtração entre variáveis. Com esse tipo de transformação aplica-se a seguinte
propriedade:
Para isso, devemos aplicar as propriedades adequadas e será obtido os seguintes resultados:
➢ Valor Esperado E(W):
É importante ressaltar que a nova variância, mesmo ocorrendo a subtração entre as duas
variáveis, não resultará na diferença entre as variâncias e sim na soma. Essa é a
propriedade da variância em que a soma/subtração de duas variáveis aleatórias independentes
sempre irá resultar na soma das variâncias. A subtração de variáveis somente modifica o efeito
da covariância que, em caso de independência, é zero e, portanto, não se observa essa
propriedade. Sobre a covariância, esse assunto será abordado com detalhes no tópico de
“Variáveis Aleatórias Bidimensionais”.
Em resumo, as principais transformações de variáveis aleatórias podem ser apresentadas
no seguinte esquema:
Quando uma nova variável aleatória é criada a partir da multiplicação entre outras duas
variáveis, tem-se o surgimento de uma variável bidimensional. Esse estudo está preocupado
em trabalhar com efeito associado de dois fenômenos simultaneamente. No momento mais
apropriado, será desenvolvido todo esse conteúdo.
Então, a subtração de −20 afetará a média em −20, porém não afetará o valor
da variância e do desvio padrão. A divisão por √𝟒 = 𝟐, dividirá a média por 2 e dividirá
a variância por 4 e o desvio padrão por 2.
Portanto, para o valor esperado de 𝐸(𝑊) = 𝑅$ 10 𝑚𝑖𝑙 temos que:
Com isso, a transformação resulta em uma nova variável com média igual a -5
e desvio padrão igual a 2. Portanto, não segue uma distribuição Normal Padrão.
GABARITO: Errado.
A variável a aleatória X consiste na volta de um ex-condenado cometer algum
outro crime. Foi afirmado que ela segue distribuição Binomial com parâmetro 𝑛 =
1000, isto é, ela analisa as chances de 1000 ex-condenados voltarem ou não a
cometer outro crime. A probabilidade de sucesso 𝑝 corresponde a 0,25 (isto é, 25%
de chances de voltar a ser condenado). Assim, tendo todos os parâmetros de uma
Binomial, a média ou valor esperado corresponde a seguinte expressão:
13. Como a tabela não contempla uma realização do evento X = 7, é correto afirmar que
P(X = 7) = 0.
GABARITO: Errado.
A amostragem consiste em apenas algumas observações utilizadas para
estimar o comportamento probabilístico da variável aleatória X que segue distribuição
de Poisson. Assim, o fato de não ser observado a observação de 7 registros de armas,
não quer dizer que a probabilidade dessa observação é igual a zero. Ao afirmar que
uma variável segue distribuição de Poisson, sabemos que a probabilidade é mais
elevada próximo ao parâmetro M e reduz conforme se afasta dele, no entanto, todos
os possíveis valores de registros têm uma probabilidade de ocorrer (por mais
que algumas observações tenha uma pequena probabilidade). Veja como distribuído
essa variável X:
Por conseguinte, a questão está errada uma vez que o valor de probabilidade
𝑋 = 7 é diferente de zero.
Assim, como o desvio padrão é a raiz quadrada da variância, logo temos que:
AMOSTRAGEM
O assunto de amostragem trabalha essencialmente sobre como os dados serão coletados
de modo que essa coleta represente fidedignamente o fenômeno que se pretende
compreender, isto é, o objeto de estudo. Como abordado na parte introdutória de Estatística, o
objeto de estudo é composto pelos elementos que serão avaliados e pela característica
analisada nesses elementos. Sobretudo, ao estudar um fenômeno de interesse, queremos obter
inferências verídicas sobre ele e, portanto, é extremamente essencial que, tanto os elementos
como a característica, sejam coletados sem qualquer viés. Isso porque de nada adiantaria
trabalhar com todos os recursos que a Estatística oferece se os dados analisados não
representarem aquilo que queremos estudar.
Nesse conteúdo, desenvolve-se o ponto de partida de qualquer análise Estatística: a
determinação do objeto de estudo e como os dados serão coletados. Os dados brutos são
praticamente a matéria-prima da Estatística e, se eles forem extraídos de forma viciada
(tendenciosa), qualquer inferência obtida gerará informações inválidas e incoerentes ao
fenômeno estudado. A essência da Estatística é transformar dados em informações, em face
disso essa ciência tem uma enorme preocupação em obter dados que permitam concluir algo
verdadeiro sobre o fenômeno de interesse. Entenda a importância da representatividade dos
dados a partir de um exemplo.
EXEMPLO:
Um estudo pretende obter informações sobre a taxa de desemprego na
população da capital de São Paulo. Essa pesquisa é feita por meio de entrevistas nas
pessoas que passavam por um local público. Porém, ao avaliar as pessoas no local,
o pesquisador não se preocupa em identificar se as pessoas entrevistadas são
realmente da capital. Com essa falha, o pesquisador acaba entrevistando muitos
turistas. Em suma, os dados coletados não representam a capital São Paulo que é a
população a qual quer obter inferências. Não importa a metodologia estatística
empregada nesse conjunto de dados, eles nunca irão obter informações fidedignas
ao objeto de estudo estabelecido originalmente.
Após trabalhar com toda essa construção lógica sobre obter dados de uma população
substancialmente grande, veja o esquema que representa a ideia de amostragem:
A amostragem é a coleta de dados referente a uma população que origina uma amostra.
Com essa amostra, tem-se o objetivo de gerar informações a respeito de toda a população, isto
é, pretende-se obter inferências com a utilização de dados incompletos. Para essa finalidade, é
preciso que a amostra seja uma representação completa da população para a característica
(variável) avaliada. Contudo, para que isso ocorra, a amostragem deve extrair dados na
quantidade de elementos necessárias para que, a partir dela, seja possível efetuar uma
generalização. Em outras palavras, as inferências da amostra devem coincidir com a informação
real da população.
Nesse conteúdo, é importante que aluno entenda que estamos trabalhando com dados
incompletos e, por isso, deverá ser aplicado as ferramentas da Estatística Inferencial. No
entanto, antes disso, o primeiro passo é a coleta adequada de dados para posteriormente
aplicar a Estatística Inferencial e alcançar uma generalização eficiente. Para obter um conjunto
dados satisfatório, é necessário ter um tamanho amostral (número de elementos da amostra)
suficientemente grande, bem como conhecer o erro da estimativa da amostra em relação a
população. Essas duas informações serão estudadas no tópico da Estatística Inferencial, pois
aplica conceito abordados melhor lá. No momento, apenas entenda que essas informações são
importantes para iniciar uma amostragem também.
Para deixar mais claro as informações detalhadas nesse tópico, será apresentado todos os
conceitos dos termos citados:
Termo Conceito
Conjunto de elementos que compõe todo universo estatístico no qual
População são extraídos dados brutos referentes a uma característica comum a
todos.
Conjunto de dados coletados exaustivamente de todos os elementos que
Censo
compõem a população de interesse.
Unidade de avaliação de um conjunto maior onde será extraído um dado
Elemento
bruto.
Subconjunto da população composto por uma fração dos elementos da
Amostra
população.
Coleta de dados planejada de parte dos elementos da população, trabalha
Amostragem
com a ideia de dados incompletos
Inferências feitas a partir da amostra que geram informações que
Generalização
extrapolam para toda a população.
Unidade Elemento da amostra, a unidade em que será extraído um dado bruto de
Amostral um conjunto de dados incompletos
Técnica de Modo ou método como selecionamos parte dos elementos de uma
Amostragem população para extrair dados deles
A amostragem pode ser efetuada por diferentes técnicas, entre elas as principais são:
Nesse contexto, será aplicado uma amostragem aleatória estratificada, veja a ilustração:
A população é representada nesse esquema por simbologias diferentes, isso porque existe
uma heterogeneidade considerável que pode afetar a representativa da amostragem. O
desempenho de um policial veterano, com elevada experiência, tende a ser maior que os
policiais novatos, portanto, esse contraste deve ser considerado na amostragem. Imagine se
uma amostragem aleatória simples tivesse sido aplicada nesse objeto de estudo e tivesse sido
sorteado apenas policiais veteranos e intermediários. Na análise feita nessa amostra, teríamos
um desempenho técnico da equipe policial maior do que realmente seria constato na população.
A utilização dessa amostragem depende muito da característica avaliada, pois, para o
mesmo exemplo, se fosse selecionados os policiais quanto a sua estatura, o fato de um policial
ser veterano ou novato não influencia diretamente sua estatura biológica. Então, no mesmo
exemplo, avaliando outra característica, a amostragem estratificada não seria necessária e
poderia ser aplicado uma amostragem simples.
Ao dividir em estratos que homogêneos dentro deles, pode ser efetuada uma amostragem
simples em cada estrato uma vez que não existe um atributo que possa prejudicar a
representatividade da amostra. Essa amostragem pode levar em consideração a proporção de
elementos que compõe cada estrato, ou então, apenas amostrar uma quantidade uniforme em
cada elemento. Com isso, temos uma divisão quanto a amostragem estratificada: amostragem
estratificada proporcional ou amostragem estratificada uniforme.
Amostragem Aleatória Estratificada Proporcional: a proporcionalidade do tamanho
de cada estrato da população é mantida na amostra. Assim, conforme exemplo, se na população
os estratos veteranos, intermediários e novatos têm proporção de 4/14; 6/14 e 4/14,
respectivamente, a amostra deverá ter a mesma proporção. Entenda:
Cada estrato possui a mesma quantidade de elementos. O tamanho da mostra foi ajustado
para 6 para que tivesse uma divisão com resultado uniforme para cada estrato. Nessa
amostragem, simplesmente obtém-se o tamanho da amostra e divide pelo número de estratos.
A população é composta por quatro conglomerados, que nesse caso, é representado pelos
colégios. Cada colégio tem oito turmas de diferentes séries de ensino. Veja que, se observar
apenas um colégio, já existe a representação de toda a população. E dentro do colégio há uma
heterogeneidade. Isso é o que caracteriza os conglomerados e nessa situação ao invés de
selecionar os elementos podem ser selecionados os conglomerados. Nesse exemplo, foram
sorteados dois colégios ao invés de selecionar diretamente os alunos.
A seleção iniciou na primeira peça da série, e a cada três peças foi selecionado uma nova
para compor a amostra. O fator de seleção, muitas vezes, representado por k, foi 3. Em outras
palavras, a cada três posições seleciona-se uma nova peça para compor a amostra.
A amostragem sistemática somente pode ser aplicada se a ordenação dos elementos não
tiver relação com a variável de interesse. Por exemplo, imagine que se pretende obter uma
amostra de idades de uma listagem justamente ordenada desta forma. Neste caso, a
amostragem sistemática não seria apropriada (a não ser que fosse reordenados).
Logo, questão errada pois afirma que o grupo de origem se trata da unidade
amostral, quando na verdade consiste em um estrato.
Para o continente da África, temos que, dos 100 entrevistados, 80% estão
satisfeitos com os voos, isto é, 80 passageiros; para a América do Norte, dos 300
passageiros, 70% estão satisfeitos, isto é, 210 passageiros; e assim por diante.
Ao obter a quantidade de indivíduos satisfeitos em todos grupos de origem,
basta dividir pelo total. Com isso, a proporção populacional corresponde a 78%, valor
inferior a 79%, portanto, questão correta.
(CESPE – Polícia Federal – Perito Criminal Área 9 – 2018) Tendo em vista que a
abordagem da população sobre o conjunto de unidades amostrais pode ser aleatória,
sistemática ou mista, e que, entre esses arranjos estruturais, situam-se os processos de
amostragem mais usuais em inventários florestais — amostragem aleatória simples,
amostragem estratificada, amostragem sistemática, amostragem em dois estágios e
amostragem em conglomerados —, julgue o próximo item, relativo a esses processos de
amostragem.
4. Comparativamente ao processo de amostragem aleatória simples, o processo de
amostragem estratificada só aumentará a precisão das estimativas quando houver
diferença significativa entre as médias dos estratos.
GABARITO: Correto.
Se não houver diferença significativa entre as médias dos estratos, indica que
o processo de amostragem não precisa ser estratificado. Isso porque a
característica que foi utilizada para estratificar a população não causa um efeito
significativo para diferenciá-la, em outras palavras, não há por que separar em
estratos e o sorteio pode ser feito em toda a população. Dessa forma, a amostram
aleatória estratificada não aumentará a precisão das estimativas
(representatividade). Logo, a amostragem simples apresentará a mesma precisão
que a amostragem estratificada.
ESTATÍSTICA INFERENCIAL
A Estatística Inferencial é aplicada para trabalhar com conjunto de dados amostrais, isto
é, com dados incompletos a respeito do fenômeno em estudo. No entanto, esse conteúdo
trabalha com as incertezas e tenta compreender todo seu comportamento variável e aleatório,
a partir disso, toma decisões, gera conclusões satisfatórias e generaliza informações com maior
probabilidade de acerto e consequentemente menor probabilidade de erro. As informações
geradas estão sujeitas a erros e imprecisão, e, desse modo, cabe à Estatística Inferencial
quantificar essas incertezas e avaliar a credibilidade da informação.
Na investigação de fenômenos, tem-se o objetivo de conhecer algum fato sobre
determinada população, por exemplo, a média do peso de mercadorias transportadas, o
percentual de intenções de voto para um determinado candidato, etc. Muitas vezes, essa
população é composta por milhares (às vezes, milhões) de elementos (nesse caso, pessoas, mas
poderia ser qualquer coisa), de tal modo que seria muito difícil pesquisar o valor correto, pois
seria inviável pesquisar todos os elementos. Nesse caso, temos de recorrer aos valores
encontrados em uma amostra. Uma fração menor da população de interesse. Nesse contexto,
trabalha-se com informações incompletas e o recurso mais adequado para obter conclusões
sobre isso é utilizar a Estatística Inferencial.
Para construir o conhecimento necessário até a Estatística Inferencial, todo conteúdo
abordado até esse tópico são pré-requisitos:
➢ Primeiramente, uma Amostragem deve ser efetuada com a técnica adequada que
permita a maior representatividade da população de estudo. De nada adiantaria
utilizar a Estatística Inferencial em um conjunto de dados tendencioso, pois
qualquer inferência proveniente disso acarretaria informações incoerentes.
➢ Em segundo, após coletar o conjunto de dados da amostra, é necessário descrever e
resumir esses dados, utilizando assim as ferramentas da Estatística Descritiva. As
medidas provenientes da amostra são estimativas pontuais (variáveis e aleatórias)
da população, isto é, informações que tentam inferir sobre o todo.
➢ Por fim, todo o fundamento gerado pela Teoria da Probabilidade estuda a
distribuição probabilística dos dados amostrais, seu comportamento variável e
aleatório, além de avaliar se as estimativas permitem obter inferências válidas sobre
uma probabilidade de erro baixa.
Nessa dinâmica, entendemos com maior clareza que os conhecimentos anteriores são
alicerces fundamentais para toda a eficiência que a Estatística Inferencial é capaz de promover.
DISTRIBUIÇÃO AMOSTRAL
A amostragem consiste na retirada aleatória de dados de parte da população de interesse.
Como se trata de uma retirada aleatória, toda vez que o processo de amostragem for repetido,
a probabilidade de obter-se o mesmo conjunto de dados amostrais é pequena. Em outras
palavras, as estimativas feitas nas amostras comportam-se como variáveis aleatórias. Dessa
forma, conclui-se que todas as possíveis amostras de uma população geram estimativas
(valores) com probabilidade de ocorrer. Assim, a média (𝑋̅), a variância (𝑠 2 ), e a proporção (𝑝̂ )
amostral são variáveis aleatórias e apresentam uma distribuição amostral de probabilidade.
A distribuição amostral consiste na distribuição de probabilidades das estimativas feitas
na amostra, considerando todas as amostras possíveis de mesmo tamanho (𝒏) tomadas da
mesma população. É necessário fixar o tamanho da amostra para estudar seu comportamento
aleatório com menos variáveis. Essas distribuições são chamadas amostrais porque
representam o comportamento das estimativas baseado na repetição incontável do processo
de amostragem. Entenda:
OBJETO DE ESTUDO:
Um objeto de estudo estatístico consiste em avaliar uma equipe de quatro
médicos quanto a quantidade média de cirurgias efetuadas por dia (representada por
C). Nesse contexto, temos uma população composta por apenas quatro elementos
(𝑁 = 4). Os valores observados da população (censo) correspondem: 2, 3, 5 e 8
cirurgias por dia. Para essa população, será estudado a distribuição de todas as
possíveis amostragens diferentes de tamanho igual a 2 (𝑛 = 2). O objetivo é avaliar o
desempenho médio dessa equipe.
Para cada amostragem, temos um conjunto de valores (nesse caso de 𝑛 = 2), que geram
uma média amostral. Todas as possíveis médias amostrais, com probabilidade de ocorrer
devido a aleatoriedade da amostragem, formam a variável aleatória da média amostral (𝑋̅).
Tendo esse conhecimento, vamos representar a função massa de probabilidade da distribuição
amostral da 𝑋̅ e calcular seu valor esperado [𝐸(𝑋̅)]:
̅ 𝒊)
Média Amostral (𝑿 ̅ 𝒊 )]
Probabilidade [P(𝑿 ̅ 𝒊 × P(𝑿
𝑿 ̅ 𝒊)
2 1/16 2/16
2,5 2/16 5/16
3 1/16 3/16
3,5 2/16 7/12
4 2/16 8/12
5 3/16 15/12
5,5 2/16 11/12
6,5 2/16 13/12
8 1/16 8/19
Soma (𝜮) 1 ̅
𝑬(𝑿) = 𝟕𝟐/𝟏𝟔 = 𝟒, 𝟓
Portanto, a partir do estudo da distribuição da média amostral, pode ser concluído que o
valor esperado dessa variável aleatória é igual a média populacional. Assim:
Com isso, ao efetuar diversos processos de amostragens aleatórias, espera-se que a média
das estimativas da 𝑋̅ seja igual ao parâmetro populacional 𝜇.
Por fim, vamos estudar a variabilidade que a 𝑋̅ apresenta ao tentar quantificar o
parâmetro populacional. Para esse objetivo, será calculado a variância da variável aleatória 𝑋̅.
Entenda:
̅𝒊
𝑿 ̅ 𝒊𝟐
𝑿 ̅ 𝒊)
P(𝑿 𝑿̅ 𝒊 × P(𝑿 ̅ 𝒊) ̅ 𝒊 𝟐 × 𝐏(𝑿
𝑿 ̅ 𝒊)
2 4 1/16 2/16 4/16
2,5 6,25 2/16 5/16 12,5/16
3 9 1/16 3/16 9/16
3,5 12,25 2/16 7/12 24,5/16
4 16 2/16 8/12 32/16
5 25 3/16 15/12 75/16
5,5 30,25 2/16 11/12 60,5/16
6,5 42,25 2/16 13/12 84,5/16
8 64 1/16 8/19 64/16
Soma (𝛴) - 1 𝑬(𝑿 ̅ ) = 𝟒, 𝟓 ̅ 𝟐 ) = 𝟐𝟐, 𝟖𝟕𝟓
𝑬(𝑿
̅ ) = 𝟐𝟐, 𝟖𝟕𝟓 − 𝟒, 𝟓𝟐
𝑽𝒂𝒓(𝑿
̅ ) = 𝟐𝟐, 𝟖𝟕𝟓 − 𝟐𝟎, 𝟐𝟓 = 𝟐, 𝟔𝟐𝟓 𝒄𝒊𝒓𝒖𝒓𝒈𝒊𝒂𝒔𝟐 /𝒅𝒊𝒂𝟐
𝑽𝒂𝒓(𝑿
Ao calcular a variância da média amostral, observa-se que o valor não coincide com a
variância populacional (𝜎 2 ). No entanto, é possível constatar uma relação matemática entre
elas, veja:
É importante com essa definição associar a seguinte ideia: a média amostral, que tenta
representar todo um comportamento populacional, apresenta uma variabilidade na sua
estimativa. Portanto, toda vez que calculamos uma média amostral, sabe-se que ocorrerá uma
dispersão que pode ser calculada por essa expressão matemática.
Contudo, sabemos que a variância, ao elevar as observações ao quadrado, perde a
natureza inicial do fenômeno em estudo. Então, para isso, extraímos a raiz quadrada da
variância, obtendo o desvio padrão:
Em síntese, o erro padrão é o possível erro que a média amostral apresenta ao tentar
estimar uma informação sobre o todo, isto é, sobre o parâmetro populacional.
̂)
DISTRIBUIÇÃO DA PROPORÇÃO AMOSTRAL (𝒑
A proporção amostral, avaliando um conjunto de dados, consiste na quantidade de
observações que atende um evento desejado (de interesse) sobre o total de observações
registradas. Pode ser definido pela seguinte fórmula:
𝑿 𝑵º 𝒅𝒆 𝒐𝒃𝒔𝒆𝒓𝒗𝒂çõ𝒆𝒔 𝒅𝒆 𝒊𝒏𝒕𝒆𝒓𝒆𝒔𝒔𝒆
̂=
𝒑 =
𝒏 𝑵º 𝒕𝒐𝒕𝒂𝒍 𝒅𝒆 𝒐𝒃𝒔𝒆𝒓𝒗𝒂çõ𝒆𝒔
A proporção amostral tenta estimar corretamente a verdadeira proporção encontrada em
uma população de estudo, isto é, o parâmetro populacional 𝑃. Essa informação está fortemente
relacionada com a probabilidade de sucesso estudada nas distribuições de probabilidade das
variáveis discretas. Afinal, para obter todo comportamento probabilístico de uma Bernoulli, por
exemplo, inicialmente precisamos estimar a probabilidade de sucesso que é um parâmetro
dessa distribuição. Essa probabilidade de sucesso, assim como qualquer outra informação na
Estatística, é obtida a partir de observações de experimentos reproduzidos no mundo real. Isto
é, aquela probabilidade de sucesso precisa ser estimada de algum lugar, portanto, a forma de
obter essa informação é partir da estimativa da proporção em um conjunto de dados amostrais.
Vamos fazer essa associação lá no exemplo apresentado na distribuição Binomial.
Naquele tópico, foi abordado que a probabilidade de um atirador de elite acertar o alvo era de
80%. Porém, como se alcançou esse valor de 80%? Inicialmente, vários experimentos de
disparos no alvo foram efetuados, com atirador de elite, e foi estimado a proporção de vezes
que ele acertou o alvo em relação ao total de disparos efetuados.
Associando essa informação, vamos fazer o mesmo estudo da distribuição amostral, só
que agora observando o comportamento da variável aleatória proporção amostral (𝑝̂ ). O
mesmo exemplo será aplicado
OBJETO DE ESTUDO:
Um objeto de estudo consiste em avaliar uma equipe de quatro médicos quanto
a quantidade média de cirurgias efetuadas por dia (representada por C). Nesse
contexto, temos uma população composta por apenas quatro elementos (𝑁 = 4). Os
valores observados da população (censo) correspondem: 2, 3, 5 e 8 cirurgias por dia.
Para essa população, será estudado a distribuição de todas as possíveis amostragens
diferentes de tamanho igual a 2 (𝑛 = 2). O objetivo é estimar a proporção de médicos
que fazem mais do que 4 cirurgias por dia.
𝑪 = {𝟐, 𝟑, 𝟓, 𝟖}
𝒄𝟏 = {𝟐, 𝟐} 𝒄𝟓 = {𝟑, 𝟐} 𝒄𝟗 = {𝟓, 𝟐} 𝒄𝟏𝟑 = {𝟖, 𝟐}
𝒄𝟐 = {𝟐, 𝟑} 𝒄𝟔 = {𝟑, 𝟑} 𝒄𝟏𝟎 = {𝟓, 𝟑} 𝒄𝟏𝟒 = {𝟖, 𝟑}
𝒄𝟑 = {𝟐, 𝟓} 𝒄𝟕 = {𝟑, 𝟓} 𝒄𝟏𝟏 = {𝟓, 𝟓} 𝒄𝟏𝟓 = {𝟖, 𝟓}
𝒄𝟒 = {𝟐, 𝟖} 𝒄𝟖 = {𝟑, 𝟖} 𝒄𝟏𝟐 = {𝟓, 𝟖} 𝒄𝟏𝟔 = {𝟖, 𝟖}
Primeiramente, vamos estimar a proporção de médicos que fazem mais do que quatro
cirurgias por dia na população de estudo:
𝒏(𝒐𝒃𝒔𝒆𝒓𝒗𝒂çõ𝒆𝒔 𝒅𝒆 𝒊𝒏𝒕𝒆𝒓𝒆𝒔𝒔𝒆) 𝟐
𝑷(𝑿>𝟒) = = = 𝟓𝟎%
𝒏(𝒕𝒐𝒕𝒂𝒍 𝒅𝒆 𝒐𝒃𝒔𝒆𝒓𝒗𝒂çõ𝒆𝒔) 𝟒
Portanto, dois de quatro médicos (50%) fazem mais do que quatro cirurgias por dia.
Podemos estimar a variância dessa proporção, seguindo as pressuposições de uma
distribuição de Bernoulli, isto é:
𝝈𝟐 𝑷 = 𝑷 × (𝟏 − 𝑷)
𝝈𝟐 𝑷 = 𝟎, 𝟓 × 𝟎, 𝟓 = 𝟎, 𝟐𝟓
Agora vamos observar as proporções amostrais de cada possível amostragem:
Agora, vamos estudar a variável aleatória da proporção amostral (𝑝̂ ), obtendeo seu valor
esperado:
̂𝒊 )
Proporção Amostral (𝒑 ̂𝒊 )]
Probabilidade [P(𝒑 ̂𝒊 × P(𝒑
𝒑 ̂𝒊)
0 4/16 0
1 4/16 4/16
Com isso, chegamos na mesma conclusão da média amostral, ou seja, o valor esperado da
proporção amostral é igual a proporção populacional.
̂𝒊
𝒑 ̂𝒊 𝟐
𝒑 ̂𝒊 )
P(𝒑 ̂𝒊 × P(𝒑
𝒑 ̂𝒊) ̂𝒊 𝟐 × P(𝒑
𝒑 ̂𝒊 )
0 0 4/16 0 0
Soma (𝜮) - 1 ̂ ) = 𝟎, 𝟓
𝑬(𝒑 ̂𝒊 𝟐 ) = 𝟎, 𝟑𝟕𝟓
𝑬(𝒑
̂) = 𝟎, 𝟑𝟕𝟓 − 𝟎, 𝟓𝟐
𝑽𝒂𝒓(𝒑
̂) = 𝟎, 𝟑𝟕𝟓 − 𝟎, 𝟐𝟓 = 𝟎, 𝟏𝟐𝟓
𝑽𝒂𝒓(𝒑
Em relação a variância da proporção amostral, obtém-se a mesma ideia: a variância
observada nas diferentes amostragens é igual a variância da proporção populacional dividida
pelo tamanho da amostra (𝑛). Nesse exemplo, constata-se que a variância da proporção
populacional é o dobro da variância da proporção amostral, pois o tamanho da amostra é igual
a 2.
Por último, o desvio padrão, que representa a dispersão das possíveis estimativas da
proporção amostral, nos fornece a ideia do erro padrão que esse estimador pode apresentar.
̂)
ESTIMADORES (𝜽
As informações provenientes de uma população são os valores exatos e absolutos que tem
o objetivo de ser encontrado em qualquer objeto de estudo estatístico. Essas informações
denominam-se de parâmetros populacionais, são constantes, muitas vezes desconhecidas, que
fornecem o valor exato do fenômeno estudado. No entanto, em muitas situações, é muito difícil
ou impossível pesquisar toda a população, devido a isso, precisa-se obter informações de uma
amostra. Essas informações são estimativas que tentam alcançar o valor populacional, e são
denominadas de estimador de parâmetro populacional. Portanto, os estimadores são todas as
informações extraídas de uma amostra.
EXEMPLO:
Um estudo pretende obter a média de idade dos estudantes universitários da
cidade de São Paulo. Como há muitos estudantes é efetuado uma amostragem
aleatória simples, analisando 100 estudantes. A média da amostra encontrada foi de
22 anos, então, essa é a estimativa para a média de idade de todos os estudantes
universitários de São Paulo. Contudo, a média de idade dos universitários de São
Paulo é realmente 22 anos? Não dá para saber, a não ser que todos os estudantes
universitários fossem pesquisados. Portanto, o parâmetro populacional e o estimador
(ou estimativa do parâmetro) são coisas diferentes e, consequentemente, devem ser
representados de maneira diferente.
Os parâmetros específicos, como média e variância, são representados por letras gregas
ou letras em maiúsculo, por outro lado, os estimadores são representados por letras do alfabeto
normal e letras minúsculas. Enquanto o parâmetro populacional é, em geral, um valor fixo, o
estimador depende da amostra, portanto, está associado a uma distribuição de probabilidade
e, assim, é uma variável aleatória.
O estimador não é igual ao parâmetro populacional. Para que o estimador seja eficiente
na tentativa de estimar o parâmetro, é preciso, ou pelo menos, desejável que ele atenda a
algumas propriedades. As principais propriedades dos estimadores são:
Essa propriedade também pode ser compreendida pela seguinte ideia: para o estimador
não ser viesado, o valor esperado (média) da distribuição amostral do estimador deve
convergir para o parâmetro populacional.
𝑬(𝑬𝒔𝒕𝒊𝒎𝒂𝒅𝒐𝒓) = 𝑷𝒂𝒓â𝒎𝒆𝒕𝒓𝒐
̂) = 𝜽
𝑬(𝜽
EXEMPLO:
Um objeto de estudo analisa o número de filhos das famílias em um município
do Estado de Tocantins. Para alcançar esse objetivo foi retirada uma amostra de toda
a população do local. Dessa amostra foi estimada a média de filhos por família. Para
comprovar que essa média é um estimador não viesado, foi repetido o processo de
amostragem diversas vezes, e a cada amostragem foi obtido um valor de média
diferente. O valor esperado dessas médias estimadas [𝐸(𝑋̅ )], isto é, a média das
estimativas foi igual ao parâmetro populacional (𝜇) obtido, posteriormente, em um
censo desse município de Tocantins.
𝑋 𝑁º 𝑑𝑒 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 𝑖𝑛𝑡𝑒𝑟𝑒𝑠𝑠𝑒
➢ A proporção amostral 𝑝̂ , dado pela fórmula 𝑝̂ = 𝑛 = 𝑁º 𝑡𝑜𝑡𝑎𝑙 𝑑𝑒 𝑒𝑣𝑒𝑛𝑡𝑜𝑠 , é um
estimador não viesado da proporção populacional P, pois tem-se que 𝐸(𝑝̂ ) = P.
O parâmetro de estimador não viesado permite concluir que o procedimento matemático
mais apropriado para estimar a variância e o desvio padrão amostral consiste em dividir por
𝑛 − 1. Essa conclusão é alcançada porque, ao observar as distribuições das estimativas de s2 e
s, observa-se que a média converge para o parâmetro populacional.
ESTIMADOR EFICIENTE
Para estimador ser eficiente, não basta que acerte na média. É desejável que, além disso,
ele seja o mais preciso possível, não disperse muito, em outras palavras, tenha a menor
variância possível. Desse modo, a propriedade eficiente engloba as seguintes ideais:
O conceito de não viesado é acumulado no estimador eficiente, além disso, precisa ser
avaliada a distribuição das amostragens e avaliar, entre eles, aquele com menor variância. Para
inferir que um estimador é eficiente, deve ser comparado a outro estimador com maior
variância. Suponha que três diferentes estimadores (E1, E2 e E3) estão sendo analisados quanto
a eficiência, para isso será observado toda a distribuição de suas estimativas feita em cada
amostragem. Entenda por esquemas:
O círculo representa toda a população do objeto de estudo, e o círculo verde central indica
o verdadeiro parâmetro populacional (𝜃). Cada X representa a estimativa de uma amostra e o
círculo central entre os X a média da estimativa do parâmetro (𝜃̂). Com essa ilustração é
possível inferir que o estimador E1 é viesado (tendencioso), pois na média estima um parâmetro
incompatível ao da população. Em contrapartida, os estimadores E2 e E3 são não viesados, pois
na média das estimativas acertam o parâmetro populacional. Desse modo, cabe identificar qual
dos dois estimadores é mais eficiente. Para isso, basta analisar sua precisão, ou seja, se as
estimativas estão mais próximas uma das outras, se possuem baixa variância. Na representação,
é possível visualizar que E3 é mais eficiente do que E2. Pois:
𝝈𝟐 𝑿 𝑷(𝟏 − 𝑷)
̅) =
𝑽𝒂𝒓(𝑿 ̂) =
𝑽𝒂𝒓(𝒑
𝒏 𝒏
É possível demonstrar que, se a variável segue uma distribuição normal, a média amostral
e proporção amostral são estimadores eficiente da média e proporção populacional.
ESTIMADOR CONSISTENTE
Um estimador apresenta a propriedade consistente se, à medida que o tamanho da
amostra cresce, ele for convergindo para o valor verdadeiro do parâmetro. Em outras palavras,
quando o tamanho da amostra aumenta infinitamente, o estimador tende a torna-se uma
informação exata do parâmetro populacional, isto é, uma constante com valor esperado igual
ao parâmetro e variância igual a zero. Essa propriedade pode ser expressa, matematicamente:
As simbologias Lim 𝐸(𝜃̂) 𝑒 Lim 𝑉𝑎𝑟(𝜃̂) indicam o que ocorrerá com valor esperado e
𝑛→∞ 𝑛→∞
variância do estimador (𝜃̂) com o aumento, tendendo ao infinito, do tamanho amostral (𝑛).
A média amostral e a proporção amostral são estimadores consistentes, pois:
DISTRIBUIÇÃO 𝒕 DE STUDENT
Nesse momento, é necessário incluir o conhecimento sobre outra distribuição de
probabilidade de variáveis aleatórias contínuas: a distribuição 𝑡 de Student.
Essa distribuição de probabilidade é praticamente uma adaptação da distribuição Normal
Padrão. Isso porque, para padronizar uma variável aleatória Normal X qualquer, é necessário
que os parâmetros populacionais 𝜇 e 𝜎 sejam conhecidos. No entanto, muitas vezes o desvio
padrão é desconhecido e não podemos padronizar os valores para Z na fórmula:
𝑿−𝝁
𝒁=
𝝈
Ao invés disso, substituímos o parâmetro populacional do desvio padrão (𝜎) pela
estimativa do parâmetro, o desvio padrão amostral (𝑠). Com isso, cria-se uma outra distribuição
de probabilidade que trabalha com informações da amostra, denominada distribuição 𝑡 de
Student. Assim, em vez obter um valor de Z, a variável aleatória Normal X é padronizada para
um valor 𝑡, pela seguinte fórmula:
𝑿−𝝁
𝒕=
𝒔
A distribuição t é similar a distribuição Z, em que ambas são simétricas na média com
valor µ = 0. Além disso, ambas as distribuições são em forma de sino, porém a distribuição t
de Student é mais variável em virtude dos valores dependerem das flutuações amostrais de
duas estimativas, 𝑋̅ e 𝑠 2 . A distribuição de t difere de Z, pois a variação de t depende do tamanho
da amostra 𝑛 que deve ser sempre maior do que 1.
A distribuição de 𝑡 varia de acordo com o tamanho da amostra (𝑛) e, por isso, possui uma
distribuição de probabilidade para cada grau de liberdade (𝑮𝑳). Essa informação é calculada
pela seguinte expressão:
𝑮𝑳 = 𝒏 − 𝟏
O grau de liberdade é compreendido pelo tamanho da amostra menos um. Isso está
associado com a ideia de dados amostrais, onde o desvio padrão não viesado precisa ser
dividido por 𝑛 − 1. Sempre que estiver trabalhando com dados amostrais, vamos tratar de
graus de liberdade. Para compreender a ideia de graus de liberdade veja o exemplo seguinte.
EXEMPLO:
Considere um conjunto de dados qualquer. Graus de liberdade é o número de
valores deste conjunto de dados que podem variar após terem sido impostas certas
restrições a todos os valores. Consideremos que 10 estudantes obtiveram em um
teste média 8.0. Assim, a soma das 10 notas deve ser 80 (restrição). Portanto, neste
caso, temos um grau de liberdade de 10 − 1 = 9, pois as nove primeiras notas podem
ser escolhidas aleatoriamente, contudo a 10a nota deve ser igual a [80 −
(𝑆𝑜𝑚𝑎 𝑑𝑎𝑠 9 𝑝𝑟𝑖𝑚𝑒𝑖𝑟𝑎𝑠 𝑛𝑜𝑡𝑎𝑠)].
Dessa forma, uma variável aleatória 𝑡 apresenta distribuição t de Student, tendo como
parâmetros a média, a variância amostral e os graus de liberdade. Assim:
Assim, a tabela tem em cada linha os graus de liberdade (𝐺𝐿) e cada coluna a
probabilidade superior a um valor 𝑡𝑡𝑎𝑏 tabelado específico [𝑃(𝑡>𝑡𝑡𝑎𝑏 ) ], também identificado
como área da cauda superior.
EXEMPLO:
Suponha que um município tenha duas delegacias de polícia: a primeira é uma
delegacia grande, localizada no centro da cidade, com frequência de registos de
denúncias na faixa de 30 por semana; a segunda é uma delegacia menor, em um
bairro do interior, com 8 registros de denúncia por semana. Estudos avançados
afirmam que 80% das denúncias criminosas tem como suspeito pessoas do sexo
masculino. Durante o período de um ano, ambas as delegacias registram denúncias
em que 60% eram causadas por homens. Em qual das duas delegacias foi observado
mais semanas com proporções que desviam dos estudos avançados?
Em primeiro lugar, o aluno deve entender que os estudos avançados fornecidos
no exemplo sugerem a ideia de parâmetros populacionais, isto é, que os eventos de
denúncias registradas nas delegacias apresentam, como responsáveis, a proporção
de 80% homens e 20% mulheres. Então é como se o valor esperado da proporção
de homens responsáveis pelas denúncias feitas na delegacia fosse 80% [𝐸(𝑝) = 0,8].
Após entender essa ideia, aplica-se alei dos grandes números e terá a resposta para
questão.
A delegacia maior no centro, com mais eventos de denúncias registradas por
semana, tem maior número de observações (𝑛). Assim, as proporções observadas
nessa delegacia tendem a ser mais próximas do valor esperado. Em contrapartida, a
delegacia menor apresentará mais registros por semana que foge da proporção
esperada de homens como responsáveis pela denúncia. Portando, a delegacia menor
apresentará mais semanas com proporção de 60% homens e 40% mulheres.
A Lei dos Grandes Números, entretanto, aparece em duas versões, de acordo com o tipo
de convergência: lei fraca dos grandes números e lei forte dos grandes números.
A Lei Fraca dos Grandes Números estabelece que a média amostral converge em
probabilidade para a média populacional, enquanto a Lei Forte dos Grandes Números
estabelece que a média amostral converge quase certamente (convergência com
probabilidade 1) para a média populacional.
ESTIMATIVAS PONTUAIS
Conforme todo conhecimento já acumulado, podemos concluir que a estimação é o
processo que utiliza dados amostrais parar estimar informações sobre todo universo de estudo,
isto é, parâmetros populacionais.
As estimativas pontuais são aquelas que originam uma única estimativa do parâmetro. As
principais informações obtidas das amostras:
➢ Estimativa Pontual da Média Populacional (𝝁)
A estimativa da média populacional µ é a média amostral 𝑋̅. Para um conjunto de valores
amostrais, ela é calculada por meio da fórmula da média aritmética:
Obtendo a variância, o desvio padrão pode ser facilmente calculado extraindo a raiz
quadrada.
seguinte relação:
Assim, as estimativas pontual e intervalar da média (𝑋̅) e da proporção (𝑝̂ ) podem ser
representadas:
Em face dessas variações, existe mais de uma fórmula para calcular um intervalo de
confiança (𝐼𝐶). Com isso, a construção para o intervalo de confiança da média de uma população
depende de dois fatores:
➢ Se o desvio padrão da população (𝝈) é conhecido
Caso o desvio padrão populacional seja conhecido (fornecido na questão) é utilizado essa
informação no cálculo do intervalo de confiança e aplica-se independentemente do tamanha
amostral o escore padronizado Z. Por outro lado, caso o desvio padrão populacional seja
desconhecido, deve ser utilizado o desvio padrão amostral (s), que poderá ser fornecido
diretamente na questão ou então deverá ser calculado com base nos dados apresentados na
questão.
➢ Se o tamanho da amostra é relativamente grande (𝒏 ≥ 𝟑𝟎)
Em situações que o desvio padrão populacional é desconhecido, o tamanho da amostra
influencia qual escore padronizado será utilizado (Z ou t). Conforme o Teorema do Limite
Central, vimos que amostras com tamanho igual ou superior a 30 já apresentam uma
distribuição de probabilidade próxima a Normal, portanto, usa-se a variável padronizada Z que
apresenta essa distribuição. Para tamanhos de amostra inferiores a 30 elementos, a variável 𝑡
com distribuição 𝑡 de Student representa melhor o comportamento probabilístico (mais a
frente iremos estudar essa distribuição de probabilidade contínua e a variável aleatória 𝑡, no
momento, apenas entenda que amostras pequenas são melhor representadas por essa
distribuição).
Por conseguinte, o intervalo de segurança, de acordo com o conhecimento do desvio
padrão e tamanho da amostra, pode ser calculado de três formas:
Com o valor de 𝑍 = 1,96 é obtido uma amplitude, centrada na média, que corresponde
uma área de probabilidade de 95% na Normal Padrão. A área residual é de 2,5% para cada lado,
gerando 5% de risco erro, essa área será estudada com mais detalhamento nos testes de
hipótese (associada a probabilidade de erro).
As formas de apresentação dos valores Z na tabela da Normal Padrão são: pelo intervalo
da média (𝑍 = 0) até o valor ZC de interesse [𝑃(0<𝑍<𝑧𝑐) ], ou então, pela probabilidade acumulada
até o valor ZC de interesse𝑃(𝑍<𝑧𝑐) . Assim, para 95% de confiança centrado na média, o valor Z de
1,96 pode ser encontrado da seguinte forma:
Agora vamos aplicar todos esses conhecimentos por meio de exemplos (um para cada
fórmula).
OBJETO DE ESTUDO 01:
Um objeto de estudo estatístico tem o objetivo de avaliar o desempenho médio
da velocidade, em m/s, de atletas de corrida. Para isso, foram amostrados 100 atletas
de corrida. Foi estimada uma média de 8,2 m/s. Além disso, sabe-se que essa
variável segue uma distribuição Normal e o desvio padrão, estudado por várias
competições olímpicas, é de 2,4 m/s.
Com isso, podemos inferir que a média estimada de 8,2 m/s tem um intervalo de confiança
na faixa de 0,47 m/s para mais ou para menos. Portanto:
30 25
60 10
90 5
Qual é o intervalo de 90% de confiança para a estimativa de 𝝁?
Z tem distribuição normal padrão, então:
➢ 𝑃(𝑍 < 1,44) = 0,925;
➢ 𝑃(𝑍 < 1,64) = 0,950;
➢ 𝑃(𝑍 < 2,05) = 0,980;
➢ 𝑃(𝑍 < 2,40) = 0,992.
Nesse exemplo, não temos um desvio padrão populacional (𝜎) conhecido. Portanto, é
necessário utilizar o desvio padrão amostral (estimativa do parâmetro populacional) para
calcular o intervalo de confiança. Portanto, a partir da tabela de frequência, deve ser calculado
a média e o desvio padrão amostral.
A média amostral (𝑋̅) é:
𝟑𝟎 × 𝟐𝟓 + 𝟔𝟎 × 𝟏𝟎 + 𝟗𝟎 × 𝟓 𝟏𝟖𝟎𝟎𝟎
̅=
𝑿 = = 𝟒𝟓 𝒎𝒊𝒏
𝟒𝟎 𝟒𝟎𝟎
O desvio padrão amostral (s) é:
𝟐
(𝟑𝟎 − 𝟒𝟓)𝟐 + (𝟔𝟎 − 𝟒𝟓)𝟐 + (𝟗𝟎 − 𝟒𝟓)𝟐
𝒔 =
𝟒𝟎 − 𝟏
𝟐𝟐𝟓 + 𝟐𝟐𝟓 + 𝟐𝟒𝟕𝟓 𝟐𝟒𝟕𝟓
𝒔𝟐 = = = 𝟔𝟑, 𝟒𝟔 𝒎𝒊𝒏𝟐
𝟑𝟗 𝟑𝟗
𝒔 = √𝟔𝟑, 𝟒𝟔 ≅ 𝟖 𝒎𝒊𝒏
Após extrair as medidas necessárias na amostra, é possível obter o intervalo de confiança.
Como a amostra possui um tamanho maior que 30 elementos (𝑛 ≥ 30), o intervalo de confiança
pode ser obtido com uso da variável Z (Normal Padrão), a diferença apenas será devido ao uso
do desvio padrão amostral. Assim:
𝒔 𝒔
𝑰𝑪 = 𝒁 ̅±𝒁
𝑿
√𝒏 √𝒏
Assim:
𝟖
𝟒𝟓 ± 𝒁
√𝟒𝟎
Ainda não foi definido o valor de Z adequado para 90% de confiança. Muitas vezes, quando
a questão fornecer um nível de confiança diferente de 95% (mais usual em prova), será
fornecido valores Z com suas respectivas probabilidades. Nessa situação, precisamos
identificar o valor de Z que corresponderá a 90%.
Veja que os valores de Z são fornecidos a partir da distribuição acumulada de
probabilidade [𝑃(𝑍<𝑍𝐶 ) ]. No entanto, o grau de confiança é centrado na média, assim precisamos
ter 45% para cada lado da média, restando 5% de risco de erro em cada extremidade. Entenda
da representação gráfica da curva Normal Padrão:
Portanto, o escore padronizado de Z que acumula 95% corresponde a 1,64. Por fim, o
intervalo de confiança é:
𝟖
𝟒𝟓 ± 𝟏, 𝟔𝟒
√𝟒𝟎
𝟖
𝑰𝑪 = 𝟏, 𝟔𝟒 = 𝟏, 𝟔𝟒 × 𝟏, 𝟐𝟕 = 𝟐, 𝟎𝟖 𝒎𝒊𝒏
𝟔, 𝟑
𝟒𝟓 ± 𝟐, 𝟎𝟖 𝒎𝒊𝒏
10%
90% 1,64
(5% em cada extremo)
5%
95% 1,96
(2,5% em cada extremo)
1%
99% 2,58
(0,5% em cada extremo)
Para responder esse exemplo, a primeira coisa a ser identificada é que cada dia de análise
consiste em um elemento da amostra, bem como, os 16 dias de análise é o tamanho amostral. A
população de interesse é todos os processos julgados no tribunal de Piracicaba, que pode ser
compreendida como uma população infinita, sem fim determinado. Em segundo, deve-se ser
interpretado que a média e o desvio padrão, calculados nos 9 dias, são amostras, isto é, são
estimativas. Dessa forma, não temos desvio padrão populacional conhecido e nossa amostra é
considerada pequena (𝑛 < 9). Essas informações nos direcionam para utilização da terceira
fórmula do intervalo de confiança:
𝒔 𝒔
𝑰𝑪 = 𝒕 ̅±𝒕
𝑿
√𝒏 √𝒏
Assim:
𝟏, 𝟒
𝟕±𝒕
√𝟏𝟔
Após identificar a forma adequada de calcular o intervalo de segurança, precisa ser
identificado o valor de t apropriado. A variável t é um escore padronizado com distribuição t de
Student. Não vamos entrar em muitos detalhes com essa variável no momento, apenas
compreenda que se trata de uma distribuição de probabilidade contínua que explica os
processos de amostragens de pequeno tamanho (𝑛 < 30). É uma distribuição semelhante
Normal quanto à forma, porém o valor apropriado de t varia conforme o tamanho da amostra
(𝑛) além do nível de confiança aplicado no intervalo. Essa distribuição será estudada com mais
detalhes no tópico de teste de hipóteses.
Para localizar o valor na tabela, precisamos obter o grau de liberdade (GL) e o nível de
confiança. O grau de liberdade corresponde, simplesmente, a 𝑛 − 1. O nível de confiança é 95%,
com isso sabemos que o risco de erro (ou probabilidade de erro) é 2,5% para os dois extremos.
Observe que o valor t fornecido na tabela equivale a área de probabilidade para valores
superior a ele [𝑃(𝑡>𝑡𝑡𝑎𝑏 ) ], desse modo, um valor 𝑡 com área no extremo superior de 2,5% (0,025)
representa um intervalo de confiança de 95%. Entenda:
A expressão 𝑡𝑡𝑎𝑏 corresponde ao valor de 𝑡 tabelado, o valor de referência que deve ser
localizado e aplicado na fórmula. Em suma, temos as informações necessárias para encontrar o
𝑡𝑡𝑎𝑏 para essa questão.
𝟏, 𝟒
𝟕 ± 𝟐, 𝟑𝟏
√𝟏𝟔
𝟏,𝟒
𝑰𝑪 = 𝟐, 𝟑𝟏 = 𝟐, 𝟑𝟏 × 𝟎, 𝟑𝟓 = 𝟎, 𝟖𝟏 𝒑𝒓𝒐𝒄𝒆𝒔𝒔𝒐𝒔
𝟒
𝟕 ± 𝟎, 𝟖𝟏 𝒑𝒓𝒐𝒄𝒆𝒔𝒔𝒐𝒔
Limite Inferior: 7 − 0,81 = 6,19 𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑠;
Limite Superior: 7 + 0,81 = 7,81 𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑠;
Amplitude do intervalo de confiança: 2 × 0,81 = 1,62 𝑝𝑟𝑜𝑐𝑒𝑠𝑠𝑜𝑠;
̂(𝟏 − 𝒑
√𝒑 ̂)
̂±𝒁
𝒑
√𝒏
OBJETO DE ESTUDO:
Uma amostra aleatória de 1600 pessoas de um município evidencia que 64%
são favoráveis a alteração do regime jurídico para aplicação de penas mais severas.
𝟔𝟒% ± 𝟐, 𝟒%
Limite Inferior: 64 − 2,4 = 61,6 %;
Limite Superior: 64 + 2,4 = 66,4 %;
Amplitude do intervalo de confiança: 2 × 2,4 = 4,8%;
𝜎 𝑠
Erro de estimativa para a média → 𝐸 = 𝑍 𝑜𝑢 𝐸 = 𝑍
√ 𝑛 √𝑛
√𝑝̂(1−𝑝̂)
Erro de estimativa para a proporção → 𝐸 = 𝑍
√𝑛
Nas três possíveis fórmulas acima, observa-se que o erro (E) depende de Z e de n. A
variável Z também pode ser associada ao nível de confiança, pois são diretamente
proporcionais. Dessa forma, quando se aumenta o nível de confiança, aumenta-se a margem de
erro 𝐸, consequentemente, a amplitude do intervalo de confiança. Portanto, para aumentar o
nível de confiança sem aumentar a amplitude do intervalo de confiança, é necessário aumentar
o tamanho da amostra.
Para encontrarmos o tamanho da amostra, isolamos o valor de n na fórmula do erro de
estimativa. Para a média, temos que:
𝝈 𝝈
𝑬=𝒁 → √𝒏 = 𝒁
√𝒏 𝑬
Quando a questão não fornecer o desvio padrão populacional (𝜎) do fenômeno em estudo,
utiliza-se a fórmula com o desvio padrão amostral (𝑠).
Com a determinação da fórmula para definir o tamanho amostral, podemos obter muitas
conclusões:
➢ Obviamente, o erro amostral e o tamanho da amostra seguem sentidos contrários
(inversamente proporcionais). Quanto maior o tamanho da amostra, menor o erro
cometido e vice-versa.
➢ Além disso, quanto maior o nível de confiança (ou valor Z) que se pretende obter na
estimativa de uma amostra, maior deve ser o tamanho amostral.
Para estimar uma proporção, o cálculo adequado para o tamanho da amostra, conforme a
fórmula:
̂(𝟏 − 𝒑
√𝒑 ̂) ̂(𝟏 − 𝒑
√𝒑 ̂)
𝑬=𝒁 → √𝒏 = 𝒁
√𝒏 𝑬
Nesta última fórmula, se o valor da proporção p não for fornecido ou se não for possível
ser obtido a partir dos dados do enunciado da questão, então consideraremos p igual a 1/2 ou
0,5. Entre os valores possíveis para p, o valor 1/2 é o que fornece o maior valor para o tamanho
da amostra (n). Vamos estudar agora a partir de um exemplo.
OBJETO DE ESTUDO:
Uma substância química é utilizada por um grupo de sequestradores na região
Sul do Brasil. Para compreender como ocorre o efeito dessa toxina e estudar todo
trajeto criminoso, foi avaliado o tempo, em minutos, dessa toxina agir no ser humano
e deixá-lo inconsciente. Esse tempo X é uma variável aleatória com distribuição
Normal, com média 𝜇 e desvio padrão 𝜎.
Supondo que o valor de σ é 10 min, qual deve ser o tamanho da amostra para que o
estimador não se afaste de μ por mais do que 2 min, com probabilidade de 95% de
confiança?
Segundo o exemplo, o estimador (média amostral) não deve se afastar da média
populacional (μ) por mais do que 2 minutos. A diferença entre a média amostral e a média
populacional é exatamente o erro de estimativa (E). Desse modo, deve ser considerado um erro
amostral igual a 2 (𝐸 = 2).
Além disso, a questão forneceu um desvio padrão (𝜎) igual a 10 e nível de confiança igual
a 95% (𝑍 = 1,96). Portanto, o tamanho da amostra pode ser calculado da seguinte forma:
𝝈 𝟐
𝒏 = (𝒁 )
𝑬
𝟏𝟎 𝟐
𝒏 = (𝟏, 𝟗𝟔 ) = 𝟗, 𝟖𝟐 ≅ 𝟗𝟔 𝒆𝒍𝒆𝒎𝒆𝒏𝒕𝒐𝒔
𝟐
Portanto, se o efeito da substância for avaliado em 96 vezes, será garantido um erro
máximo de estimativa de 2 min.
O teste de hipóteses é uma ferramenta estatística que nos auxilia na tomada de decisões,
sobre uma ou mais populações, baseadas nas informações obtidas das amostras. Essas
informações têm natureza incompleta e, por isso, precisam ser testadas. Dessa forma, os testes
de hipóteses permitem verificar se os dados amostrais trazem evidência que apoiem ou não
(rejeitar ou não rejeitar) uma hipótese formulada. A partir do resultado de um teste de
hipóteses podemos inferir, extrapolar e tirar conclusões de interesse.
FORMULAÇÃO DE HIPÓTESES ESTATÍSTICAS
Ao observa padrões e comportamentos de algum fenômeno em estudo, hipóteses podem
ser questionadas e formuladas. Isso ocorre com bastante frequência nas atividades do dia a dia,
e muitas vezes criamos hipóteses sem perceber. Por exemplo, um agente de polícia tem fortes
indícios que um homem é o assassino de um crime que está investigando. O policial observa
que está encontrando esse homem mais do que o comum na sua rotina. Encontra casualmente
esse suspeito na rua, no parque e no shopping. Baseado nessas informações o agente fórmula
as seguintes hipóteses:
➢ Primeira hipótese: o suspeito não está perseguindo o policial;
➢ Segunda hipótese: o suspeito está perseguindo o policial;
Suponhamos que fosse verdade a primeira hipótese. Então, o suspeito só estaria nos
mesmos lugares que o policial por mera coincidência e acaso, não intencionalmente. No
entanto, como o suspeito começou aparecer mais frequentemente na rotina do policial após o
crime, isso não deve ser coincidência, portanto, a primeira hipótese deve ser rejeitada.
Nessa formulação de hipótese empírica, duas observações devem se analisadas: a
primeira é o critério de coincidência (ou casualidade), o agente encontrou o suspeito apenas
três vezes e já considera isso fora do padrão; a segunda é que mesmo o raciocínio correto, a
conclusão pode ser falsa, o suspeito pode nem ser o assassino e nem sequer saber que o policial
está o investigando.
Esse exemplo desenvolve todo o raciocínio investigativo que deve se desenvolvido para o
teste de hipóteses. Temos informações que são incompletas, mas que segurem indícios
(hipóteses) que precisam ser verificadas. Na Estatística Inferencial aplica-se toda essa
construção para tudo aquilo que pode ser coletados dados e obter medidas numéricas.
Então, o procedimento inicial para testar hipóteses é estabelecer duas hipóteses: a
primeira hipótese, também conhecida como Hipótese Nula (que chamaremos de H 0), será
sempre uma hipótese de igualdade. Isto é, supõe-se que determinado parâmetro (média,
proporção etc.) é igual a um número. A segunda hipótese, chamada de Hipótese Alternativa (que
denominaremos de H1 ou HA), contradiz a hipótese nula de alguma forma, portanto, é uma
desigualdade: pode ser “o parâmetro é diferente do número” (≠), “maior do que o número”
(>) ou “menor do que o número” (<). Podemos ter, então, três pares de hipóteses possíveis em
um teste para um determinado parâmetro:
Neste desenho, temos que as duas áreas laterais, que estão destacadas em vermelho. Essas
duas áreas correspondem à chamada região crítica ou região de rejeição de H0.
Vemos, pois, que neste primeiro tipo de Teste de Hipóteses, a região crítica localiza-se nas
duas laterais (nas duas caudas) do desenho. Isso explica o nome teste bilateral (ou bicaudal).
Sempre que o objetivo da hipótese é saber se valor é diferente do parâmetro, divide-se a área
de rejeição em duas partes, por isso são representadas por 𝛼/2. Assim, se o nível de
significância é 5%, no teste bilateral repartirmos 2,5% para cada extremo, pois não sabemos se
o valor é maior ou menor que o parâmetro. Além disso, a área central do desenho será chamada
de região de aceitação de H0.
➢ Teste Unilateral à Direita (ou Unicaudal à Direita):
Neste caso, só haverá uma região crítica, na lateral direita do desenho, enquanto a região
de aceitação corresponde a todo o restante da área sob a curva!
Nesse teste, estamos preocupados em saber se o valor encontrado é superior ao
parâmetro já conhecido. Assim, direcionamos toda a margem de rejeição 𝛼 para o lado em que
sabemos que valor pode ser encontrado.
➢ Teste Unilateral à Esquerda (ou Unicaudal à Esquerda):
A única região crítica agora estará bem na lateral esquerda do desenho, enquanto a região
de aceitação corresponde a todo o restante da área sob a curva.
A utilização de um teste unilateral ou bilateral depende das informações ou suspeitas
obtidas anteriormente no estudo, ou seja, a formulação da hipótese alternativa irá depender do
grau de conhecimento que se tem a prior sobre o problema. Em uma questão de Estatística, ou
será fornecido de forma expressa que o teste de hipóteses é bilateral/unilateral, ou pelo
contexto da questão será induzida a ideia de que o valor testado deve ser menor ou maior (caso
não se forneça nenhuma ideia a respeito, o teste bilateral é o padrão aplicado).
ESTATÍSTICAS DE TESTE Z OU T
Os testes de hipóteses são fundamentados a partir de uma distribuição de probabilidade
conhecida. Conforme o Teorema do Limite Central e o estudo da forma das distribuições
amostrais, as principais distribuições de probabilidade aplicadas são a Z Normal Padrão e a 𝑡
de Student. A utilização da distribuição apropriada segue os mesmos conhecidos aplicados no
intervalo de segurança (conhecimento do desvio padrão populacional e o tamanho da amostra).
Então, precisamos do valor 𝑍 ou 𝑡 para testar nossas hipóteses, esses valores são também de
estatísticas Z ou t.
Para realizar o teste, será preciso descobrir dois valores de Z (ou t): um deles será
encontrado na tabela da curva Normal Padronizada. Será o Z tabelado! E o outro deles será
determinado por meio da fórmula de padronização (um cálculo). Esse será chamado Z
calculado.
Em caso de teste unilaterais teríamos outra relação de valores para encontrar. Veja:
Quando se tratar do teste unilateral à esquerda, deve ser pego o valor de Z negativo, isto
é, o mesmo valor do lado positivo espelhado, na relação simétrica, para o lado negativo. Nesse
caso, com nível de significância de 5% seria o valor -1,64.
Muitas vezes, as questões na prova irão fornecer alguns valor específicos de probabilidade
Z. Outra forma, é apresentar uma parte da tabela em que terá as informações necessárias para
questão. O importante para encontrar o valor Z tabelado e sempre desenhar a distribuição
Normal Padrão e identificar qual informação de probabilidade está sendo fornecida (acumulada
ou distância entre a média e o valor).
Como apresentado anteriormente, o teste de hipóteses será a comparação entre dois
valores Z. Já obtivemos o Ztab, que nos fornece o valor crítico que separa a área de rejeição da
área de aceitação. Agora, precisa ser calculada a estatística de teste Z, que é obtido a partir do
cálculo de padronização, vamos denominar de Zcal. O valor de Z calculado é a estatística de teste
propriamente dito, pois consiste em transformar a hipótese que se pretende testar em um valor
Normal Padrão Z.
Vamos supor que a hipótese de interesse é verificar se uma média estimada 𝑋̅ não difere
estatisticamente de um parâmetro da 𝜇 populacional conhecida. Nesse caso, estamos
interessados em saber se a diferença da estimativa com o parâmetro não difere
significativamente. Assim, transformamos esse valor 𝑋̅ em uma estatística de teste Z e
calculamos o valor Zcal.
Para uma padronização Normal qualquer em Z temos:
𝑿−𝝁
𝒁𝒄𝒂𝒍 =
𝝈
Portanto, conforme a relação desse dois valores, temos duas possíveis conclusões para
hipótese H0:
➢ 1ª) Se o Zcal estiver na área de aceitação de H0, aceita-se a hipótese H0 (ou H0 não
será rejeitada), para isso o valor em módulo de Zcal será menor que Ztab (|𝑍𝑐𝑎𝑙 | <
|𝑍𝑡𝑎𝑏 |);
➢ 2ª) Se o Zcal estiver na área de rejeição de H0, diremos que H0 será rejeitada, para
isso o valor em módulo de Zcal será maior que Ztab (|𝑍𝑐𝑎𝑙 | > |𝑍𝑡𝑎𝑏 |); Dessa forma, a
hipótese alternativa H1 será aceita!
Essa é a essência de qualquer teste de hipótese estatístico, que pode ser aplicada para
testar a média amostral, como também a proporção amostral (são os principais cobrados em
prova). O importante é entender que devemos ter um critério para considerar algo diferente
significativamente, definindo o 𝛼; como também, precisamos calcular a estatística de teste e
verificar se está posicionada na área de rejeição ou aceitação.
Além disso, o valor de Zcal ser calculado diferente conforme as informações dispostas na
questão. Aqui, aplicamos o mesmo raciocínio que no intervalo de confiança.
Se o desvio padrão populacional (𝜎) não for conhecido, trabalharemos com o desvio
padrão amostral (𝑠), que possivelmente deverá ser calculado na questão pelos dados amostrais.
Nessa situação e se a amostra for grande (𝑛 ≥ 30), a estatística de teste Zcal é obtida da seguinte
forma:
̅−𝝁
𝑿
𝒁𝒄𝒂𝒍 = 𝒔
√𝒏
Nessa ideia, trabalha-se com os dados disponíveis e efetua-se o teste de hipóteses.
Porém, há uma única situação em que a curva Z (Normal Padrão) será substituída por uma
outra distribuição – a Curva 𝑡 de Student – conhecida como distribuição das pequenas amostras.
Assim, será utilizado a estatística de teste 𝑡 quando o desvio padrão populacional (𝜎) não for
conhecido e amostra for pequena (𝑛 < 30). Com isso, obtemos o tcal.
̅−𝝁
𝑿
𝒕𝒄𝒂𝒍 = 𝒔
√𝒏
O teste de hipótese utilizando a distribuição 𝑡 de Student segue a mesma essência que
apresentada para o teste 𝑍. Só fique atento, pois, para obter o valor ttab, é necessário conhecer
o tamanho da amostra e aplicar os graus de liberdade (𝑛 − 1). A tabela 𝑡 de Student depende
também dessa informação. Assim, para achar o 𝑡𝑡𝑎𝑏 :
O exemplo formula uma hipótese bilateral, pois apenas está interessada em saber se o
parâmetro 𝜇 é verdadeiro. Portanto, qualquer valor diferente de R$350,00 atenderá ao objetivo
da hipótese.
Em segundo, precisa ser definir pelo exemplo qual a distribuição de probabilidade mais
apropriada para efetuar o teste de hipóteses (curva Normal Z ou curva t de Student). Uma vez
que não temos o desvio padrão populacional (𝜎) e nossa amostra corresponde a 9 elementos
(𝑛 = 9), a curva 𝒕 de Student é a mais apropriada para esse exemplo.
Identificando a distribuição de probabilidade adequada, é necessário encontrar o valor de
𝑡𝑡𝑎𝑏 que limita as regiões de aceitação e rejeição de H0. Com nível de significância de 5%, o valor
de 𝑡𝑡𝑎𝑏 apropriado para essa questão é 2,31. Isso porque os graus de liberdade correspondem
a 8 (9 − 1 = 8) e área de significância encontrada a frente do valor 𝑡𝑡𝑎𝑏 será de 2,5% (pois testes
bilaterais particionam o 𝛼 em 2 (𝛼/2), isto é, 0,5/2 = 0,025.
𝒕𝒕𝒂𝒃 = 𝟐, 𝟑𝟏
Com esse valor é interessante identificar esse valor a partir da representação gráfica da
curva de 𝑡 de Student. É altamente recomendável que o aluno faça o desenho para solucionar a
questão. Assim:
Após definido o valor de 𝑡𝑡𝑎𝑏 , precisamos calcular a estatística de teste 𝑡, isto é, o valor do
𝑡𝑐𝑎𝑙 . Coletando as informações necessárias temos que o cálculo ficará:
̅ = 𝟒𝟎𝟎; 𝒔 = 𝟓𝟎;
𝒏 = 𝟗; 𝝁 = 𝟑𝟓𝟎; 𝑿
̅ − 𝝁 𝟒𝟎𝟎 − 𝟑𝟓𝟎
𝑿
𝒕𝒄𝒂𝒍 = 𝒔 =
𝟓𝟎
√𝒏 √𝟗
𝟓𝟎
𝒕𝒄𝒂𝒍 = =𝟑
𝟓𝟎
𝟑
Obtendo o valor de 𝑡𝑐𝑎𝑙 , é interessante colocá-lo na representação gráfica e verificar em
qual área (rejeição ou aceitação) o valor da estatística 𝑡 ficará localizado. Veja:
Por fim, verificamos pelo teste 𝑡 que a hipótese nula H0 é rejeitada. Em consequência,
aceita-se a hipótese alternativa H1. Portanto, a partir da nossa amostra, não podemos afirmar,
a 5% de probabilidade de erro, que o consumo médio de medicamentos por mês na
população estudada é de R$ 350,00. Assim, esse resultado pode evidenciar que os registros
históricos não condizem com o consumo médio dos clientes na farmácia, o que sugere algum
fator ter influenciado nessa diferença, apontando indícios sobre o uso ilegal de medicamentos
para causar dependência.
Veja que ao concluir a hipótese tomamos uma decisão de negar essa informação, mas
sempre enfatizando uma baixa probabilidade de erro. Isso é um teste de hipótese estatístico,
afirmar algo a partir de dados incompletos e com a menor probabilidade de erro possível.
Em síntese, o teste de hipóteses para a média pode ser representado pelo seguinte roteiro
de procedimentos:
Em primeiro, deve ser definido a hipótese que será testada. Lembrando que H0 será uma
hipótese de igualdade, e H1, de desigualdade (≠, > ou <). Conforme o sinal de H1, teremos a
definição do teste a ser realizado, se bilateral (H1 com sinal de ≠), ou unilateral esquerdo (H1
com sinal de <), ou unilateral direito (H1 com sinal de >). Nesse exemplo, temos o objetivo de
testar se a proporção P é igual a 8/10 (80%) ou se é inferior isso. Assim, as hipóteses são:
Por fim, verificamos pelo teste 𝑍, a 5% de probabilidade de erro, que a hipótese nula H0
é rejeitada. Em consequência, aceita-se a hipótese alternativa H1, em que 𝑃 < 80%. Portanto,
têm-se evidências suficientes para afirmar que a proporção de criminosos reincidentes não é
de 80% e sim um valor menor.
Ao invés de ser fornecido informações para calcular o Zcal ou tcal, algumas questões de
Estatística podem fornecer apenas o valor-P que está diretamente relacionado as estatísticas
de teste. Nesse cenário, o aluno precisa compreender a relação entre o valor-P (Փ) e o nível de
significância (𝛼) para responder efetivamente à questão. Basta associar que a área projetada
do valor-P ocorre a partir do Zcal ou tcal, assim se essa área for maior que a área de rejeição quer
dizer há riscos consideráveis em rejeitar H0, a recíproca é correta também. Vamos ver esse
estudo por meio de um exemplo de questão.
OBJETO DE ESTUDO
Um objeto de estudo avalia se um lote de um produto alimentar X apresenta
uma média de 14% de carboidrato. Para isso foi efetuado um teste de hipótese que
apresentou um valor-P igual a 0,03. Nessa situação, se o critério da análise
considerar um nível de significância de 5% ou de 1%, quais seriam os resultados
possíveis?
Nesse caso, temos um valor não expresso na tabela, no entanto podemos encontrar uma
relação aproximada para o valor-P (Փ), ou seja, ele será um valor inferior a 10% e superior a
5%. Só com essa informação pode ser o suficiente para resolver a questão caso, por exemplo, o
nível de significância for 5%, pois a hipótese H0 seria aceitada.
TIPOS DE ERROS NO TESTE DE HIPÓTESES
Na Estatística Inferencial, trabalha-se com fenômenos aleatórios e informações
incompletas. Devido a isso, nenhum teste de hipótese é 100% certo. Como o teste é baseado em
probabilidades, sempre há uma possibilidade, mesmo que baixa, de chegar a uma conclusão
errada. O resultado de uma hipótese é afirmado a partir de uma probabilidade de erro
conhecida. Isso quer dizer que, mesmo utilizando toda a teoria da probabilidade ao nosso favor,
estaremos sujeitos a erros casuais e aleatórios com baixa probabilidade de ocorrer. Portanto,
no teste de hipóteses, deve-se estar ciente de que esses erros existem e devemos utilizar essa
informação ao nosso favor.
Quando é realizado um teste de hipóteses, dois tipos de erros são possíveis: tipo I e tipo
II. Os riscos desses dois erros estão inversamente relacionados. Portanto, deve ser determinado
qual erro tem consequências mais severas para situação em análise antes que sejam definidos
os riscos. De forma bem sintética, os dois erros podem ser definidos como:
➢ Erro tipo I: ocorre quando se rejeita a hipótese nula (𝑯𝟎 ), quando ela é
verdadeira. Em outras palavras, consiste em afirmar que os objetos em estudo são
diferentes quando na verdade não são.
A probabilidade de cometer um erro do tipo I é o próprio nível de significância α, que é
definido de forma subjetiva no teste de hipóteses (informação que geralmente é fornecida na
questão). Um α de 0,05 indica uma chance de 5% de erro ao rejeitar a hipótese nula. Veja
que o erro tipo I é inversamente associado ao grau de confiança obtido por 1 − 𝛼.
Para reduzir este risco de erro, deve-se usar um valor baixo para o nível de significância
α. Entretanto, usar um valor inferior para α significa que existirá menos probabilidade de
detectar uma diferença verdadeira, se realmente existir uma, isto é, ser muito criterioso
pode ocasionar em não encontrar algum resultado de interesse. Assim, o controle do Erro tipo
I deve ser consideravelmente equilibrado, pois, ao mesmo tempo que controla erros, pode
perder resultados de interesse.
➢ Erro tipo II: ocorre quando se aceita a hipótese nula, quando ela é falsa. Em
outras palavras, ocorre esse erro ao se afirmar que os objetos em estudo são iguais
quando na verdade são diferentes.
A probabilidade de cometer um erro de tipo II é β, que está relacionado com a potência
do teste (são complementares, ou seja, 1 − 𝛽).
Cuidado, não confunda a relação inversamente proporcional no controle dos dois tipos de
Erro, com a relação entre 𝛼 e 𝛽. Aumentar um pode acarretar reduzir o outro, porém esses dois
níveis não são complementares. Isso quer dizer que a soma dos dois não resultará em 1 ou
100%. Possui uma relação de dependência, uma correlação negativa apenas. O nível de
significância 𝛼 é complementar ao grau de confiança, e o nível 𝛽 é complementar da potência
do teste. Portanto, não faça essa confusão:
EXEMPLO:
Imagine que agentes da Polícia Federal estão investigando a casa de um
suspeito. Ao entrar no local, encontram uma substância química desconhecida e
suspeita. Para verificar a natureza dessa substância, os agentes pedem auxílio dos
peritos que efetuam uma análise rápida e indicativa sobre a substância. Para ser
considerada uma substância química ilegal, ela deve ter, no mínimo, a composição
de 70mg de um princípio ativo X, com desvio padrão de 2mg (valores teóricos
conhecidos). Várias amostras foram feitas da substância encontrada, e obteve um
valor de 64 mg.
𝑷𝒐𝒕ê𝒏𝒄𝒊𝒂 𝒅𝒐 𝑻𝒆𝒔𝒕𝒆 = 𝟏 − 𝜷
Para calcular a potência do teste, é preciso fixar um parâmetro alternativo que acredita
ser o verdadeiro, isto é, qualquer outro valor que não pertença a igualdade da hipótese nula H0
que representa o parâmetro corretamente. Lembre-se que existem inúmeros 𝛽 um para cada
possível valor alternativo que o parâmetro pode assumir (especificado na desigualdade da
hipótese H1). Adota-se que esse valor alternativo corresponde a informação verdadeira e, com
𝓧𝟐 = ∑ 𝒁𝒊 𝟐 = 𝒁𝟏 𝟐 + 𝒁𝟐 𝟐 +. . . +𝒁𝒏 𝟐
𝒊=𝟏
Pode-se afirmar que a variável 𝒳 2 tem distribuição Qui-Quadrado com 𝐺𝐿 graus de
liberdade. Sobretudo, é interessante que o aluno lembre que a variável Qui-Quadrado 𝒳 2 é uma
soma dos quadrados de variáveis Normais Padronizadas, em caso de questões mais teóricas
isso pode ser cobrado. Dessa forma:
𝓧𝟐 ~𝑸𝒖𝒊 − 𝑸𝒖𝒂𝒅𝒓𝒂𝒅𝒐(𝑮𝑳)
A curva de probabilidade (função densidade de probabilidade) do Qui-Quadrado tem a
seguinte forma:
A distribuição Qui-Quadrado assume essa forma com o aumento dos graus de liberdade,
geralmente 𝐺𝐿 ≥ 3. Com poucos GL ela assume uma forma semelhante a uma exponencial.
A cauda à direita não é limitada, segue para +∞, enquanto a cauda à esquerda não
prossegue para o lado negativo, uma vez que o Qui-Quadrado é uma soma de quadrados, desse
modo ela não assume valores negativos.
Assim como as outras distribuições de probabilidade contínua, os valores de 𝒳 2 são
tabelados. A forma de encontrar os valores desejados é muito semelhante a tabela 𝑡 de Student,
pois também varia conforme graus de liberdade e a probabilidade de interesse (área do
gráfico). Um exemplo de tabela já apresentada em prova é:
Liamba 90 3%
Nesse contexto, temos a variável qualitativa “tipos de drogas”, e dentro dela as classes (os
dados não numéricos que ela pode assumir) Cocaína, Heroína, Liamba e Cannabis. Para cada
classe, temos a contagem de vezes que foi apreendido essa droga, representado pela frequência,
como também proporção em relação ao total (mesma ideia de frequência relativa). Essa é uma
possível forma de representar as variáveis qualitativas e o mais comum de ser cobrado no
conteúdo do teste Qui-Quadrado.
Para aplicar esse teste de hipótese, algumas pressuposições devem ser atendidas:
➢ As variáveis são de natureza qualitativa (categórica);
➢ As observações devem ser independentes entre si;
➢ As observações devem ser contagens, frequências ou proporções;
➢ Cada observação pertence a somente uma classe, isto é, cada classe são eventos
mutuamente exclusivos;
➢ Não pode ser aplicado com amostras pequenas (inferiores a 5 observações por
classe);
O princípio básico deste teste é comparar as frequências, ou seja, possíveis divergências
entre as frequências observadas no mundo real versus as frequências esperadas para um certo
evento.
Para iniciar o teste Qui-Quadrado, devem ser formuladas as hipóteses. De forma genérica,
neste teste, as hipóteses serão as seguintes: a hipótese nula (H0) consistirá na igualdade entre
as frequências observadas nas amostras (𝐹𝑜𝑏𝑠 ) e as frequências esperadas (𝐹𝑒𝑠𝑝 ); enquanto a
hipótese alternativa (H1) consistirá na diferença entre essas frequências.
Para obter o valor de 𝒳𝑇𝑎𝑏 2 , basta consultar a tabela da Distribuição Qui-Quadrado com o
respectivo grau de liberdade e nível de significância (𝛼). Por exemplo, para 𝛼 = 5% e 𝐺𝐿 = 9,
encontraríamos o valor de 9,49. Veja:
Por fim, ao analisar do valor tabelado e calculado é possível obter o resultado do teste de
hipóteses (a tomada de decisão sobre a hipótese nula).
Esse teste de hipóteses se destina a encontrar uma dispersão não esperada para variáveis
qualitativas, ou então, avaliar a associação (relação de dependência) existente entre variáveis
qualitativas. Conforme o objetivo da análise, o teste Qui-Quadrado apresenta algumas
interpretações e procedimentos matemáticos diferentes. Baseado nisso, os testes Qui-
Quadrado são utilizados para dois principais objetivos:
𝑻𝒐𝒕𝒂𝒍 = 𝟏𝟖 + 𝟑𝟏 + 𝟐𝟗 + 𝟑𝟎 + 𝟏𝟕 = 𝟏𝟐𝟓
Espera-se que essas 125 aberturar de inquérito policial ocorrem igualmente no decorrer
dos dias da semana. Assim, as frequências esperadas são 125/5 = 25:
Segunda Terça Quarta Quinta Sexta
25 25 25 25 25
Determinando as frequências observada e esperada, deve ser efetuado o teste de
hipóteses. Primeiramente, o valor de 𝒳𝑡𝑎𝑏 2
, para nível de significância de 5% e graus de
liberdade 4 (𝑁º 𝑑𝑒 𝑐𝑙𝑎𝑠𝑠𝑒𝑠 – 1 = 4), é igual a 9,49 (conforme tabela Qui-Quadrado).
(𝒇𝑶𝒃𝒔 − 𝒇𝑬𝒔𝒑 )𝟐
Semana 𝒇𝑶𝒃𝒔 𝒇𝑬𝒔𝒑 𝒇𝑶𝒃𝒔 − 𝒇𝑬𝒔𝒑 (𝒇𝑶𝒃𝒔 − 𝒇𝑬𝒔𝒑 )𝟐
𝒇𝑬𝒔𝒑
Segunda 18 25 -7 49 49/25 = 1,96
Terça 31 25 6 36 36/25 = 1,44
Quarta 29 25 4 16 16/25 = 0,64
Quinta 30 25 5 25 25/25 = 1,00
Sexta 17 25 -8 64 64/25 = 2,56
Total 125 125 0 - 𝓧𝟐𝒄𝒂𝒍 = 𝟕, 𝟔𝟎
O valor de 7,60 fica posicionado na área de aceitação de H0. Portanto, aceita-se a hipótese
H0, que, para qualquer teste de hipótese Qui-Quadrado, consiste em afirmar que a frequência
observada é igual a frequência esperada. Como conclusão, verifica-se que os dias da semana
não influenciam a abertura de inquérito policial e as diferenças observadas foram devido a
mera casualidade.
TESTE DE INDEPENDÊNCIA
Para esse teste Qui-Quadrado, é analisado duas variáveis qualitativas e observa-se se as
frequências são modificadas devido a diferença das classes. Esse é o teste mais comum aplicado
nas provas de Estatística, em que apresenta uma tabela de dupla entrada. Vamos aborda esse
teste a partir de um exemplo.
OBJETO DE ESTUDO:
Uma pesquisa realizada com uma amostra de 200 clientes analisa se há
influência na escolha de uma marca de automóvel conforme o sexo do cliente. Assim,
os dados coletados foram apresentados na seguinte tabela:
Masculino 20 70 30 120
Feminino 40 15 25 80
Total 60 85 55 200
Com essas informações, existe alguma relação, a 5% de probabilidade de erro, entre o sexo
do cliente e a escolha da marca do automóvel?
Essa já é uma construção de hipóteses mais complexa, uma vez que as frequências
consistem na interseção de dois eventos (duas variáveis qualitativas). Nesse teste de hipóteses,
a preocupação está se as frequências observadas quanto ao sexo do cliente têm suas proporções
modificadas conforme a marca do automóvel, ou seja, se a escolha de um automóvel é
influenciada pelo sexo do cliente. Assim, podemos estabelecer as seguintes hipóteses:
Conforme o teste de hipótese, se a frequência esperada for igual a frequência observa isso
indicará que a escolha da marca do automóvel ocorrerá independentemente do sexo do cliente.
A recíproca também se estabelece, ou seja, se houver diferenças significativas entre as
frequências indica que há alguma influência na escolha do automóvel e no sexo do cliente.
Então, após estabelecer as hipóteses, deve ser obtido a tabela com as frequências
esperadas. Para isso, podemos efetuar uma análise sobre os totais do sexo do cliente e da marca
de automóvel. Ao fixar sobre o total do sexo masculino e feminino observamos que 60% dos
200 clientes eram homens e 40 % dos clientes eram mulheres. Assim, considerando que a
escolha da marca do automóvel não seja influenciada pelo sexo, espera-se que do total de cada
marca seja observada a mesma proporção de homes e mulheres (60%; 40%). Veja:
Sendo assim, para achar as frequências esperadas basta fixar as proporções totais de uma
variável qualitativa e distribuir na mesma proporção para cada classe da outra variável. Nesse
caso, foi fixado as proporções de 60% masculino e 40% feminino e distribuído nessa proporção
para cada marca de automóvel. Isso é a frequência que se espera caso não haja nenhuma relação
entre essas variáveis.
A próxima etapa é identificar o valor de 𝒳𝑡𝑎𝑏
2
com nível de 5% de significância. Além é
preciso calcular o número de graus de liberdade que para esse tipo de teste é calculado da
seguinte forma:
𝑮𝑳 = (𝑵º𝑪𝒐𝒍𝒖𝒏𝒂𝒔 − 𝟏) × (𝑵º𝑳𝒊𝒏𝒉𝒂𝒔 − 𝟏)
𝑮𝑳 = (𝟑 − 𝟏) × (𝟐 − 𝟏) = 𝟐
O número de linhas e colunas nada mais é do que p número de classes de cada variável
qualitativa, essa informação pode ser facilmente identificada na tabela:
𝟐
(𝒇𝑶𝒃𝒔 − 𝒇𝑬𝒔𝒑 )𝟐
Sexo Marca 𝒇𝑶𝒃𝒔 𝒇𝑬𝒔𝒑 𝒇𝑶𝒃𝒔 − 𝒇𝑬𝒔𝒑 (𝒇𝑶𝒃𝒔 − 𝒇𝑬𝒔𝒑 )
𝒇𝑬𝒔𝒑
M A 20 36 -16 256 256/36 = 7,11
M B 70 51 19 361 361/51 = 7,08
M C 30 33 -3 9 9/33 = 0,27
F A 40 24 16 256 256/24 = 10,67
F B 15 34 -19 361 361/34 = 10,62
F C 25 22 3 9 9/25 = 0,41
Total 200 200 0 - 𝓧𝟐𝒄𝒂𝒍 = 𝟑𝟔, 𝟏𝟔
é muito maior do que mera casualidade. Veja pela distribuição de probabilidade Qui-Quadrado:
√𝑝(1−𝑝)
Assim, sabendo que 𝑍 = 2 e que o erro padrão da proporção é igual a 𝑝 = ,
√𝑛
logo temos que o intervalo de confiança é igual a:
Por fim, a questão está errada uma vez que a estimativa intervalar apropriada
para essa amostra é 𝟎, 𝟐𝟓 ± 𝟎, 𝟎𝟐.
(CESPE – Polícia Federal – Escrivão – 2018) O tempo gasto (em dias) na preparação
para determinada operação policial é uma variável aleatória X que segue distribuição normal
com média M, desconhecida, e desvio padrão igual a 3 dias. A observação de uma amostra
aleatória de 100 outras operações policiais semelhantes a essa produziu uma média amostral
igual a 10 dias.
Com referência a essas informações, julgue o item que segue, sabendo que P(Z > 2) =
0,025, em que Z denota uma variável aleatória normal padrão.
3. A expressão 10 dias ± 6 dias corresponde a um intervalo de 95% de confiança para a
média populacional M.
GABARITO: Errado.
Mais uma questão perguntando sobre intervalo de confiança. Dentro da
Estatística Inferencial, com certeza, é o assunto mais frequente na Cespe.
Em primeiro, precisamos verificar que o desvio padrão populacional foi
fornecido, logo utilizaremos a distribuição Normal padrão Z, pois:
Dessa forma, questão está errada, pois a estimativa intervalar com 95% de
confiança é igual a 10 ± 0,6. Isto é, intervalor de mais ou menos 0,6 dias. E não de 6
dias.
(CESPE – Polícia Federal – Escrivão 2018) Uma pesquisa realizada com passageiros
estrangeiros que se encontravam em determinado aeroporto durante um grande evento
esportivo no país teve como finalidade investigar a sensação de segurança nos voos
internacionais. Foram entrevistados 1.000 passageiros, alocando-se a amostra de acordo com
o continente de origem de cada um — África, América do Norte (AN), América do Sul (AS),
Ásia/Oceania (A/O) ou Europa. Na tabela seguinte, N é o tamanho populacional de passageiros
em voos internacionais no período de interesse da pesquisa; n é o tamanho da amostra por
origem; P é o percentual dos passageiros entrevistados que se manifestaram satisfeitos no que
se refere à sensação de segurança.
Resultado do
Experimento 𝑷(𝑿𝒊 ) 𝑷(𝒀𝒋 ) 𝑷(𝑿𝒊 𝒀𝒋 )
𝑿𝒊 𝒀𝒋
1 0 1/4 1/3 1/4 × 1/3 = 1/12
1 1 1/4 2/3 1/4 × 2/3 = 2/12
2 0 1/4 1/3 1/4 × 1/3 = 1/12
2 1 1/4 2/3 1/4 × 2/3 = 2/12
3 0 1/4 1/3 1/4 × 1/3 = 1/12
3 1 1/4 2/3 1/4 × 2/3 = 2/12
4 0 1/4 1/3 1/4 × 1/3 = 1/12
4 1 1/4 2/3 1/4 × 2/3 = 2/12
Os possíveis valores de X são representados por Xi pois apresentam 4 resultados (assim,
denomina-se o i-ésimo resultado de X);
Os possíveis valores de Y são representados por Yi pois apresentam 2 resultados (assim,
denomina-se o j-ésimo resultado de Y);
A partir da tabela de resultados, podemos montar a distribuição de probabilidade
conjunta de X e Y:
Evento Evento 𝒀𝒋
𝑿𝒊 0 1
1 1/12 2/12
2 1/12 2/12
3 1/12 2/12
4 1/12 2/12
Com isso, temos que i-ésimo resultado de X representa cada linha da tabela e j-ésimo
resultado de Y representa cada coluna.
Observe que a soma de todas as probabilidades apresentadas na tabela acima é igual a 1.
Com isso, deve-se saber que a probabilidade conjunta de uma variável aleatória bidimensional
tem condições que devem ser obedecidas. Se (X,Y) é uma variável aleatória bidimensional
discreta, sua função de probabilidade conjunta representada por 𝑃(𝑋, 𝑌), que associa um valor
de probabilidade a cada valor do par (𝑋𝑖 , 𝑌𝑗 ), deve satisfazer as seguintes condições:
➢ A probabilidade para cada par (𝑋𝑖 , 𝑌𝑗 ) é um valor não-negativo:
𝑷(𝑿𝒊 , 𝒀𝒋 ) ≥ 𝟎
➢ A soma das probabilidades conjuntas correspondentes a cada par (𝑋𝑖 , 𝑌𝑗 ) é igual a 1:
∑ 𝑷(𝑿𝒊 , 𝒀𝒋 ) = 𝟏
Soma de cada 𝑖 ocorrência de X associada a cada 𝑗 ocorrência de Y.
𝑷(𝑿𝒊 ) = ∑ 𝑷(𝑿𝒊 , 𝒀𝒋 )
𝒋
Isto é, a soma das probabilidades conjuntas das colunas j para cada Xi
Além disso, tem-se uma distribuição de probabilidade marginal para Y, dada por:
𝑷(𝒀𝒊 ) = ∑ 𝑷(𝑿𝒊 , 𝒀𝒋 )
𝒊
Isto é, a soma das probabilidades conjuntas das linhas i para cada Yj;
Em resumo ao exposto, para obter a probabilidade marginal de X, basta somar as
probabilidades em cada linha. Em adição, para obter a probabilidade marginal de Y, basta
somar as probabilidades em cada coluna. Entenda conforme o exemplo já abordado:
Evento 𝒀𝒋
Evento
P(𝑿𝒊 )
𝑿𝒊 0 1
E para 𝑃(𝑌𝑗 ):
É interessante que aluno associe que a probabilidade marginal nada mais é que
probabilidade de um evento só. Contudo, apesar de ser apenas um novo conceito para algo já
visto, o aluno pode ser colocado em um cenário em que é fornecida a probabilidade conjunta
de dois eventos e a questão peça a probabilidade marginal, nesse momento é interessante
associar esses informações e fazer a mesma construção abordada nesse tópico.
𝑿𝒊 1 2 3 4
𝑷(𝑿𝒊 |𝒀=𝟏) 𝟏/𝟒 𝟏/𝟒 𝟏/𝟒 𝟏/𝟒
Para compreender melhor a diferença de uma distribuição de probabilidade condicional,
vamos abordar o mesmo exemplo só que agora considerando que classificação de investimento
do projeto interfere na aprovação, ou seja, existe uma relação de dependência entre as variáveis
X e Y.
Nesse novo exemplo, vamos supor que projetos com baixo investimento (categoria A e B)
sempre são aprovados, enquanto projetos de elevado investimento (categoria D) não são de
interesse da empresa. Por último, projeto de categoria C permanece nas mesmas proporções.
Baseado nisso, temos outra distribuição de probabilidade conjunta que reflete o efeito da
classificação de investimento na aprovação do projeto. Veja a nova tabela:
Evento 𝒀𝒋
Evento
𝑿𝒊 0 1 P(𝑿𝒊 )
𝟑/𝟏𝟐 𝟗 𝟑
𝑷(𝑿=𝟏| 𝒀=𝟏) = = =
𝟐/𝟑 𝟐𝟒 𝟖
𝟑/𝟏𝟐 𝟗 𝟑
𝑷(𝑿=𝟐| 𝒀=𝟏) = = =
𝟐/𝟑 𝟐𝟒 𝟖
𝟐/𝟏𝟐 𝟑 𝟏 𝟐
𝑷(𝑿=𝟑| 𝒀=𝟏) = = = =
𝟐/𝟑 𝟏𝟐 𝟒 𝟖
𝟎
𝑷(𝑿=𝟒| 𝒀=𝟏) = =𝟎
𝟐/𝟑
Desse modo, sabendo que o projeto foi deferido, as probabilidades de o projeto pertencer
a uma das quatro classes de investimento são modificadas para:
𝑿𝒊 1 2 3 4
𝑷(𝑿𝒊 |𝒀=𝟏) 𝟑/𝟖 𝟑/𝟖 𝟐/𝟖 𝟎
Matematicamente, isso consiste na distribuição condicional de X, dado que 𝑌 = 1. O
somatório da probabilidade é igual a 1, pois uma vez que sabemos que o projeto foi deferido só
resta classificar quanto ao investimento, totalizando todas as possibilidades em 100%. Isso é a
distribuição de probabilidade condicional para variáveis aleatórias não independentes.
1 1/12 2/12
2 1/12 2/12
3 1/12 2/12
4 1/12 2/12
O cálculo do valor esperado E(XY) pode ser procedido da seguinte forma:
Resultado do
Experimento 𝑿𝒊 × 𝒀𝒋 𝑷(𝑿𝒊 𝒀𝒋 ) 𝑿𝒊 × 𝒀𝒋 × 𝑷(𝑿𝒊 𝒀𝒋 )
𝑿𝒊 𝒀𝒋
1 0 0 1/12 0
1 1 1 2/12 2/12
2 0 0 1/12 0
2 1 2 2/12 4/12
3 0 0 1/12 0
3 1 3 2/12 6/12
4 0 0 1/12 0
4 1 4 2/12 8/12
Soma 1 𝑬(𝑿𝒀) = 𝟐𝟎/𝟏𝟐
𝟐𝟎 𝟓
𝑬(𝑿𝒀) = =
𝟏𝟐 𝟑
Com esse resultado podemos conferir uma propriedade interessante sobre o valor
esperado já discutida anteriormente em “Variáveis Aleatórias”. Quando a variável X e Y são
independentes, o valor esperado do produto das variáveis é igual o produto do valor esperado
de cada variável separadamente:
𝟏 𝟏 𝟏 𝟏 𝟓
𝑬(𝑿) = 𝟏 × + 𝟐 × + 𝟑 × + 𝟒 = = 𝟐, 𝟓
𝟒 𝟒 𝟒 𝟒 𝟐
Observação: trata-se de uma distribuição de uniforme, portanto o valor esperado é igual
a média aritmética dos quatros valores.
Por outro lado, a variável Y consiste no resultado da aprovação do projeto, isto é, se ele
é indeferido (𝑌 = 0) ou deferido (𝑌 = 1), com probabilidade de 1/3 e 2/3 respectivamente.
Portanto:
𝟏 𝟐 𝟐
𝑬(𝒀) = 𝟎 × +𝟏× =
𝟑 𝟑 𝟑
Observação: trata-se de uma distribuição de Bernoulli, portanto valor esperado é igual a
probabilidade de sucesso.
Com esses resultados, podemos certificar a propriedade do valor esperado, veja:
𝟓 𝟐 𝟓
𝑬(𝑿) × 𝑬(𝒀) = × =
𝟐 𝟑 𝟑
𝟓
𝑬(𝑿𝒀) =
𝟑
Portanto, confirma-se a propriedade:
𝑿𝒊 1 2 3 4
𝑷(𝑿𝒊 |𝒀=𝟏) 𝟑/𝟖 𝟑/𝟖 𝟐/𝟖 𝟎
Com isso, pode ser calculado o valor esperado da categoria de investimento do projeto,
sabendo que ele foi deferido, representado pela simbologia 𝐸(𝑋|𝑌 = 1). O cálculo é
representado por:
𝑬(𝑿| 𝒀 = 𝟎) 𝑬(𝑿| 𝒀 = 𝟏)
MUDE SUA VIDA!
294
alfaconcursos.com.br
Como também, poderia ser calculado os valores esperados condicionais de Y para cada
resultado de X:
COVARIÂNCIA COV(X, Y)
Ao se falar de variáveis aleatórias bidimensionais, a medida de dispersão associada a esse
par de variáveis denomina-se Covariância. Enquanto o Desvio Padrão e a Variância são medidas
de dispersão usadas para uma única variável, a covariância é medida que mensura a dispersão
conjunta de duas características.
Assim, é aplicado o mesmo conceito do desvio em relação a média, só que agora é
analisado o produto do desvio de X em relação a sua média com o desvio de Y em relação a sua
média, somando cada produto do desvio associado par a par. Desse modo, calcula-se a variância
pela seguinte expressão:
̅ )(𝒀𝒊 − 𝒀
∑(𝑿𝒊 − 𝑿 ̅)
𝑪𝒐𝒗(𝑿, 𝒀) =
𝒏
Em que:
𝐶𝑜𝑣(𝑋, 𝑌): Covariância entre a variável X e Y;
(𝑋𝑖 − 𝑋̅): Desvios das observações de X em relação a sua média (𝑋̅);
(𝑌𝑖 − 𝑌̅): Desvios das observações de Y em relação a sua média (𝑌̅);
∑(𝑋𝑖 − 𝑋̅)(𝑌𝑖 − 𝑌̅): Somatório das multiplicações dos desvios de X e Y;
𝑛: Número de pares associados de observações X e Y.
Por essa fórmula, conseguimos identificar que a covariância é uma medida que quantifica
a variação conjunta de duas variáveis. Veja:
Além disso, outra observação muito importante é que o número de elementos (𝑛) consiste
no número de pares de informações 𝑋𝑖 , 𝑌𝑖 (par ordenado de todas as possíveis combinações
de X com Y). Se fosse analisar o exemplo sobre processo de avaliação de um projeto, analisando
apenas os valores que poderiam ocorrer, seria obtido o seguinte valor:
𝑿, 𝒀 = {(𝟏, 𝟎); (𝟏, 𝟏); (𝟐, 𝟎); (𝟐, 𝟏); (𝟑, 𝟎); (𝟑, 𝟏); (𝟒, 𝟎); (𝟒, 𝟏)}.
𝒏(𝑿,𝒀) = 𝟖 𝒑𝒂𝒓𝒆𝒔
Esse é o cálculo da covariância para um conjunto de dados coletados. Mas, assim como a
variância pode ser calculada por um método alternativo, a covariância também possui outro
método de cálculo bem útil. Essa alternativa ocorre devido a seguinte igualdade:
(∑ 𝑿𝒊 ) (∑ 𝒀𝒊 )
∑ 𝑿𝒊 𝒀𝒊 −
𝑪𝒐𝒗(𝑿, 𝒀) = 𝒏
𝒏
∑ 𝑿𝒊 𝒀𝒊 (∑ 𝑿𝒊 ) (∑ 𝒀𝒊 )
𝑪𝒐𝒗(𝑿, 𝒀) = −
𝒏 𝒏𝟐
Esta última expressão é a mais utilizada para calcular a covariância, em adição, pode ser
aplicada tanto para variável bidimensional discreta como para contínua e mista.
Após toda essa definição matemática, vamos aplicar o cálculo da covariância no exemplo
sobre o processo de avaliação de um projeto administrativo. Veja:
Evento Evento 𝒀𝒋
𝑿𝒊 0 1
1 1/12 2/12
2 1/12 2/12
3 1/12 2/12
4 1/12 2/12
Para esse exemplo, em que categoria de investimento e aprovação do projeto ocorrem
independentemente já obtivemos as seguintes informações:
𝟓 𝟓 𝟐
𝑬(𝑿𝒀) = 𝑬(𝑿) = 𝑬(𝒀) =
𝟑 𝟐 𝟑
Ao aplicar o cálculo da covariância, obtém-se a seguinte conclusão:
𝟓 𝟓 𝟐
𝑪𝒐𝒗(𝑿, 𝒀) = − × =𝟎
𝟑 𝟐 𝟑
Nesse exemplo, obtém-se uma conclusão muito importante. Para variáveis aleatórias
independentes, o valor da covariância será sempre igual a zero. Isso porque não existe
dispersão associada entre variáveis ocorrem independentemente, isto é, não suas ocorrências
e variações não estão associadas. Matematicamente, já poderíamos chegar nessa conclusão,
uma vez que para variáveis aleatórias independentes temos que:
Evento Evento 𝒀𝒋
𝑿𝒊 0 1 P(𝑿𝒊 )
Outra informação importante sobre a covariância é que ela depende das unidades de
medida para fazer qualquer interpretação. Uma vez que ela é a média dos desvios associados
de X e Y, a unidade de medida da covariância corresponde ao produto da unidade de medida de
cada variável. Assim, se a variável X é medida em centímetros (cm) e a variável Y é medida em
horas (h), a covariância será medida em centímetros vezes horas (cm.h). Esse conhecimento é
interessante, pois com isso sabemos que não podemos inferir se um par de variáveis apresenta
uma covariância maior ou menor que outro par de variáveis com unidades de medida
diferentes.
Acerca da covariância, também é interessante compreender suas propriedades.
Propriedade I. A covariância não é influenciada por transformações de soma/subtração:
𝑪𝒐𝒗(𝑿 ± 𝒂, 𝒀 ± 𝒃) = 𝑪𝒐𝒗(𝑿, 𝒀)
Isso quer dizer que se a variável X ou Y forem modificadas por uma soma/subtração
uniforme (por uma constante 𝑎 ou 𝑏), os desvios em relação a média permanecem os mesmos,
assim a covariância não muda.
𝑪𝒐𝒗(𝑿. 𝒂, 𝒀. 𝒃) = 𝒂. 𝒃. 𝑪𝒐𝒗(𝑿, 𝒀)
Os desvios da média são alterados na mesma proporção que multiplicação/divisão da
constante 𝑎 e 𝑏. Logo, a covariância é modificada na mesma escala.
Propriedade III. A covariância de duas variáveis idênticas corresponde a própria
variância dessa variável:
𝑪𝒐𝒗(𝑿, 𝑿) = 𝑽𝒂𝒓(𝑿)
Os desvios de duas variáveis idênticas são a mesma coisa que os desvios ao quadrado de
uma variável, em outras palavras, é o conceito da própria variância.
Propriedade IV. A ordem das variáveis no cálculo não modifica a covariância:
𝑪𝒐𝒗(𝑿, 𝒀) = 𝑪𝒐𝒗(𝒀, 𝑿)
Isso porque os produtos dos desvios associados permanecem os mesmos.
Propriedade V. A variância da soma/subtração de duas variáveis aleatórias quaisquer é
obtida em função do efeito da covariância:
A partir dessa distribuição, qual é a probabilidade condicional de X=2 dado que Y=1 ?
a) 1/8
b) 1/4
c) 3/8
d) 1/2
GARABITO: D.
A questão apresenta a probabilidade conjunta de duas variáveis aleatórias X e
Y. Ao questionar a probabilidade condicional de X assumir o valor 2, dado que Y foi
igual a 1, temos a seguinte notação:
𝑷(𝑿=2 𝒆 𝒀=𝟏)
𝑷(𝑿=2| 𝒀=𝟏) =
𝑷(𝒀=𝟏)
Sendo que, já sabemos a probabilidade conjunto (a interseção) de X=2 e
Y=1.Basta olhar o cruzamento dessas duas informações na tabela:
𝟏 𝟐 𝟏 𝟒 𝟏
𝑷(𝒀=𝟏) = + + = =
𝟖 𝟖 𝟖 𝟖 𝟐
2/8 1
𝑷(𝑿=2| 𝒀=𝟏) = =
1/2 2
GARABITO: C.
A afirmativa I está correta, pois se multiplicamos as probabilidades marginais
da variável X e Y, obtemos a probabilidade conjunta correspondente. E isso ocorre
para todos os pontos. Logo, as variáveis X e Y são independentes.
Por exemplo, a probabilidade conjunta de P(X=1 e Y=1) pode ser obtida
multiplicando a probabilidade marginal de P(X=1) e P(Y=1), com isso, temos que:
𝐏(𝐗 = 𝟏 𝐨𝐮 𝐘 = 𝟐) = 𝟎, 𝟒 + 𝟎, 𝟑 − 𝟎, 𝟏𝟐 = 0,58
Portanto, o item II está errado.
Para afirmativa III, basta calcular o valor esperado das duas variáveis, isto é,
o somatório do produto do valor com sua respectiva probabilidade marginal:
𝑬(𝑿) = 𝟏 × 𝟎, 𝟒 + 𝟐 × 𝟎, 𝟑 + 𝟑 × 𝟎, 𝟑 = 𝟏, 𝟗
𝑬(𝒀) = 𝟏 × 𝟎, 𝟐 + 𝟐 × 𝟎, 𝟑 + 𝟑 × 𝟎, 𝟓 = 𝟐, 𝟑
Logo, o item III está correto.
Assim temos, temos as afirmativas I e III corretas, assim resposta é a letra C.
𝑪𝑶𝑽(𝑿, 𝒀)
𝝆(𝑿,𝒀) =
𝝈𝑿 × 𝝈𝒀
Em que:
𝜌(𝑋,𝑌) : Coeficiente de correlação linear populacional entre X e Y;
𝐶𝑂𝑉(𝑋, 𝑌): Covariância populacional entre a variável X e Y;
𝜎𝑋 : Desvio padrão populacional da variável X;
𝜎𝑌 : Desvio padrão populacional da variável Y.
(cuidado! Dizer que não há correlação linear, não exclui o fato de existir correlações de outra
natureza, como quadrática, cúbica, exponencial etc.).
À medida que o resultado da correlação linear vai se afastando do zero, em direção aos
extremos (-1 ou +1), aumenta-se a intensidade da força que une essas duas variáveis! Quando
o resultado da fórmula é igual a – 1 ou a +1, então se diz que a correlação é máxima. Ou seja, é
máxima a força que une as duas variáveis. Dessa maneira, correlação linear igual a +1 é dita
correlação perfeita positiva, enquanto correlação linear igual a –1 denomina-se correlação
perfeita negativa.
Com o valor do coeficiente de correlação verifica-se se existe uma força que une as duas
variáveis. Além disso, é interessante compreender o comportamento dessa força. Isso pode ser
verificado pelo sinal do coeficiente. O valor do sinal da correlação é determinado pelo a
covariância (única que pode gerar valores negativos). Desse modo, a interpretação do sinal
segue a mesma ideia do que observado na covariância: valores positivos indica uma variação
entre as variáveis na mesma direção; valores negativos indicam variação entre as variáveis em
direções opostas.
Se o resultado da correlação linear der um valor maior que zero (positivo), teremos que
as variáveis se comportam em um mesmo sentido de variação, ou seja, aumentando-se o valor
de uma, aumenta também a outra, e diminuindo-se uma, diminui também a outra. É claro que
isso será mais perceptível quando a correlação tiver valor próximo de +1.
Se o resultado da correlação linear for menor que zero (negativo), as variáveis se
comportarão em sentidos inversos, ou seja, aumentando-se o valor de uma, será reduzido o
valor da outra; e vice-versa. Isso será mais perceptível quando a correlação tiver valor próximo
de –1.
Uma forma eficiente de averiguar a possibilidade de correlação entre duas variáveis é por
meio do gráfico de dispersão ou de correlação (apresentado no tópico de “Gráfico” em
Estatística Descritiva). Vamos construir esse gráfico a partir de um exemplo e associar aos
conceitos abordados.
OBJETO DE ESTUDO:
Uma investigação policial tem o objetivo de estudar a correlação entre tráfico
de armas ilegais, em mil kg de armas apreendidas, com o tráfico de drogas (X), em
mil kg de drogas apreendidas (Y), na capital de São Paulo. Para esse estudo, foram
coletados dados de cinco regiões da capital.
Segue as informações:
Tráfico de Armas (X) 5 7 9 8 12
Tráfico de Drogas (Y) 1 3 4 5 8
Ao trabalhar com conjunto de dados pareados, é interessante identificar que cada amostra
consiste em um par de informações das variáveis analisadas, vamos representar o tamanho
dessa amostra por 𝑛(𝑥,𝑦) .
Assim, outra forma de apresentação de dados é:
𝒏(𝑿,𝒀) = {(𝟓, 𝟏); (𝟕, 𝟑); (𝟗, 𝟒); (𝟖, 𝟓); (𝟏𝟐, 𝟖)}
Unindo todos os pares associados por um ponto em um plano cartesiano, temos o gráfico
de dispersão com a seguinte forma:
Portanto, é possível forma uma reta entre os pontos, no sentido crescente. Isso evidencia
uma correlação linear positiva, porém não perfeita pois a reta não passa perfeitamente por
todos os pontos. Assim, temos uma força parcial positiva entre as duas variáveis de modo que
se comportam para mesma direção, obtendo um coeficiente de correlação linear positivo (0 <
𝑟 < 1).
Vamos trabalhar esse mesmo raciocínio com outro exemplo.
OBJETO DE ESTUDO:
Um grupo de médicos analisa a correlação do tempo necessário para o efeito
do medicamento no paciente (X), em minutos, em relação à dosagem aplicada do
medicamento (Y), em mg/kg.
𝒏(𝑿,𝒀) = {(𝟑𝟎, 𝟑); (𝟐𝟒, 𝟒); (𝟏𝟓, 𝟔); (𝟏𝟖, 𝟕); (𝟖, 𝟗)}
O gráfico de dispersão para esse estudo evidencia a seguinte informação:
Agora nesse estudo, é possível verificar uma tendência inversa no comportamento entre
duas variáveis. Ou seja, com aumento da dosagem do medicamente o tempo para o efeito no
paciente é reduzido. Da mesma forma que no exemplo anterior, é possível traçar uma reta não
perfeito entre os pontos:
Nesse estudo, é possível forma uma reta entre os pontos, no sentido decrescente. Isso
evidencia uma correlação linear negativa, porém não perfeita pois a reta não passa exatamente
por todos os pontos. Assim, temos uma força parcial negativa entre as duas variáveis de modo
que se comportam para direções oposta, obtendo um coeficiente de correlação linear negativo
(−1 < 𝑟 < 0).
Outra possibilidade, ao avaliar a associação entre duas variáveis, é não encontrar uma
correlação linear entre eles de modo que elas possam ocorrer independentemente ou
apresentaram outro tipo de correlação. Nessa situação, pode ser ter a seguinte gráfica:
Variável Y
Variável X
Nessa situação, não é possível afirmar que existe uma correlação linear entre as variáveis
de modo que os pontos se associam aleatoriamente sem haver uma força que contribui para
influenciar os valores das variáveis. Nessa hipótese, teremos uma correlação linear nula (𝑟 =
0).
Com isso, obtém-se todas formas de interpretação do coeficiente de correlação é as
possíveis formas de detectar o fenômeno de associação entre variáveis com o valor obtido. Em
síntese a tudo abordado, tem-se:
CÁLCULO DA CORRELAÇÃO
Então, agora vamos analisar como proceder matematicamente para calcular o coeficiente
de correlação da forma mais eficiente possível, de acordo com as informações obtidas na
questão. Para calcular a correlação linear, precisamos obter a covariância (X,Y) e os desvios
padrões de X e Y. Vale lembrar que nesse momento temos dados amostrais, então o melhor
estimador não viesado divide por 𝑛 − 1.
➢ Covariância (X, Y):
̅ )(𝒀𝒊 − 𝒀
∑(𝑿𝒊 − 𝑿 ̅)
𝑪𝒐𝒗(𝑿, 𝒀) =
𝒏−𝟏
➢ Desvio Padrão de X:
̅ )𝟐
∑(𝑿𝒊 − 𝑿
𝒔𝑿 = √𝒔𝟐𝑿 𝒔𝟐𝑿 =
𝒏−𝟏
Logo:
̅ )𝟐
∑(𝑿𝒊 − 𝑿
𝒔𝑿 = √
𝒏−𝟏
➢ Desvio Padrão de Y:
∑( 𝒀𝒊 − ̅ )𝟐
𝒀
𝒔𝒀 = √𝒔𝟐𝒀 𝒔𝟐𝒀 =
𝒏−𝟏
Logo:
̅ )𝟐
∑(𝒀𝒊 − 𝒀
𝒔𝒀 = √
𝒏−𝟏
Conforme o aprendizado adquirido durante todo estudo de Estatística, esses são os
procedimentos matemáticos apropriados para obter essas medidas descritivas de dispersão.
No entanto, podemos facilitar bastante o cálculo ao analisar a fórmula da correlação, como
também aplicar o cálculo alternativo dessas medidas. Veja:
𝑪𝒐𝒗(𝑿, 𝒀)
𝒓(𝑿,𝒀) =
𝒔𝑿 × 𝒔𝒀
∑(𝑿𝒊 − 𝑿̅ )(𝒀𝒊 − 𝒀
̅)
𝒓(𝑿,𝒀) = 𝒏−𝟏
̅ 𝟐 ̅ 𝟐
√∑(𝑿𝒊 − 𝑿) × √∑(𝒀𝒊 − 𝒀)
𝒏−𝟏 𝒏−𝟏
Ao analisar a fórmula dessa maneira, a primeira informação importante que podemos
extrair é que 𝑛 − 1 da covariância pode ser cortado com o 𝑛 − 1 dos desvios padrões de X e Y
que estão dentro da raiz se multiplicando!
Com isso, temos uma nova expressão para calcular o coeficiente de correlação:
̅ )(𝒀𝒊 − 𝒀
∑(𝑿𝒊 − 𝑿 ̅)
𝒓(𝑿,𝒀) =
̅ )𝟐 × √∑(𝒀𝒊 − 𝒀
√∑(𝑿𝒊 − 𝑿 ̅ )𝟐
Assim, podemos obter a correlação apenas com o somatório dos desvios do produto (X,Y)
e dos desvios ao quadrado de X e Y, extraindo a raiz quadrada destes para voltar a mesma
unidade de medida do fenômeno em estudo.
Além disso, se aplicarmos aquelas igualdades referentes aos desvios tratadas no tópico da
“Variância” e “Covariância”, será obtido a soma dos produtos de X e Y, com também a soma dos
quadrados de X e de Y. Com isso, pode-se obter uma nova expressão para calcular a correlação
linear. Veja detalhadamente:
➢ Soma dos Produtos de X e Y (𝑺𝑿𝒀 ) ou Co-variação de (X,Y)
(∑ 𝑿𝒊 ) (∑ 𝒀𝒊 )
𝑺𝑿𝒀 ̅ )(𝒀𝒊 − 𝒀
= ∑(𝑿𝒊 − 𝑿 ̅ ) = ∑ 𝑿𝒊 𝒀𝒊 −
𝒏
➢ Soma dos Quadrados de X (𝑺𝑿𝑿 ) ou Variação de X:
𝟐
(∑ 𝑿𝒊 )
𝑺𝑿𝑿 ̅ 𝟐 𝟐
= ∑(𝑿𝒊 − 𝑿) = ∑ 𝑿𝒊 −
𝒏
➢ Soma dos Quadrados de Y (𝑺𝒀𝒀 ) ou Variação de Y:
𝟐
(∑ 𝒀𝒊 )
𝑺𝒀𝒀 ( ̅ ) 𝟐 𝟐
= ∑ 𝒀𝒊 − 𝒀 = ∑ 𝒀𝒊 −
𝒏
Por fim, o coeficiente de correlação (𝑟) pode também ser calculado por:
(∑ 𝑿𝒊 ) (∑ 𝒀𝒊 )
∑ 𝑿𝒊 𝒀𝒊 −
𝒓(𝑿,𝒀) = 𝒏
𝟐 𝟐
√∑ 𝑿𝟐 − (∑ 𝑿 𝒊 ) √∑ 𝒀𝟐 − ( ∑ 𝒀 𝒊 )
𝒊 𝒏 × 𝒊 𝒏
Que pode ser expresso de forma resumida por:
𝑺𝑿𝒀
𝒓(𝑿,𝒀) =
√𝑺𝑿𝑿 × √𝑺𝒀𝒀
Essa expressão matemática, de modo geral é mais prática e usada para calcular um
coeficiente de correlação. O aluno pode achar muito difícil memorizar essa fórmula, porém se
cada compartimento (covariância e desvio padrão) for analisado separadamente, associando
com as fórmulas alternativas, a fórmula da correlação pode ser construída encaixando os
conhecimentos. Contudo, de modo geral, as provas não costumam pedir o coeficiente de
correlação por essa fórmula conceitual e construtiva. Muitas vezes, o cálculo da correlação é
cobrado por outras deduções mais simples de informações que veremos em seguida. De
qualquer forma, o aluno precisa entender toda a definição conceitual da correlação linear,
sendo esse conhecimento necessário.
Com todas essas informações, a escolha em calcular a correlação, utilizando os desvios em
relação à média ou o somatório de X e Y, dependerá das informações na questão. Às vezes, a
covariância e os desvios podem ser fornecidos e cálculo será bem mais simples.
Observação: baseado nas fórmulas apresentadas, podemos uma associação
simples e bem útil entre a covariância e a variância em prol de memorizar as
fórmulas. Veja que a variância de uma variável X é a mesma coisa que a covariância
(X, X).
Veja:
𝟐
𝟐
(∑ 𝑿 𝒊 ) (∑𝑿𝒊 ) (∑ 𝑿𝒊 )
∑ 𝑿𝒊 − = ∑ 𝑿𝒊 𝑿𝒊 −
𝒏 𝒏
Observa-se que o desenvolvimento acima resultou em duas parcelas, nas quais só aparece
a variável X. Assim, o que muda da fórmula da variância para a covariância é que trabalhamos
com duas variáveis diferentes. Portanto, temos duas variáveis X e Y, e não apenas X. O segundo
X de cada parcela é substituído. Veja:
Vamos praticar esse cálculo da forma mais comum cobrada e compreender sua
interpretação a partir de um novo exemplo.
OBJETO DE ESTUDO:
Uma investigação sobre trotes de denúncia nas delegacias estuda a correlação
entre número de crimes que ocorrem na cidade (X) com o número de denúncias
registradas na delegacia dessa cidade (Y). Para esse estudo, foram coletados os
registros de 5 semanas.
𝑿 𝒀 𝑿𝟐 𝒀𝟐 𝑿𝒀
2 1 4 1 2
5 2 25 4 10
8 3 64 9 24
10 4 100 16 40
10 5 100 25 50
∑ 𝑿 = 𝟑𝟓 ∑ 𝒀 = 𝟏𝟓
𝟐 𝟐
∑ 𝑿𝟐 = 𝟐𝟗𝟑 ∑ 𝒀𝟐 = 𝟓𝟓 ∑ 𝑿𝒀 = 𝟏𝟐𝟔
(∑ 𝑿) = 𝟏𝟐𝟐𝟓 (∑ 𝒀) = 𝟐𝟐𝟓
Desse modo, temos uma correlação linear de 0,91, isto é, a força que une o comportamento
dessas variáveis é na faixa de 91%, de modo que variam para mesma direção. Assim, conforme
o número de denúncias registradas na delegacia, há um aumento de crimes que ocorre pela
cidade com correlação linear de 91%.
Sobretudo, é interessante compreender que correlação não é o mesmo que causa e efeito.
Duas variáveis podem estar altamente correlacionadas e, no entanto, não haver relação de
causa e efeito entre elas, podendo existir, por exemplo, uma outra variável que provoque a
variação nessas duas variáveis. O importante é compreender que a correlação indica que existe
algum fenômeno de interação que explica essas variações, que pode ser uma relação de causa e
efeito ou outro fator mais complexo interagindo sobre elas.
Em outras palavras, a correlação não implica que um causa o outro. Podemos dizer que
duas variáveis X e Y estão correlacionadas, mas não que X causa Y ou que Y causa X – as variáveis
simplesmente estão relacionadas ou associadas uma com a outra.
PROPRIEDADES DA CORRELAÇÃO
Para finalizar o conhecimento sobre a medida de correlação linear, precisamos
compreender o que ocorre com esse coeficiente se houver uma transformação uniforme nas
variáveis analisadas. De forma bem suscinta, a correlação não é afetada por operações de
soma/subtração, também não é afetada por operações de multiplicação/divisão por uma
constante positiva. Contudo, se umas das variáveis for multiplicada/divida por uma
constante negativa o sinal da correlação é modificado. Essa forma de uma transformação de
dados alterar a correlação entre duas variáveis. Segue as principais notações sobre as
propriedades da correlação:
Propriedade I. A correlação de X e Y é igual a correlação de Y com X:
𝒓(𝑿,𝒀) = 𝒓(𝒀,𝑿 )
Propriedade II. A correlação de duas variáveis idênticas é uma correlação perfeita:
𝒓(𝑿,𝑿) = 𝟏
Propriedade III. O efeito de soma/subtração por uma constante nas variáveis não afeta
a correlação:
𝒓(𝑿+𝒂,𝒀+𝒃) = 𝒓(𝑿,𝒀)
𝒓(𝒂𝑿,𝒃𝒀) = 𝒓(𝑿,𝒀)
Propriedade V. O efeito de multiplicação/divisão por uma constante negativa nas
variáveis afeta o sinal da correlação:
𝒓(−𝒂𝑿,𝒃𝒀) = −𝒓(𝑿,𝒀)
𝒓(𝒂𝑿,−𝒃𝒀) = −𝒓(𝑿,𝒀)
Contudo, se as duas variáveis sofrem efeito de uma constante negativa, a correlação
permanece com o mesmo valor:
𝒓(−𝒂𝑿,−𝒃𝒀) = 𝒓(𝑿,𝒀)
TESTE DE HIPÓTESES NA CORRELAÇÃO
A correlação entre duas variáveis é mensurada pelo coeficiente 𝑟, observando dados
amostrais, no entanto, pode ser detectado um valor expressivo de correlação devido a fatores
aleatórios e não necessariamente pela força que X e Y exercem uma na outra. Essa correlação
observada ao acaso, denomina-se correlação espúria. Para detectar se uma correlação foi
obtida devido a fatores aleatórios, é necessário efetuar um teste de hipótese no coeficiente de
correlação linear populacional (𝜌). Isto é, se a correlação observada na amostra corresponde a
um relacionamento entre X e Y de fato, ou se a variação é devida ao acaso. Basicamente o teste
de hipótese, verifica se 𝑟 é igual a zero ou significativamente diferente de zero.
√𝟏 − 𝒓𝟐
𝒔𝒓 =
√𝒏 − 𝟐
O erro padrão da estimativa é obtido ao observar o comportamento da distribuição
amostral de 𝑟 em todas as amostragens possíveis de um determinado tamanho. É a mesma ideia
que foi apresentado no tópico “Distribuição Amostral” no capítulo “Estatística Inferencial”.
Mais à frente veremos que 𝑟 2 é o componente que explica a relação entre duas variáveis
X e Y (denominado de Coeficiente de Determinação). Com isso, o aluno conseguirá associar
que a expressão 1 − 𝑟 2 é tudo aquilo não é explicado pela associação entre X e Y. Além disso,
pode ser associado que o graus de liberdade é subtraído por 2, uma vez que se têm dois
conjuntos de dados (uma para X e outro para Y), esse raciocínio facilitará a compreensão do
aluno.
Por fim, ao calcular os valores 𝑡𝑡𝑎𝑏 e 𝑡𝐶𝑎𝑙 , o resultado do teste de hipóteses será decidido
pela posição do 𝑡𝐶𝑎𝑙 na distribuição de probabilidade de t de Student. O teste deve ser bilateral
uma vez que 𝑟 pode ser positivo ou negativo.
OBJETO DE ESTUDO:
Uma investigação sobre trotes de denúncia nas delegacias estuda a correlação
entre número de crimes que ocorrem na cidade (X) com o número de denúncias
registradas na delegacia dessa cidade (Y). Para esse estudo, foram coletados os
registros de 5 semanas.
Segue as informações:
Nº de Crimes (X) 2 5 8 10 10
Nº de Denúncias (Y) 1 2 3 4 5
Existe uma correlação Linear significativa a 5% de probabilidade de erro?
Existe cinco pares de amostras, logo:
𝑮𝑳 = 𝟓 − 𝟐 = 𝟑
𝒕𝒕𝒂𝒃 = 𝟑, 𝟏𝟖
O valor de 𝑡𝑐𝑎𝑙 é:
𝒓(𝑿,𝒀) √𝟏 − 𝒓𝟐
𝒕𝒄𝒂𝒍 = 𝒔𝒓 =
𝒔𝒓 √𝒏 − 𝟐
√𝟏 − 𝟎, 𝟗𝟏𝟐 √𝟎, 𝟏𝟕
𝒔𝒓 = = = 𝟎, 𝟐𝟒
√𝟓 − 𝟐 √ 𝟑
𝟎, 𝟗𝟏
𝒕𝒄𝒂𝒍 = = 𝟑, 𝟕𝟖
𝟎, 𝟐𝟒
Por fim, ao analisar a distribuição t de Student, temos que:
REGRESSÃO LINEAR
No estudo da correlação entre duas variáveis, foi verificado a existência de uma
dependência (força) entre elas e como se comportavam em relação as suas variações. Uma vez
caracterizado este efeito de correlação, procura-se descrever o comportamento de duas
variáveis associadas, por meio de uma função matemática (uma equação de 1º grau). A
estimação dos parâmetros dessa função matemática é o principal objetivo da regressão linear.
Assim, aquela reta (tendência de comportamento linear) visualizada sob o gráfico de dispersão
deve ser analisada e representada a partir de uma equação matemática.
No último exemplo do tópico de correlação linear, foi captado uma associação entre as
variáveis analisadas, de modo que pode ser representado da seguinte forma:
Com isso, foi verificado que existe uma dependência entre o número de crimes com o
número de denúncias registradas, pois foi constado uma correlação de 91%, isto é, uma forte
associação de que, quando a variável número de crimes aumenta, a outra também tem esse
efeito. Após isso, é preciso estudar como essa relação pode ser explicada e quantificada. O
processo de encontrar especificamente a forma da relação entre X e Y é chamado de regressão.
Se essa forma pode ser explicada por uma reta (como parece ser o caso), então esse processo
trata-se de uma regressão linear.
Em outras definições, quando dois fenômenos do mundo real possuem uma interação de
modo que um interfere no outro, a análise de regressão tenta expressar matematicamente essa
interação. A forma como isso pode ser estudado é obtendo dados sobre as características que
representam o fenômeno (as variáveis), e a partir desses dados tentar aplicar um modelo
estatístico. No caso específico da regressão linear, tenta-se representar essa interação por meio
de função linear (uma modelagem estatística de função de 1º grau). Em síntese, a regressão
linear tenta regredir o máximo de informações possíveis de um comportamento complexo que
ocorre no mundo real em um simples modelo matemático.
Por coseguinte, a forma para representar a relação entre duas variáveis X e Y por meio de
uma regressão linear é dada pelo seguinte modelo estatístico:
𝒀𝒊 = 𝜶 + 𝜷𝑿𝒊 + 𝜺𝒊
Em que:
𝑌𝑖 : Variável dependente que será explicada a partir do modelo de regressão linear;
𝑋𝑖 : Variável Independente que explicará o comportamento de Y;
𝛼: Constante de regressão (intercepto da reta) – Parâmetro populacional;
𝛽: Coeficiente de regressão (inclinação da reta) – Parâmetro populacional;
𝜀𝑖 :Erros da regressão (variável), desvios da reta estimada em relação ao comportamento
observado;
Esse modelo representa a relação de duas variáveis com dados populacionais
(informações completa sobre o relacionamento). No entanto, predominantemente, não temos
informação dessa magnitude e efetuamos uma análise de regressão com dados amostrais. Dessa
forma, trabalha-se com um modelo que tenta estimar os verdadeiros parâmetros 𝛼 e 𝛽, que
modelam a forma da relação entre X e Y. Assim, o modelo mais apropriado para as análises na
realidade é:
𝒀𝒊 = 𝒂 + 𝒃𝑿𝒊 + 𝜺𝒊
Em que:
𝑎: Estimativa do parâmetro da constante de regressão;
𝑏: Estimativa do parâmetro do coeficiente de regressão.
Destarte, será estudado cada componente do modelo da regressão linear, analisando os
cálculos necessários para estimar os parâmetros, além das inferências que podem ser obtidas
sobre a relação entre a variável X e Y.
VARIÁVEL INDEPENDENTE (X) X VARIÁVEL DEPENDENTE (Y)
Para estudar eficientemente a relação de duas variáveis, é necessário ter controle sobre
os valores de uma variável. Essa variável é convenientemente a variável X, ao qual é
denominada como a variável independente, pode também ser denominada de variável
explicativa, regressora, preditora ou explanatória. A variável independente é a variável cuja
variação é usada para explicar as variações da variável dependente. O importante é entender
que a variável independente deve predizer o valor da variável Y, ou seja, Y é afetado por X. Para
isso, é interessante que X seja uma variável em que os dados sejam de fácil obtenção pelo
homem. Assim, temos que a variável X não depende de Y para ser quantificada, porém X deve
conseguir satisfatoriamente explicar (predizer) as variações de Y. Se os valores de X são
controlados para obter uma predição de Y com eficiência, então X é uma variável não aleatória.
Em contraponto, a variável Y é a variável dependente, pois se tenta explicar sua variação
a partir dos valores de X, ou seja, Y varia em função de X – baseado nessa ideia de função,
podemos representar Y por f(X). A variável pode também ser denominada por variável
resposta, explicada ou predita. Assim, Y é a variável cuja variação será explicada pela outra
variável, a independente. As variações dos valores de Y ocorrem aleatoriamente, no entanto,
por meio da análise de regressão linear, espera-se explicar esse comportamento aleatório.
Então, para que a análise de regressão funcione corretamente, a primeira pressuposição é obter
uma variável X independente que possa explicar, em maior parte, o comportamento de outra
variável Y.
Na correlação linear, trabalha-se apenas os dados de duas variáveis quaisquer e
quantifica-se o grau de associação entre elas. Na regressão linear, precisamos ter uma relação
de causa e efeito clara, para fazer um estudo eficiente sobre a forma da relação entre as
variáveis. Desse modo, é preciso que uma delas seja independente e tenha seus valores
controlados pelo homem. Isso precisa ser planejado previamente na coleta de dados, caso
contrário uma pressuposição básica da análise de regressão não será atendida, e não teremos
um modelo de regressão linear confiável.
Nesse modelo, podemos inferir que, em regiões onde não há analfabetismo (taxa de 0%),
ainda se encontra a ocorrência de contrabando ilegal de mercadorias em que se espera
apreender um valor de R$ 1,5 mil. Isso evidencia que mesmo sem a contribuição da taxa de
analfabetismo ainda existe o contrabando, isto é, Y existe mesmo sem ocorrer X.
A constante de regressão apresenta a mesma unidade de medida da variável Y, nesse
exemplo, 𝑎 = 𝑅$ 1,5 𝑚𝑖𝑙.
Nessa reta, foram identificados dois pontos: o primeiro indica que com 10% de taxa de
analfabetismo, estima-se um contrabando de R$ 35,5 mil; o segundo indica que com 11% na
taxa de analfabetismo, estima-se um contrabando de R$ 38,9 mil. Na variação desses pontos,
pode ser observado que um acréscimo de 1% da variável X (taxa de analfabetismo) contribui
na acréscimo do contrabando da região em R$ 3,4 mil, exatamente o valor de 𝑏. Portanto, o
coeficiente de regressão de 3,4, nesse exemplo, representa que, a cada 1% da taxa de
analfabetismo, há uma contribuição no contrabando de mercadorias de R$ 3,4 mil.
Na equação de uma reta, o coeficiente de regressão é a inclinação da reta, ou seja, é a
tangente do ângulo formado pela reta com o eixo X. Pode também ser calculado pela variação
de dois pontos de Y divido pela variação dos dois pontos de X respectivo. Entenda:
Desse modo, conforme os dois pontos apresentados pelo exemplo (10; 35,5) e (11;38,9),
teríamos o seguinte cálculo para 𝑏:
𝟑𝟖, 𝟗 − 𝟑𝟓, 𝟓 𝟑, 𝟒
𝒃= = = 𝟑, 𝟒 𝒎𝒊𝒍 𝑹$ / %
𝟏𝟏 − 𝟏𝟎 𝟏
A unidade de medida de 𝑏 sempre será a unidade de medida Y sobre a unidade de medida
de X. Com essa unidade, define-se 𝑏 = 3,4 como um acréscimo de R$ 3,4 mil na ocorrência de
contrabando para cada um 1% da taxa de analfabetismo.
Ao compreender esse conceito, podemos entender a influência que o parâmetro 𝑏 causa
na regressão linear. O sinal de 𝑏 determina se a reta é crescente (+𝑏) ou descrente (−𝑏), ou
seja, um valor de 𝒃 positivo indica que X contribui para aumenta Y, enquanto 𝒃 negativo
indica que X contribui para reduzir Y. Caso o valor de 𝑏 for nulo, não existe uma regressão
linear, apenas uma constante, isto é, X não afeta o valor de Y. Entenda:
Além do sinal o valor em módulo de 𝑏 evidencia a inclinação da reta, isto é, valores 𝑏 mais
distantes de zero inclinam a reta de regressão para o eixo vertical (eixo Y), enquanto valores de
𝑏 mais próximos de zero inclinam a reta de regressão para o eixo horizontal (eixo X).
O modelo de regressão linear, dado por 𝒀̂ 𝒊 = 𝒂 + 𝒃𝑿𝒊 , tenta predizer um valor Y a partir
de um valor de X conhecido. Assim, ao obter um valor de Y a partir de X, utilizando o modelo de
regressão, temos um valor estimado 𝑌̂. Esse valor corresponde exatamente ao valor traçado
pela reta. Contudo, é comum que o valor Y observado (representado pelo ponto) não seja
exatamente aquele 𝑌̂ estimado pela reta. Nesse sentido, temos que os erros da regressão é
representado por:
̂𝒊
𝜺𝒊 = 𝒀𝒊 − 𝒀
Portanto, os erros 𝜀𝑖 ilustrados no gráfico são explicados pela diferença (vertical) entre o
valor observado 𝑌𝑖 (referente ao ponto) e o valor estimado 𝑌̂𝑖 (valor exato traçado pela reta).
Para compreender a ideia dos erros da regressão, vamos aplicar sobre um exemplo.
OBJETO DE ESTUDO:
Para ter mais controle sobre a produção dos funcionários, uma empresa aplicou
uma análise de regressão linear para modelar a quantidade de equipamentos
fabricados (X) pelos seus funcionários, em relação ao tempo necessário para
produção (Y), em minutos.
Segue as informações:
Nº de equipamentos (X)
2 4 6 8 10
Tempo de Produção (Y)
14 10 19 20 21
Desse modo, a reta de regressão 𝒀 ̂ 𝒊 = 𝟗, 𝟔 + 𝟏, 𝟐𝑿𝒊 estima um valor 𝑌̂𝑖 que não condiz
exatamente com os valores observados nesse estudo. Assim, temos a relação de valores
observados no mundo real 𝑌𝑖 e os valões estimados pela equação da reta 𝑌̂𝑖 :
Valor Observado Equação da Reta Valor Estimado Erros da regressão
(𝒀𝒊 ) ̂ 𝒊 = 𝟗, 𝟔 + 𝟏, 𝟐𝑿𝒊 )
(𝒀 ̂𝒊)
(𝒀 ̂ 𝒊)
(𝜺𝒊 = 𝒀𝒊 − 𝒀
14 𝑌̂𝑖 = 9,6 + 1,2 × 𝟐 12 +2
10 𝑌̂𝑖 = 9,6 + 1,2 × 𝟒 14,4 -4,4
19 𝑌̂𝑖 = 9,6 + 1,2 × 𝟔 16,8 +2,2
20 𝑌̂𝑖 = 9,6 + 1,2 × 𝟖 19,2 0,8
21 𝑌̂𝑖 = 9,6 + 1,2 × 𝟏𝟎 21,6 -0,6
∑ 𝜀𝑖 = 0
Com isso, verifica-se que existem desvios entre os valores observados e aqueles estimados
pela equação da reta. Esses desvios são erros da regressão em cada ponto. Veja que os erros
desviam em relação a reta de modo que seu somatório é igual a zero. Graficamente, temos a
seguinte representação dos erros da regressão:
𝜺𝒊 ~ N (0, 𝝈𝟐𝒆 )
Ao se quantificar os erros da regressão, a questão que surge na análise é “o quanto são
precisas as estimativas da regressão?” Para isso, é necessário descrever toda a distribuição dos
erros da regressão. A dispersão presente na estimativa da reta da regressão pode ser quantifica
pela variância dos erros da regressão (dos resíduos). Essa informação pode ser obtida por:
∑ 𝜺𝟐𝒊 ̂ 𝒊 )𝟐
∑(𝒀𝒊 − 𝒀
𝒔𝟐𝒆 = =
𝒏−𝟐 𝒏−𝟐
Em que:
𝑠𝑒2 : Variância dos erros da regressão;
∑ 𝜀𝑖2 = ∑(𝑌𝑖 − 𝑌̂𝑖 )2 : Somatório dos erros da regressão ao quadrado;
𝑛 − 2: Graus de liberdade para dois conjuntos de dados amostrais (X e Y);
Basicamente, é a mesma ideia do cálculo de variância, só que nesse caso é em relação ao
valor observado (𝑌𝑖 ) com o valor estimado pela reta (𝑌̂𝑖 ). Os valores são elevados ao quadrado
para que o somatório não iguale a zero, e é divido por 𝑛 − 2 pois trata-se de dois conjuntos de
dados amostrais então cada um possui um último valor aleatório previsível. Na mesma ideia, a
variância eleva as unidades de medida dos erros ao quadrado e precisa ser transformada para
mesma unidade.
Ao extrair a raiz quadrada da variância, obtemos o desvio padrão dos erros da regressão,
também conceituado como erro da estimativa da regressão (𝒔𝒆 ). Essa medida é quem
realmente quantifica o desvio padrão dos valores previstos da variável dependente Y ao redor
da linha de regressão estimada 𝑌̂𝑖 (dispersão das observações amostrais em relação a reta de
regressão). Quanto menor a dispersão dos erros da regressão (𝑠𝑒 ) mais precisas serão as
estimativas. Essa medida então é expressa por:
̂ 𝒊 )𝟐
√∑(𝒀𝒊 − 𝒀
𝒔𝒆 = √𝒔𝟐𝒆 =
√𝒏 − 𝟐
Conforme o exemplo construído pode obter o erro da estimativa da regressão (𝑠𝑒 ) por:
14 12 +2 4
10 14,4 -4,4 19,36
19 16,8 +2,2 4,84
20 19,2 0,8 0,64
21 21,6 -0,6 0,36
∑ 𝜀𝑖 = 0 ∑ 𝜀𝑖2 = 29,2
Desse modo, a variância dos erros da regressão e os erros de estimativa da regressão,
nesse exemplo, são:
𝟐𝟗, 𝟐
𝒔𝟐𝒆 = = 𝟗, 𝟕𝟑 𝒎𝒊𝒏𝟐
𝟑
𝒔𝒆 = √𝟗, 𝟕𝟑 = 𝟑, 𝟏𝟐 𝒎𝒊𝒏
Em conclusão, a reta de regressão 𝑌̂𝑖 = 9,6 + 1,2𝑋𝑖 , que estima o tempo de produção de
equipamentos em função da quantidade de equipamentos, apresenta em média um erro de
estimativa (uma imprecisão) de 3,12 min.
Ao observar os resultados desse exemplo, algumas informações quanto a interpretação
desse fenômeno pode ser efetuada:
➢ Quanto menor o erro padrão da estimativa da regressão, melhor é o ajuste da reta;
➢ O erro padrão estima a proximidade dos valores estimados com os reais valores
observados;
➢ Os erros da regressão e o erro padrão estão na mesma unidade de medida que Y.
PRESSUPOSIÇÕES DA REGRESSÃO LINEAR
Diante de todo exposto, foi estudado os componentes que integram o modelo de uma
regressão linear. Em síntese a tudo abordado, podemos definir que um modelo de regressão
linear apresenta as seguintes informações:
𝒀𝒊 = 𝒂 + 𝒃𝑿𝒊 + 𝜺𝒊
Em que:
𝑌𝑖 : Variável dependente que será explicada a partir do modelo de regressão linear;
𝑋𝑖 : Variável Independente que explicará o comportamento de Y;
𝑎: Constante de regressão (intercepto da reta) – Parâmetro da regressão linear;
𝑏: Coeficiente de regressão (inclinação da reta) – Parâmetro da regressão linear;
𝜀𝑖 :Erros da regressão (variável), desvios da reta estimada em relação ao comportamento
observado;
Esse modelo pode ser representado em forma gráfica em plano bidimensional, em que a
variável independente X é representada pelo eixo horizontal (abscissas), enquanto dependente
Y é representada no eixo vertical (ordenada):
̂𝒊) = 𝟎
∑ 𝜺𝒊 = ∑(𝒀𝒊 − 𝒀
➢ A soma dos quadrados dos erros da regressão (desvios) deve ser mínima:
̂ 𝒊 )𝟐 = 𝑴í𝒏𝒊𝒎𝒂
∑ 𝜺𝟐𝒊 = ∑(𝒀𝒊 − 𝒀
ESTIMATIVA DO 𝒃
Para obtenção do coeficiente de regressão linear (𝑏) a partir de uma amostra de pares
ordenados, é necessário aplicar a seguinte fórmula:
𝑪𝒐𝒗(𝑿, 𝒀)
𝒃=
𝒔𝟐𝑿
Portanto, o coeficiente de regressão linear pode ser obtido pela divisão entre a covariância
(X,Y) com a variância de X. O que define se o sinal de 𝑏 e faz com que a reta de regressão seja
crescente ou decrescente é a covariância (assim como na correlação), já que ela quantifica a
variação associada e direção dessas variações.
Ainda, assim como no coeficiente de correlação, o 𝑛 − 1 pode ser cortado da fórmula,
simplificando para seguinte expressão:
𝑺𝑿𝒀
𝒃=
𝑺𝑿𝑿
Com isso temos que 𝑏 é a divisão da soma dos produtos (X,Y) com a soma dos quadrados
de X. Expandindo a fórmula teríamos a seguinte notação:
(∑ 𝑿𝒊 ) (∑ 𝒀𝒊 )
̅ )(𝒀𝒊 − 𝒀
∑(𝑿𝒊 − 𝑿 ̅) ∑ 𝑿𝒊 𝒀𝒊 −
𝒃= 𝒐𝒖 𝒃 = 𝒏
∑(𝑿𝒊 − 𝑿̅ )𝟐 (∑ 𝑿𝒊 )
𝟐
𝟐
∑ 𝑿𝒊 −
𝒏
Mais uma vez, os cálculos demostram ser exaustivos e um pouco de difícil memorização.
No entanto, o aluno precisa conhecer a essência desse cálculo e entender que, nas provas de
carreiras policiais, o coeficiente de regressão é cobrado em questões que já fornecem o desvio
padrão, a variância, ou outras informações que simplificam o cálculo. Contudo, para manusear
essas informações de modo eficiente, é preciso conhecer a essência desses cálculos. Mais a
frente irão ser apresentas outras fórmulas que permitem um cálculo mais rápido de 𝒃 e são
frequentemente cobradas nos concursos.
Vamos estimar o 𝑏 a partir do exemplo anterior citado, para isso, vamos proceder com a
fórmula que usa os desvios em relação à média:
𝑿𝒊 𝒀𝒊 ̅)
(𝑿𝒊 − 𝑿 ̅)
(𝒀𝒊 − 𝒀 ̅ )𝟐
(𝑿𝒊 − 𝑿 ̅ )(𝒀𝒊 − 𝒀
(𝑿𝒊 − 𝑿 ̅)
10 13 -5 -8,2 25 41
15 18 0 -3,2 0 0
20 26 5 4,8 25 24
𝟑𝟓𝟓
𝒃= = 𝟏, 𝟑𝟒
𝟐𝟓𝟎
Assim, observa-se um aumento de 1,34 homicídios/mês com o aumento de 1% da taxa de
desemprego na região estudada. Com essa informação, temos o efeito que a variável
independente taxa de desemprego causa sobre a ocorrência de homicídios presentes na região,
para esse estudo. Veja que, ao efetuar os cálculos com as unidades de medidas, pode ser
observado que 𝑏 apresenta a unidade Nº de homicídios/ % de desemprego:
𝑵º𝒉𝒐𝒎𝒊𝒄í𝒅𝒊𝒐𝒔
𝟑𝟓𝟓 ×% 𝑵º𝒉𝒐𝒎𝒊𝒄í𝒅𝒊𝒐𝒔
𝒃= 𝑴ê𝒔 = 𝟏, 𝟑𝟒
𝟐𝟓𝟎 %𝟐 𝑴ê𝒔 × %
ESTIMATIVA DO 𝒂
A constante de regressão 𝑎 pode ser calculada a partir da seguinte expressão:
̅ − 𝒃𝑿
𝒂=𝒀 ̅
Para obter 𝑎 por meio dessa fórmula, é preciso já ter estimado o valor de 𝑏. Essa fórmula
pode ser explicada facilmente pelo assunto na abordado em transformação de variáveis. Veja
que a equação da reta nada mais é que uma transformação da variável X em Y. Nessa ideia,
sabemos que a média sofre efeito de multiplicação/divisão e soma/subtração, portanto, o valor
médio de X seria multiplicado/divido por 𝑏 e somado/subtraído por 𝑎 para obter o valor médio
de Y. Como não sabemos o valor de 𝑎, basta isolar:
̅ = 𝒂 + 𝒃𝑿
𝒀 ̅ → ̅ − 𝒃𝑿
𝒂=𝒀 ̅
Conforme o exemplo construído, temos a seguinte constante de regressão:
𝒂 = 𝟐𝟏, 𝟔 − 𝟏, 𝟑𝟒 × 𝟏𝟓
𝒂 = 𝟐𝟏, 𝟔 − 𝟐𝟎, 𝟏 = 𝟏, 𝟓 𝑵º𝒉𝒐𝒎𝒊𝒄í𝒅𝒊𝒐𝒔/𝒎ê𝒔
Em função disso, espera-se ainda encontrar 1,5 homicídios em regiões onde não há
desemprego. Devido a variável Y ser de natureza discreta, trabalha-se com a ideia de encontrar
entre 1 ou 2 homicídios por mês.
Por meio dessa equação de primeiro grau, podemos estimar a ocorrência de homicídios
por mês (𝑌̂) em uma cidade a partir da sua taxa de desemprego. Por exemplo, quantos registros
de homicídios por mês espera-se encontrar em uma cidade com taxa de desemprego de 18%?
Para isso basta aplicar a equação da reta:
Portanto, em uma cidade com taxa de desemprego de 18%, se espera encontrar uma
frequência de 25 a 26 homicídios por mês. Manusear a equação de regressão linear, estimando
os possíveis valores de uma variável é uma questão muito comum sobre esse tópico. Por isso, é
interessante que aluno pratique a aplicação de uma equação linear e compreenda as
informações que podem ser obtidas conforme as variáveis em estudo.
Baseado nas inferências sobre a regressão linear, temos uma outra pressuposição
importante: a equação da reta não deve ser aplicada para estimar valores fora do intervalo
controlado da variável X que foi planejado incialmente. Para esse exemplo, foram avaliadas
cidades de 5% até 25% de taxa de desemprego, portanto, as estimativas de homicídio devem
ser feitas em cidades com taxa de desemprego nesse intervalo. Essa limitação do uso da reta de
regressão é recomenda uma vez que não foi observado o comportamento da variável Y em
função de X para fora do intervalo estudado. Nada garante o comportamento entre X e Y
permanecerá o mesmo.
RELAÇÃO ENTRE B X R
Ao conhecer as fórmulas que definem o coeficiente de regressão linear (𝑏) e o coeficiente
de regressão (𝑟), podemos encontrar uma relação importante entre essas duas medidas. Ao
analisar as fórmulas de 𝑏 e 𝑟 em função de X e Y, obtém-se a seguinte relação:
𝑪𝒐𝒗(𝑿, 𝒀) 𝐂𝐨𝐯(𝐗, 𝐘)
𝒃= 𝐫=
𝒔𝟐𝑿 𝐬𝐗 × 𝐬𝐘
𝑪𝒐𝒗(𝑿, 𝒀) 𝐂𝐨𝐯(𝐗, 𝐘)
𝒃= 𝐫=
𝒔𝑿 × 𝒔𝑿 𝐬𝐗 × 𝐬𝐘
𝑪𝒐𝒗(𝑿, 𝒀) 𝐂𝐨𝐯(𝐗, 𝐘)
𝒃 × 𝒔𝑿 = 𝐫 × 𝐬𝐘 =
𝒔𝑿 𝐬𝐗
𝒃 × 𝒔𝑿 = 𝐫 × 𝐬𝐘
Embora a reta de regressão do segundo gráfico não esteja tão bem ajustada aos pontos
como ocorre no primeiro gráfico, pode-se afirmar, por meio de teste de hipóteses, que a reta de
regressão represente a relação de X e Y significativamente.
O teste de hipótese é aplicado pela estatística de teste 𝑡, baseado na distribuição 𝑡 de
Student. Para aplicar o teste de hipótese, novamente temos um valor de 𝑡𝑡𝑎𝑏 , em função do
nível de significância 𝜶 e 𝒏 − 𝟐 graus de liberdade; e um valor de 𝑡𝑐𝑎𝑙 obtido pelo seguinte
cálculo:
Em que:
𝑏: coeficiente de regressão (ou angular) estimado pela relação de duas variáveis;
𝑠𝑏 : erro padrão (desvio padrão) da estimativa do coeficiente da regressão 𝑏.
Ao efetuar essa divisão, obtém-se uma estatística de teste t com distribuição 𝑡 de Student
para 𝑛 − 2 graus de liberdade (pois são dois conjuntos de dados, X e Y). A estimativa do
coeficiente de regressão amostral 𝑏 também é uma variável aleatória, ao observar sua
distribuição amostral temos que a variância de 𝑏 é igual a:
𝒔𝒆
𝒔𝒃 = √𝒔𝟐𝒃 =
̅ )𝟐
√∑(𝑿 − 𝑿
Como já conhecemos o cálculo do erro da estimativa da regressão, a fórmula pode ainda
ser detalhada da seguinte forma:
̂ 𝒊 )𝟐
√∑(𝒀𝒊 − 𝒀
𝒔𝒃 = √𝒏 − 𝟐
√∑(𝑿 − 𝑿̅ )𝟐
No entanto, é muito mais interessante entender essas fórmulas em componentes (ou
compartimentos) que se encaixam sob uma sequência lógica de informação gerada. Assim como
o coeficiente 𝑏 representa a contribuição em Y para cada unidade de X, podemos associar que
o erro padrão (ou desvio padrão) do coeficiente da regressão 𝒔𝒃 representa a contribuição
no erro de estimativa (𝒔𝒆 ) para cada unidade de desvio de X em relação à sua média.
Entenda:
Com isso, obtém um valor de 𝑡𝑐𝑎𝑙 e 𝑡𝑡𝑎𝑏 que devem ser confrontados para decidir sobre o
resultado do teste de hipóteses. A hipótese H0 será aceita ou rejeitada conforme a posição de
𝑡𝑐𝑎𝑙 na distribuição de t de Student.
O teste aplicado será bilateral, pois b pode assumir valores positivos e negativos.
OBJETO DE ESTUDO:
Foram escolhidas 5 cidades com taxa de desemprego de 5, 10, 15, 20 e 25%
registrado por órgãos de pesquisas confiáveis. Em seguida, durante um mês, foi
quantificado a ocorrência de homicídios, em cada cidade.
𝒀𝒊 = 𝟏, 𝟓 + 𝟏, 𝟑𝟒𝑿𝒊 + 𝜺𝒊
Contudo, existe uma relação linear entre X e Y significativa a 5% de probabilidade?
Existe cinco pares de amostras, logo:
𝑮𝑳 = 𝟓 − 𝟐 = 𝟑
O valor de 𝑡𝑡𝑎𝑏 a 5% de probabilidade de erro (teste bilateral), para 3 graus de liberdade
é:
𝒕𝒕𝒂𝒃 = 𝟑, 𝟏𝟖
O valor de 𝑡𝑐𝑎𝑙 é:
𝒃 𝒔𝒆 ̂ 𝒊 )𝟐
√∑(𝒀𝒊 − 𝒀
𝒕𝒄𝒂𝒍 = 𝒔𝒃 = 𝒔𝒆 =
𝒔𝒃 ̅ )𝟐
√∑(𝑿 − 𝑿 √𝒏 − 𝟐
Para obter essas informações, os seguintes cálculos devem ser procedidos:
𝑿𝒊 𝒀𝒊 ̅)
(𝑿𝒊 − 𝑿 ̅ )𝟐
(𝑿𝒊 − 𝑿 ̂𝒊
𝒀 ̂𝒊
𝒀𝒊 − 𝒀 ̂ 𝒊 )𝟐
(𝒀𝒊 − 𝒀
5 12 -10 100 8,2 3,8 14,44
10 13 -5 25 14,9 -1,9 3,61
15 18 0 0 21,6 -3,6 12,96
20 26 5 25 28,3 -2,3 5,29
25 39 10 100 35 4 16
̅ = 𝟏𝟓
𝑿 ̅ = 𝟐𝟏, 𝟔
𝒀 - 𝜮 = 𝟐𝟓𝟎 - 𝜮=𝟎 𝜮 = 𝟓𝟐, 𝟑
̂ 𝒊 )𝟐
√∑(𝒀𝒊 − 𝒀 √𝟓𝟐, 𝟑 𝟕, 𝟐𝟑
𝒔𝒆 = = = = 𝟒, 𝟏𝟕
√𝒏 − 𝟐√𝟑 𝟏, 𝟕𝟑
𝒔𝒆𝟒, 𝟏𝟕 𝟒, 𝟏𝟕
𝒔𝒃 = = = = 𝟎, 𝟐𝟔
̅
√∑(𝑿 − 𝑿)𝟐 √𝟐𝟓𝟎 𝟏𝟓, 𝟖𝟏
𝟏, 𝟑𝟒
𝒕𝒄𝒂𝒍 = = 𝟓, 𝟏𝟓
𝟎, 𝟐𝟔
Observação: o aluno não deve ficar preocupado com os cálculos fracionados e
de raiz demostrados acima, apenas estamos desenvolvendo o mesmo exemplo
abordado. Dificilmente conseguimos obter valores fechados em todo o
desenvolvimento. É muito interessante compreender de onde cada informação foi
extraída e como deve proceder para obter a estatística de teste 𝑡 para o coeficiente
de regressão 𝑏. Em provas que perguntarem especificadamente esse procedimento,
serão abordados cálculos mais manejáveis matematicamente.
ANÁLISE DE VARIÂNCIA
O modelo básico da regressão linear expressa a relação de X e Y por meio de uma equação
da reta. Em adição, o teste de hipótese do coeficiente de regressão verifica a existência
significativa dessa relação linear entre X e Y. Além desses procedimentos, é necessário utilizar
a análise de variância para obter o quanto a reta de regressão explica os valores observados de
Y utilizados para o ajuste. Portanto, a análise de variância tem o objetivo de quantificar a
dispersão da regressão linear, analisando o quanto o modelo linear explica o comportamento
de Y e o quanto não pode ser explicado.
Sobretudo, ao efetuarmos uma análise de regressão, parte da variação de Y é explicada
em função da variação de X (por meio da reta de regressão 𝑌̂𝑖 = 𝑎 + 𝑏𝑋𝑖 ); a outra parte da
variação é causada por fatores aleatórios não explicados pelo modelo (𝜀𝑖 ). Desse modo, toda a
dispersão (ou variabilidade) de uma regressão linear (variação total da regressão) pode ser
expressa pelos seguintes componentes:
Em que:
𝑌𝑖 : são os valores observados da variável Y, que fazem o par com os valores X;
𝑌̂𝑖 : são os valores da variável Y estimados pela reta de regressão;
𝑌̅: é a média da variável Y.
Ao observar a construção de uma regressão linear, podemos identificar, graficamente, o
desvio da variável Y e seus partição em componentes – explicado e não explicado pela regressão
–, entenda:
𝑺𝑸𝑻 ∑(𝒀𝒊 − 𝒀̅ )𝟐
𝑸𝑴𝑻 = =
𝒏−𝟏 𝒏−𝟏
➢ 𝑺𝑸𝑬 corresponde a variação explicada pela regressão linear, desse modo, o grau de
liberdade corresponde a 1, pois temos apenas um coeficiente de regressão 𝑏 (uma
variável independente X) explicando a variação de Y (em regressões múltiplas, os
graus de liberdade correspondem ao número de variáveis independentes). Com isso,
obtém a variância explicada ou quadrado médio explicado pela regressão:
̅ )2
̂𝒊 − 𝒀
𝑺𝑸𝑬 ∑(𝒀
𝑸𝑴𝑬 = =
𝟏 𝟏
MUDE SUA VIDA!
339
alfaconcursos.com.br
➢ 𝑺𝑸𝑹 corresponde a variação não explicada pela regressão linear, desse modo, os
graus de liberdade correspondem ao resto para completar o total, ou seja, se o total
de graus de liberdade é 𝑛 − 1, e 1 grau de liberdade corresponde ao componente
explicado, o resíduo terá 𝒏 − 𝟐 graus de liberdade. Com isso, obtém a variância não
explicada ou quadrado médio dos resíduos:
𝑺𝑸𝑹 ̂ 𝒊 )𝟐
∑(𝒀𝒊 − 𝒀
𝑸𝑴𝑬 = =
𝒏−𝟐 𝒏−𝟐
Por fim, podemos representar todos os componentes da variância de uma regressão linear
simples a partir de uma tabela:
Soma dos
Quadrado Médio
Causas de Variação Graus de Liberdade Quadrados
(ou Variância)
(ou Variação)
Explicada 𝑺𝑸𝑬
1 SQE 𝑸𝑴𝑬 =
(Regressão) 𝟏
𝑺𝑸𝑹
Resíduo (Erro) 𝒏−𝟐 SQR 𝑸𝑴𝑬 =
𝒏−𝟐
𝑺𝑸𝑻
Total 𝒏−𝟏 SQT 𝑸𝑴𝑬 =
𝒏−𝟏
Com isso, temos a tabela de análise de variância com a decomposição da soma dos
quadrados totais em seus dois componentes: a variação explicada e a não explicada pela
regressão linear.
Junto a esse conhecimento, outra informação muito importante pode ser deduzida pela
reta da regressão. Ao analisar o componente explicado pela regressão, podemos ter a seguinte
igualdade:
O poder explicativo da regressão tem por objetivo avaliar a “qualidade” do ajuste da reta
de regressão aos pontos (X, Y). Baseado nesse conceito, podemos obter o coeficiente de
determinação a partir da seguinte proporção:
𝟐
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑬𝒙𝒑𝒍𝒊𝒄𝒂𝒅𝒂 𝒑𝒆𝒍𝒂 𝑹𝒆𝒈𝒓𝒆𝒔𝒔ã𝒐 𝑺𝑸𝑬
𝐫 = =
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍 𝑺𝑸𝑻
Com esse cálculo, obtém a proporção (ou porcentagem) do quanto o modelo de regressão
linear explica o comportamento variável de Y. Sobretudo, como a variação explicada se trata de
um componente do total, o valor de r2 sempre irá oscilar entre 0 até 1 (0 a 100%). Se r2 é
próximo de 1, isso significa que a variação explicada responde por uma grande percentagem da
variação total, isto é, o modelo de regressão linear explica eficientemente a variação de Y. Por
outro lado, valores de r2 próximos de zero indicam que há muito variação de Y não explicada
pelo modelo de regressão, isto é, muitas variações devido a fatores aleatórios.
O cálculo de r2 pode também ser pela variação dos resíduos SQR, uma vez que SQE
corresponde a diferença do total menos os erros (SQT – SQR). Veja:
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍 − 𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑹𝒆𝒔𝒊𝒅𝒖𝒂𝒍 𝑺𝑸𝑻 − 𝑺𝑸𝑹
𝐫𝟐 = =
𝑽𝒂𝒓𝒊𝒂çã𝒐 𝑻𝒐𝒕𝒂𝒍 𝑺𝑸𝑻
Como SQR é a complementar de SQE para obter o total, também podemos deduzir que o
complementar do coeficiente de determinação é a proporção da variação residual sobre o total.
Logo:
𝑺𝑸𝑹
𝟐
𝟏−𝐫 =
𝑺𝑸𝑻
Em síntese, o ajustamento da reta de regressão aos pontos observados é mais eficiente
quanto mais perto de 1 estiver o valor do coeficiente de determinação r2. Se 𝑟 2 = 0,81, por
exemplo, indica que aproximadamente 81% da variação em Y está relacionada com a variação
de X e é explicada eficientemente pelo modelo linear. Em contraponto, 19% da variação em Y
não é explicada em função de X.
Esse coeficiente, não por acaso, é representado por 𝑟 2 , pois trata-se do coeficiente de
correlação 𝒓 elevado ao quadrado. Ou seja, quanto maior a correlação linear (força de
associação) entre uma variável (X,Y), maior é eficiência de explicar Y em função de X por um
modelo de regressão linear.
𝒓𝟐 = (𝒓)𝟐
𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑫𝒆𝒕𝒆𝒓𝒎𝒊𝒏𝒂çã𝒐 = (𝑪𝒐𝒆𝒇𝒊𝒄𝒊𝒆𝒏𝒕𝒆 𝒅𝒆 𝑪𝒐𝒓𝒓𝒆𝒍𝒂çã𝒐)𝟐
SQR = 0
SQT = SQE
Coeficiente de Determinação (r2) = 100%
SQE = 0
SQT = SQR
Coeficiente de Determinação (r2) = 0
DISTRIBUIÇÃO F DE SNEDECOR
Para dar continuidade a respeito da análise de regressão linear, precisamos conhecer uma
nova distribuição de probabilidade utilizada para efetuar testes de hipóteses na variância. A
distribuição 𝐹 de Snedecor, também conhecida como distribuição de Fisher, corresponde a uma
distribuição de probabilidade contínua que é frequentemente utilizada na inferência estatística
para análise da variância.
Em testes de hipóteses, um importante exemplo da distribuição 𝐹 de Snedecor
corresponde a estatística F. Suponha que temos duas populações independentes com
distribuições Normais e variâncias iguais a 𝜎 2 . Ao extrair duas amostras, uma para cada
população independente, pode ser analisado se as variâncias amostrais 𝒔𝟐𝑨 e 𝒔𝟐𝑩 são diferentes
entre si ou não. Para isso, é preciso aplicar a divisão entre essas variâncias (variância maior
sob a menor).
𝒔𝟐𝑨
~ 𝑭(𝒏 − 𝟏, 𝒎 − 𝟏)
𝒔𝟐𝑩
Desse modo, a divisão entre as variâncias amostrais corresponde a uma variável aleatória
com distribuição de Snedecor com 𝒏 − 𝟏 graus de liberdade no numerador e 𝒎 − 𝟏 graus de
liberdade no denominador, em que 𝒔𝟐𝑨 e 𝒔𝟐𝑩 são as variâncias amostrais da primeira e da
segunda amostra, respectivamente.
A razão entre as variâncias obtém um valor de quantas vezes a variância da amostra
A é superior a variância da amostra B. Em consequência, a Estatística de teste 𝐹 verifica se
essa razão é significativa e, portanto, as variâncias serão diferentes.
A distribuição 𝐹 de Snedecor é determinada por dois tipos de graus de liberdade, os
correspondentes à variância no numerador, e os que correspondem à variância no
denominador. A forma da distribuição 𝐹 de Snedecor varia conforme esses parâmetros, porém,
de modo geral, a função densidade distribui os valores de F da seguinte forma:
É uma distribuição assimétrica para direita, tem limite inferior determinado e tende para
o lado positivo sem limite (+∞). Não assume valores negativos uma vez que a variância é
sempre elevada ao quadrado. A área total sob cada curva de uma distribuição 𝐹 é igual a 1.
Os valores de probabilidade são tabelados conforme os graus de liberdade do numerador
e denominador. Geralmente apresenta uma tabela específica para cada nível de significância 𝛼.
Segue em exemplo, uma tabela F para 5% de probabilidade de erro, em que os graus de
liberdade do numerador correspondem as colunas e os graus de liberdade do denominador
correspondem as linhas:
Assim como qualquer teste de hipóteses, precisamos obter um Ftab conforme o nível de
significância 𝛼 e os graus de liberdade 1 no numerador e 𝑛 − 2 no denominador. O Ftab
delimitará a área de rejeição e aceitação de H0. Além disso, devemos calcular uma estatística
Fcal, obtida pela razão QME/QMR.
Com isso, confrontamos os valores na distribuição de probabilidade F de Snedecor e
verificamos o resultado do teste de hipóteses.
➢ Se Fcal ficar na área de aceitação de H0, a hipótese nula será aceita e as variâncias
serão iguais, portanto, o modelo de regressão linear não explicará eficientemente
as variações de Y;
➢ Se Fcal ficar na área de rejeição de H0, a hipótese nula será rejeitada e a variância
explicada pela regressão será superior a variância residual, portanto, o modelo
de regressão linear explicará eficientemente as variações de Y;
𝑺𝑸𝑹
Resíduo (Erro) 𝒏−𝟐 SQR 𝑸𝑴𝑹 = -
𝒏−𝟐
𝑺𝑸𝑻
Total 𝒏−𝟏 SQT 𝑸𝑴𝑻 = -
𝒏−𝟏
𝟐
𝑺𝑸𝑬
𝐫 =
𝑺𝑸𝑻
𝑺𝑸𝑬
𝟏 − 𝐫𝟐 =
𝑺𝑸𝑻
𝐫𝟐 𝐫 𝟐 (𝒏 − 𝟐)
𝑭= =
𝟏 − 𝐫𝟐 𝟏 − 𝐫𝟐
𝒏−𝟐
𝐫 𝟐 (𝒏 − 𝟐)
𝑭=
𝟏 − 𝐫𝟐
Para finalizar a abordagem sobre análise de variância na regressão, vamos aplicar todo o
conhecimento obtido em um exemplo anteriormente trabalhado.
OBJETO DE ESTUDO:
Foram escolhidas 5 cidades com taxa de desemprego de 5, 10, 15, 20 e 25%
registrado por órgãos de pesquisas confiáveis. Em seguida, durante um mês, foi
quantificado a ocorrência de homicídios, em cada cidade.
𝒀𝒊 = 𝟏, 𝟓 + 𝟏, 𝟑𝟒𝑿𝒊 + 𝜺𝒊
̂𝒊
𝒀𝒊 − 𝒀 ̂ 𝒊 )𝟐
(𝒀𝒊 − 𝒀
3,8 14,44
-1,9 3,61
-3,6 12,96
-2,3 5,29
4 16
𝜮=𝟎 𝜮 = 𝟓𝟐, 𝟑
𝑺𝑸𝑻 = 𝟓𝟎𝟏, 𝟐
𝑺𝑸𝑬 = 𝟒𝟒𝟖, 𝟗
𝑺𝑸𝑹 = 𝟓𝟐, 𝟑
𝟓𝟎𝟏, 𝟐 = 𝟒𝟒𝟖, 𝟗 + 𝟓𝟐, 𝟑
Desse modo, a tabela de análise de variância pode ser preenchida:
Soma dos Quadrado
Causas de Graus de
Quadrados Médio Teste F
Variação Liberdade
(ou Variação) (ou Variância)
Explicada 𝟒𝟒𝟖, 𝟗 𝟒𝟒𝟖, 𝟗
1 448,9 = 𝟒𝟒𝟖, 𝟗
(Regressão) 𝟏 𝟏𝟕, 𝟒𝟑
Resíduo 𝟓𝟐, 𝟑
𝟑 52,3 = 𝟏𝟕, 𝟒𝟑 -
(Erro) 𝟑
𝟓𝟎𝟏, 𝟐
Total 𝟒 501,2 = 𝟏𝟐𝟓, 𝟑 -
𝟒
O valor de Ftab para nível de significância de 5%, com 1 grau de liberdade no numerador e
3 no denominador, é igual a:
𝑭𝒕𝒂𝒃 = 𝟏𝟎, 𝟏𝟑
Em concomitante, o valor da estatística Fcal:
𝟒𝟒𝟖, 𝟗
𝑭𝒄𝒂𝒍 = = 𝟐𝟓, 𝟕𝟓
𝟏𝟕, 𝟒𝟑
Veja que o valor de Fcal de 25,75 representa que a variância explicada pela regressão linear
é 25,75 vezes maior que a variância residual. Para que essa estatística seja significativa, basta
que a variância explicada seja maior em 10,13 (Ftab) vezes que a residual. Portanto, o resultado
do teste de hipóteses:
ANÁLISE DE RESÍDUOS
A Análise de Resíduos ( ou erros da regressão) consiste em um conjunto de técnicas para
investigar a adequabilidade do modelo com base nos resíduos. Os resíduos contêm informação
sobre o motivo do modelo não ter se ajustado bem aos dados. Além disso, a análise de resíduos
consegue indicar se uma ou mais suposições do modelo foram violadas.
Conforme as pressuposições apresentadas na análise de regressão, podemos identificar
pelos resíduos de houve a violação de umas das pressuposições. Os principais problemas
detectados por meio da análise dos resíduos são:
➢ Não-linearidade da relação entre X e Y ;
➢ Não Normalidade dos erros;
➢ Variância não-constante dos erros (heterocedasticidade);
➢ Correlação entre os erros;
➢ Presença de outliers ou observações atípicas;
➢ O modelo foi mal especificado (outras variáveis deveriam ser incluídas).
Identificar a violação dessas pressuposições é importante para validar as informações
obtidas pela análise de regressão. Uma vez que elas são violadas, os estimadores de mínimos
quadrados deixam de ser bons estimadores, além de que os testes de hipóteses não serão mais
apropriados.
A análise de resíduos pode ser efetuada a partir de análise gráficas em que é observado
alguma tendência que indique a violação das pressuposições. As principais análises podem ser:
Análise de Resíduos
Gráfico de Probabilidade Normal dos
Resíduos
Gráfico Resíduos versus Valores
Estimados
Gráfico Resíduos versus Variáveis
Indpendentes
Gráfico Resíduos versus Tempo ou
Espaço
HISTOGRAMA DOS RESÍDUOS (𝜺𝒊 )
Uma forma para estudar a normalidade dos resíduos da regressão linear é a partir de um
histograma (gráfico de frequências dos resíduos). Nesse histograma, os valores de 𝜀𝑖 devem ser
simétricos em torno de zero. Caso contrário é um indicativo de não normalidade dos resíduos
ou ajuste não adequado do modelo de regressão linear. O uso do histograma torna-se útil com
amostras grandes.
A forma de um histograma que apresenta uma distribuição ideal é:
Quando a dispersão dos erros, de acordo com o aumento do valor estimado, for aleatória
e sem pontos atípicos indica a existência de uma variância constante para representar os erros
da regressão, ausência de valores atípicos e inexistência de relação não linear entre os dados.
As linhas tracejadas vermelhas mostram que a dispersão aleatória segue um padrão constante.
Em situações que os resíduos não apresentam uma variância constante, pode ser
observado que os resíduos aumentam ou diminuem com os valores estimados, os pontos
formam uma curva ao redor de zero, não estão dispostos aleatoriamente, poucos pontos no
gráfico ficam muito distantes dos demais (dispersão não homogênea dos pontos). Exemplo:
Nesse outro gráfico, temos que a dispersão dos resíduos vai aumentando de acordo com
aumento dos valores estimados. Isso evidencia uma variância não constante (heterogênea)
para os resíduos, com maiores variações aleatórias de acordo com aumento de valores
estimados. Uma solução para corrigir esse problema é efetuar alguma transformação
matemática na variável Y de modo que essa dispersão se transforme em um valor constante.
Outra irregularidade que pode ser detectada é a presença de valores atípicos (outliers).
Essas observações fogem na nuvem aleatória e constante formada pelos pontos dos 𝜀𝑖 com 𝑌̂.
Entenda:
Os pontos que estão fora da linha tracejada indicam uma observação mal ajustada pelo
modelo de regressão, provavelmente se refere a outliers.
Além disso, a partir desse gráfico pode ser observado uma relação não linear entre os
resíduos e os valores estimados. Veja:
Nesse caso, podemos deduzir que regressão adequada não é linear. Desse modo, é
recomendado aplicar uma análise de regressão não linear.
Uma autocorrelação negativa indica que se um erro está acima de zero, o próximo tente
a estar abaixo. Entenda:
Em síntese a tudo analisado, podemos resumir em uma tabela os gráficos dos resíduos
estudados e as pressuposições que são avaliadas em cada um:
A respeito dessa situação hipotética, julgue o próximo item, sabendo que b > 0 e que o
desvio padrão amostral da variável X é igual a 2.
1. A estimativa do coeficiente angular b, pelo método de mínimos quadrados ordinários, é
igual a 0,25.
GABARITO: Correto.
A questão apresenta a análise de variância para relação da taxa de
criminalidade (Y) em função da taxa de desocupação da população economicamente
ativa (X). A fonte de variação modelo corresponde aquela explicada pela regressão
linear, enquanto o erro corresponde a variação aleatória não explicada pelo modelo
de regressão.
A variação explicada pela regressão (nessa questão expressa pela soma dos
quadrados do modelo) corresponde a distância do valor estimado 𝑌̂ pelo modelo
em relação a média 𝑌̅, calculado por ∑(𝒀 ̅ )𝟐 . Em adição, essa variação também
̂−𝒀
pode ser explicada em função de X junto ao coeficiente de regressão linear, baseado
na seguinte relação matemática:
Como a questão forneceu que 𝑏 > 0, sabemos que ele é de fato positivo. Logo,
questão correta.
Como sabemos que 𝑏 > 0, então a correlação linear também é positiva (relação
diretamente proporcional). Assim, 𝑟 = 0,75 e a questão é correta!
Assim:
Com isso, temos os dois componentes para calcular o erro padrão do coeficiente
angular 𝑠𝑏 , logo:
Com isso, verificamos que o tempo média post mortem encontrado nesse
estudo foi de 32,5 horas, o que é superior a 30 horas. Portanto, questão correta.