Livro Estatistica Word

FACULDADE
ÚNICA DE
IPATINGA
ESTATÍSTICA
FELIPE CHAVES INÁCIO 1
Menu de Ícones
Com o intuito de facilitar o seu estudo e uma melhor compreensão do conteúdo
aplicado ao longo da apostila, você irá encontrar ícones ao lado dos textos. Eles são
para chamar a sua atenção para determinado trecho do conteúdo, cada um com
uma função específica, mostradas a seguir:
UNIDADE 06
01 3
UNIDADE
02
UNIDADE
03
UNIDADE
04
UNIDADE
05
UNIDADE 2
Su
mári
o
AMOSTRAGEM
1.1 Introdução
1.2. Dimensionamento da Amostra
1.3. Tipos de Amostragem
1.3.1. Amostragem Aleatória Simples
1.3.2. Amostragem Estratificada
1.3.3. Amostragem por Conglomerados
1.3.4. Amostragem Sistemática
-Fixando o Conteúdo
ESTATÍSTICA DESCRITIVA
2.1 Introdução
2.2.Tabelas de Frequências
2.3. Medidas Descritivas
2.3.1. Medidas de Tendência Central
2.3.2. Medidas de Variação ou Dispersão
MEDIDAS DE
ASSIMETRIA E
CURTOSE
3.1 Introdução
3.2. Medida de Assimetria 19
3.3. Medida de Curtose Mito, Filosofia e
Ciência 20
Fixando o Conteúdo
PRINCÍPIOS DE
PROBABILIDADE
4.1. Introdução
4.1.1. Conceitos Fundamentais
4.2. Definições de Probabilidade
4.2.1. Probabilidade Clássica
4.2.2. Probabilidade Frequentista
4.2.3. Definição Axiomática de Probabilidade
4.3. Regra da Adição
4.3.1 Eventos Excludentes
4.4. Regra do Produto
4.4.1. Eventos Independentes
4.5. Probabilidade Total
4.6. Teorema de Bayes
4.7. Distribuições de Probabilidade
4.7.1. Distribuição Binominal
4.7.1.1. Parâmetros da Distribuição Binominal
4.7.2. Distribuição Normal
4.7.2.1. Distribuição Normal Padrão
INFERÊNCIAS ESTATÍSTICA:
5.1 Introdução
5.2. Estimação
5.2.1. Estimação por Ponto
INFERÊNCIA ESTATÍSTICA: TESTE DE HIPÓTESES

6.1 Introdução 56
6.2. Teste de Hipóteses para Media Populacional 58
6.2.1. Teste Populacional com Variância Conhecida 59
6.2.2. Teste Populacional com Variância Desconhecida 61
-Fixando o Conteúdo 00
REFERÊNCIAS BIBLIOGRÁFICAS 64
CONFIRA NA APOSTILA
Será apresentado a história e evolução da cartografia, demostrando

como seu surgimento está relacionado a própria história da
humanidade, como se deu sua evolução através do tempo e o
surgimento dos conceitos atuais da cartografia, como Latitude,
Longitude e Rosa dos Ventos.
Você estudará sobre os movimentos da Terra e como influenciam na

formação dos dias e noites e das estações do ano, compreendendo
ainda como as coordenadas geográficas (latitude e longitude)
permitem localizar com precisão qualquer ponto sobre a superfície
terrestre, além de definir os fusos horários.
Nessa unidade você estudará sobre os fusos horários mundiais, como

foram criados e como calcular as diferenças horárias entre os países.
Estudará ainda os fusos horários brasileiros e sobre o horário de verão.
Compreender sobre fusos horários é essencial para o aluno,
UNIDADE principalmente no contexto de globalização e de intenso fluxo de
pessoas a nível mundial.
Você, nessa unidade, aprenderá sobre escalas e suas as

características, além de sua importância para geografia, para a
cartografia e para diversas outras áreas do conhecimento. A escala
está no dia a dia das pessoas, mesmo que de forma imperceptível.
Reconhecer essas relações de proporção é essencial para que o
aluno consiga interpretar corretamente as representações do espaço e
seus fenômenos.
Todo mapa ou representação da Terra é construído através de uma

projeção cartográfica. Nessa unidade você aprenderá os tipos de
projeções diferentes, como cada uma delas influência nas
características dos mapas e que, por mais que se busque, e mesmo
com toda tecnologia disponível, não existe representação do planeta
sem apresentar deformações.
Nessa unidade você aprenderá que existem convenções

cartográficas reconhecidas mundialmente e que são essenciais para
interpretar mapas em todo o mundo, evitando-se assim equívocos.
Entenderá também os avanços na cartografia proporcionado pelas
novas tecnologias, principalmente com o advento dos satélites e,
mais recentemente, das tecnologias digitais, que possibilitaram, não
apenas um maior detalhamento e representação da superfície
terrestre e de seus fenômenos, como também a popularização dos
mapas e das ferramentas de acesso e uso deles no dia a dia.
AMOSTRAGEM
4
1.1 INTRODUÇÃO
UNIDADE
A amostragem é um processo pelo qual podemos conhecer as características
de um todo (chamado “universo”) sem termo que analisar todos os elementos que o
compõem. Uma analogia frequentemente utilizada é da prova de um bolo. Se
quisermos saber se um bolo é gostoso, não há a necessidade de comermos o bolo
inteiro, basta uma pequena fatia. Da mesma forma, quando queremos conhecer
alguma característica de um universo, não precisamos pesquisar cada elemento
que o compõe, basta analisarmos uma parte, sendo esta parte chamada de
“amostra”.
Entretanto, assim como na prova de um bolo, essa parte não pode ser
pequena demais, caso contrário, corremos o risco de não ser o suficiente para
termos uma ideia do todo. Também não podemos escolher de forma descuidada os
elementos que irão compor a amostra, pois podemos não ter todas as
características do universo que precisam ser preservadas. Dessa forma, o processo
de escolha de uma amostra é composto, grosso modo, por duas etapas: o
dimensionamento (ou cálculo do tamanho) da amostra e o tipo de amostragem
utilizado para escolher os elementos que irão compor a amostra.
Universo: É o conjunto de todos os elementos de nosso interesse. É o “todo”.

Amostra: É uma parte do universo, ou seja, uma parte dos elementos de nosso
interesse.
1.2 DIMENSIONAMENTO DA AMOSTRA
No que diz respeito a esta etapa do processo, é importante ressaltar que o

tamanho da amostra depende fundamentalmente de dois fatores: o tamanho do
universo e a margem de erro que estamos dispostos a aceitar. Esta margem de
erro, 5
ao contrário do que se possa imaginar, é determinada antes do cálculo do tamanho
da amostra e não depende de fator algum. É importante lembrar apenas que,
quanto menor a margem de erro, maior deverá ser o tamanho da amostra, o que
pode acarretar em maiores custos financeiros e maiores tempos de execução.
Por outro lado, está margem de erro não pode ser grande demais, pois pode
comprometer os resultados da pesquisa. Dessa forma, precisamos sempre escolher
uma margem de erro que esteja a meio termo.
Existem várias formas (e fórmulas) para o cálculo do tamanho de amostras.
Uma forma relativamente simples e que traz resultados bastante satisfatórios a
seguinte:
N
n=
NE2+1
Onde
n = tamanho da amostra;
N = tamanho do universo;
E = margem de erro escolhida.
Exemplo: Suponha que uma determinada empresa tenha 3000 clientes em seus
cadastros e pretenda realizar uma pesquisa de satisfação entre eles. Quantos
clientes deverão ser pesquisados para que se tenha uma margem de erro de 5%?
Solução: Neste caso, temos o seguinte:
N = 3000
E = 5% = 0,05
n = ? Então:
3000
n=
3000(0, 0025) + 1
n = 3000
7, 5 + 1
3000
n=
8, 5
n ≈ 353
6
1.3 TIPOS DE AOSTRAGEM
Após conhecermos o número de elementos do universo que devemos
pesquisar, precisamos saber como selecionar esses elementos. Existem várias
maneiras de se fazer isso e, dentre elas, veremos as quatro mais utilizadas.
1.3.1 Amostragem aleatória simples:
Neste tipo de amostragem, todos os elementos do universo têm a mesma

chance de serem selecionados. Este é o principal tipo de amostragem, sendo
frequentemente utilizado em conjunto com outros tipos. Os melhores exemplos de
amostragem aleatória simples são os sorteios de uma forma geral.
1.3.2 Amostragem estratificada:
Neste tipo de amostragem, o universo é previamente divido em grupos

mutuamente exclusivos (chamados estratos) e depois são selecionados alguns
elementos de cada um destes grupos. A escolha destes elementos normalmente é
feita através da amostragem aleatória simples.
1.3.3 Amostragem por conglomerados:
Neste caso, o universo também é dividido em grupos. Entretanto, apenas

alguns destes grupos são selecionados e então todos os elementos destes grupos
são pesquisados. Neste tipo de amostragem há uma grande economia de tempo e
recursos financeiros, uma vez que é dispensada a necessidade de listagem dos
elementos do universo além de reduzir o custo de locomoção e acesso aos
elementos para a obtenção das informações desejadas (SILVA, 2004, p.76).
1.3.4 Amostragem sistemática:
Segundo Silva (2004, p. 67), essa amostragem ”consiste em considerar os N

elementos do universo reunidos em grupos definidos por um intervalo de amplitude
𝑁⁄𝑛 e sortear um elemento decada grupo para compor a amostra
Se você fosse o responsável por planejar uma pesquisa eleitoral em um

município onde há 10 mil eleitores, como você o faria? Lembre-se que este
planejamento deve envolver duas etapas: uma delas dizer quantas pessoas
serão ouvidas e a outra, como essas pessoas serão selecionadas
7
Nestes links, vocês encontrarão mais informações acerca dos conceitos que serão
necessários ao longo da disciplina, além de uma explicação bem detalhada dos tipos de
.
amostragem.
https://integrada.minhabiblioteca.com.br/#/books/9788580553949/cfi/16!/4/4@0.00:0.00
https://plataforma.bvirtual.com.br/Leitor/Publicacao/402/pdf/0?code=2ukKXGhd5+
C7YcXq6w9hQ0VOHovqmN4BLEXyWsNE8YRwcYfoJONADScX8In1UsPqreHiD/p
KrwcJVWzoEVZO+g==
ESTATÍSTICA DESCRITIVA UNIDADE
2.1 INTRODUÇÃO
A estatística descritiva pode ser entendida como um conjunto de técnicas e
métodos estatísticos que nos permitem descreve um determinado conjunto de
dados para que possamos ”enxergar” as informações nele contidas. Dentre estas
técnicas encontram-se tabelas, gráficos e medidas que irão representar o
conjunto de dados em questão. A estatística descritiva nos permite apenas
descrever um conjunto de dados sem que possamos, a partir dele, fazer
afirmativas acerca do universo do qual tal conjunto foi extraído. A parte da
estatística que nos permite fazer isso é chamada de inferência estatística. Dentre
as técnicas da estatística descritiva, começaremos estudando as tabelas de
frequências e passaremos então para as medidas descritivas.
2.2. TABELAS DE FREQUÊNCIAS

São tabelas que contêm na primeira coluna classes ou intervalos de valores da
variável em questão e na segunda coluna a frequência de cada classe, ou seja, a
quantidade de valores que se encontram dentro de cada intervalo. Vejamos o
seguinte exemplo:
Classe Frequˆenc Freq Freq.

s ia . Acumula
Relati da
va
10 ˫ 20 8 0, 08 8
32
20 ˫ 30 7 0, 15
28
30 ˫ 40 5 0, 20
20
40 ˫ 50 3 0, 23
12
50 ˫ 60 2 0, 25
08
Total 25 1, -
(Σ) 00
O símbolo “Σ” significa somatório. Ou seja, indica que estamos somando certas
quantidades de fatores.
9
Supondo que a tabela acima se refira às idades de 25 pessoas de um
determinado grupo, podemos dizer que 8 destas pessoas (ou 32%) possuem idade
entre 10 e 20 anos. Sete pessoas possuem idade entre 20 e 30 anos e assim
sucessivamente. A frequência relativa informa justamente a porcentagem de valores
dentro de cada classe e é obtida dividindo-se a frequência da classe pela frequência
total. Por sua vez, a frequência acumulada é obtida somando-se a frequência da
classe com a frequência das classes anteriores. Por exemplo, a frequência da
terceira classe é obtida somando-se 5 + 7 + 8 = 20 e significa que existem 20
pessoas com idade entre 10 e 40 anos.
Através desta tabela podemos perceber, por exemplo, que 60% das
pessoas deste grupo possuem entre 10 e 30 anos de idade. Isso pode ser percebido
somando- se as frequências relativas das duas primeiras classes. Por outro lado,
somando as frequências relativas das duas últimas classes, podemos perceber que
apenas 20% destas pessoas possuem idade entre 40 e 60 anos. Dessa forma,
podemos concluir que este grupo é constituído basicamente por pessoas mais
jovens.
Uma questão que devemos sempre considerar diz respeito ao número de
classes que serão utilizadas em cada tabela. No exemplo acima, foram utilizadas 5
classes, mas nem sempre será assim. A quantidade de classes de uma tabela
dependerá do número de valores existentes no conjunto (ou seja, o tamanho da
amostra). Chamando de “K” o número de classes e de “n” o tamanho da amostra, a
quantidade de classes que serão utilizadas na tabela pode ser calculada da seguinte
forma:
K = 1 + 3, 22 log n
Entretanto, é importante notar que este cálculo pode ser simplificado quando o
conjunto de dados não possui mais de 50 valores. Neste caso, o número K de
classes poderá ser aproximado pela seguinte fórmula:
K = √𝑛
Após conhecermos o número de classes a ser utilizado, devemos calcular o intervalo

destas classes, que chamaremos de “H”. Assim,
10
A
H=
K
Onde “A” é a amplitude, ou seja,

A = Maior valor − Menor valor.
2.3 MEDIDAS DESCRITIVAS
As medidas descritivas são grandezas utilizadas para resumir e descrever um

conjunto de dados. De grande utilidade nas análises estatísticas, essas medidas se
dividem em dois grupos: as medidas de tendência central e as medidas de variação.
Medidas Descritivas
Média
Tendência central Mediana
Moda
Variância
Variação Desvio-padrão
Coef. de variação
2.3.1 Medidas de tendência central
Como o próprio nome sugere, esse conjunto de medidas nos dão a ideia de
centralidade, sendo a média a mais importante delas, embora não seja a única.
Existem alguns “tipos” de médias, utilizadas em diferentes situações, conforme
veremos a seguir.
Média aritmética simples: Representada pelo símbolo 𝑋¯ , é utilizada

em situações onde todos os valores têm o mesmo peso, ou seja, têm todos a
mesma importância no conjunto de dados. É calculada da seguinte forma:
𝑋¯ =∑×
n .
11
Assim, para calcularmos a média simples, basta somar todos os valores e dividir pela
quantidade de valores somados.
Exemplo: Suponha que tenhamos um conjunto como os seguintes números:
2, 4, 5, 7 e 12 . A média deste conjunto seria:
2+4+5+7+1
𝑋¯ = 5
𝑋¯ = 6
Média aritmética ponderada: É utilizada quando nem todos os valores do
conjunto têm a mesma importância. Neste caso, damos pesos maiores para os
valores mais importantes. Representaremos a média ponderada pelo símbolo 𝑋¯P e

seu cálculo é feito da seguinte forma:
𝑋¯P ∑ (x .p)
= ∑p .
Neste caso, “x” são os valores do conjunto e “p” o peso correspondente.

Exemplo: Suponha que um aluno tenha sido aprovado com as seguintes notas nas
disciplinas a abaixo, cada uma com seu respectivo peso.
Disciplina No Pe
ta so
História
98 3
Geografia 97 3
Física 85 2
Matemática 90 2
Dessa forma, a média ponderada ficaria assim:
𝑋¯P
(98×3)+(97×3)+(85×2)+(90×2)
= 3+3+2+2
𝑋¯P 935
= 10
𝑋¯P = 93,5
Moda: É o valor que aparece com a maior frequência num conjunto de dados.
Iremos representa-la por “mo”.
Exemplo: Seja o seguinte conjunto: 2 8 3 5 4 5 3 5 5 1
O elemento de maior frequência (o que aparece mais vezes) é o 5.
12
Dessa forma, mo = 5. Como o conjunto apresente somente uma moda, dizemos que
se trata de um “conjunto modal”. Entretanto, o conjunto de dados pode apresentar
mais de uma moda. Nestes casos, são chamados de “conjunto bimodal” (quando
tem duas modas) ou “conjunto multimodal” (quando tem mais de duas modas).
Vejamos os exemplos abaixo:
Exemplo: Seja o conjunto: 6 10 5 6 10 2.
Os elementos 6 e 10 aparecem com a mesma frequência máxima. Portanto, o
conjunto apresenta duas modas, sendo assim um conjunto bimodal.
Exemplo: No conjunto 2 2 5 2 8 5 8 8 10 10 10 os números 2,8 e 10 aparecem
com a mesma frequência máxima. Portanto, trata-se de um conjunto multimodal.
Quando não há números repetidos num conjunto ou quando todos aparecem

com a mesma frequência, dizemos que o conjunto é “amodal”.
Mediana: É o valor que ocupa a posição central em um conjunto de dados,

quando o mesmo se encontra ordenado. Sendo assim, podemos afirmar que 50%
dos valores do conjunto são menores que a mediana e, por conseguinte, 50% são
maiores que ela. Precisamos observar que se trata de uma medida de posição. Isso
significa que, para conhecermos a mediana de um conjunto, precisamos calcular a
posição que
ela ocupa no conjunto de dados. Iremos representar a mediana pelo símbolo 𝑋˜ e
sua
n+1
posição no conjunto é dada pela fórmula
2
Exemplo: Seja o seguinte conjunto de dados:
2 4 6 10 12 15 20 22 25 26 28 30 33 35 37 41 44 47 49 55 58
Há 21 números neste conjunto (n = 21), de forma que a posição ocupada pela

mediana é:
n+1 21+1
2 = 2 = 11
Assim, a mediana ocupa a 11ª posição no conjunto (é o 11º número do conjunto) e
seu valor é 𝑋˜ = 2
13
Neste link vocês encontrarão estes conceitos apresentados de outra maneira, com
vídeos e um mapa mental.
https://brasilescola.uol.com.br/matematica/moda-media-mediana.htm
Nos links abaixo, há também uma explicação detalhada sobre a estatística descritiva.
https://integrada.minhabiblioteca.com.br/#/books/9788580553949/cfi/123!/4/2@100:0.00
https://plataforma.bvirtual.com.br/Leitor/Publicacao/402/pdf/0?code=2ukKXGhd5+C7Yc
Xq6w9hQ0VOHovqmN4BLEXyWsNE8YRwcYfoJONADScX8In1UsPqreHiD/pKrwcJVWz
oEVZO+g==
Quartis: Os quartis fazem parte das chamadas “medidas separatrizes” que

são medidas que dividem o conjunto de dados em partes iguais. No caso dos
quartis, trata- se de três valores que dividem o conjunto em quatro partes (desde que
o conjunto esteja ordenado). Dessa forma, 25% dos valores do conjunto de dados
são menores que o primeiro quartil (Q1), 50% dos valores são menores que o
segundo quartil (Q2) e 75% dos valores são menores que o terceiro quartil (Q3). É
importante notar que, por serem medidas de posição, não calculamos seus valores.
O que calculamos são suas posições dentro do conjunto de dados. Essas
posições são dadas pelas seguintes fórmulas:
𝑷𝒓𝒊𝒎𝒆𝒊𝒓𝒐 𝒒𝒖𝒂𝒓𝒕𝒊𝒍: 𝒏 + 𝟏
𝟒
𝒏+𝟏
𝑺𝒆𝒈𝒖𝒏𝒅𝒐 𝒒𝒖𝒂𝒓𝒕𝒊𝒍:
𝟐
𝒏+𝟏
𝑻𝒆𝒓𝒄𝒆𝒊𝒓𝒐 𝒒𝒖𝒂𝒓𝒕𝒊𝒍: 𝟑 × ( )
𝟒
Exemplo: Considere o seguinte conjunto referente às idades de 15 pessoas.

12 1 16 1 19
5 8
20 2 25 2 28
4 7
30 3 34 3 38
3 5
Assim, temos as seguintes posições:
𝒏+𝟏 𝟏𝟓 +
𝑷𝒓𝒊𝒎𝒆𝒊𝒓𝒐 =
𝒒𝒖𝒂𝒓𝒕𝒊𝒍: 𝟒 𝟏 =𝟒
𝟒
14
𝒏+𝟏 𝟏𝟓 +
𝑺𝒆𝒈𝒖𝒏𝒅𝒐 𝒒𝒖𝒂𝒓𝒕𝒊𝒍: =
𝟐 𝟏 =𝟖
𝒏+𝟏 𝟐
𝟏𝟓 + 𝟏
𝑻𝒆𝒓𝒄𝒆𝒊𝒓𝒐 𝒒𝒖𝒂𝒓𝒕𝒊𝒍: 𝟑 × ( )=𝟑×( ) = 𝟑 × 𝟒 = 𝟏𝟐
� 𝟒
�
Assim, o primeiro quartil é o número que ocupa a 4ª posição no conjunto de dados,

ou seja:
Q1 = 18
Da mesma forma, o segundo quartil é o número que ocupa a 8ª posição no conjunto:
Q2 = 25
Por fim, o terceiro quartil é o é o número que ocupa a 12ª posição no conjunto:
Q3 = 33
Dessa forma, podemos afirmar que 25% das pessoas pesquisadas têm idade inferior
a 18 anos. 50% delas têm idade inferior a 25 anos e 75% das pessoas têm idade
inferior a 33 anos.
2.3.2. Medidas de variação (ou dispersão)

As medidas de tendência central, como vimos anteriormente, são essenciais para a
descrição de um conjunto de dados. Entretanto, elas não nos trazem todas as
informações que precisamos ter sobre os dados. Tomemos a média como exemplo e
analisemos os dois conjuntos abaixo.
Conjunto A: 10 ; 1 ; 18 ; 20 ; 35 ; 3 ; 7 ; 15 ; 11 ; 10
Conjunto B: 12 ; 13 ; 13 ; 14 ; 12 ; 14 ; 12 ; 14 ; 13 ; 13
Podemos perceber que ambos os conjuntos apresentam a mesma média (𝑋¯ =

13). Entretanto, podemos perceber também que esta média representa bem o
conjunto B, mas não representa tão bem o conjunto A. Isso acontece porque, no
primeiro conjunto, os valores estão mais dispersos, ou seja, podemos encontrar
valores bastante diferentes da média. No conjunto B, os valores estão mais
próximos uns dos outros e, por consequência, também da média.
Com isso, podemos perceber que precisamos de outras medidas que nos indiquem
o quanto os números estão variando em torno da média. Em outras palavras
precisamos 15
de medidas que traduzam o grau de variabilidade do conjunto. Essas medidas são
as medidas de variação ou dispersão.
Variância: Representada por s2, é uma das medidas de variação mais

utilizadas. Seu cálculo é feito pela seguinte fórmula:
∑(x–x̅ )2
s2 =
n–1
Nesta fórmula, 𝑥̅ é a média do conjunto, x representa cada um dos valores
individualmente e n representa a quantidade total de números no conjunto.
Exemplo: Calculemos a variância do seguinte conjunto de dados: 4 ; 5 ; 8 ; 5.
Este conjunto tem n = 4 elementos e sua média é igual a:
𝑥̅ = 4 + 5 + 8 + 5 = 22
4 4
𝑥̅ = 5,5
Os termos (x – 𝑥̅)2 são:
(4 - 5,5)2 = 2,25
(5 – 5,5)2 = 0,25
(8 – 5,5)2 = 6,25
(5 – 5,5)2 = 0,25
Ao somarmos estes valores, obtemos ∑ (𝑥 − 𝑥̅)2 = 9.

Então, usando a fórmula da variância, temos o seguinte:
s2 = ∑(x–x̅ )2
9
n–1 = 4–1
s2 = 3
Desvio-padrão: O desvio-padrão de um conjunto de dados é simplesmente a

raiz quadrada da variância. Ele tem a vantagem de expressar a variabilidade do
conjunto na mesma unidade de medida dos valores e não na unidade de medida ao
quadrado, como a variância. Dessa forma, temos o seguinte se considerarmos o
exemplo anterior:
s = √3
s ≈ 1,73
16
Neste link vocês poderão encontrar mais sobre as medidas de variação e suas
interpretações.
https://pt.khanacademy.org/math/statistics-probability/summarizing-quantitative-
data#variance-standard-deviation-sample
No link abaixo, há mais um pouco sobre o conceito de desvio-padrão.
104:catid=28&Itemid=23
Coeficiente de variação: Quando analisamos o desvio-padrão de um conjunto

de dados, temos uma informação sobre a variação absoluta daquele conjunto.
Entretanto, muitas vezes é importante levar em consideração a média do conjunto
ao analisarmos seu grau de variação. Para isso, utilizamos uma medida de variação
relativa, ou seja, que nos diz a variabilidade do conjunto em relação à sua média.
Esta medida é o coeficiente de variação (CV) e é calculada dividindo-se o desvio-
padrão do conjunto pela sua média. O resultado costuma ser multiplicado por 100
para termos uma porcentagem. Assim:
CV = 𝑠/
𝑥̅ ⋅ 100
Ainda considerando o exemplo anterior, o coeficiente de variação daquele conjunto
será:
1,73 × 100
CV = 5,5
CV ≈ 31,45
A renda per capta de um país é a renda total deste país dividida pelo número de
habitantes, ou seja, trata-se de uma média simples. Por outro lado, a distribuição
de renda nos dá uma medida da variação desta renda ao redor da média, ou
seja, nos dá uma ideia de variabilidade. Um país cuja renda apresenta grande
concentração, apresentará uma variância (da renda) alta ou baixa?
MEDIDAS DE ASSIMETRIA UNIDADE

E CURTOSE
18
17
3.1 INTRODUÇÃO
O conceito de simetria sempre remete à ideia de igualdade. Segundo o
dicionário Michaelis, simetria é:
 Correspondência em tamanho, forma ou arranjo, de partes dispostas em

lados contrários de uma linha divisória, um plano, um centro ou um eixo.
 Semelhança entre duas partes de algo.
Do ponto de vista da estatística, a simetria ocorre quando a média, a

moda e a mediana de um conjunto (ou variável) são iguais. Ou seja, simetria
em estatística significa que 𝑋¯ = 𝑋˜ = mo. Graficamente, teríamos algo desta

forma:
Quando uma distribuição não apresenta simetria, dizemos que ela é

“assimétrica” e seu gráfico poderá ser de uma das duas formas apresentadas
na figura abaixo:
Neste link, vocês poderão aprender um pouco mais sobre simetria com texto,
vídeos e exercícios.
https://pt.khanacademy.org/math/basic-geo/basic-geo-transformations-congruence/line-
of-symmetry/a/symmetry-review
3.2 MEDIDA DE ASSIMETRIA
Talvez a forma mais comum de identificar e medir a assimetria de uma

distribuição é pelo Coeficiente de Pearson. A fórmula deste coeficiente é a
seguinte:
K¯ – mo
A=
s
Se A = 0, então sabemos que a distribuição é simétrica.
Se A < 0, então dizemos que a distribuição é assimétrica negativa.
Se A > 0, então a distribuição é assimétrica positiva.
Exemplo: Qual é a medida de assimetria do conjunto abaixo?
10 ; 12 ; 15 ; 18 ; 20 ; 12 ; 21 ; 12
Primeiramente, a média deste conjunto é:

∑x 120
𝑋¯ = = = 15
n 8
A moda é mo = 12 e o desvio-padrão será:
∑(x–K¯ )2
s=√
≈ 4,17
n–1
Sendo assim, o coeficiente de Pearson será:
K¯ –
mo
A= 15–12
s = 4,17
A ≈ 0,72
19
3.3 Medida de curtose
A curtose de uma distribuição diz respeito à concentração de valores

em torno de sua moda. Graficamente, ela representa o grau de
“achatamento” da curva que representa a distribuição. Este conceito pode
ser melhor entendido através da figura abaixo.
Representada por “K”, a medida de curtose mais comum é:
1
k= [ (x– K¯ )4
n ∑ (S)4 ] –3
Quando K = 0, dizemos que se trata de uma distribuição mesocúrtica.
Quando K > 0 trata-se de uma distribuição leptocúrtica.
Quando K < 0 trata-se de uma distribuição platocúrtica.
O valor 3 na fórmula de K representa o valor da curtose de uma

distribuição de referência chamada “distribuição normal padrão” e que
caracteriza a distribuição mesocúrtica.
20
Exemplo: Considerando o conjunto de dados do exemplo anterior, temos:
1 (10–15)4+(12–15)4+(15–5)4+(18–15)4+(20–15)4+(12–15)4+(21–1 )4+(12– )4
k =8 [ 4,174 ]– 3
1 2870
k= ( )–3
8 302,37
2870
k = 2418,96 3
k ≈ – 1,81
Portanto, temos uma distribuição platocúrtica.
Nestes links vocês encontrarão mais informações e explicação mais detalhada

sobre assimetria e curtose.
https://integrada.minhabiblioteca.com.br/#/books/9788580553949/cfi/167!/4/4@0.
00:0.00
C7YcXq6w9hQ0VOHovqmN4BLEXyWsNE8YRwcYfoJONADScX8In1UsPqreHiD
/pKrwcJVWzoEVZO+g==
Sabemos que a altura de pessoas adultas segue uma distribuição normal

(assimetria igual a zero). Assim, a probabilidade de encontrarmos uma
pessoa com altura 5 cm acima da média é igual à probabilidade de
encontrarmos uma pessoa com altura 5 cm abaixo da média. Se,
hipoteticamente, a distribuição de probabilidades das alturas fosse
assimétrica à esquerda (assimetria menor que zero) seria mais provável
encontrar pessoas mais altas ou mais baixas?
PRINCÍPIOS DA UNIDADE
PROBABILIDADE
4.1 INTRODUÇÃO
A todo o momento estamos lidando com situações que envolvem

imprevisibilidade. Ao sairmos de casa, por exemplo, não temos certeza de
choverá ou não ou mesmo se chegaremos a tempo para um determinado
compromisso. Nestes casos, podemos ter, no máximo, uma estimativa da
chance destes eventos acontecerem. Este tipo de fenômeno, em que está
21
envolvido o acaso, tem sido objeto de interesse da humanidade há vários
séculos. Entretanto, somente a partir do século XVI filósofos e matemáticos
começaram a dar os primeiros tratamentos matemáticos ao problema. A
partir dos chamados “jogos de azar”, praticados desde a Idade Antiga,
começou-se a pensar numa maneira de quantificar (ou calcular) a chance de
certos eventos ocorrerem. Por exemplo, no lançamento de dois dados, qual a
chance de que a soma dos resultados seja igual a 7? Assim nasceu o que
podemos chamar de teoria das probabilidades e podemos pensar a
probabilidade, ainda que de maneira informal, como uma medida da chance
de certo evento acontecer. Ao longo da história, algumas definições mais
formais foram dadas até chegarmos à definição utilizada hoje, conforme
veremos mais adiante. Antes disso, entretanto, precisaremos entender
alguns conceitos importantes.
4.1.1 Conceitos fundamentais
Primeiramente, é importante definir o tipo de fenômeno que é objeto

de estudo da probabilidade, entendendo por fenômeno qualquer
acontecimento natural.
Fenômenos determinísticos: são aqueles que, quando repetidos sob

as mesmas condições iniciais, conduzem sempre a um mesmo resultado. Ou
seja, as condições iniciais determinam o único resultado possível do
fenômeno. Por exemplo, se um carro percorre 200 km a uma velocidade
média de 100 km/h, ele levará 2 horas para terminar o percurso. Este
resultado pode,
22
inclusive, ser conhecido mesmo antes de iniciar o percurso. É importante
destacar que este não é o tipo de fenômeno estudado pela probabilidade.
Fenômenos aleatórios: são aqueles que, mesmo sendo repetidos

sob as mesmas condições iniciais, podem conduzir a resultados diferentes.
As condições iniciais não determinam o resultado do fenômeno. Ou seja, não
é possível prever o resultado antes que o fenômeno ocorra. Nestes casos, o
resultado depende de fatores imprevisíveis, ou dito de outra forma, depende
o acaso. Por exemplo, quando arremessamos uma moeda, não podemos
prever se ocorrerá “cara” ou “coroa”. Este é o tipo de fenômeno estudado
pela probabilidade.
O objeto de estudo da teoria das probabilidades são os fenômenos

aleatórios. Aqueles cujo resultado depende do acaso e, por isso, é
imprevisível.
Dando seguimentos às definições importantes, é necessário entender

a diferença entre espaço amostral e evento.
Num fenômeno aleatório, embora não possamos conhecer o resultado

de antemão, na maioria das vezes é possível saber quais são os resultados
possíveis. Por exemplo, ao lançar um dado, não sabemos qual será o
resultado, mas sabemos que as possibilidades são 1; 2; 3; 4; 5 e 6. Dessa
forma, podemos definir o seguinte:
Espaço amostral: simbolizado por Ω, é o conjunto de todos os

resultados possíveis de um experimento. No exemplo do lançamento de um
dado, o espaço amostral será Ω = {1; 2; 3; 4; 5; 6}.
Evento: Podemos definir um evento como um resultado em particular

do experimento. Ou seja, um evento é um subconjunto do espaço amostral.
No exemplo do dado poderíamos ter os seguintes eventos:
A = sair número 6;
B = sair um número par;
C = sair um número maior que 4; etc.
23
Como os eventos são subconjuntos do espaço amostral, podemos
então usar a notação e as operações de conjuntos para os eventos. Sendo
assim, se A e B são dois conjuntos quaisquer, temos as seguintes
operações:
A∪B = {x ∈ Ω | x ∈ A ou x ∈ B}
A∩B = {x ∈ Ω | x ∈ A e x ∈ B}
CA= {x ∈ Ω | x ∉ A}
A – B = { x ∈ Ω | x∈ A e x ∉ B}
Exemplo: Continuando com o lançamento de um dado, temos que o

espaço amostral, conforme vimos acima, é Ω = {1; 2; 3; 4; 5; 6}. Definindo os
eventos
A = {1; 2; 3}, B = {2; 3; 6} e C = {2; 3; 4}, temos o seguinte:
A∪B = {1; 2; 3; 6}
A∩C = {2; 3}
CA = {4; 5; 6}
CB = {1; 4; 5}
A – B = {1}
O que desejamos aqui é calcular a probabilidade de ocorrência de
cada evento do experimento e, para isso, podemos utilizar algumas das
definições de probabilidade.
4.2 DEFINIÇÕES DE PROBABILIDADE
4.2.1 Probabilidade Clássica
Podemos utilizar a probabilidade clássica quando temos eventos que

ocorrem com a mesma “regularidade”, ou seja, quando temos eventos
equiprováveis (que têm a mesma chance de ocorrer). Dessa forma, a
probabilidade de um evento A qualquer seria calculada da seguinte forma:
Número de casos favoráveis

P(A) = Número de casos possíveis .
Exemplo: Se, no lançamento de um dado, definirmos o evento A como

sendo “sair um número par”, teríamos A = {2; 4; 6}. Portanto, são três casos
24
favoráveis. Como o espaço amostral é Ω = {1; 2; 3; 4; 5; 6}, temos seis casos
possíveis. Assim a probabilidade de ocorrência deste evento seria calculada
da seguinte forma:
3 1
P(A) = =
6 2
P(A) = 0,5 ou 50%
Como esperávamos, uma vez que metade dos números é par, a

probabilidade de sair um deles é de 50%, uma vez que cada resultado tem a
mesma chance de ocorrer.
4.2.2 Probabilidade frequentista:
Pode ser usada quando não sabemos se todos os eventos têm a

mesma chance de ocorrer. Neste caso, a probabilidade de ocorrência se
basearia na sua frequência relativa. Ou seja, para calcularmos a
probabilidade de ocorrência de um evento deveríamos realizar o experimento
um grande número de vezes e dividir o número de vezes que o evento ocorre
pelo número de vezes que o experimento foi realizado.
Exemplo: Dizemos que uma moeda é viciada quando a probabilidade

de sair cara é diferente (maior ou menor) que a probabilidade de sair coroa.
Normalmente, são moedas fabricadas especialmente para que isso ocorra.
Suponha então que tenhamos um destas moedas e queiramos saber qual é
probabilidade de sair cara.
Neste caso, poderíamos, por exemplo, lançar a moeda 1.000 vezes e

observar quantas caras ocorreriam. Se ocorresse, digamos, 350 vezes a
probabilidade de sair cara, seria:
350
P(cara) =
1000 = 0,35
Ou seja, a probabilidade de sair cara nesta moeda é de

aproximadamente 35%. Percebam que, quanto maior o número de vezes que
arremessarmos a moeda, mais precisa será nossa estimativa desta
probabilidade. O problema com esta definição é que não temos como saber
exatamente quantas vezes o experimento deve ser realizado para que
25
tenhamos uma estimativa precisa. Dizer que deve ser um “grande número de
vezes” não ajuda muito, não é mesmo?
4.2.3 Definição axiomática de probabilidade
Em matemática, axioma é uma proposição que não necessita ser

demonstrada. Em geral, são afirmações óbvias, aceitas sem discussão.
Costumam ser a base sobre a qual um argumento é construído. No início do
século XX, o matemático russo Andrei Kolmogorov definiu a probabilidade
através de três axiomas que se tornaram a base da moderna teoria das
probabilidades. Esta definição é chamada de “definição axiomática” ou
“definição matemática” de probabilidade. Esses três axiomas são os
seguintes:
1) 0 ≤ P(A) ≤ 1;
2) P(Ω) = 1;
3) Se A e B são eventos tais que A∩B = {∅}, então P(A∪B) = P(A) + P(B).
O primeiro axioma afirma que a probabilidade de um evento qualquer

se encontra sempre entre 0 e 1. Neste caso, 0 é a probabilidade de um
evento impossível e 1 é a probabilidade de um evento certo.
O segundo axioma afirma que a probabilidade de todo o espaço

amostral é sempre igual a 1.
Por fim, o terceiro axioma afirma que, se A e B forem dois eventos tais
que não possam ocorrer simultaneamente (A∩B = {∅}), então a probabilidade
da união dos dois eventos é igual à soma das probabilidades de cada evento
isoladamente.
4.3 REGRA DA ADIÇÃO
4.3.1 Eventos excludentes
Dizemos que dois eventos quaisquer são excludentes (ou

mutualmente excludentes) quando eles não podem ocorrer simultaneamente.
Por exemplo, se arremessarmos um dado e definirmos o evento A como
sendo a ocorrência de um número par e o evento B como sendo a
ocorrência de um evento B,
26
podemos dizer que A e B são dois eventos excludentes. Seria diferente, por
exemplo, se definíssemos o evento B como a ocorrência de um número
maior que 4. Neste caso, se saísse o número 6 os dois eventos ocorreriam.
Usamos este conceito para definir uma regra: a probabilidade de ocorrência
de um evento A ou de um evento B será:
P(A ou B) = P(A) + P(B) – P(A e B)
Onde P(A e B) é a probabilidade de ambos os eventos ocorrerem

simultaneamente. Podemos perceber que, no caso em que A e B são
excludentes, essa probabilidade é igual a zero.
Exemplo: Considerando o lançamento de um dado, podemos definir

os seguintes eventos:
A = sair um número par;
B = sair um número maior que 4.
Usando a notação de conjuntos, teremos o seguinte:
A = {2; 4; 6} (três elementos)
B = {5; 6} (dois elementos)
A e B = {6} (único elemento que é para e ao mesmo tempo maior que

4).
Se quisermos saber qual a probabilidade de sair um número par ou

um número maior que 4, teríamos o seguinte:
3 2 1
P(A ou B) = + −
6 6 6
4
P(A ou B) =
6
P(A ou B) ≈ 0,67 ou 67%
27
4.4 REGRA DO PRODUTO
4.4.1 Eventos independentes
Dizemos que dois eventos quaisquer são independentes quando a

ocorrência de um deles não altera a probabilidade de ocorrência do outro.
Existem situações em que a probabilidade de ocorrência de um evento é
alterada devido à ocorrência de outro evento. Por exemplo, no lançamento de
um dado, suponha o evento A = {2; 4; 6} (sair um número par) e o evento B =
{5; 6} (sair um número maior que 4). Sabemos que a probabilidade do evento
B é:
2 1
P(B) = = .
6 3
Entretanto, qual seria esta probabilidade se soubéssemos, com
certeza, que o evento A ocorreu, ou seja, que saiu um número para no
lançamento do dado? Neste caso, não teríamos seis casos possíveis, mas
apenas três. Assim a probabilidade do evento B seria:
2
P(B) = .
3
Neste caso, os eventos A e B não seriam independentes, uma vez que
a ocorrência do evento A altera a probabilidade de ocorrência do evento B.
Tendo em mente essa relação, podemos definir outra regra: a probabilidade
de ocorrência de um evento A e de um evento B será:
P(A e B) = P(A) × P(B|A)

Neste caso, P(B|A) é a probabilidade de ocorrência do evento B,
sabendo que (ou dado que) o evento A ocorreu antes. Isso é o que
chamamos de probabilidade condicional.
Exemplo: Suponha que tenhamos uma caixa com 4 bolas pretas, 5
bolas brancas e 3 bolas azuis. Suponha ainda que vamos retirar bolas ao
acaso, sem saber qual delas iremos pegar e, uma vez retirada, a bola não
retorna para a caixa. Sendo assim, a probabilidade de retirarmos uma bola
branca, por exemplo, será:
5
P(branca) = .
12
28
Isso porque temos 5 bolas brancas e um total de 12 bolas na caixa.
Essa probabilidade mudaria se alguma bola fosse retirada antes (lembremos
que uma bola retirada não retorna para a caixa). Imagine, agora, que uma
bola preta tenha sido retirada. Neste caso, qual a probabilidade de retirarmos
uma bola branca?
5
P(branca | preta) = .
11
Isso porque continuamos tendo 5 bolas brancas, mas somente 11 no

total, devido à retirada da bola preta.
Exemplo: Tendo o exemplo anterior como base (tendo as 12 bolas na

caixa), qual seria a probabilidade de retirarmos uma bola azul e, em seguida,
uma bola branca? Para resolvermos, vamos definir os seguintes eventos:
A = retirar uma bola azul;
B = retirar uma bola branca.
Dessa forma, estamos buscando P(A e B), tendo em mente que a
ocorrência de um destes eventos, irá alterar a probabilidade de ocorrência do
outro (os dois eventos não são independentes). Assim, teremos:
P(A e B) = P(A) × P(B|A)

3 5
P(A e B) = ×
12 11
15
P(A e B) =
132
P(A e B) = 0,1136 ou 11,35%
4.5 PROBABILIDADE TOTAL
O chamado “Teorema da probabilidade total” é desenvolvido a partir

da divisão do espaço amostral de um experimento em vários eventos
mutuamente excludentes. Na linguagem dos conjuntos, seria a divisão de um
conjunto em vários subconjuntos sem nenhuma interseção entre eles.
Suponha que dividíssemos o espaço amostral Ω em três eventos: R1, R2 e
R3, conforme figura abaixo.
29
R3 Ω
R2
B
R1
R1 ∩ R2 = ∅
R1 ∩ R3 = ∅
R2 ∩ R3 = ∅
R1 ∪ R2 ∪ R3 = Ω
Considerando um evento B qualquer (conforme figura), ele pode ser
escrito como:
B=B∩Ω
Como temos também que Ω = R1 ∪ R2 ∪ R3, podemos
escrever: B = B ∩ (R1 ∪ R2 ∪ R3).
Assim, a probabilidade de B será:
P(B) = P [B ∩ (R1 ∪ R2 ∪ R3)].
Com um pouco de álgebra de conjuntos e levando em consideração

que os eventos R1, R2 e R3 são mutuamente excludentes, chegamos à
fórmula:
P(B) = [P(B | R1)∙ P(R1)] + [P(B | R2)∙P(R2)] + [P(B | R3)∙ P(R3)]
Lembrando que este resultado pode ser generalizado para qualquer

quantidade de conjuntos.
Exemplo: Suponha que um time de futebol tenha 50% de chance de

vencer uma partida se seu melhor jogador estiver em campo e 25% de
chance se ele não estiver. O departamento médico do clube estima que há
uma chance de 30% de que o jogador esteja em campo. Sendo assim, qual a
probabilidade deste time ganhar o jogo? Para resolver, vamos,
primeiramente, definir alguns eventos.
30
A = ganhar o jogo
B = jogador estar em campo
C = jogador não estar em campo
Neste caso, teremos:
P(A) = P(A|B) ∙ P(B) + P(A|C) ∙P(C)
P(A) = (0,50)∙(0,30) + (0,25)∙(0,70)
P(A) = 0,15 + 0,175
P(A) = 0,325 ou 32,5%
Observe que, se a probabilidade do melhor jogador estiver em campo

é 30%, então a probabilidade de ele não estar é de 70% (100% - 30%).
4.6 TEOREMA DE BAYES
O chamado “Teorema de Bayes” ou “Regra de Bayes” (em

homenagem ao matemático inglês Thomas Bayes que viveu no século XVIII)
se refere ao cálculo da probabilidade de um evento quando temos algum
conhecimento a priori que pode estar relacionado ao evento. Ou seja, ele
fornece a possibilidade de aprimorarmos a probabilidade de um evento
levando em consideração o conhecimento que temos sobre o fenômeno.
No link abaixo, você encontrará uma descrição o teorema de Bayes, com

exemplos e aplicações.
https://plataforma.bvirtual.com.br/Leitor/Publicacao/402/pdf/0?code=2ukKXGhd5+C7Y
cXq6w9hQ0VOHovqmN4BLEXyWsNE8YRwcYfoJONADScX8In1UsPqreHiD/pKrwcJVWzoEV
ZO+g==
O teorema é expresso através da seguinte fórmula:
𝑃(𝐵|𝐴) ∙ 𝑃(𝐴)
𝑃(𝐴|𝐵) =
𝑃(𝐵)
31
Exemplo: Suponha que uma fábrica de peças disponha de duas
máquinas: A e B. Sabe-se que a máquina A é responsável pela produção de
60% das peças e a máquina B é responsável pela produção de 40% delas.
Além disso, sabe-se também que 3% das peças produzidas pela máquina A
e 7% das peças produzidas pela máquina B são defeituosas. Dessa forma,
ao encontrar uma peça defeituosa, qual a probabilidade de que ela tenha
sido produzida pela máquina B? Para resolver, vamos definir os seguintes
eventos:
A = peça produzida pela máquina A;
B = peça produzida pela máquina B;
d = peça defeituosa.
Queremos, então, saber qual a probabilidade de peça ter sido

produzida pela máquina B, sabendo que a peça é defeituosa. Ou seja,
queremos calcular 𝑃(𝐵|𝑑). Sendo assim, temos o seguinte, de acordo com a
fórmula de Bayes:
𝑃(𝐵|𝑑) = 𝑃(𝑑|𝐵) ∙ 𝑃(𝐵)

𝑃(𝑑)
Neste caso, P(d) é a probabilidade total de uma peça ser defeituosa
independente da máquina que a produziu. Assim:
𝑃(𝑑) = 𝑃(𝑑|𝐴) ∙ 𝑃(𝐴) + 𝑃(𝑑|𝐵) ∙ 𝑃(𝐵)
𝑃(𝑑) = (0,03) ∙ (0,60) + (0,07) ∙ (0,40)

𝑃(𝑑) = 0,018 + 0,028
𝑃(𝑑) = 0,046
Substituindo na fórmula de Bayes, temos:
(0,07) ∙ (0,40)
𝑃(𝐵|𝑑) =
0,046
0,028
𝑃(𝐵|𝑑) =
0,046
𝑃(𝐵|𝑑) = 0,6087 𝑜𝑢 60,87%
32
Exemplo: Uma situação muito utilizada como exemplo da aplicação
do teorema de Bayes se refere aos testes usados para detectar doenças. É
sabido que o resultado destes testes pode estar errado em uma proporção
muito pequena dos casos. São os chamados falso positivo e falso negativo.
Um falso positivo ocorre quando uma pessoa está sadia, mas o teste indica
que ela tem a doença. No falso negativo ocorre o oposto: a pessoa tem a
doença, mas o teste dá negativo. Em geral, quando um teste é desenvolvido,
já se estima a probabilidade destes erros ocorrerem, de forma que estas
probabilidades são conhecidas (além de serem muito pequenas, via de
regra). Então, ao se deparar com o resultado positivo de um teste, como
saber se a pessoa está mesmo doente ou se trata de um falso positivo? Na
verdade, não podemos saber com certeza (com base unicamente no teste)
mas podemos calcular a probabilidade de uma pessoa estar realmente
doente, uma vez que o resultado deu positivo. Podemos fazemos isso
através da fórmula de Bayes.
Sabe-se que 1% das mulheres acima de 40 anos são portadores de

câncer de mama, ou seja, 99% das mulheres nessa faixa etária não são
portadoras. Sabe-se também que mamografia apresenta resultados positivos
em 80% das mulheres que realmente têm câncer, mas este teste dá positivo
também para 9,6% das mulheres que não têm câncer, ou seja, há um falso
positivo em 9,6% dos casos. Sendo assim, se uma mulher faz o teste e tem
um resultado positivo, qual a probabilidade de que ela realmente tenha
câncer de mama? Para calcular esta probabilidade, vamos definir os
seguintes eventos:
A = a mulher ter câncer de mama;
B = o teste dar positivo;
𝐴̅ = a mulher não ter câncer de mama
Assim, temos o seguinte:
𝑃(𝐴) = 0,01
𝑃(𝐵|𝐴) = 0,80 (Probabilidade de dar positivo, dado que tem câncer)
𝑃(𝐵|𝐴̅) = 0,096 (Probabilidade de dar positivo, dado que não tem câncer)
33
Então, pela fórmula de Bayes:
𝑃(𝐵|𝐴) ∙ 𝑃(𝐴)
𝑃(𝐴|𝐵) =
𝑃(𝐵)
(0,80) ∙ (0,01)
𝑃 ( 𝐴| 𝐵 ) =
(0,80)(0,01) + (0,096)(0,99)
0,008
𝑃(𝐴|𝐵) =
0,008 + 0,09504
0,008
𝑃(𝐴|𝐵) =
0,10304
𝑃(𝐴|𝐵) = 0,078 𝑜𝑢 7,8%
4.7 DISTRIBUIÇÕES DE PROBABILIDADE
Uma distribuição de probabilidade pode ser entendida como uma

função que associa uma probabilidade a cada resultado de uma variável
aleatória.
Uma variável aleatória é uma variável cujos valores são influenciados pelo acaso,
ou seja, os valores assumidos por uma variável aleatória são imprevisíveis.
Por exemplo, se arremessarmos dois dados, a soma dos resultados

obtidos é uma variável aleatória. Por mais que saibamos os possíveis
resultados, não temos como saber qual deles vai ocorrer. Podemos,
entretanto, associar uma probabilidade para cada resultado possível e assim
teremos a distribuição de probabilidade dessa variável aleatória. Se fizermos
isso, teremos a seguinte situação:
34
Soma dos Probabilida
resultados de
2 2,8%
3 5,6%
4 8,3%
5 11,1%
6 13,9%
7 16,7%
8 13,9%
9 11,1%
10 8,3%
11 5,6%
12 2,8%
Total 100%
O gráfico desta variável aleatória ficaria assim:
18,0%
16,0%
PROBABILIDADE
14,0%
12,0%
10,0%
8,0%
6,0%
4,0%
2,0%
0,0%
2 3 4 5 6 7 8 9 10 11 12
SOMA DOS RESULTADOS
A maioria das distribuições de probabilidade podem ser expressas

algebricamente e se constituem em modelos usados para estudar o
comportamento da variável em questão. Segundo Novaes e Coutinho:
35
Por serem funções, as distribuições de probabilidade admitem
diversas representações e algumas (...) podem ser expressas por
uma expressão algébrica ou por uma tabela que resume os
principais valores assumidos pela função. A maior parte dos
usuários da estatística nas mais diversas áreas de atuação
precisa aprender a usar essas representações de forma a otimizar
e potencializar o uso desta ferramenta tão importante. Não basta
saber aplicar uma fórmula ou usar uma tabela, mas interpretar o
problema proposto adequadamente, escolhendo assim os
recursos adequados para sua resolução e interpretando seus
resultados dentro do contexto no qual o problema foi proposto
(NOVAIS & COUTINHO, 2013, p. 142).
Vários fenômenos aleatórios podem ser modelados através de uma

distribuição de probabilidade teórica. Para isso, entretanto, é preciso
conhecer o fenômeno em questão e, pelo menos, as principais distribuições
teóricas. Algumas dessas distribuições serão apresentadas a seguir.
4.7.1 DISTRIBUIÇÃO BINOMIAL
A distribuição binomial é usada para modelar aqueles experimentos

que são repetidos um certo número de vezes e que possuem somente dois
resultados possíveis (sucesso e fracasso). É importante notar que existem
alguns critérios que o experimento precisa ter:
Os valores assumidos pela variável devem sempre ser inteiros;
Os eventos devem ser independentes;
Durante o experimento, a probabilidade de sucesso (p) e a probabilidade de

fracasso (1 – p) devem permanecer constantes.
Assim, as probabilidades associadas a cada resultado da variável

aleatória em questão podem ser calculadas da seguinte forma:
𝑛!
𝑃(𝑥) = x n–x
𝑥! (𝑛 − 𝑥)! ∙ 𝑝 ∙ (1 − 𝑝)
Onde:
n = número de vezes que o experimento é realizado;
x = número de sucessos pretendidos;
36
p = probabilidade de sucesso (deve permanecer constante em cada
repetição).
Exemplo: Suponha que uma moeda não viciada seja arremessada 5 vezes.
Assim, qual seria a probabilidade de sair “cara” 3 vezes?
Percebam que neste caso o experimento está sendo repetido (cinco

vezes) e cada vez em que isso ocorre, há somente dois resultados possíveis
(cara e coroa). Além disso, a probabilidade de sucesso (neste caso, sair
cara) é sempre a mesma e o fato de sair cara num lançamento não interfere
na probabilidade de sair cara em outro, ou seja, os eventos são
independentes. Assim, podemos utilizar a distribuição binomial para modelar
este experimento. Então, temos o seguinte:
n=5
x=3
p = 0,5 (perceba que a moeda não é viciada, então a probabilidade de sair
cara é 50%)
Logo:
5!
𝑃(𝑥) =
3! (5 − ∙ (0,5)3 ∙ (1 − 0,5)5–3
3)!
120
𝑃 (𝑥) = ∙ (0,125) ∙ (0,25)
6×
2
𝑃(𝑥) = 10 × 0,03125
𝑃(𝑥) = 0,3125 𝑜𝑢 31,25%
Exemplo: Suponha que um casal deseje ter 4 filhos. Se a probabilidade de

nascer um menino fosse igual a 45%, qual seria a probabilidade de que 3 dos
filhos fossem meninos?
n=4
x=3
p=
0,45
4!
𝑃(𝑥) = ∙ (0,45)3 ∙ (1 − 0,45)4–3
3! (4 −
3)!
37
𝑃 (𝑥) = 24
∙ (0,091125) ∙ (0,55)
6×
1
𝑃(𝑥) = 4 × 0,050
𝑃(𝑥) = 0,2 𝑜𝑢 20
Exemplo: O gerente de uma empresa sabe que a probabilidade de uma

peça ser produzida com defeito é igual a 3%. Na análise de um lote contendo
10 peças, qual a probabilidade de serem encontradas 5 peças defeituosas?
n = 10
x=5
p = 0,03
10!
𝑃(𝑥) =
5! (10 − ∙ (0,03)5 ∙ (1 − 0,03)10–5
5 )!
𝑃(𝑥) = 5,26 × 10–6 𝑜𝑢 𝑎𝑝𝑟𝑜𝑥𝑖𝑚𝑎𝑑𝑎𝑚𝑒𝑛𝑡𝑒 0,0005%
4.7.1.1 Parâmetros da distribuição binomial
A distribuição binomial tem como parâmetros a média (que

chamaremos de μ) e a variância (que chamaremos de 𝜎2). Desta forma, ao
dizer que uma determinada variável aleatória segue uma distribuição
binomial, devem dizer qual é a sua média e qual é a sua variância. Se uma
determinada variável aleatória “X” segue uma distribuição binomial com
média igual a 3, por exemplo, e variância igual a 5, podemos escrever da
seguinte forma:
𝑋~ 𝐵𝑖(3; 5)
De forma geral, se a média é μ e a variância é 𝜎2, escrevemos:

𝑋~ 𝐵𝑖(μ ; 𝜎2).
A média e a variância da distribuição binomial são calculadas da seguinte
forma:
𝜇 =𝑛∙𝑝
𝜎2 = 𝑛 ∙ 𝑝 ∙ (1 − 𝑝)
Exemplo: Suponha que a probabilidade de uma pessoa se atrasar para um
voo seja 2%. Se em um determinado voo estão previstos 250 passageiros,
quantos se atrasarão em média? Qual é a variância?
n = 250
p = 0,02
𝜇 = 250 ∙ 0,02
𝜇 = 5.
𝜎2 = 250 ∙ 0,02 ∙ 0,98
𝜎2 = 4,9
4.7.2 Distribuição
normal
A distribuição normal é uma das mais importantes distribuições de

probabilidade. Além de sua grande importância teórica, ela pode ser usada
para modelar uma grande quantidade de fenômenos. Por ter sido estudada
por Laplace no tratamento analítico de probabilidades e por Gauss nos erros
acidentais, ela também pode ser chamada de Curva de Laplace-Gauss, ou
simplesmente, Curva de Gauss. Os fenômenos que podem ser modelados
por esta distribuição são chamados de “fenômenos gaussianos”. Seu gráfico
tem a forma de um sino, como na figura abaixo. É importante notar que a
curva se distribui em torno da média da distribuição (μ).
39
Cabe ressaltar que a distribuição normal tem certas características que
precisamos conhecer:
 Conforme mencionado acima, seu gráfico tem a forma de um sino;
 A curva é simétrica em torno da média (os dois lados são idênticos);
 A área total abaixo da curva é igual a 1;
 Como consequência, a área de cada lado da média é igual a 0,5;
 As áreas abaixo da curva nos fornecem a probabilidade de a variável

assumir determinados conjuntos de valores.
A distribuição normal se caracteriza por dois parâmetros: a média ( μ) e
o desvio-padrão (σ). Dessa forma, se “X” é uma variável aleatória que segue
uma distribuição normal, então podemos escrever da seguinte forma:
𝑋 ~𝑁(𝜇; 𝜎2). Para cada valor da média e da variância, existe uma curva
(gráfico) diferente. Assim, a forma da curva depende da variância e, quanto
menor ela for, mais alta e estreita será a curva.
Lembre-se que o desvio-padrão é a raiz quadrada da variância ou, dito de

outra forma, a variância é o desvio-padrão elevado ao quadrado.
A função que representa a distribuição normal é a seguinte:
–(x–μ)2
𝑒 2σ2
𝑓(𝑥) =
𝜎√2𝜋
Onde:
𝜋 = 3,1416 …
𝑒 = 2,7183 …
𝜎 = 𝑑𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 𝑑𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜
𝜇 = 𝑚é𝑑𝑖𝑎 𝑑𝑎 𝑑𝑖𝑠𝑡𝑟𝑖𝑏𝑢𝑖çã𝑜
40
Apesar de ser uma função aparentemente complexa, na maioria dos
casos práticos (inclusive naqueles que estudaremos aqui) não é necessário
manuseá-la, desde que entendamos suas características mais importantes.
Os gráficos abaixo ilustram outras características importantes acerca

da distribuição normal e sua curva:
100%
50% 50%
41
34,13% 34,13
μ-σ μ+σ
μ
μ - 2σ μ μ + 2σ
47,72 47,72
42
μ - 3σ μ μ + 3σ
49,87% 49,87%
Através destes gráficos, podemos perceber que, se uma variável
aleatória “X” segue uma distribuição normal com média igual a μ e desvio-
padrão igual a σ, então 68,26% dos seus valores encontram-se a 1 σ (um

desvio-padrão) de distância da média (para mais ou para menos). Da mesma
forma, 95,44% dos valores encontram-se a 2σ (dois desvios-padrão) de
distância da média (também para mais ou para menos) e 99,73% dos valores
encontram-se a 3σ (três desvios-padrão) de distância da média. Observe
que, como a distribuição é simétrica em relação à média, as probabilidades
acima e abaixo da média são iguais, de forma que valores negativos de
desvios servem apenas para dizer que se trata de valores abaixo da média.
Exemplo: Suponha que a altura das pessoas adultas de um determinado

município siga uma distribuição normal com média igual a 1,70m e desvio-
padrão igual a 0,20m. Se uma pessoa for selecionada ao acaso neste
município, qual a probabilidade de que ela tenha entre 1,70m e 1,90m? Para
resolver, perceba que o valor 1,90 está exatamente a um desvio-padrão da
média que é 1,70 (1,90 = μ + 1σ). Como vimos acima, 34,13% dos valores
encontram-se neste intervalo. Sendo assim a probabilidade de encontrarmos
alguém neste intervalo é exatamente 34,13%.
43
34,13%
1,70 1,90
Considerando ainda o exemplo anterior, qual seria a probabilidade de

selecionar uma pessoa com mais de 1,90m? Para resolver precisamos
lembrar a área à direita da média é igual a 0,5. Uma vez que a área entre a
média e 1,90 é igual a 0,3413, então a área acima de 1,90 seria 0,5 menos
0,3413, o que daria 0,1587. Dessa forma, a probabilidade de encontrarmos,
ao acaso, uma pessoa com mais de 1,90m será 15,87%.
0,341 0,1587
1,70 1,90
Para encerrar o exemplo, qual seria a probabilidade de encontrarmos,

ao acaso, uma pessoa cuja altura estivesse entre 1,30m e 1,90m? Neste
caso, é importante perceber que 1,30 está a dois desvios da média (para
menos),
44
ou seja: 1,70 − 2𝜎 = 1,30. Como vimos acima, 47,72% dos valores de uma
variável que segue a distribuição normal estão a dois desvios de distância da
média. Portanto, a probabilidade de encontrar uma pessoa com altura entre
1,30m e 1,70m (que é a média) é igual a 47,72%. Entretanto, precisamos
ainda da probabilidade de encontrarmos uma pessoa com altura entre 1,70m
(média) e 1,90m. Essa probabilidade foi calculada acima e é igual a 34,13%.
Dessa forma, temos o seguinte:
𝑃(1,30 ≤ 𝑥 ≤ 1,90) = 𝑃(1,30 ≤ 𝑥 ≤ 1,70) + 𝑃(1,70 ≤ 𝑥 ≤ 1,90)
𝑃(1,30 ≤ 𝑥 ≤ 1,90) = 0,4772 + 0,3413
𝑃(1,30 ≤ 𝑥 ≤ 1,90) = 0,8185 𝑜𝑢 81,85%
0,4772 0,341
1,30 1,70 1,90
4.7.2.1 Distribuição normal padrão
Conforme vimos anteriormente, a curva de uma distribuição normal

varia conforme o desvio-padrão. Quando o desvio-padrão é muito alto, temos
uma distribuição baixa e achatada. Por outro lado, quando o desvio-padrão é
pequeno, temos uma curva mais alta e alongada. Isso dificulta o cálculo das
probabilidades. Para contornar este problema, no entanto, podemos
transformar uma distribuição normal qualquer (com qualquer média e desvio-
padrão) em distribuição norma padrão. A isso chamamos padronização da
distribuição.
45
A distribuição normal padrão (geralmente simbolizada por Z) é uma distribuição
normal cuja média é igual a zero e cujo desvio-padrão é igual a um. Assim
Z~N(0;1).
Para convertermos uma distribuição normal qualquer em uma

distribuição normal padrão, usamos a seguinte fórmula:
𝑥−𝜇
𝑧=
𝜎
Lembrando que “μ” é a média da distribuição que queremos

padronizar e “σ” é o seu desvio-padrão. A vantagem em fazermos isso é
poder utilizar uma tabela com valores de probabilidades já calculados, ao
invés de calcularmos diretamente através da função. Esta tabela nos informa
a probabilidade de encontrarmos valores que se encontram entre zero e
algum valor z que teremos calculado através da fórmula acima.
Exemplo: Suponha que o tempo necessário para concluir uma prova siga
uma distribuição normal com média igual a 60min e desvio padrão igual a
15min. Se um aluno for selecionado ao acaso, qual a probabilidade de que
demore mais de 40min para concluir a prova? O gráfico abaixo ilustra esta
situação. Percebam que procuramos pela área que se encontra à direita de
40. Isso inclui a área que vai de 40 a 60 e toda a área que está acima de 60.
Sabemos que esta área que está acima de 60 é igual a 0,5 (uma vez que 60
é a média). Mas qual o tamanho da área que vai de 40 a 60? Ou seja, qual a
probabilidade de uma pessoa concluir a prova com tempo entre 40min e
60min? Para descobrirmos, vamos primeiramente padronizar a distribuição.
𝑥−𝜇
𝑧=
𝜎
40 − 60
𝑧=
15
𝑧 = −1,33
Lembre-se que o sinal negativo indica apenas que o valor se encontra abaixo
da média.
46
45 60 X
Ao padronizar a distribuição, percebemos que a probabilidade da

variável “X” (tempo para finalizar a prova) seja maior que 45 iguais à
probabilidade da variável “Z” (variável padronizada) seja maior que -1,33.
Graficamente, teríamos: (Lembre que a média da variável Z é sempre zero)
-1,33 0 Z
Consultando a tabela, vemos que a probabilidade da variável Z

assumir algum valor entre -1,33 e 0 é igual a 0,40824, ou seja:
𝑃(−1,33 ≤ 𝑧 ≤ 0) = 0,40824
Obs.: Para consultar a tabela, temos que a parte inteira e a 1ª decimal é 1,3
e a segunda decimal é 3. Assim, nosso valor está no cruzamento da 14ª linha com a
4ª coluna. Observe que não é necessário incluir o sinal negativo.
47
Mas, como mencionado acima, precisamos acrescentar a
probabilidade de Z assumir um valor maior que zero (que é igual à
probabilidade de X assumir um valor maior que 60). Como vimos, essa
probabilidade é igual a 0,5. Então temos que:
𝑃(𝑧 ≥ 1,33) = 𝑃(−1,33 ≤ 𝑧 ≤ 0) + 𝑃(𝑧 ≥ 0)
𝑃(𝑧 ≥ −1,33) = 0,40824 + 0,5
𝑃(𝑧 ≥ −1,33) = 0,90824 𝑜𝑢 90,82%
Dessa forma, a probabilidade de um aluno escolhido ao acaso

demorar mais de 40min para finalizar a prova é igual a 90,82%.
48
Nos links abaixo vocês encontrarão mais detalhes sobre probabilidade e
distribuição de probabilidades.
https://integrada.minhabiblioteca.com.br/#/books/9788580553949/cfi/183!/4/4@0.
00:0.00
C7YcXq6w9hQ0VOHovqmN4BLEXyWsNE8YRwcYfoJONADScX8In1UsPqreHiD/
pKrwcJVWzoEVZO+g==
As companhias aéreas frequentemente vendem mais passagens que a

capacidade dos aviões contando com o fato de que nem todos os passageiros se
apresentam para o embarque. Se a companhia tem uma estimativa da
probabilidade de um passageiro não comparecer, qual distribuição de
probabilidades poderia ser usada para calcular a probabilidade de haver
overbooking (situação onde a venda de passagens é superior ao número de
assentos no avião)?
INFERÊNCIA UNIDADE
ESTATÍSTICA
5.1 INTRODUÇÃO
Vimos, na primeira unidade que, quando queremos conhecer uma

característica ou conjunto de características de um universo não é necessário
pesquisarmos todos os seus elementos. Muitas vezes, isso nem é possível.
Dessa forma, selecionamos uma amostra e estudamos tais características
nesta parte selecionada do universo. A estatística descritiva, que vimos na
unidade 2, contém uma série de técnicas e métodos utilizados para trabalhar,
resumir e apresentar os dados trabalhados dentro da amostra (os dados
“coletados”) sem, no entanto, fazer nenhuma referência ao universo do qual a
amostra foi retirada. Quando desejamos fazer alguma afirmação a respeito
de uma característica do universo com base nos dados de uma amostra dele
49
retirada, entramos no campo da inferência estatística.
Inferência estatística é um ramo da estatística cujo objetivo é fazer
afirmações a partir de um conjunto de valores representativo
(amostra) sobre um universo. Assume-se que a população é muito
maior do que o conjunto de dados observados, a amostra. Tal tipo
de afirmação deve sempre vir acompanhada de uma medida de
precisão sobre sua veracidade. In Wikipédia.
Como exemplo, podemos imaginar a necessidade de conhecer a

média de altura dos brasileiros adultos. Imagine que, para isso, foi
selecionada uma amostra (seguindo todos os critérios já estudados), uma
vez que não seria necessário (ou, talvez, nem possível do ponto de vista
prático) pesquisar todos os habitantes adultos. Imagine ainda que, após
medir a altura das pessoas selecionadas para amostra e calcular a média de
altura dessas pessoas, tenhamos encontrado o valor 1,70m. Esta seria a
média amostral. A pergunta que fica é: com base neste valor (calculado a
partir de uma amostra), podemos afirmar que a média de altura
considerando todos os brasileiros adultos é
50
1,70m? Ou seja, se tivéssemos medido todos os brasileiros adultos, ao invés
de termos utilizado uma amostra, ainda encontraríamos o mesmo valor?
Indiretamente, estamos querendo saber se a média amostral representa bem
a média do universo (também chamada de média populacional). A resposta é
sim e, para que possamos entender, precisaremos de alguns conceitos.
Quando nos referimos a alguma característica de um universo, usamos o termo

parâmetro (ou parâmetro populacional). Ao nos referirmos a uma característica
de uma amostra, usamos o termo estatística, e o usamos para estimar o
parâmetro populacional.
No exemplo que estamos vendo, a média de altura de todos os

brasileiros adultos (que desejamos conhecer) seria nosso parâmetro. Da
mesma forma, a média de altura dos brasileiros que compõem a amostra é
uma estatística. É através dela que faremos uma estimativa da média
populacional.
UNIVERSO
AMOSTRAGEM
INFERÊNCIA
AMOSTRA
É importante ressaltar que o parâmetro populacional é fixo (único), ao

passo que a estatística amostral pode variar à medida que selecionamos
amostras diferentes. Nesse sentido podemos falar de um conjunto de
51
estatísticas calculadas a partir de um conjunto de amostras diferentes do
mesmo universo.
A tabela abaixo resume os principais parâmetros e sua respectiva estatística
Característica Parâmet Estatísti

ro ca
Média μ 𝑋¯
Desvio-padrão σ s
Tamanho N n
5.2 ESTIMAÇÃO
Chamamos de estimação ao processo de estimar um parâmetro

através de uma estatística amostral. Este processo é realizado de duas
formas: estimação por ponto e estimação por intervalo. Para nossos
propósitos, é suficiente que entendamos a estimação por ponto, de forma
que não trataremos, aqui, da estimação por intervalo.
Estimação por ponto: trata-se da utilização de um único número para estimar um

parâmetro populacional.
Estimação por intervalo: trata-se da utilização de um intervalo de valores no qual
se admite que se encontre o parâmetro populacional.
5.2.1 Estimação por ponto

Quando escolhemos uma amostra representativa do universo, uma
estatística como 𝑋¯ por exemplo, é uma variável aleatória. Dessa

forma, podemos utilizar uma distribuição de probabilidade para modelar o
comportamento desta estatística. Assim temos o que chamamos de
“distribuição amostral” que consiste na distribuição de probabilidade obtida
com todas as possíveis amostras de “n” elementos que podemos extrair do
universo. Neste caso, é importante que possamos estimar a média e o
desvio- padrão da distribuição amostral. No caso específico da média,
sabemos que a distribuição amostral é uma distribuição normal (quando o
tamanho da amostra é suficientemente grande) e que a média populacional
(μ) é igual à média de todas as médias obtidas com todas as amostras
possíveis. Este resultado é o que chamamos de “Teorema Central do Limite”.
52
Teorema Central do Limite: a média de uma distribuição amostral de
médias sempre será igual à média populacional.
Podemos escrever este resultado da seguinte forma:

∑k 𝑋¯
i=1
𝜇= 𝑘
Onde “k” é a quantidade total de amostras de “n” elementos que
podemos extrair do universo. O seguinte exemplo ilustra essa situação.
Exemplo: Imagine que uma turma tenha apenas quatro alunos e que suas
notas (elementos do universo ou da população em questão) sejam: 9; 6; 8; 5.
Neste caso, a média populacional será:
9+6+8+5
𝜇=
4
𝜇=7
Se retirarmos amostras de três elementos deste universo, teríamos as

seguintes possibilidades: (9; 6; 8) (9; 8; 5) (6; 8; 5) (5; 9; 6). Ou seja, temos
quatro amostras possíveis e a média de cada uma delas será:
𝑋¯1 9+6+8
= = 7,67
3
𝑋¯2 9+8+5
= = 7,33
3
𝑋¯3 6+8+5
= = 6,33
3
𝑋¯4 5+9+6
= = 6,67
3
Assim, a média das médias seria:

7,67 + 7,33 + 6,33 + 6,67
𝜇=
4
28
𝜇=
4
𝜇=7
53
A partir de agora, discutiremos como podemos estimar o desvio-
padrão de uma distribuição amostral. Para isso, precisamos considerar duas
possiblidades: se conhecemos ou não o desvio-padrão da população. Em
ambas as considerações, assumimos que os dados seguem uma distribuição
normal.
No caso em que o desvio-padrão da população é conhecido ou o
número de elementos da amostra é grande (n > 30), o desvio-padrão da
distribuição amostral poderá ser calculado da seguinte forma:
𝜎
𝜎x =
√𝑛
Onde:
𝜎x = desvio-padrão da distribuição amostral;
σ = desvio-padrão da população;
n = tamanho da amostra.
No caso em que não conhecemos o desvio-padrão da população e o

número de elementos da amostra é grande, o desvio-padrão da distribuição
amostral poderá ser calculado da seguinte forma:
𝑠
𝜎x =
√𝑛
Onde “s” é o desvio-padrão da amostra.
Exemplo: Em uma pesquisa realizada com uma amostra de 120
funcionários de uma determinada empresa, descobriu-se que as despesas
mensais decorrentes de aquisições de materiais de escritório diversos é de
R$150,00 em média por funcionário, com um desvio-padrão de R$50,00.
Dessa forma, qual seria a média de gastos da distribuição amostral
(considerando todas as possíveis amostras com 120 funcionários)? Qual
seria o desvio-padrão da distribuição amostral?
A média da média da distribuição amostral seria:
𝜇 = 𝑋¯ = 150
Como não conhecemos o desvio-padrão da população, usaremos o desvio-

padrão da amostra. Assim:
54
50
𝜎x = ≈ 4,56
√120
O vídeo que pode ser acessado através do link abaixo traz uma explicação bem
didática sobre estimadores e parâmetros populacionais.
https://www.youtube.com/watch?v=jKGhnQ1WCHY
Nos links abaixo vocês encontrarão uma explicação completa e mais detalhada
sobre o processo de estimação de parâmetros.
https://integrada.minhabiblioteca.com.br/#/books/9788580553949/cfi/303!/4/2@10
0:0.00
pKrwcJVWzoEVZO+g==
Se você desejasse saber qual é a média de idade dos brasileiros, de que

forma você procederia? Iria pesquisar todos os 211.463.766 brasileiros,
perguntar sua idade e calcular a média? Caso contrário, qual seria a
melhor alternativa? Haveria certeza absoluta sobre o resultado se você
procedesse da forma alternativa?
INFERÊNCIA ESTATÍSTICA: UNIDADE

TESTE DE HIPÓTESES
6.1. INTRODUÇÃO
Na unidade anterior, vimos que o valor de uma estatística calculada
com base em uma única amostra do universo, não é necessariamente igual
ao parâmetro populacional que estamos tentando conhecer. Imagine que
estamos tentando conhecer a média μ de uma determinada população (ou
universo). Para isso, retiramos uma amostra (de tamanho “n”) e, com os
valores desta amostra, calculamos a estatística 𝑋¯ . Como vimos, se tivéssemos
selecionado uma outra amostra do mesmo tamanho, a estatística teria
provavelmente um valor diferente. Então, como fazer alguma afirmação
sobre μ com base em 𝑋¯ ? Dito de outra forma, ao fazermos uma afirmação

55
sobre um
parâmetro populacional, é natural que queiramos saber se os dados
provenientes de uma amostra contrariam ou não esta afirmação. Neste caso,
o que deveríamos fazer é um “teste de hipóteses”. Vejamos o seguinte
exemplo:
Exemplo: Suponha que um cientista esteja realizando um estudo

sobre a altura dos habitantes do seu município. Em um estudo anterior, foi
encontrado que a média de altura destes habitantes era 1,70m. Embora
outros estudiosos afirmem que esta média aumentou, o cientista acredita que
ela permanece a mesma. Assim, ele seleciona uma amostra e calcula a
média amostral. Suponha que ele tenha encontrado 1,72m como média e
0,36m como variância amostral (não confunda com a variância populacional
que neste caso é desconhecida). Isso prova definitivamente que o cientista
estava errado? Sabemos que não. Ele pode ter encontrado este valor por
uma coincidência devido à amostra que ele selecionou. Se tivesse
selecionado outra amostra, muito provavelmente encontraria outro valor. O
que ele deve fazer então é testar a hipótese de que a média de altura dos
habitantes de todo
56
o município é igual a média encontrada na amostra ou se é diferente dela. Na
notação estatística escrevemos isso da seguinte forma:
𝐻0: 𝜇 = 1,70
{𝐻1: 𝜇 > 1,70
Onde:
H0 é chamada de “hipótese nula”

H1 é chamada de “hipótese alternativa”.
O que se faz em um teste de hipótese é formular uma hipótese nula

(alguma conjectura sobre o universo) e verificar se os dados contidos na
amostra me permitem aceitar ou não esta hipótese. Assim, a hipótese
alternativa, é aquela hipótese que aceitamos caso a hipótese nula seja
rejeitada. Usamos 𝐻1: 𝜇 > 1,70 como hipótese alternativa porque havia
suposições que a altura média da população pudesse ter aumentado.
Entretanto, poderíamos formular as hipóteses das seguintes formas:
𝐻0: 𝜇 = 1,70
{𝐻1: 𝜇 < 1,70 (teste unilateral)
𝐻0: 𝜇 = 1,70
{𝐻1: 𝜇 ≠ 1,70 (teste bilateral)
É importante ressaltar que ao aceitarmos a hipótese nula ou ao rejeitá-

la, poderíamos estar cometendo algum erro uma vez que não conhecemos
de fato média populacional. Os dois tipos de erro que podemos cometer são:
 Erro tipo I: Aquele que cometemos ao rejeitar a hipótese nula, sendo

ela verdadeira;
 Erro tipo II: Aquele que cometemos ao aceitar a hipótese nula, sendo
ela falsa.
Decisão Se H0 é Se H0 é
verdadeira falsa
Rejeitar Erro tipo I Nenhum
H0 erro
Aceitar Nenhum erro Erro tipo II
H0
57
A probabilidade de cometermos um erro do tipo I é chamada de “nível de
significância” do teste e representada por α. Assim,
𝛼 = 𝑃(𝑒𝑟𝑟𝑜 𝑡𝑖𝑝𝑜 𝐼) = 𝑃(𝑟𝑒𝑗𝑒𝑖𝑡𝑎𝑟 𝐻0| 𝐻0 𝑣𝑒𝑟𝑑𝑎𝑑𝑒𝑖𝑟𝑎)
Os níveis de significância mais utilizados na prática são 0,01; 0,05 e

0,10. Ou seja, o mais aceito na prática é que a probabilidade de rejeitar a
hipótese nula sendo ela verdadeira deve ser no máximo 10%.
Um conceito parecido com o nível de significância é o chamado “p-

valor” (ou Valor-p). Assim como o nível de significância, o p-valor também é
uma probabilidade:
O p-valor pode ser entendido como a probabilidade de um determinado

valor obtido numa amostra ser devido ao acaso. De forma mais precisa, é
a probabilidade de obter uma estatística igual à que foi obtida numa
amostra, caso a hipótese nula seja verdadeira.
Voltando ao exemplo da altura dos habitantes de um determinado

município, vimos que o cientista em questão encontrou o valor 1,72 para a
média de sua amostra (estatística). O p-valor seria a probabilidade de este
valor ter sido encontrado por acaso devido à amostra selecionada e não
porque a média de altura dos habitantes (parâmetro) realmente tenha
aumentado.
6.2 TESTE DE HIPÓTESES PARA A MÉDIA POPULACIONAL
Para a construção de um teste de hipóteses, devemos antes de tudo,

construir uma “estatística de teste”. Esta grandeza é calculada com base no
valor da estatística encontrada na amostra e no valor do parâmetro que está
sendo testado na hipótese nula. A estatística de teste é uma variável
aleatória e pode estar associada a várias distribuições de probabilidade,
dependendo do parâmetro que estamos testando e de alguns outros fatores.
No caso específico do teste de hipótese para a média populacional, a
estatística de teste pode seguir uma distribuição normal, caso a variância da
população seja conhecida ou pode seguir uma distribuição chamada de “t
de Student” (ou
58
somente distribuição t), caso a variância populacional não seja conhecida.
Vejamos cada um destes casos.
6.2.1 Teste com variância populacional conhecida
Quando conhecemos a variância da população da qual nossa amostra foi

extraída, a estatística de teste é calculada da seguinte forma:
𝑋¯ − 𝜇0
𝑍= 𝜎
√𝑛
Aqui, μ0 é o valor que se supõe para o parâmetro (valor que está sendo
testado em H0), σ é o desvio-padrão da população e n é o tamanho da

amostra. Como dito acima, esta estatística de teste segue uma distribuição
normal padrão, ou seja, Z ~ N(0;1).
Neste caso, como em qualquer teste de hipótese, iremos rejeitar H 0 somente

quando a estatística de teste (neste caso Z) for mais extrema (maior ou
menor, dependendo do caso) que um valor de referência. Este valor de
referência é obtido a partir do nível de significância pretendido e da
distribuição de probabilidade que a estatística segue.
Exemplo: Considerando novamente o exemplo do cientista que estuda a

altura dos habitantes do seu município, queremos realizar o seguinte teste de
hipóteses.
𝐻0: 𝜇 = 1,70
{𝐻1: 𝜇 > 1,70
Agora, suponhamos que a variância populacional seja igual a 0,25m

(neste caso o desvio-padrão seria igual a 0,5) e que o cientista tenha
selecionado uma amostra de 100 pessoas. Assim teríamos a seguinte
estatística de teste
𝑋¯ − 𝜇0
𝑍= 𝜎
√𝑛
1,72 − 1,70
𝑍=
0,5
√100
0,02 59
𝑍=
𝑍=
0,5 0,02
10 0,05
𝑍 = 0,4
Para obtermos o valor de referência, vamos estabelecer um nível de
significância de 5% (ou 0,05). Sabendo que Z segue uma distribuição normal
padrão, podemos usar a tabela desta distribuição. O valor correspondente a
uma probabilidade igual a 0,05 é 1,64. Como nossa estatística de teste foi
menor que este valor, não rejeitamos a hipótese nula. Isso significa que os
dados não contêm evidência suficiente para afirmarmos que a média de
altura dos habitantes seja maior que 1,70. Uma outra forma de chegarmos a
esta conclusão é através do p-valor associado à estatística de teste.
Consultando o valor desta estatística na tabela, encontramos uma
probabilidade igual a 0,15542 (quinta linha com a primeira coluna). Este valor
é claramente maior que o nível de significância (0,05). Sempre que o p-valor
for maior que o nível de significância, não rejeitamos H0.
O que aconteceria se não houvesse motivo para suspeitar que a

média de altura dos habitantes fosse maior que 1,70? Neste caso, o teste de
hipótese seria bilateral, ou seja, nosso teste seria da seguinte forma:
𝐻0: 𝜇 = 1,70
{𝐻1: 𝜇 ≠ 1,70
Quando temos um teste bilateral, o nível de significância deve ser

dividido por 2. Assim, ele serial igual a 0,025 e o valor correspondente na
tabela da distribuição normal padrão seria 1,96. Como nossa estatística de
teste é menor que este valor, ainda assim não rejeitaríamos H0, ou seja,
nossa conclusão seria a mesma.
60
6.2.2 Teste com variância populacional desconhecida
Quando não conhecemos a variância da população da qual nossa

amostra foi extraída e o número de elementos da amostra é pequeno (n <
30), a estatística de teste é calculada de outra forma e possui outras
características. Neste caso, ela seria calculada da seguinte forma:
𝑋¯ − 𝜇0
𝑇= 𝑠
√𝑛
Como se pode perceber, quando não conhecemos a variância

populacional, o desvio-padrão é substituído pelo desvio-padrão populacional.
Como consequência, a estatística de teste “T” segue a distribuição t de
Student e não podemos mais utilizar a tabela da distribuição normal para
obtermos o valor de referência ou o p-valor. Para isso, teremos outra tabela
como aquela representada na figura abaixo. Para consulta-la, além de
conhecermos o nível de significância, precisamos conhecer os “graus de
liberdade” (v). O grau de liberdade de uma distribuição amostral v = n – 1,
sendo n o tamanho da amostra.
Exemplo: Ainda considerando o exemplo anterior, como faríamos o

teste de hipóteses se não conhecêssemos a variância populacional? No caso
de um teste unilateral (como o primeiro que fizemos na seção anterior),
teríamos o seguinte:
𝐻0: 𝜇 = 1,70
{𝐻1: 𝜇 > 1,70
Lembrando que a variância amostral encontrada pelo cientista é igual

a 0,36 e supondo que o cientista tenha selecionado uma amostra de 25
pessoas, a estatística de teste seria calculada da seguinte forma:
𝑋¯ − 𝜇0
𝑇= 𝑠
√𝑛
1,72 − 1,70
𝑇=
0,6
√25
0,02 61
𝑇=
0,6 ≈ 1,17
5
Consultando a tabela abaixo com nível de significância de 0,05 (na
tabela consta 0,95 na primeira linha pois trás o a probabilidade acumulada) 1
com v = 24 graus de liberdade (v = 25 – 1), encontramos o valor de
referência igual a 1,711. Como nossa estatistica de teste é menor que o valor
de referência, então não rejeitamos a hipótese nula. Da mesma forma, isso
significa que os dados da amostra não contêm evidência suficiente para
afirmarmos que a média de altura dos habitantes deste município seja maior
que 1,70m.
Obs.: Para usar a tabela, procuramos o nível de significância na

primeira linha e os graus de liberdade na primeira coluna.
Nos links abaixo, você encontrará mais sobre testes de hipóteses como testes
para outros parâmetros populacionais e exemplos de aplicações.
http://www.portalaction.com.br/inferencia/testes-de-hipoteses
https://pt.wikipedia.org/wiki/Testes_de_hip%C3%B3teses#Teste_de_hip%C3%B3
teses_usando_p%E2%80%93valor
Nestes outros links, vocês encontrarão mais explicações sobre o teste de
hipóteses e sua aplicação na gestão.
https://integrada.minhabiblioteca.com.br/#/books/9788580553949/cfi/349!/4/2@10
0:0.00
pKrwcJVWzoEVZO+g==
Um teste de hipóteses é frequentemente comparado ao julgamento de um réu.

Quando uma pessoa vai a julgamento, existe o que chamam de “presunção de
inocência”, ou seja, o réu é inocente até que se prove o contrário (assim, a
hipótese nula seria: o réu é inocente). O promotor, procura demonstrar através de
provas documentais e/ou testemunhais que o réu é culpado, ou seja, procura
refutar (ou rejeitar) a hipótese nula. Neste contexto, dois erros podem ser
cometidos ao condenar ou absolver o réu. Que erros seriam esses? Algun seria
mais prejudicial que o outro? Se sim, qual deles?
1
O nível de significância desejado deve ser subtraído de 1 para que possamos usar a tabela. Assim, o
nível de significância de 0,05 será α = 1 – 0,05 (α = 0,95). Obviamente, o nível de significância de 0,01
seria α = 1 – 0,01 (α = 0,99).
62
63
REFERÊNCIAS BIBLIOGRÁFICAS
DOANE, David P.; SEWARD, Lori E. Estatística Aplicada à Administração
e Economia [recurso eletrônico]. 4 ed.- Dados eletrônicos. Porto Alegre:
AMGH, 2014.
MCCLAVE, James T. Estatística para administração e economia. São
Paulo: Pearson Prentice Hall, 2009.
NOVAES, Diva V.; COUTINHO, Cileida Q. Estatística para educação
profissional e tecnológica. 2 ed. São Paulo: Atlas, 2013
SILVA, Ermes M. et al. Estatística para os cursos de economia,
administração e ciências contábeis. 4 ed. São Paulo: Atlas, 2010.
TRIOLA, Mário F. Introdução à estatística. 10 ed. Rio de Janeiro: 2013.
64

Livro Estatistica Word

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Livro Estatistica Word

Enviado por

Direitos autorais:

Formatos disponíveis

FACULDADE

INFERÊNCIA ESTATÍSTICA: TESTE DE HIPÓTESES

Será apresentado a história e evolução da cartografia, demostrando

Você estudará sobre os movimentos da Terra e como influenciam na

Nessa unidade você estudará sobre os fusos horários mundiais, como

Você, nessa unidade, aprenderá sobre escalas e suas as

Todo mapa ou representação da Terra é construído através de uma

Nessa unidade você aprenderá que existem convenções

Universo: É o conjunto de todos os elementos de nosso interesse. É o “todo”.

1.2 DIMENSIONAMENTO DA AMOSTRA

No que diz respeito a esta etapa do processo, é importante ressaltar que o

Solução: Neste caso, temos o seguinte:

1.3.1 Amostragem aleatória simples:

Neste tipo de amostragem, todos os elementos do universo têm a mesma

1.3.2 Amostragem estratificada:

Neste tipo de amostragem, o universo é previamente divido em grupos

1.3.3 Amostragem por conglomerados:

Neste caso, o universo também é dividido em grupos. Entretanto, apenas

1.3.4 Amostragem sistemática:

Segundo Silva (2004, p. 67), essa amostragem ”consiste em considerar os N

Se você fosse o responsável por planejar uma pesquisa eleitoral em um

ESTATÍSTICA DESCRITIVA UNIDADE

2.2. TABELAS DE FREQUÊNCIAS

Classe Frequˆenc Freq Freq.

Após conhecermos o número de classes a ser utilizado, devemos calcular o intervalo

Onde “A” é a amplitude, ou seja,

As medidas descritivas são grandezas utilizadas para resumir e descrever um

Tendência central Mediana

2.3.1 Medidas de tendência central

Média aritmética simples: Representada pelo símbolo 𝑋¯ , é utilizada

valores mais importantes. Representaremos a média ponderada pelo símbolo 𝑋¯P e

Neste caso, “x” são os valores do conjunto e “p” o peso correspondente.

Dessa forma, a média ponderada ficaria assim:

Quando não há números repetidos num conjunto ou quando todos aparecem

Mediana: É o valor que ocupa a posição central em um conjunto de dados,

Há 21 números neste conjunto (n = 21), de forma que a posição ocupada pela

Quartis: Os quartis fazem parte das chamadas “medidas separatrizes” que

Exemplo: Considere o seguinte conjunto referente às idades de 15 pessoas.

Assim, o primeiro quartil é o número que ocupa a 4ª posição no conjunto de dados,

Da mesma forma, o segundo quartil é o número que ocupa a 8ª posição no conjunto:

2.3.2. Medidas de variação (ou dispersão)

Podemos perceber que ambos os conjuntos apresentam a mesma média (𝑋¯ =

Variância: Representada por s2, é uma das medidas de variação mais

Ao somarmos estes valores, obtemos ∑ (𝑥 − 𝑥̅)2 = 9.

Desvio-padrão: O desvio-padrão de um conjunto de dados é simplesmente a

Coeficiente de variação: Quando analisamos o desvio-padrão de um conjunto

MEDIDAS DE ASSIMETRIA UNIDADE

 Correspondência em tamanho, forma ou arranjo, de partes dispostas em

Do ponto de vista da estatística, a simetria ocorre quando a média, a

em estatística significa que 𝑋¯ = 𝑋˜ = mo. Graficamente, teríamos algo desta

Quando uma distribuição não apresenta simetria, dizemos que ela é

3.2 MEDIDA DE ASSIMETRIA

Talvez a forma mais comum de identificar e medir a assimetria de uma

Se A = 0, então sabemos que a distribuição é simétrica.

Se A < 0, então dizemos que a distribuição é assimétrica negativa.

Se A > 0, então a distribuição é assimétrica positiva.

Exemplo: Qual é a medida de assimetria do conjunto abaixo?

Primeiramente, a média deste conjunto é:

A moda é mo = 12 e o desvio-padrão será:

Sendo assim, o coeficiente de Pearson será:

A curtose de uma distribuição diz respeito à concentração de valores

Representada por “K”, a medida de curtose mais comum é:

Quando K = 0, dizemos que se trata de uma distribuição mesocúrtica.