Você está na página 1de 132

ESTATÍSTICA E

PROBABILIDADE
PROF. DR. RICARDO CARDOSO DE OLIVEIRA
Prof. Me. Ricardo Benedito de Oliveira
REITOR

Reitor:
Prof. Me. Ricardo Benedito de
Oliveira
Pró-Reitoria Acadêmica
Maria Albertina Ferreira do
Nascimento
Prezado (a) Acadêmico (a), bem-vindo Diretoria EAD:
(a) à UNINGÁ – Centro Universitário Ingá.
Prof.a Dra. Gisele Caroline
Primeiramente, deixo uma frase de Novakowski
Sócrates para reflexão: “a vida sem desafios
não vale a pena ser vivida.” PRODUÇÃO DE MATERIAIS
Cada um de nós tem uma grande Diagramação:
responsabilidade sobre as escolhas que Alan Michel Bariani
fazemos, e essas nos guiarão por toda a vida Thiago Bruno Peraro
acadêmica e profissional, refletindo diretamente
em nossa vida pessoal e em nossas relações Revisão Textual:
com a sociedade. Hoje em dia, essa sociedade
é exigente e busca por tecnologia, informação
Fernando Sachetti Bomfim
e conhecimento advindos de profissionais que Marta Yumi Ando
possuam novas habilidades para liderança e Olga Ozaí da Silva
sobrevivência no mercado de trabalho. Simone Barbosa
De fato, a tecnologia e a comunicação Produção Audiovisual:
têm nos aproximado cada vez mais de pessoas, Adriano Vieira Marques
diminuindo distâncias, rompendo fronteiras e
nos proporcionando momentos inesquecíveis.
Márcio Alexandre Júnior Lara
Assim, a UNINGÁ se dispõe, através do Ensino a Osmar da Conceição Calisto
Distância, a proporcionar um ensino de qualidade,
capaz de formar cidadãos integrantes de uma Gestão de Produção:
sociedade justa, preparados para o mercado de Cristiane Alves
trabalho, como planejadores e líderes atuantes.

Que esta nova caminhada lhes traga


muita experiência, conhecimento e sucesso.

© Direitos reservados à UNINGÁ - Reprodução Proibida. - Rodovia PR 317 (Av. Morangueira), n° 6114
UNIDADE ENSINO A DISTÂNCIA

01
DISCIPLINA:
ESTATÍSTICA E PROBABILIDADE

MEDIDAS DE POSIÇÃO E DISPERSÃO


PROF. DR. RICARDO CARDOSO DE OLIVEIRA

SUMÁRIO DA UNIDADE

INTRODUÇÃO.................................................................................................................................................................5
1. CONSIDERAÇÕES BÁSICAS EM ESTATÍSTICA DESCRITIVA.................................................................................6
1.1 UNIVERSO, AMOSTRA E VARIÁVEL........................................................................................................................6
1.2 TÉCNICAS DE AMOSTRAGEM................................................................................................................................ 7
1.3 TIPOS DE GRÁFICOS E SÉRIES ESTATÍSTICAS....................................................................................................8
1.4 DISTRIBUIÇÃO DE FREQUÊNCIA.......................................................................................................................... 11
2. MEDIDAS DE POSIÇÃO............................................................................................................................................ 17
2.1 MÉDIA ARITMÉTICA............................................................................................................................................... 17
2.2 MODA...................................................................................................................................................................... 21
2.3 MEDIANA................................................................................................................................................................23

WWW.UNINGA.BR 3
3. MEDIDAS DE SEPARATRIZES.................................................................................................................................26
4. MEDIDAS DE ASSIMETRIA E CURTOSE................................................................................................................28
5. MEDIDAS DE DISPERSÃO.......................................................................................................................................30
5.1 AMPLITUDE TOTAL ................................................................................................................................................ 31
5.2 VARIÂNCIA.............................................................................................................................................................32
5.3 DESVIO-PADRÃO....................................................................................................................................................36
CONSIDERAÇÕES FINAIS............................................................................................................................................38

WWW.UNINGA.BR 4
EDUCAÇÃO A DISTÂNCIA

INTRODUÇÃO

No ambiente onde estamos inseridos, qualquer pessoa tem acesso a uma grande
quantidade de informações. Ser bem-sucedido é ser capaz de entender e utilizar essas
informações de maneira correta.
Nesta unidade, serão abordados os primeiros passos para a compreensão sobre os
dados estatísticos. Ainda, serão apresentadas as três maneiras de sintetizar numericamente um
conjunto de dados: a média, a mediana e a moda. Vamos discutir a dispersão ou variabilidade
dos dados estudados em relação à média. Essas medidas incluem o estudo da amplitude total, da
variância, do desvio-padrão e do coeficiente de variação. Pegue sua xícara de café, respire fundo
e bons estudos!

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1

WWW.UNINGA.BR 5
EDUCAÇÃO A DISTÂNCIA

1. CONSIDERAÇÕES BÁSICAS EM ESTATÍSTICA DESCRITIVA

1.1 Universo, Amostra e Variável


A estatística está interessada nos métodos científicos para coleta, organização, resumo,
apresentação e análise dos dados, bem como na tomada de decisões baseadas em tais análises. Nesse
sentido, ao coletar dados referentes às características de um grupo ou indivíduos que possuem
ao menos uma característica comum, muitas vezes é impossível, inviável economicamente ou
impraticável observar todo o grupo, em particular quando ele é muito grande. Assim, ao invés de
examinar todo o universo (que também é denominado população), examina-se uma pequena
porção do universo, denominada amostra.
Após a determinação dos elementos da amostra, pergunta-se: o que fazer com eles? Pode-
se medi-los, observá-los e/ou contá-los? Daí, surge um conjunto de respostas, que receberá a
denominação de variável. A variável é a característica que vai ser observada, medida ou contada
nos elementos da população ou da amostra e que pode variar, ou seja, assumir um valor diferente
de elemento para elemento observado.
A variável pode ser classificada em qualitativa (aquela em que a característica observada

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


é expressa por atributos, como cor da pele, sexo, tipo sanguíneo etc.) e quantitativa (aquela em
que a característica observada é expressa em números, como número de alunos matriculados
na disciplina de estatística, idade etc.). No entanto, uma variável quantitativa pode ser contínua
(aquela que pode assumir qualquer valor entre dois limites) ou discreta (aquela que só pode
assumir valores pertencentes a um conjunto enumerável).

O documentário O Prazer da Estatística – The Joy of Statistics leva


os espectadores a uma viagem através do maravilhoso mundo da
estatística para explorar o notável poder que esse mundo tem de
mudar a nossa compreensão da realidade.
O documentário é apresentado pelo Professor Hans Rosling, cuja
visão aberta, de expansão da mente, e engraçadas palestras on-line
têm feito dele uma lenda internacional da Internet. Rosling é um homem que se
deleita no glorioso mundo das estatísticas e, aqui, ele explora sua história, como
elas funcionam matematicamente e como elas podem ser usadas atualmente
no computador para ver o mundo como ele realmente é, e não apenas como o
imaginamos ser.
O documentário está disponível em
http://www.youtube.com/watch?v=xLr68J2yDJ8 .

WWW.UNINGA.BR 6
EDUCAÇÃO A DISTÂNCIA

1.2 Técnicas de Amostragem


Para garantir que a amostra represente o universo, ou seja, que a amostra possua as mesmas
características que o universo no que diz respeito à variável estudada, é necessário que ela seja
obtida por técnicas adequadas. A seguir, estudaremos três das principais técnicas de amostragem:
(i) Amostragem aleatória simples – essa técnica de amostragem pode ser realizada
numerando-se os elementos do universo de 1 até n e, em seguida, procede-se a um sorteio de k
números para representar a amostra. No caso de a população ser muito grande, o sorteio torna-se
inviável, e fazemos uso da Tabela de Números Aleatórios (Anexo 1). Vejamos os exemplos 1 e 2.

Exemplo 1

Dos 50 funcionários da empresa de uma construtora, 20% serão escolhidos para realizar exames
de rotina. Assim, para proceder à escolha desses funcionários, primeiramente, numeramos os
de 1 a 50 e, em seguida, escrevemos os números de 1 a 50 em papéis de mesmo tamanho.
Colocamo-los dentro de uma caixa, agitamos e retiramos, um a um, sem reposição. Os dez
números formarão a amostra.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Exemplo 2

Uma empresa de telecomunicação tem 5.000 funcionários e, desses, 750 deverão ser sorteados
para realizar os exames de rotina. Observe, nesse exemplo, que os números de elementos do
universo e da amostra são relativamente grandes. Assim, faz-se necessário utilizar-se da tabela
de números aleatórios (Anexo 1). Para obtermos esses 750 elementos da amostra, sorteamos
um algarismo qualquer da tabela, a partir do qual iremos tomar números com dois, três ou mais
dígitos, de acordo com a necessidade, percorrendo as linhas e/ou colunas da tabela de números
aleatórios da esquerda para direita (ou vice-versa) ou, ainda, de cima para baixo (ou vice-versa).
Os números obtidos irão indicar os elementos da amostra.

(ii) Amostragem estratificada – essa técnica de amostragem é empregada quando


tivermos o universo subdividido em estratos. Assim, para que a amostra represente o universo,
é interessante que ela leve cada estrato em consideração. Para entender melhor, leia o exemplo 3.

WWW.UNINGA.BR 7
EDUCAÇÃO A DISTÂNCIA

Exemplo 3

Considere que, dos 50 funcionários da construtora do Exemplo 1, 40 sejam do sexo masculino e


10 do sexo feminino, ou seja, temos dois estratos (sexo masculino e sexo feminino) e queremos
escolher 20% do total de 50.
Solução: neste exemplo, queremos respeitar a proporção dos funcionários do sexo masculino
e feminino. Assim, temos: 80% dos funcionários do sexo masculino e 20% do sexo feminino.
Como serão selecionados 20% do total de funcionários, segue que serão sorteados 8 homens e
2 mulheres. A segunda etapa dessa técnica de amostragem consiste em escolher os 8 homens
dentre os 40 e as 2 mulheres dentre as 10. Podemos numerar esses funcionários de 1 a 50,
sendo que os numerados de 1 até 10 correspondem aos funcionários do sexo feminino, e os
numerados de 11 até 50 correspondem aos funcionários do sexo masculino. Daí, procede-se a
um sorteio. Ou, então, usa-se a tabela de números aleatórios para proceder ao sorteio, até que
8 homens e 2 mulheres sejam selecionados.

(iii) Amostragem sistemática – nessa técnica de amostragem, os membros do universo


que participam da amostra são determinados a partir de intervalos fixos, e não há utilização de
tabelas de números aleatórios.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Por exemplo: no caso do universo dos 50 funcionários do exemplo, para obtermos 10
amostras sistemáticas, podemos escolher os números 5, 10, 15 e assim por diante, até completarmos
10 amostras sistematicamente colhidas.

1.3 Tipos de Gráficos e Séries Estatísticas


Uma tabela trata-se de um quadro que resume um conjunto de observações ou
informações. A tabela é constituída de:
I. corpo: é o conjunto de linhas e colunas, que contêm informações sobre a variável ou
variáveis de estudo.
II. cabeçalho: parte superior da tabela, onde está especificado o conteúdo de cada coluna.
III. coluna indicadora: parte que compõe a tabela e que especifica o conteúdo de cada
linha.
IV. célula: espaço destinado a um só número (ou informação).
V. título: conjunto de informações, localizado no topo da tabela, que responde às
perguntas: o quê?, quando?, onde?.

WWW.UNINGA.BR 8
EDUCAÇÃO A DISTÂNCIA

Exemplo 4

As emissões globais de dióxido de carbono em 2011 atingiram recorde e subiram para 34


bilhões de toneladas, segundo o Instituto de Energia Renovável da Alemanha (IWR). O IWR,
que fornece consultoria para ministérios alemães, mencionou a atividade recuperada da
indústria após o fim da crise econômica global dos últimos anos para justificar o aumento. “Se
a tendência atual for mantida, as emissões mundiais de CO2 irão subir outros 20%, para mais
de 40 bilhões de toneladas, até 2020”, afirmou o diretor do instituto, Norbert Allnoch. A tabela
a seguir apresenta a quantidade de CO2 emitida por alguns países.

Tabela 1 - Emissão de CO2, em toneladas, em 2014.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Fonte: G1 (2012).

Uma série estatística trata-se de toda tabela que apresenta distribuição de um conjunto
de dados em função da época (denominadas séries históricas), do local (denominadas séries
geográficas) ou da espécie (denominadas séries específicas).
Um gráfico estatístico é uma maneira de apresentação dos dados, que tem como objetivo
produzir uma impressão mais rápida e viva do fenômeno estudado uma vez que os gráficos
falam mais rapidamente à compreensão da série. Os gráficos devem ser simples, claros e devem
expressar a verdade sobre o fenômeno em estudo. Veja o Exemplo 5.

WWW.UNINGA.BR 9
EDUCAÇÃO A DISTÂNCIA

Exemplo 5

Mais de 190 representantes de países estão reunidos em Paris para discutir o novo acordo do
clima, que pretende apontar quais ações os países irão adotar para limitar suas emissões de
gases do efeito estufa e, consequentemente, tentar evitar que a temperatura do planeta aumente
mais de 2º C. O mais difícil é fazer com que todos eles concordem com os mesmos termos
e compromissos. Mas todos têm peso igual nas emissões? Veja o gráfico que mostra os dez
maiores emissores.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1

Figura 1 – Os dez maiores emissores de gases do efeito estufa. Fonte: UOL Notícias (2015).

WWW.UNINGA.BR 10
EDUCAÇÃO A DISTÂNCIA

1.4 Distribuição de Frequência


Após a realização de uma pesquisa em que os dados foram coletados, faz-se necessária a
organização e classificação desses. Esse procedimento é, em geral, feito por meio de tabelas. Essas
tabelas são denominadas tabelas de distribuição de frequência.
Para entender esse conceito e outros que virão, vamos considerar o conjunto de dados que
apresenta a distância horizontal (em metros) percorrida por um drone antes de apresentar algum
tipo de defeito. Um total de 40 testes foram realizados e são apresentados na Tabela 2.

Tabela 2 – Distância percorrida, em metros, por um protótipo de drone antes de apresentar


algum tipo de defeito.

33,50 30,38 48,38 31,13 29,63 9,25 32,25 38,00 8,63 29,63
9,00 18,00 18,00 1,25 37,88 10,00 25,24 52,00 9,25 53,38
8,75 34,00 7,63 14,00 43,25 16,50 11,38 25,02 18,50 16,63
9,38 8,00 35,25 21,63 19,38 11,50 28,50 78,38 38,88 33,63
Fonte: O autor.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


A Tabela 2 é um tipo de tabela em que os dados não estão organizados. É denominada
tabela bruta, e os dados são chamados de dados brutos. Ao organizar esses dados brutos em
tabela, em ordem crescente ou decrescente, temos o rol como apresentado na Tabela 3.

Tabela 3 – Rol crescente da distância percorrida, em metros, por um protótipo de drone


antes de apresentar algum tipo de defeito.
1,25 7,63 8,00 8,63 8,75 9,00 9,25 9,25 9,38 10,00
11,38 11,50 14,00 16,50 16,65 16,63 18,00 18,00 18,50 19,38
21,63 25,02 25,24 28,50 29,63 30,38 31,13 32,25 33,50 33,63
34,00 35,25 37,88 38,00 38,88 43,25 48,38 52,00 53,38 78,38
Fonte: O autor.

Uma vez organizados os dados em rol, iremos agora resumir esses dados numa tabela de
tal forma que a leitura dos dados seja facilitada. Para isso, definimos:
(i) classe: é a subdivisão dos dados em intervalos ou faixas de valores.
(ii) limite de classe: são os valores extremos de cada classe. Para uma classe, temos o
limitante inferior, que é o menor número que pode pertencer à classe, além do limitante
superior, que é o maior número que pode pertencer à classe.
(iii) amplitude amostral (AA): é a diferença entre o maior e o menor entre os dados
coletados.

(iv) ponto médio de uma classe : são os valores obtidos somando-se o limitante
inferior de classe ao limitante superior e dividindo-se o resultado da soma por 2.
(v) número de classes (i): para a construção de uma tabela de distribuição de frequência,
a primeira coisa com que devemos nos preocupar é determinar o número de classes. Para
tal, fazemos uso da regra de Sturges, a qual é dada pela Eq. (01), a seguir.

WWW.UNINGA.BR 11
EDUCAÇÃO A DISTÂNCIA

Eq. (01)

Ainda, podemos fazer uso da regra da raiz, a qual é dada pela Eq. (02):

Eq. (02)

Para as equações (01) e (02), temos que n é o número de dados coletados.


(vi) amplitude de classe (h): calculado o número de classes a ser usado na construção da
tabela de distribuição de frequência, devemos proceder ao cálculo da amplitude da classe,
a qual é calculada fazendo-se a razão entre a amplitude total e o número de classes.

(vii) frequência absoluta : é o número de vezes que determinado elemento aparece na


amostra ou, ainda, o número de vezes que um elemento aparece numa classe.

(viii) frequência relativa : é a razão entre a frequência absoluta da classe em questão


e o número total de elementos na amostra. A frequência relativa é calculada usando-se a
Eq. (03):

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Eq. (03)

(ix) frequência relativa percentual : é obtida procedendo-se ao produto da


frequência relativa por 100, como apresenta a Eq. (04):

Eq. (04)

(x) frequência acumulada : é obtida somando-se a frequência absoluta da


classe considerada com as frequências absolutas anteriores a essa classe. A Eq. (05) mostra o
procedimento do cálculo da frequência acumulada de uma classe.

Eq. (05)

Nela, é a frequência absoluta da primeira classe, é a frequência absoluta da segunda


classe e assim por diante, até a n-ésima classe. O símbolo denota a soma das frequências
da primeira, segunda, até a n-ésima classe.
(xi) frequência relativa acumulada : é a razão entre a frequência acumulada de
uma classe pelo número total de elementos na amostra, como mostra a Eq. (06):

Eq. (06)

WWW.UNINGA.BR 12
EDUCAÇÃO A DISTÂNCIA

(xii) frequência relativa acumulada percentual : é o produto da frequência


relativa acumulada de uma classe por 100, como apresentado na Eq. (07):

Eq. (07)

Já que definimos tantas coisas, vamos aplicá-las à Tabela 3. Digamos que nosso objetivo
seja elaborar um relatório acerca da distância horizontal percorrida, em metros, pelo robô
após o ajuste no seu sistema operacional. Vamos apresentar os resultados em uma tabela de
distribuição de frequência. Embora existam tecnologias para gerar distribuições de frequência
automaticamente, os passos para construí-las manualmente são os seguintes:
1º passo: determinar o número de classes desejado. Esse número deve estar entre 5 e
20, por questões práticas e ainda deve ser um número inteiro. Como temos n = 40 observações,
podemos usar o critério de Sturges ou da raiz. Assim, temos, pelo critério de Sturges, o número
de classes igual a:

2º passo: calcular a amplitude das classes. Se necessário, faça uso de arredondamentos e/

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


ou mude o número de classes de modo que se usem números convenientes.

3º passo: escolha ou o valor mínimo ou um valor conveniente, que seja um pouco menor
do que esse valor mínimo para ser o primeiro limitante inferior de classe. Usando esse limitante
inferior e a amplitude da classe, prossiga e liste os outros limites inferiores de classe, adicionando
a amplitude de classe ao primeiro limite de classe inferior para obter o segundo limite inferior de
classe, e assim por diante.
4º passo: liste os limites inferiores de cada classe em uma coluna vertical e prossiga para
preencher os limitantes superiores. Feito isso, percorra o conjunto de dados, colocando uma
marca apropriada para cada valor dado. Conte as marcas para encontrar a frequência total para
cada classe.
Agora, tendo como base a Tabela 3, vamos construir a Tabela 4, denominada de tabela de
distribuição de frequência. Observe, na Tabela 4, que a primeira na classe temos a frequência dos
valores da distância horizontal percorrida pelo robô, que vai de 1 (inclusive) até 14 (exclusive),
totalizando 12 valores. Nas classes seguintes, usamos ideia análoga.

WWW.UNINGA.BR 13
EDUCAÇÃO A DISTÂNCIA

Tabela 4 - Distribuição de frequência da distância percorrida por um protótipo de drone


antes de apresentar algum tipo de defeito.

Classe (i) Percentual de redução Frequência (fi)

1 12

2 11

3 12

4 3

5 1

6 1

Total 40
Fonte: O autor.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


De posse da Tabela 4, de distribuição de frequência, podemos calcular as frequências
relativas ( , frequências acumuladas ( ) e seus percentuais, como apresentado na Tabela 5.

Tabela 5 – Distribuição de frequência da distância percorrida por protótipo de drone,


antes de apresentar algum tipo de defeito.

Percentual de
Classe (i)
redução
1 12 0,300 30,0 12 0,300 30,0

2 11 0,275 27,5 23 0,575 57,5

3 12 0,300 30,0 35 0,875 87,5

4 3 0,075 7,50 38 0,950 95,0

5 1 0,025 2,50 39 0,975 97,5

6 1 0,025 2,50 40 1,000 100,0

Total 40 1 100 - - -

Fonte: O autor.

WWW.UNINGA.BR 14
EDUCAÇÃO A DISTÂNCIA

O cálculo da frequência relativa da primeira classe foi determinado da seguinte maneira:

. Esse procedimento foi usado para calcular as demais frequências relativas. As


frequências relativas percentuais foram obtidas multiplicando-se por 100 as frequências relativas
de cada classe.

O cálculo da frequência acumulada foi realizado como segue:

E assim por diante, até a sexta classe. As frequências relativas acumuladas foram calculadas
como segue:

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


E assim por diante, até a sexta classe. Já as frequências relativas percentuais foram obtidas
multiplicando-se por 100 as frequências relativas acumuladas.
Em muitas situações, é mais conveniente representar de forma gráfica uma distribuição
de frequência. E isso pode ser feito utilizando-se do histograma, do polígono de frequência ou do
polígono de frequência acumulada.
O histograma é a representação gráfica da distribuição de frequência. Trata-se de um
diagrama de colunas, em que cada retângulo está associado a uma classe da distribuição de
frequência. O histograma associado à Tabela 4 está representado na Figura 2.

Figura 2 – Histograma da distribuição de frequência da distância percorrida por um drone, antes de apresentar
algum tipo de defeito. Fonte: O autor.

WWW.UNINGA.BR 15
EDUCAÇÃO A DISTÂNCIA

O polígono de frequência é o gráfico de configuração linear. Ele é obtido calculando-se o


ponto médio de cada classe e marca-se esse ponto no lado superior do histograma. O polígono de
frequência é obtido ligando-se esses pontos médios. A Figura 3 mostra o polígono de frequência,
associado aos dados da Tabela 4.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Figura 3 – Polígono de frequência da distância percorrida por um drone, antes de apresentar algum tipo de defeito.
Fonte: O autor.

O polígono de frequência acumulada, ou ogiva de Galton, é um gráfico que permite


descrever dados quantitativos por meio da frequência acumulada. A ogiva é um gráfico de linha
que une os pontos cujas abscissas são os limites superiores das classes e ordenadas suas respectivas
frequências acumuladas. A Figura 4 apresenta o polígono de frequência acumulada para os dados
distribuídos em classe da Tabela 5.

Figura 4 – Polígono de frequência acumulada da distância percorrida por um drone, antes de apresentar algum tipo
de defeito. Fonte: O autor.

WWW.UNINGA.BR 16
EDUCAÇÃO A DISTÂNCIA

2. MEDIDAS DE POSIÇÃO

As medidas de posição de uma série de dados nos orientam quanto à posição da distribuição
em relação ao eixo horizontal do histograma. As usualmente empregadas são a média, a mediana
e a moda. Vamos discuti-las em separado.

2.1 Média Aritmética


A média aritmética é a mais importante de todas as medidas de posição existentes
para descrever dados em geral. A média aritmética ( ) é uma medida de tendência central,
determinada pela adição de todos os valores e divisão pelo número de valores. Essa definição nos
permite escrever a Eq. (08):

Eq. (08)

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Nela, , , ..., são as variáveis que se estão estudando, n é o número de valores
estudados, e denota a soma de todos os valores em estudo.

Exemplo 6

A seguir, é informada a tensão, em milivolt (mV), de cinco resistores iguais, quando submeti-
dos a uma mesma corrente elétrica.
7 – 8,5 – 6,5 – 9 – 9
Qual foi a tensão média, em mV, desenvolvida pelos resistores quando submetidos à mesma
corrente elétrica?
Solução: a média aritmética da tensão é

Portanto, a tensão média desenvolvida pelos resistores foi de 8 mV.

Acabamos de calcular a média aritmética para o caso em que os dados não estão
agrupados. Agora, vamos aprender a calcular a média aritmética para o caso em que os dados
estão agrupados sem intervalo de classe. Nessa situação, como as frequências são números
indicadores da intensidade de cada valor, elas funcionam como fatores de ponderação e, assim,
calculada a média aritmética ponderada, como apresentado pela Eq. (09):

Eq. (09)

Nela, é a frequência, e é o valor da variável.

WWW.UNINGA.BR 17
EDUCAÇÃO A DISTÂNCIA

Exemplo 7

Na Figura 5, são apresentados os números de acidentes de trabalho no primeiro semestre de


2020, nas 100 fábricas de uma indústria de bebidas.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Figura 5 – Ilustração para o exemplo. Fonte: O autor.

Determine o número médio de acidentes das 100 fábricas de bebidas.


Solução: das informações dispostas na Tabela 6, montamos outra tabela para auxiliar-nos no
cálculo da média aritmética. Assim,

Tabela 6 – Tabela de distribuição para o cálculo da média.

Fonte: O autor.
Daí, segue que o número médio de acidentes de trabalho nas 100 fábricas de bebida é:

Portanto, o número médio de acidentes de trabalho nas 100 fábricas de bebida foi de 1,7
acidentes.

WWW.UNINGA.BR 18
EDUCAÇÃO A DISTÂNCIA

Vejamos, agora, o caso do cálculo da média aritmética quando os dados estão agrupados
em classe. Nesse caso, convenciona-se que os valores incluídos num determinado intervalo
coincidem com seu ponto médio, e determinamos a média ponderada. Vejamos o exemplo
seguinte.

Exemplo 8

A Tabela 7 apresenta a distribuição de frequências do número de salários-mínimos dos


funcionários de uma start up de tecnologia da informação.

Tabela 7 – Distribuição de frequência do número de salários-mínimos recebidos pelos


funcionários de uma start up.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Fonte: O autor.

Determine o número médio de salários-mínimos desses funcionários.


Solução: das informações dispostas na Tabela 7, montamos a Tabela 8 para auxiliar-nos no
cálculo da média aritmética. Assim:

Tabela 8 – Tabela de distribuição para resolução do exercício.

Fonte: O autor.

Daí, segue que o número médio de salários-mínimos é:

Portanto, o número médio de salários-mínimos recebidos pelos funcionários da start up é 5,4.

WWW.UNINGA.BR 19
EDUCAÇÃO A DISTÂNCIA

Exemplo 9

A média salarial de 100 engenheiros recém-formados é igual a R$ 5.000,00. Se o salário de João,


também engenheiro recém-formado, fosse incluído no cálculo, a média salarial seria igual a R$
5.100,00. Determine o salário de João, em reais.
Solução: temos que a média salarial, das 100 pessoas pode ser calculada por meio da
equação:

Ou seja, a soma dos salários dos 100 engenheiros é:

Considerando agora a inclusão de João, a média salarial é igual a e é calculada por


meio da equação:

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Ou seja, a soma dos salários de 101 engenheiros é:

Assim, subtraindo (1) de (2), segue que o salário de João é igual a R$ 15.100.

A média aritmética apresenta as seguintes propriedades:


(i) Chamamos de desvio em relação à média a diferença entre cada elemento de
um conjunto de valores e a média aritmética. A soma algébrica desses desvios
tomados em relação à média aritmética é nula.
(ii) Somando-se ou subtraindo-se uma constante (k) qualquer a todos os valores
da variável, a média aritmética fica aumentada ou diminuída dessa constante.
(iii) Multiplicando-se ou dividindo-se uma constante (k) qualquer por todos
os valores da variável, a média aritmética fica multiplicada ou dividida dessa
constante.

WWW.UNINGA.BR 20
EDUCAÇÃO A DISTÂNCIA

2.2 Moda
A Moda (Mo) é o valor que ocorre com maior frequência num conjunto de dados, e esse(s)
valor(es) é(são) denominado(s) “valor modal”. Um conjunto de dados poderá ser classificado em:
(i) amodal – quando não apresentar valor modal; (ii) unimodal – quando apresentar único valor
modal; (iii) bimodal – quando apresentar dois valores modais; (iv) trimodal – quando apresentar
três valores modais; (v) polimodal – quando apresentar quatro ou mais valores modais.

Exemplo 10

Os dados a seguir correspondem à pressão manométrica (em MPa) lida em uma adutora ao
longo de 10 horas de observação: 200, 250, 300, 250, 250, 200, 150, 200, 150, 200. Calcule a
moda para esse conjunto de dados.
Solução: organizando os dados em rol crescente, obtemos a seguinte distribuição:

150 – 150 – 200 – 200 – 200 – 200 – 250 – 250 – 250 – 300

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Note que, na série, há repetição dos valores 150 (2 vezes), 200 (4 vezes) e 250 (3 vezes). Assim,
o valor modal para os valores de pressão manométrica ao longo das 10 horas é igual a 250 MPa,
porque é o resultado que se repete mais vezes.

Acabamos de calcular a moda para o caso em que os dados não estão agrupados. Agora,
vamos aprender a calcular a moda para o caso em que os dados estão agrupados sem intervalo de
classe. Nessa situação, é muito fácil determinar o valor modal, bastando determinar a classe que
apresenta maior frequência. Vejamos o exemplo que segue.

Exemplo 11

Determinada carreira profissional, em um órgão público, apresenta 5 níveis de salários com


uma distribuição apresentada na Tabela 9.
Tabela 9 – Distribuição salarial de funcionários de uma carreira pública.

Fonte: O autor.

Determine o salário modal desse órgão público.


Solução: o salário modal desse compartimento público é R$ 2.500,00, pois esse valor caracteriza
o maior número de ocorrências (23 vezes).

WWW.UNINGA.BR 21
EDUCAÇÃO A DISTÂNCIA

Vejamos agora o caso do cálculo da moda quando os dados estão agrupados em classe.
Nesse caso, é comum fazer uso da equação de Czuber para o cálculo do valor modal, como
mostra a Eq. (10):

Eq. (10)

Nela, é o limite inferior da classe modal, é a diferença entre a frequência da classe


modal e a frequência da classe anterior à classe modal, é a diferença entre a frequência da
classe modal e a frequência da classe posterior à classe modal, e é a amplitude da classe
modal. Vejamos o exemplo seguinte.

Exemplo 12

A Tabela 10 apresenta a distribuição de frequências das notas obtidas numa prova de mecânica

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


dos fluidos, realizada por 50 estudantes universitários do curso de engenharia mecânica.

Tabela 10 - Distribuição de frequência das notas em mecânica dos fluidos.

Fonte: O autor.
Determine a nota modal.
Solução: a classe modal corresponde à classe que apresenta maior frequência. É claro que essa
frequência corresponde à terceira classe. Assim,
, , e . Logo, a nota modal é:

Portanto, a nota modal em mecânica dos fluidos foi de 5,2.

WWW.UNINGA.BR 22
EDUCAÇÃO A DISTÂNCIA

A moda é, em geral, usada para medidas rápidas e aproximações de posição ou, ainda,
quando a medida de posição deve ser o valor mais frequente da distribuição.

2.3 Mediana
A mediana (Me) é a medida de posição definida como sendo o número que divide o
conjunto de dados analisado em duas partes iguais, com o número igual de elementos. Dessa
maneira, a mediana encontra-se no centro de uma série estatística organizada em rol.
Ao organizar os dados em rol e este apresentar um número ímpar de elementos, a mediana
será o valor central. Caso o rol tenha um número par de elementos, a mediana será a média
aritmética entre os dois termos centrais. Nesse caso, a mediana será um valor que não pertence
à série de dados.

Exemplo 13

Os dados a seguir correspondem ao rol crescente de medidas da concentração de um poluente


líquido (em ppb) ao longo de 25 dias:

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


24 − 24 −24 −25 − 25 − 30 − 32 − 32 − 32 − 35 − 36 − 36 − 40 − 40 − 40 − 40− 46 – 48 − 48 −
50 − 54 − 54 − 60 − 60 − 65

Determine a concentração mediana desse poluente, em ppb.


Solução: note que os dados estão organizados em rol crescente e que temos 25 valores. O 13º
elemento é o que ocupa a posição central (está destacado no rol) e esse valor é a mediana do
conjunto de dados. Assim sendo, a concentração mediana do poluente é igual a 40 ppb.

Exemplo 14

Cientistas ambientais mediram as emissões de gases de efeito estufa de uma amostra de vinte
carros. As quantidades listadas estão em toneladas (por ano), expressas em equivalente de CO2.
8,5 – 5,0 – 4,0 – 7,0 – 8,0 – 9,0 – 1,5 – 4,5 – 10,0 – 6,5 – 6,0 – 7,5 – 5,5 – 9,5 – 8,5 – 70 – 9,0 –
8,5 – 3,0 – 20.
Qual é a mediana teórica da quantidade de gases de efeito estufa dessa amostra de carros?
Solução: primeiramente, vamos organizar o conjunto de dados em rol crescente. Assim, temos:
1,5 – 2,0 – 3,0 – 4,0 – 4,5 – 5,0 – 5,5 – 6 – 6,5 – 7,0 – 7,0 – 7,5 – 8,0 – 8,5 – 8,5 – 8,5 – 9,0 – 9,0
– 9,5 – 10,0

Note que temos um número par de elementos, e os dois termos centrais têm média aritmética
igual a 7,0. Portanto, a mediana é igual a 7,0 toneladas (por ano).

WWW.UNINGA.BR 23
EDUCAÇÃO A DISTÂNCIA

Acabamos de calcular a mediana para o caso em que os dados não estão agrupados.
Agora, vamos aprender a calcular a mediana para o caso em que os dados estão agrupados sem
intervalo de classe. Nessa situação, devemos executar os seguintes passos: (i) calcular a frequência
acumulada; (ii) determinar um valor tal, que divida a distribuição em dois grupos que contenham
o mesmo número de elementos. Vejamos o exemplo a seguir.

Exemplo 15

Os salários dos 40 funcionários de uma construtora, em 31 de dezembro de 2020, estavam


distribuídos segundo as informações da Tabela 11.

Tabela 11 – Distribuição de frequência salarial de uma construtora.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Fonte: O autor.

Determine a mediana dos salários dos funcionários da construtora.


Solução: para determinar o valor da mediana, primeiramente, vamos determinar a frequência
acumulada, como apresentado na Tabela 12, para o conjunto de dados. Assim:

Tabela 12 – Distribuição de frequências para os salários dos funcionários da construtora.

Fonte: O autor.

Daí, a posição da mediana será , ou seja, o valor pertence à 3ª classe e corresponde ao


salário de R$ 2.000,00. Portanto, a mediana do salário da construtora é igual a R$ 2.000,00.

WWW.UNINGA.BR 24
EDUCAÇÃO A DISTÂNCIA

Vejamos agora o caso do cálculo da mediana quando os dados estão agrupados em classe.
Nesse caso, usa-se a Eq. (11) de interpolação linear:

Eq. (11)

Nela: é o limitante inferior da classe mediana; é o número de elementos coletados na


pesquisa; é a frequência acumulada da classe anterior à classe mediana; é a frequência
absoluta da classe mediana; e é a amplitude da classe da mediana. Vejamos o exemplo seguinte.

Exemplo 16

A Tabela 13 apresenta a distribuição de frequência do percentual de redução da carga bacteriana,


empregando um novo desinfetante desenvolvido por um engenheiro químico. Determinar o
percentual mediano desse conjunto de dados.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Tabela 13 – Distribuição de frequência do percentual de redução da carga bacteriana,
empregando um novo desinfetante.

Fonte: O autor.

Solução: vamos, primeiramente, escrever a Tabela 14 com a coluna de frequência acumulada e


identificar a classe mediana. Assim:
Tabela 14 – Distribuições de frequência.

Fonte: O autor.

WWW.UNINGA.BR 25
EDUCAÇÃO A DISTÂNCIA

Depreende-se, da Tabela 14, que n = 40 e que a classe que contém a mediana é a segunda
(hachurada na Tabela 14). Para essa classe, temos: , , e
. Daí:

Portanto, o percentual de redução mediano foi de 23,45.


Logo, o valor mediano de redução da carga bacteriana, empregando um novo desinfetante, é
igual a 23,45%.

3. MEDIDAS DE SEPARATRIZES

Essas medidas são valores que ocupam posições no conjunto de dados, em rol, dividindo-o
em partes iguais e podendo ser:
(a) quartis – divide a série em quatro partes iguais. São assim representados Q1 (25% dos

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


dados coletados são valores menores ou iguais ao valor do primeiro quartil), Q2 (50% dos
dados coletados são valores menores ou iguais ao valor do segundo quartil, e é evidente
que Q2 coincide com a mediana) e Q3 (75% dos dados são valores menores ou iguais ao
valor do terceiro quartil).
(b) decis – divide a série em dez partes iguais. São assim representados: D1 (10% dos
dados são valores menores ou iguais ao valor do primeiro decil), D2 (20% dos dados são
valores menores ou iguais ao valor do primeiro decil), D3 (30% dos dados são valores
menores ou iguais ao valor do primeiro decil), D4 (40% dos dados são valores menores
ou iguais ao valor do primeiro decil), D5 (50% dos dados são valores menores ou iguais
ao valor do primeiro decil), D6 (60% dos dados são valores menores ou iguais ao valor do
primeiro decil), D7 (70% dos dados são valores menores ou iguais ao valor do primeiro
decil), D8 (80% dos dados são valores menores ou iguais ao valor do primeiro decil) e D9
(90% dos dados são valores menores ou iguais ao valor do primeiro decil).
(c) percentis - dividem o conjunto de dados em cem partes iguais. A seguir, são
apresentados alguns dos percentis mais usados: P5 (5% dos dados são valores menores
ou iguais ao valor do primeiro percentil), P10 (10% dos dados são valores menores ou
iguais ao valor do décimo percentil), P25 (25% dos dados são valores menores ou iguais
ao valor do percentil cinquenta), P50 (50% dos dados são valores menores ou iguais
ao valor do primeiro percentil), P75 (75% dos dados são valores menores ou iguais ao
valor do primeiro percentil), P90 (90% dos dados são valores menores ou iguais ao valor
do percentil noventa) e P95 (95% dos dados são valores menores ou iguais ao valor do
percentil noventa e cinco).

WWW.UNINGA.BR 26
EDUCAÇÃO A DISTÂNCIA

Exemplo 17

Um estudo conduzido para quantificar o percentual de rendimento, em óleo, do oleaginoso


girassol para a produção de biodiesel é apresentado na Tabela 15.

Tabela 15 – Rendimento percentual de extração de oleaginosas.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Fonte: O autor.

Com base nessas informações, determine:


a) o primeiro quartil.
b) o segundo decil.
c) o octogésimo percentil.

Solução: primeiro, temos de organizar os dados em rol. Note que a Tabela 15 já está organizada
em rol. Assim:
(a) para o primeiro quartil, temos que 25% dos valores são menores ou iguais ao valor do

primeiro quartil. Daí, . Note que a grandeza rendimento não é


inteira; então, arredondamo-la para cima. Assim, os percentuais de rendimento que ocupam
entre a 1ª e a 8ª posição formam primeiro quartil, ou seja, Q1 = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09;
3,73; 4,03}.
(b) para o segundo decil, temos que 20% dos valores são menores ou iguais ao segundo decil.

Daí, . Assim, os percentuais de rendimento que ocupam entre


a 1ª e a 6ª posição formam o segundo decil, ou seja, D2 = {1,59; 1,83; 1,93; 2,32; 2,71; 3,09}.
(c) para o octogésimo quinto percentil, temos que 80% dos valores são menores ou iguais a

80º percentil. Daí, . Assim, os percentuais de rendimento que


ocupam entre a 1ª e a 24ª posição formam o octogésimo percentil, ou seja, P80 = {1,59; 1,83;
1,93; 2,32; 2,71; 3,09; 3,73; 4,03; 4,25; 4,4; 4,5; 5,18; 5,2; 5,3; 5,34; 5,56; 6,04; 6,07; 6,09; 6,17;
7,33; 7,97; 8,1}.

WWW.UNINGA.BR 27
EDUCAÇÃO A DISTÂNCIA

4. MEDIDAS DE ASSIMETRIA E CURTOSE

A medida de assimetria é um indicador da forma da distribuição dos dados. Ao construir


uma distribuição de frequências e/ou um histograma, está-se buscando identificar visualmente a
forma da distribuição dos dados. Uma distribuição é classificada como:
(a) simétrica se média = mediana = moda. Esse caso é ilustrado pela Figura 6.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Figura 6 – Distribuição simétrica. Fonte: O autor.

(b) assimétrica negativa se média ≤ mediana ≤ moda. O lado mais longo do polígono
de frequência (cauda da distribuição) está à esquerda do centro, como apresentado na Figura 7.

Figura 7 – Distribuição assimétrica negativa. Fonte: O autor.

WWW.UNINGA.BR 28
EDUCAÇÃO A DISTÂNCIA

(c) assimétrica positiva se moda ≤ mediana ≤ média. O lado mais longo do polígono de
frequência está à direita do centro, como apresentado na Figura 8.

Figura 8 – Distribuição assimétrica positiva. Fonte: O autor.

Exemplo 18

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Os valores a seguir correspondem à força, em kN, aplicada em vinte e cinco corpos de prova,
feitos de um novo material e criados por um grupo de pesquisa constituído por engenheiros
mecânicos:
24 – 24 – 24 – 25 – 25 – 30 – 32 – 32 – 35 – 36 – 36 – 40 – 40 – 40 – 40 – 40 – 46 – 48 – 48 – 50
– 54 – 60 – 60 – 65
Verifique se esse conjunto de dados é simétrico ou assimétrico.
Solução: para esse conjunto de dados, temos que a média é igual a 40 kN, a mediana é igual a 40
kN, e a moda é igual a 40 kN (confira!). Assim, segue que essa distribuição é simétrica.

A medida de curtose é o grau de achatamento da distribuição, ou o quanto uma curva de


frequência será achatada em relação a uma curva normal de referência. Para o cálculo do grau
de curtose de uma distribuição, utiliza-se o coeficiente de curtose (ou coeficiente percentílico de
curtose), definido como na Eq. (12):

Eq. (12)

Nela: Q3 e Q1 são o terceiro e primeiro quartis; P90 e P10 são o décimo e nonagésimo
percentis. Quanto à curtose, a distribuição pode ser:

(a) Mesocúrtica – normal. Nem achatada, nem alongada e é tal que C = 0,263, como
apresentado na Figura 9.

Figura 9 – Curva mesocúrtica. Fonte: O autor.

WWW.UNINGA.BR 29
EDUCAÇÃO A DISTÂNCIA

(b) Platicúrtica – achatada e, nesse caso, C > 0,263, como ilustra a Figura 10.

Figura 10 – Curva platicúrtica. Fonte: O autor.

(c) Leptocúrtica – alongada e, nesse caso, C < 0,263, como ilustrado na Figura 11.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Figura 11 – Curva leptocúrtica. Fonte: O autor.

5. MEDIDAS DE DISPERSÃO

Agora, vamos discutir a dispersão ou variabilidade dos dados estudados. Essas medidas
incluem o estudo da amplitude total, da variância, do desvio-padrão e do coeficiente de variação.
Nossos objetivos aqui são determinar as medidas de dispersão, bem como sua interpretação.
Para iniciar nosso estudo, considere os seguintes conjuntos de dados:
A: 18, 18, 18, 18, 18
B: 16, 17, 18, 19, 20
C: - 47, - 37, - 2, 68, 108
A média aritmética de cada conjunto de dados é:

Note que, embora as médias aritméticas sejam iguais, existe diferença na dispersão desses
dados em relação à média. Temos que o conjunto de dados A é mais homogêneo que o conjunto
de dados B, que, por sua vez, é mais homogêneo que o conjunto de dados C. Ou seja, quando
comparamos esses conjuntos de dados de A para C, temos aumento na dispersão dos dados por
eles apresentados.
Daí, surge a necessidade de medir a dispersão ou variabilidade de um conjunto de dados.
As medidas de dispersão são: amplitude total, variância e desvio-padrão e coeficiente de variação.

WWW.UNINGA.BR 30
EDUCAÇÃO A DISTÂNCIA

5.1 Amplitude Total


A amplitude total (AT) de um conjunto de dados é a diferença entre o maior valor e o
menor valor, como pode ser visto na Eq. (13):

Eq. (13)

Trata-se de uma medida de dispersão muito sensível aos valores extremos e não tão útil
quanto as outras medidas de dispersão que estudaremos. Estudemos os exemplos seguintes.

Exemplo 19

Na Tabela 16, estão os valores, em rol, da tensão (em mV) desenvolvida por resistores idênticos
testados em laboratório. Determine a amplitude total desse conjunto de dados.

Tabela 16 – Tensão desenvolvida por resistores, em mV.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Fonte: O autor.

Solução: antes de calcular a amplitude total, primeiramente, devemos escrever os dados em rol.
Assim sendo, temos que:

Logo, o percentual de redução da carga bacteriana, empregando um novo desinfetante, é igual


a 77,13.

WWW.UNINGA.BR 31
EDUCAÇÃO A DISTÂNCIA

Exemplo 20

Na Tabela 17, estão os valores, em rol, da tensão (em mV) desenvolvida por resistores idênticos
testados em laboratório. Determine a amplitude total desse conjunto de dados.

Tabela 17 - Tensão desenvolvida por resistores, em mV.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Fonte: O autor.

Solução: nessa situação, em que os dados estão organizados por classe, a amplitude é dada por:
. Logo, a amplitude da tensão, desenvolvida pelos resistores em teste, é igual
a 78 mV.

5.2 Variância
A diferença entre cada valor observado e a média é denominada desvio e é dada por
, se o conjunto de dados for um universo, ou por se os dados forem amostrais. Ao
somar todos os desvios, ou seja, ao somar todas as diferenças de cada valor observado em relação
à média, o resultado é igual a zero. Isso significa que essa medida não mede a variabilidade dos
dados. Para resolver esse problema, consideramos o quadrado dos desvios em relação à média.
A variância é uma medida de dispersão estatística, determinando quão longe os valores
coletados estão em relação ao valor esperado. As variâncias populacional e amostral são calculadas
de acordo com as Eq. (14) e (15), respectivamente:

Eq. (14)

Eq. (15)

WWW.UNINGA.BR 32
EDUCAÇÃO A DISTÂNCIA

Nelas, é a variância populacional, é a variância amostral, é o valor da variável, é


a média aritmética dos elementos da população, é a média aritmética dos elementos da amostra,
N é o número de elementos da população, e n é o número de elementos da amostra.

Exemplo 21

O número de metros cúbicos de água, consumidos diariamente em um condomínio, é: 3 – 6 – 2


– 7 – 2. Determine a variância amostral para o consumo de água desse condomínio, em .
Solução: primeiramente, vamos determinar a média aritmética da amostra. Assim,

. Para obter o quadrado dos desvios, montamos a Tabela 18.

Tabela 18 – Tabela de desvios em relação à média.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Fonte: O autor.

Daí, segue que a variância amostral é:

Portanto, a variância é 5,5 2


.

Vejamos agora o cálculo da variância para o caso em que os dados estão agrupados sem
intervalo de classe. Nesse caso, a variância é dada pela Eq. (16):

Eq. (16)

Nela, é o ponto médio da classe considerada, n é o número de elementos da amostra, e


é a frequência absoluta.

WWW.UNINGA.BR 33
EDUCAÇÃO A DISTÂNCIA

Exemplo 22

Uma pesquisa é realizada pelo Departamento de Recursos Humanos da empresa ALPHA a


respeito do número de atestados médicos protocolados pelos funcionários ao longo do ano de
2020. Determine a variância amostral para esse conjunto de dados.

Tabela 19 – Número de atestados médicos protocolados pelos funcionários da ALPHA.

Fonte: O autor.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Solução: Para o cálculo da variância amostral, montamos a Tabela 20.

Tabela 20 – Valores calculados para determinação da variância amostral.

Fonte: O autor.

Assim, a variância amostral é

Logo, a variância da amostra é 1,05 atestado2.

Vejamos agora o cálculo da variância para o caso em que os dados estão agrupados com
intervalo de classe. Nesse caso, a equação da variância é dada por:

Eq. (17)

WWW.UNINGA.BR 34
EDUCAÇÃO A DISTÂNCIA

Na Eq. (17), é o ponto médio da classe considerada, n é o número de elementos da


amostra, e é a frequência absoluta da classe.

Exemplo 23

A Tabela 21 apresenta a distribuição de frequência do percentual de redução da carga bacteriana,


empregando um novo desinfetante desenvolvido por um engenheiro químico. Determine a
variância amostral desse conjunto de dados.

Tabela 21 - Percentual de redução da carga bacteriana.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Fonte: O autor.

Solução: para o cálculo da variância amostral, montamos a Tabela 22.

Tabela 22 – Cálculo de valores para determinação da variância amostral.

Fonte: O autor.
Assim, a variância amostral é:

Logo, a variância é 250,42 %2.

WWW.UNINGA.BR 35
EDUCAÇÃO A DISTÂNCIA

5.3 Desvio-Padrão
Vimos que a variância é calculada a partir dos quadrados dos desvios em relação à média
e que ela é um número cuja unidade está ao quadrado em relação à variável estudada, o que, sob o
aspecto prático, é inconveniente. O desvio-padrão é definido como a raiz quadrada da variância,
o que, do ponto de vista prático, é mais conveniente, pois, assim, a medida de dispersão tem a
mesma unidade da média. O desvio-padrão populacional e amostral é definido pelas Eq. (18) e
(19):

Eq. (18)

Eq. (19)

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Nelas, é desvio-padrão populacional, é a variância amostral, é o valor da variável,
é a média aritmética dos elementos da população, é a média aritmética dos elementos da
amostra, N é o número de elementos da população, e n é o número de elementos da amostra.
O desvio-padrão apresenta as seguintes propriedades:
(i) Adicionando (ou subtraindo) uma constante k de todos os valores da variável em
estudo, o desvio padrão não se altera.
(ii) Multiplicando todos os valores da variável em estudo por uma constante k, tal que
, o desvio-padrão fica multiplicado por essa constante.

Exemplo 24

No exemplo 21, verificamos que a variância foi . Assim, o desvio-padrão é


m3. Já, no exemplo 22, mostramos que a variância foi semanas2
e, daí, o desvio-padrão é igual a semanas. Finalmente, no exemplo 23,
verificamos que a variância foi %2 e, daí, o desvio-padrão é igual a %.

Quando todos os valores são iguais, o desvio-padrão é 0. Do contrário, o desvio-


padrão tem de ser positivo.

WWW.UNINGA.BR 36
EDUCAÇÃO A DISTÂNCIA

O coeficiente de variação (CV) é uma medida de dispersão relativa, o qual é definido


como sendo a razão entre o desvio-padrão e a média aritmética. O coeficiente de variação,
definido pela Eq. (20), é empregado na comparação do grau de concentração em torno da média
para duas ou mais séries estatísticas distintas. Dizemos que uma série é mais homogênea que
outra quando apresentar menor coeficiente de variação.

Eq. (20)

Nela, s é o desvio-padrão, e é a média aritmética.

Exemplo 25

Na Tabela 23, são apresentados os valores da concentração de partículas poluentes em duas


regiões distintas de uma grande cidade brasileira.

Tabela 23 – Concentração de partículas, em partes por bilhão (ppb).

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1


Fonte: O autor.

Qual das regiões apresenta mais homogeneidade nos dados?


Solução: vamos calcular os coeficientes de variação das concentrações das partículas poluidoras
das regiões A e B.

Como o coeficiente de variação da região A é menor que o da região B, segue que a concentração
de partículas poluidoras na região A é mais homogênea que a da região B.

Estatística Aplicada e Probabilidade para Engenheiros é elaborado para atender


aos estudantes de Engenharias, Física ou Química. Seus autores, Douglas
C. Montgomery e George C. Runger, usaram exemplos reais para lidar com a
variabilidade dos dados.

WWW.UNINGA.BR 37
EDUCAÇÃO A DISTÂNCIA

CONSIDERAÇÕES FINAIS

Chegamos ao final da Unidade 1. Nela, estudamos como organizar os dados em tabelas


e gráficos. Estudamos, também, as medidas de posição, que são valores que representam a
tendência de concentração dos dados observados. Na unidade, tratamos das seguintes medidas
de posição: média, moda e mediana. Aprendemos, também, sobre as medidas de dispersão,
que são utilizadas para indicar o grau de variação dos elementos de um conjunto numérico em
relação à sua média. Abordamos quatro medidas de dispersão: amplitude, desvio, variância e
desvio-padrão.  Assim, chegamos ao fim da unidade e podemos dar início à próxima, na qual
vamos discutir sobre probabilidade.
Até lá!

ESTATÍSTICA E PROBABILIDADE | UNIDADE 1

WWW.UNINGA.BR 38
UNIDADE ENSINO A DISTÂNCIA

02
DISCIPLINA:
ESTATÍSTICA E PROBABILIDADE

ESTUDO DA PROBABILIDADE E DAS


DISTRIBUIÇÕES DE PROBABILIDADE
PROF. DR. RICARDO CARDOSO DE OLIVEIRA

SUMÁRIO DA UNIDADE

INTRODUÇÃO ...............................................................................................................................................................40
1. INTRODUÇÃO À PROBABILIDADE........................................................................................................................... 41
2. AS REGRAS DA ADIÇÃO E MULTIPLICAÇÃO PARA O CÁLCULO DE PROBABILIDADE...................................... 51
3. DISTRIBUIÇÕES DISCRETAS DE PROBABILIDADE..............................................................................................66
3.1 A DISTRIBUIÇÃO DE PROBABILIDADE BINOMIAL .............................................................................................76
3.2 A DISTRIBUIÇÃO DE PROBABILIDADE DE POISON ..........................................................................................79
3.3 A DISTRIBUIÇÃO NORMAL PROBABILIDADE ....................................................................................................82
CONSIDERAÇÕES FINAIS............................................................................................................................................93

WWW.UNINGA.BR 39
EDUCAÇÃO A DISTÂNCIA

INTRODUÇÃO

Athanasios Papoulis, um engenheiro e matemático grego, que escreveu o livro Probability,


Random Variables and Stochastic Processes, usado nas principais escolas de engenharia do mundo,
disse: “As teorias científicas lidam com conceitos, não com a realidade. Embora elas sejam
formuladas para corresponder à realidade, esta correspondência é aproximada e a justificativa
para todas as conclusões teóricas é baseada em alguma forma de raciocínio indutivo”.
Desde o período dos primeiros estudos matemáticos sobre probabilidades até a metade do
século XX, surgiram várias aplicações da Teoria das Probabilidades, aplicações que chamamos de
clássicas, tais como: cálculo associado aos seguros de vida (cálculos atuariais); cálculos referentes
aos estudos de incidência de doenças infecciosas e o efeito da vacinação, como o caso recente
do COVID-19 (estudos demográficos); teoria de jogos, como loteria, carteados etc. Todas essas
teorias estão baseadas em probabilidades.
Há registros históricos de censos para fins de alistamento militar e de coleta de impostos,
realizados há mais de 4.000 anos, como é o caso do censo do imperador Yao, na China. Em todo

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


esse tempo, a estatística era usada meramente para o trabalho de exibição e síntese dos dados
colhidos pelo censo, ou seja, tratava-se da Estatística Descritiva, a qual não envolvia nenhum
trabalho probabilístico, pois todos os objetos do universo envolvido (a população) eram apenas
observados e medidos.
A primeira pessoa a pensar em medir/observar uma amostra e, a partir de análise
probabilista, estender os resultados dessa amostra para todo o universo foi Adolphe Quételet,
no ano de 1850. A partir dele, rapidamente surgiu a ideia de dar consistência mais rigorosa ao
método científico a partir de uma fundamentação probabilista para as etapas da coleta e análise
indutiva de dados científicos. Essa ideia é usada até hoje para a tomada de decisões.
Nesta unidade, serão abordados os conceitos básicos de probabilidade e alguns casos de
distribuição de probabilidade. Esperamos que você aproveite. Bons estudos.

WWW.UNINGA.BR 40
EDUCAÇÃO A DISTÂNCIA

1. INTRODUÇÃO À PROBABILIDADE

Ao estudar probabilidade, deparamo-nos com uma série de novos conceitos. A fim de


relembrar e elucidar esses conceitos, para melhor entendimento do estudo de probabilidade,
acompanhe as definições que seguem.

Definição 1 - Um experimento é um processo que permite ao pesquisador realizar


observações. Um evento é o conjunto de resultados de um dado experimento. Dizemos que
esse evento é um evento simples quando o evento, ou o resultado desse evento, não pode ser
decomposto em componentes mais simples. Por outro lado, um evento composto ocorre quando
o mesmo combina dois ou mais eventos simples.

Definição 2 - O espaço amostral, denotado por S, é o conjunto de todos os resultados


possíveis de um experimento. Vamos denotar o número de resultados possíveis do espaço
amostral por n(S).

Definição 3 - Um evento aleatório é qualquer subconjunto de um espaço amostral, ou

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


seja, trata-se de um resultado possível de um experimento aleatório e que não é previsível.
Acompanhe o exemplo que segue.

Exemplo 1

a) Considere o lançamento de uma moeda honesta. Nesse caso, o experimento é o lançamento


da moeda. Os resultados do experimento, sair cara ou sair coroa, são caracterizados como
eventos simples. O espaço amostral é S = {cara, coroa}.

b) Considere o lançamento simultâneo de três moedas honestas. Nesse caso, o experimento


é o lançamento da moeda. Denotando c por cara e k por coroa, segue que o espaço amostral

é . Os resultados desse experimento não são caracterizados como eventos

simples. Mas por quê? Com o lançamento simultâneo de três moedas, o evento sair duas caras
e uma coroa pode ser decomposto em eventos mais simples, como: , ou . Por
outro lado, o resultado é um evento simples uma vez que não pode ser decomposto em
resultados individuais. Aí, você poderia se perguntar: o evento não pode ser decomposto
em resultados individuais, tais como c, c e k? A pergunta é ótima, mas a forma de pensar
é incorreta, porque c, c e k não são resultados individuais do lançamento das três moedas.
Lembre-se: com o lançamento de três moedas, n(S) = 8, ou seja, há exatamente 8 resultados
possíveis de eventos simples que já foram listados em S.

WWW.UNINGA.BR 41
EDUCAÇÃO A DISTÂNCIA

Vamos continuar com as definições.


Definição 4 - Admita um evento A qualquer, dentro de um espaço amostral S. O evento
complementar de A, denotado por , é o evento que acontece caso o evento A não aconteça.
Definição 5 - Um evento equiprovável é aquele no qual cada ponto amostral tem a
mesma chance de ocorrência.

Exemplo 2

No lançamento simultâneo de três moedas honestas, o espaço amostral tem 8 elementos e é

igual a . Seja A o evento sair duas caras e uma coroa, ou seja,

, . Dessa forma, o evento complementar de A é

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


. Observe que, no espaço amostral S, todos os eventos
têm iguais chances de saírem, isto é, as chances de sair o evento é idêntica às chances de
saírem quaisquer outros eventos desse espaço amostral.

Definição 6 - Considere dois eventos distintos e quaisquer de um espaço amostral S,


digamos A e B. Dizemos que os eventos A e B são mutuamente exclusivos se, quando o evento
A acontece, o evento B não acontece, ou vice-versa. Em outras palavras, a ocorrência de um dos
eventos implica a não ocorrência do outro.

Definição 7 - Considere dois eventos distintos e quaisquer de um espaço amostral S,


digamos A e B. Dizemos que a união dos eventos A e B é formada pelos pontos amostrais que
pertencem a, pelo menos, um dos eventos. Em outras palavras, se o evento A ocorre ou se o
evento B ocorre ou se ambos os eventos ocorrem.

Definição 8 - Considere dois eventos distintos e quaisquer de um espaço amostral S,


digamos A e B. Dizemos que a interseção dos eventos A e B é formada pelos pontos amostrais que
pertencem simultaneamente aos dois eventos. Em outras palavras, os eventos A e B acontecem
nos dois eventos.

Na abordagem clássica de probabilidade, admitimos que um experimento seja constituído


de N eventos simples, distintos e equiprováveis, a que denominados de elementos do espaço
amostral. Seja A um evento qualquer desse espaço amostral S, tal que o número de modos que
o evento A possa ocorrer seja n. A probabilidade de o evento A ocorrer em n das N maneiras
possíveis é obtida pela razão entre o número de maneiras em que A pode ocorrer e o número
de elementos distintos de eventos simples de S. A Eq. (1) ilustra a definição de probabilidade em
abordagem clássica.

Eq. (1)

WWW.UNINGA.BR 42
EDUCAÇÃO A DISTÂNCIA

Ao efetuar cálculo de probabilidade, fique atento ao fato de que:


• a probabilidade de um evento impossível é nula.
• a probabilidade de um evento certo é igual a 1 (ou 100%).
• para qualquer evento X, a probabilidade de X está entre 0 e 1, inclusive.
• se P(X) denota a probabilidade de o evento X ocorrer, então, a probabilidade do
evento complementar de X é igual a

Exemplo 3

O baralho francês de 52 cartas, ilustrado na Figura 1, é constituído de 13 cartas de cada um dos


naipes franceses: paus, ouros, espadas e copas.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Figura 1 – Baralho francês de 52 cartas. Fonte: O autor.

Ao escolher aleatoriamente uma carta do baralho, qual a probabilidade de sair:


a) uma carta de paus?
b) uma figura?
c) uma figura de paus?
Solução:
a) Seja X o evento de sair uma carta de paus. Observe que ele pode ocorrer 13 vezes. Assim:

Portanto, a probabilidade de sair uma carta de paus é de 25%.


b) Seja Y o evento de sair uma figura (reis, damas e valetes). Observe que ele pode ocorrer 12
vezes. Assim:

Portanto, a probabilidade de sair uma figura é, aproximadamente, de 23,1%.


c) Seja Z o evento de sair uma figura de paus. Observe que ele pode ocorrer 3 vezes. Assim:

Portanto, a probabilidade de sair uma figura de paus é, aproximadamente, de 5,8%.

WWW.UNINGA.BR 43
EDUCAÇÃO A DISTÂNCIA

Exemplo 4

Considere o experimento do lançamento simultâneo de três moedas honestas para responder


às questões seguintes.
a) Qual a probabilidade de saírem três caras?
b) Qual a probabilidade de saírem duas coroas?
c) Qual a probabilidade de saírem duas coroas consecutivas?
d) Qual a probabilidade de não saírem duas coroas consecutivas?
Solução: o espaço amostral para esse experimento contém 8 elementos, a saber:
, em que c denota cara, e
k, coroa.
a) Seja A o evento de saírem três caras, isto é, . Observe que ele pode ocorrer 1 vez.
Assim:

Portanto, a probabilidade de saírem três caras é de 12,5%.


b) Seja B o evento de saírem duas coroas. Observe que ele pode ocorrer 4 vezes, a saber:

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


e . Assim:

Portanto, a probabilidade de saírem duas coroas é de 12,5%.


c) Seja C o evento de saírem duas coroas consecutivas. Observe que ele pode ocorrer 3 vezes. A
saber, e . Assim:

Portanto, a probabilidade de saírem duas coroas consecutivas é de 37,5%.


d) Observe que o evento de não saírem duas coroas consecutivas é o complemento do evento C,
isto é, trata-se de . Observe que ele pode ocorrer 5 vezes, a saber:
e . Assim:

Portanto, a probabilidade de não saírem duas coroas consecutivas é de 62,5%.


Note, nos itens (c) e (d), que .

WWW.UNINGA.BR 44
EDUCAÇÃO A DISTÂNCIA

Exemplo 5

Dois dados idênticos, honestos e com seis faces cada, são lançados simultaneamente. Com base
nessa informação, determine a probabilidade de que:
a) saia, pelo menos, um número 3.
b) a soma dos dois resultados seja igual a 5.
c) saia, pelo menos, um número 3 e a soma dos dois resultados seja igual a 5.
Solução: o espaço amostral contém 36 elementos, e a Tabela 1 o ilustra.

Tabela 1 – Espaço amostral para o lançamento de dois dados honestos e idênticos.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Fonte: O autor.

a) Seja X o evento de sair, pelo menos, um número 3. Observe que ele pode ocorrer 11 vezes.
Assim:

b) Seja Y o evento de a soma dos dois resultados ser igual a 5. Observe que ele pode ocorrer 4
vezes. Assim:

c) Observe, nesse caso, que o evento saia, pelo menos, um número 3 e a soma dos dois resultados
seja igual a 5 é a intersecção dos eventos X e Y dos itens (a) e (b). Observe que ele pode ocorrer
2 vezes, a saber: (3,2) e (2,3). Assim:

WWW.UNINGA.BR 45
EDUCAÇÃO A DISTÂNCIA

Exemplo 6

Em uma fábrica, existem 3 máquinas, A, B e C, que produzem diariamente 10.000 peças. Sabe-
se que A, B e C produzem, respectivamente, 2000, 5000 e 3000 peças. Da produção de A, B e
C, respectivamente, 5%,10% e 20% são defeituosas. Seleciona-se uma peça ao acaso e verifica-
se que é defeituosa. Determine a probabilidade de essa peça defeituosa ser proveniente da
máquina C.

Solução: segue do enunciado que o número de peças com defeitos das máquinas A, B e C são,
respectivamente, 100, 500 e 600, totalizando 1200. Seja X o evento de selecionar uma peça ao
acaso e essa ser proveniente da máquina C, temos que:

Portanto, a probabilidade de essa peça defeituosa ser proveniente da máquina C é de 50%.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Exemplo 7

Determine a probabilidade de que, quando um casal tem três filhos, exatamente dois deles
sejam meninas. Admita que meninos e meninas sejam igualmente prováveis e que o gênero de
uma criança não seja influenciado pelo gênero de qualquer outra criança.

Solução: primeiramente, vamos construir o espaço amostral e vamos denotar por X o evento
de virem a nascer exatamente 2 meninas. O espaço amostral para esse experimento contém 8
elementos, a saber: ,

em que A denota menina, e O denota menino. Observe que o espaço amostral contém 8
possibilidades, 3 correspondem a exatamente 2 meninas de modo que:

Portanto, é esperada a probabilidade de 37,5% de que, se um casal tem 3 filhos, exatamente 2


sejam meninas.

WWW.UNINGA.BR 46
EDUCAÇÃO A DISTÂNCIA

Exemplo 8

Uma urna contém de bolas brancas e de bolas pretas, sendo que somente metade das bolas

brancas e das bolas pretas contêm um prêmio em seu interior. Uma bola dessa urna é sorteada
aleatoriamente e, quando aberta, verifica-se que tem um prêmio em seu interior. Na situação
descrita, determine a probabilidade de que essa bola seja branca.

Solução: seja N o número de bolas no interior da urna. Dessas, são brancas e pretas.

De acordo com o enunciado, metade das bolas brancas contém prêmio, ou seja, .

Analogamente, das bolas pretas contêm prêmio, isto é, . Assim, temos

de bolas premiadas. Seja S o espaço amostral das bolas premiadas, segue que . Seja A
o evento de sorteio de bola branca, dentre as que contêm um prêmio, aplicando a Eq. (1)

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Portanto, a probabilidade de que a bola sorteada seja branca e contenha prêmio é de 60%.

No cálculo de probabilidade, é comum fazermos uso dos diagramas


de Venn para nos auxiliarem na resolução de situações-problema.
Assista ao vídeo Diagramas de Venn, do canal Brasil Escola, para
relembrar esse procedimento.
O vídeo está disponível em
https://www.youtube.com/watch?v=4OzeSbLNUqg .

WWW.UNINGA.BR 47
EDUCAÇÃO A DISTÂNCIA

Exemplo 9

Foi observado que uma loja de departamentos recebe, por hora, cerca de 250 clientes. Desses,
(i) 120 se dirigem ao setor de vestuário;
(ii) 90, ao setor de cosméticos;
(iii) 80, ao setor cinevídeo;
(iv) 50 se dirigem aos setores de vestuário e de cosméticos;
(v) 30 aos setores de cosméticos e de cinevídeo
(vi) 30, aos setores de vestuário e cinevídeo.
Observou-se, ainda, que 50 clientes se dirigem a outros setores, que não vestuário ou
cosméticos ou cinevídeo. Observou-se, ainda, que 50 clientes se dirigem a outros setores, que
não vestuário ou cosméticos ou cinevídeo. Qual a probabilidade de um cliente entrar nessa loja
de departamentos e se dirigir aos setores de vestuário, de cosméticos e de cinevídeo?
Solução: primeiramente, montamos o Diagrama de Venn, como ilustrado na Figura 2. Assim,
em seguida, determinamos o valor de x.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Figura 2 - Diagrama de Venn. Fonte: O autor.

Daí,

WWW.UNINGA.BR 48
EDUCAÇÃO A DISTÂNCIA

Assim, o diagrama de Venn fica como apresentado na Figura 3.

Figura 3 – Diagrama de Venn. Fonte: O autor.

Logo, se P(A) é a probabilidade de um cliente entrar nessa loja de departamentos e se dirigir

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


aos setores de vestuário, de cosméticos e de cinevídeo, então, segue que

A revista SUPERINTERESSANTE publicou, em agosto de 2012, uma matéria dedicada


à sorte. Os autores da reportagem, Alexandre de Santi e Cristine Kist, afirmam
que “Tudo é uma questão de probabilidade”. Leia essa reportagem, disponível
em http://super.abril.com.br/cotidiano/sorte-manual-instrucoes-701027.shtml.
Consulte, também, no site da Caixa Econômica Federal as probabilidades de você
ganhar na Mega Sena (disponível em http://www1.caixa.gov.br/loterias/loterias/
megasena/probabilidades.asp).

WWW.UNINGA.BR 49
EDUCAÇÃO A DISTÂNCIA

Outra maneira de se abordar a definição de probabilidade é por meio da frequência


relativa. Nessa situação, observamos (ou realizamos) um dado experimento e quantificamos o
número de vezes em que o evento X, por exemplo, ocorreu. Assim, a probabilidade de ocorrência
do evento X é aproximada por meio da Eq. (2).

Eq. (2)

Exemplo 10

A Tabela 2 apresenta dados de sobrevivência (em dias) de uma corte de animais acometidos
por uma doença aguda. Na primeira coluna, t corresponde aos dias, sendo t = 0 o dia em que a
contagem começou a ser feita. vt, na segunda coluna, é a quantidade de animais vivos no início
do dia t. dt, na terceira coluna, indica quantos animais morreram no decorrer do dia t.

Tabela 2 – Dados de sobrevivência de animais acometidos por uma doença aguda.

Fonte: O autor. ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Com referência a essas informações, julgue os itens que se seguem.
A) Se um animal que estivesse vivo no início do dia t = 4 fosse escolhido ao acaso, a probabilidade
de ele ter chegado vivo no dia t = 7 seria superior a 60%.
Solução: seja A o evento de o animal estar vivo. Assim, no dia 4, temos, inicialmente, 7.200
animais vivos. Do dia 4 até o início do dia 7, o número de animais que vieram a morrer foi de
3.150 (1.080 + 720 + 1.350). Aplicando a Eq. (2):

Daí, , ou seja, a probabilidade de o


animal estar vivo no dia 7 é de 56,25%, que é inferior a 60% e, portanto, a afirmação está errada.

WWW.UNINGA.BR 50
EDUCAÇÃO A DISTÂNCIA

B) Se um animal que estivesse vivo no início do dia t = 3 fosse escolhido ao acaso, a probabilidade
de ele ter morrido até o dia t = 6 seria superior a 50%.
Solução: seja A o evento de o animal estar vivo. Assim, no dia 3, temos, inicialmente, 8.000
animais vivos. Do dia 3 até o início do dia 7, o número de animais que vieram a morrer foi de
3.950 (800 + 1.080 + 720 + 1.350). Aplicando a Eq. (2):

Ou seja, a probabilidade de o animal que estava vivo no dia 3 vir a morrer até o dia 6 é de
49,375% e, portanto, a afirmação está errada.

C) Se um animal que estivesse vivo no início do dia t = 4 fosse escolhido ao acaso, a probabilidade
de ele morrer nesse dia seria igual a 15%.
Solução: seja B o evento de o animal vir a morrer no dia 4. Note que o número de animais que
morrem nesse dia é igual a 1.080, enquanto o número de animais no início desse dia é igual a
7.200. Assim, aplicando a Eq. (2):

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Logo, a probabilidade de o animal vir a morrer no dia 4 é de 15%, e a afirmação está correta.

2. AS REGRAS DA ADIÇÃO E MULTIPLICAÇÃO PARA O CÁLCULO DE


PROBABILIDADE

Discutimos até agora o cálculo de probabilidade de eventos simples, ou seja, calculávamos


a probabilidade de um evento A qualquer, contando o número de possibilidades dentro de um
espaço amostral S. Agora, vamos dar atenção aos eventos compostos, ou seja, vamos examinar
situações de contar resultados em “experimentos”. Isso significa que empregaremos as técnicas da
adição e da multiplicação para calcular a probabilidade desse evento.
Vamos começar com a técnica da adição. Suponha um experimento que seja composto
por dois eventos simples, tal que possamos realizar um evento 1 de p maneiras e o evento 2 de
q maneiras. Assim, podemos realizar o evento 1 OU o evento 2 (mas não os dois) de
maneiras. Por exemplo: se, em uma lista, há 5 vogais e 20 consoantes, então, podemos escolher
uma letra de 5 + 20 = 25 maneiras.
Considere um experimento que seja constituído por dois eventos simples que ocorrem
simultaneamente, digamos X e Y. Estamos interessados em determinar a probabilidade da
ocorrência do evento X ou da ocorrência do evento Y, isto é, ou, ainda, .A
Eq. (3) ilustra o procedimento de cálculo nessas situações.

Eq. (3)

WWW.UNINGA.BR 51
EDUCAÇÃO A DISTÂNCIA

Na Eq. (3), (ou ) denota a probabilidade de que os eventos X e Y


ocorram ao mesmo tempo na execução do experimento.
Podemos, ainda, estar interessados em determinar a probabilidade de três eventos simples
que ocorram simultaneamente, isto é, determinar a probabilidade de ocorrência do evento X ou
do evento Y ou do evento Z, isto é, A Eq. (4) ilustra o procedimento de cálculo
nessas situações:

Eq. (4)


Para facilitar a compreensão do tópico da adição de probabilidade, considere os exemplos
que seguem.

Exemplo 11

Considere um baralho convencional com 52 cartas, do Exemplo 3. Ao selecionar uma carta ao

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


acaso, qual a probabilidade de sair uma carta de paus ou uma figura?

Solução: já vimos, no Exemplo 3, que a probabilidade de sair uma carta de paus é ,

a probabilidade de sair uma figura é , e a probabilidade de sair uma figura de paus é

. Volte lá e confira! Observe que o evento Z, que fora definido no Exemplo 3, é


tal que . Daí, a probabilidade de sair uma carta de paus ou figura é calculada empre-
gando-se a Eq. (3):

Portanto, ao selecionar uma carta ao acaso, a probabilidade de sair uma carta de paus ou uma
figura é de 42,3%.

WWW.UNINGA.BR 52
EDUCAÇÃO A DISTÂNCIA

Exemplo 12

Considere o experimento do lançamento simultâneo de três moedas honestas.


Qual a probabilidade de saírem duas caras consecutivas ou exatamente uma coroa?
Solução: o espaço amostral para esse experimento contém 8 elementos, a saber:
. Seja A o evento de
saírem duas caras consecutivas. Observe que ele pode ocorrer 4 vezes, a saber: e
. Assim, aplicando a Eq. (1):

Seja B o evento de sair exatamente uma coroa. Observe que ele pode ocorrer 3 vezes, a saber:
e . Assim, aplicando a Eq. (1):

Seja C o evento obtido da intersecção dentre os eventos A e B, isto é, . O evento C


consiste em saírem duas caras consecutivas e uma coroa. Note que isso ocorre 2 vezes, a saber:

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


e . Assim, aplicando a Eq. (1):

Daí, a probabilidade de saírem duas caras consecutivas ou exatamente uma coroa é calculada
empregando-se a Eq. (3):

Portanto, no lançamento simultâneo de três moedas honestas, a probabilidade de lançamento


simultâneo de três moedas honestas é de 50,0%.

Agora, vamos para a técnica da multiplicação. Suponha um experimento que seja


composto de dois eventos simples, tal que possamos realizar um evento 1 de maneiras e o
evento 2 de maneiras. Assim, podemos realizar o evento 1 e o evento 2 de maneiras. Por
exemplo: se, em uma lista, há 5 vogais e 20 consoantes, então, podemos escolher uma consoante
seguida de uma vogal para compor uma sílaba, e isso pode ser feito de maneiras.
Considere um experimento que seja constituído por dois eventos simples que ocorram
simultaneamente, digamos X e Y. Estamos interessados em determinar a probabilidade da
ocorrência do evento X e da ocorrência do evento Y, isto é, ou, ainda, . A Eq.
(5) ilustra o procedimento de cálculo nessas situações:

Eq. (5)

Quando aplicamos a Eq. (5), temos de ter em mente que os eventos X e Y são independentes,
isto é, a ocorrência de um não afetará a ocorrência do outro. Na prática, essa observação manifesta-
se com a reposição dos elementos sorteados. O resultado da Eq. (5) pode ser estendido para N
eventos independentes e simples.

WWW.UNINGA.BR 53
EDUCAÇÃO A DISTÂNCIA

Exemplo 13

Em uma avaliação, um aluno deve responder às duas questões seguintes.

1) Verdadeiro ou Falso: “Intenção significa propósito/desejo enquanto intensão significa


intensidade/força”.
2) Numa quarta-feira, André foi à caça. Numa quinta, matou o coelho. Numa sexta, levou
o coelho para casa e, no dia seguinte, comeu-o. Em qual dia da semana André comeu
o coelho?
(a) quarta-feira
(b) quinta-feira
(c) sexta-feira
(d) sábado
(e) domingo
Admitindo que o aluno que responderá ao questionário o faça de forma aleatória em ambas as

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


questões, qual a chance de ele acertar as duas?

Solução: a primeira questão é verdadeira e, na segunda, é correta a alternativa (c). Observe que
o espaço amostral para a primeira questão é R = {V, F}, e a probabilidade de essa pessoa acertar

a questão é . Já, na segunda questão, temos 5 possibilidades de alternativas


(o espaço amostral é W = {(a), (b), (c), (d), (e)}) para uma possibilidade de a alternativa estar

correta. Assim, a probabilidade de a pessoa acertar a segunda questão é .


Logo, a probabilidade de acertar ambas as questões é calculada por meio da Eq. (5):

Outra maneira de resolver essa questão é considerar o espaço amostral desse experimento:

e, agora, considerar que X seja o evento de acertar ambas

as questões. Daí, .

WWW.UNINGA.BR 54
EDUCAÇÃO A DISTÂNCIA

Exemplo 14

Uma bomba centrífuga, que opera em uma refinaria, tem 60% de chances de não cavitar e 80%
de chances de não apresentar problemas mecânicos em seu rotor. Qual a probabilidade de
essa bomba centrífuga não desenvolver nenhum dos problemas citados (cavitação e problema
técnico no rotor)?

Solução: sejam X e Y os eventos de a bomba centrífuga não entrar em cavitação e apresentar


algum problema mecânico no rotor, respectivamente. Assim, P(X) = 0,60 e P(Y) = 0,80. A
probabilidade de que essa bomba centrífuga não desenvolva as duas falhas é calculada pela Eq.
(5):

Portanto, a probabilidade de essa bomba centrífuga não desenvolver nenhum dos problemas
citados é de 48%.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Exemplo 15

De um baralho francês com 52 cartas, são retiradas, com reposição, três cartas. Qual a
probabilidade de que as três cartas sejam de paus?

Solução: seja B o evento de sortear aleatoriamente uma carta de paus do baralho. Assim, P(B)
é calculada pela Eq. (1):

Agora, ao retirar três cartas, com reposição, a probabilidade de as três serem de paus é calculada
pela Eq. (5):

WWW.UNINGA.BR 55
EDUCAÇÃO A DISTÂNCIA

Exemplo 16

Um trocador de calor passará por três serviços de manutenção no próximo ano. Apenas duas
empresas prestam tais serviços: a empresa X e a empresa Y. Na ocasião da realização de cada
um dos serviços, o engenheiro mecânico escolherá qual das duas empresas irá realizá-lo. Sabe-
se que a probabilidade de a empresa X ser escolhida para realizar um serviço é quatro vezes
maior do que a probabilidade de a empresa Y ser escolhida para realizar o mesmo serviço.
Determine a probabilidade de todos os três serviços de manutenção, previstos para o ano que
vem, serem realizados por uma mesma empresa.
Solução: observe que a seleção das empresas X e Y são eventos independentes, ou seja, a escol-
ha de uma empresa para realizar um serviço não afeta a escolha dessa empresa ou da outra para
efetuar os demais serviços. Assim, a probabilidade de apenas a empresa X realizar os serviços é
calculada por meio da Eq. (5), considerando três eventos simples:

em que , e são as probabilidades de a empresa X realizar os serviços , e


, respectivamente. Assim:

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Já a probabilidade de apenas a empresa Y realizar os serviços é calculada de modo análogo. Daí:

Portanto, a probabilidade de todos os três serviços de manutenção, previstos para o ano que
vem, serem realizados por uma mesma empresa é calculada como segue:

Assim, a probabilidade de apenas uma empresa realizar todo o serviço é de 52%.

WWW.UNINGA.BR 56
EDUCAÇÃO A DISTÂNCIA

Exemplo 17

Uma urna contém 4 bolinhas numeradas com os números 1, 3, 5 e 7. Uma bolinha é sorteada
ao acaso, tem seu número observado e é recolocada na urna. Em seguida, uma segunda bolinha
é sorteada ao acaso. Considere as seguintes probabilidades:
• P1: probabilidade de que o número da primeira bolinha esteja entre 4 e 6, excluindo 4
e 6.
• PM: probabilidade de que a média aritmética dos dois números sorteados esteja entre 4
e 6, excluindo 4 e 6.
Determine o valor de P1 + PM.
Solução: vamos calcular P1 e PM de formas separadas.
i) Seja A o evento de a primeira bolinha estar entre 4 e 6, excluindo 4 e 6, ou seja, ser o número
5. Essa probabilidade é calculada pela Eq. (1):

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


ii) Seja B o evento de a média aritmética dos dois números sorteados estar entre 4 e 6, isto é, ser
igual a 5. Note que média 5 pode sair quando saírem (5 e 5) ou (3 e 7) ou (7 e 3). Assim:

Logo, .

WWW.UNINGA.BR 57
EDUCAÇÃO A DISTÂNCIA

Exemplo 18

De um baralho francês com 52 cartas, são retiradas, sem reposição, três cartas. Qual a
probabilidade de que as três cartas sejam de paus?
Solução: seja A o evento de sortear aleatoriamente a primeira carta de paus do baralho. Assim,
P(A) é calculada pela Eq. (1):

(porque há 13 cartas de paus, em 52 cartas disponíveis). Seja B o evento de sortear aleatoriamente


a segunda carta de paus do baralho. Assim, P(B) é calculada pela Eq. (1):

(porque há 12 cartas de paus, em 51 cartas disponíveis). Seja C o evento de sortear aleatoriamente


a terceira carta de paus do baralho. Assim, P(C) é calculada pela Eq. (1):

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Assim, a probabilidade de que as três cartas sejam de paus é

Exemplo 19

Andressa tem três pretendentes: André, José e Ricardo. A probabilidade de que André convide
Andressa para um jantar é de 1/4, enquanto as mesmas probabilidades para José e Ricardo
são 1/3 e 1/2, respectivamente. Caso as pretensões entre os pretendentes sejam independentes
entre si, qual a probabilidade de que Andressa não seja convidada para um jantar por nenhum
de seus pretendentes?
Solução: a probabilidade de Andressa não ser convidada para um jantar por qualquer um de
seus pretendentes constitui um evento independente. Sejam A, J e R os eventos de Andressa
não ser convidada para jantar por André, José e Ricardo, respectivamente.
Temos que , e , respectivamente. Daí, a probabilidade
de que Andressa não seja convidada para um jantar por nenhum de seus pretendentes é
.

WWW.UNINGA.BR 58
EDUCAÇÃO A DISTÂNCIA

Até agora, aplicamos a regra da multiplicação para situações em que os eventos são
independentes. No entanto, há outra situação importante a ser levada em consideração: são as
situações em que temos de ajustar a probabilidade do segundo evento para refletir o resultado
do primeiro, isto é, os eventos são dependentes. Essa situação é denominada de probabilidade
condicional.
Considere, agora, o experimento que seja constituído de dois eventos simples e
independentes, digamos X e Y. Estamos interessados em determinar a probabilidade de o evento
Y ocorrer dado que o evento X já ocorreu. Esse fato é denotado por , lê-se a probabilidade
de o evento Y ocorrer depois que o evento X ocorreu, e a Eq. (6) permite o cálculo dessa
probabilidade.

Eq. (6)

Exemplo 20

No estoque de uma empresa de saneamento de grande porte, há trinta bombas centrífugas.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Seis delas, no entanto, estão defeituosas. Um engenheiro seleciona aleatoriamente duas dessas
bombas centrífugas. Considerando-se que, uma vez selecionadas, não há reposição de qualquer
das bombas centrífugas, qual a probabilidade de ambas serem defeituosas?

Solução: observe que o resultado da escolha da segunda bomba centrífuga defeituosa é


influenciado pelo resultado da escolha da primeira. Seja X o evento de selecionar aleatoriamente
uma bomba centrífuga defeituosa, segue da Eq. (1) que:

Após a escolha de uma bomba centrífuga defeituosa na primeira seleção, temos 29 restantes,
incluindo 5 defeituosas. Considere, agora, que Y seja o evento da seleção da segunda bomba
centrífuga defeituosa, dado que a primeira já foi feita. A probabilidade de a segunda ser
defeituosa é:

Logo, a probabilidade de que ambas sejam defeituosas é determinada usando-se a Eq. (6):

WWW.UNINGA.BR 59
EDUCAÇÃO A DISTÂNCIA

Exemplo 21

Um baralho comum consiste em 52 cartas, separadas em 4 naipes, com 13 cartas de cada


naipe. Considere um baralho perfeitamente embaralhado (disposição aleatória de cartas). A
probabilidade de que as primeiras quatro cartas do topo do baralho sejam de naipes diferentes
está indicada na expressão:

(a) (b) (c) (d) (e)


Solução: para tirar as quatro cartas do baralho, temos 52 possibilidades na primeira retirada,
51 na segunda, 50 na terceira e 49 na quarta. Seja A o evento de sortear aleatoriamente a
primeira carta do baralho. Assim, P(A) é calculada pela Eq. (1):

Seja B o evento de sortear aleatoriamente a segunda carta do baralho com naipe diferente do da
primeira retirada. Note que, nessa situação, há 39 possibilidades de escolha, porque um tipo de
naipe já saiu na primeira retirada, e eliminamos as 13 possibilidades do naipe sorteado. Assim,

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


P(B) é calculada pela Eq. (1):

Sejam C e D os eventos de sortear aleatoriamente a terceira e a quarta cartas do baralho com


naipe diferente dos demais sorteios. De forma análoga à calculada pelo evento B, empregamos
a Eq. (1):

Como os eventos A, B, C e D são dependentes, segue que a probabilidade de que as primeiras


quatro cartas do topo do baralho sejam de naipes diferentes é calculada por meio da Eq. (5)
para quatro eventos simples:

Portanto, a alternativa c é a correta.

WWW.UNINGA.BR 60
EDUCAÇÃO A DISTÂNCIA

Exemplo 22

Dentre as doenças transmitidas por mosquitos, a dengue é a que vem se alastrando mais
rapidamente pelo globo: em 50 anos, o número de casos aumentou 30 vezes, sendo que 70%
estão concentrados no Sudeste asiático e nas ilhas do Pacífico. Menos de 1% das infecções evolui
para óbito, mas, na última década, dez países entraram para a lista dos afetados pela doença,
tais como Sri Lanka, Nepal, Timor-Leste, Indonésia e Tailândia. A resistência dos mosquitos
aos inseticidas disponíveis e o surgimento do sorotipo 4 do vírus vêm desafiando a comunidade
científica a criar formas de contenção da doença. A Tabela 3 apresenta os resultados de um
exame para detecção da dengue (o método Elisa IgM e IgG), realizado em alguns pacientes em
um hospital público hipotético.

Tabela 3 – Resultados do exame Elisa IgM e IgG para detecção da dengue.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Fonte: O autor.

Com base nessas informações, resolva os itens seguintes.


a) Se um paciente é escolhido ao acaso, determine a probabilidade de o resultado do exame
apresentar resultado positivo, dado que ele estava doente.
b) Se um paciente é escolhido ao acaso, determine a probabilidade de ele estar doente, dado
que o exame apresentou resultado positivo.
Solução: observe que temos 196 pacientes. Considere que X e Y sejam os eventos de o paciente
estar contaminado e de o resultado do exame ser positivo, respectivamente. Aplicando a Eq. (1)
nos resultados da Tabela 3, segue que:

WWW.UNINGA.BR 61
EDUCAÇÃO A DISTÂNCIA

Observe, ainda na Tabela 3, que a probabilidade de o paciente estar contaminado e apresentar


resultado positivo no exame é:

a) A probabilidade de o resultado do exame apresentar resultado positivo, dado que o paciente


estava contaminado, pode ser escrita como . Fazendo uso da Eq. (6), temos:

Esse resultado indica que o paciente que está contaminado tem 82,4% de probabilidade de
apresentar o resultado do exame positivo.
b) A probabilidade de o paciente estar contaminado, dado que o exame apresentou resultado
positivo, pode ser escrita como . Fazendo uso da Eq. (6), temos

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Esse resultado mostra que um paciente que apresenta resultado positivo no teste tem 73,7% de
probabilidade de estar contaminado.

Uma maneira de facilitar a compreensão do espaço amostral de dois ou mais eventos é


por meio do diagrama de árvore (também chamado de árvore de possibilidades), apresentado
na Figura 4. Nele, é possível observar, de uma maneira mais conveniente e organizada, o conjunto
de eventos condicionais. Cada nó no diagrama de árvore representa um evento e está associado
à probabilidade desse evento.

Figura 4 – Diagrama de árvore. Fonte: O autor.

WWW.UNINGA.BR 62
EDUCAÇÃO A DISTÂNCIA

Exemplo 23

A eficácia de um teste de laboratório para checar uma nova doença nas pessoas que
comprovadamente têm essa doença é de 85%. Esse mesmo teste, no entanto, produz um
falso-positivo (acusa positivo quando não tem comprovadamente a doença) da ordem de 2%.
Em uma comunidade, a incidência dessa doença é de 5%. Ao selecionar uma pessoa nessa
comunidade para realizar o teste, qual a probabilidade de que o resultado desse exame seja
positivo?
Solução: vamos resumir as informações do enunciado no diagrama de árvore da Figura 5.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Figura 5 – Diagrama de árvore. Fonte: O autor.

Sejam X e Y os eventos de a pessoa estar doente e testar positivo no exame, respectivamente.


Assim, a probabilidade de que o resultado desse exame seja positivo (independentemente de
estar doente ou sadio) é:

Portanto, a probabilidade de o resultado do exame ser positivo é de 6,15%.

WWW.UNINGA.BR 63
EDUCAÇÃO A DISTÂNCIA

Exemplo 24

Uma questão de Cálculo II é de múltipla escolha e tem cinco alternativas. Dos alunos de uma
turma de Engenharia, metade sabe resolver a questão, enquanto os demais “chutam” a resposta.
Um aluno da turma é escolhido ao acaso. Qual a probabilidade de que o aluno escolhido tenha
“chutado” a questão, dado que ele acertou a questão?

Solução: sejam X e Y os eventos de os alunos saberem resolver a questão e de acertarem a


questão, respectivamente. Se o aluno sabe resolver a questão, então, ele acertará a questão.
Logo, (a probabilidade de acertar dado que sabe é de 100%). Por outro lado, se
o aluno não sabe resolver a questão, então, ele tem 20% de acertar. Assim, (a
probabilidade de acertar dado que não sabe é de 20%). Podemos montar o diagrama de árvore
apresentado na Figura 6.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Figura 6 – Diagrama de árvore. Fonte: O autor.

Observe, no diagrama de árvore, que 60% da turma podem acertar a questão, sendo que 10%
“chutaram”. Assim, a probabilidade de que o aluno escolhido tenha “chutado” a questão, dado
que ele acertou a questão, é calculada pela Eq. (6):

Portanto, a probabilidade de que o aluno escolhido tenha “chutado” a questão, dado que ele
acertou a questão, é de, aproximadamente, 16,7%.

Agora, vamos estudar o cálculo da probabilidade de situações em que, no espaço amostral,


pelo menos uma forneça o resultado desejado. Para determinar a probabilidade de pelo menos um,
é equivalente dizer um ou mais. Assim, considere X o evento de “pelo menos um” acontecer e seja
o evento complementar de X, isto é, denota o evento de que nenhum dos resultados seja o
evento considerado. Logo:

Eq. (7)

WWW.UNINGA.BR 64
EDUCAÇÃO A DISTÂNCIA

Exemplo 25

Ao preparar um teste, um professor avaliou as probabilidades de três de seus alunos acertarem


um determinado problema em 50%, 40% e 80%. Se os três alunos, separadamente, tentarem
resolver o problema, qual é a probabilidade de ele ser resolvido corretamente por, pelo menos,
um desses alunos?
Solução: sejam A, B e C os eventos de os alunos acertarem o problema, então,
, e . Por outro lado, a probabilidade de cada um dos
alunos errar o problema é , e . A Eq. (5) permite
determinar a probabilidade de os três alunos errarem o problema:

Logo, a probabilidade de, pelo menos, um dos alunos acertar o problema é calculada pela Eq.
(7):

Exemplo 26

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Tabela 4 – Distribuição de idade dos alunos da 8ª série.

Fonte: O autor.

Na Tabela 4, que mostra a distribuição das idades dos alunos do 8º ano de uma escola, a média
aritmética das idades é igual a 13. A respeito desses estudantes e de suas idades, julgue o item
que segue.
“Se dois estudantes da turma forem aleatoriamente escolhidos para participar do coral da escola,
a probabilidade de pelo menos um deles ter menos de 13 anos de idade é igual a 8/13”.
Solução: note que a turma contém 40 alunos, sendo 15 com 12 anos e 25 com 13 anos ou mais.
Seja X o evento de o aluno selecionado ter 13 anos ou mais. Ao selecionar o primeiro aluno, a
probabilidade de ele ter 13 anos ou mais é:

Ao selecionar o segundo aluno, a probabilidade de ele ter 13 anos ou mais é:

Daí, a probabilidade de que ambos tenham 13 anos ou mais é calculada pela Eq. (5):

Logo, a probabilidade de que, pelo menos, um tenha menos de 13 anos é calculada por meio
da Eq. (7), como segue:

WWW.UNINGA.BR 65
EDUCAÇÃO A DISTÂNCIA

Exemplo 27

Em uma pescaria, os pescadores Alberto, Bruno e Carlos colocavam os peixes que pescavam
em um mesmo recipiente. Ao final da pescaria, o recipiente continha 16 piaus e 32 piaparas.
Na divisão dos peixes, cada um deles afirmou que teria pescado mais peixes que os outros dois.
Julgue o item a seguir a respeito dessa situação.
“Na situação dada, se 2 peixes fossem retirados do recipiente, aleatoriamente, a probabilidade

de que, pelo menos, um fosse um piau seria maior que ”


Solução: note que, no recipiente, havia 48 peixes, sendo 16 piaus e 32 piaparas. Seja Y o
evento de o peixe selecionado ser uma piapara. Ao selecionar o primeiro peixe do recipiente, a
probabilidade de ele ser uma piapara é:

Ao selecionar o segundo peixe do recipiente, a probabilidade de ser outra piapara é:

Daí, a probabilidade de que ambos sejam piaparas é calculada pela Eq. (5):

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Logo, a probabilidade de que, pelo menos, um seja piau é calculada por meio da Eq. (7), como
segue:

3. DISTRIBUIÇÕES DISCRETAS DE PROBABILIDADE

Considere o lançamento simultâneo de duas moedas não viciadas. O espaço amostral


desse evento é S = {(C,C); (C,K); (K,C); (K,K)}. O foco de estudo agora é atribuir uma descrição
numérica aos resultados desse experimento. A Tabela 5 apresenta o espaço amostral e a descrição
numérica da probabilidade de cada evento ocorrer.

Tabela 5 – Espaço amostral e probabilidade para o lançamento simultâneo de duas


moedas não viciadas.
Espaço amostral Probabilidade
(C,C) 1/4
(C,K) 1/4
(K,C) 1/4
(K,K) 1/4
Fonte: O autor.

WWW.UNINGA.BR 66
EDUCAÇÃO A DISTÂNCIA

Nesse sentido, estamos interessados em encontrar uma função que corresponda ao


resultado desse experimento. Por se tratar de uma função (semelhante àquela ideia de função
das aulas de matemática: ), necessitamos definir alguns conceitos. Acompanhe as
definições que seguem.

Definição 9 - Uma variável aleatória é uma variável que descreve o valor correspondente
ao resultado de um experimento, isto é, trata-se de uma variável que assume valor numérico único,
que é determinado pelo acaso para cada resultado de um experimento e, em geral, é representada
por x. A representação gráfica, de tabela e por equação da descrição da probabilidade para cada
valor da variável aleatória, é denominada de distribuição de probabilidade.

Definição 10 - Uma variável aleatória discreta é aquele tipo de variável cujos valores
assumidos são ou finito ou infinito enumerável. Por outro lado, uma variável aleatória contínua
é aquele tipo de variável que possui infinitos valores em uma escala contínua.

Exemplo 28

São exemplos de variáveis aleatórias discretas: o número de inadimplentes dentre 1.000 pessoas

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


que pegaram empréstimo num banco, o número de consultas ao médico num determinado
ano, o número de pessoas infectadas com um vírus, o número de caras no lançamento de
dados, dentre outros. São exemplos de variáveis aleatórias contínuas: altura de um ser humano,
a tensão da bateria de um carro, o volume de óleo extraído em um processo industrial, a
velocidade de decolagem de um avião, dentre outras.

Definição 11 - Se x assume todos os valores possíveis dos resultados de um experimento,


e P denota a probabilidade de um dado evento, então, para uma distribuição de probabilidade, é
válido que e .

WWW.UNINGA.BR 67
EDUCAÇÃO A DISTÂNCIA

Exemplo 29

No caso do lançamento simultâneo de duas moedas, os resultados são apresentados na Tabela 6.


Faça X o número de coroas que saíram nos lançamentos. Assim, a distribuição de probabilidade
é:
Tabela 6 – Resultados dos lançamentos de duas moedas.

Fonte: O autor.

Note que a probabilidade de não sair nenhuma coroa é de 1/4, a probabilidade de sair apenas
uma coroa é de ½, e a probabilidade de saírem duas coroas é de 1/4. Note, também, que

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


e o que caracteriza a distribuição de probabilidade. O histograma
de probabilidade é apresentado na Figura 7.

Figura 7 – Distribuição de probabilidade do lançamento de duas moedas. Fonte: O autor.

Nas distribuições de probabilidades, a média, a variância e o desvio-padrão podem ser


determinados pelas equações que seguem.

Eq. (8)

WWW.UNINGA.BR 68
EDUCAÇÃO A DISTÂNCIA

Nela, é a média para uma distribuição de probabilidade. A média de uma variável


aleatória também é chamada de valor esperado ou esperança e é denotada por E(x). A Eq. (8)
é empregada em situações em que a variável aleatória é discreta. Caso a variável aleatória seja
contínua, é empregada a equação (9):

Eq. (9)

Eq. (10)

Nela, é a variância para uma distribuição de probabilidade.

Eq. (11)

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Nela, s é o desvio-padrão para uma distribuição de probabilidade.

WWW.UNINGA.BR 69
EDUCAÇÃO A DISTÂNCIA

Exemplo 30

Para a distribuição de probabilidade do Exemplo 29, determine a média, a variância e o desvio-


padrão.
Solução: a partir das informações já calculadas, construímos a Tabela 7.

Tabela 7 – Cálculo da média da distribuição de probabilidade.

Fonte: O autor.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


A média é calculada por meio da Eq. (8):

Logo, a média ou esperança é igual a 1. Agora, vamos calcular a variância e, para isso,
construímos a Tabela 8.
Tabela 8 - Cálculo da variância da distribuição de probabilidade.

Fonte: O autor.

A variância é calculada por meio da Eq. (9):

O desvio-padrão é calculado por meio da Eq. (10):

WWW.UNINGA.BR 70
EDUCAÇÃO A DISTÂNCIA

Exemplo 31
Em um call center, há 10 atendentes. Estudos preliminares garantem que a probabilidade de
um desses funcionários estar em atendimento é de 60%. Determine a função que descreve a
probabilidade de os atendentes estarem em atendimento.
Solução: segue que a probabilidade de:
i) nenhum atendente estar em atendimento é
ii) um atendente estar em atendimento é
iii) dois atendentes estarem em atendimento é
iv) três atendentes estarem em atendimento é
v) quatro atendentes estarem em atendimento é
vi) cinco atendentes estarem em atendimento é
vii) seis atendentes estarem em atendimento é
viii) sete atendentes estarem em atendimento é
ix) oito atendentes estarem em atendimento é
x) nove atendentes estarem em atendimento é

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


xi) dez atendentes estarem em atendimento é
Assim, construímos a tabela de distribuição de probabilidade (Tabela 9) e o histograma de
probabilidade (Figura 8).

Tabela 9 - Distribuição de probabilidade.

Fonte: O autor.

WWW.UNINGA.BR 71
EDUCAÇÃO A DISTÂNCIA

Figura 8 – Histograma de distribuição de frequência. Fonte: O autor.

Por inspeção, constata-se que a função que descreve a distribuição de probabilidade é:

Exemplo 32

Uma variável aleatória X tem função de densidade de probabilidade dada por , se

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Determine a média de X.

Solução: aplicando a Eq. (9), segue que:

Observe que a integral imprópria é divergente.

Exemplo 33

A proporção de álcool em certo composto pode ser considerada uma variável aleatória, com a
seguinte função de densidade: f(x) = ax3(1-x), 0 ≤ x ≤ 1. Nessas condições, determine o valor
de a.
Solução: sabemos que, se x assume todos os valores possíveis em [0, 1], então, .A
variável aleatória em apreço é contínua e, dessa maneira, devemos ter que:

Assim, integrando e aplicando o teorema fundamental do cálculo:

Portanto, a = 20.

WWW.UNINGA.BR 72
EDUCAÇÃO A DISTÂNCIA

Sejam X e Y variáveis aleatórias independentes, E a esperança (ou média), a variância,


e k uma constante real, então, são válidas as seguintes propriedades:
i)
ii)
iii)
iv)
v)
vi)
vii)

Exemplo 34

As variáveis aleatórias X e Y são independentes. A variável X segue uma distribuição Normal,


com média 4 e variância 16, e a Y segue uma distribuição Normal, com média 9 e variância 1.
Assumindo que a distribuição de X - Y seja Normal, determine a média e variância de X – Y.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Solução: depreende-se do enunciado que e . Aplicando-se as proprie-

dades (iii) e (vii), temos que . Portanto, a média é igual a -5, e a


variância é igual a 17.

Uma regra empírica e simples, que nos permite compreender melhor a ideia do desvio-
padrão, é a regra empírica da amplitude. Essa regra afirma que, para muitos conjuntos de dados,
a maior parte dos valores amostrais está localizada até dois desvios-padrão da média. Assim:

WWW.UNINGA.BR 73
EDUCAÇÃO A DISTÂNCIA

Exemplo 35

Em uma urna, há seis bolas idênticas em tamanho e textura, mas que se diferem pela cor. Desse
total de bolas, há quatro pretas e duas brancas. Determine a distribuição de probabilidade da
variável aleatória X, tal que X é o evento de se obter duas bolas brancas dentre as disponíveis.
Solução: primeiramente, vamos construir o espaço amostral e determinar a probabilidade de
o evento X ocorrer em cada situação.

Situação Espaço amostral Probabilidade


As duas bolas brancas saem
{B,B}
em duas retiradas

{B,P,B}
As duas bolas brancas saem
em três retiradas
{P,B,B}

{B,P,P,B}

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


As duas bolas brancas saem
{P,P,B,B}
em quatro retiradas

{P,B,P,B}

{B,P,P,P,B}

{P,B,P,P,B}
As duas bolas brancas saem
em cinco retiradas
{P,P,B,P,B}

{P,P,P,B,B}

{B,P,P,P,P,B}

{P,B,P,P,P,B}

As duas bolas brancas saem


{P,P,B,P,P,B}
em seis retiradas

{P,P,P,B,P,B}

{P,P,P,P,B,B}

A partir das informações já calculadas, construímos a Tabela 10.

WWW.UNINGA.BR 74
EDUCAÇÃO A DISTÂNCIA

Tabela 10 - Distribuição de probabilidade.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Fonte: O autor.

A função que descreve a distribuição de probabilidade é:

A média, a variância e o desvio-padrão são calculados pelas Eq. (8), (9) e (10), respectivamente,
e são apresentados a seguir:

WWW.UNINGA.BR 75
EDUCAÇÃO A DISTÂNCIA

Empregando a regra empírica da amplitude, podemos encontrar os valores máximos e mínimos,


como segue:

A análise dos resultados dessa regra empírica nos permite concluir que o resultado de se
obterem duas bolas brancas, dentre as seis disponíveis, deveria, usualmente, ficar entre 2,17 e
7,17. Como há 6 bolas no interior da urna, seria incomum obter como resultado que as duas
bolas brancas saíssem em apenas duas retiradas (pois o valor 2 está fora do intervalo de valores
usuais: 2,17 a 7,17). Observe ainda que, para o valor de 7 ou mais, temos um evento impossível,
pois só temos 6 bolas. Assim, o valor máximo usual é 6, pois é o maior valor possível para o
número de bolas no interior da urna.

Observe que a determinação dessas funções matemáticas que descrevem a distribuição


de probabilidade não é trivial. Vamos estudar, agora, algumas distribuições de probabilidade que
aparecem com frequência no dia a dia e são bem conhecidas.

3.1 A Distribuição de Probabilidade Binomial

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Um tipo de distribuição bastante aplicada é a distribuição de probabilidade binomial.
Nela, os resultados pertencem a duas categorias: sucesso/fracasso, certo/errado, sim/não, dentre
outras possiblidades. A distribuição de probabilidade binomial resulta de um experimento
que satisfaça: i) o experimento tem um número finito de ensaios idênticos; ii) as tentativas são
independentes; iii) os resultados das tentativas são classificados em duas categorias: sucesso ou
fracasso; iv) a probabilidade de sucesso permanece constante em todas as tentativas. Assim, se p
é a probabilidade de sucesso, (1 – p) é a probabilidade do fracasso. A função de distribuição de
probabilidade binomial, denotada por , é descrita por:

Eq. (12)

Ali, n é o número de provas (ou de experimentos), k é o número de sucesso dentre as n


tentativas, p é a probabilidade de sucesso em qualquer tentativa, é a probabilidade de

fracasso e .

WWW.UNINGA.BR 76
EDUCAÇÃO A DISTÂNCIA

Exemplo 36

Gregor Mendel, em 1865, apresentou uma teoria segundo a qual, quando há duas caracterís-
ticas a serem herdadas, uma delas será dominante, e a outra será recessiva. Para validar sua
teoria, Mendel fez um experimento usando ervilhas que podem ter vagens verdes ou amarelas.
Admita que a probabilidade de uma ervilha vir a ter vagem verde seja de 0,75. Determine a
probabilidade de exatamente 4 ervilhas com vagens verdes gerarem 6 proles.

Solução: depreende-se do enunciado que , , e . Assim,


aplicando a Eq. (12), segue que:

Portanto, a probabilidade de se obterem exatamente 4 ervilhas com vagens verdes entre 6 pro-
les é de 0,297.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Exemplo 37

Um torno mecânico descalibrado vem apresentando 15% de defeitos. Para uma amostra de 20
peças produzidas, qual é a probabilidade de se obterem exatamente duas peças produzidas com
defeito?

Solução: depreende-se do enunciado que , , e .

Assim, aplicando a Eq. (10), segue que:

Portanto, a probabilidade de se obterem exatamente 2 peças com defeito, dentre as 20


produzidas, é de 0,229.

O fatorial é um número natural, representado por n!. É calculado pela multiplicação


desse número por todos os seus antecessores, até chegar ao número 1. Note que,
nesses produtos, o zero (0) é excluído.

WWW.UNINGA.BR 77
EDUCAÇÃO A DISTÂNCIA

Exemplo 38

Um dado é lançado três vezes. Qual a probabilidade de que a face 4 apareça ao menos uma vez?

Solução: seja X o evento de que a face 4 apareça no lançamento do dado. A probabilidade de


que a face 4 saia em um lançamento é de 1/6, isto é, a probabilidade do sucesso é de p = 1/6, e a
probabilidade do fracasso é de q = 5/6. Assim, a probabilidade de que a face 4 apareça ao menos
uma vez é calculada como a soma de a face 4 sair uma vez, duas vezes e três vezes, como segue:

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Portanto, a probabilidade de que a face 4 apareça ao menos uma vez é de 42,13%.

Na distribuição de probabilidade binomial, a média, a variância e o desvio-padrão


podem ser determinados pelas equações que seguem.

Eq. (13)

Nela, é a média.

Eq. (14)

Nela, é a variância.

WWW.UNINGA.BR 78
EDUCAÇÃO A DISTÂNCIA

Exemplo 39

Quando um pesquisador vai a campo e aborda pessoas na rua para serem entrevistadas, o nú-
mero de pessoas que aceitam responder à pesquisa segue uma distribuição binomial. O valor
esperado dessa distribuição é 8, e sua variância é 1,6. Nessas condições, determine a probabili-
dade de uma pessoa aceitar responder à pesquisa.

Solução: segue, do enunciado, que e Substituindo a Eq. (13) na Eq. (14), temos
que:

Portanto, a probabilidade de uma pessoa aceitar responder à pesquisa é de 80%.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


3.2 A Distribuição de Probabilidade de Poison
Outro tipo de distribuição, também bastante empregada, é a distribuição de Poisson. Ela
é empregada em situações tais como a chegada de pessoas em uma fila, decaimento radioativo,
número de pessoas que fazem uso de um site da Internet etc.
A distribuição de Poisson é um tipo de distribuição de probabilidade discreta à qual se
aplica a ocorrência de eventos ao longo de intervalos especificados. Nesse sentido, agora, X é
a variável aleatória de número de ocorrência do evento em um intervalo. Esse intervalo pode
ser tempo, área, volume, distância etc. A função de distribuição de probabilidade de Poisson,
denotada por , é descrita por:

Eq. (15)

Nela, é uma constante que denota o valor esperado, ou número médio, de


ocorrência no intervalo, e k é a variável aleatória discreta, que indica o número de ocorrência no
intervalo.

WWW.UNINGA.BR 79
EDUCAÇÃO A DISTÂNCIA

Exemplo 40

O número médio de erros de digitação cometidos por um digitador é de quatro por página. Se
mais que quatro erros aparecem em uma página, o digitador deve redigitar novamente toda
a página. Qual a probabilidade de uma página selecionada aleatoriamente não precisar ser
redigitada?

Solução: seja X o número de erros cometidos pelo digitador por página. Temos que .
Para não precisar redigitar uma página, ela poderá conter até 4 erros. Assim:

Aplicando a Eq. (15), segue que:

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Portanto, a probabilidade de uma página selecionada aleatoriamente não precisar ser redigitada
é de, aproximadamente, 62,9%.

Exemplo 41

Um engenheiro agrônomo percebeu que a probabilidade de uma venda de um lote de gado de


corte ocorrer em um único contato é de 0,03. Se o engenheiro agrônomo efetuar 100 contatos,
qual é a probabilidade de ele efetuar ao menos uma venda?

Solução: seja Y o número de vendas efetuadas. Assim, o número de vendas esperadas pelo
engenheiro é . A probabilidade de esse engenheiro agrônomo efetuar,
pelo menos, uma venda é calculada como:

Aplicando a Eq. (15) para o cálculo de P(0), segue que:

Portanto, a probabilidade de ele efetuar ao menos uma venda nos 100 contatos é de,
aproximadamente, 95,0%.

WWW.UNINGA.BR 80
EDUCAÇÃO A DISTÂNCIA

Exemplo 42

Em um posto de gasolina, entram para abastecer, em média, 60 carros por hora. Qual a
probabilidade de, a cada 5 minutos, entrarem nesse posto para abastecer pelo menos 3 carros?

Solução: seja X o número que entra no posto para abastecer a cada 5 minutos. Temos que

carro/minuto, ou seja, 5 carros a cada 5 minutos. A probabilidade


de, a cada 5 minutos, entrarem nesse posto para abastecer pelo menos 3 carros é:

Aplicando a Eq. (11) para o cálculo de P(0), P(1) e P(2), segue que:

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Exemplo 43

O número de atendimentos, via Internet, realizados pela Central de Atendimentos Fazendário


(CAF) segue uma distribuição de Poisson, com média de 12 atendimentos por hora. A proba-
bilidade de essa CAF realizar, pelo menos, 3 atendimentos em um período de 20 minutos é:

Dados: e-2 = 0,14; e-4 = 0,018

(a) 0,594 (b) 0,910 (c) 0,766 (d) 0,628 (e) 0,750

Solução: seja X o número de atendimentos a cada 20 minutos. Temos que ,


ou seja, 4 atendimentos a cada 20 minutos. A probabilidade de essa CAF realizar, pelo menos,
3 atendimentos em um período de 20 minutos é:

Aplicando a Eq. (13) para o cálculo de P(0), P(1) e P(2), segue que:

Portanto, a probabilidade de essa CAF realizar, pelo menos, 3 atendimentos em um período de


20 minutos é 76,6%.

WWW.UNINGA.BR 81
EDUCAÇÃO A DISTÂNCIA

3.3 A Distribuição Normal Probabilidade


Até aqui, foram apresentados dois tipos de distribuição discreta de probabilidade
(binomial e Poisson). Agora, vamos dar atenção a um tipo de distribuição contínua e que é de
grande importância em Engenharia: a distribuição normal.
A distribuição normal é incrivelmente importante em estatística devido à sua capacidade
de comparar quão raros ou improváveis podem ser dois valores oriundos de distintas distribuições
de probabilidade. Por exemplo: o que é mais improvável: um lutador de sumô com mais de 180
kg ou um jogador de basquete com mais de 2,30 m? Pode até parecer que estamos comparando
laranjas e maçãs (em certo sentido, estamos!), mas, quando as distribuições de probabilidade são
normais, existe uma maneira quantitativa de se fazer isso.
A variável contínua x, que apresenta sua distribuição de probabilidade com um gráfico
simétrico e em forma de sino, é descrita por:

Eq. (16)

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Ela é denominada distribuição normal. Na Eq. (16), é a média, e é o desvio-padrão.
A distribuição normal padrão é uma distribuição de probabilidade normal, com média e
variância , como mostrado na Figura 9.

Figura 9 – Distribuição normal reduzida. Fonte: O autor.

Note que, para a distribuição normal, são válidas as seguintes propriedades:


• o gráfico da distribuição é uma curva na forma de sino e contínuo;
• a média, moda e mediana são idênticas, o que garante a simetria;
• o eixo x é uma assíntota horizontal;
• a área abaixo da curva é 1;
• o domínio da função distribuição de probabilidade consiste no conjunto dos números
reais;

• a curva tem um ponto de máximo em x = 0, e esse valor é de ;

• os pontos de inflexão da curva ocorrem em .

WWW.UNINGA.BR 82
EDUCAÇÃO A DISTÂNCIA

Alterando os valores da média e do desvio-padrão (e, consequentemente, ocorre a


alteração do valor da variância), podemos plotar diferentes curvas, como apresentado na Figura
10.

Figura 10 – Distribuições normais para alguns valores de média e variância. Fonte: O autor.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Para toda distribuição normal, aproximadamente: 68% dos valores estão a não mais
que um desvio-padrão da média; 95% dos valores estão a não mais que dois desvios-padrões da
média; 99,7% dos valores estão a não mais que três desvios-padrões da média. Essa regra prática
pode ser empregada para identificar outliers, como ilustrado na Figura 11.

Figura 11 – A curva da distribuição normal e a regra para identificar valores outliers. Fonte: O autor.

A análise da Figura 11 nos permite afirmar que, em um conjunto de dados, valores que
distam até um desvio-padrão da média são relativamente comuns (algo em torno de 68%). Por
outro lado, dados com valores acima de três desvios-padrões da média são muito improváveis,
tanto que podemos rotulá-los como outliers, ocorrendo com probabilidade de 0,3%.
Obviamente, não precisamos nos limitar à medida da distância em relação à média
em números inteiros de desvios-padrões. Com um pouco de algebrismo, podemos estimar a
probabilidade de observar valores acima de k desvios-padrões da média. Dessa forma, podemos
comparar a raridade de dois valores (mesmo que provenientes de duas distribuições distintas)
comparando quantos desvios-padrões eles estão afastados de suas respectivas médias. Essa
medida, em números de desvios-padrões ( ) que a variável x está de sua média ( ), é denominada
de z-score e é definida como:

WWW.UNINGA.BR 83
EDUCAÇÃO A DISTÂNCIA

Eq. (17)

E, a partir do valor calculado de z-score, podemos determinar a probabilidade, fazendo


uso da tabela de z-score que está no anexo desse material (Anexo 2). Fique atento ao trabalhar
com a tabela de z-score: não confunda o valor do z-score com a área da região sob a curva.
Acompanhe os exemplos que seguem.

Exemplo 44

Determine a área da região hachurada de cada curva de distribuição normal apresentada a


seguir.
a)

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Figura 12 – Região hachurada para cálculo do z-score. Fonte: O autor.

Solução: estamos interessados em determinar , isto é, estamos interessados na


área acumulada a partir da esquerda até a linha do z-score. Uma maneira de determinar a área
é empregando a tabela de z-score, como apresentado na Figura 13.

Figura 13 – Determinação da área a partir do z-score. Fonte: O autor.

Portanto, dessa maneira, a área abaixo da curva da distribuição normal até z = 0,75 é igual a
0,7734 unidades de área e denotamos isso por

b)

Figura 14 – Região hachurada para cálculo do z-score. Fonte: O autor.

WWW.UNINGA.BR 84
EDUCAÇÃO A DISTÂNCIA

Solução: estamos interessados em determinar , ou seja, estamos interessados na


área acumulada a partir da linha do z-score. Uma maneira de determinar essa área é exluir da
área esquerda até a linha do z-score, como segue:

Note que o valor de é determinado como ilustrado na Figura 15.

Figura 15 – Determinação da área a partir do z-score. Fonte: O autor.

Portanto,

c)

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Figura 16 – Região hachurada para cálculo do z-score. Fonte: O autor.

Solução: estamos interessados em determinar , ou seja, estamos


interessados na área acumulada limitada à direita e à esquerda pelas linhas do z-score. Uma
maneira de determinar a área é exluir da área esquerda até o z = - 0,6 e excluir a área a partir
de z = 1,2, como segue:

Os valores de e são determinados como apresentados na Figura 17.

Figura 17 - Determinação da área a partir do z-score. Fonte: O autor.

Assim,

WWW.UNINGA.BR 85
EDUCAÇÃO A DISTÂNCIA

O vídeo a seguir ensina a fazer a área sombreada da distribuição


normal usando o software Excel. O material está disponível em
https://www.youtube.com/watch?v=ZR67nlCsxeI.

Exemplo 45

Determine o z-score correspondente a cada curva de distribuição normal apresentada a seguir.


a)

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Figura 18 - Determinação do z-score a partir da área. Fonte: O autor.

Solução: estamos interessados em determinar o z-score para a situação em que a área acumulada
é a partir da esquerda até a linha z-score é de 0,9793. Observe a Figura 19.

Figura 19 - Determinação do z-score a partir da área. Fonte: O autor.

Portanto, segue que z-score = 2,04.

b)

Figura 20 - Determinação do z-score a partir da área. Fonte: O autor.

Solução: estamos interessados em determinar o z-score para a situação em que a área acumulada
é a partir da esquerda até a linha z-score seja igual de 0,2546. Observe a Figura 21.

Figura 21 - Determinação do z-score a partir da área. Fonte: O autor.

WWW.UNINGA.BR 86
EDUCAÇÃO A DISTÂNCIA

Portanto, segue que z-score = - 0,65.


c)

Figura 22 - Determinação do z-score a partir da área. Fonte: O autor.

Solução: estamos interessados em determinar o z-score para a situação em que a área acumulada
é a partir da linha do z-score para direita. Observe que a área não hachurada é de 0,8849 (1 –
0,1151). Observe a Figura 23.

Figura 23 - Determinação do z-score a partir da área. Fonte: O autor.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Portanto, segue que o z-score = 1,20.

d)

Figura 24 - Determinação do z-score a partir da área. Fonte: O autor.

Solução: estamos interessados em determinar o z-score para a situação em que a área acumulada
é a partir da linha do z-score para direita. Note que a área não hachurada é de 0,0559 (1 –
0,9441). Observe a Figura 25.

Figura 25 - Determinação do z-score a partir da área. Fonte: O autor.

Potanto, segue que z-score = 1,20.

WWW.UNINGA.BR 87
EDUCAÇÃO A DISTÂNCIA

O z-score é o quanto uma medida se afasta da média em termos


de desvios-padrão. Assim, quando o escore Z é positivo, isso indica
que o dado está acima da média e, quando ele é negativo, significa
que o dado está abaixo da média. Os valores do z-score oscilam
entre -3<z< +3, e isso corresponde a 99,72% da área sob a curva da
Distribuição Normal.
O vídeo a seguir nos apresenta a definição do z-score e o uso das tabelas de
z-score. Assista a ele em https://www.youtube.com/watch?v=QxsGVBiekSo .

Exemplo 46

Em um exame nacional, a média dos estudantes foi de 1020, com desvio-padrão de 90.
Assumindo que as notas sejam normalmente distribuídas, determine a probabilidade de, ao se
selecionar ao acaso um estudante, ele apresente nota superior a 1200.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Solução: depreende-se do enunciado que , e queremos determinar a
probabilidade de se selecionar ao acaso um estudante com nota superior a 1200, isto é,
. Inicialmente, calculamos o z-score:

Geometricamente, a probabilidade de, ao selecionar ao acaso um estudante, ele apresentar nota


superior a 1200, corresponde à região hachurada na Figura 26, isto é, a região à direita da reta
de z = 2,0.

Figura 26 – Região para cálculo de probabilidade. Fonte: O autor.

Na tabela de z-score, encontramos que Portanto, a


probabilidade de, ao selecionar ao acaso um estudante, ele apresentar nota superior a 1200, é
de 2,28%.

WWW.UNINGA.BR 88
EDUCAÇÃO A DISTÂNCIA

Exemplo 47

O tempo de realização de um exame clínico é normalmente distribuído com média de 96


minutos e desvio-padrão de 17 minutos. Caso um paciente que faça esse exame seja escolhido
ao acaso, determine a probabilidade de ele gastar, no máximo, 80 minutos. Faça a sugestão de
tempo para que um motorista de táxi retorne para buscar o paciente.
Solução: depreende-se do enunciado que min, min, e queremos determinar
a probabilidade de se selecionar ao acaso um paciente que fará o exame e que gaste até 80
minutos, isto é, . Inicialmente, calculamos o z-score:

Geometricamente, a probabilidade de, ao selecionar ao acaso um paciente que faça esse exame e
o tempo transcorrido para que o tempo seja de até 80 minutos, corresponde à região hachurada
na Figura 27, isto é, a região à esquerda da reta de z = -0,94.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Figura 27 – Região para cálculo de probabilidade. Fonte: O autor.

Na tabela de z-score, encontramos que ou 17,36%.


Assim, a probabilidade de esse paciente gastar, no máximo, 80 minutos é de 17,36%. Logo, o
tempo de retorno do motorista de táxi pode ser feito em três desvios-padrões, além da média
para garantir 99,7% que o paciente tenha finalizado o paciente (você consegue entender o
porquê de 3 desvios-padrões?). Assim, a sugestão de tempo é de 147 minutos
após o ingresso desse paciente no laboratório onde fará o exame.

WWW.UNINGA.BR 89
EDUCAÇÃO A DISTÂNCIA

Exemplo 48

A distribuição dos níveis de colesterol total em mulheres, entre 20 e 34 anos, segue distribuição
normal, com média de 186 miligramas por decilitro e o desvio-padrão de 35,8 miligramas por
decilitro. Encontre a probabilidade de que uma mulher entre 20 e 34 anos seja selecionada
aleatoriamente e apresente a taxa de colesterol total entre 200 e 239 miligramas por decilitro.
Solução: depreende-se do enunciado que miligramas por decilitro,
miligramas por decilitros e queremos determinar a probabilidade de, ao selecionar ao acaso
uma mulher entre 20 e 34 anos, que ela apresente taxa de colesterol total entre 200 e 239
miligramas por decilitro, . Inicialmente, calculamos os z-scores:

Geometricamente, a probabilidade de, ao selecionar ao acaso uma mulher entre 20 e 34 anos


e ela apresentar taxa de colesterol total entre 200 e 239 miligramas por decilitro, corresponde

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


à região hachurada na Figura 28, isto é, a região compreendida entre as retas de z = 0,39 e z =
1,48.

Figura 28 – Região para cálculo de probabilidade. Fonte: O autor.

Na tabela de z-score, encontramos que


e que Assim,
.
Portanto, a probabilidade de, ao selecionar ao acaso uma mulher entre 20 e 34 anos e a taxa de
colesterol total entre 200 e 239 miligramas por decilitro, é de 27,89%.

WWW.UNINGA.BR 90
EDUCAÇÃO A DISTÂNCIA

Exemplo 49

Durante um período, registrou-se, em uma fábrica, a quantidade diária de óleo (Q), em litros,
consumida para a produção de um produto. Concluiu-se que a população formada por essas
quantidades é normalmente distribuída com média igual a 50 litros por dia. Sabe-se que 5%
dos valores dessas quantidades são inferiores a 41,8 litros, e 90% possuem um valor de, no
máximo, x litros. Determine o valor de x, em litros.
Solução: depreende-se do enunciado que litros, e 5% das quantidades são inferiores
a 41,8 litros. Esses 5% inferiores correspondem ao z-score de - 1,64 (busque esse resultado na
tabela de z-score no anexo). Assim, determinamos o desvio-padrão:

Agora, 90% dos valores possuem um máximo de x litros. Daí, z-score é 1,28 (busque por esse
valor na tabela de z-score no anexo):

Portanto, o valor de x é igual a 56,4 litros.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2


Exemplo 50

Em um concurso público, serão chamados para contratação imediata 20% dos candidatos com
as maiores notas. As notas seguem uma distribuição normal, com média 5,5 e desvio-padrão
3. Determine a nota mínima para que o candidato seja chamado para contratação imediata.
Solução: depreende-se do enunciado que e . Note que, se 20% dos candidatos
com as maiores notas serão chamados de forma imediata, então, 80% não serão chamados de
forma imediata. Assim, na tabela de z-score, buscamos pelo valor de área mais próximo de
0,80. Isso corresponde a um valor de z-score próximo de 0,85 (confira esse resultado na tabela
de z-score que está anexa). Daí, se N denota a variável nota, temos que:

Portanto, a nota que o candidato necessita para ser chamado de imediato no concurso público
é igual a 8,0.

WWW.UNINGA.BR 91
EDUCAÇÃO A DISTÂNCIA

No século XX, diversas disciplinas científicas passaram, em maior ou


menor grau, pela revolução probabilística. Em vez de imaginar que os fenômenos
estudados seguem leis determinísticas, as ciências modernas partem da ideia de
que eles seguem distribuições probabilísticas. Há possibilidade de conhecermos
o mundo, mas nunca temos certeza sobre os resultados de nossas investigações.
Essa passagem de uma visão determinística do mundo, que caracterizou as
ciências até o século XIX, para uma visão probabilística, a partir do século XX,
foi possível graças aos avanços e revoluções ocorridos em uma disciplina: a
Estatística.
No livro Uma Senhora Toma Chá, de David Salsburg, o autor conta as
histórias de como alguns cientistas criaram e desenvolveram as diversas facetas
do conhecimento estatístico. Além de ser interessante para o pesquisador que
usa estatística em seu trabalho, o livro é uma leitura agradável para qualquer
pessoa curiosa, que esteja interessada em conhecer melhor a história das ciências
modernas.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2

WWW.UNINGA.BR 92
EDUCAÇÃO A DISTÂNCIA

CONSIDERAÇÕES FINAIS

Chegamos ao final da Unidade 2. Nela, estudamos o cálculo de probabilidade e suas


propriedades. Estudamos, também, algumas distribuições de probabilidade, duas delas discretas
e uma distribuição contínua, de muita importância: a distribuição normal. Agora, chegamos ao
fim da unidade e vamos dar início à próxima, na qual vamos discutir sobre a inferência estatística.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 2

WWW.UNINGA.BR 93
UNIDADE ENSINO A DISTÂNCIA

03
DISCIPLINA:
ESTATÍSTICA E PROBABILIDADE

INTERVALOS DE CONFIANÇA
E TESTE DE HIPÓTESE
PROF. DR. RICARDO CARDOSO DE OLIVEIRA

SUMÁRIO DA UNIDADE

INTRODUÇÃO................................................................................................................................................................ 95
1. TEORIA DA ESTIMAÇÃO DE PARÂMETROS........................................................................................................... 96
2. ESTIMAÇÃO POR INTERVALO................................................................................................................................97
2.1 ESTIMAÇÃO POR INTERVALOS DE CONFIANÇA DA MÉDIA.............................................................................. 98
2.2 ESTIMAÇÃO POR INTERVALOS DE CONFIANÇA DA PROPORÇÃO POPULACIONAL.....................................104
3. TESTE DE HIPÓTESE...............................................................................................................................................106
3.1 CONSTRUÇÃO DE UM TESTE DE HIPÓTESE PARA MÉDIA POPULACIONAL...................................................107
3.2 CONSTRUÇÃO DE UM TESTE DE HIPÓTESE PARA PROPORÇÃO POPULACIONAL.......................................114
CONSIDERAÇÕES FINAIS............................................................................................................................................116

WWW.UNINGA.BR 94
EDUCAÇÃO A DISTÂNCIA

INTRODUÇÃO

Na Unidade 1, estudamos a estatística descritiva para resumir um conjunto de dados por


meio de ferramentas (como gráficos) e estatísticas (como a média e o desvio-padrão). Na Unidade
2, aprendemos sobre outro ramo da estatística: a probabilidade e a distribuição de probabilidade.
Nesta unidade e na próxima, vamos adentrar o mundo das inferências estatísticas, em
que usaremos a estatística inferencial para fazer inferências acerca de parâmetros populacionais.
Assim, esta unidade, inicialmente, enfatiza o uso de dados amostrais para estimar um parâmetro
populacional. Em seguida, aplicaremos testes de hipóteses. Seja bem-vindo(a) à Unidade 3 e bons
estudos!

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3

WWW.UNINGA.BR 95
EDUCAÇÃO A DISTÂNCIA

1. TEORIA DA ESTIMAÇÃO DE PARÂMETROS


Quando estamos interessados em estudar certas características de uma população,
lançamos mão de uma amostra extraída dessa população, estudamos seus elementos e procuramos,
a partir dessa amostra, estimar o parâmetro populacional.
O parâmetro é uma medida usada para descrever uma característica da população, e
uma estatística é uma combinação dos elementos da amostra usada para estimar um parâmetro,
também chamada de estimador. Aos valores numéricos assumidos pelos estimadores chamamos
estimativas, como mostrado pela Figura 1.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Figura 1 – Exemplo de parâmetros e estimadores. Fonte: O autor.

O problema da inferência estatística é fazermos afirmações sobre parâmetros da


população por meio da amostra. Suponhamos que tal afirmação deva ser feita sobre um parâmetro
da população (que pode ser a média, a variância ou qualquer outra medida).
Vamos supor que escolhemos uma amostra casual simples (Y1, Y2,,...,Yn ), com reposição,
sorteados na população, com Yi (i=1,...,n), identicamente distribuídos. Faremos nossa decisão
baseando-nos na estatística T, que será uma função da amostra (Y1, Y2 ,...,Yn ) e, portanto, uma
variável aleatória. Colhida uma amostra, temos um particular valor de T, digamos t0, e, baseado
nesse valor, é que a afirmação sobre deve ser feita.
A validade da resposta será mais bem compreendida se soubermos o que acontece com a
estatística T quando retiramos todas as amostras da população, de acordo com o plano amostral
adotado, isto é, se soubermos qual a distribuição de probabilidade da estatística T. Essa distribuição
é chamada distribuição amostral da estatística T e desempenha papel fundamental na teoria
de inferência estatística. Assim, a distribuição amostral é uma distribuição de probabilidade,
que indica até que ponto uma estatística amostral tende a variar devido a variações casuais na
amostragem aleatória.
Consideremos uma população P com parâmetros e , como apresentado na Figura
1. Se tirarmos uma amostra aleatória de tamanho n e calcularmos a sua média, temos um valor
. Tirando uma segunda amostra, temos uma nova média, , em geral, diferente de . E,
assim, para cada diferente amostra de tamanho n, temos um diferente valor da média amostral,
. Temos, portanto, que a média amostral é uma variável que muda de valor de amostra em
amostra. Assim, faz sentido falarmos da distribuição de médias amostrais uma vez que X é uma
variável aleatória. Enunciamos o seguinte teorema:

WWW.UNINGA.BR 96
EDUCAÇÃO A DISTÂNCIA

• Teorema do limite central


Seja {Xn} uma sucessão de n variáveis aleatórias igualmente distribuídas e independentes,

com valor médio μ e variância (finita). A variável aleatória tem distribuição

assintoticamente normal, com parâmetros μ e . Ou seja, para um valor de n suficientemente

grande, a distribuição de X é Escreve-se:

2. ESTIMAÇÃO POR INTERVALO

A estimação por intervalo consiste em usar a informação amostral com o propósito


de se produzir um intervalo I = (L1, L2) que contenha o valor verdadeiro do parâmetro, com
alguma probabilidade de acerto. Essa probabilidade de acerto, representada por ,é

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


chamada nível de confiança (ou grau de certeza). É preestabelecida pelo pesquisador e significa
que, retiradas todas as amostras da população e construídos todos os intervalos de confiança,
podemos dizer que desses intervalos conterão o parâmetro ou, em outras palavras,
cada intervalo tem de probabilidade de conter o parâmetro.
As escolhas mais comuns para o nível de confiança são de 90% (com ), 95%
(com ) e 99% (com ). A escolha de 95% é mais comum, pois resulta em um
bom equilíbrio entre precisão e confiabilidade.
Podemos dizer que, para cada intervalo (L1, L2), teremos % de probabilidade de que ele
não contenha o parâmetro. Essa é a probabilidade que temos de errar a estimativa e é chamada
de nível de significância.
A amplitude (tamanho) do intervalo, nos confere a precisão da estimativa.
Quanto menor for a amplitude do intervalo, melhor (mais precisa) é a estimativa. Quando o
intervalo for centrado no valor amostral, , a metade da amplitude, , é chamada de
margem de erro, ou erro máximo da estimativa, e depende do nível de confiança e do tamanho
n da amostra.
É fácil perceber que, quanto maior o nível de confiança, maior será a amplitude do
intervalo. Sendo conveniente, o nível de confiança pode ser aumentado até próximo de 100%,
mas isso resultará em intervalos de amplitude cada vez maiores, o que significa perda de precisão
na estimativa. Para amostras de tamanho n fixo, precisão e estimativa variam em sentidos
opostos. Do exposto, vemos que, para encontrar um intervalo de confiança para um determinado
parâmetro , devemos obter um intervalo [a, b], tal que:

WWW.UNINGA.BR 97
EDUCAÇÃO A DISTÂNCIA

2.1 Estimação por Intervalos de Confiança da Média


Neste tópico, são apresentados métodos para se estimar a média populacional. A forma
geral de uma estimativa intervalar de uma média populacional é dada por:

Para desenvolvermos uma estimativa intervalar de uma média populacional, o desvio-


padrão populacional ( ) ou o desvio-padrão amostral (s) devem ser usados para o cálculo da
margem de erro. Na maioria das aplicações, o desvio-padrão populacional não é conhecido,
e usa-se o desvio-padrão amostral para calcular a margem de erro. Em algumas aplicações,
entretanto, grandes quantidades de dados históricos relevantes estão disponíveis e podem ser
utilizados para calcular o desvio-padrão populacional antes de se efetuar a amostragem. Analise
as condições necessárias para estimação do intervalo apresentado na Tabela 1, bem como o
roteiro de estimação na Tabela 2.

Tabela 1 - Condições de estimação do intervalo quando o desvio-padrão (ou a variância)

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


é conhecido.

Objetivo
Construir um intervalo de confiança que contenha a média populacional, ou seja, obter um
intervalo do tipo: em que E é a margem de erro.

Requisitos
i) A amostra é aleatória simples;
ii) O desvio-padrão populacional é conhecido;
iii) A população segue distribuição normal.

Determinação do intervalo de confiança

ou

ou

Fonte: O autor.

WWW.UNINGA.BR 98
EDUCAÇÃO A DISTÂNCIA

Tabela 2 – Roteiro para a determinação do intervalo de confiança para a média


populacional quando o desvio-padrão (ou variância) é conhecido.

Passo 1 Verifique se os requisitos anteriormente citados são satisfeitos.

Passo 2 Determine o valor crítico , que corresponde ao nível de confiança desejado. Usar
a tabela do Anexo 2.

Passo 3
Calcular a margem de erro:

Passo 4 De posse dos valores da margem de erro (E) e da média amostral, , determine os
limitantes do intervalo de confiança: e .

Fonte: O autor.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Exemplo 1

A altura de uma amostra de 49 mulheres segue distribuição normal, com média 1,60 m e
variância 0,0036 m2. Determine o intervalo de confiança que contenha a média da população
de mulheres, com 95% de confiança.

Solução: vamos seguir as instruções apresentadas na Tabela 2.


Passo 1: segue do enunciado que , ou seja, ,
e, ainda, a altura dessas mulheres segue distribuição normal (condições do passo 1, da Tabela
2, são verificadas).

Passo 2: determinar o valor crítico .


O nível de confiança de 95% corresponde a ou A Figura 2
mostra que a área, em cada cauda cinza, é Recorrendo à tabela de z-score, do
anexo 2, encontramos

Figura 2 – Construção do intervalo de confiança com 95% de nível de confiança. Fonte: O autor.

WWW.UNINGA.BR 99
EDUCAÇÃO A DISTÂNCIA

Passo 3: cálculo da margem de erro.

Passo 4: determinar os limites do intervalo de confiança.

Portanto, com 95% de confiança, você pode dizer que a média das alturas de todas as mulheres
está entre 1,58 e 1,62 cm.

Os valores críticos são valores que separam amostras estatísticas prováveis das
amostras estatísticas improváveis.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Exemplo 2

Uma amostra aleatória simples de tamanho n = 81 é selecionada de uma população de mudas


de uma espécie nativa do Pantanal. A altura das mudas dessa amostra apresenta média
15,00 cm e desvio-padrão populacional s = 0,40 cm. Considerando-se que a altura das mudas
dessa espécie na população siga distribuição normal, determine a amplitude do intervalo de
confiança de 90% de nível de significância.

Solução: segue do enunciado que , e, ainda, a altura dessas mudas segue


distribuição normal (condições do passo 1 são verificadas).

Passo 2: determinar o valor crítico .


Um nível de confiança de 90% corresponde a ou A Figura 3
mostra que a área em cada cauda cinza é ou seja, toda a área à esquerda é igual a

Figura 3 – Construção do intervalo de confiança com 90% de nível de confiança. Fonte: O autor.

WWW.UNINGA.BR 100
EDUCAÇÃO A DISTÂNCIA

Recorrendo à tabela do anexo 2, encontramos (por interpolação).

Passo 3: cálculo da margem de erro.

Passo 4: determinar os limites do intervalo de confiança.

Assim, com 90% de confiança, você pode dizer que a média das alturas das mudas nativas do
Pantanal está entre 14,96 e 15,04 cm. Portanto, com 90% de confiança, a amplitude do intervalo
de confiança para a média é .

Exemplo 3

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Uma universidade deseja estimar o escore de QI médio para a população de estudantes de
Engenharia. Quantos estudantes de Engenharia devem ser selecionados aleatoriamente para
teste de QI se desejamos estar 95% confiantes de que a média amostral estará a menos de três
pontos de QI da média populacional? Assuma que o desvio-padrão seja igual a 15.

Solução: depreende-se do enunciado que, para um intervalo de confiança de 95%, temos


de modo que e (consulte a tabela do anexo 2).
Como o enunciado pede que a média amostral esteja a menos de três pontos de QI da média
populacional ( ), a margem de erro é E = 3. Temos, ainda, que . Assim, a equação:

pode ser reescrita como:

Logo, necessitamos de uma amostra aleatória simples de, pelo menos, 97 alunos de Medicina
Veterinária. Com essa amostra aleatória simples de 97 alunos de Medicina Veterinária, teremos
95% de confiança de que a média amostral estará a menos de 3 pontos de QI da verdadeira
média populacional .

Até o momento, estudamos situações para estimação da média populacional em que


o desvio-padrão populacional era conhecido. Porém, na maioria das situações reais, o desvio-
padrão populacional é desconhecido. Para essas situações, faremos uso da distribuição t de
Student (em vez da distribuição Normal).

WWW.UNINGA.BR 101
EDUCAÇÃO A DISTÂNCIA

Quando o desvio-padrão da população não é conhecido, mas os requisitos relevantes são


satisfeitos, usaremos a distribuição t de Student (disponível no Anexo 3). Essa distribuição foi
desenvolvida por Willian Gosset, o qual era empregado de uma cervejaria irlandesa e precisava
de uma distribuição que pudesse ser empregada para pequenas amostras. Proibido de publicar
os resultados de suas pesquisas, Gosset usou o pseudônimo de Student e publicou os resultados
de sua pesquisa.
Se uma população tem distribuição normal, então, a distribuição de:

é uma distribuição t de Student para todas as amostras de tamanho n.


Analise as condições necessárias para estimação do intervalo apresentado na Tabela 3,
bem como o roteiro de estimação na Tabela 4. Lembrando que, nesse caso, o desvio-padrão da
população é desconhecido.

Tabela 3 - Condições de estimação do intervalo quando o desvio-padrão (ou a variância)


é desconhecido.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Objetivo
Construir um intervalo de confiança que contenha a média populacional, ou seja, obter um
intervalo do tipo em que E é a margem de erro.

Requisitos
i) A amostra é aleatória simples;
ii) A população segue distribuição normal.

Determinação do intervalo de confiança

ou

ou

Fonte: O autor.

WWW.UNINGA.BR 102
EDUCAÇÃO A DISTÂNCIA

Tabela 4 – Roteiro para a determinação do intervalo de confiança para a média


populacional quando o desvio-padrão (ou variância) é desconhecido.

Passo 1 Verifique se os requisitos anteriormente citados são satisfeitos.

Usando (n-1) graus de liberdade, recorremos à tabela do anexo 3 para determinar


Passo 2

Passo 3
Calcular a margem de erro:

Passo 4 De posse dos valores da margem de erro (E) e da média amostral, , determine os
limitantes do intervalo de confiança: e .

Fonte: O autor.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Exemplo 4

A concentração de um poluente em uma refinaria segue distribuição normal. Uma amostra,


de tamanho 51, apresentou média igual a 80,0 ppb e desvio-padrão igual a 10,0 ppb. Determine
o intervalo de confiança, com 95% de confiança, que contenha a média da população da
concentração desse poluente.

Solução: segue do enunciado que , , e, ainda, a variável


estudada segue distribuição normal (condições do passo 1 são verificadas).

Passo 2: determinar o valor


Um nível de confiança de 95% corresponde a (para duas caudas). O número de graus

de liberdade é . Recorrendo à tabela do anexo 3, encontramos


Passo 3: cálculo da margem de erro.

Passo 4: determinar os limites do intervalo de confiança.

Portanto, com 95% de confiança, o intervalo de confiança para a média é .


Esse resultado pode ser expresso no formato ppb.

WWW.UNINGA.BR 103
EDUCAÇÃO A DISTÂNCIA

A seguir, são elencadas algumas propriedades importantes da distribuição t de


Student:
i) A distribuição t de Student é diferente para tamanhos de amostra diferentes.
ii) A distribuição t de Student tem a mesma forma geral simétrica em sino que a
distribuição normal padrão, mas reflete a maior variabilidade que se espera com
pequenas amostras.
iii) A distribuição t de Student tem uma média de t = 0.
iv) O desvio-padrão da distribuição t de Student varia com o tamanho amostral,
mas é maior que 1.
v) À medida que o tamanho amostral se torna maior, a distribuição t de Student
se aproxima da distribuição normal padrão.

2.2 Estimação por Intervalos de Confiança da Proporção Populacional

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Aqui, vamos discutir métodos para determinação de um intervalo de confiança para
estimar uma proporção populacional. Para melhor compreensão, considere a seguinte situação
hipotética: uma pesquisa de opinião pública constatou que 80%, dos 4030 adultos selecionados
aleatoriamente na cidade de Maringá, acreditavam no aquecimento global. Assim, a proporção
amostral, , igual a 0,80 é a melhor estimativa pontual para a proporção populacional. Porém, não
temos nenhuma indicação do quão boa é essa estimativa, ou seja, como a estimativa pontual tem
a séria falha de não revelar quão boa ela é, os estatísticos desenvolveram outro tipo de estimativa
denominado intervalo de confiança. Acompanhe as etapas e o roteiro nas Tabelas 5 e 6.

Tabela 5 - Condições de estimação do intervalo quando uma proporção é conhecida.

Objetivo
Construir um intervalo de confiança para se estimar uma proporção populacional.
Requisitos
i) A amostra é aleatória simples;
ii) A população segue distribuição binomial (aquela em que há duas categorias de resultados);
iii) As proporções de “sucesso” e “fracasso” são conhecidas.
Determinação do intervalo de confiança

ou

ou

Fonte: O autor.

WWW.UNINGA.BR 104
EDUCAÇÃO A DISTÂNCIA

Tabela 6 – Roteiro para a determinação do intervalo de confiança para a média


populacional quando uma proporção é conhecida.

Passo 1 Verifique se os requisitos anteriormente citados são satisfeitos.

Passo 2
Use a tabela do anexo 2 para determinar

Passo 3 Calcular a margem de erro:

Passo 4 De posse dos valores da margem de erro (E) e da proporção amostral, , determine
os limitantes do intervalo de confiança: e .

Fonte: O autor.

Exemplo 5

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Uma pesquisa constatou que 80%, dos 4030 adultos selecionados aleatoriamente na cidade de
Maringá, acreditavam no aquecimento global. Com base nessas informações, resolva os itens
a seguir:
a) Ache o intervalo de confiança de 95% para a proporção populacional p.
b) Supondo que você seja um repórter de um jornal, escreva uma breve afirmativa que descreva,
com precisão, os resultados e que inclua todas as informações relevantes.

Solução:
a) Segue do enunciado que e, ainda, a variável estudada segue distribuição
normal (condições do passo 1 são verificadas).

Passo 2: determinar o valor crítico .


Um nível de confiança de 95% corresponde a ou Recorrendo à
tabela do Anexo 2, encontramos
Passo 3: cálculo da margem de erro.

Passo 4: determinar os limites do intervalo de confiança.

Portanto, com 95% de confiança, o intervalo de confiança para a proporção é


.
b) Eis uma afirmativa que resume os resultados: 80% dos adultos de Maringá acreditam que a
Terra esteja se tornando mais quente. Essa porcentagem se baseia em uma pesquisa de opinião
realizada com 4030 adultos selecionados aleatoriamente. Essa porcentagem deve diferir por
não mais que 0,63 pontos percentuais, para mais ou para menos.

WWW.UNINGA.BR 105
EDUCAÇÃO A DISTÂNCIA

3. TESTE DE HIPÓTESE

Até agora, fizemos estimativas de um parâmetro populacional e, agora, vamos aprender


a testar uma afirmação sobre um parâmetro. Para tal decisão, formulamos hipóteses sobre a
população, e o objetivo do teste de hipótese é fornecer ferramentas que permitam “validar” ou
“rejeitar” uma hipótese utilizando os resultados da amostra.
Nesse sentido, o teste de hipótese é um processo mediante o qual nos é permitido rejeitar,
ou não, determinada hipótese sobre um parâmetro desconhecido da população em estudo, por
meio de informações da amostra dessa população. Já a hipótese estatística é uma hipótese
formulada sobre os parâmetros desconhecidos da população em estudo.
Para a realização de um teste de hipótese, é necessário especificarmos duas hipóteses,
denominadas de hipótese nula (H0) e hipótese alternativa (H1), e um critério para a rejeição
da hipótese nula. Assim, definimos a hipótese nula, denotada por (H0), aquela que sugere um
valor 0
para o parâmetro populacional , ou a igualdade de dois parâmetros 1
e . Hipótese
2

alternativa (H1) é aquela que sugere a não igualdade (>, < ou ≠) do valor 0
para o parâmetro
populacional , ou a não igualdade de dois parâmetros 1
e 2
(>, < ou ≠).

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


A expressão “hipótese nula” foi introduzida por Ronald Fisher. Se a afirmação na
hipótese nula não for verdadeira, então, a hipótese alternativa deve ser verdadeira.

Estatisticamente, a forma correta de se formular tais hipóteses, para um parâmetro , é


sumarizada na Tabela 7.

Tabela 7 – Possíveis formulações matemáticas para um teste de hipótese.


Teste bilateral Teste unilateral à direita Teste unilateral à esquerda

Fonte: O autor.

O problema aqui consiste em rejeitar, ou não, a hipótese nula com base numa amostra
aleatória, convenientemente selecionada. Como vamos tomar decisões baseadas em uma amostra,
estaremos sujeitos a cometer dois tipos de erros que, comparados, podem ser mais ou menos
graves. A saber:
• erro tipo I: ocorre se a hipótese nula é rejeitada quando é verdadeira. A probabilidade deste
tipo de erro é denotada por:
• erro tipo II: ocorre se a hipótese nula não é rejeitada quando é falsa. A probabilidade deste
tipo de erro é denotada por:

WWW.UNINGA.BR 106
EDUCAÇÃO A DISTÂNCIA

A probabilidade de se cometer o erro tipo I, ou seja, de se rejeitar a hipótese H0 quando


ela é verdadeira, é denominada de nível de significância do teste. Geralmente, adota-se o nível
de 5%, ou seja, , porém, dependendo das exigências do pesquisador, podem-se adotar
1%, 10% ou outros valores.

3.1 Construção de um Teste de Hipótese para Média Populacional


A seguir, está explicado o procedimento para construção do teste de hipótese para média
populacional com desvio-padrão conhecido e desconhecido. Vejamos:

Etapa 1: formulação das hipóteses (uma das opções da Tabela 7).


Como o teste é feito com base em uma amostra e sabemos que essa amostra vai nos
trazer informações sobre a população, e não o seu comportamento exato, no fundo, o que se quer
testar é se há, ou não, uma diferença estatisticamente significativa entre a Informação , que
a amostra traz sobre a média da população, e o verdadeiro valor ( ) dessa média, a ponto de
rejeitar, ou não, a hipótese nula H .0

Assim, o critério de decisão consiste em não rejeitar a hipótese H se forem estatisticamente


0

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


não significativas essas diferenças ( ), bem como rejeitar H se essas diferenças forem
0

estatisticamente significativas. Para medir essas diferenças, usamos a estatística do teste obtida
da distribuição de , que é o estimador de .

Etapa 2: escolha da estatística do teste.


(i) Quando o desvio-padrão populacional, , é conhecido: pelo teorema do limite central,
sabemos que ~ N( , 2
/n) para qualquer tamanho de amostra n se a população tiver distribuição
normal e, para n suficientemente grande, (n 30) se a população não tiver distribuição normal.
Nessas condições, a estatística do teste é:

(ii) Quando o desvio-padrão populacional, , não é conhecido: se o desvio-padrão


populacional for desconhecido e, supondo população com distribuição normal, a estatística
do teste é:

Em um teste estatístico, admitimos sempre que H0 é verdadeiro e, a partir daí,


desenvolvemos o critério de decisão para rejeitar ou não tal hipótese. Assim, sob H0 e com as
informações obtidas na amostra, o valor da estatística do teste é dado por:

ou

WWW.UNINGA.BR 107
EDUCAÇÃO A DISTÂNCIA

Etapa 3: região crítica (RC) ou região de rejeição.


A decisão de rejeitar ou não H0, ou seja, decidir se a diferença (( ) é ou não
significativa, é tomada com base na região crítica RC (ou região de rejeição de H0), que é
construída de modo que P( RC/H0 é verdadeira) = , em que é o nível de significância
do teste. A construção da RC depende também do tipo de teste que estamos realizando e está
relacionada à hipótese definida na etapa 1. A Figura 4 apresenta as regiões críticas (que são as
áreas hachuradas) para cada tipo de teste. Os valores de ±E e ±E /2 são obtidos das tabelas
das distribuições de probabilidade da estatística do teste, que podem ser Z ou t para o nível de
significância considerado.

Figura 4 – Regiões críticas para teste de hipótese: (A) unilateral à esquerda, (B) bilateral, (C) unilateral à direita.
Fonte: O autor.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Etapa 4: tomada de decisão.
Se o valor da estatística do teste z calculado
ou t calculado
pertencer à região crítica RC, rejeitamos a
hipótese H0 ao nível de significância. Caso contrário, não podemos rejeitá-la.

Exemplo 6

Um pesquisador deseja testar se a renda do filho primogênito é maior que a renda média de
seus irmãos. Formula a hipótese nula Ho de que a diferença de rendas (d) = 0 e a hipótese
alternativa H1, d > 0, isto é, a de que a renda do primogênito seja maior que a média das rendas
dos irmãos. Desse modo, o(a)
(A) erro do tipo I consiste em aceitar Ho se Ho for falsa.
(B) erro do tipo II consiste em rejeitar Ho se Ho for verdadeira.
(C) poder do teste diminui com o tamanho da amostra.
(D) probabilidade do erro do tipo II é igual a (1 – poder do teste).
(E) probabilidade do erro do tipo II ou do tipo I é chamada de nível de significância do teste.

Solução: temos que o erro do tipo I ocorre quando a hipótese nula é rejeitada quando é
verdadeira, e o erro do tipo II ocorre quando a hipótese nula não é rejeitada quando é falsa.
A probabilidade de se cometer o erro tipo I, ou seja, de rejeitar a hipótese H0 quando ela é
verdadeira, é denominada de nível de significância do teste. Temos, ainda, que o poder do
teste aumenta com o tamanho da amostra. Assim, resta-nos a alternativa (D).

WWW.UNINGA.BR 108
EDUCAÇÃO A DISTÂNCIA

Exemplo 7

A linha de produção de um medicamento veterinário está calibrada para colocar 160 mL ±


8 mL por frasco de uma dada vacina. Valores acima ou abaixo dessa média são considerados
críticos, e a linha de produção deve ser suspensa se qualquer um dos dois ocorrer. O engenheiro
do controle de qualidade retira 30 amostras a cada 2 horas e precisa tomar a decisão de
parar, ou não, a linha de produção para calibragem. Se a média amostral for de 158,20 mL,
o que o engenheiro deveria recomendar aos responsáveis pela área de produção, ao nível de
significância de 5%?

Solução: note que temos 30 amostras, e o desvio-padrão é conhecido. Vamos seguir as quatro
etapas. Acompanhe:
Etapa 1: escrever a formulação das hipóteses.

Etapa 2: escolha da estatística do teste.


Temos as seguintes informações: , n = 30, e Vamos assumir
distribuição normal e calcular o valor de Z:

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Etapa 3: esboço da região crítica.
O teste é bilateral (compare a formulação das hipóteses com a Tabela 7 para confirmação).
Assim, fazemos o esboço da região crítica. Primeiramente, buscamos os valores de Z (no anexo
2) para marcar os extremos do intervalo da região crítica. Observe as Figuras 5 e 6.

Figura 5 – Determinação dos extremos do intervalo da região crítica. Fonte: O autor.

WWW.UNINGA.BR 109
EDUCAÇÃO A DISTÂNCIA

Figura 6 – Esboço da região crítica e localização do valor de nessa região. Fonte: O autor.

Etapa 4: decisão.
Note que o valor de está fora da região crítica. Portanto, pode-se afirmar,
com 95% de certeza, que não será necessário parar a linha de produção para calibração.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3

WWW.UNINGA.BR 110
EDUCAÇÃO A DISTÂNCIA

Exemplo 8

O rótulo das garrafas de certo refrigerante indica que o seu conteúdo corresponde ao volume
de 290 mL. A variável aleatória que representa o volume de líquido no interior dessas garrafas
é X. A máquina que enche essas garrafas o faz segundo uma distribuição normal, com média
e variância igual a 36 mL2, qualquer que seja o valor de . A máquina foi regulada para = 290
mL. Semanalmente, uma amostra de 9 garrafas é colhida para verificar se a máquina está, ou
não, desregulada para mais ou para menos. Para isso, constrói-se um teste de hipótese bilateral,
no qual:

O nível de significância do teste foi fixado em . A hipótese nula não será rejeitada se a média
apresentada pela amostra estiver entre 285,66 mL e 294,34 mL. Nessas condições, determine o
valor do nível de significância do teste ( ).

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Solução: temos as seguintes informações: , ou seja, e n = 9. Observe
que a etapa 1 já está apresentada ao longo do enunciado do exercício. Assim, calculamos o
valor de Z, como segue:

e, ainda:

Daí, traçamos a seguinte curva normal, que mostra a região de aceitação da Ho, a zona de
rejeição da Ho e os valores de Ztestes, como ilustrado na Figura 7.

Figura 7 – Teste bilateral. Fonte: O autor.

Na tabela de z-score (anexo 2), encontramos para , ou seja, .


Portanto, o nível de significância foi igual a 3%.

WWW.UNINGA.BR 111
EDUCAÇÃO A DISTÂNCIA

Como fazer uso da tabela t de Student?


O vídeo a seguir, do canal Salvando o Semestre, nos ensina a fazer
uso da tabela t de Student. Acesse-o em
https://www.youtube.com/watch?v=xP6XZabCSgs .

Exemplo 9

Um fornecedor de equipamentos de ultrassom disse que o preço médio desse equipamento


em seu catálogo é de R$ 23.900,00. Você suspeita que essa afirmação seja incorreta e descobre
que uma amostra aleatória, normalmente distribuída, de 14 equipamentos de ultrassom tenha
preço médio de R$ 23.000,00 e desvio-padrão de R$ 1.113,00. Há evidências suficientes para
rejeitar a afirmação do revendedor com nível de significância de 5%?

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Solução: note que temos 14 amostras, e o desvio-padrão é conhecido. Por isso, vamos usar o
teste t e seguir as quatro etapas. Acompanhe:
Etapa 1: escrever a formulação das hipóteses.

Etapa 2: escolha da estatística do teste.


Temos as seguintes informações: , n = 14, e
Vamos assumir distribuição normal e calcular o valor de t:

Etapa 3: esboço da região crítica.


O teste é unilateral à esquerda (compare a formulação das hipóteses com a Tabela 7 para
confirmação). Assim, fazemos o esboço da região crítica. Primeiramente, buscamos os valores
de t (no anexo 3) para marcar os extremos do intervalo da região crítica. Observe que temos 13
graus de liberdade e analise as Figuras 8 e 9.

WWW.UNINGA.BR 112
EDUCAÇÃO A DISTÂNCIA

Figura 8 – Determinação do extremo do intervalo da região crítica. Fonte: O autor.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Figura 9 – Esboço da região crítica e localização do valor de nessa região. Fonte: O autor.

Etapa 4: decisão.
Note que o valor de está dentro da região crítica, e rejeitamos a hipótese
nula. Portanto, pode-se afirmar, com 95% de certeza, que a média do preço do equipamento de
ultrassom seja inferior a R$ 23.900,00.

WWW.UNINGA.BR 113
EDUCAÇÃO A DISTÂNCIA

3.2 Construção de um Teste de Hipótese para Proporção Populacional

Se p é a proporção populacional e é a proporção amostral, sabemos que, se


, podemos aproximar a distribuição amostral de pela distribuição normal, ou seja,
. Isso nos permite realizar testes para a proporção populacional de forma
análoga aos testes para média. Vejamos o procedimento:

Etapa 1: formulação das hipóteses iguais àquelas da Tabela 7.


Etapa 2: escolha da estatística do teste.
Se , podemos aproximar a distribuição amostral de pela distribuição normal, ou
seja, . Nessas condições, a estatística de teste será:

O valor da estatística do teste será dado por:

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Etapa 3: região crítica ou região de rejeição.
Corresponde às áreas hachuradas da Figura 4 para cada tipo de teste, como proposto na
Tabela 7.

Etapa 4: tomada de decisão.


Se o valor da estatística do teste pertencer à região crítica RC, rejeitamos a
hipótese H0 ao nível de significância. Caso contrário, não podemos rejeitá-la.

WWW.UNINGA.BR 114
EDUCAÇÃO A DISTÂNCIA

Exemplo 10

Um produtor afirma que a proporção de pés de laranja contaminados com certa doença em
sua propriedade é de apenas 12%. Em um estudo com uma amostra com 100 elementos,
selecionados aleatoriamente, 18 apresentaram a doença. Existe evidência amostral para
contestar a afirmação do produtor, ao nível de significância de 5%?

Solução: temos a proporção de plantas doentes na população, p=0,12, e a proporção de plantas


doentes na amostra, =0,18. Tamanho da amostra, n=100 e = 5%.
Etapa 1: hipóteses.

Etapa 2: cálculo da estatística.

Etapa 3: obtenção da região crítica (RC).

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3


Usamos a tabela N(0,1) – Anexo 2 - com . Daí, temos a Figura 10.

Figura 10 – Teste unilateral à direita. Fonte: O autor.

Etapa 4: decisão.
Como pertence à região crítica, rejeitamos a hipótese H0. Logo, pelos dados
amostrais, existe evidência amostral para contestar a afirmação do produtor, ao nível de
significância de 5%.

O objetivo de Estatística aplicada é ensinar os estudantes a


utilizarem o conhecimento estatístico para retratar e descrever
o mundo e, a partir disso, tomar decisões fundamentadas.
Totalmente revista e atualizada, esta edição mantém sua
simplicidade e clareza ao apresentar os principais conceitos da
estatística, aplicados em situações reais por meio de estudos
de caso e mais de 200 exemplos e 2.300 exercícios propostos.
Além disso, o conteúdo do livro é integrado com o uso de
ferramentas tecnológicas — Minitab, Excel e a calculadora TI-
Fonte: Amazon (2016).
84 Plus — e de applets interativos exclusivos, que estimulam
os alunos a investigarem conceitos estatísticos.

WWW.UNINGA.BR 115
EDUCAÇÃO A DISTÂNCIA

CONSIDERAÇÕES FINAIS

Na Unidade 3, iniciamos os nossos estudos em um ramo da Estatística bastante importante,


conhecido como Estatística Inferencial.
Nela, estudamos a construção de intervalos de confiança e o teste de hipótese para média.
Nos estudos relacionados à construção de intervalo de confiança, aprendemos a fazer estimativas
mais significativas, especificando um intervalo de valores em uma linha de números, juntamente
com a afirmação do quão confiante você está de que seu intervalo contém o parâmetro populacional
em apreço. Já nos estudos de testes de hipótese, você aprendeu a testar uma afirmação sobre um
parâmetro.
Esperamos que você tenha aproveitado os estudos. Até a Unidade 4!

ESTATÍSTICA E PROBABILIDADE | UNIDADE 3

WWW.UNINGA.BR 116
UNIDADE ENSINO A DISTÂNCIA

04
DISCIPLINA:
ESTATÍSTICA E PROBABILIDADE

CORRELAÇÃO E REGRESSÃO
PROF. DR. RICARDO CARDOSO DE OLIVEIRA

SUMÁRIO DA UNIDADE

INTRODUÇÃO................................................................................................................................................................118
1. CORRELAÇÃO DE DADOS.........................................................................................................................................119
2. REGRESSÃO LINEAR...............................................................................................................................................122
CONSIDERAÇÕES FINAIS............................................................................................................................................127

WWW.UNINGA.BR 117
EDUCAÇÃO A DISTÂNCIA

INTRODUÇÃO

Nesta unidade, introduziremos um método para determinação da existência, ou não, de


uma correlação ou associação entre duas variáveis para o caso de essa correlação ser linear, ou
seja, do tipo .
Quando se trabalha com duas ou mais variáveis, elas poderão estar relacionadas ou
não. Se essas variáveis estiverem relacionadas, iremos estabelecer uma equação matemática
que estabeleça o grau dessa dependência. Para tal, identificaremos uma função polinomial de
primeiro grau, que melhor se ajusta aos dados e, a partir disso, poderemos empregar essa equação
para predizer o valor de uma variável, dado o valor da outra.
Espero que você aproveite esta última unidade e que ela sirva para entreter, abrir novos
horizontes e, principalmente, que sirva de estímulo para a continuação de seus estudos em
Bioestatística.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 4

WWW.UNINGA.BR 118
EDUCAÇÃO A DISTÂNCIA

1. CORRELAÇÃO DE DADOS

Dizemos que duas variáveis estão ligadas por uma relação estatística quando existe
correlação entre elas, ou seja, existe correlação entre duas variáveis quando os valores de uma
variável estão relacionados, de alguma maneira, aos valores de outra variável.
Vejamos alguns exemplos: a idade e a altura das crianças; o tempo de prática de esportes
e o ritmo cardíaco; o tempo de estudo e a nota na prova; a taxa de desemprego e a taxa de
criminalidade; a expectativa de vida e a taxa de analfabetismo; a taxa de juros e a inflação.
Assim, para Larson e Farber (2010), uma correlação é uma relação entre duas variáveis.
Os dados podem ser representados por pares ordenados (x,y), em que x é a variável independente
(ou explanatória), e y é a variável dependente (ou resposta).
As variáveis altura e peso de uma criança recém-nascida, por exemplo, apresentam-se, em
geral, correlacionadas positivamente, pois, quase sempre, a criança que “ganha altura” também
“ganha peso”. Por outro lado, no Brasil, a variável renda familiar e o número de elementos da
família costumam se apresentar correlacionados negativamente, pois as famílias de baixa renda,
em geral, tendem a ter mais filhos do que as de alta renda.
A Figura 1 ilustra algumas correlações.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 4


Figura 1 – Tipos de correlação. Fonte: O autor.

Quando se trabalha com duas variáveis, diz-se correlação e regressão simples. Quando
se trabalha com mais de duas variáveis, fala-se de correlação e regressão múltipla.
Antes de realizar qualquer análise estatística formal sobre regressão, devemos usar um
diagrama de dispersão para explorar os dados coletados visualmente. Coletam-se dados exibindo
os valores correspondentes das variáveis. Assim, faz-se o gráfico com os dados coletados em um
sistema de coordenadas retangulares. O conjunto resultante é chamado diagrama de dispersão,
que é uma maneira de visualizarmos se duas variáveis se apresentam correlacionadas. Veja a
Figura 1, anterior.

WWW.UNINGA.BR 119
EDUCAÇÃO A DISTÂNCIA

Para ficar claro, vejamos a seguinte situação-problema: o administrador da rede de pet


shop está interessado em descobrir se existe relação entre os gastos com propaganda das lojas,
no horário nobre da TV aberta, e as vendas dessas oito lojas. Para tal propósito, ele conduz um
estudo para determinar se existe uma relação linear entre a quantidade de dinheiro gasto em
propaganda e as vendas. Os dados coletados pelo administrador estão dispostos na Tabela 1.

Tabela 1 – Gasto com propaganda e receita de uma rede de pet shop.


Gasto com propaganda (UR$ Vendas da loja
Filial
1.000,00) (UR$ 1.000,00)
1 540 5,80
2 294 2,60
3 440 4,00
4 624 6,80
5 252 2,00
6 295 2,70
7 372 4,00

ESTATÍSTICA E PROBABILIDADE | UNIDADE 4


8 473 4,90
Fonte: O autor.

Representando, em um sistema de coordenadas cartesianas ortogonais, os pares ordenados


(xi, yi), obtemos o diagrama de dispersão, o qual nos mostra a existência de correlação entre as
variáveis estudadas.

Figura 2 – Diagrama de dispersão da situação-problema. Fonte: O autor.

Depreende-se da Figura 2 que existe correlação positiva entre as variáveis “gastos com
propaganda” e “vendas”, ou seja, o aumento nos gastos com propaganda ocasiona aumento nas
vendas da loja.

WWW.UNINGA.BR 120
EDUCAÇÃO A DISTÂNCIA

Uma maneira de verificar se existe correlação sem construir o diagrama de dispersão é


por meio do cálculo do coeficiente de correlação de Pearson, que é definido como:

Eq. 01

Ali, n é o número de observações, é a soma dos valores da variável independente,


é a soma dos valores da variável dependente, é a soma dos produtos entre a variável
dependente e independente, é a soma dos quadrados da variável dependente, e éa
soma dos quadrados da variável independente.
O valor do coeficiente de correlação de Pearson (r) sempre está no intervalo
. Assim:
(i) se a correlação entre as variáveis é perfeita e positiva, então r = 1.
(ii) se a correlação entre as variáveis é perfeita e negativa, então r = - 1.
(iii) se não existe correlação entre as variáveis, então r = 0. Nesse caso, obviamente, a

ESTATÍSTICA E PROBABILIDADE | UNIDADE 4


correlação não é linear.

(iv) se a correlação é de inexistente a muito fraca, e nada podemos concluir.

(v) se , a correlação é de muito fraca à média, e podemos considerar o


valor de r nesse intervalo como indício de uma correlação entre as variáveis sem muito
efeito.

(vi) se a correlação é de média a muito forte, e as variáveis mantêm


dependência significativa.
Vamos calcular o coeficiente de correlação (r) para o caso dos dados dispostos na Tabela
1. Para facilitar o cálculo, é interessante construir a Tabela 2. Vejamos:

Tabela 2 – Valores calculados para o coeficiente de correlação.

Fonte: O autor.

WWW.UNINGA.BR 121
EDUCAÇÃO A DISTÂNCIA

Daí, fazendo uso da Eq. 01, segue que o valor do coeficiente de correlação de Pearson é:

Depreende-se, do valor do coeficente de correlação (r) calculado, que, de fato, há forte


correlação positiva entre as variáveis “gastos” e “vendas”. Assim, à medida que aumenta o gasto
com propaganda, as vendas da rede de pet shop também aumentam.

O fato de duas variáveis serem fortemente correlacionadas não implica relação de


causa e efeito entre elas. Um estudo mais profundo é necessário para determinar
se há uma relação causal entre as variáveis. Se houver correlação significante
entre as variáveis, o pesquisador deve considerar as seguintes possibilidades:
• existe relação direta de causa e efeito entre as variáveis.
• existe relação de causa e efeito reversa entre as variáveis.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 4


• a relação de causa e efeito entre as variáveis estudadas pode ser causada por
uma terceira variável ou por uma combinação de diversas outras variáveis.
• a relação de causa e efeito entre as variáveis é uma coincidência.

2. REGRESSÃO LINEAR

Agora, é de interesse determinar uma equação da forma:

Eq. 02

Nela, a e b são números reais.


Assim, supondo x, que é a variável independente, e y, que é a variável dependente, vamos
determinar o ajustamento de uma equação de reta, que é a relação entre esses dados. Os valores
de a e b são dados por:

Eq. 03

Eq. 04

WWW.UNINGA.BR 122
EDUCAÇÃO A DISTÂNCIA

Vamos determinar uma equação, semelhante à Eq.2, calculando a e b para os dados da


Tabela 2 (e Figura 2). Assim, empregando as Eq. 03 e 04, temos que:

Logo, temos a reta de regressão para a situação em estudo, como é da forma:


, em que x é a quantidade de milhares de dólares gastos, e y é a quantidade
de milhares de dólares arrecadados com as vendas. Mas qual o significado dessa equação? Com
relação às oito filiais estudadas, podemos predizer as receitas de uma filial (y) a partir de um dado
gasto com propaganda (x). Dessa forma, caso estejamos interessados em determinar o valor da
receita quando são gastos US$ 700.000, apenas substituímos x = 700 (lembre-se de que o valor de
x, ao empregar a equação obtida nesse caso, é dividido por 1.000). Daí, obtemos uma receita igual
a US$ 7.850,00. Observe que, quando não se gasta com propaganda (x = 0), prevemos uma queda
nas vendas de US$ 1,25 (US$ 1000).

ESTATÍSTICA E PROBABILIDADE | UNIDADE 4


Para traçar a reta no plano formado pelos eixos X e Y, basta atribuir, pelo menos, dois
valores para x e calcular os correspondentes valores de y, pois, por dois pontos, passa uma (e
apenas uma) reta.

O abuso mais comum em correlação em estudos é confundir os conceitos de


correlação com as casualidades. Quando uma correlação forte é encontrada entre
duas variáveis, procure outras variáveis que são correlacionadas com ambas.

Vimos que, se verificarmos a existência de correlação entre duas variáveis x e y, podemos


determinar uma equação linear, que expressa y em função de x, e essa equação nos permite
o cálculo de y sendo conhecido x. Temos de ter em mente que um valor previsto para y não
será necessariamente um resultado exato, pois, além do valor da variável x, existem outras
variáveis que não foram incluídas no estudo, e elas podem afetar o resultado final. O coeficiente
de determinação (r2) é o quadrado do coeficiente de correlação, ou seja, [Coeficiente de
determinação = (coeficiente de correlação)2] é uma medida descritiva da proporção da variação
de y, que pode ser explicada por x segundo o modelo especificado.
No exemplo em que estudamos a relação linear entre dinheiro gasto em propaganda e
as vendas da rede de pet shop, obtivemos um coeficiente de correlação de r = 0,9899. Então, r2
= 0,9799. A interpretação desse coeficiente de determinação é que, dentre as filiais estudadas,
97,99% da variação nas vendas são explicadas pela variação nos gastos com propaganda. Os 2,01%
(1 - 0,9799 ou 100-97,99) restantes são inexplicáveis e se devem ao acaso ou a outras variáveis.

WWW.UNINGA.BR 123
EDUCAÇÃO A DISTÂNCIA

Você sabia que é possível usar uma calculadora científica para


efetuar a regressão linear simples?
Assista ao vídeo do canal Me ensinou, disponível em
https://www.youtube.com/watch?v=VDUw0mKZKIw .

Vamos fazer outro exemplo para sedimentar o conhecimento acerca da regressão linear.
Acompanhe.

Exemplo 1

Considere os dados relativos à quantidade de fertilizante utilizada (xi), em kg, e a produção


obtida (yi) de soja, em ton., em determinado município, conforme Tabela 3. Considerando as
informações dadas, resolva os itens a seguir:

ESTATÍSTICA E PROBABILIDADE | UNIDADE 4


a) construa o diagrama de dispersão.
b) verifique se há correlação entre as variáveis estudadas.
c) determine a equação da reta para o caso de existência de correlação.
d) determine o coeficiente de determinação e explique seu significado.

Tabela 3 – Quantidade de fertilizante utilizada e quantidade de soja produzida em um dado


município.

Fonte: O autor.

Solução:
a) De posse dos valores da Tabela 3, podemos empregar um software (Excel, por exemplo) e
compor o diagrama de dispersão, que está apresentado na Figura 3.

Figura 3 – Diagrama de dispersão. Fonte: O autor.

Depreende-se da Figura 3 que existe uma relação linear entre as variáveis estudadas. Para
determinar os demais itens, vamos construir a Tabela 4, como segue.

WWW.UNINGA.BR 124
EDUCAÇÃO A DISTÂNCIA

Tabela 4 – Valores calculados para o coeficiente de correlação.

Fonte: O autor.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 4


b) O coeficiente de correlação de Pearson é determinado a partir da Eq. (01). Note que n = 7,
pois temos 7 pares ordenados. Assim:

Logo, o coeficiente de correlação de Pearson calculado confirma a dispersão obtida na Figura


3, e essa correlação é forte, isto é, as variáveis mantêm dependência significativa.

c) Para determinar a equação da reta de correlação do tipo , vamos empregar as


Eq. (03) e Eq. (04) como segue:

Logo, a equação de regressão linear é:

d) O coeficiente de determinação é:

E, de acordo com o modelo especificado, 99,2% das variações da quantidade de soja produzida
são explicadas pelas variações da quantidade de fertilizante empregadas, e 0,8% das variações
da quantidade de soja produzida são explicadas por outras variáveis ou combinações de outras
variáveis.

WWW.UNINGA.BR 125
EDUCAÇÃO A DISTÂNCIA

Comem chocolate, ficam inteligentes e ganham prêmios. Parece bobagem, mas


existe uma relação entre o consumo de chocolate e os países onde vivem os
vencedores do Prêmio Nobel.
E quem fez essa comparação realmente não tinha mais nada para fazer. O
cardiologista Franz Messerli estava deitado num quarto de hotel quando parou
para pensar sobre um estudo que mostrava como o flavonoide do cacau pode
aprimorar nossas habilidades cognitivas. Aí, ele começou a analisar se os países
de onde mais saíam vencedores do Prêmio Nobel consumiam muito chocolate.
E concluiu: quanto maior o consumo de chocolate per capita (kg/habitantes) de
um país, maior o número de gênios premiados com o Nobel, a cada 10 milhões de
pessoas.
Os suíços, por exemplo, que somam quase 8 milhões de pessoas, já levaram
29 premiações e comem chocolate pra caramba – cada habitante come quase
10 quilos do doce por ano. A Suécia e a Alemanha também. Seguindo a média
encontrada pela pesquisa, para ganhar mais um Nobel, qualquer país precisa
aumentar em 400 gramas o consumo anual de chocolate.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 4


Bobeira? Total. Até o pesquisador sabe: ninguém vai ganhar um
Nobel depois de se entupir de chocolate. Maaas, se esse pessoal
inteligente curtia uma barra de chocolate, por que não seguir o
exemplo?
Disponível em: http://super.abril.com.br/blogs/cienciamaluca/
pessoas-inteligentes-comem-muito-chocolate/. Acesso em: 1
mar. 2021.

WWW.UNINGA.BR 126
EDUCAÇÃO A DISTÂNCIA

CONSIDERAÇÕES FINAIS

Na Unidade 4, estudamos o relacionamento entre duas variáveis por meio de regressão


linear simples. Vimos que a regressão e a correlação tratam apenas do relacionamento do tipo
linear entre duas variáveis e que a análise de correlação entre essas variáveis fornece-nos um
número que resume o grau de relacionamento linear entre as duas variáveis em estudo.
Já a análise de regressão fornece uma equação que descreve o comportamento de uma das
variáveis em função do comportamento da outra variável.

ESTATÍSTICA E PROBABILIDADE | UNIDADE 4

WWW.UNINGA.BR 127
ENSINO A DISTÂNCIA

REFERÊNCIAS
AMAZON. Estatística Aplicada. 2016. Disponível em: https://www.amazon.com.br/
Estat%C3%ADstica-aplicada-Ron-Larson-ebook/dp/B01IPIN4YC. Acesso em: 1 mar. 2021.

G1. Emissões mundiais de CO² sobem em 2011 e batem recorde, diz Instituto. 2012. Disponível
em: http://g1.globo.com/natureza/noticia/2012/11/emissoes-mundiais-de-co2-sobem-em-2011-
e-batem-recorde-diz-instituto.html. Acesso em: 25 fev. 2021.

LARSON, R.; FARBER, B. Estatística aplicada. 6. ed. São Paulo: Pearson, 2016.

UOL NOTÍCIAS. Dez países emitem quase 70% dos gases do efeito estufa do mundo. 2015.
Disponível em: https://noticias.uol.com.br/ciencia/infograficos/2015/12/06/dez-paises-emitem-
quase-70-dos-gases-do-efeito-estufa-do-mundo.htm. Acesso em: 25 fev. 2021.

WWW.UNINGA.BR 128
ENSINO A DISTÂNCIA

ANEXOS
ANEXO 1 – Números aleatórios

WWW.UNINGA.BR 129
ENSINO A DISTÂNCIA

ANEXOS
ANEXO 2 – Tabela Normal Reduzida
Tabela da Distribuição Normal Padrão
P(Z<z)

z 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

WWW.UNINGA.BR 130
ENSINO A DISTÂNCIA

ANEXOS
ANEXO 3 – Distribuição t de Student

WWW.UNINGA.BR 131

Você também pode gostar