Você está na página 1de 193

EDUCAÇÃO A DISTÂNCIA

EDUCAÇÃO A DISTÂNCIA

LICENCIATURA EM

Computação
Estatística
André Luiz Sena da Rocha

PONTA GROSSA / PARANÁ


2017
CRÉDITOS
Universidade Estadual de Ponta Grossa

Carlos Luciano Sant’ana Vargas


Reitor

Gisele Alves de Sá Quimelli


Vice - Reitor

Pró-Reitoria de Assuntos Administrativos Colaboradores em EAD


Amaury dos Martyres - Pró-Reitor Dênia Falcão de Bittencourt
Cláudia Cristina Muller
Pró-Reitoria de Graduação
Miguel Archanjo de Freitas Junior - Pró-Reitor Projeto Gráfico
Eloise Guenther
Núcleo de Tecnologia e Educação Aberta e a Distância
Eliane de Fátima Rauski- Coordenadora Geral Colaboradores de Publicação
Denise Galdino - Revisão
Sistema Universidade Aberta do Brasil Eloise Guenther - Diagramação
Eliane de Fátima Rauski - Coordenadora Geral
Marcelo Ferrasa - Coordenador de Curso

Todos direitos reservados ao Ministério da Educação


Sistema Universidade Aberta do Brasil

Direitos autorais cedidos pelo EdUFERSA para


uso na Graduação em Computação UEPG/UAB,
disciplina Estatística Computacional.

UNIVERSIDADE ESTADUAL DE PONTA GROSSA


Núcleo de Tecnologia e Educação Aberta e a Distância - NUTEAD
Av. Gal. Carlos Cavalcanti, 4748 - CEP 84030-900 - Ponta Grossa - PR
Tel.: (42) 3220-3163
www.nutead.org
2017
APRESENTAÇÃO INSTITUCIONAL

A Universidade Estadual de Ponta Grossa é uma instituição de ensino


superior estadual, democrática, pública e gratuita, que tem por missão
responder aos desafios contemporâneos, articulando o global com o local,
a qualidade científica e tecnológica com a qualidade social e cumprindo,
assim, o seu compromisso com a produção e difusão do conhecimento,
com a educação dos cidadãos e com o progresso da coletividade.
No contexto do ensino superior brasileiro, a UEPG se destaca tanto
nas atividades de ensino, como na pesquisa e na extensão. Seus cursos
de graduação presenciais primam pela qualidade, como comprovam os
resultados do ENADE, exame nacional que avalia o desempenho dos
acadêmicos e a situa entre as melhores instituições do país.
A trajetória de sucesso, iniciada há mais de 40 anos, permitiu que
a UEPG se aventurasse também na educação a distância, modalidade
implantada na instituição no ano de 2000 e que, crescendo rapidamente,
vem conquistando uma posição de destaque no cenário nacional.
Atualmente, a UEPG é parceira do MEC/CAPES/FNDE na execução
dos programas de Pró-Licenciatura e do Sistema Universidade Aberta do
Brasil e atua em 40 polos de apoio presencial, ofertando, diversos cursos
de graduação, extensão e pós-graduação a distância nos estados do
Paraná, Santa Cantarina e São Paulo.
Desse modo, a UEPG se coloca numa posição de vanguarda,
assumindo uma proposta educacional democratizante e qualitativamente
diferenciada e se afirmando definitivamente no domínio e disseminação
das tecnologias da informação e da comunicação.
Os nossos cursos e programas a distância apresentam a mesma
carga horária e o mesmo currículo dos cursos presenciais, mas se utilizam
de metodologias, mídias e materiais próprios da EaD que, além de serem
mais flexíveis e facilitarem o aprendizado, permitem constante interação
entre alunos, tutores, professores e coordenação.
Esperamos que você aproveite todos os recursos que oferecemos
para promover a sua aprendizagem e que tenha muito sucesso no curso
que está realizando.

A Coordenação
Governo Federal
Ministro de Educação
Aloizio Mercadante Oliva

Universidade Aberta do Brasil


Responsável pela Diretoria da Educação a Distância
João Carlos Teatini de Souza Clímaco

Universidade Federal Rural do Semi-Árido


Reitor
José de Arimatea de Matos

Pró-Reitor de Graduação
Augusto Carlos Pavão

Núcleo de Educação a Distância


Coordenadora UAB
Kátia Cilene da Silva

Equipe multidisciplinar Equipe administrativa


Antônio Charleskson Lopes Pinheiro – Diretor de Rafaela Cristina Alves de Freitas – Assistente em Administração
Produção de Material Didático Iriane Teresa de Araújo – Responsável pelo fomento
Ulisses de Melo Furtado – Designer Instrucional Lucas Vinicius Martins Cunha – Estagiário
Celeneh Rocha de Castro – Diretora de Formação Continuada Bruno Layson Ferreira Leão – Estagiário
Thiago Henrique Freire de Oliveira – Gerente de Rede
Adriana Mara Guimarães de Farias – Programadora
Equipe de apoio
Márcio Vinicius Barreto da Silva – Revisão Linguística
Camilla Moreira Uchoa – Webdesigner
Alvaneide Maria de Morais Moura – Revisão Didática
Ramon Ribeiro Vitorino Rodrigues - Diretor de Arte Lauro César Bezerra Nogueira – Revisor Matemático
Alberto de Oliveira Lima – Diagramador
José Antonio da Silva - Diagramador Serviços técnicos especializados
Frediano Araújo de Sousa – Ilustrador Life Tecnologia e Consultoria
Mikael Oliveira de Meneses – Produção de E-Books
Edição
EDUFERSA
Arte da capa Impressão
Felipe de Araújo Alves
Imprima Soluções Gráfica Ltda/ME

© 2013 by NEaD/UFERSA - Todos os direitos reservados. Nenhuma parte desta publicação poderá ser reproduzida
ou transmitida de qualquer modo ou por qualquer outro meio, eletrônico ou mecânico, incluindo fotocópia, gravação
ou qualquer outro tipo de sistema de armazenamento e transmissão de informação, sem prévia autorização, por escrito,
do NEaD/UFERSA. O conteúdo da obra é de exclusiva responsabilidade dos autores.

Biblioteca Central Orlando Teixeira – BCOT/UFERSA


Setor de Processos Técnicos – Ficha Catalográfica

R672e Rocha, André Luiz Sena da.

Estatística / André Luiz Sena da Rocha. – Mossoró :


EdUFERSA, 2013.
192 p. : il.

ISBN: 978-85-63145-57-4

1. Estatística. 2. Matemática. I. Título.

RN/UFERSA/BCOT CDD: 519.5

Bibliotecário-Documentalista
Mário Gaudêncio – CRB-15/476

http://nead.ufersa.edu.br/
APRESENTAÇÃO DA DISCIPLINA

Caro (a) aluno (a);


Neste caderno didático, vamos estudar uma das ciências de maior importân-
cia desde a antiguidade: Estatística.
Esta disciplina será de grande utilidade para você como professor, sendo
ela um tópico presente no ensino médio, em matemática. Ter conhecimento em
estatística irá proporcionar ao profissional uma maior facilidade na leitura e inter-
pretação de gráficos, tabelas e informações que são apresentadas no cotidiano.
Quando assistimos ao jornal, durante o período eleitoral, por exemplo, e o apre-
sentador fala de uma pesquisa eleitoral, informando a margem de erro, temos
uma aplicação desta ciência, bem como no mesmo jornal comenta se amanhã vai
chover ou não, temos uma forte aplicação de uma grande área da estatística, que
é a de Séries Temporais.
Ao brincarmos de baralho, dado, bem como muitos outros jogos, também es-
tamos exercitando conceitos de estatística que veremos na Unidade II: aplicações
da probabilidade.
Por isso, pensando em você, procurei apresentar neste caderno didático mui-
tos exemplos resolvidos e discussões sobre os temas que veremos em nossas
aulas. Estatística é uma ciência exata; logo, para melhor entendimento, se faz ne-
cessário resolver exercícios para a fixação, assim, além dos exercícios resolvidos,
serão apresentados exercícios cujas respostas se encontram no fim deste livro.
Logo, só tenho a desejar ótimos estudos. Procure sempre evitar acumular
dúvidas, e faça o máximo possível de exercícios.

Um forte abraço.
SOBRE O AUTOR

Olá, tudo bem?


Tenho bacharelado em Estatística pela Universidade Federal do Rio Grande do
Norte (UFRN) em 2007 e Mestrado na área de Estatística Industrial, em Engenharia
de Produção pela mesma instituição em 2010.
Tenho experiência em Estatística, Controle de qualidade, Controle e gestão
de processos, Gestão da qualidade, Planejamento e controle da produção, dentre
outras áreas. Atuo, principalmente, na área de Controle Estatístico de Processos
off-line e em tempo real (online), utilizando uma modelagem para o número de
não conformidades no item inspecionado, via distribuição de Poisson por meio de
cadeias de Markov com uso de critérios econômicos.
Atualmente, sou professor da Universidade Federal Rural do Semi-Árido, do
Campus Pau dos Ferros e leciono a disciplina de Estatística para o curso de Bacha-
relado em Ciência e Tecnologia. Antes, fui professor do Departamento de Estatís-
tica na Universidade Federal do Rio Grande do Norte entre 2011 e 2012, ministran-
do disciplinas de Estatística Aplicada aos cursos de: Engenharia (Civil, Química,
Alimentos, Elétrica, Materiais), Matemática, Química, Medicina, Biomedicina, Ci-
ências Biológicas, Educação Física, Administração, Turismo, Biblioteconomia, Pe-
dagogia e Gestão de Políticas Públicas.

André Luiz Sena Rocha


SUMÁRIO 

UNIDADE I

ESTATÍSTICA DESCRITIVA

NATUREZA E CAMPO DA ESTATÍSTICA 13

POPULAÇÃO E AMOSTRA  13

• População  14

• Amostra  14

TIPOS DE VARIÁVEIS  17

O MÉTODO ESTATÍSTICO  22

CRITÉRIOS PARA ARREDONDAMENTO  24

REPRESENTAÇÃO TABULAR  26

• Distribuição de frequências simples 31

• Distribuição de frequências em classes  35

REPRESENTAÇÃO GRÁFICA  43

• Gráfico de Colunas  43

• Gráfico de setores  45

• Gráfico de linhas  46

• Gráfico de colunas ou barras múltiplas  47

MEDIDAS DE TENDÊNCIA CENTRAL E DE POSIÇÃO  48

• Média Aritmética  48

• Mediana  51

• Moda  52

• Separatrizes  59

MEDIDAS DE DISPERSÃO  63

• Amplitude Total  64
• Variância  65

• Desvio padrão  66

• Coeficiente de Variação  67

UNIDADE II

INTRODUÇÃO À PROBABILIDADE  75

• Experimentos aleatórios  75

• Espaço amostral  76

• Eventos  77

• Definição de probabilidade  80

• Resultados equiprováveis  83

• Probabilidade condicional  84

• Independência estatística  88

VARIÁVEL ALEATÓRIA UNIDIMENSIONAL  91

• Definição e tipos de Variável Aleatória  92

• Função de probabilidades  92

• Função densidade de probabilidade  94

• Função de distribuição acumulada  96

• Esperança e Variância  98

PRINCIPAIS MODELOS PROBABILÍSTICOS DISCRETOS  101

• Ensaios de Bernoulli  101

• Distribuição Binomial  102

• Distribuição de Poisson  107


PRINCIPAIS MODELOS PROBABILÍSTICOS CONTÍNUOS  111

• Distribuição Exponencial  111

• Distribuição Normal  114

UNIDADE III

INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA 129

DISTRIBUIÇÃO AMOSTRAL 129

• Distribuição Amostral da Média  130

• Distribuição Amostral da Proporção  131

TESTE DE HIPÓTESE 134

• Teste para a média  139

• Teste para a proporção  148

CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES 154

COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON 157

• Teste de hipóteses para existência de correlação  163

REGRESSÃO LINEAR SIMPLES 165

• Equação da reta de regressão 165

• Coeficientes da reta de regressão 166

• Uso da reta de regressão para previsões 170

• Coeficiente de determinação (r2)  163


I ESTATÍSTICA
DESCRITIVA

Nesta Unidade, veremos os conceitos iniciais da estatística, suas prin-


cipais aplicações e ferramentas para uma análise inicial dos dados que se-
rão apresentados. Aprenderemos a construir e interpretar tabelas e gráficos
como forma adicional de descrever as principais características de um con-
junto de dados. E com isso, estaremos aptos a fazer leituras de informações
que são apresentadas no nosso dia-a-dia, seja, por exemplo, num período
eleitoral, seja num estudo divulgado pelo IBGE, seja informações levantadas
na escola, etc.

Objetivos:

• Entender a importância e a aplicação da Estatística;

• Aprender a construir e interpretar tabelas e grafícos;

• Realizar leitura de informações qualitativas e quantitativas;

• Diferenciar um conjunto de números de outro apartir de medidas esta-


tísticas;

• Resumir um banco de dados em suas principais informações.


I - ESTATÍSTICA DESCRITIVA

Natureza e campo da estatística


UN 01

Não existe uma data específica de quando surgiu a estatística, mas sabe-se que des-
de a antiguidade vários povos faziam a contagem de número de pessoas, quanti-

Banco de imagens/NEaD
dade de nascimentos, óbitos, tamanho de suas riquezas, etc. Naquele tempo, essas
informações eram coletadas, predominantemente, para fins bélicos e tributários,
ou seja, o que na época era de maior importância para a maioria das civilizações
era aumentar suas riquezas e saber o tamanho do seu exército e armamento para,
no caso de ser necessário, tomar uma decisão sobre a entrada em uma guerra.

Antes de dar continuidade aos nossos estudos, precisamos saber o que é Estatística. Para que ela serve e
como podemos aplicá-la.

FIQUE DE OLHO
Estatística é a ciência que diz respeito à coleta, apresentação e análise de dados (numéricos1 ou Informações
1

não numéricos2 ), de tal forma que seja possível realizar julgamentos ou interpretações sobre eles. representadas
por números.
Ex: Número
2
Informações Imagine que você e mais 49 colegas da classe de pessoas na
representadas por família.
fizeram uma prova e, que o professor irá divul-
categorias que não
são numéricas. gar as notas. No entanto, você quer saber como
Mas como assim?
Ex: Nome completo foi o desempenho da turma, e logo pergunta
Como podemos fazer
de cada membro ao professor: professor, como a turma se saiu
da família.
julgamentos de dados
quantitativos? nessa prova? 13

Na verdade, o que você quer saber é como foi o desempenho da turma. No entan-
to, o que você está fazendo aqui é uma análise quantitativa a partir da coleta dos
Banco de imagens/NEaD

dados (a coleta foi a aplicação das provas, sendo os dados as notas dos alunos).
Quando o professor responde como foi o desempenho da turma, isso é o julga-
mento dos dados. Mas e aí, será que para saber se a turma foi boa é necessário
analisar todas as 50 notas? Ou será que se analisarmos só uma parte já seria pos-
sível ter uma ideia do desempenho da turma? Você vai descobrir.

SAIBA MAIS
Quer saber mais sobre a estatística e sua história? Veja os vídeos abaixo:

Você sabe o que é Estatística?

Disponivel em: <http://www.youtube.com/


watch?v=9K62mIusmLs>

História da Estatística. Disponivel em:


< http://www.youtube.com/watch?v=-d1mmih1ZHc>

População e amostra
UN 01

Você acabou de ver o exemplo das notas dos 50 alunos, e terminamos a seção passada questionando se era
preciso saber o resultado das 50 notas para ter uma ideia do desempenho da turma. Antes de responder a
esta pergunta, precisamos saber primeiro o que significam População e Amostra.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

População

População é o conjunto de todos os elementos que têm no mínimo uma determinada característica em co-
mum a ser mensurada pelo pesquisador (identificamos pela letra “N”). A população pode ser finita, como
o conjunto de alunos de uma determinada escola, ou infinita, como o número de vezes que se pode jogar
um dado.

Quando é realizado um estudo sobre uma população, ou seja, quando estudamos todos os elementos com
características em comum do nosso interesse, damos a este estudo o nome de censo.

Um exemplo de um censo é o que o nosso País realiza a cada 10 anos para fazer a contagem de todas as
pessoas do território nacional.

Mas, será que sempre precisaremos fazer um censo para saber


como a população se comporta? A resposta é não!

Sabe por quê?

Imagine que a população é composta por todo o sangue do seu cor-


po, você precisa retirar todo o seu sangue para saber se está com

Banco de imagens/NEaD
anemia? É claro que não! Precisamos apenas de uma pequena quan-
tidade de sangue para saber como está todo o sangue do nosso cor-
po assim,chamamos esta pequena quantidade de sangue (que está
representando toda a população) de Amostra.

Amostra
14
Amostra é qualquer subconjunto da população (identificamos pela letra “n”). A amostra pode ser pequena
(no mínimo 1) ou grande (no máximo N–1), logo:

1 ≤ n ≤ (N-1)
Banco de imagens/NEaD

População Amostra

O procedimento de se trabalhar com amostras em vez da população é muito utilizado na inferência esta-
tística.

FIQUE DE OLHO
Inferência Estatística é o ramo da estatística no qual o pesquisador faz afirmações da população
a partir de um estudo de uma amostra previamente selecionada.

O uso da Inferência Estatística é de suma importância, principalmente, em situações nas quais não podemos
estudar toda a população, na maior parte dos casos por tomar muito tempo ou gerar alto custo, de modo a
inviabilizar o estudo; por isso, tomamos uma amostra para analisar a variável de nosso interesse. A partir
do estudo realizado na amostra, poderemos compreender como a população se comporta em média. Esse
procedimento, conhecido como Inferência Estatística, tem forte fundamento na Teoria da Probabilidade.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

E aí, aprendeu os conceitos de População e Amostra?

Vamos exercitar?

EXERCÍCIO RESOLVIDO
1. Dada a população representada pelos números reais (R ),
cite três exemplos de amostras:

a) AMOSTRA: Números Naturais (n).

b) AMOSTRA: Números Racionais (q).

c) AMOSTRA: Números Inteiros ( z ).

2. Dada a população representada pelos números inteiros, cite uma amostra desse conjunto:

AMOSTRA: Números Naturais�


( ).

3. Descreva a população e a amostra para as seguintes situações:

a) No cadastro com todos os bebês nascidos vivos nos hospitais do Rio Grande do Norte em 2009, foi
realizado um sorteio de 1000 desses bebês, sem mais critérios de seleção e calculada a taxa de mor-
talidade infantil dos que não completaram um ano de vida.
15
POPULAÇÃO: Todos os bebês nascidos vivos nos hospitais do Rio Grande do Norte em 2009.

AMOSTRA: 1.000 desses bebês.

b) Um funcionário de um Canil deseja averiguar se os cães estão infectados com um tipo de bactéria
encontrada na ração. Sabendo que o estabelecimento é composto por 10 canis e que em cada um há
cinco cachorros, o funcionário se preocupou em colher uma amostra de sangue de dois cães de cada
um dos canis.

POPULAÇÃO: 50 cães do Canil

AMOSTRA: 20 cães

c) Um pediatra deseja estudar as curvas de crescimento de peso corporal e estatura de crianças nas-
cidas na Maternidade Januário Cicco, em Natal-RN, no período de 2000 a 2005. Para tanto, ele fez, a
partir do cadastro disponibilizado pela maternidade, o sorteio de 300 crianças utilizando o critério
de haver exatamente 50 bebês nascidos em cada um dos anos pesquisados.

POPULAÇÃO: Crianças nascidas na Maternidade Januário Cicco, em Natal-RN, no período de 2000 a 2005.

AMOSTRA: 300 crianças com essas características.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

d) Para analisar as causas de gastrite de seus pacientes, o gastroenterologista Robério pretende realizar
uma pesquisa com seus pacientes sobre a quantidade de ingestão de refrigerantes por semana. Para
tanto, por não poder questionar todos, indagou ao primeiro paciente que entrou em seu consultório;
dando um intervalo de dois pacientes, e perguntando novamente ao quarto paciente, depois ao séti-
mo, décimo e assim por diante.

POPULAÇÃO: Pacientes do gastroenterologista Robério.

AMOSTRA: Um a cada três pacientes do Dr. Robério.

e) Um instituto de pesquisa realizou um estudo de ração para engorda do gado da raça Nelore, da fa-
zenda “Nova Aurora”. Para tanto, levando em conta que o gado desta raça recebe uma etiqueta com
código em uma de suas orelhas, foi feito um sorteio de 100 animais, sendo acompanhado e se houve
engorda significativa com uso da ração testada.

POPULAÇÃO: Gado da raça Nelore, da fazenda “Nova Aurora”.

AMOSTRA: 100 animais com estas condições.

f) Dentre os 3000 alunos de uma escola, selecionaram-se 30 que foram inquiridos sobre o programa
de televisão preferido, dando como respostas: a Telejornal, 10 alunos; Novelas, 12 alunos e Cinema,
8 alunos.

16
POPULAÇÃO: 3.000 alunos de uma escola.

AMOSTRA: 30 alunos.

g) Para aferir a aceitação de uma nova ração canina para filhotes de médio porte com até seis meses de
idade, uma empresa selecionou 200 filhotes de diversas raças, com até 6 meses de vida, e contabili-
zou o crescimento deles.

POPULAÇÃO: Filhotes de médio porte com até 6 meses.

AMOSTRA: 200 desses filhotes.

h) Um aluno de Biblioteconomia está fazendo um levantamento de todas as dissertações dos cursos


de História, Geografia e Pedagogia, defendidas a partir do ano 2000, cadastradas no banco de dados
da Biblioteca Central. Dentre elas, foram selecionadas 10 de cada curso e contabilizadas as datas de
defesa.

POPULAÇÃO: Todas as dissertações dos cursos de Geografia, História e Pedagogia defendidas a partir
do ano de 2000 cadastradas no banco de dissertações da Biblioteca Central.

AMOSTRA: as 30 dissertações selecionadas pelo aluno (10 de cada curso).

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

EXERCÍCIO PROPOSTO
1. Descreva a população e amostra para as seguintes situações:

a) A fim de saber a aceitação de um novo remédio para dor de cabeça, para pessoas do sexo feminino,
com idades entre 30 a 40 anos e que sofrem de enxaqueca crônica há mais de 10 anos, uma empresa
selecionou 200 dessas pessoas e realizou um experimento.

b) A fim de analisar a resistência à compressão de 280 kg, um engenheiro de materiais selecionou alea-
toriamente 7.589 tijolos, dentre os produzidos no dia 24 de junho de 2013, na empresa "Cerâmica e
Cia", no turno da manhã. Não houve critérios adicionais na seleção.

c) Um engenheiro de computação trabalha em uma produção de processadores da marca Intel. Sua


fábrica só trabalha com o modelo "Intel® Core™ i7". O engenheiro deseja analisar como estão as sol-
das dos componentes eletrônicos deste modelo. Para tanto, ele orientou os funcionários a realizarem
testes em um processador a cada 15 produzidos. O tempo diário de produção é de 11 horas.

d) Um engenheiro de alimentos decide analisar o nível de satisfação em “Quando


Então para estudei
eu podero conceito de INFERÊNCIAL
conheçer uma popu-
relação à comida do refeitório da fábrica, no turno da tarde, servida ESTATÍSTICA,
lação eu nãoentendi
preciso que para poderpor
estuda-lá conhecer
com- uma
para os funcionários do setor de contabilidade. Para tanto, dentre es- população,
pleto, bastanão
eubasta estudá-la
estudar por completo,
a variável basta
de inter-
ses funcionários, ele sorteou 50, que estão na empresa há mais de 10 eu estudar
esse numa aamostra...
variável de mas
interesse numa
perai, amostra...
o que é
anos, 25 que estão entre cinco e 10 anos e 15 que estão na instituição umamasvariável
espere aí,de
o que é uma variável de interesse?”
interesse?!
há menos de 5 anos. Após a seleção, foi aplicado um questionário in-
e) dagando sobre a qualidade da comida.

Para realizar um estudo sobre o tempo gasto, em segundos, por 100


atletas na corrida dos 100 metros com obstáculos, registrou-se o tem-
po gasto por 16 desses, utilizando a seguinte regra: seria contabiliza-
do o tempo do 1º colocado, depois o 5°, 9°, 13°, 17°, 21°, etc.
17

Banco de imagens/NEaD
Tipos de variáveis
UN 01

Quando realizamos um estudo, seja em uma população ou em parte dela (amostra), estamos observando,
contando ou medindo uma característica comum aos elementos estudados. Esta característica mensurada
se chama variável de interesse. As variáveis surgem quando você pergunta o quê irá medir, contar ou ob-
servar nos elementos da população. As variáveis estatísticas podem ser classificadas em dois tipos:

Classificação quanto ao tipo de variável:

Nominal

1 - Qualitativa

Ordinal

Discreta

2 - Quantitativa

Continua

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

Veremos a definição de cada um dos tipos a seguir:

1. Variáveis Quantitativas: São as características que podem ser medidas em uma escala quantitativa,
ou seja, apresentam valores numéricos que fazem sentido. Podem ser contínuas ou discretas.
a) Variáveis Discretas: Características mensuráveis que podem assumir apenas um número finito ou
infinito contável de valores e, assim, somente fazem sentido valores inteiros. Geralmente, são o resultado
de contagens. Exemplos: número de filhos, número de bactérias por litro de leite, número de cigarros fu-
mados por dia, número de trilhas no CD.
b) Variáveis Contínuas: Características mensuráveis que assumem valores em uma escala contínua (na
reta real), para as quais valores fracionais fazem sentido. Usualmente devem ser medidas através de algum
instrumento. Exemplos: peso (balança), altura (régua), tempo (relógio), idade (anos).

2. Variáveis Qualitativas (ou categóricas): São as características que não possuem valores quantita-
tivos, mas, ao contrário, são definidas por várias categóricas, ou seja, representam uma classificação
dos indivíduos. Podem ser nominais ou ordinais.
a) Variáveis Nominais: Não existe ordenação dentre as categorias.
Exemplos: sexo, cor dos olhos, fumante/não fumante, doente/sadio, sim/não.
b) Variáveis Ordinais: Existe uma ordenação entre as categorias, ou seja, há uma hierarquia natural entre
elas, sendo possível criar uma sequência lógica.
Exemplos: escolaridade (1º, 2º, 3º graus), estágio da doença (inicial, intermediário, terminal), mês de
observação (janeiro, fevereiro,..., dezembro), opinião sobre o atendimento de um restaurante (péssimo,
ruim, regular, bom, ótimo).

Agora veremos uma situação prática que irá nos auxiliar no entendimento deste assunto.

SITUAÇÃO PRÁTICA
Suponha que um funcionário da biblioteca da Ufersa tenha que preencher uma ficha, chamada folha de

18 verificação, sobre os livros de uma determinada seção, como desta figura.

Folha de Verificação

1) Nome do funcionário: __________________________________________________________________

2) Título do livro: __________________________________________________________________________


3) Altura do livro: ___________________Centímetros
4) Largura do livro: _________________Centímetros
5) Peso do livro: _________________Gramas
6) Numero de livros por prateleira: __________
7) Numero de livros de toda a estante: __________
8) Estado de conservação do livro
( ) Péssimo ( ) Ruim ( ) Regular ( ) Bom ( ) Ótimo
9) Número de páginas: _____________
10) Há alguma página rasgada no livro?
( ) Sim ( ) Não
11) Tempo que consta no acervo
( ) Menos de cinco anos ( ) Cinco a dez anos ( ) Mais de dez anos
12) É necessário restaurar o livro?
( ) Necessário ( ) Desnecessário
13) Temperatura ambiente
( ) Muito frio ( ) Frio ( ) Razoável ( ) Quente ( ) Muito quente

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Perceba que as respostas que estamos mensurando na folha de verificação são nossas variáveis de inter-
esse e há perguntas classificadas como quantitativas (perguntas 3, 4, 5, 6, 7, 9) e como qualitativas (1, 2,
8, 10, 11, 12, 13).

Observe que as perguntas 6, 7 e 9 são classificadas como quantitativas discretas, uma vez que é possível
realizar uma contagem inteira do número de livros numa estante, prateleira e sua quantidade de páginas.
Já as perguntas 3, 4 e 5 são classificadas como quantitativas contínuas, pois estas medem a altura, largura
e peso do livro, valores estes presentes numa reta real.

As perguntas 8, 11 e 13 são classificadas como qualitativa ordinal, uma vez que podemos estabelecer uma
ordenação natural das categorias, como por exemplo, a pergunta 13, pode-se ordenar de acordo com a
temperatura (desde a menor temperatura até a de maior). A pergunta 11 pode-se ordenar de acordo com
a ordem cronológica (abaixo de 5 anos, entre 5 e 10 anos, acima de 10 anos). A pergunta 8 pode-se ordenar
de acordo com o nível de conservação do livro (desde o pior conservado até o de melhor estado). Observe
que ainda há perguntas classificadas como qualitativas.

Será que poderemos ordená-las também?

“Nem sempre poderemos ordenar todas as categorias qualitativas; as perguntas 1, 2, 10 e 12 são exem-
plos disso. Nessas, não há possibilidade de criar uma ordenação ou hierarquia natural das categorias,
como por exemplo, a pergunta 2 (Título do livro); suponha dois títulos de livro: “Análise e expressão
textual” e “Análise de livros didáticos”, qual desses títulos será ordenado como o primeiro?

Não é possível responder essa pergunta, porque não há uma hierarquia entre essas duas categorias.
O mesmo ocorre nas perguntas 1, 10 e 12. A pergunta 1 trata do nome do funcionário (imagine dois
funcionários: André e Alberto), não temos como ordenar esses nomes. A pergunta 10 (ocorrência de
página rasgada no livro), não podemos ordenar as categorias “sim” e “não”. A pergunta 12 (necessidade
de restauração do livro), é similar a pergunta 10, pois podemos descrever a pergunta 12 como “sim”
19
(necessário restaurar) ou “não” (não é necessário restaurar”).

Assim, pelo mesmo motivo, não podemos ordenar essas categorias. Logo, essas perguntas são qualifica-
das como qualitativas nominais.”

SAIBA MAIS
Apesar de haver a classificação do tipo de variável, uma variável originalmente quantitativa pode
ser coletada de forma qualitativa.

Por exemplo, a variável idade em anos completos, é quantitativa (contínua); mas, se for informada
apenas a faixa etária (0 a 5 anos, 6 a 10 anos, 11 a 15 anos, etc...), é qualitativa (ordinal). Outro
exemplo é o peso dos lutadores de boxe, medido em quilogramas; originalmente é uma variável
quantitativa (contínua), mas pode ser coletada como uma variável qualitativa (ordinal) se o classi-
ficarmos nas categorias do boxe (peso-pena, peso-leve, peso-pesado, etc.).

Outro ponto importante é que, nem sempre, uma variável representada por números é quanti-
tativa. Temos, por exemplo, o número do telefone de uma pessoa, o número da casa, o número
de sua identidade. Essas informações, apesar de numéricas, representam um código de identifi-
cação e não necessariamente dão ideia de quantidade. Ocorrendo o mesmo com os recensea-
dores do IBGE ao fazer as pesquisas domiciliares, muitas vezes registram o sexo do indivíduo na
planilha de dados como 1, se masculino e 2, se feminino. Isto não significa que a variável sexo
passou a ser quantitativa!

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

EXERCÍCIO RESOLVIDO

1. Classifique com relação ao tipo de variável:


a) Massa (kg) de 30 sacos de cimento;
Resp.: Quantitativa contínua.

b) Tempo de cozimento, em minutos, de um tipo de alimento;


Resp.: Quantitativa contínua.

c) Marcas de placa-mãe que serão testadas pelo INMETRO (ASSUS, Intel, Gigabyte, Acer);
Resp.: Qualitativa nominal.

d) Resultado de inspeção de peça sobre arranhões ("Inexistente", “Pouco”,“Razoável”,“Muitos”);


Resp.: Qualitativa ordinal.

e) Número de testes feitos pelos alunos durante o semestre;


Resp.: Quantitativa discreta.

f) Resultado de uma reação química (reagiu, não reagiu);


Resp.: Qualitativa nominal.
20
g) Conteúdo de nicotina (em miligramas) em um cigarro;
Resp.: Quantitativa contínua.

h) Conformidade do produto fabricado (perfeito, defeituoso);


Resp.: Qualitativa nominal.

i) Gravidade de um ferimento (nenhuma, suave, moderada, severa);


Resp.: qualitativa ordinal.

j) Diagnóstico de uma doença (HIV, Tuberculose, Câncer, Dengue);


Resp.: Qualitativa nominal.

k) Opinião sobre a eficácia de certo remédio (péssima, ruim, regular, boa, ótima);
Resp.: Qualitativa ordinal.

l) Espessura de uma agulha (em milímetros);


Resp.: Quantitativa contínua.

m) Classe social (baixa, média, alta);


Resp.: Qualitativa ordinal.

n) Temperatura ambiente de uma sala de cirurgia (ºC);


Resp.: Quantitativa contínua.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

o) Estudo de cultivo de bactérias (presente, ausente);

Resp.: Qualitativa nominal.

p) Precipitação pluviométrica de uma cidade durante um ano (em milímetros);

Resp.: Quantitativa contínua.

q) Cor dos cabelos:

Resp.: Qualitativa nominal.

r) Sexo dos filhos de casais residentes em certa cidade.

Resp.: Qualitativa nominal.

s) Resultado de uma seleção para entrevista de emprego (“admitido”, “não admitido”);

Resp.: Qualitativa nominal.

t) Quantidade de horas extras de um funcionário durante um mês;

Resp.: Quantitativa contínua.

u) Número de funcionários da UFERSA que tiraram férias no mês de julho;

Resp.: Quantitativa discreta 21


v) Tempo de férias de um funcionário (“quinze dias”, “trinta dias”, “mais de trinta dias”);

Resp.: Qualitativa ordinal.

w) Número de vales refeição concedidos ao quadro funcional de uma empresa;

Resp.: Quantitativa discreta

x) Valor (R$) de vales refeição concedidos ao quadro funcional de uma empresa;

Resp.: Quantitativa contínua.

y) Desconto do Fundo de Garantia por Tempo de Serviço (FGTS) de um funcionário (R$);

Resp.: Quantitativa contínua.

z) Nome de um funcionário da UFERSA.

Resp.: Qualitativa nominal.

EXERCÍCIO PROPOSTOS

1. Classifique o tipo de cada uma das variáveis

a) Cor da pele.

b) Quantidade de casas na sua rua.

c) Tempo (h) que se dedica aos estudos.


ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

d) Distância (km) da sua casa para a farmácia mais próxima.

e) Nome dos modelos de carros de uma montadora.


f) Grau de instrução (Analfabeto, Ensino Fundamental Incompleto, Ensino Fundamental Completo,
Ensino Médio Incompleto, Ensino Médio Completo, Ensino Superior Incompleto, Ensino Superior
Completo, Pós-graduação).

g) Nome de time de futebol (Flamengo, Vasco, Fluminense, São Paulo).

h) Quantidade de vitórias que um piloto de Fórmula 1 pode ter em um campeonato.

i) Quantidade de litros suficiente para encher uma piscina olímpica.

j) Número de votos que um candidato pode ter em uma eleição para vereador.

k) Estado Civil (Solteiro, Casado, Divorciado, Viúvo, União Estável)

O método estatístico
UN 01

O método estatístico é fundamental em grande parte de pesquisas e estudos científicos. Este método é
composto por etapas que o pesquisador deve seguir para desenvolver o estudo da melhor forma possível
e interpretar os dados de forma mais eficaz. As fases do método estatístico são:

22 Veremos o que cada uma dessas etapas representa

Definição de Planejamento
Problema da Pesquisa

Crítica dos Coleta de


Dados Dados

Apresentação
Apresentação
dos Dados
dos Dados
(Tabelas e
(Conclusões)
Gráficos)

DEFINIÇÃO DO PROBLEMA
É a primeira etapa e uma das mais importantes, pois é nela que o pesquisador irá definir com a máxima
precisão possível, o que vai estudar.

Exemplo: um candidato a prefeito de uma cidade deseja saber qual o percentual da pretensão de votos na
cidade em que irá concorrer à eleição. Logo, será realizada uma pesquisa para estudar o percentual de
votos dos eleitores a favor desse candidato.

PLANEJAMENTO

No planejamento, serão levantadas todas as informações possíveis do problema a ser estudado. Nessa
etapa, será definido se a pesquisa será feita com a população (censo) ou com uma amostra dela, e a partir
daí serão definidos os cronogramas das atividades desenvolvidas: custos envolvidos, tamanho da equipe
para a pesquisa, critérios de aplicação, etc.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Exemplo: O planejamento do exemplo anterior abordará as seguintes informações: se a pesquisa será


realizada apenas com uma amostra ou com todos os eleitores da cidade; sendo definido um cronograma
de atividades em que neste deverá conter os custos envolvidos, quantidade de eleitores em cada um dos
bairros da cidade, mapa da cidade, tamanho e número de equipes que farão a pesquisa, elaboração do
questionário que será aplicado, etc.

COLETA DE DADOS

É a coleta das informações, ou seja, quando o pesquisador vai a campo com sua equipe.

Exemplo: A coleta de dados para o exemplo anterior será a aplicação dos questionários nos eleitores da
cidade em que o candidato a prefeito está concorrendo.

CRÍTICA DE DADOS

Nessa etapa, é realizada uma busca por possíveis erros que possam ter ocorrido e comprometam a pes-
quisa. Assim, é da sensibilidade do pesquisador investigar todo resultado não esperado como, também, o
muito acima ou abaixo do normal.

Exemplo: a crítica de dados para o exemplo anterior será a análise dos questionários aplicados e tabulados
numa planilha eletrônica. O pesquisador irá à procura de possíveis erros, como: Erro de digitação, número
de questionários incompatível com o número de questionários na planilha, averiguação se foi aplicado
corretamente os questionários nos locais planejados, se não ocorreu nenhum problema na pesquisa, se
há respostas estranhas como, por exemplo, idade de um entrevistado igual a 120 anos, etc. O papel do
pesquisador nessa etapa será de investigar todos os possíveis erros da pesquisa para poder averiguar sua
veracidade.

APRESENTAÇÃO DOS DADOS (Tabelas e Gráficos):

Após a coleta e a crítica dos dados, será realizado um tratamento estatístico das informações levantadas
por meio de tabelas e gráficos.
23
Exemplo: A apresentação dos dados no exemplo anterior será basicamente a construção, a partir dos da-
dos da planilha eletrônica, de tabelas e gráficos que irão representar o percentual dos eleitores que vota-
rão no candidato em questão, bem como em outros candidatos. Nesta etapa poderá ser mensurada tam-
bém informações sobre os eleitores, como o sexo, faixa etária, renda familiar bruta, nível de instrução, etc.

APRESENTAÇÃO DOS DADOS (Conclusões):

Havendo uma descrição e análise do problema estudado através das tabelas e gráficos, o pesquisador po-
derá tomar uma decisão é concluir sobre a(s) possível(is) causa(s) do problema investigado.

Exemplo: Uma vez que o pesquisador já tem os dados da pesquisa representados por tabelas e gráficos,
poderá ser informado ao candidato o percentual de votos favoráveis a ele, bem como suas qualidades e
defeitos informados na pesquisa. Assim, o candidato poderá adaptar sua campanha com base na opinião
dos eleitores mensurada na pesquisa.

Em suma, a Estatística pode ser divida em duas grandes áreas: a Estatística Descritiva e a Estatística In-
dutiva.

A Estatística Descritiva é a área que trabalha basicamente realizando uma descrição inicial dos dados. É
nela que se realizam a organização, apresentação e análise de dados por meio de tabelas e gráficos, como
também por meio de outras medidas estatísticas (por exemplo, a média).

A Estatística Indutiva é onde há aplicações da inferência estatística, ou seja, é nela que o pesquisador vai
extrapolar os resultados que encontrou na amostra para a população. Vimos no início do nosso caderno
didático o exemplo do professor que aplicou a prova para você e seus 49 colegas de sala. Quando retira-
mos uma amostra de provas e calculamos a média das notas dessa amostra; ao extrapolar o resultado que
encontramos nessa amostra para toda a turma, estamos realizando inferência estatística. No entanto, na
Unidade III veremos que haverá uma probabilidade (α, em que 0 ≤ α ≤ 1) de estarmos errados e uma pro-
babilidade (1 – α) de estarmos corretos.

Antes de trabalharmos com as principais aplicações numéricas da estatística, veremos na próxima seção
os critérios para realizar arredondamento de números, procedimento bastante utilizado em nosso cader-
no didático.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

Critérios para arredondamento


UN 01

Em muitas situações do nosso caderno, teremos números com grande quantidade de casas decimais (ou
até casas decimais infinitas, como, por exemplo, no caso de uma dízima periódica), impossibilitando ou
dificultando os cálculos. Assim, faz-se necessário arredondar este número para uma quantidade finita de
casas decimais.

O processo de arredondamento consiste em obter um menor erro ao representar o último algarismo de


um número. Vamos observar como exemplo o número pi (π):

π = 3,14159265358979

Podemos observar que o número pi está entre os números inteiros 3 e 4. No entanto, ele está mais próximo
do número 3 do que o número 4. Abaixo segue uma ilustração:

π = 3,14159265358979...

2 3 4 5
Ao representarmos o número pi por um número inteiro, o valor mais próximo seria 3. Caso arredondásse-
mos para o número 4, estaríamos cometendo um erro maior do que representá-lo por 3.
Para o arredondamento, deveremos utilizar a regra que consiste em analisar o dígito posterior à última
casa decimal a ser considerada e:

a) Se este dígito for maior ou igual a 5 (entre 5 e 9), somar 1 à última casa decimal;
24 b) Se este dígito for menor que 5 (de 0 a 4), manter a última casa decimal inalterada.

EXERCÍCIO RESOLVIDO

2. Faça o arredondamento para as seguintes situações abaixo:

a) Número inteiro: 6,4789473675 ≈ 6 , pois o 1º número após a vírgula (4) é inferior a 5.


b) Número inteiro:7,59874673 ≈ 8 , pois o 1º número após a vírgula (5) é igual ou superior a 5.
c) Número inteiro:17,7441233 ≈ 18 , pois o 1º número após a vírgula (7) é igual ou superior a 5.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

d) Uma casa decimal:6,4789473675 ≈ 6,5 , pois o 2º número após a vírgula (7) é igual ou superior a 5.

e) Uma casa decimal:7,59874673 ≈ 7,6 , pois o 2º número após a vírgula (9) é igual ou superior a 5.

f) Uma casa decimal:17,7441233 ≈ 17,7 , pois o 2º número após a vírgula (4) é inferior a 5.

g) Duas casas decimais:6,4789473675 ≈ 6,48 , pois o 3º número após a vírgula (8) é igual ou superior
a 5.

h) Duas casas decimais: 7,59874673 ≈ 7,60 , pois o 3º número após a vírgula é igual ou superior a 5. No
entanto, a 2º casa decimal não tinha como aumentar (9), logo, o arredondamento foi dado no 1º nú-
mero após a vírgula, aumentando de (5) para (6).

i) Duas casas decimais: 17,7441233 ≈ 17,74 , pois o 3º número após a vírgula (4) é inferior a 5.

j) Três casas decimais: 6,4789473675 ≈ 6,479 , pois o 4º número após a vírgula (9) é igual ou superior
a 5.

k) Três casas decimais: 7,59874673 ≈ 7,599 , pois o 4º número após a vírgula (7) é igual ou superior a 5.

l) Três casas decimais: 17,7441233 ≈ 17,744 , pois o 4º número após a vírgula (1) é inferior a 5.

m) Quatro casas decimais: 6,4789473675 ≈ 6,4789 , pois o 5º número após a vírgula (4) é inferior a 5.

n) Quatro casas decimais: 7,59874673 ≈ 7,5987 , pois o 5º número após a vírgula (4) é inferior a 5.

o) Quatro casas decimais: 17,7441233 ≈ 17,7441 , pois o 5º número após a vírgula (2) é inferior a 5.

EXERCÍCIO PROPOSTOS 25
1. Faça o arredondamento para as seguintes situações:

a) Arredondar para um número inteiro: 29,1748362987452

b) Arredondar para um número inteiro: 3,715072804236568

c) Arredondar para duas casas decimais: 29,1748362987452

d) Arredondar para duas casas decimais: 3,715072804236568

e) Arredondar para três casas decimais: 29,1748362987452

f) Arredondar para três casas decimais: 3,715072804236568

g) Arredondar para quatro casas decimais: 29,1748362987452

h) Arredondar para quatro casas decimais: 3,715072804236568

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

Representação tabular
UN 01

Uma vez realizada a coleta de dados, eles estarão em uma planilha na qual, muitas vezes, não apresen-
A representação tam um significado claro. Logo, para podermos apresentá-los de uma forma mais intuitiva e didática, nos
tabular também é utilizamos de tabelas e gráficos para esse fim. No entanto, antes de irmos para as conhecidas “tabelas”,
conhecida como
precisamos saber os conceitos de tipos de dados, dados brutos e dados em rol.
distribuição de
frequências. Numa pesquisa, poderemos trabalhar com dois tipos diferentes de dados: dados primários e dados se-
cundários.

Dados Primários: São aqueles que ainda não foram coletados e o pesquisador irá coletá-los durante a
pesquisa.

Dados Secundários: São aqueles que já foram coletados e muitas vezes já foram tabulados e ordenados.
Normalmente são fornecidos pela empresa que o pesquisador está realizando o estudo, ou foram obtidos
em livros, artigos, sites de instituições como IBGE, SEBRAE, DATASUS e etc.

FIQUE DE OLHO
Dados Brutos: são os dados apresentados desordenadamente, da forma como foram coletados
e que não passaram por nenhuma síntese ou análise.

EXEMPLO

Caso perguntemos as idades em anos completos de 15 alunos de uma sala de aula de certa faculdade. E

26 representamos essas idades abaixo

21 24 22 26 31 28 22 37 19 17 22 25 52 22 28

Perceba que as idades não estão em ordem crescente ou decrescente, mas na ordem em que foram cole-
tadas.

Mas e se nós colocássemos essas


idades em ordem crescente (do Aí nós não teríamos mais dados
menor para o maior valor)? brutos, mas dados em rol.
Banco de imagens/NEaD

Banco de imagens/NEaD

FIQUE DE OLHO
Dados em Rol: São os dados que foram coletados anteriormente e apresentados em ordem
crescente ou decrescente.

Utiliza-se com
maior frequência No exemplo a seguir, vamos ultilizar as idades dos 15 alunos e colocar em ordem crescente. Repare que
dados em rol em dessa forma, os dados estão em rol.
ordem crescente.
17 19 21 22 22 22 22 24 25 26 28 28 31 37 52

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

SAIBA MAIS
Lembre-se de que quando coletamos dados (dados primários) e os apresentamos da forma como
foram coletados sem nenhuma síntese ou análise, os chamamos de dados brutos.
Quando colocamos esses dados em ordem crescente ou decrescente, os chamamos de dados
em rol.
Quando trabalhamos com dados secundários, dificilmente eles são dados brutos, uma vez que
são apresentados em sua maior parte, já ordenados e tabulados. Sendo assim, dizemos que es-
ses tipos de dados também são dados em rol.

E como seriam os dados brutos e em forma de rol nos casos de uma variável qualitativa?

Suponha que foi realizada uma pesquisa sobre o nível de satisfação em relação à coleta de lixo de uma
cidade do Rio Grande do Norte. Foi indagado a 91 morador como você classifica a coleta de lixo: (Péssimo,
Ruim, Regular, Bom ou Ótimo)

Quadro 1 – Dados da pesquisa - bruto

Entrevistado Opinião Entrevistado Opinião Entrevistado Opinião


01 Bom 32 Regular 63 Ruim
02 Ruim 33 Regular 64 Bom
03 Regular 34 Ruim 65 Ótimo
04 Péssimo 35 Ruim 66 Ruim
05 Ruim 36 Bom 67 Regular
06 Regular 37 Ruim 68 Regular
07 Péssimo 38 Ruim 69 Regular
27
08 Bom 39 Regular 70 Regular
09 Ruim 40 Regular 71 Regular
10 Regular 41 Bom 72 Bom
11 Ruim 42 Ruim 73 Regular
12 Bom 43 Regular 74 Regular
13 Ótimo 44 Bom 75 Regular
14 Péssimo 45 Regular 76 Regular
15 Regular 46 Péssimo 77 Ruim
16 Regular 47 Bom 78 Regular
17 Ruim 48 Regular 79 Regular
18 Bom 49 Regular 80 Bom
19 Ruim 50 Regular 81 Ruim
20 Regular 51 Ruim 82 Ótimo
21 Regular 52 Ruim 83 Ruim
22 Ruim 53 Péssimo 84 Regular
23 Regular 54 Regular 85 Regular
24 Regular 55 Regular 86 Regular
25 Ruim 56 Bom 87 Ótimo
26 Ruim 57 Péssimo 88 Regular
27 Regular 58 Regular 89 Ruim
28 Ruim 59 Regular 90 Regular
29 Regular 60 Bom 91 Regular
30 Ruim 61 Ruim
31 Regular 62 Regular

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

Observa-se que os dados estão da forma como foram coletados; logo, estes são dados brutos.

E se nós colocarmos estas informações em ordem alfabética?

Aí teríamos dados em forma de rol (neste caso, como são dados qualitativos, não os colocamos, mas em
ordem alfabética).

Quadro 2 – Dados da pesquisa - em rol

Entrevistado Opinião Entrevistado Opinião Entrevistado Opinião


4 Péssimo 3 Regular 73 Regular
7 Péssimo 6 Regular 74 Regular
14 Péssimo 10 Regular 75 Regular
46 Péssimo 15 Regular 76 Regular
53 Péssimo 16 Regular 78 Regular
57 Péssimo 20 Regular 79 Regular
2 Ruim 21 Regular 84 Regular
5 Ruim 23 Regular 85 Regular
9 Ruim 24 Regular 86 Regular
11 Ruim 27 Regular 88 Regular
17 Ruim 29 Regular 90 Regular
19 Ruim 31 Regular 91 Regular

28 22
25
Ruim
Ruim
32
33
Regular
Regular
1
8
Bom
Bom
26 Ruim 39 Regular 12 Bom
28 Ruim 40 Regular 18 Bom
30 Ruim 43 Regular 36 Bom
34 Ruim 45 Regular 41 Bom
35 Ruim 48 Regular 44 Bom
37 Ruim 49 Regular 47 Bom
38 Ruim 50 Regular 56 Bom
42 Ruim 54 Regular 60 Bom
51 Ruim 55 Regular 64 Bom
52 Ruim 58 Regular 72 Bom
61 Ruim 59 Regular 80 Bom
63 Ruim 62 Bom 13 Ótimo
66 Ruim 67 Péssimo 65 Ótimo
77 Ruim 68 Regular 82 Ótimo
81 Ruim 69 Regular 87 Ótimo
83 Ruim 70 Bom
89 Ruim 71 Ruim

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Agora que sabemos os conceitos de dados brutos e em rol, veremos o que uma tabela deve conter. No en-
tanto, a partir de agora, iremos nos referir a ela como Distribuição de Frequências.

Em uma distribuição de frequências são necessárias as seguintes informações:

Título: O quê? (fenômeno), onde? (época), quando? (local);

Cabeçalho: Indica o conteúdo das colunas;

Corpo: Células onde são registrados os dados;

Rodapé: Notas e identificação da fonte de onde foram coletados os dados.

Título

Tabela 1 – Quantidade de pessoas que


realizaram ENEM nos últimos seis anos.

Ano de seleção Frequência


Cabeçalho 2008 4.018.070
2009 4.576.126
2010 4.611.505
2011 5.366.780 Corpo
2012 5.790.989
2013 7.173.574
Total 31.537.044
Fonte: <www.portal.inep.gov.br/enem>.
29
Acesso em 01/12/2013.

Rodapé

SAIBA MAIS
Existe uma diferença entre Tabela e Quadro. Como podemos ver, a Tabela 1 é aberta (ou vazada)
nas extremidades, característica típica dela.

Quando temos uma “Tabela” fechada em ambos os lados (nas extremidades), ela deixa de ser
uma Tabela e se torna um Quadro. Como já vimos o exemplo da Tabela, veremos a seguir o
exemplo de como ficaria a mesma “Tabela” agora como um Quadro.

Quadro 3 – Quantidade de pessoas que


realizaram ENEM nos últimos seis anos.
Fonte: <www.portal.inep.gov.br/
enem>. Acesso em 01/12/2013.

Ano de seleção Frequência


2008 4.018.070
2009 4.576.126
2010 4.611.505 Perceba que as
2011 5.366.780 extremidades
do quadro são
2012 5.790.989
fechadas e a parte
2013 7.173.574 dos dados passa
Total 31.537.044 a ser apresentada
na lateral.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

Falando em tabelas, existem dois tipo de tabelas ou distribuições de frequências: Distribuição de Fre-
quências Simples e Distribuição de Frequências por Classe.

Mas em qual situação devemos usar cada uma?

O tipo de distribuição que se deve utilizar depende do tipo de variável mensurada no estudo. A Distribui-
ção de Frequências Simples é utilizada quando analisamos dados qualitativos (ordinais ou nominais) e
dados quantitativos discretos. Já a Distribuição de Frequências por Classe é utilizada, principalmente,
quando a variável mensurada é composta por dados quantitativos contínuos. A seguir, veremos um exem-
plo de cada uma.

EXEMPLOS DE DISTRIBUIÇÕES DE FREQUÊNCIAS SIMPLES

a) Variável Qualitativa Ordinal

Tabela 2 – Estudo sobre o nível de satisfação em


relação a uma disciplina da UFERSA em 2012.
Opinião Frequência Frequência (%)
Péssimo 27 23,28%
Ruim 54 46,55%

Fonte: Dados ficticios


Regular 15 12,93%
Bom 16 13,79%
Ótimo 4 3,45%
Total 116 100%

30
b) Variável Qualitativa Nominal

Tabela 3 – Tipo de material mais utilizado no setor de Engenharia


Civil no RN segundo 370 empresas (dados qualitativos nominais).

Tipo de material Frequência Frequência (%)


Ferro 80 21,62%
Aço 115 31,08%
Ferro Galvanizado 146 39,46%
Fonte: Dados ficticios

Alumínio 21 5,68%
Cobre 8 2,16%
Chumbo 80 21,62%
Total 370 100%

c) Variável Quantitativa Discreta

Tabela 4 – Quantidade de pessoas que


realizaram ENEM nos últimos cinco anos.
Ano de seleção Frequência Frequência (%)
2008 4.018.070 12,74%
2009 4.576.126 14,51%
2010 4.611.505 14,62%
Fonte: Dados ficticios

2011 5.366.780 17,02%


2012 5.790.989 18,36%
2013 7.173.574 22,75%
Total 31.537.044 100%

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

EXEMPLO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAS POR CLASSE


Variável Quantitativa Contínua
Tabela 5 - Notas de 80 alunos de duas
turmas da 2ª série do ensino médio.

Fonte:<www.portal.inep.gov.br/
 Notas  Frequência  Frequência (%)

enem>. Acesso em 01/12/2013.


Também podemos 3,7 |- 4,6 2 2,50%
representar o Total da 4,6 |- 5,5 1 1,25%
tabela pelo símbolo 5,5 |- 6,4 4 5,00%
Σ. Lembrando que o 6,4 |- 7,3 12 15,00%
total é representado
por “n”. 7,3 |- 8,2 28 35,00%
8,2 |- 9,1 15 18,75%
9,1 |-| 10 18 22,50%
Total 80 100%

Distribuição de frequências simples


Como vimos anteriormente, uma distribuição de frequências simples é utilizada quando queremos repre-
sentar tabularmente dados qualitativos ou dados quantitativos discretos. A seguir, veremos os passos para
a construção que servirá para cada uma das três situações que podem surgir:

CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES


PASSO 1: Ordenar os dados brutos em forma de rol (ordem crescente ou ordem alfabética);
31
PASSO 2: Listar todos os elementos diferentes em uma coluna, com o nome da variável que está
sendo representada tabularmente;

PASSO 3: Listar a frequência de todos os elementos diferentes em uma segunda coluna de nome
“frequência” ou abreviada por “fi”;

PASSO 4: Somar todos os elementos da coluna “fi” e na célula abaixo nomear o resultado como
“total”;

PASSO 5: Nomear o título e informar a Fonte dos dados da Tabela;

PASSO 6: (opcional): Recomenda-se calcular, em uma nova coluna, a frequência em percentual,


chamada também de “Frequência(%)” ou abreviada por “fi%”.

EXERCÍCIO RESOLVIDO
DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES PARA DADOS QUANTITATIVOS DISCRETOS

Em uma pesquisa feita para identificar o número de filhos de uma amostra de empregados de uma multi-
nacional, foram encontrados os seguintes valores:
Número de filhos por funcionário (dados brutos)

1 4 2 5 3 2 0 3 2 1 5 4 2 5 0
3 2 4 2 3 2 3 2 1 4 2 1 3 4 2

PASSO 1: ordenar os dados (rol); logo, temos:


Número de filhos por funcionário (dados em rol)
0 0 1 1 1 1 2 2 2 2 2 2 2 2 2
2 3 3 3 3 3 3 4 4 4 4 4 5 5 5
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

PASSO 2: Listamos em uma primeira coluna o número de elementos distintos e nomeamos a coluna (vari-
ável mensurada, neste caso, “Nº de filhos por funcionário”):

Número de filhos por funcionário


0
1
2
3
4
5
Total

PASSOS 3, 4 e 5: Listar a frequência de todos os elementos diferentes em uma segunda coluna de nome
"frequência" ou abreviada por "fi", somando a seguir e informando o resultado na última célula de nome
“Total”. Ao final, informar o Título e Fonte.

Tabela 6 - Número de filhos por


empregado de uma multinacional

Número de filhos (X) frequência


0 2
1 4

Fonte: Dados ficticios


2 10
3 6

32 4
5
5
3
Total 30

PASSO 6: (Opcional): Iremos calcular o percentual para cada frequência. Mas como vamos calcular?
Veremos a seguir.

Nesse exemplo, sabemos que 30 é igual a 100%; então, quanto vale o 1º fi (ou f1)? Para sabermos, devemos
realizar uma regra de três simples.

30  100%  2 
 30  f1 % 100  2  f1 %   100 
2  f1 %   30 

Logo, podemos deduzir para as demais frequências que:

f 
fi %  i  100 

n

onde “n” é o total de elementos utilizados (também informado como o total da distribuição de frequên-
cias).

Assim, teremos os percentuais calculados com duas casas decimais para cada frequência:

 f   2 
f1 %   1  100    100  6, 666%  6, 67%
n  30 
 f   4 
f 2 %   2  100    100  13,333%  13,33%
 n  30 
 f   10 
f3 %   3  100    100  33,333%  33,33%
n  30 
ESTATÍSTICA  f   6 
f 4 %   4  100    100  20%
E Autor: André Luiz Sena da Rocha
 n  30 
 f   4 
f 2 %   2  100    100  13,333%  13,33%
 n  30  I - ESTATÍSTICA DESCRITIVA
 f   10 
f3 %   3  100    100  33,333%  33,33%
n  30 
 f   6 
f 4 %   4  100    100  20%
 n  30 
 f   5 
f5 %   5  100    100 16, 666%  16, 67%
 n  30 
 f   3 
f 6 %   6  100    100  10%
 n  30 
Logo, nossa distribuição de frequências simples estará completa, sendo representada a seguir.

Tabela 7 - Número de filhos por empregado de uma multinacional.


Número de filhos (X) Frequência Frequência (%)
0 2 6,67

Fonte: Dados ficticios


1 4 13,33
2 10 33,33
3 6 20,00
4 5 16,67
5 3 10,00
Total 30 100

E como podemos interpretar a Tabela 7?

Bom, não existe uma regra definida previamente; no entanto, é recomendado que se chame a atenção para
os tópicos mais extremos, ou seja, as maiores e menores frequências e, também, seja verificada a existên-
cia de um padrão ascendente ou descendente nos dados. Veremos uma possível interpretação da tabela a
seguir: 33
Em relação à Tabela 7, observa-se que a maioria dos funcionários (33,33%) têm dois filhos. Já a minoria
(6,67%) não têm filhos. Analisa-se também que após o número de funcionários que têm mais de dois filhos
a frequência vai diminuindo de acordo com o aumento do número de filhos. (Inversamente proporcional).

EXERCÍCIO RESOLVIDO
DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES PARA DADOS QUALITATIVOS ORDINAIS.

Suponha que foi realizada uma pesquisa sobre o nível de satisfação em relação à coleta de lixo de uma
cidade do Rio Grande do Norte. Foi indagado se o morador da cidade classifica o tipo de coleta como “Pés-
simo”, “Ruim”, “Regular”, “Bom” ou “Ótimo”. Os dados são disponibilizados a seguir:

Opinião sobre a coleta de lixo

Péssimo Péssimo Péssimo Péssimo Péssimo Péssimo Ruim


Ruim Ruim Ruim Ruim Ruim Ruim Ruim
Ruim Ruim Ruim Ruim Ruim Ruim Ruim
Ruim Ruim Ruim Ruim Ruim Ruim Ruim
Ruim Ruim Ruim Regular Regular Regular Regular
Regular Regular Regular Regular Regular Regular Regular
Regular Regular Regular Regular Regular Regular Regular
Regular Regular Regular Regular Regular Regular Regular
Regular Regular Regular Regular Regular Regular Regular
Regular Regular Regular Regular Regular Regular Regular
Regular Regular Regular Regular Bom Bom Bom
Bom Bom Bom Bom Bom Bom Bom
Bom Bom Bom Ótimo Ótimo Ótimo Ótimo

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

No caso de dados qualitativos, a construção de uma distribuição de frequências simples é similar. A maior di-
ferença é que em vez de listarmos os elementos diferentes em uma coluna, iremos listar as categorias distintas
nessa coluna. Posteriormente, contabilizaremos a frequência de cada categoria. Assim, temos a Tabela 8 abaixo:

Tabela 8 – Nível de coleta de lixo em uma cidade do RN

Opinião Frequênca Frequência (%)


Péssimo 6 6,67

Fonte: Dados ficticios


Ruim 25 27,78
Regular 43 47,78
Bom 13 14,44
Ótimo 3 3,33
Total 90 100

EXERCÍCIO RESOLVIDO

DISTRIBUIÇÃO DE FREQUÊNCIAS SIMPLES PARA DADOS QUALITATIVOS NOMINAIS

Este exemplo apresenta o sexo dos 90 moradores que opinaram sobre a qualidade na coleta de lixo de sua
cidade. Assim, para a construção de uma distribuição de frequências simples, teremos:

Sexo dos entrevistados

34 Masculino Masculino Masculino Masculino Masculino


Masculino Masculino Masculino Masculino Masculino
Masculino Masculino Masculino Masculino Masculino
Masculino Masculino Masculino Masculino Masculino
Masculino Masculino Masculino Masculino Masculino
Masculino Masculino Masculino Masculino Masculino
Masculino Masculino Masculino Masculino Masculino
Masculino Masculino Masculino Masculino Masculino
Masculino Masculino Masculino Masculino Masculino
Masculino Masculino Masculino Masculino Masculino
Masculino Masculino Masculino Feminino Feminino
Feminino Feminino Feminino Feminino Feminino
Feminino Feminino Feminino Feminino Feminino
Feminino Feminino Feminino Feminino Feminino
Feminino Feminino Feminino Feminino Feminino
Feminino Feminino Feminino Feminino Feminino
Feminino Feminino Feminino Feminino Feminino
Feminino Feminino Feminino Feminino Feminino
Feminino Feminino Feminino Feminino Feminino

Tabela 9 – Sexo dos entrevistados que opinaram


sobre o nível de coleta de lixo em uma cidade do RN.

Opinião Frequência Frequência (%)


Dados ficticios

Masculino 53 58,89
Feminino 37 41,11
Fonte:

Total 90 100

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

E se os dados fossem quantitativos contínuos, como poderíamos representá-los tabularmente? poderí-


amos representá-los Por meio de uma distribuição de frequências por classe, assunto que veremos na
próxima seção. No entanto antes disso precisamos conhecer os elementos para a construção dessa tabela

Agora que conhecemos os elementos essenciais para a construção de uma distribuição, veremos o
passo-a-passo para isso:

CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAS POR CLASSES

PASSO 1: Ordenar os dados brutos em forma de rol (ordem crescente);

PASSO 2: Calcular a amplitude total: A = LS – LI;

PASSO 3: Calcular o número de classes e arredondar o valor final para um número inteiro uti-
lizando a regra de arredondamento:

C = 1 + (3,33) • log(n);

PASSO 4: Calcular o intervalo entre classes: i = A / C;

OBS: Lembre-se de que o valor de “C” deve estar arredondado para um número inteiro.

PASSO 5: Construir as colunas da tabela. A 1º coluna será sempre a coluna das classes (coluna
dos intervalos). A 2º coluna será a que constará as frequências e a 3º (opcional) será a que
apresentará o percentual de cada frequência da 2º coluna;

PASSO 6: Para calcular os intervalos da 1º coluna, o menor número dos dados em rol será o
limite inferior da primeira classe (“LI” da fórmula utilizada na amplitude total “A”), a partir do 35
qual todas as outras classes serão definidas, somando-o ao intervalo entre classes (i). Vejamos
o Exemplo a seguir.

FIQUE DE OLHO Deve-se


arredondar o
Amplitude Total (A): É a diferença entre o maior valor do rol (LS) e o menor valor (LI). número de classe
(C) sempre para
A = LS – LI um número
inteiro
Número de Classes5(C): Corresponde à quantidade de classes, nas quais serão agrupados os
elementos do rol. Para determinar C, podemos utilizar a fórmula de Sturges:

C = 1 + (3,33) • log(n)

onde n = número de elementos do rol.


5
Classes são
os intervalos
nos quais os
Intervalo de Classe (i): Com base em i, vamos construir o tamanho do intervalo de cada clas-
valores da variável
se; no entanto, a fim de diminuir a quantidade de cálculos, utilizam-se com maior frequência,
analisada são
intervalos iguais, obtidos através da fórmula:
agrupados.
i=A/C

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

EXERCÍCIO RESOLVIDO
Suponha que os dados abaixo representam as notas de 20 alunos de uma disciplina de Estatística.
Notas dos alunos (dados em rol)

7, 4 7, 4 7, 5 7, 6 7, 6 7, 6 7, 7 7, 8 7, 8 7, 9
8, 0 8, 0 8, 0 8, 0 8, 3 8, 5 8, 5 8, 5 8, 8 8, 9

Como podemos ver, o menor número é 7,4 (LI = 7,4). Já o maior número é 8,9 (LS = 8,9). A quantidade
de números é igual a 20 (n=20). Logo, podemos calcular a amplitude total, o intervalo entre classes e
o número de classes (sendo este arredondado para um número inteiro ao final).

A = LS - LI = 8,9 - 7,4 = 1,5.

C = 1 + 3,33 • log (n) = 1 + 3,33 • log (20) = 1 + 3,33 • 1,301

= 1 + 4,33 = 5,33 ≈ 5 classes

i = (A / C) = (1,5 / 5) = 0,3.

Como o valor de C foi 5, teremos cinco classes em nossa tabela. Cada classe terá um limite inferior e
um limite superior.

Para a primeira classe, o limite inferior será sempre o menor valor dos dados, ou seja, o LI. Assim, para
o nosso exemplo, o limite inferior da 1ª classe será 7,4.

Já o limite superior desta classe será dado pela soma do limite inferior ao intervalo entre classes, ou
seja, LSClasse = LI + i = 7,4 + 0,3 = 7,7. Logo, os limites: inferior e superior da primeira classe são 7,4 e 7,7.
36 Utilizando o mesmo critério para a segunda classe, o limite inferior será igual ao limite superior da
classe anterior, ou seja, 7,7. Já o limite superior será 7,7 + 0,3 = 8,0. Faremos isto até termos as 5 clas-
ses previamente estabelecidas. Ao término, o limite superior da última classe será o maior valor dos
dados, ou seja, o LS = 8,9.

Para indicar o intervalo misto (um dos limites pertence à classe, e o outro, não), utilizaremos o símbo-
lo |- . No nosso exemplo, o limite inferior da primeira classe é igual a 7,4 e o limite superior da classe
será igual a 7,7 (7,4 + i = 7,4 + 0,3). Assim, indicaremos este intervalo como: 7,4 |- 7,7.

Isto é igual ao uso matemático de sinais que representa intervalo fechado à esquerda e aberto à direita:

[7,4 ; 7,7[

Essa notação representa todos os números de 7,4 (inclusive) até o mais próximo possível de 7,77 (não
chega a 7,7 pois ele pertencerá ao limite inferior da próxima classe).

Apenas no último intervalo (intervalo fechado) será fechado em ambos os lados. Sendo ele no nosso
exemplo representado por:

8,6 |-| 8,9

CONSTRUÇÃO DE UMA DISTRIBUIÇÃO DE FREQUÊNCIAS POR CLASSES


(CONTINUAÇÃO)
PASSO 5.2: Uma vez definidas as classes na 1º coluna, a tabela de frequências pode ser
construída a partir da 2ª coluna de nome “frequência” ou simplesmente “fi”, fazendo-se o
processo de contagem, que consiste em verificar a qual classe cada número pertence. Ou
seja, para o nosso exemplo, calculamos a 1º classe como 7,4 |- 7,7. Logo, deveremos contar
quantos elementos estão entre 7,4 (intervalo fechado) e 7,7 (intervalo aberto). Totalizando
para esse caso 6 números (sendo eles: 7,4; 7,4; 7,5; 7,6; 7,6 e 7,6). Repare que o número 7,7
não entra nessa classe, só entrará na classe seguinte;

PASSO 6: Somar todos os elementos da coluna “fi” e na célula abaixo nomear o resultado
como “Total”;

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

PASSO 7: Nomear o título e informar a fonte da tabela;

PASSO 8: (opcional): Recomenda-se calcular, em uma nova coluna, a frequência em percentual,


chamada também de “Frequência(%)” ou abreviada por “fi%”.

EXERCÍCIO RESOLVIDO

Os dados abaixo representam notas de 20 alunos de uma disciplina de Estatística. Construa uma distribui-
ção de frequência para os dados e justifique sua escolha.
Notas dos alunos (dados em rol)
7, 4 7, 4 7, 5 7, 6 7, 6 7, 6 7, 7 7, 8 7, 8 7, 9
8, 0 8, 0 8, 0 8, 0 8, 3 8, 5 8, 5 8, 5 8, 8 8, 9

Vamos utilizar uma distribuição de frequências em classes, pois os dados são quantitativos contínuos.

Calculando a amplitude total:

A = LS - LI = 8,9 - 7,4 = 1,5.

Calculando o número de classes:

(lembre-se de arredondar para um número inteiro ao final).

C = 1 + 3,33 • log (n) = 1 + 3,33 • log (20) = 1 + 3,33 • 1,301

= 1 + 4,33 = 5,33 ≈ 5 classes.

Calculando o intervalo:
37
i = A / C = 1,5 / 5 = 0,3.

Agora que já sabemos que nossa tabela terá 5 classes, vamos calcular o intervalo de cada classe. Lem-
bre-se de que o primeiro número será sempre o limite inferior dos dados em rol, no exemplo das
notas, 7,4, com valor de “i” igual a 0,3. Logo, temos:
Coluna com os intervalos das notas dos alunos
Notas
7,4 |- (7,4 + i) = 7,7
7,7 |- (7,7 + i) = 8,0
8,0 |- (8,0 + i) = 8,3
8,3 |- (8,6 + i) = 8,6
8,6 |-| (8,6 + i) = 8,9
Total

Assim, para a nossa 1ª coluna, temos:


Coluna com os intervalos das notas dos alunos
Notas
7,4 |- 7,7
7,7 |- 8,0
8,0 |- 8,3
8,3 |- 8,6
8,6 |-| 8,9
Total
Lembrando que o símbolo |- significa a inclusão na classe do valor à esquerda e a exclusão do valor
à direita. Logo, na 1ª classe teremos todos os alunos que tiraram notas entre 7,4 e o mais próximo
possível de 7,7.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

E se eu tirar uma nota igual


a 7,7? O que fazemos?

Contamos a nota na classe


posterior, pois repare que 7,7
está à esquerda na 2ª classe.

Banco de imagens/NEaD
Banco de imagens/NEaD

Depois de construímos a coluna com as classes, vamos agora contabilizar a frequência de cada classe.

1º Classe 2º Classe
7, 4 7, 4 7, 5 7, 6 7, 6 7, 6 7, 7 7, 8 7, 8 7, 9
3º Classe 4º Classe 5º Classe
8, 0 8, 0 8, 0 8, 0 8, 3 8, 5 8, 5 8, 5 8, 8 8, 9

Ao término da contagem das frequências de cada classe, calcularemos seus percentuais. Logo, temos:

38  f 
f1 %   1  100 
n
 6 
  100  30%
 20 
 f   4 
f 2 %   2  100    100  20%
 n  20 
 f   4 
f3 %   4  100    100  20%
 n  20 
 f   4 
f 4 %   4  100    100  20%
 n  20 
 f5   2 
f5 %    100    100  10%
n  20 

Assim, para terminar de construir nossa tabela, basta informarmos o título e a fonte. Logo, temos:

Tabela 10 - Notas de 20 alunos de uma turma de Estatística.

Notas Frequência Frequência (%)


7,4 |- 7,7 6 30%
fonte: dados fictícios

7,7 |- 8,0 4 20%


8,0 |- 8,3 4 20%
8,3 |- 8,6 4 20%
8,6 |-| 8,9 2 10%
Total 20 100%

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

EXERCÍCIO RESOLVIDO
No Hospital Walfredo Gurgel, situado em Natal-RN, foi avaliada a quantidade de creatinina (em miligra-
mas por 100 mililitros) encontrada na urina (nas últimas 24 horas) de seus pacientes internados com
problemas renais. Os dados são apresentados abaixo:
Quantidade de creatinina (dados brutos)

1,51 1,65 1,58 1,54 1,65 1,40 1,61 1,08 1,81 1,38
1,69 1,22 1,22 1,68 1,47 1,68 1,49 1,80 1,33 1,83
1,67 1,60 1,23 1,54 1,73 1,43 2,18 1,46 1,53 1,60
1,46 1,72 1,56 1,43 1,69 1,15 1,89 1,47 2,00 1,58
1,76 1,62 1,96 1,66 1,51 1,31 2,29 1,58 2,34 1,66
1,66 1,36 1,43 1,26 1,47 1,52 1,57 1,33 1,86 1,75
1,52 1,66 1,90 1,59 1,47 1,86 1,73 1,55 1,52 1,40
1,56 1,50 1,59 1,37 1,71 1,57 1,86 1,83 1,46 1,49
1,40 1,44 1,83 2,02

Construa uma distribuição de frequências em classes para representar a quantidade de creatinina nos
pacientes.

Antes de começarmos a construir nossa tabela, você reparou que foram apresentados dados brutos
em vez dos dados em rol? Assim, devemos primeiro colocá-los em ordem crescente.

Ordenar os dados em Rol (ordem crescente):


39
Quantidade de creatinina (dados em rol)

1,08 1,15 1,22 1,22 1,23 1,26 1,31 1,33 1,33 1,36
1,37 1,38 1,40 1,40 1,40 1,43 1,43 1,43 1,44 1,46
1,46 1,46 1,47 1,47 1,47 1,47 1,49 1,49 1,50 1,51
1,52 1,52 1,52 1,53 1,54 1,54 1,55 1,56 1,56 1,57
1,57 1,58 1,58 1,58 1,59 1,59 1,60 1,60 1,61 1,62
1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,68 1,68 1,69
1,69 1,71 1,72 1,73 1,73 1,75 1,76 1,80 1,81 1,83
1,83 1,83 1,86 1,86 1,86 1,89 1,90 1,96 2,00 2,02
2,18 2,29 2,34

Amplitude Total:

A = LS - LI = (2,34) - (1,08) = 1,26 mg / 100 ml

Analisando-se a quantidade de creatinina encontrada na urina dos pacientes, verificou-se que ocorreu
variação de 1,26 miligrama por 100 mililitros.

Estabelecer o Número de Classes (C):

Como o exemplo não informou o tamanho da amostra, precisamos contar quantos elementos foram
apresentados no estudo, totalizando 84; logo, 84 pacientes.

C = 1 + (3,33) • log(n) = 1 + (3,33) • log(84) = 7,41  C = 7 classes

Estabelecer o Intervalo de Classe (i):

i = A / C = (1,26) / 7 = 0,18 mg / 100 ml

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

Logo, nosso intervalo resultou em 0,18(mg/100ml). Para nossas sete classes, o cálculo destas é ilus-
trado a seguir:

Quantidade de Creatinina
1,08 |- (1,08 + i) = 1,26
1,26 |- (1,26 + i) = 1,44
1,44 |- (1,44 + i) = 1,62
1,62 |- (1,62 + i) = 1,80
1,80 |- (1,80 + i) = 1,98
1,98 |- (1,98 + i) = 2,16
2,16 |-| (2,16 + i) = 2,34
Total
Assim, para a nossa 1ª coluna, temos:

Quantidade de Creatinina
1,08 |- 1,26
1,26 |- 1,44
1,44 |- 1,62
1,62 |- 1,80
1,80 |- 1,98
1,98 |- 2,16
2,16 |-| 2,34
Total
40
Contabilizando as frequências de cada classe, vemos que cada cor irá representar uma classe distinta:

1,08 1,15 1,22 1,22 1,23 1,26 1,31 1,33 1,33 1,36
1,37 1,38 1,40 1,40 1,40 1,43 1,43 1,43 1,44 1,46
1,46 1,46 1,47 1,47 1,47 1,47 1,49 1,49 1,50 1,51
1,52 1,52 1,52 1,53 1,54 1,54 1,55 1,56 1,56 1,57
1,57 1,58 1,58 1,58 1,59 1,59 1,60 1,60 1,61 1,62
1,65 1,65 1,66 1,66 1,66 1,66 1,67 1,68 1,68 1,69
1,69 1,71 1,72 1,73 1,73 1,75 1,76 1,80 1,81 1,83
1,83 1,83 1,86 1,86 1,86 1,89 1,90 1,96 2,00 2,02
2,18 2,29 2,34

Logo, nossa tabela, para este exemplo, será composta das seguintes frequências:

Quantidade de Creatinina Frequência


1,08 |- 1,26 5
1,26 |- 1,44 13
1,44 |- 1,62 32
1,62 |- 1,80 18
1,80 |- 1,98 11
1,98 |- 2,16 2
2,16 |-| 2,34 3
Total 84

Calculando os percentuais (de forma análoga ao Exercício resolvidos das páginas 31 e 32) e informan-
do título e fonte na distribuição de frequências, teremos:

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Tabela 11 - Quantidade de creatinina (mg / 100 ml) encontrada na


urina de 84 pacientes com problemas renais nas últimas 24 horas.
Quantidade de Creatinina Frequência Frequência (%)
1,08 |- 1,26 5 5,95
1,26 |- 1,44 13 15,48
1,44 |- 1,62 32 38,10

Fonte: Hospital Walfredo Gurgel.


1,62 |- 1,80 18 21,43
1,80 |- 1,98 11 13,09
6
Termo utilizado para
1,98 |- 2,16 2 2,38
descrever atos de violência
2,16 |-| 2,34 3 3,57
física ou psicológica,
Total 84 100 intencionais e repetidos,
praticados por um indivíduo
ou grupo de indivíduos,
causando dor e angústia,
EXERCÍCIO PROPOSTO sendo executadas dentro de
uma relação
1. No ano de 2012, o MEC (Ministério da Educação) realizou uma pesquisa em 60 escolas do Nordeste desigual de poder.
a fim de verificar a ocorrência de bullying6 em suas instituições. Os dados abaixo correspondem ao
número de casos registrados nas escolas pesquisadas.
Número de casos de Bullying (dados em rol)

0 0 0 5 5 5 5 5 5 7 7 7 7 7 7
7 7 7 7 7 7 7 7 7 7 7 7 7 7 7
7 7 7 10 10 10 10 10 10 10 10 10 10 10 10
10 10 10 12 12 12 12 12 12 12 12 12 12 12 12

Construa uma distribuição de frequências adequada para os dados acima e justifique sua escolha.
41
(Utilize duas casas decimais com arredondamento).

2. Foi realizada uma pesquisa na Escola Estadual “Antônio Pinto de Medeiros” com os professores no 1º
bimestre de 2011. Dentre as perguntas feitas aos professores, foi feito um levantamento do número de
filhos por cada uma dos 40 professores, descrito por meio dos dados abaixo:
Número de filhos (dados brutos)
0 1 2 3 2 1 0 4 1 2 3 2 0 1 2 3 2 3 4 1
3 2 2 1 2 1 5 2 2 0 2 1 2 3 1 3 0 1 2 2

Construa uma distribuição de frequências adequada para os dados acima e justifique sua escolha.
(Utilize três casas decimais com arredondamento).

3. Uma pesquisa realizada pelo IBGE em 2012 divulgou a quantidade de notebooks por residência em
um bairro de classe média de um estado brasileiro. Foram ouvidas 198 famílias desse bairro.
Número de notebooks (dados em rol)

0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1
1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
2 2 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3
3 3 3 3 3 3 3 3 3 3 4 4 4 4 4 4 4 4

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

Construa uma distribuição de frequências adequada para os dados do quadro e justifique sua escolha.
(Utilize duas casas decimais com arredondamento).

4. Os dados abaixo se referem a uma amostra das notas de 88 alunos que fizeram uma prova de conhe-
cimentos gerais em certa escola.
Notas dos alunos (dados em rol)

0,2 0,8 0,9 1,0 1,2 1,5 1,6 1,7 1,8 1,9 2,0
2,3 2,5 2,7 2,9 3,0 3,0 3,0 3,0 3,0 3,1 3,3
3,6 3,8 4,0 4,0 4,0 4,1 4,2 4,2 4,3 4,4 4,4
4,5 4,6 4,8 4,8 5,0 5,0 5,0 5,1 5,2 5,3 5,5
5,7 5,8 5,8 5,9 6,0 6,0 6,0 6,0 6,2 6,2 6,5
6,5 6,5 6,5 6,8 6,9 7,0 7,0 7,0 7,0 7,0 7,1
7,2 7,2 7,5 7,5 7,5 7,5 7,8 7,8 7,9 8,0 8,0
8,1 8,5 8,6 8,8 9,0 9,1 9,2 9,5 9,6 10,0 10,0

Construa uma distribuição de frequências adequada para os dados acima e justifique sua escolha.
(Utilize duas casas decimais com arredondamento).

5. Os dados abaixo correspondem ao tempo (em minutos) que pessoas passam em uma parada de ôni-
bus até chegar o coletivo aguardado em um estado brasileiro:

Tempo de espera na parada (dados brutos)

42 2,1
16,7
4,4
7,4
2,7
8,2
19,2
8,3
0,3
1,6
3,5
2,0
6,6
1,2
4,1
2,4
2,4
3,7
12,6
9,6
13,5 7,4 0,2 5,8 9,0 3,3 1,0 26,7 14,7 6,1
24,0 1,4 8,2 9,9 4,3 14,1 18,0 1,6 0,2 8,7
5,6 0,4 31,0 6,9 1,3 11,4 3,9 18,4 18,0 23,1

Construa uma distribuição de frequências adequada para os dados acima e justifique sua escolha.
(Utilize duas casas decimais com arredondamento).
6. Os dados abaixo se referem à quantidade em milhares de reais de indenizações trabalhistas a 105 fun-
cionários em janeiro de 2012. Os dados foram divulgados pelo Ministério do Trabalho do Rio Grande
do Norte.
Valor da idenização (dados em rol)

3,4 3,5 3,8 3,8 3,9 4,0 4,0 4,0 4,0 4,1
4,2 4,2 4,3 4,3 4,4 4,4 4,4 4,4 4,5 4,5
4,6 4,6 4,8 4,9 5,0 5,0 5,0 5,1 5,1 5,1
5,1 5,1 5,2 5,2 5,3 5,3 5,3 5,4 5,4 5,4
5,5 5,5 5,5 5,6 5,6 5,7 5,7 5,7 5,7 5,8
5,8 5,8 5,9 5,9 5,9 6,0 6,1 6,3 6,3 6,4
6,4 6,4 6,8 6,9 7,1 7,1 7,2 7,2 7,3 7,5
7,9 8,0 8,1 8,4 8,5 8,6 8,9 9,0 9,0 9,0
9,0 9,1 9,5 9,5 9,5 9,7 9,7 9,8 10,0 10,1
10,0 10,1 10,1 10,5 10,5 10,8 10,8 10,9 11,2 11,4
11,5 11,6 11,6 12,0 12,2

Construa uma distribuição de frequências adequada para os dados acima e justifique seu uso.
(Utilize duas casas decimais com arredondamento).

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Representação gráfica
UN 01

Já que aprendemos a construir tabelas de distribuição de frequência de dados ou informações, iremos


aprender agora como representar dados graficamente. Uma análise gráfica é outra alternativa para repre-
sentar dados, sendo muitas vezes mais direta e de fácil entendimento.

Da mesma forma que vimos em tabelas, todo gráfico deve apresentar título, escala (crescendo da esquerda
para a direita e de baixo para cima) e fonte (e quando necessário, legenda). A seguir, veremos os principais
tipos de gráficos: É recomendado utilizar
o gráfico de colunas quando
a descrição das categorias é
Gráfico de Colunas ou em Barras pequena. Caso contrário,
categorias com grande
descrição irá sobrecarregar
a área do texto para
identificação das
São gráficos que representam uma série de dados por meio de retângulos. Quando esses retângulos estão colunas.
dispostos verticalmente, temos um gráfico de colunas; quando estão representados horizontalmente, te-
mos um gráfico de barras. A seguir, veremos cada um deles:

GRÁFICO DE COLUNAS

No caso de um gráfico de colunas, os retângulos terão a mesma largura e são desenhadas lado a lado com
“espaçamento” entre eles. Suas alturas são proporcionais às frequências dos dados ou categorias das ta-
belas. Suas categorias são informadas no eixo horizontal (eixo x) e a frequência de cada categoria no eixo
vertical (eixo y). Veremos a seguir um exemplo na Tabela 1.12:

Tabela 12 - Número de pessoas em famílias de Natal (RN) em 2012.


Fonte: IBGE, Censo Demográfico
43
Nº de pessoas na família Frequência Frequência (%)
Duas 72.945 32,79%
Três 73.586 33,08%
Quatro 53.080 23,86%
Cinco 22.838 10,27%
2010.

Total 222.449 100

Gráfico 1 - Número de pessoas em famílias de Natal (RN) em 2012.

35%

30%

25%
Fonte: IBGE, Censo Demográfico 2010.

20%

15%

10%

5%

0%
Duas Três Quatro Cinco

Analisando a Tabela 12 e o Gráfico 1, observa-se que a maioria das famílias em Natal no ano de 2012 é
composta por duas e três pessoas.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

GRÁFICO DE BARRAS

No caso de um gráfico de barras, os retângulos estarão no sentido horizontal e comprimentos proporcio-


nais às frequências dos dados ou categorias das tabelas. Esses retângulos também são desenhados lado a
lado com “espaçamento” entre eles. Suas categorias são informadas no eixo vertical (eixo y) e a frequência
de cada categoria no eixo horizontal (eixo x). Veremos a seguir um exemplo na Tabela 13:

Tabela 13 - Quantidade de docentes do ensino básico de Mossoró em 2012.

Fonte: Ministério da Educação,


Instituto Nacional de Estudos e
Pesquisas Educacionais - INEP -
Nº de professores do ensino básico Frequência Frequência (%)

Censo Educacional 2012.


Ensino Pré-Escolar 366 13,07%
Ensino Fundamental 1810 64,62%
Ensino Médio 625 22,31%
Total 222.449 100

Gráfico 2 - Quantidade de docentes do ensino básico de Mossoró em 2012.

Fonte: Ministério da Educação, Instituto Nacional de Estudos


e Pesquisas Educacionais - INEP - Censo Educacional 2012.
Ensino médio

Ensino Fundamental

44
Ensino Pré-Escolar

0% 10% 20% 30% 40% 50% 60% 70%

A respeito da Tabela 13 e do Gráfico 2, infere-se que a maior parte dos professores do ensino básico de
Mossoró em 2012 é do ensino fundamental.

HISTOGRAMA
O histograma é muito utilizado para representar graficamente uma distribuição de frequências em classes
como também dados contínuos. É um gráfico cujas colunas retangulares têm base definida pelas classes
da distribuição de frequências e altura representa a frequência dos valores que estão presentes em casa
uma das classes.

A Tabela 14 ilustra as notas de alunos de uma prova de Matemática.

Tabela 14 – Notas de 50 alunos do 2º ano de uma turma de Matemática

Notas Frequência Frequência (%)


0 |- 2 5 10%
2 |- 4 6 12%
Fonte: Dados ficticios.

4 |- 6 9 18%
6 |- 8 12 24%
8 |- 10 18 36%
Total 50 100%

O Histograma para essa tabela é representado no Gráfico 3. Observe que a maioria dos alunos tiraram
notas altas (maior concentração nas notas acima de 6). Veremos, quando estudarmos simetria em Moda
Estatística na pagina 62, que classificaremos essa distribuição como assimétrica à esquerda.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Gráfico 3 – Histogramas das notas dos 50 alunos


20
18

Quantidade de alunos
16
14
12
10

Fonte: dados fícticios


8
6
4
2
0
0 |- 2 2 |- 4 4 |- 6 6 |- 8 8 |-| 10
Notas

Gráfico de setores
Quando há muitos
setores (mais
O gráfico de setores (também conhecido como gráfico de pizza ou gráfico de torta) é usado
de 10), este
quando cada categoria representa uma parte de um todo (o total é representado pelo círculo
gráfico não é
com raio qualquer). Obtemos cada setor por meio de uma regra de três simples e direta, sen-
recomendado.
do o total de elementos correspondente a 360º. Veremos um exemplo de construção de um
gráfico de pizza na tabela 15. Veja o Gráfico 4.

Tabela 15 - Estimativa para 2013 da população das


seis cidades mais populosas do Rio Grande do Norte.

Cidade População 45
Natal 853.928
Mossoró 280.314
Parnamirim 229.414
São Gonçalo do Amarante 95.218
Macaíba 75.548
Fonte: IBGE.

Ceará-Mirim 71.856
Total 1.606.278

Calculando a área para cada setor (cidade), teremos:

1.606.278  360º
853.928  x1

x1
 360º   853.928

 191,3  191º
1.606.278

Daí, temos para os demais:

x2  63º x3  52º x4  21º


x5  17º x6  16º

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

Gráfico 4 - Estimativa populacional das seis cidades mais


populosas do Rio Grande do Norte para 2013.

Natal
Mossoró
Parnamirim

São Gonçalo do
Amarante

Macaíba
Ceará-Mirim

Fonte: IBGE.
Observando a tabela 1.15 e o Gráfico 1.4, analisa-se que as cidades com maior população serão as de Natal,
Mossoró e Parnamirim.

Gráfico de linhas
46
O gráfico de linhas é utilizado com maior frequência para representar uma série de dados cronológicos,
ou seja, a mensuração de um fenômeno de acordo com o tempo (dias, meses, anos, décadas, etc.). A seguir,
veremos um exemplo sobre o número de inscrições do ENEM entre 2003 a 2013 na Tabela 16.

Tabela 16 - Número de inscrições confir-


madas no Exame Nacional do Ensino Médio
(ENEM) entre os anos de 2003 a 2013.

Inscrições por ano Frequência


Fonte: Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP).

2003 1.882.393
2004 1.552.316
2005 3.004.491
2006 3.742.827
2007 3.568.592
2008 4.018.070
2009 4.576.126
2010 4.611.505
2011 5.366.780
2012 5.790.989
2013 7.173.574
Total 49.635.318

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Gráfico 5 - Número de inscrições confirmadas no Exame Nacional


do Ensino Médio (ENEM) entre os anos de 2003 a 2013.
8.000.000

Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira (INEP).


7.000.000
6.000.000
Nº de inscrições

5.000.000
4.000.000
3.000.000
2.000.000
1.000.000
0
2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013
Anos

Em relação à Tabela 15 e ao Gráfico 5, observa-se que a cada ano, o número de inscrições do ENEM está
crescendo.

Gráfico de colunas ou barras múltiplas


Muitas vezes precisamos comparar mais de uma situação por meio de um gráfico, ou seja, o gráfico de
colunas (ou de barras) múltiplas permite comparar dois fenômenos simultaneamente.

Na Tabela 17, mensuramos o número de professores do ensino básico em Mossoró no ano de 2012. Neste 47
caso poderíamos, por exemplo, mensurar o número de professores das instituições públicas e privadas.

O Gráfico 6 é um exemplo de gráfico em colunas múltiplas.

Tabela 17 - Quantidade de docentes do ensino


básico de Mossoró em 2012.
Fonte: Ministério da Educação,
Instituto Nacional de Estudos e
Pesquisas Educacionais - INEP -

Nº de professores Escola
do ensino básico Pública Privada
Censo Educacional 2012.

Ensino Pré-Escolar 199 167


Ensino Fundamental 1128 682
Ensino Médio 410 215
Total 222.449 100

Gráfico 6 - Quantidade de docentes do ensino básico de Mossoró em 2012.

1200
Fonte: Ministério da Educação, Instituto Nacional de Estudos e Pesqui-

1000

800
sas Educacionais - INEP - Censo Educacional 2012.

Pública

Privada 600

400

200

0
Ensino Ensino médio
Ensino Pré-Escolar
Fundamental
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

Observando a Tabela 17 e o Gráfico 6, infere-se que a maior quantidade de professores se concentra no


ensino fundamental, tanto para o setor público como privado. A menor quantidade de docentes está no
setor pré-escolar.

Medidas de tendência central e de posição


UN 01

As medidas de posição ou de tendência central são utilizadas para resumir as informações de uma série
de dados, pois representam um valor central, em torno do qual os dados se concentram. Aqui, veremos as
principais medidas, que são: média aritmética, mediana, moda e separatrizes.

Média Aritmética

A média aritmética, além de ser conhecida como medida de posição, também é definida como uma medida
de tendência central, considerando que é uma medida que tende para o centro da distribuição e tem a
capacidade de representá-la como um todo. Assim, veremos a seguir sua definição:

Seja uma série de dados quaisquer representada por n elementos:

x1 , x2 , x3 , , xn - 2 , xn -1 , xn .
A média aritmética para uma amostra, aqui representada por X (lê-se “xis barra”), pode ser definida como
o quociente entre a soma de todos os elementos e o número dos elementos somados, ou seja:
48
n

x1 + x2 + x3 +  + xn - 2 + xn -1 + xn ∑x i
=X = i=
1

n n

Já a média aritmética para uma população é representada por µ (lê-se "mi") e, supondo que a população
seja composta por N elementos, a média pode ser calculada como:
N

x1 + x2 + x3 +  + xN - 2 + xN -1 + xN ∑x i
=m = i=
1

N N
Apesar de haver dois tipos de médias (uma para população e outra para a amostra); utilizaremos apenas a
média amostral para os nossos cálculos, já que estaremos sempre trabalhando com amostras.

EXERCÍCIO RESOLVIDO

1. Os dados abaixo representam as notas de uma amostra de 10 alunos de uma prova de estatística. Cal-
cule a média e interprete.

Notas dos alunos (dados em rol)

5,8 6,9 7,1 6,2 8,4 9,6 10 8,1 7,2 8,6

A média dessa amostra pode ser calculada por:


12

∑x i
5,8 + 6,9 + 7,1 + 6, 2 + 8, 4 + 9, 6 + 10 + 8,1 + 7, 2 + 8, 6
=X =
i =1
≈ 7,9
10 10
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Analisa-se que a amostra das notas dos alunos resultou em uma média de 7,9, valor que representa a dis-
tribuição das 10 notas.
Então sempre poderemos utilizar
a média para representar um
banco de dados?

Não! Há situações em que a


média não é confiável. Veremos

Banco de imagens/NEaD
adiante, logo após conhecermos
as Propriedades da Média.
Banco de imagens/NEaD

PROPRIEDADES DA MÉDIA

• A soma algébrica dos desvios em torno da média é nula.


n

∑(x - X ) =
i =1
0
i

Exemplo
49
1. Sejam os números: 2, 5, 7, 3, 5, 2.

2+5+ 7 +3+5+ 2
X = 4
6

∑(x - X ) =
i =1
( 2 - 4) + (5 - 4) + ( 7 - 4) + (3 - 4) + (5 - 4) + ( 2 - 4) =
i -2 + 1 + 3 - 1 + 1 - 2 =-
5 5=0

• Realizando uma operação como soma (ou subtração) de uma constante (k) de todos os valores de
uma variável, a média dos dados ficará aumentada (ou diminuída) desta mesma constante.
yi =
xi ± k ⇒ Y =
X ±k

Sejam os números: 2, 5, 7, 3, 5, 2. Esses elementos têm média igual a 4. Logo, vamos somar com o valor 5.
Assim, teremos: 7, 10, 12, 8, 10, 7. Portanto, a média será:

7 + 10 + 12 + 8 + 10 + 7
X= = 9= (4 + 5)
6

• Realizando uma operação como multiplicação (ou divisão) de uma constante (k) de todos os valores
de uma variável, a média dos dados ficará multiplicada (ou dividida) por essa mesma constante.

yi
= ( xi ) k ⇒ Y
= (X )k
ou

xi X
yi
= ⇒ Y
=
k k

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

Exemplo:

1. Sejam os números: 2, 5, 7, 3, 5, 2. Estes elementos têm média igual a 4. Logo, vamos multiplicar cada
um por 3. Assim, teremos: 6, 15, 21, 9, 15, 6. Portanto, a média será:

6 + 15 + 21 + 9 + 15 + 6
X= = 12= (4 ⋅ 3)
6

DESVANTAGENS NO USO DA MÉDIA

A média nem sempre é confiável. Esta medida de tendência central perde eficiência quando na distribui-
ção dos dados existe a presença de outliers (também conhecidos como valores extremos ou valores discre-
pantes). Os outliers são valores que estão muito acima ou muito abaixo da concentração da distribuição
dos dados. Temos como exemplos de outliers:

a) Salário (R$) de 8 pessoas

Salário das pessoas (dados em rol)

700 710 780 800 850 880 900 17.850

Banco de imagens/NEaD
50
Outlier superior

Perceba que a maioria das pessoas têm um salário entre R$ 700,00 a R$ 900,00. No entanto, uma pessoa
apresenta um salário extremamente alto em relação aos demais (R$ 17.850,00). Este último valor é deno-
minado outlier superior, de vez que está bem acima da concentração dos dados.

b) Tempo de espera (min) em uma parada de ônibus

Tempo de espera de ônibus

02 57 60 70 80 80 90 90 90 95

Já para este caso, ocorre o contrário do caso anterior, pois se analisa que a maioria das pessoas ficou na parada de
ônibus entre 60 a 90 minutos. No entanto, há uma pessoa que ficou apenas dois minutos na parada até pegar o co-
letivo. Este último valor é denominado outlier inferior, de vez que está bem abaixo da concentração dos dados.

Meu ônibus chegou,


ainda bem que não vou
ter que esperar.
Banco de imagens/NEaD

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Mas o que um outlier pode influenciar? Veja um exemplo de um outlier que está muito acima da concen-
tração dos dados.

EXERCÍCIO RESOLVIDO
1. Sejam as idades em anos completos de 8 alunos:

Idades dos alunos sem outlier (dados em rol)

16 17 18 18 19 20 21 22

Quanto seria a idade média dessas pessoas?

16 + 17 + 18 + 18 + 19 + 20 + 21 + 22
=X1 = 18,875 ≈ 19 anos
8

Assim, temos que em média os alunos selecionados têm 19 anos.

Mas e se acrescentarmos uma pessoa bem mais velha?

Se adicionarmos uma pessoa com 101anos (valor extremo superior), teremos como idade média dessas 9
pessoas aproximadamente 30 anos.

Idades dos alunos com outlier (dados em rol)


16 17 18 18 19 20 21 22 101

51
16 + 17 + 18 + 18 + 19 + 20 + 21 + 22 + 101
X2 = 28 anos
9

O fato de adicionarmos um outlier superior inflacionou a idade média de 19 para 28 anos, superestiman-
do-a. Para situações como esta, é mais aconselhável utilizar a mediana, insensível a valores discrepantes.

Mediana

Valor que divide a distribuição em duas partes iguais, em relação à quantidade de elementos, isto é, trata-
-se do valor que ocupa o centro da distribuição, de onde se conclui que 50% dos elementos ficam abaixo
dela e 50% ficam acima.

Colocados em ordem crescente ou decrescente, a mediana (Med) é o valor que divide a amostra ou popula-
ção em duas partes iguais. Aconselha-se seu uso quando há presença de valores extremos na distribuição
dos dados, tendo em vista ser insensível aos outliers.

Assim, para se calcular a mediana para dados em rol, serão utilizados dois critérios distintos, um quando
o tamanho da amostra (n) é par e outro quando é ímpar.

Se “n” for ímpar, a ordem do elemento será dada por:

Med = χ  n +1 
 
 2 

Se “n” for par, a ordem do elemento será dada por:

χ  n  + χ  n +1 
   
2  2 
Med =
2
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

EXERCÍCIO RESOLVIDO
1. Dados em rol de tamanho ímpar:

Seja uma amostra do tempo de uso, em anos, de 13 capacitores utilizados em máquinas de costura:

Tempo de uso de capacitores (dados em rol)

1 1 3 3 3 5 8 9 9 11 12 15 19

= χ  13=
Med +1 
χ= 
( 7 ) 7 elemento do rol
= 8anos
 
 2 

Assim, podemos ilustrar este resultado com o desenho abaixo:


50% 50%

1 Ano 8 Anos 19 Anos


Interpretação: Como a mediana resultou em oito anos, metade dos capacitores apresenta entre um a oito
anos de uso, e a outra metade apresenta entre oito a 19 anos de uso.

EXERCÍCIO RESOLVIDO
1. Dados em rol de tamanho par:

Seja uma amostra da quantidade de dias que 14 pacientes ficam internados em um hospital
Quantidade de dias de internamento (dados em rol)

52 1 1 3 3 3 5 8 9 9 11 12 15 19 21

χ n  + χ n
 
2

 +1
2 
χ( 6) + χ( 7 ) 6° elemento + 7° elemento 5 + 8
Med
= = = = = 6,5 anos de uso
2 2 2 2

50% 50%

1 Ano 6,5 Anos 21 Anos

Interpretação: Como a mediana resultou em 6,5 dias, metade dos pacientes ficou internada no hospital
entre um a seis dias e meio, e a outra metade ficou internada entre seis dias e meio a 21 dias.
A moda é a única
medida de tendência
central que pode ser Moda
calculada para dados
qualitativos e
quantitativos..
É o valor ou categoria que detém o maior número de observações ou o que mais se repete (ou que apre-
senta maior frequência) em uma distribuição de dados. É possível que haja mais de uma moda, da mesma
forma que há possibilidade de em uma distribuição esta medida de tendência central não existir. A moda
pode ser usada também para dados qualitativos. Vamos ver alguns exemplos? Os dados abaixo represen-
tam os resultados de uma pesquisa

EXERCÍCIO RESOLVIDO

1. Notas (0 a 10) com relação à comida de um restaurante.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Esses três exemplos apresentaram uma moda. No caso do restaurante A, esta é a nota 5. Já para o B, apesar
de haver outros números que se repetem, um número, 7, apresenta maior frequência, sendo este a moda.
O mesmo ocorre para o restaurante C, sendo a moda igual a 9.

EXERCÍCIO RESOLVIDO

1. Opinião sobre a comida de um restaurante, no qual as categorias são representadas por: Ótimo (O),
Bom (B), Regular (REG), Ruim (R) e Péssimo (P).

A = {O, O, O, O, O, B, B, B, REG, REG, R, R}  Moda = Ótimo

B = {O, B, B, REG, REG, REG, REG, R, P, P,} Moda = Regular

C = {B, B, REG, REG, R, R, R, P, P, P, P, P, P}  Moda = Péssimo

Esses três exemplos também apresentaram uma moda. No caso do restaurante A, foi a opinião de que a
comida é ótima. Já para o B, comida regular. E o restaurante C, comida péssima.

Mas sempre haverá moda em


uma distribuição de dados?
E quando houver moda,
sempre será apenas uma? Nem sempre haverá moda, na hipótese de
sua existência, pode ser uma ou mais de
uma. Veremos a seguir suas classificações.
Banco de imagens/NEaD

53

Banco de imagens/NEaD

CLASSIFICAÇÕES DO TIPO DE MODA

a) SÉRIE UNIMODAL (tem uma única moda)

Exemplo: Na série: 3, 5, 6, 6, 6, 7, 8  Moda = 6

b) SÉRIE BIMODAL (ocorrem duas modas)

Exemplo: Na série: 2, 5, 5, 5, 6, 7, 9, 9, 9, 10, 10 Moda1 = 5 e Moda2 = 9

c) SÉRIE TRIMODAL (ocorrem três modas)

Exemplo: Na série: 4, 4, 4, 5, 6, 7, 7, 7, 8, 9, 9, 9 Moda1 = 4, Moda2 = 7 e Moda3 = 9

d) SÉRIE POLIMODAL (ocorrem quatro ou mais modas)

Exemplo: Na série 0, 0, 1, 3, 3, 4, 7, 8, 8, 11, 12, 12, 13, 13 Moda1 = 0, Moda2 = 3, Moda3 = 8, Moda4 =
12 e Moda5 = 13

e) SÉRIE AMODAL (não existe moda)

Exemplo: Na série 0, 1, 3, 4, 7, 8  Não existe moda.

Mas e quando queremos, por exemplo, calcular a moda para dados contínuos, pois normalmente os nú-
meros são todos diferentes, no entanto, muitas vezes próximos? Nesse caso, para tal estudo utilizaremos
a Moda de Pearson.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

MODA DE PEARSON (MoP)

Utilizada principalmente para dados contínuos. Nela, se faz necessário o cálculo da média (X) e mediana
(Med). A Moda de Pearson irá descrever em qual intervalo há maior concentração dos elementos. Ela pode
ser calculada como:

MoP = 3Med - 2 X
Por meio da comparação entre a Média, Mediana e Moda de Pearson podemos saber sobre a simetria da
distribuição dos dados. No entanto, precisamos saber primeiro o que é simetria.

Simetria: É a semelhança exata da forma em torno de ponto, eixo ou plano de uma figura. Ao compararmos
os lados das figuras em relação ao ponto de simetria, observa-se que esses lados são iguais (simétricos).

Repare que as figuras do exemplo abaixo são simétricas em torno de um eixo, ou seja, os lados são iguais.

Exemplo de figuras simétricas:

Banco de imagens/NEaD
54

Repare que nas seis figuras, todos os lados que são cortados pela reta (eixo) são iguais. Chamamos então
essas figuras de figuras simétricas (lados iguais). No entanto, no Exemplo que segue não teremos figuras
simétricas.

Exemplo de figuras não simétricas (assimétricas): Banco de imagens/NEaD

Neste exemplo, temos figuras assimétricas, ou seja, independente do eixo ou reta que trace em algum pon-
to da figura, os lados não serão iguais. Logo, chamamos de figuras assimétricas (não simétricas).

Veremos três exemplos para ilustrar os tipos de simetrias:

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Suponha que um professor vai entregar as notas de uma prova de matemática. Supondo que houve moda
de Pearson na distribuição das notas, ou seja, muitos alunos tiraram notas próximas, há três cenários dis-
tintos que podem ocorrer:

CENÁRIO A CENÁRIO B

Banco de imagens/NEaD
Banco de imagens/NEaD
CENÁRIO C

Banco de imagens/NEaD
O Cenário A seria a melhor situação, por ilustrar a posição na qual a maioria dos alunos tiraram notas
altas. Ele é definido como uma distribuição assimétrica à esquerda.

Já o Cenário B apresenta o pior resultado para a turma, pois significa que a maioria dos alunos tiraram
notas baixas. Ele é definido como uma distribuição assimétrica à direita.

Já o Cenário C representa o fato de a maioria dos alunos ter tirado notas intermediárias, ou seja, notas
55
nem muito altas nem muito baixas. Existem alunos neste cenário que tiraram notas altas e notas baixas;
no entanto, repare que são a minoria, pois na medida em que as notas vão aumentando ou diminuindo, a
frequência diminui. Definimos esse cenário como uma distribuição simétrica.

Utilizando a Moda de Pearson, poderemos calcular e chegar ao cenário no qual os dados vão se encaixar. A
seguir, veremos suas classificações.

a) Assimetria à esquerda ou negativa: X < Med < MoP


A cauda da distribuição está do lado esquerdo; com maior concentração à direita, ou seja, nos valores
maiores.

Distribuição Assimétrica à Esquerda


Banco de imagens/NEaD

b) Assimetria à direita ou positiva: MoP < Med < X


A cauda da distribuição está do lado direito; com maior concentração à direita, ou seja, nos valores menores.
Distribuição Assimétrica à direita
Banco de imagens/NEaD

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

c) Simétrica: Med= X= MoP (concentração no centro);

A concentração dos dados está no centro. Na medida em que os valores vão se aproximando dos extremos
(maiores ou menores valores), a frequência vai diminuindo.

Banco de imagens/NEaD
EXERCÍCIO RESOLVIDO
Distância, em metros, percorrida por 10 nadadores em uma prova de 4 minutos. Calcule a Moda de Pear-
son e interprete.

Distância percorrida (dados em rol)

5,8 6,0 6,2 7,0 7,8 7,9 8,0 8,1 8,5 9,4

5,8 + 6 + 6, 2 + 7 + 7,8 + 8 + 8 + 8,1 + 8,5 + 9, 4


X = 7, 47 minutos
56 10

Significa que, em média, cada nadador nadou 7,47 metros nessa prova.

Para o cálculo da mediana, devemos nos lembrar de que, para calculá-la, precisamos averiguar se os dados
estão em rol. Nesse caso, como os dados estão em rol, então podemos calcular a ordem do elemento que
será a mediana.

χ n  + χ n
 
2

 +1
2 
χ ( 5) + χ ( 6 ) 5° elemento + 6° elemento 7,8 + 7,9
Med
= = = = = 7,85 metros
2 2 2 2
Podemos interpretar que metade dos nadadores nadou no tempo de 4 minutos entre 5,8 a 7,47 metros e a
outra metade nadou entre 7,47 a 9,4 metros.

Calculando a Moda de Pearson, temos:

MoP =3Med - 2 X = 3 ( 7,85 ) - 2 ( 7, 47 ) = 8, 61 metros

Assim, podemos concluir que: X < Med < MoP

Interpretação: Como a média é menor do que a mediana e esta também é inferior à Moda de Pearson, os
dados são assimétricos à esquerda, ou seja, a distribuição poderá ser representada da forma abaixo, o que
significa que a maioria dos nadadores nadou uma grande distância em metros nessa prova dos 4 minutos.
Banco de imagens/NEaD

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

EXERCÍCIO RESOLVIDO
Os dados abaixo representam o peso (kg) de 29 crianças ao nascer. Calcule a Moda de Pearson e interprete.
Peso das crianças (dados em rol)

2,1 2,1 2,2 2,3 2,3 2,4 2,4 2,4 2,5 2,5
2,6 2,6 2,7 2,7 3,2 3 3 3,4 3,7 3,9
4 4 4,2 4,3 4,4 4,4 4,5 4,5 4,5

2,1 + 2,1 + 2, 2 +  + 4,5 + 4,5


X = 3, 2 kg
29

Podemos interpretar que cada criança nasceu em média com 3,2 kg.

χ  n +1  χ  29+1  =
Med == χ (15) =
15° elemento =
3, 2 kg
   
 2   2 

Interpreta-se que metade das crianças nasceu com 2,1 a 3,2 kg. E a outra metade das crianças nasceu com
3,2 a 4,5 kg.

Calculando a Moda de Pearson, temos:

MoP = 3Med - 2 X = 3 ( 3, 2 ) - 2 ( 3, 2 ) = 3, 2 kg

X Med
= = MoP

Assim, podemos concluir que:

Interpretação: Como a Moda de Pearson foi igual à média e Mediana, os dados são simétricos, ou seja,
a maioria dos bebês nasceu com média de 3,2 kg. Existem bebês mais leves e mais pesados, no entanto,
57
representam a minoria. O gráfico que melhor representa esta situação é descrito abaixo.
Banco de imagens/NEaD

EXERCÍCIO RESOLVIDO
Os dados abaixo representam as temperaturas (em ºC) na cidade de São Paulo durante 40 dias de certo
período do ano. Calcule a Moda de Pearson e interprete.

Temperaturas (dados em rol)

12,2 12,4 12,4 12,5 12,7 12,7 12,8 12,9 13,0 13,5
13,7 13,8 13,8 13,9 14,1 14,1 14,2 14,2 14,5 14,5
14,5 14,5 14,9 14,9 15,0 15,0 15,3 15,9 16,2 16,2
17,2 17,8 17,9 17,9 18,0 18,1 18,4 18,7 18,7 19,0
19,1 19,1 19,2 19,3 19,3 19,7 19,7 19,8 19,8 19,9
20,0 20,0 20,1 20,5 20,5 20,5 20,7 21,5 22,0 24,0

12, 2 + 12, 4 + 12, 4 +  + 21,5 + 22 + 24


=X = 16, 78 °C
60
Podemos interpretar que em média temos uma temperatura diária de 16,78 °C na cidade de São Paulo.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

χ n  + χ n 
2
 
 2 +1
 
χ( 30 ) + χ( 31) 30°elemento + 31°elemento 16, 2 + 17, 2
Med = = = = = 16, 7 °C
2 2 2 2
Interpreta-se que metade dos dias mais frios apresentou temperaturas de 12,1 °C a 16,7 °C. E a outra me-
tade dos dias com maior temperatura apresentou valores entre 16,7 °C a 24 °C.

Calculando a Moda de Pearson, temos:

MoP = 3 Med - 2 X = 3 (16, 70 ) − 2 (16, 78 ) = 16,54 °C

Assim, podemos concluir que: MoP < Med < X

Interpretação: Como a Moda de Pearson é menor que a mediana e esta também é inferior à média, os
dados são assimétricos à direita, ou seja, a distribuição poderá ser representada da forma abaixo, o que
significa que a maioria dos dias medidos na cidade de São Paulo apresentou temperaturas mais baixas.

Banco de imagens/NEaD
58
EXERCÍCIO PROPOSTO
1. Os dados abaixo apresentam a altura (m) de 14 jogadores de vôlei de dois times de uma escola de
ensino médio. Calcule a Moda de Pearson e interprete todos os resultados, informe sobre a simetria
dos dados. (Utilize duas casas decimais com arredondamento).

Altura dos jogadores (dados em rol)

1,70 1,74 1,77 1,80 1,82 1,83 1,85


1,89 1,89 1,90 1,92 1,94 1,94 1,95

2. Os dados abaixo apresentam a duração em dias de 70 gestações. Calcule a Moda de Pearson e in-
terprete todos os resultados, informe sobre a simetria dos dados. (Utilize duas casas decimais com
arredondamento).

Duração da gestação (dados em rol)

211 211 211 212 215 220 224 225 226 230
230 230 231 232 235 240 240 240 240 240
242 245 245 245 246 250 250 251 251 252
252 252 252 252 252 256 267 268 268 270
270 270 270 270 270 270 270 270 270 270
271 271 271 272 273 274 275 275 275 275
275 277 277 278 278 279 280 280 282 284

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

3. Os dados do quadro apresentam a quantidade (ml) de refrigerantes em 27 garrafas de 2 litros. Calcule


a Moda de Pearson e interprete todos os resultados, informe sobre a simetria dos dados. (Utilize duas
casas decimais com arredondamento).
Quantidade de refrigerante (dados em rol)

1,7 1,9 1,9 1,9 2,0 2,0 2,0


2,0 2,0 2,0 2,0 2,0 2,0 2,0
2,0 2,0 2,0 2,0 2,0 2,0 2,0
2,1 2,1 2,1 2,1 2,1 2,1

Separatrizes Recomenda-se utilizar o


Quartil quando temos mais
de 4 números. De forma
Acabamos de estudar as medidas de tendência central (Média, Mediana e Moda). Além análoga, deve-se utilizar
destas, existem as medidas de posição, baseadas em sua posição na série, que dividem a o decil quando há mais de
distribuição de dados em partes iguais. 10 elementos e o percentil
quando há mais de 100
Estas medidas, denominadas separatrizes, são utilizadas a fim de conhecer com precisão
dados na distribuição.
as distribuições dos dados como um todo. Assim, veremos aqui as três principais separa-
trizes, sendo elas: quartil, decil e percentil.

Os quartis são uma das separatrizes mais utilizadas para representar uma distribuição de dados, e por
isso são de suma importância. Eles dividem a distribuição de dados em quatro partes iguais. Já os decis
dividem em 10 partes e os percentis, dividem a distribuição em 100 partes iguais.

Vamos conhecer quantos elementos são de cada separatriz?

59
Mediana (Med) divide em duas partes iguais

Quartis (Q1, Q2 e Q3) dividem em quatro partes iguais

Decis (D1, D2, ..., D9) dividem em dez partes iguais

Percentis (P1, P2, ..., P99 ) dividem em cem partes iguais

Relação visual das separatrizes

-------------------!------------------- A própria
mediana é uma
Md separatriz, porém a
mais simples delas, pois
---------!---------!---------!---------
divide a distribuição em
Q1 Q2 Q3 dois pedaços
iguais.
-----!-----!-----!-----!-----!-----!-----!-----!-----!-----

D1 D2 D3 D4 D5 D6 D7 D8 D9

-------!-------!-------!-------!-------!-------!-------!-------!-------!------

P10…P20…P30… P40… P50… P60…P70… P80… P90

Para calcular qualquer separatriz, primeiro encontra-se a posição que ela ocupa na distribuição dos
dados (chamamos essa posição de estatística de ordem); em seguida, identifica-se a classe para cada
separatriz.

As posições são calculadas da seguinte maneira:

1 – Posição do Quartil: χ Qx x⋅n  , x = 1, 2,3.


 4 
 

2 – Posição do Decil: χ Dx x⋅n  , x = 1, 2, ,8,9.


 10 
 

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

3 – Posição do Percentil: χ Px x⋅n  , x = 1, 2, ,98,99.


 100 
 
em que:

χ refere-se à determinação da separatriz;

n refere-se ao número de elementos dos dados ou distribuição.

EXERCÍCIO RESOLVIDO

1. Considere a idade (anos) de 24 pessoas que estão em uma festa. Vamos calcular os quartis e inter-
pretar.

Idade das pessoas (dados em rol)

17 18 19 20 21 22 23 24 25 26 27 29
32 33 35 38 39 42 44 46 48 50 54 57

Calculando os quartis, temos:


χQ1 1⋅24  = χQ1( 6 ) = 6o elemento = 22 anos
 4 
 

χQ 2 2⋅24  = χ Q 2(12 ) = 12o elemento = 29 anos


 4 
 

χQ 3 3⋅24  = χQ 3(18) = 18o elemento = 42 anos


 4 
 

60 Em relação aos quartis, encontramos os 6º, 12º e o 18º elementos da distribuição dos dados, que
correspondem aos números 22, 29 e 42.

Assim, podemos concluir que:

• 25% das pessoas mais novas da festa têm idade entre 17 a 22;

• 50% das pessoas mais novas da festa têm idade entre 17 a 29 anos;

• 75% das pessoas mais novas da festa têm idade entre 17 a 42 anos;

• 25% das pessoas mais velhas da festa têm idade entre 42 a 57 anos.

Obs.: Neste exercicio, todos os quartis resultaram em um elemento inteiro (Q1 = 6º elemento; Q2 = 12°;
Q3 = 18°). No entanto, nem sempre isso ocorrerá, pois é possível que o elemento de uma separatriz resulte
em um valor decimal, como pode ser visto abaixo.

Situação em que o elemento da separatriz é decimal. Seja a distância percorrida em km por 7 corredores
profissionais num determinado tempo.

Distância percorrida (dados em rol)

12 13 17 19 21 22 22

x ⋅ n 1⋅ 7
P
=Q1 = = 1, 75o elemento = ???
4 4

Nesse exemplo, o 1º quartil resultou no elemento 1,75°, ou seja, o Q1 se encontra entre o 1° e o 2° números
dos dados em rol. O procedimento consistirá em uma ponderação entre estes dois elementos, na qual será
dado maior peso ao 2º elemento, de vez que a separatriz está mais próxima dele do que o 1º. A seguir, será
apresentada a metodologia para este procedimento:
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

METODOLOGIA QUANDO O ELEMENTO DA SEPATRIZ É DECIMAL

PSx e = ( xi + ( xi +1 - xi ) ⋅ pdQx )

xi = Primeiro número da ordem do quartil;

xi+1 = Segundo número da ordem do quartil;

pdqx = Parte decimal do valor de PQx .

No exercício resolvido 2 da página anterior, tinhamos que:

PQ1 = (12 + (13 - 12 ) ⋅ 0, 75 ) = 12, 75 km

Obs.: Quando o elemento da separatriz resultar em um valor decimal, mesmo que a variável seja discreta,
deverá ser utilizado este procedimento. Recomenda-se, no entanto, que ao final se arredonde o número
para um valor inteiro.

EXERCÍCIO RESOLVIDO
1. Os dados abaixo representam a distância percorrida (km) por 98 automóveis utilizando apenas seis
litros de combustível

Distância percorrida (dados em rol)

11,7 11,7 12,0 12,0 12,3 12,4 12,5 13,5 13,8 14,8
16,2 17,0 17,8 18,1 18,3 18,7 19,2 19,4 19,6 19,6
22,8 22,9 23,6 23,6 23,6 23,6 23,9 24,6 25,8 26,7
29,8 30,5 31,5 31,5 31,5 32,6 32,8 33,3 33,5 34,5 61
36,6 37,5 38,8 38,8 38,8 40,1 40,3 41,0 41,2 42,4
45,0 46,1 47,7 47,7 47,7 49,3 49,6 50,4 50,7 52,2
55,4 56,7 58,6 58,7 58,7 60,7 61,0 62,0 62,3 64,2
68,1 69,8 72,1 73,5 74,5 74,6 75,0 76,3 76,7 79,0
83,8 85,8 88,7 88,7 88,7 91,8 92,2 93,8 94,3 97,1
103,1 105,6 109,1 109,1 109,2 112,9 113,4 115,4

Calcule:

a) 1º, 2º e 3º quartis e interprete todos.

χQ1 1⋅98  = χQ1( 24,5) = ???


 4 
 

χQ 2 2⋅98  = χQ 2( 49 ) = 49o elemento = 41,2 km


 4 
 
χQ 3 3⋅98  = χQ 3( 73,5) = ???
 4 
 

Repare que o 1º e o 3º quartis resultaram em uma estatística de ordem decimal. Logo, faz-se ne-
cessário utilizar o segundo procedimento para encontrar o valor exato das duas separatrizes.

χQ1( 24,5) ⇒ PQ1 = ( 24° + ( 25° − 24º ) ⋅ 0,5 ) ⇒ Q1 = ( 23, 6 + ( 23, 6 − 23, 6 ) ⋅ 0,5 ) = 23, 6 km
χQ3( 73,5) ⇒ PQ3 = ( 73° + ( 74° − 73º ) ⋅ 0, 75 ) ⇒ Q3 = ( 72,1 + ( 73,5 − 72,1) ⋅ 0, 75 ) = 72,85 km

• Observa-se que 25% dos carros fizeram entre 11,7 a 23,6 km com apenas seis litros de combus-
tível;
• Metade dos carros fez entre 11,7 a 41,2 km com seis litros de combustível;

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

• 75% dos carros fizeram entre 11,7 a 72,85 km com apenas seis litros de combustível;

• 25% dos carros fizeram entre 72,85 a 115,4 km com seis litros de combustível.

b) 3º, 7º e 9º decis e interprete todos.

χ D 3 3⋅98  = χ D 3( 29,4 ) ⇒ PD 3 = ( 29° + ( 30° − 29º ) ⋅ 0, 4 ) ⇒ D3 = ( 25,8 + ( 26, 7 − 25,8 ) ⋅ 0, 4 ) = 26,15 km


 10 
 

χ D 7 7⋅98  = χ D 7( 68,6 ) ⇒ PD 7 = ( 68° + ( 69° − 68º ) ⋅ 0, 6 ) ⇒ D7 = ( 62 + ( 62,3 − 62 ) ⋅ 0, 6 ) = 62, 2 km


 10 
 

χ D 9 9⋅98  = χ D 9(88,2 ) ⇒ PD 9 = ( 88° + ( 89° − 88º ) ⋅ 0, 2 ) ⇒ D9 = ( 93,8 + ( 94,3 − 93,8 ) ⋅ 0, 2 ) = 93,92 km


 10 
 

• Observa-se que 30% dos carros fizeram entre 11,7 a 26,15 km com apenas seis litros de combus-
tível;

• 70% dos carros fizeram entre 11,7 a 62,2 km com seis litros de combustível;

• 90% dos caros fizeram entre 11,7 a 93,92 km com apenas seis litros de combustível.

c) 15º, 37º e 59º percentis e interprete todos.

χ P15 15⋅98  = χ P15(14,7 ) ⇒ PP15 = (14° + (15° − 14º ) ⋅ 0, 7 ) ⇒ P15 = (18,1 + (18,3 − 18,1) ⋅ 0, 7 ) = 18, 23 km
 100 
 

χ P 37 37⋅98  = χ D 7( 36,26 ) ⇒ P37 = ( 36° + ( 37° − 36º ) ⋅ 0, 26 ) ⇒ P37 = ( 32, 6 + ( 32,8 − 32, 6 ) ⋅ 0, 26 ) = 32, 63 km
62  100 
 

χ P 59 59⋅98  = χ P 59( 57,82 ) ⇒ P59 = ( 57° + ( 58° − 57º ) ⋅ 0,82 ) ⇒ P59 = ( 49, 6 + ( 50, 4 − 49, 6 ) ⋅ 0,82 ) = 50, 27 km
 100 
 

Observa-se que 15% dos carros fizeram entre 11,7 a 1823 km com apenas seis litros de combustível;

• 37% dos carros fizeram entre 11,7 a 32,63 km com seis litros de combustível;

• 59% dos caros fizeram entre 11,7 a 50,27 km com apenas seis litros de combustível.

EXERCÍCIO PROPOSTO
1. Utilizando os dados do exercício proposto 2 da página 58, calcule os três quartis e interprete todos.

2. Utilizando os dados do exercício proposto 4 da página 42, calcule o 3º, 4º e 8º decis e interprete
todos.

3. Utilizando os dados do exercício proposto 3 da página 41, calcule o 21°, 55° e 88° percentil e inter-
prete todos.

4. Utilizando os dados do exercício 6 da página 42, calcule os quartis e interprete todos.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Medidas de dispersão
UN 01

Estudamos, anteriormente, as medidas de tendência central e de posição. No entanto, para uma análise
estatística, não podemos apenas informar as posições dos principais números dos dados. Devemos infor-
mar sobre a variedade (ou variabilidade ou dispersão) de elementos, de modo que teremos informações
sobre a homogeneidade ou heterogeneidade (se, por ventura, ocorrer esse último caso, é preciso saber
quão heterogêneos são).

Esta variabilidade nos dados vai definir quão diferentes são entre si mesmos. Quanto maior for a diferença
de um elemento para o outro em uma distribuição, maior será a dispersão dos dados.

Mas como poderemos calcular essa variabilidade entre os elementos?

Iremos calcular o nível de variabilidade utilizando o grau de afastamento de um conjunto de números em


relação à sua média, pois quanto mais homogêneos são os elementos, mais próximos da média serão.

Abaixo veremos três exemplos de que nem sempre as medidas de tendência central são a melhor opção
para a representatividade dos dados.

Imagine que temos três hospitais (A, B e C). Em cada hospital, é apresentado o número de cirurgias reali-
zadas em 5 dias:

Hospital Número de cirurgias em 5 dias


A 100 100 100 100 100
B 98 99 100 101 102 63
C 1 60 100 138 201

Vamos ver qual será o número médio de cirurgias por dia em cada hospital? Calculando a média aritmética
de cada um desses conjuntos, obtemos:

XA =
∑x i
⇒ XA =
500
= 100
n 5

XB =
∑x i
⇒ XB =
500
= 100
n 5

XC =
∑x i
⇒ XC =
500
= 100
n 5

Observamos, então, que os três hospitais apresentam a mesma média aritmética: 100 cirurgias por dia.
Assim, vamos então calculando a mediana para os três hospitais:

Med A = χ  5+1  = χ( 3) = 3° elemento = 100 cirurgias


 2 
 
Med B = χ  5+1  = χ ( 3) = 3° elemento = 100 cirurgias
 2 
 
MedC = χ  5+1  = χ( 3) = 3° elemento = 100 cirurgias
 2 
 

Logo, a mediana também resultou no mesmo valor e, consequentemente, a Moda de Pearson também terá o mesmo valor.

No entanto, apesar de estas medidas estatísticas resultarem em valores iguais, os hospitais são bem diferentes, ou seja, o
Hospital A, por exemplo, não apresenta variabilidade: todos os dias houve a mesma quantidade de cirurgias. Já o Hospital
B teve um valor diferente a cada dia; no entanto, foram valores bem próximos, o contrário do que ocorre com o Hospital
C, apresentando uma discrepância acentuada, pois a diferença entre a quantidade de cirurgias de um dia para o outro é
muito alta.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

Assim, a partir desse exemplo, você deve ter percebido que, apesar das distribuições de dados serem dife-
rentes (hospitais A, B e C), há medidas estatísticas que não conseguem diferenciá-las. Desse modo, vere-
mos a seguir medidas que vão representar matematicamente valores que demonstram o quão diferentes
esses valores são uns dos outros. Essas medidas estatísticas são denominadas Medidas de Dispersão.

As principais medidas de dispersão absolutas são: amplitude total, variância, desvio padrão e coeficiente
de variação.

Amplitude Total

A Amplitude Total é a medida de dispersão mais simples. Já a utilizamos antes quando construíamos uma
distribuição de frequências em classes. Vimos que esta medida é definida como a diferença entre o maior
valor e o menor valor dos dados.

A = LS – LI

A amplitude irá representar a dispersão entre os elementos, ou seja, quanto maior for seu valor, maior será
a variabilidade entre os dados. No entanto, existe uma desvantagem no uso dessa medida de dispersão,
pois ela utiliza em seu cálculo apenas os dois elementos extremos (o maior e o menor), não levando em
conta os elementos intermediários que trazem informações relevantes sobre a distribuição dos números.
Assim, devido a essa desvantagem, a amplitude não é utilizada com frequência para estimar a dispersão
dos dados, principalmente quando há outliers presentes na distribuição.

EXERCÍCIO RESOLVIDO

64 Os dados do quadro representam a idade em anos de 10 pessoas que fazem um curso de inglês básico
numa escola de idiomas. Calcule a amplitude nas idades e comente se ela é confiável para representar a
variabilidade dos dados.

Idade dos alunos (dados em rol)

8 30 31 31 32 34 34 35 35 78

A = 78 – 8 = 70 anos

Repare que a amplitude resultou em 70 anos, ou seja, a distância da pessoa mais velha para a pessoa mais
nova no curso é de 70 anos. No entanto, observa-se que essa amplitude não representa bem a variabilida-
de dos dados, visto que fora o maior e menor valor, as idades dos alunos se concentram em torno dos 33
anos, sendo então essa medida de dispersão não confiável para essa situação.

“Como essa medida de dispersão não é


confiável, como podemos quantificar da
melhor forma a variabilidade dos dados?”

Veremos a seguir uma medida de


Banco de imagens/NEaD

dispersão que mensura com maior


precisão a variabilidade entre os dados.
Banco de imagens/NEaD

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Variância

A variância é uma importantíssima medida de dispersão, que tem a função de estimar a variabilidade dos
dados em torno de sua média e pode ser definida em dois tipos distintos: a variância para uma população
(representada por σ2, lê-se "sigma dois") e para uma amostra (representada por S2):
Pela fórmula
Variância Populacional (  2 ) Variância Amostral (S2) da variância,
nN nn observa-se que
∑( xx −X X) 
 ∑(xx −XX) 
2 2 2 2
ii ii
ela nunca
2 poderá assumir
 2σ = i 1
i =1
S 2 S =i i1=1
2
N valores negativos.
N nn −11

SAIBA MAIS
Observando o cálculo da variância, analisa-se que ela nunca poderá assumir valor negativo, vista
que o numerador é a soma dos desvios em torno da média elevados ao quadrado, resultado
sempre positivo. Quanto ao denominador, temos que n sempre será no mínimo 2; logo, o deno-
minador do quociente da variância dará sempre positivo.

E como temos uma divisão de dois elementos positivos, o resultado sempre será um número po-
sitivo. Logo, a variância sempre será estritamente positiva. O menor valor que ela pode assumir
será zero (situação na qual não existe variação e todos os números são iguais à média). Não há
valor máximo que a variância possa assumir.

Em tese, quanto mais distintos e afastados forem os números, maior será a variância.
65
É importante salientar que a variância amostral é um procedimento matemático que calcula a distância ao
quadrado dos números em relação à sua média, dividida por n-1. Devido aos desvios em torno da média
estarem ao quadrado, o valor da variância eleva a unidade de medida ao quadrado. Por exemplo, dados em
anos, o resultado da variância amostral será dado em anos quadrados (caso fosse a variância populacional,
teríamos também um resultado dado em anos quadrados). Se tivessemos dados em metros, o resultado da
variância amostral será dado em metros quadrados.

EXERCÍCIO RESOLVIDO
Calcule a variância amostral da altura em metros de cinco jogadores de basquete:

1,92 1,72 1,82 1,80 1,84

Antes de calcular a variância amostral, é necessário calcular a média amostral, logo:

1,92 + 1, 72 + 1,82 + 1,80 + 1,84 9,1


X = = = 1,82 m
5 5

∑( X )
2
i −X
S2 = =
n −1
(1,92 − 1,82 )2 + (1, 72 − 1,82 )2 + (1,82 − 1,82 )2 + (1,80 − 1,82 )2 + (1,84 − 1,82 )2
=
5 −1
2 2 2 2 2
( 0,1) + ( −0,1) + ( 0 ) + ( −0, 02 ) + ( 0, 02 )
= =
4
0, 01 + 0, 01 + 0 + 0,0004 + 0,0004 0,0208
= = = 0,0052 metros 2 .
4 4

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

Perceba que os dados estão em metros. No entanto, como no cálculo da variância elevamos ao quadrado a
diferença, a unidade de medida da variável fica também elevada ao quadrado. Logo, os dados que estáva-
mos trabalhando ficaram ao quadrado; a variância amostral dos dados em metros foi dada, portanto, em
metros quadrados. No entanto, veremos a seguir que termos uma unidade de medida ao quadrado muitas
vezes é desvantajoso.

“DESVANTAGEM” DO USO DA VARIÂNCIA

Como no cálculo da variância calculamos os desvios em torno da média ao quadrado, a unidade de medida
também ficou ao quadrado.

Portanto, a variância é dada sempre no quadrado da unidade de medida da série. Se os dados forem ex-
pressos em metros, a variância será expressa em metros quadrados. Se os dados forem expressos em cen-
tímetros, a variância será dada em centímetros quadrados. No entanto, em algumas situações, a unidade
de medida da variância nem faz sentido. É o caso, por exemplo, em que os dados são expressos em litros. A
variância será expressa em litros quadrados? mas esta unidade de medida não existe.

Logo, o valor da variância não pode ser comparado diretamente aos dados da série, ou seja: variância não
tem interpretação para situações nas quais a variável mensurada não possui unidade de medias ao qua-
drado. Mas o que podemos fazer neste caso?

A solução é utilizar o desvio padrão como medida para a dispersão dos dados.

Desvio padrão

66 O desvio padrão é a medida de dispersão que apresenta as propriedades da variância e apresenta a mesma
unidade de medida dos dados, ou seja, ela conserva a unidade de medida. Por exemplo, se tivermos dados
em miligramas, o desvio padrão será dado também em miligramas. Logo, para o cálculo do desvio padrão,
basta aplicar a raiz quadrada na variância.

O desvio padrão para uma população (representada por σ, lê-se "sigma") e para uma amostra (represen-
tada por S) é dado a seguir:

Desvio padrão populacional (  ) Desvio padrão amostral (S)


nN nn

∑(xx − XX)  ∑( xx −XX) 


2 2

2 2
ii ii
i =11
 σ = i 1i =1
N
S
S= i
n −1
N n 1
OBS: Quanto maior o valor do desvio padrão, mais dispersos estão os elementos em torno de sua média,
ou seja, maior a variabilidade entre os dados.

EXERCÍCIO RESOLVIDO
1. Foi verificada a pulsação, em batimentos por minuto, de uma amostra de 11 funcionários que estavam
na enfermaria da Empresa X, segundo o sexo. Os dados estão abaixo:

Pulsação dos funcionários (dados em rol)

Homens 80 91 84 86 88 80
Mulheres 80 89 85 86 104 -

a) Qual grupo apresentou maior pulsação média?

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Calculando a média aritmética de cada um dos grupos, temos:

X Homems



x i 80  91+84+86+88+80
 84,83 bpm
n 6

X Mulheres



x i 80  89+85+86+104
 88,8 bpm
n 5

O grupo das mulheres é o que apresentou maior pulsação média .

b) Qual grupo apresenta maior variação? Utilize a medida de dispersão adequada para tal comparação e
justifique seu uso.

Como ambos os grupos foram medidos na mesma unidade, ou seja, batimentos por minuto (bpm),
para tal comparação, a medida de dispersão mais indicada é o desvio padrão ou variância. Aqui,
iremos comparar por meio do desvio padrão, de vez que não existe a unidade batimentos por minuto
ao quadrado.

∑ ( X i − X ) 
2

S Homens


X  X2 i

S Homens = n 1 =
n −1

(8080− 84,83 )2 + ( 91
 −91  − 84,83
84 )84,83 
2 2 2
84,83  84,83
)2 + (84 2
=
84,83
6 − 16  1
+  67
86− 84,83 )2 + (88
 −88  − 84,83
80 )84,83  
2 2 2
(86 84,83  84,83
84,83 )2 + (80 2
+ = 4, 4 bpm 4, 4 bpm
6 − 16  1

∑( X X− iX) X=


2 2
i
SSMulheres
 Mulheres =  n −n1  1

(80 − 88,8)2 + (892− 88,8)2 + (85 − 88,8


2 )
2

80  88,8 5−189  88,8  85 +  88,8 


2
=

2 2 5 1
(86 − 88,8) + (104 − 88,8)
+ = 9, 09 bpm
 5 − 1  104  88,8 
2 2
86  88,8
 9, 09 bpm
5 1
Assim, o grupo com maior variação (ou variabilidade) é o das mulheres, por apresentar o maior
desvioopadrão.
Assim, grupo com maior variação (ou variabilidade) é o das mulheres, por apresentar o maior
desvio padrão.

Coeficiente de Variação

Dissemos antes que, por serem as unidades do desvio padrão as mesmas dos dados originais, é mais fácil
entender o desvio padrão do que a variância. No entanto, aquela mesma propriedade torna difícil compa-
rar a variação para valores originados de diferentes populações, ou seja, quando as medidas de duas ou
mais variáveis são expressas em unidades diferentes, como peso/altura, capacidade/comprimento, etc.

Desta forma, quando queremos comparar variabilidade entre grupos cujas unidades de medida são dife-
rentes para cada grupo (exemplo, um grupo medido em kg e outro medido em metros), utiliza-se o Coefi-
ciente de Variação (CV), medida relativa que expressa o desvio padrão como uma porcentagem da média
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

aritmética, não possui unidade específica e é dado em percentual. Quanto mais próximo o Coeficiente de
Variação de zero, mais homogênea (ou menor a variabilidade) é a distribuição. Quanto mais distante, mais
dispersa (e maior será a variabilidade dos dados).

Da mesma forma que o desvio-padrão e a variância, o CV mede a dispersão dos dados em relação à sua mé-
dia. Essa medida de dispersão é calculada pela razão entre o desvio padrão e a média, na qual o resultado
obtido dessa operação é multiplicado por 100, para que o coeficiente de variação seja dado em porcenta-
gem. Assim, o CV pode ser calculado por:

s
CV= ⋅100
X

Obs.: Um CV alto indica que a dispersão dos dados em torno da média é muito grande.

EXERCÍCIO RESOLVIDO
1. Em um grupo de pacientes, foram tomadas as pulsações (batidas por minuto) e dosadas as taxas de
ácido úrico (mg/100ml). Abaixo são informadas a média e o desvio padrão de cada grupo:

Variável Média - X Desvio padrão - S

Pulsação 68,7 8,7

Ácido úrico 5,46 1,03

Compare a dispersão da pulsação às taxas de ácido úrico. Utilize a medida de dispersão adequada para tal
comparação e justifique seu uso.
68 Como as unidades de medidas são diferentes entre os grupos (um grupo medido em bpm e outro me-
dido em mg/100 ml), iremos utilizar o coeficiente de variação para tal comparação.

Perceba que se comparássemos apenas pelo desvio padrão, chegaríamos à conclusão de que o grupo
Ácido Úrico apresenta menor variabilidade. Mas será realmente verdade? Para sabermos, só calculan-
do o CV.

Como já foram dados o desvio padrão e a média, podemos calcular diretamente o CV. Logo, temos a
seguir:

8, 7
CVPulsação = ⋅100 = 12, 66%
68, 7
1, 03
CVÁcido = ⋅100 = 18,86%
5, 46

Assim, chegamos à conclusão de que o grupo Ácido Úrico apresenta maior variabilidade. Caso tivés-
semos apenas comparado a dispersão apenas por meio do desvio padrão, seríamos induzidos ao erro,
pois o que ocorreu foi o contrário: o grupo de menor desvio padrão apresentou maior variação.
Logo, chama-se a atenção para ter sempre o cuidado de analisar se os grupos têm unidades de me-
didas iguais. Caso isso ocorra, pode-se utilizar para tal comparação tanto a variância como o desvio
padrão (lembre-se apenas de que a variância dará seu valor em uma unidade de medida ao quadrado
e o desvio padrão conservará a unidade de medida). Caso os grupos sejam medidos em unidades di-
ferentes, utilize o CV..

EXERCÍCIO RESOLVIDO

1. A Tabela 18 abaixo apresenta informações de cinco empresas de certo setor. É mensurado o fatura-
mento anual (em milhões de reais) e o tamanho do quadro funcional de cada empresa. Compare a
variabilidade do faturamento anual à variabilidade do quadro funcional. Utilize a medida de dispersão
adequada para tal comparação e justifique sua escolha.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Tabela 18 - Faturamento e quadro funcional de cinco empresas


Faturamento anual Quadro funcional
(milhões de reais) (quant. de funcionários)
Empresa 1 4,0 105
Empresa 2 3,0 105

Fonte: Dados ficticios


Empresa 3 2,6 95
Empresa 4 3,7 90
Total
Empresa 5 3,9 112

Para verificar a variabilidade entre o faturamento mensal e o quadro funcional, deve-se utilizar
como medida de dispersão o coeficiente de variação (CV), visto que os grupos estão em unidades
de medida diferentes (uma em “milhões de reais” e outra em “quant. de funcionários”). No entanto,
para calcular o CV, deve-se antes calcular a média e o desvio padrão de cada, assim temos:

Calculando a média aritmética de cada um dos grupos, temos:

X =
 xi =x4+3+2,6+3,7+3,9
∑ 4+3+2,6+3,7+3,9
=3,44=mil
3, 44reais
i
XFaturamento
Faturamento =n = 5 5 mil reais
n

 xi = 105+105+95+90+112
XQ.funcional =
X Q. funcional n=
∑xi 105 + 105 + 95=101,4funcionários
= 5
+ 90 + 112
= 101, 4 funcionários
n 5

Calculando o desvio padrão de cada grupo, temos:


69
∑ (  X -X )
2
Xi − X 2
S Faturamento = =
S Faturamento = n −i1 =
n-1
( 4 − 3, 442 )2 + ( 3 − 3,244 )2 + ( 2, 62− 3, 44 )2
=  4-3,44  + 3-3,44  +  2,6-3,44  +
= 5 −1 +
5-1
( 4 − 3, 442)2 + ( 3 − 3,244 )2 + ( 2, 6 2− 3, 44 )2
+  4-3,44  +  3-3,44  +  2,6-3,44  = 0, 6107 mil reais
+ 5 −1 =0,6107 mil reais
5-1

X -X(X i − X )
2
∑
2

i
SQS.Q.funcional
funcional = = = =
n-1 n − 1
105-101,4
(105 − 101, 4+)2105-101,4  + 95-101,4
4 ) + ( 95 − 101, 4 )
2 2 2
2 2
= + (105 − 101, +
= 5-1 +
5 −1
 90-101,4  + 2112-101,4 
2 2
2
+ ( 90 − 101, 5-1
4 ) + (112 − 101, 4)
=8,792funcioários
+ = 8, 792 funcionários
5 −1

Calculando agora o CV de cada grupo, temos:

s 0, 6107
CV
CVFaturamento = s ⋅100 = 0, 6107 ⋅100 = 17, 75%
Faturamento  X 100  3, 44 100 17, 75%
X 3, 44

CVQQ.. funcional s s ⋅100 = 8, 7920


8,7920 ⋅100 = 8, 67%
funcional= 100  100 8,67%
XX 101,
101, 44

Assim, o grupo com maior variação (ou variabilidade) é o Faturamento Anual.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

2. Os dados da Tabela 19 representam informações referentes a uma amostra de quatro gestantes que
estão de licença maternidade. Foram mensurados o peso ao nascer do bebê, a duração da gestação
e a idade da mãe. Logo, compare a variabilidade das informações dos três grupos de dados disponi-
bilizados. Utilize a medida de dispersão adequada para tal comparação e justifique sua escolha. Os
dados estão a seguir:

Tabela
Tabela19
1. - Informações de uma amostra de gestantes da Maternidade Januário Cicco em 2009.

Fonte: Maternidade Januário Cic-


Peso ao nascer Duração da Idade da mãe
(kg) gestação (dias) (anos completos)
Mãe 1 3,45 296 23
Mãe 2 4,09 279 22

co/RN, 2009.
Mãe 3 3,20 296 32
Mãe 4 4,20 283 17

Para verificar a variabilidade entre os grupos, deve-se utilizar como medida de dispersão o coeficiente de
variação (CV), uma vez que os grupos estão em unidades de medidas diferentes.

Calculando a média aritmética de cada grupo, temos:

X=

=
x i 3,45+4,09+3,2+4,2
= 3, 75 kg
Peso
n 4

X Duração
=

=
x i 296 + 279 + 296 + 283
= 288,5 dias
n 4
70 X=

=
x i 23 + 22 + 32 + 17
= 23,5 anos
Idade
n 4

Calculando o desvio-padrão de cada grupo, temos:

X=

=
x i 3,45+4,09+3,2+4,2
= 3, 75 kg
Peso
n 4

X Duração
=

=
x i 296 + 279 + 296 + 283
= 288,5 dias
n 4

X=

=
x i 23 + 22 + 32 + 17
= 23,5 anos
Idade
n 4

∑( X - X )
2
i
=S Duração =
n -1
( 296 - 288,5) + ( 279 - 288,5 )
2 2

= +
4 -1
( 296 - 288,5) + ( 279 - 288,5 )
2 2

+ 8,8128 dias
=
4 -1

∑( X - X )
2
i
=S Idade =
n -1
( 23 - 23,5) + ( 22 - 23,5)
2 2

= +
4 -1
( 32 - 23,5) + (17 - 23,5)
2 2

+ 6, 2449 anos
=
4 -1

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
I - ESTATÍSTICA DESCRITIVA

Calculando agora o CV de cada grupo, temos:


s 0, 4863
CVPeso = ⋅100 = ⋅100 =13, 02%
X 3, 735
s 8,8128
CVDuração = ⋅100 = ⋅100 =3, 05%
X 288,5

s 6, 2449
CVIdade = ⋅100 = ⋅100 =26,57%
X 23,5
Assim, o grupo com maior variação (ou variabilidade) é o da idade das mães e o grupo de menor variabi-
lidade é o da duração da gestação.

EXERCÍCIO PROPOSTO
1. Os dados abaixo apresentam o número de reclamações em três lojas de calçados em 5 semanas se-
guidas. Informe qual loja apresenta maior variabilidade com relação ao número de reclamações nas 5
semanas. Utilize a medida de dispersão adequada para tal comparação e justifique sua escolha.
Número de reclamações (dados brutos)

Loja Bimestre 1 Bimestre 1 Bimestre 2 Bimestre 3 Bimestre 4


Calce bem 5 4 9 2 7
Calçados e Cia 0 5 9 9 14
Tia Lú 0 2 1 2 3

2. Após a realização de uma prova, foi sorteado um aluno que representará cada uma das 4 turmas do 2º
ano (2A, 2B, 2C, 2D) e foi analisado as notas dos 4 bimestres de cada representante. 71
Notas do aluno (dados brutos)
Turma Bimestre 1 Bimestre 2 Bimestre 3 Bimestre 4
2A 1,5 5,8 7,4 6,1
2B 6,4 7,0 7,1 8,8
2C 10 9,5 8,4 9,1
2D 8,0 8,0 8,0 8,0

a) Qual aluno apresenta a maior nota média? E qual apresenta a menor nota média?.

b) Informe qual aluno apresenta menor variabilidade em suas notas e qual apresenta maior variabilida
de em suas notas. Utilize a medida de dispersão adequada para tal comparação e justifique sua escolha.

3. Os dados da tabela informam a idade (dias) e o peso (gramas) de quatro rãs utilizadas em um experi-
mento em laboratório. Compare a variabilidade da idade com a variabilidade do peso das rãs. Utilize
a medida de dispersão adequada para tal comparação e justifique sua escolha.
Idade e peso das rãs
Idade Peso
30 43
34 74
38 81
42 115
4. Em hospitais, o número de suturas realizadas em pequenos procedimentos cirúrgicos é anotado ao
término do expediente. Dois hospitais foram analisados durante uma semana.
Número de suturas (dados brutos)
Número de suturas por dia
Hospital
Dia 1 Dia 2 Dia 3 Dia 4 Dia 5 Dia 6 Dia 7
I 10 9 24 59 60 17 27
II 42 37 49 30 33 45 50
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
I - ESTATÍSTICA DESCRITIVA

a) Qual hospital apresentou maior número médio de suturas nos 7 dias pesquisados?

b) Qual hospital apresenta maior variabilidade em relação ao número de suturas realizadas na semana
da pesquisa. Utilize a medida de dispersão adequada para tal comparação e justifique sua escolha.

5. Um levantamento dos preços à vista do litro de gasolina e de álcool, em alguns postos da cidade, está
mostrado na tabela abaixo (R$).

Preço do combustível

Gasolina (R$) Álcool (R$)


2,87 2,31
2,91 2,29
2,98 2,35
2,90 2,30
3,02 2,28

a) Calcule a média, o desvio padrão dos preços de cada combustível.

b) Utilize o coeficiente de variação e informe qual é o combustível que tem seus preços mais homogêne-
os.

6. Os dados abaixo apresentam a espessura do fio de cobre e o peso de uma peça deste fio com 30 me-
tros. Compare a variabilidade da espessura com a do peso, informando qual apresenta maior variação.
Utilize a medida de dispersão adequada para tal comparação e justifique sua escolha.

72 Espessura e peso do fio de cobre

Espessura (mm) Peso (kg)


65 5,74
62 3,59
69 4,85
70 1,10
63 2,88

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II PROBABILIDADE

Nesta Unidade, veremos os conceitos introdutórios da teoria das pro-


babilidades. Estudaremos qual o seu significado, como calcular e inter-
pretar os resultados. Assim, você poderá estimar, por exemplo, a chance
de ocorrência de uma determinada situação, em que, quanto maior ela
for, maior a probabilidade de acontecimento desse determinado evento.
Veremos também alguns modelos probabilísticos (discretos e contínuos)
que serão abordados sempre com aplicações em situações reais, propor-
cionando ao aluno o reconhecimento da situação em que poderá utilizar
tais modelos.

Objetivos:

• Entender a importância e aplicação da probabilidade na Estatística;

• Conhecer os axiomas e as abordagens de probabilidade;



• Aprender a calcular a probabilidade de acontecimento de eventos;

• Conhecer os principais modelos probabilísticos, bem como diferenciar


um modelo discreto de contínuo;

• Saber aplicar os modelos probabilísticos de acordo com a situação


dada.
II - PROBABILIDADE

Introdução à probabilidade
UN 02

Quando estamos pensando em probabilidade, queremos identificar a chance de ocorrência de um deter-


minado evento (resultado de interesse), em circunstâncias nas quais não é possível calcular com exatidão
o valor real do evento. O uso das probabilidades surgiu inicialmente com jogos, na qual o jogador estava
interessado em saber qual seria sua chance de ganhar. E a partir daí foi estendido para outras áreas.

Desta forma, trabalhamos com a chance de um determinado evento ocorrer, sendo essa chance denomi-
nada de “probabilidade”. Por exemplo: quando queremos saber se a empresa X cumprirá suas metas de
expansão de mercado em 2014.

Neste caso, não há como obter um valor exato. No entanto, podemos calcular a probabilidade de cumprir
a meta, utilizando a frequência relativa dos últimos anos. Portanto, para calcularmos uma probabilidade,
é necessário que tenhamos um experimento aleatório.

Experimentos aleatórios

Você já percebeu que antes do começo de uma partida de futebol, o juiz joga uma moeda para cima a fim
de saber qual time irá escolher o lado do campo e qual ficará com a posse de bola? Suponha que o juiz re-
alizou tal lançamento e o resultado foi “cara”. Caso ele jogasse novamente essa moeda, será que resultaria
novamente na face “cara”? Não podemos afirmar tal resultado, mesmo sendo a mesma pessoa (o juiz) que
irá jogar a moeda. Esse tipo de experimento é chamado de experimento aleatório.
75
FIQUE DE OLHO
Experimento Aleatório: São experimentos que, mesmo executados mais de uma vez em condi-
ções semelhantes, não necessariamente produzem o mesmo resultado.

Vejamos alguns exemplos de Experimentos Aleatórios:

a) Lançamento de uma moeda;

b) Lançamento de um dado de seis faces;

c) Tempo de funcionamento (horas) de um aparelho de Blu-ray;

d) Número de alunos de uma turma com 30 estudantes que fazem aniversário no último mês do ano.

Repare que todos estes exemplos são experimentos aleatórios.

Em (a), ao lançarmos uma moeda mais de uma vez em condições semelhantes, não necessariamente tere-
mos o mesmo resultado.

O mesmo ocorre em (b): caso se lance um dado duas vezes, o número resultante do 1º lançamento não
necessariamente será o mesmo do 2º lançamento.

Isso também ocorre em (c): suponha que foram comprados dois aparelhos de Blu-ray oriundos do mesmo
processo de fabricação e mesmo lote, utilizando-se ambos em condições semelhantes, quando um deixar
de funcionar isso não necessariamente ocorrerá com o outro no mesmo momento.

Já em (d), caso sorteássemos duas salas com 30 alunos, cada um de uma escola qualquer, não necessaria-
mente teríamos a mesma quantidade de alunos fazendo aniversário no mês de dezembro.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Então por ser um experimento aleatório

Banco de imagens/NEaD
eu não posso prever o resultado, mesmo
realizando os experimentos em
condições semelhantes?

Correto, No entanto, mesmo não


Banco de imagens/NEaD

podendo prever o desfecho de um


experimento, podemos listar todos os
seus possíveis resultados. Veremos
isso na próxima seção...

SAIBA MAIS
Vimos nesta seção que um experimento aleatório é um experimento imprevisível, pois mesmo
executando-o mais de uma vez nas mesmas condições, não necessariamente dará o mesmo
resultado. Dizemos que esse é um dos fenômenos que ocorrem na natureza, sendo ele o “fenô-
meno aleatório”.

O outro fenômeno é o “fenômeno determinístico”, ou seja, ao contrário do aleatório, ele é


previsível; uma vez que seus resultados são sempre os mesmos, independente das vezes que
foi executado o experimento. Por exemplo, a água, sabemos que com a temperatura de aproxi-
madamente 100 0 C ela entra em ponto de ebulição, passando do estado líquido para o estado
gasoso. Esse é um tipo de fenômeno determinístico, ou seja, irá acontecer com absoluta certeza.

76
Espaço amostral

Denotado pela letra grega Ω (lê-se: Ômega), o espaço amostral é definido como o conjunto de todos os
resultados possíveis de um experimento aleatório.

No caso do Exemplo anterior, vamos listar o espaço amostral para cada uma das situações:

Exemplo

Espaços amostrais do Exemplo da pagina 75:

a) Ω = {Cara, Coroa}

b) Ω = {1, 2, 3, 4, 5, 6}

c) Seja t o tempo em horas de funcionamento:

Ω = {t ≥ 0}

d) Seja n o número de alunos que fazem aniversário em dezembro:

Ω = {0 ≤ n ≤ 30}

Então iremos trabalhar sempre


com o espaço amostral?
Banco de imagens/NEaD
Banco de imagens/NEaD

Muitas vezes estaremos


interessados em um resultado
particular de Ω.
Vejamos a próxima seção...

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

Eventos

São constituídos por todo subconjunto do espaço amostral, ou seja, o evento pode representar um resulta-
do particular ou um subconjunto de resultados. Normalmente são representados pelas letras maiúsculas
do nosso alfabeto. Vejamos possíveis eventos para o Exemplo anterior:

Exemplo

Possíveis eventos do Exemplo da página 76:

a) A = {Cara}

b) B = {Ao lançar o dado, resultou no número dois} = {2}

c) C = {Mais de 100 horas} = {t > 100}

d) D = {Entre 10 e 15 alunos} = {10 ≤ n ≤ 15}

SAIBA MAIS
Também são eventos o próprio Ω (chamado de evento certo, ou seja, sempre ocorre), o conjunto
vazio Ø (chamado de evento impossível, ou seja, nunca ocorre), ou qualquer resultado individual
de Ω.

Já que sabemos o espaço amostral e conhecemos 77


todas as possibilidades de um experimento
aleatório. Por que então definimos um evento?

Banco de imagens/NEaD
Banco de imagens/NEaD

Porque normalmente não estamos


interessados em todas as possibilidades
de um experimento, mas em uma
específica. Assim, definimos um evento
que representa essa possibilidade na qual
estamos interessados, para posteriormente
calcular a probabilidade de este evento
ocorrer. A seguir, veremos algumas
operações básicas com eventos.

OPERAÇÕES COM EVENTOS


a) UNIÃO: A união de dois eventos A e B (representada por A ∪ B ) se define pela ocorrência de A, ou
B, ou ambos.

União entre dois conjuntos

A B

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

b) INTERSECÇÃO: A intersecção de dois eventos A e B (representada por A ∩ B ) se define pela ocor-


rência de A e B ao mesmo tempo, ou seja, todos os elementos que estão em A e B simultaneamente.
União entre dois conjuntos

A B

C
c) COMPLEMENTAR: O complementar de um evento A (representado por: A ou por A ) é o contrário
do evento A, ou seja, são todos os elementos que não estão em A. Pode-se observar que A ∪ A = Ω .

Complementar do conjunto A

78 A

Então, sempre terá intersecção entre os eventos?


Banco de imagens/NEaD

Banco de imagens/NEaD
Veremos a seguir que não.

SAIBA MAIS
Eventos mutuamente exclusivos: dois eventos são mutuamente exclusivos (ou mutuamente ex-
cludentes ou disjuntos), se e somente se, não existe intersecção entre os dois. Logo, podemos
afirmar que a ocorrência de um evento exclui a ocorrência do outro.

Temos por exemplo, a ocorrência de chuva. Seja o evento A = {Chove hoje} e seja o evento B
= {Não chove hoje}. Não estamos falando da intensidade da chuva, e sim se irá chover ou não.
Logo, não existe intersecção entre esses dois eventos, assim, a ocorrência de um exclui a ocor-
rência do outro.

A B

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

EXERCÍCIO RESOLVIDO

Banco de imagens/NEaD
1. Suponha o lançamento de um dado de seis faces. Sejam os eventos:

A = {Nº menor que 3}

B = {Nº maior ou igual a 4}

C = {Nº par}

O experimento aleatório é o lançamento do dado. Já o espaço amostral será constituído por todos os
resultados possíveis deste lançamento, ou seja: Ω = {1, 2,3, 4,5, 6} . Assim, podemos listar cada um dos
eventos anteriormente definidos:
A = { 1, 2 } B = { 4,5, 6 } C = { 2, 4, 6 }
Daí podem ser feitas as seguintes operações:

A  B 1, 2, 4,5, 6 A  B  , eventos disjuntos


1, 2, 4, 6
AC A  C 2
B  C 2, 4,5, 6  B  C 4, 6
A 3, 4,5, 6  B 1,
 2,3 C 1,3,5

Exemplo

Suponha que uma indústria siderúrgica esteja realizando um teste com seus três tipos de máquinas de
corte: Ferro (F), Aço (A) e Alumínio (L). Foi medido o número de peças cortadas em cada uma dessas má- 79
quinas suficiente para que a temperatura interna da máquina chegasse a 60 oC. Foi realizado esse teste 5
vezes em cada máquina, na qual o número de cortes em cada uma das 5 tentativas de cada tipo de máquina
é fornecido abaixo:

F = {3, 4, 4, 5, 5}

A = {1, 1, 2, 3, 4}

L = {5, 6, 8, 12, 12}

Apresente:

a) F ∪ A e F ∩ A
F ∪ A = { 1,2,3,4,5} F ∩ A = { 3,4}
b) F ∪ L e F ∩ L
F ∪ L = { 3,4,5,6,8,12} F ∩ L = {5 }
c) A ∪ L e A ∩ L
A ∪ L = { 1,2,3,4,5,6,8,12} A ∩ L = { ∅ } , eventos disjuntos

EXERCÍCIO PROPOSTO
1. Suponha o lançamento de um dado de seis faces. Sejam os eventos:

A = {Nº maior que 2}

B = {Nº maior ou igual a 5}

C = {Nº ímpar}

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Apresente:

a) A ∪ B
b) A ∪ C
c) B ∪ C
d) A ∩ B
e) A ∩ C
f) B∩C
g) A
h) B
i) C

2. Considere um experimento feito para avaliar a durabilidade de uma lâmpada. O espaço amostral as-
sociado é Ω={t; t ≥ 0}. Sejam A, B e C os eventos::

A = {t; t < 100}

B = {t; 50 ≤ t ≤ 200}

C = {t; t > 150}.

Apresente:

a) A ∪ B
b) A ∪ C
c) B ∪ C
80 d) A ∩ B
e) A ∩ C
f) B∩C
g) A
h) B
i) C

Definição de probabilidade

Seja um experimento aleatório qualquer e Ω o espaço amostral deste experimento. Defini-


Um axioma ou
mos um evento A (sendo A ⊂ Ω ) de modo que P(A) é a probabilidade de A ocorrer, a qual
postulado é uma
é uma função definida no espaço amostral que associa ao evento um número real, satisfa-
sentença ou proposição
zendo os seguintes axiomas:
matemática que não é
provada. A partir dela, a) 0 ≤ P(A) ≤ 1 A⊂Ω
são demonstradas b) P( ) = 1
várias propriedades c) Se A e B são eventos mutuamente exclusivos (disjuntos), isto é, A B = , tem-se que
na matemática. P(A B) = P(A) + P(B).

A partir dos axiomas de probabilidade, a seguir veremos os principais teoremas:

a) Se é um conjunto vazio, então P( ) = 0;

b) Sejam A e B eventos não mutuamente exclusivos (a intersecção não é vazia), então


P ( A ∪ B ) = P ( A )+ P (B ) − P ( A ∩ B );

c) Se é o complementar de A, então P ( A ) = 1 − P ( A ) ;

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

c) Se A B, então P(A) P(B);

P ( A ∪ B ∪ C ) = P ( A )+ P ( B )+ P ( C )− P ( A ∩ B) − P ( A ∩ C ) − P ( B ∩ C ) + P ( A ∩ B ∩ C )

PROBABILIDADE DE UM EVENTO QUALQUER

Seja o espaço amostral do experimento aleatório e seja um evento A pertencente a Ω. A probabilidade


de A ocorrer será o quociente entre o número de casos em que A ocorre pelo número total de possibili-
dades de Ω, ou seja, a divisão entre os casos favoráveis a A (aqui representado por #A) pelo tamanho do
espaço amostral (representado por #Ω). Os Exemplos resolvidos 1 e 2 a seguir ilustram a definição.

SAIBA MAIS
Quer saber a probabilidade de ganhar na mega sena?
http://www.youtube.com/watch?v=xy0H76ZBUCo
Quer saber a probabilidade de você nascer?
http://www.youtube.com/watch?v=tgm-fIrI9zU

EXERCÍCIO RESOLVIDO

1. Suponha o lançamento de um dado honesto de seis faces. Seja o evento A = {O número resultante do
lançamento é par}, qual é a probabilidade de A ocorrer?

Primeiro, devemos listar o espaço amostral, logo: 81


 1,2,3,4,5,6 
 # 6possibilidades

Em segundo lugar, listamos as possibilidades do evento de interesse:


A 2,4,6   3possibilidades
#A

A probabilidade de A ocorrer é dada por:

nº de casos favoráveis de A #A 3 1
P  A      0,5
nº total de casos # 6 2

A probabilidade da ocorrência do resultado no lançamento de um dado ser um número par é de 50%


(0,5). Ou seja, a metade das possibilidades.

2. Suponha um grupo com 250 condutores de automóveis da faixa etária entre 20 a 25 anos, no qual uma
parte deles têm o hábito de dirigir sob efeito de bebida alcoólica. Foi perguntado se já sofreram algum
acidente de trânsito enquanto dirigiam. O quadro a seguir ilustra o resultado desse estudo.

Pesquisa sobre a ocorrência de acidentes de trânsito e a incidência de dirigir sob efeito de álcool

Dirige sob efeito de álcool Não dirige sob efeito de álcool Total
Já se acidentou 40 65 105
Nunca se acidentou 15 130 145
Total 55 195 250

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Sejam os eventos:

A = {O condutor dirige sob efeito de álcool}

B = {O condutor já se acidentou enquanto dirigia}

Calcule a probabilidade de um condutor escolhido ao acaso:

a) Dirigir sob efeito de álcool.

nº de pessoas que dirigem sob efeito de álcool 55


( A)
P= = = 0,=
22 22%
nº total de pessoas 250

b) Não dirigir sob efeito de álcool.


nº de pessoas que não dirigem sob efeito de álcool 195
Vamos definir o eventoP (=A ) como a negação do evento A. Logo, podemos calcular
= = 0,=
78 78%desse
a probabilidade
nº total de pessoas 250
evento como:
nº de pessoas que não dirigem sob efeito de álcool 195
P (=
A) = = 0,= 78 78%
nº total de pessoas 250
Pode-se chegar ao mesmo resultado utilizando o cálculo da probabilidade complementar:
P ( A) =
1 - P ( A) =
1 - 0, 22 =
0,78 =
78%

c) Já ter se acidentado enquanto dirigia.

nº de pessoas que se acidentaram na direção 105


P ( B) = = = 0,= 42 42%
nº total de pessoas 250

82 d) Nunca ter se acidentado enquanto dirigia.

Definindo o eventoP ( B ) =1 - P ( aB )negação


como =1 - 0, 42do
= evento
0,58 =58%B, podemos calcular a probabilidade desse evento
como:
nº de pessoas que nunca se acidentaram na direção 145
P (=
B) = = 0,58 = 58%
nº total de pessoas 250

Pode-se chegar ao mesmo resultado utilizando o cálculo da probabilidade complementar:


P(B) =
1 - P ( B) =
1 - 0, 42 =
0,58 =
58%

e) Dirigir sob efeito de álcool ou ter se acidentado.

Aqui é pedida a probabilidade de dirigir sob efeito de álcool ou ter se acidentado. Assim, devemos levar em
conta a ocorrência de cada um desses eventos, bem como a ocorrência dos dois eventos ao mesmo tempo,
logo, será necessário calcular a probabilidade da união. Logo:

P ( A ∪ B=
) P ( A) + P ( B ) - P ( A ∩ B )
55 105 40
= + - = 0, 22 + 0, 42 - 0,16 = 0, 48 = 48%
250 250 250

f) Não dirigir sob o efeito de álcool ou não ter se acidentado.

P ( A ∪ B=
) P ( A) + P ( B ) - P ( A ∩ B )
195 145 130
= + - = 0, 78 + 0,58 - 0,52 = 0,84 = 84%
250 250 250
g) Não dirigir sob o efeito de álcool ou ter se acidentado.

P ( A ∪ B=
) P ( A) + P ( B) - P ( A ∩ B)
195 105 65
= + - = 0, 78 + 0, 42 - 0, 26 = 0,94 = 94%
250 250 250

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

EXERCÍCIO PROPOSTO
1. Considere A e B dois eventos quaisquer de um experimento aleatório. Se P(A)=0,4; e P(B)=x. Qual é
o valor de x para que A e B sejam mutuamente exclusivos?

2. Suponha que a probabilidade de uma pessoa ser do tipo sanguíneo A é de 30%, do tipo B é de 30% e
de ser AB é de 10%. Suponha ainda que a probabilidade de Rh+ é de 87% e que o Rh independe do tipo
sanguíneo. Nessas condições, qual é a probabilidade de uma pessoa tomada ao acaso da população
ser:

a) Tipo sanguíneo O e Rh+ ?

b) Tipo sanguíneo AB e Rh- ?

3. Suponha que foram entrevistadas as 50 pessoas que passaram para o curso de Medicina de uma Uni-
versidade Federal do País. Foi perguntado se foi o 1º ano de ENEM ou se já tinham realizado o Exame
Nacional. O quadro abaixo apresenta esses resultados segundo o sexo:

Estudo sobre a entrada do curso de Medicina segundo o sexo e o ENEM


Masculino Feminino Total
1º ENEM 2 3 5
Fez mais de um 18 27 45
Total 20 30 50

Calcule a probabilidade de um aluno ser sorteado ao acaso e:

a) Ser homem

b) Ser Mulher 83
c) Ter passado no 1º ENEM

d) Ter feito mais de um ENEM

e) Ser homem ou ter feito o 1º ENEM

f) Ser mulher ou ter feito mais de um ENEM

g) Ser mulher e ter feito mais de um ENEM

h) Ser homem e ter feito mais de um ENEM

Resultados equiprováveis

Seja ξ um experimento aleatório qualquer, e seja Ω o espaço amostral deste experimento com n possibili-
dades. Quando todas as possibilidades de Ω têm igual probabilidade de ocorrência, dizemos que os resul-
tados são equiprováveis (probabilidades iguais) e que cada ponto no espaço amostral terá probabilidade
de ocorrência igual a 1n .

EXERCÍCIO RESOLVIDO
1. Suponha que um professor irá sortear uma caixa de chocolates para um entre os 50 alunos de sua
sala. Para tanto, ele anota os nomes completos de cada um dos alunos e os coloca em uma urna para
seleção. Qual seria a probabilidade de um aluno ganhar a caixa?

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Cada um dos alunos tem apenas um papel com seu nome que constará na urna, sendo depositados 50
papéis com todos os nomes. Assim, definindo o evento:

A = {O aluno x ganha a caixa de chocolate no sorteio}.

Temos que P(A) é igual a:


n º de casos favoráveis de A # A 1
P( A ) = = = = 0, 02
n º total de casos # Ω 50
Logo, para qualquer aluno, a probabilidade de ganhar será de 1 em 50 (1/50).

OBS.: O Exercicio também ilustra o caso de resultados equiprováveis, pois, sendo o dado honesto,
cada face terá a mesma probabilidade de ocorrência. Logo, a probabilidade de ocorrência de cada
número do dado é 1 . Outro exemplo seria uma moeda: quando afirmamos que ela é honesta ou não
6
viciada, significa que o lado “cara” tem a mesma probabilidade de ocorrência que o lado “coroa”, ou
seja, cada face tem probabilidade 1 de ocorrência.
2

EXERCÍCIO PROPOSTO
1. Suponha que foi lançado um dado honesto de seis faces, calcule a probabilidade de ocorrência de cada
um dos seguintes eventos:

a) Resultar no número um.

b) Resultar no número quatro.

c) Resultar em um número par.

84 d) Resultar em um número ímpar

Probabilidade condicional

No exercício resolvido 2 da página 81, abordamos um estudo sobre condutores que dirigem com ou sem
efeito de álcool e que já sofreram ou não algum acidente enquanto dirigiam. Calculamos na letra (c) a pro-
babilidade de uma pessoa ter se acidentado enquanto conduzia o veículo. Mas e se já soubéssemos que a
pessoa dirigia sob efeito de álcool? A probabilidade de ela se acidentar mudaria?

Sim! Pois antes, para calcularmos a probabilidade de ela se acidentar, nosso espaço amostral era definido
com as pessoas que estavam ou não sob efeito de álcool. No entanto, agora que sabemos que ela dirige
sob efeito deste tipo de bebida, haverá uma restrição de Ω apenas para elas. Logo, a probabilidade de uma
pessoa se acidentar dado que estava sob o efeito de álcool é:
40
P ( pessoa se acidentar dado que estava alcoolizada ) = = 0,7273
55

De modo geral, quando temos a informação de que um evento ocorreu, esta informação pode ser útil para
calcular a probabilidade da ocorrência de outro evento associado ao mesmo espaço amostral. Isto se cha-
ma Probabilidade Condicional.

DEFINIÇÃO

Sejam A e B, eventos quaisquer, associados a um espaço amostral Ω. Quando se tem a informação de que
B ocorreu (logo, P(B) > 0), a probabilidade de ocorrência de A será calculada considerando-se a condição
de que B já ocorreu. Esta nova informação (de que B ocorreu) equivale a restringir o espaço amostral, que
agora será considerado como o conjunto dos pontos amostrais que formam o evento B. A probabilidade
condicional de A dado que B ocorreu (representada por P(A | B) ) é definida por:

P (A ∩ B )
P ( A |B ) =
P (B )

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

Podíamos ter calculado a probabilidade condicional como:


 40 
P ( A ∩ B )  250  40   250 40
P ( A |B ) = = = ⋅ = = 0, 7273 = 72, 73%
P (B )  55   250   55  55
 
 250

EXERCÍCIO RESOLVIDO
1. Seja um experimento aleatório como o lançamento de dois dados honestos. Qual a probabilidade de
a soma dos dois dados ser igual a seis, sabendo que já se tem a informação de que ao menos um dos
dados resultou no número dois?

Sejam os eventos:

A = {a soma dos dados é seis}

B = {há o número dois em ao menos um dos dados}

O espaço amostral pode ser representado por meio do Diagrama em Árvore:


Banco de imagens/NEaD

Banco de imagens/NEaD

DADO 1 DADO 2
1
2
1 3 85
4
5
6
1
2
2 3
4
5
6
1
2
3 3
4
5
6
1
2
4 3
4
5
6
1
2
5 3
4
5
6
1
2
6 3
4
5
6

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

 (1,1) , (1,2) , (1,3) , (1,4) , (1,5) , (1,6) 


 
 (2,1) , (2,2) , (2,3) , (2,4) , (2,5) , (2,6) 
 (3,1) , (3,2) , (3,3) , (3,4) , (3,5) , (3,6) 
 
Ω =  (4,1) , (4,2) , (4,3) , (4,4) , (4,5) , (4,6)   # Ω = 36
 (5,1) , (5,2) , (5,3) , (5,4) , (5,5) , (5,6) 
 
 (6,1) , (6,2) , (6,3) , (6,4) , (6,5) , (6,6) 
Listar cada um dos dois eventos:
A = { (1,5 ) , ( 2, 4 ) , (3,3 ) , ( 4, 2 ) , (5,1)}
B = { (2,1) , ( 2, 2 ) , ( 2,3 ) , ( 2, 4 ) , ( 2,5 ) , ( 2, 6 ) , (1, 2 ) , ( 3, 2 ) , ( 4, 2) , ( 5, 2) ,(6, 2) }

Também podemos notar que: A ∩ B = { ( 2, 4) , ( 4, 2)}

Daí, temos cinco possibilidades no evento A (#A = 5) e 11 possibilidades no evento B (#B = 11) e ape-
nas duas possibilidades em que A e B ocorrem ao mesmo tempo (# A ∩ B = 2) . Portanto:
 #(A ∩ B )   2
P( A ∩ B )  #Ω    2
 36 =
P (A | B )= = =
P( B )  #B   11 11
   
 #Ω   36

EXERCÍCIO RESOLVIDO

1. Foi realizada uma pesquisa com 150 lutadores de UFC de dois Países (EUA, Brasil). No estudo, foram
levantados quantos lutadores quebraram ou fraturaram algum membro durante uma competição ofi-
86 cial. O quadro a seguir representa as informações:

Estudo sobre a nacionalidade e lesionamento de lutadores de UFC

PAÍS DE ORIGEM
EUA Brasil Total
Não fraturou ou não quebrou membro 23 17 40
Fraturou ou quebrou membro 68 42 110
Total 91 59 150

Calcule a probabilidade de um lutador:

a) Ser dos EUA e já tenha quebrado ou fraturado algum membro em competição oficial;

Sejam os eventos:

A = {O lutador é dos Estados Unidos}

B = {O lutador quebrou ou fraturou algum membro durante uma competição oficial}

A probabilidade pedida é:
P (A∩ B)
P ( A |B ) = =
P (B)

Repare que a intersecção desses eventos se dá pelo número de lutadores dos Estados Unidos que
fraturaram ou quebraram algum membro durante uma competição oficial. Logo, a probabilidade da
intersecção é obtida pelo consciente entre o número de lutadores nessas condições (68) pelo número
total de lutadores (150).

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

Já a probabilidade de um lutador ser dos Estados Unidos se dá pelo número de lutadores dessa nacio-
nalidade (91) dividido pelo número total de lutadores (150). Assim, podemos calcular a probabilidade
condicional como:
 68 
 
150  68   150  68
P ( A |B ) =  =  = = 0, 6182= 61,82%
 110  150   110  110
 
 150

b) Não ter quebrado ou fraturado membro em competição oficial dado que é do Brasil;

Sejam os eventos:

C = {O lutador é do Brasil}

D = {O lutador não quebrou ou fraturou algum membro durante uma competição oficial}

 17 
P ( D ∩ C )  150  17   150  17
P ( D | C) = = =  = = 0, 2881 = 28,81%
P (C )  59   150   59  59
 
 150

REGRA DO PRODUTO

Do cálculo da probabilidade condicional, isolando a probabilidade da intersecção, temos para ambos os


casos:
P (A ∩ B )
P( A | B ) =
P (B )
⇒ P ( A ∩ B )= P( A | B ) ⋅P (B)
87
P(A ∩ B)
P( B | A ) = ⇒ P (A ∩ B) = P( B | A )⋅ P (A)
P (A )

A regra do produto nos dá uma opção de escrever a probabilidade da intersecção de eventos. O Exercicio
ilustra uma aplicação.

EXERCÍCIO RESOLVIDO Urna com as


12 bolas
1. Suponha que são colocadas em uma urna 12 bolas, sendo 8 amarelas e 4
brancas. Duas bolas são retiradas sem reposição. Calcule a probabilidade:
Banco de imagens/NEaD

a) De a 1ª bola ser amarela e a 2ª ser branca

Sejam os eventos:

A1 = {a 1ª bola é amarela}

B2 = {a 2ª bola é branca}
Repare que é solicitada informação sobre a probabilidade de ocorrência simultânea dos dois eventos;
logo, faremos a probabilidade da intersecção de A1 e B2.
8 4
P ( A1 ∩ B2 ) = P ( A1)⋅ P (B 2 | A 1) = ⋅ = 0, 2424 = 24, 24%
12 11

b) De a 1ª e 2ª bolas serem brancas

Seja o evento:

A2 = {a 2ª bola é amarela}

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

8 7
P ( A1 ∩ A2 ) = P ( A1)⋅ P (A2 | A1) = ⋅ = 0, 4242 = 42, 42%
12 11
c) De a 1ª e 2ª bolas serem amarelas

Seja o evento:

B1 = {a 1ª bola é branca}
4 3
P ( B1 ∩ B 2 ) = P ( B 1) ⋅ P (B 2 |B 1) = ⋅ = 0, 0909 = 9, 09%
12 11

d) De a 1ª bola ser branca e a 2ª ser amarela

4 8
P (B1 ∩ A2 ) = P (B 1)⋅ P (A 2 |B 1) = ⋅ = 0, 2424 = 24, 24%
12 11

EXERCÍCIO PROPOSTO
1. Seja o experimento aleatório do Exercício Resolvido 2 da página 81 e sejam os eventos:

A1 = {O condutor dirige sob efeito de álcool}

A2 = {O condutor não dirige sob efeito de álcool}

B1 = {O condutor já se acidentou enquanto dirigia}

B2 = {O condutor nunca se acidentou enquanto dirigia}

88 Calcule as probabilidades:

a) P(A1 | B1)

b) P(A1 | B2)

c) P(A2 | B1)

d) P(B1 | A2)

e) P(B2 | A1)

f) P(B2 | A2)

2. Suponha que são colocadas em uma urna 20 bolas, sendo 12 azuis, 3 brancas e 5 vermelhas. Três bolas
são retiradas sem reposição. Calcule a probabilidade de:
a) As três bolas serem azuis;
b) As três bolas serem brancas;
c) As três bolas serem vermelhas;
d) A 1º bola ser vermelha e as demais serem brancas;
e) A 1º bola ser branca e as demais serem azuis;

f) A 1º ser branca, a 2º vermelha e a 3º ser azul.

Independência estatística

Um evento A é considerado independente de um evento B, se a probabilidade de A é igual à probabilidade


condicional de A dado B, isto é:
P ( A ) = P (A |B )
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

Naturalmente, se A é independente de B, B é também independente de A. Desta forma:


P ( B) = P ( B | A )
Quando dois eventos A e B são independentes, a informação de que um desses eventos ocorreu não vai
alterar a probabilidade de ocorrência do outro. Sob a hipótese de independência, a partir da regra do pro-
duto, podemos reescrever a probabilidade da intersecção de dois eventos como:

P ( A ∩ B ) = P ( A) ⋅ P ( B | A) ⇒ P ( A ∩ B ) = P ( A) ⋅ P ( B )
sob
independência

P ( A ∩ B) = P ( B) ⋅ P ( A | B) ⇒ P ( A ∩ B ) = P ( A) ⋅ P ( B )
sob
independência

OBS.: Esta regra pode ser estendida para n eventos. Por exemplo, sejam cinco eventos quaisquer do mes-
mo espaço amostral (A, B, C, D, E). A probabilidade da intersecção desses eventos, sob a hipótese de inde-
pendência, é dada por:
P( A∩ B ∩C ∩ D ∩ E) = P ( A) ⋅ P ( B ) ⋅ P (C ) ⋅ P ( D ) ⋅ P ( E )
sob
independência

SAIBA MAIS
A independência estatística pode ser gerada da forma como se é retirada uma amostra. Se anali-
sarmos o processo de amostragem como um evento, eles podem ocorrer um após o outro ou ao
mesmo tempo. Veremos a definição desses tipos de eventos:

EVENTOS SUCESSIVOS: São os que ocorrem um após o outro. Por exemplo, para o 2º evento
ocorrer, é necessário que o 1º já tenha ocorrido.

EVENTOS SIMULTÂNEOS: São aqueles que ocorrem ao mesmo tempo. 89


Por exemplo, suponha que temos uma urna com 10 bolas de cores diferentes e desejamos retirar
três. Podemos, por exemplo, retirar as três bolas da urna de duas maneiras distintas:

A 1º maneira seria retirar uma bola, depois a 2º e por fim, retirar a 3º bola. Se caracterizando um
exemplo de Eventos Sucessivos.

A 2º maneira seria retirar as três bolas ao mesmo tempo, ou simultaneamente. Já esse exemplo
se caracteriza de Eventos simultâneos.

EXERCÍCIO RESOLVIDO
1. Considere A e B dois eventos quaisquer de um experimento aleatório. Se P(A)=0,2; P ( A ∪ B ) = 0,8
e P(B)=x. Qual é o valor de x para que A e B sejam:

a) Mutuamente exclusivos?

Sabemos que P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B )

Para que A e B sejam mutuamente exclusivos, então A ∩ B = ∅ e, consequentemente, P ( A ∩ B) = 0.


Logo, substituindo na probabilidade da união, temos:

P ( A ∪ B ) = P ( A ) + P (B ) − P (A ∩ B )
0,8 = 0, 2 + x − 0
x = 0,8 − 0, 2
x = 0, 6 ⇒ P ( B ) = 0, 6

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

b) Independentes?

Se A e B são independentes, então P ( A ∩ B ) = P ( A ) P (B ) . Logo, substituindo a probabilidade da


intersecção na fórmula da probabilidade da união, temos:

P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ∩ B)
sob independência
= P ( A ) + P ( B ) − P (A ) P ( B )
Substituindo a probabilidade da união e a probabilidade do evento A, temos:
P ( A ∪ B ) = P ( A ) + P ( B ) − P ( A ) P (B )
0,8 = 0, 2 + x − 0, 2x
x − 0, 2 x = 0,8 − 0, 2
0,8x = 0, 6
0, 6
x= = 0, 75 ⇒ P ( B ) = 0, 75
0,8

2. No Exercício resolvido da página 87, retiramos duas bolas de uma urna com 8 bolas amarelas e 4 bolas
brancas, sem reposição. No entanto, o que ocorreria se o sorteio fosse agora com reposição, em outras
palavras, com a 1ª bola voltando à urna antes de a 2ª bola ser retirada, de modo que seria possível a
mesma bola ser selecionada duas vezes? Sendo assim, calcule a probabilidade:

a) De a 1ª bola ser branca.

4
P ( B1 ) = = 0,3333= 33,33%
12

90 b) De a 2ª bola ser amarela dado que a 1ª é branca. Os eventos são independentes? Justifique.

Repare que pelo fato de a seleção ser com reposição, não importa qual bola foi selecionada no 1º sor-
teio, tendo em vista que ela voltará para a urna antes da 2ª seleção. Assim, a probabilidade de a 2ª bola
ser amarela independe do resultado da 1ª bola. Logo:
8
P ( A2 | B1 ) = P ( A 2 ) = = 0, 6667 = 66, 67%
12
Podemos afirmar que os eventos são independentes, de vez que P ( A 2 |B1 ) = P ( A 2 ) e que P ( B1 | A2 ) = P ( B 1)

c) De a 1ª ser amarela e a 2ª bola ser branca.

8 4
P ( A1 ∩ B2 ) =
sob
P ( A1) ⋅ P ( B 2 ) = ⋅ = 0, 2222 = 22, 22%
independência
12 12

d) De ambas as bolas serem brancas.

4 4
P ( B1 ∩ B 2 ) =
sob
P ( B 1 ) ⋅ P (B 2 ) = ⋅ = 0,1111 = 11,11%
independência 12 12

e) De ambas as bolas serem amarelas.

8 8
P ( A1 ∩ A2 ) = P ( A1)⋅ P (A 2 ) = ⋅ = 0, 4444 = 44, 44%
sob
independência
12 12

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

3. A probabilidade de um atleta de ginástica olímpica ter alguma contusão ou sofrer algum acidente du-
rante o treinamento é de 0,1. Já a probabilidade de este atleta ser do sexo masculino é 0,7. Um atleta
é sorteado. Suponha que a chance de contusão durante o treinamento independe do sexo. Calcule a
probabilidade de o atleta:

a) Sofrer uma contusão durante o treinamento e ser do sexo feminino.

Sejam os eventos:

A = {O atleta sofre uma contusão durante o treinamento}


A = {O atleta não sofre uma contusão durante o treinamento}

B = {O atleta é do sexo masculino}


B = {O atleta é do sexo feminino}

P ( B ) = 1− P ( B ) = 1− 0, 7 = 0,3
P ( A ∩ B) =sob
P ( A) ⋅ P ( B ) = 0,1 ⋅0,3 = 0, 03 = 3%
independência

b) Não sofrer uma contusão durante o treinamento e ser do sexo masculino;

P ( A ) = 1− P ( A ) = 1− 0,1 = 0,9
P ( A ∩ B) = P ( A) ⋅ P ( B ) = 0,9 ⋅ 0, 7 = 0, 63 = 63%
sob
independência

EXERCÍCIO PROPOSTO 91
1. Se a probabilidade de um indivíduo ter sangue Rh- é de 0,15. Calcule a possibilidade de cinco indi-
víduos que se apresentaram para o exame de sangue terem sangue Rh+. Suponha independência.

2. A probabilidade de um aluno da UFERSA estar com mais de 30 anos de idade é de 0,27. A probabi-
lidade de ele estar cursando Engenharia é de 0,63. Supondo que o curso que o aluno faz independe
de sua idade, sorteando um aluno da instituição, calcule a probabilidade de ele:

a) Ser de Engenharia e ter menos de 30 anos.

b) Ter mais de 30 anos e não ser de Engenharia.

c) Ser de Engenharia e ter mais de 30 anos.

d) Ter menos de 30 anos e não ser da Engenharia.

3. A probabilidade de um espécime de laboratório não resistir a certo procedimento cirúrgico expe-


rimental é de 0,25. É realizado esse procedimento experimental em quatro espécimes. Supondo
que os resultados dos procedimentos são independentes. Qual a probabilidade dos espécimes não
resistirem nos dois primeiros experimentos, e nos dois últimos resistirem?

Variável aleatória unidimensional


UN 02

Ao descrever um espaço amostral de um experimento aleatório, não especificamos que um resultado indi-
vidual necessariamente seja um número. Por exemplo, ao descrever o resultado de inspeção de um produ-
to eletrônico, podemos classificá-lo como “produto defeituoso” ou “produto não defeituoso”. No entanto,
em muitas situações experimentais, estamos interessados na mensuração numérica e, consequentemente,
não trabalhando com eventos. Como no exemplo do produto eletrônico, poderemos atribuir um número a
cada resultado (não numérico) do experimento, sendo o número 1 (um) para as peças perfeitas e o núme-
ro 0 (zero) para as com defeito. Será definida uma variável X que vai assumir um número real. Esta variável
é chamada variável aleatória (v.a.), e a denotamos sempre por letra maiúscula (X, Y, Z, etc...).
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

DEFINIÇÃO E TIPOS DE V.A.

Seja Ω o espaço amostral de um experimento aleatório ξ. Uma variável aleatória (v.a.) é uma função X que
associa cada elemento ω ∈ Ω um número real X ( ω ) , ou seja, seu domínio é Ω e o contradomínio é Rx .

Ω Rx

ω X
v.a X (ω)

Perceba que uma variável aleatória é uma função que associa valores reais aos eventos de um espaço
amostral, e que pode ser discreta ou contínua. Assim, uma v.a. é tida como discreta quando o número
de valores possíveis de X (contradomínio) for enumerável (finito ou infinito), ou seja, só assume valores
inteiros. Já uma v.a. é tida como contínua quando seu contradomínio é um intervalo ou uma coleção de
intervalos pertencentes aos números reais.

Temos como exemplos de v.a. Discretas:

• Número de pessoas que contraíram Dengue em certo mês em Mossoró;

• Ocorrência ou não de tendinite em 50 pescadores;

92 • Quantidade de carros com IPVA atrasado neste ano em Natal;

• Número de animais de certo bairro com vacina anti-raiva em atraso;

• Sexo de 10 crianças internadas numa pediatria.

Temos como exemplos de v.a. Contínuas:

• Peso (kg) que um elevador comporta com segurança;

• Tempo (anos) até um computador apresentar algum problema;

• Notas de uma turma de matemática;

• Quilometragem percorrida com 1 litro de gasolina de 40 carros com motor 1.6 de 16 válvulas e 130
cavalos;

• Quantidade (ml) de água suficiente para encher 500 caixas d’água de um bairro que está com falta de
água.

É muito importante definir com exatidão a variável aleatória, de vez que será a partir dela que calculare-
mos probabilidades, bem como os modelos probabilísticos que veremos adiante são descritos de acordo
com o tipo de v.a. trabalhada, ou seja, se a v.a. for discreta (modelos da página 101 a 110), utilizaremos um
modelo probabilístico discreto; em caso contrário, utilizaremos um modelo contínuo (modelos da página
111 a 126). A seguir, veremos os tipos de distribuição que serão utilizados de acordo com a natureza da v.a.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

Função de probabilidades

A função de probabilidades é utilizada apenas para uma v.a. discreta, e é representada por P(X = xi) ou
simplesmente f(xi).

Utilizamos a função de probabilidades para representar, por exemplo, a probabilidade do número de caras
ou coroas em n lançamentos, número de alunos em uma escola em certo horário, número de arranhões na
porta de um automóvel, número de crianças com sarampo em um hospital, número de questões que foram
respondidas de forma correta numa prova de concurso, etc.

É uma função (também representada por uma tabela) que associa uma probabilidade P(X = xi) a cada va-
lor que uma v.a. X assume, devendo satisfazer as seguintes condições:

1. f ( x) ≥ 0

2. ∑ f ( x)=1
x

Isto significa que vemos que em (1) cada probabilidade associada a cada valor da v.a. X deve ser maior ou
igual a zero. Temos também que em (2) a soma de todas as probabilidades de X deve ser igual a um, res-
peitando, assim, os axiomas de probabilidade. Vejamos um exemplo.

EXERCÍCIO RESOLVIDO

1. Sejam dois lançamentos de uma moeda honesta. Seja a variável ale-


atória X definida como o número de coroas nos dois lançamentos.
Calcule a função de probabilidades de X e justifique se é uma função
de probabilidades.
93
Seja C = coroa e K = cara, temos:

O espaço amostral desse experimento é: Ω = { CC, KK, CK , KC }

Os valores que a v.a. X pode assumir são: Rx = { 0,1, 2 }

Ou seja, nos dois lançamentos não haverá nenhuma coroa (consequentemente, duas caras) ou ape-
nas uma (consequentemente, uma cara) ou em ambos os arremessos resultaram em coroa (nenhuma
cara).

A função de probabilidade será atribuir uma probabilidade para cada valor de X (0, 1 e 2). O quadro a
seguir ilustra as respectivas probabilidades para cada valor de X:
Função de probabilidades

x 0 1 2
f(x) 1/4 2/4 1/4
Total 20 50
Assim, repare que dos quatro resultados possíveis do espaço amostral ( Ω ={CC, KK , CK, KC }), somen-
te em um deles (dentre as quatro possibilidades) consta nenhuma coroa (CC). Logo, a probabilidade
deste evento é ¼, analogamente ao caso de duas coroas (KK), no qual também só consta um resultado
em Ω e, por isso, também ¼. Todavia, para o caso em que consta apenas uma coroa, há duas possibili-
dades dentre as quatro (CK, KC). Logo, a probabilidade de este evento ocorrer é 2 4 .

Conferindo se essa função de probabilidades satisfaz as duas condições, temos:

1) É possível observar que cada uma das probabilidades (f(x)) é maior do que zero, logo:
f (x i ) ≥ 0, ∀ xi∈ Rx .

2) Ao somarmos todas as probabilidades, nota-se que resulta no valor um ( 1 4 + 2 4 + 1


4 = 4 = 1 ),
4

logo: ∑ f (x) = 1.
x
Assim, como foram satisfeitas as duas condições, esta é uma legítima função de probabilidades.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

No exercício resolvido da página 93, vimos uma


função de probabilidade para uma variável aletória
discreta. Mas se v.a. for contínua poderemos

Banco de imagens/NEaD
utilizar uma função de probabilidades?
Banco de imagens/NEaD

Sim. No entanto, será uma função de


probabilidade para uma v.a. contínua, chamada
Função densidade de probabilidade!

Função densidade de probabilidade

A função densidade de probabilidade (f.d.p.) é utilizada apenas para uma variável aleatória contínua, de
vez que não faz sentido atribuirmos uma probabilidade para cada valor de X, pois a variável em questão
não apresenta valores discretos, mas um intervalo ou uma coleção de intervalos de números reais. Logo, a
probabilidade de X assumir um determinado valor é zero (exclusivamente quando X é contínua).

Utilizamos a função densidade de probabilidade para representar probabilidades do caso contínuo, como
o peso de pessoas em um elevador, o comprimento em centímetros de vigas utilizadas na construção civil,
a pressão sistólica de pessoas com mais de 50 anos, o peso (kg) de bebês ao nascer, o tempo (anos) até
94 uma lâmpada falhar, o tempo (horas) que o gerador de energia suporta o fornecimento de luz para uma
fábrica, etc.

Para o caso contínuo, vamos trabalhar com a definição de X estar entre dois valores, ou seja, de X estar em
determinado intervalo pertencente aos números reais. Assim, a função densidade de probabilidade de X
estar entre dois valores a e b (sendo a < b e a, b ∈ Rx ) é definida por:
b
P (a < X < b )= ∫ f (x )dx
a

Como estamos calculando a probabilidade de X estar entre dois pontos, precisamos encontrar a probabi-
lidade da área deste intervalo, como é representado na figura 1:

Figura 1 - Probabilidade da v.a. X estar entre os valores de a e b.

a b

Assim, para ser uma função densidade de probabilidade, como no caso discreto, ela deve satisfazer duas
condições:
1. f ( x) ≥ 0 ∀ x ∈ Rx
+∞

2. ∫ f ( x)dx = 1
−∞

3. ∫ f ( x)dx = P ( a ≤ x ≤ b) , b >a
a

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

Vemos que em (1) é tratado o fato de que cada probabilidade de X está em um dado intervalo, por isso deve
ser maior ou igual a zero e que em (2), a integral de toda a área do espaço amostral deve ser igual a um.

SAIBA MAIS
No caso de a v.a. ser contínua, a probabilidade de X assumir um valor “a” é zero, pois:
a

P ( X = a ) = ∫ f (x ) dx = 0
a

Assim, as probabilidades abaixo serão todas iguais, se X for uma v.a. contínua:
P ( a < X < b ) = P (a ≤ X ≤ b) = P ( a ≤ X < b) = P ( a < X ≤ b)

EXERCÍCIO RESOLVIDO
1. Seja X uma v.a. contínua com a seguinte função densidade de probabilidade:

 x ,∀ 0 ≤ x ≤ 1

f ( x) =  2 − x ,∀ 1 < x ≤ 2
 0 , caso contrário

Justifique se é uma legítima função densidade de probabilidade.

Devemos constatar que a integral de toda a área é igual a um. Logo, integrando de -∞ a +∞, temos:
+∞

∫ f (x) dx =
−∞ 95
Particionando a integral em três partes, separando a integral da parte negativa, de 0 a 2, e a integral
com x > 2, repare que pela função densidade, 1º e 3º integrais são iguais a zero:
0 2 +∞

∫ f(x)
−∞
dx +∫ f (x) dx +∫ 
0
f (x)
 dx =
2
zero zero

Particionando a integral de 0 a 2 para (0 a 1) e (1 a 2), temos:


2 1 2

∫ f ( x)dx = ∫ f ( x)dx + ∫ f ( x)dx


0 0 1

Resolvendo a 1º parte da integral:


1 1 1
x2  12   02  1
∫ f ( x)dx = ∫x dx= 2 =  2  −  2  = 2 = 0,5.
0 0 0    
Resolvendo a 2º parte da integral:
2
2 2
2 x2  22   12  
∫ f ( x)dx = ∫(2 − x) dx =2 x 1 - = (2 ⋅ 2) - ( 2⋅ 1) -   -    =
1 1
21  2   2  
 4   1  
= [ 4 − 2 ] −   −    = [4 − 2 ] − [ 2 − 0,5] = [ 2] − [ 1,5] = 0,5.
 2   2  

Assim, somando o resultado das duas integrais, temos que:

+∞ 1 2

∫ f ( x) dx=∫ f( x)dx +∫ f (x ) dx = 0,5 + 0,5 = 1.


−∞ 0 1

Logo, a 2ª condição foi satisfeita. No caso da 1º condição, é possível constatar que para qualquer valor
de X, f (x) ≥0 .

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Função de distribuição acumulada

A função de distribuição acumulada de uma v.a. X é definida por:

F ( x) = P ( X ≤ x ) , ∀ x ∈ Rx
É uma função de probabilidade que irá acumular as probabilidades em ordem crescente (no caso discreto)
e a área de -∞ até o ponto a (no caso contínuo).

a) Se X é uma v.a. discreta, sua função de distribuição acumulada é dada por:

F (x ) = ∑ P (X = x ) , ∀ x ∈ Rx
xi ≤ x

EXERCÍCIO RESOLVIDO
1. Seja X uma v.a. discreta que tenha a seguinte distribuição de probabilidades:

Função de probabildiades

x 0 1 2 3 4 5
p(Xi) 0,05 0,10 0,20 0,35 0,20 0,10

96 Calcule a Função de Probabilidade Acumulada para X.

É fácil verificar que f


( x i) ≥ 0, ∀ x i ∈ Rx e que ∑ f (x ) = 1. Assim, temos como função de probabilidade
acumulada: x

F ( 0) = P ( X ≤ 0) = P (X = 0) = 0, 05

F (1) = P ( X ≤ 1) = P (X = 0) + P ( X = 1) = 0, 05 + 0,1 = 0,15

F ( 2) = P ( X ≤ 2) = P ( X = 0) + P ( X =1 ) + P (X = 2 ) =
= 0,15 + 0, 2 = 0,35

F ( 3) = P ( X ≤ 3) =
= P ( X = 0 ) + P ( X = 1) + P (X = 2) + P (X = 3) =
= 0,35 + 0,35 = 0, 7

F ( 4) = P ( X ≤ 4) =
= P ( X = 0 ) + P ( X = 1) + P ( X = 2) + P (X = 3) + P ( X = 4) =
= 0, 7+ 0, 2 = 0,9

F ( 5) = P ( X ≤ 5) =
= P ( X = 0) + P ( X = 1) + P (X = 2) + P ( X = 3) + P ( X = 4) + P ( X = 5) =
= 0,9 + 0,1 = 1

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

Assim, podemos escrever esses resultados como:


 0 ,se X < 0
 0, 05 ,se 0 ≤ X < 1

 0,15 ,se 1≤ X < 2

F ( X ) = 0,35 ,se 2 ≤ X < 3
0, 70 ,se 3≤ X < 4

0,90 ,se 4 ≤ X < 5

 1 ,se X ≥ 5

EXERCÍCIO RESOLVIDO

1. Calcule a função de probabilidade acumulada para o exercício resolvido da página 93. Sendo X uma v.a.
discreta representando o número de coroas em dois lançamentos de uma moeda honesta.

Função de probabilidades
Total 50
x 0 1 2
f(x) 1/4 2/4 1/4

Calcule a Função de Probabilidade Acumulada para todos os valores de X.

1
F (0) = P (X ≤ 0) = P (X = 0) =
4
97
1 2 3
F (1) = P ( X ≤ 1) = P (X = 0) + P (X = 1)= + =
4 4 4

3 1 4
F ( 2) = P (X ≤ 2) = P (X = 0 )+P ( X = 1)+ P ( X = 2)= + = =1
4 4 4
Podemos observar que F(0) representa o resultado "no máximo zero coroas”, ou seja, todos os lança-
mentos resultaram em cara. Já F(1) representa "até uma coroa", ou seja, podemos ter como resultado
nenhuma coroa (duas caras) ou uma coroa (e a outra seria cara ou vice-versa). F(2) significa o resulta-
do de "no máximo duas coroas", sendo admitidos os resultados: zero coroa, uma coroa e duas coroas.
Assim, podemos escrever estes resultados como:

 0 ,se X < 0
 1 ,se 0 ≤ X <1
 4
(
F X ) =  3
 4 ,se 1 ≤ X < 2
 1 ,se X ≥ 2

b) Se X é uma v.a. contínua, sua função de distribuição acumulada é dada por:


x
F (x ) = P (X ≤ x ) = P (−∞ <X ≤ x ) = ∫ f (x )dx , ∀ x∈ Rx
−∞

Encontre a função de distribuição acumulada da v.a. X a partir da função densidade de probabilidade:


 0 , x <0

 ( − x)
f ( x) =  2 2 , se 0 ≤ x ≤ 1
 3
 0 , x >1

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Para encontrarmos a função acumulada a partir da função densidade, vamos definir o valor “k” como
o limite superior que a v.a. x pode assumir. Logo, temos:
k

F ( X ) = P ( X ≤ k) = ∫ f ( x) dx =
−∞
0 k
= ∫ f ( x)dx + ∫ f ( x) dx =

−∞
 0
zero

Particionando a integral em parte negativa e parte positiva, temos que a parte negativa é zero (pois
pela função densidade, f(x)=0 se x<0). Logo, resolvendo a integral de x com o limite inferior zero e o
superior k, temos:

 2(2 − x) 
k k

∫ f ( x ) dx =∫ 
0 0
3 
 dx =
k
2 x2  2 k2  4k k2
=  2 x −  =  2k −  = −
3 2  0 3 2 3 3

Substituindo “k” por “x”, temos que a função de distribuição acumulada para X é dada por:

 0 , x<0

 4x x 2
F ( x) =  − , se 0 ≤ x ≤ 1
 3 3
 1 , x >1
98
SAIBA MAIS
Seja X uma v.a. contínua e sejam a e b valores pertencentes aos reais, tal que a < b, temos
que:

P(a < X < b) = F(B) – F(A)

ESPERANÇA E VARIÂNCIA

Da mesma forma que estudamos medidas de posição e dispersão no Capítulo I, veremos também uma
medida de posição (esperança) e dispersão (variância) de uma variável aleatória para estudar seu com-
portamento, tanto para o caso discreto quanto para o caso contínuo.

ESPERANÇA MATEMÁTICA

A esperança (também conhecida como Valor esperado, média ou expectância, sendo representada por μ)
de uma variável aleatória é usada para a caracterização do seu centro de distribuição. Caso realizássemos
mais de um experimento aleatório, a esperança seria o valor da média aritmética resultante destes expe-
rimentos. A esperança matemática de uma v.a. X é dada por:

a) Se X for discreta:
µ = E( X ) = ∑x iP (x i )
i

b) Se X for contínua:
+∞
µ = E( X ) = ∫ x ⋅ f ( x)dx
−∞

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

VARIÂNCIA

De modo semelhante ao capítulo I, podemos mensurar a variabilidade de uma variável aleatória por meio
da variância (representada por σ2), que é dada por:

a) Se X for discreta: Var( X ) = ∑ (x i− µ ) 2⋅ P (x i )


i

+∞

∫(x − µ ) ⋅ f (x ) dx
2
b) Se X for contínua: Var( X ) = i
−∞

SAIBA MAIS
A definição da variância pode ser reescrita de outra forma, sendo ela:

Var ( X ) = E ( X 2 ) − [ E ( X ) ]
2

+∞
onde E(X2) é calculada por ∑ xi P (x i), se X for discreta. E ∫x
2
⋅ f ( x) dx , se X for contínua.
2

i
−∞

EXERCÍCIO RESOLVIDO
1. Seja o experimento aleatório do exercício resolvido da página 96 o lançamento de dois dados hones-
tos. E seja X definido como a diferença em módulo dos resultados. Assim, a função de probabilidades
de X é dada por:
Função de probabilidades 99
X 0 1 2 3 4 5
P(Xi) 6/36 10/36 8/36 6/36 4/36 2/36

Calcule a esperança e variância de X.

Vemos nesse exemplo que estamos trabalhando com uma v.a. discreta, de vez que X assume o resul-
tado da diferença das faces dos dados em módulo. Sendo o menor resultado 0 e 5 o maior resultado.
Logo, calculando a esperança de X, temos:

µ = E( X ) = ∑ xi P (xi )
i

 6  10   8   6   4   2 
= 0   +1   + 2   + 3   + 4   + 5 
36   36   36   36   36  36 
0 + 10 +16 + 18 +16 + 10 70
= = ≈1,94
36 36
Para calcular a variância de X, precisamos calcular E2. Logo:

E( X 2) = ∑ xi2P (xi )
i

6   10   8 6  4  2 
= 0 2   +12   + 22   + 32   + 42   + 52 
 33   36   36   36  36  36 
0 +10 + 32+ 54 + 64 + 50 210
= = ≈ 5,83
36 36

Calculando a variância de X, temos:

2 2 2
Var ( X) = E( X) − [ E( X ) ] = 5,83 − (1,94) = 2,0664

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

EXERCÍCIO RESOLVIDO
1. Seja X uma v.a. contínua com função densidade de probabilidade definida por:

0 , x < 0
x

 , 0≤ x≤2
2
0 , x > 2

Calcule a esperança e variância de X.

Calculando a esperança, temos:

+∞
µ = E( X ) = ∫ x ⋅ f ( x) dx =
−∞

Iremos particionar a integral nas áreas apresentadas pela função densidade de probabilidade:

0 2 +∞
= ∫ x ⋅ f ( x) dx + ∫0 x ⋅ f ( x) dx + ∫2 x ⋅ f ( x) dx

−∞
    
zero zero

Repare que o 1º e o 3º termo são iguais a zero, pois pela função densidade, x assume zero quando ele
é negativo e quando é maior que dois. Logo, basta resolver a integral do centro, logo:

2 2
x x3  23   03  8 8
100 = 0+ ∫ x⋅
0
2
dx + 0 =
6 0
=  −  = −0 =
 6  6 6 6

Assim, esperança da v.a. X é igual a 8/6.

Para calcular a variância de X, vamos utilizar a forma:

2
Var ( X ) = E( X ) − [ E( X )]
2

Temos que E(X) = 8/6. No entanto, precisamos calcular o termo E2. Logo, temos:
+∞

∫x
2
E( X ) = ⋅ f ( x) dx =
−∞

Particionar a integral nas três áreas apresentadas pela função densidade de probabilidade:
0 2 +∞

∫ x ⋅ f ( x) dx + ∫0 x ⋅ f ( x) dx + ∫2 x ⋅ f ( x) dx
2 2 2
=

−∞
  
zero zero

Repare que o 1º e o 3º termo é igual a zero, pois pela função densidade, x assume zero quando ele é
negativo e quando é maior que dois. Logo, basta resolver a integral do centro, logo:
2 2
x x4  24   04  16 16
= 0 + ∫x2 ⋅ dx + 0 = =   −  = − 0 = = 2
0
2 8 0
8
    8 8 8

Agora que sabemos quanto é E(X) e E(X2), podemos calcular a variância da v.a., assim, temos que:
Var ( X) = E( X 2) − [ E ( X )] 2
2
8  64 16 2 2
= 2 −   ⇒ 2− = 2− ⇒ Var( X )=
6  36 9 9 9

Logo, a variância da v.a. X é 2/9.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

Principais modelos probabilísticos discretos


UN 02

Em muitos problemas teóricos e aplicados, surgem determinadas funções de probabilidade com tamanha
frequência que merecem ser estudadas. Neste tópico, estudaremos os principais modelos de probabilida-
de discretos, ou seja, a variável aleatória de cada um desses modelos é enumerável.

Ensaios de Bernoulli

Um ensaio de Bernoulli é um experimento aleatório cujo resultado é classificado em duas categorias, cha-
madas de “sucesso” e “fracasso”, ou seja, o espaço amostral só apresenta duas possibilidades.

No entanto, precisamos definir uma variável aleatória de forma que assuma um resultado numérico, e
não os eventos "sucesso" e "fracasso". Sendo assim, em um ensaio de Bernoulli, associamos o valor 1 (com
probabilidade P ) à ocorrência de sucesso e o valor 0 (com probabilidade 1 – P ) à ocorrência de fracasso.
A soma das probabilidades de sucesso e fracasso resulta no valor um:
P (Sucesso) + P (Fracasso) = (p) + (1 - p) = 1
É importante salientar que quem irá definir o sucesso será o pesquisador ou a pessoa interessada em
estimar a probabilidade de um resultado particular desse tipo de experimento. Sucesso não necessaria-
mente deve ser algo bom, mas aquilo cuja probabilidade de ocorrência o pesquisador está interessado em
estimar.

Veja, por exemplo, um engenheiro químico que definiu uma nova substância utilizada em injeções letais
101
aplicadas em pena de morte no estado de Arizona (EUA). Para o engenheiro testar esta substância, deve
aplicar em animais e aguardar se a substância vai fazer efeito (no caso, o óbito do animal). Assim, o sucesso
para este ensaio de Bernoulli (considerando que o experimento aleatório apresenta apenas dois resulta-
dos: animal morre ou não morre) é o óbito do animal, o que não é algo bom, mas é o resultado de interesse
do pesquisador. Veremos a seguir os exemplos, ilustrando ensaios de Bernoulli.
EXEMPLOS

1. Um pesquisador está desenvolvendo uma nova vacina contra um novo tipo de doença. Seu ensaio de
Bernoulli é testar esta droga em animais e aguardar se fará efeito. Para este caso, o sucesso será a
vacina fazer efeito (com probabilidade p), já o fracasso será não fazer efeito (com probabilidade 1-p).

2. Em um programa de calouros, o apresentador dá a opção para o candidato escolher uma entre duas
portas fechadas. Apenas uma delas contém um prêmio em dinheiro. O ensaio de Bernoulli será o can-
didato escolher a porta e, após o resultado, conferir se escolheu a correta (sucesso com probabilidade
p) ou a errada (fracasso com probabilidade 1-p).

3. Um fiscal irá inspecionar uma caixa de mouses para computadores. Para tanto, ele sorteia um mouse e
analisa se seu funcionamento é correto (sucesso) ou apresenta algum defeito (fracasso).

Ok! Até agora nós vimos vários exemplos


de Ensaios de Bernoulli. No entanto, para
cada situação, o experimento era realizado
apenas uma vez. Mas e se realizássemos
mais um ensaio de Bernoulli? Continuaria
Banco de imagens/NEaD

sendo uma distribuição de probabilidade


de Bernoulli?
Banco de imagens/NEaD

Não. Será outra distribuição. Mas nós só


veremos isto na próxima seção!

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Distribuição Binomial

Quando realizamos mais de um ensaio de Bernoulli com um independente do outro, temos uma nova dis-
tribuição de probabilidade. Esta distribuição será a Distribuição Binomial.

Consideremos n ensaios de Bernoulli independentes. Cada tentativa admite apenas dois resultados: Su-
cesso (p) e fracasso (1-p). Como a soma das probabilidades (sucesso e fracasso) é igual a 1 e se admitirmos
que tais probabilidades (sucesso e fracasso) são as mesmas para cada tentativa, ou seja, p é constante para
todo ensaio de Bernoulli.

Seja X a v.a. que representa a probabilidade de k sucessos nas n tentativas independentes. A função de
probabilidade da variável X, isto é: P(X = k), é definida por:

 n n−k
P ( X = k ) =   p k (1 − p ) , k = 0,1, 2, L, n
 k
onde:
 n n!
 = (
 k  n − k ) ! k!
k = Número de sucessos (variando de 0 até n);

p = Probabilidade de sucesso em cada repetição;

1-p = Probabilidade de fracasso em cada repetição;

102 n = Número de ensaios de Bernoulli independentes.

SAIBA MAIS
 n
Repare que a combinação   representa o número de subgrupos de tamanho k que podem ser
k
formados de um grupo de tamanho n. Por exemplo, suponha um grupo definido pelas letras A, B,
C, D, E. Quantos subgrupos de tamanho 3 podemos formar? Os trios são formados logo abaixo

Grupo 1 = ABC Grupo 2 = ABD Grupo 3 = ABE

Grupo 4 = ACD Grupo 5 = ACE Grupo 6 = ADE

Grupo 7 = BCD Grupo 8 = BCE Grupo 9 = BDE

Grupo 10 = CDE

Assim, vemos que para um grupo de 10 elementos distintos, podemos formar 10 subgrupos com
3 elementos distintos. Agora, sempre precisaremos listar os subgrupos? Não, esse número pode-
O símbolo ~ significa rá ser encontrado calculando a cominação de n em k. Vamos ver como será o cálculo?
“tem distribuição”. n!
 n  5 5! 5! 5 ⋅4 ⋅ 3! 5 ⋅ 4 20
Assim, quando  = ⇒  = = = = = = 10
escrevemos X ~  k  ( n − k ) ! k !  3 (5 − 3)!3! 2!3! 2! 3! 2⋅1 2
Binomial (n, p),
significa: X tem
distribuição binomial A v.a. X tem distribuição Binomial, com parâmetros n e p. Indicaremos os parâmetros e a distribuição da
com parâmetros v.a. pela notação:
“n” e “p” X ~ Binomial (n, p).

Por exemplo, suponha o ensaio de Bernoulli em que consiste em coletar uma amostra de água de certa
região. Será analisado se a água é própria para o consumo humano. Caso sejam coletadas 20 amostras de
água em diferentes regiões e que a probabilidade de uma amostra não ser própria para o consumo huma-

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

no é de 15%, podemos definir a v.a. X como o número de amostras impróprias para consumo humano nas
20 coletas analisadas. Logo, podemos dizer que:

X ~ Binomial (20; 0,15).

ESPERANÇA E VARIÂNCIA

Estudamos na página 98 sobre a esperança matemática e variância de uma variável aleatória. Da mesma
forma, veremos essa medida de posição e dispersão para os modelos probabilísticos apresentados.

Seja X uma v.a. com distribuição binominal de parâmetros n e p, a esperança e a variância deste modelo
são respectivamente:

E (X ) = n ⋅ p Var( X ) = n ⋅ p ⋅ (1 − p )

O valor esperado de sucessos na distribuição binomial é facilmente encontrado. Intuitivamente, analise as


duas perguntas a seguir:

a) Se lançarmos uma moeda honesta 100 vezes, qual o número esperado de caras?

b) Se lançarmos um dado honesto 600 vezes, qual o número esperado de faces “3”?

Solução:

a) X ~ Binomial (100; 1/2)  E(X)= np = 100∙0,5 = 50.

Assim, se lançarmos uma moeda 100 vezes, esperamos que ocorram 50 caras.

b) X ~ Binomail (600; 1/6)  E(X)= np = 600∙(1/6) = 100.

Assim, se lançarmos um dado 600 vezes, esperamos que o número “3” ocorra 100 vezes.
103
EXERCÍCIO RESOLVIDO
1. Suponha que a probabilidade de qualquer chip de celular ser produzido com defeito
é 0,2. Se 10 chips produzidos são selecionados ao acaso (por sorteio), supondo que a
chance de um chip ser defeituoso independe de outro ter defeito, calcule a probabili-
dade:

a) De não haver chip com defeito.

Seja a v.a. X definida como o número de chips com defeito dentre os 10 analisados. Temos que X ~
Binomial (10; 0,2). Logo:
n  k n −k
P ( X = 0 ) =   p ( 1 − p)
k
 
 10 0 10 − 0
=   ( 0, 2 ) ( 1 − 0, 2 )
 0
10
=(1)(1)(0,8) = 0,1074 = 10, 74%

de vez que: 10  = 10! = 10!= 1


 0  (10 − 0) !0! 10!
Logo, 10,74% é a probabilidade de nenhum chip apresentar defeito.

b) De haver no máximo dois chips com defeito.

Neste caso teremos uma probabilidade acumulada ( X ≤ 2). Logo, o que a questão solicita é P( X ≤ 2) .
Assim, temos que:

P ( X ≤ 2) = P( X= 0) ∪ P( X = 1) ∪ P ( X= 2)
Como não existe intersecção entre os eventos, então:

P ( X ≤ 2) = P( X = 0) + P ( X = 1) + P ( X = 2)

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Sabemos por (a) que P(X=0) = 0,1074, então:


10 
P (X = 1) =   ( 0, 2) (1− 0, 2)
1 10−1

 
1
= (10)(0, 2)(0,8)9 = 0, 2684 = 26,84%

10 10! 10! 10⋅ 9!


de vez que:   = = = = 10
1 −
  10 1 !1! 9!
( ) 9!

Lembre-se
de que: 10 2 10− 2
P (X =2) =  ( 0, 2) ( 1− 0,2)
1! = 1  
2
0! = 1 2 8
=(45)(0, 2) (0,8) = 0,3019 =30,19%

10 10! 10! 10 ⋅ 9 ⋅ 8! 90


de vez que:   = = = = = 45
 2  (10 − 2) !2! 8!⋅2! 8! ⋅ 2 2

Logo, P ( X ≤ 2 ) = P ( X = 0)+ P ( X = 1) + P ( X = 2)
= 0,1074 + 0, 2684 + 0,3019 = 0, 6777 = 67, 77%

c) De haver mais de dois chips com defeito.

104 A probabilidade pedida em (c) é o complementar de (b), ou seja:

P (X > 2) = 1− P (X ≤ 2) = 1− 0, 6777 = 0,3223 = 32, 23%

d) De todos os chips terem defeito.


10 10 10−10
P ( X =10 ) =   (0, 2) (1− 0, 2)
10
= (1)(0, 2)10 (1) = 0, 0000001 = 0, 00001%

10 10! 10!


de vez que:   = = =1
 
10 (10 − 10) !10! 10!

2. A cada 100 motoristas de ônibus, 25 desenvolvem hérnia de disco


por trabalharem sentados diversas horas. Caso selecionássemos
por sorteio 30 motoristas, considerando o fato de que um moto-
rista ter hérnia de disco não interfere em outro funcionário apre-
sentar a mesma doença, calcule a probabilidade de:

a) Haver seis motoristas com hérnia de disco.

A questão afirma que 25 a cada 100 motoristas apresentam hérnia de disco. Logo, para estimarmos a
probabilidade de um motorista apresentar a doença teremos 25/100.

Logo, seja a v.a. X definida como o número de motoristas com hérnia de disco dentre os 30 analisados.
Temos que: X ~ Binomial (30; 0,25). Logo,

 30 6 30− 6
P ( X = 6 ) =   (0, 25) (1− 0,25 )
 
6
6 24
= (597.775) (0, 25 ) (0, 75) = 0,1455 = 14,55%

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

30  30! 30 ⋅ 29 ⋅28 ⋅ 27 ⋅ 26 ⋅25 ⋅ 24! 427.518.000


de vez que:   = = = = 593.775
 6  ( 30 − 6) !6! 24! ⋅ 6 ⋅ 5 ⋅ 4 ⋅ 3⋅ 2⋅ 1 720

b) Não haver motoristas com hérnia de disco.

 30 0 30− 0
P ( X = 0 ) =   (0, 25) (1− 0, 25)
0
30
= (1) (1) (0, 75) =0, 0002 = 0, 02%

 30 30! 30!


de vez que:   = = =1
 
0 ( 30 − 0) !0! 30!

c) Haver mais de um motorista com hérnia de disco.

A questão (c) pede a probabilidade de haver de dois até o número total de motoristas, que são 30, com
a doença. Logo, é pedido:

P ( X > 1) = P (X ≥ 2) = P (X = 2) ∪ P ( X = 3)∪ L∪ P (X = 29) ∪ P( X = 30)


Repare que o cálculo desta probabilidade é muito extenso. É possível, porém, resolver esta questão de
forma mais rápida, utilizando a probabilidade do complementar, ou seja:

P (X > 1) = 1− P ( X ≤ 1) = 1− [ P (X = 0) ∪ P ( X = 1) ]

Como não existe intersecção entre os eventos, então:

P( X >1) = 1 − P ( X ≤ 1) = 1− [P (X = 0) +P (X =1) ] 105


Sabemos por (a) que P(X=0) = 0,0002, então:

 30
P ( X =1) =   (0, 25) ( 1− 0, 25)
1 30− 1

 
1
29
=(30) (0, 25 ) (0, 75) = 0, 0018 = 0,18%

 30 30! 30 ⋅ 29!


de vez que:   = = =1
 1  (30 − 1) !1! 29!

Logo, a probabilidade pedida é:

P (X > 1) = 1− P (X ≤ 1) = 1− [ 0, 0002 + 0,18 ] =


= 1− 0,1802 = 0,8198=81,98%

3. Um produto eletrônico é composto por 40 circuitos. O fabricante informou que 1 a cada 10 circuitos
apresenta algum defeito; no entanto, ele também informou que o produto eletrônico funciona se tiver
até três circuitos defeituosos. Supondo que a ocorrência de defeito em um circuito independa da ocor-
rência de defeito em outro circuito, calcule a probabilidade de:

a) O produto eletrônico funcionar.

A questão afirma que 1 a cada 10 circuitos apresenta algum defeito. Logo, para estimarmos a proba-
bilidade de um circuito ter defeito teremos 1/10.

Logo, seja a v.a. X definida como o número de circuitos com defeito dentre os 40 analisados. Temos
que: X ~ Binomial (40; 0,1). Logo, a probabilidade de o produto operar será a probabilidade de ele
operar com três dos circuitos defeituosos. Assim, temos:

P ( X ≤ 2) = P ( X = 0) ∪ P (X = 1) ∪ P (X = 2) ∪ P( X = 3)

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Como não existe intersecção entre os eventos, então:

P ( X ≤ 3 ) = P( X = 0) + P( X = 1) + P( X = 2) + P ( X = 3)

 40 0 40− 0
P (X = 0) =   (0,1) (1 −0,1)
 
0
= (1)(1)(0,9)40 = 0, 0148 = 1, 48%

 40  40! 40!
de vez que:  = = =1
 0  ( 40 − 0 ) !0! 40!

 40 1 40 −1
P (X =1) =   ( 0,1) (1 − 0,1)
 
1
= (40)(0,1)(0,9)39= 0, 0657 = 6,57%

 40  40! 40! 40 ⋅ 39!


de vez que:  1  (40 − 1) !1! 39!
= = = = 40
39!

 40  2 40 − 2
P (X = 2) =  (0,1 ) (1 − 0,1)
 
2
= (780)(0,1)2 (0,9)38 = 0,1423 = 14, 23%

10
106 de vez que:   =
2
  ( 40
40!
− 2) !2!
=
40!
38!
⋅ 2!
=
40 ⋅39 ⋅38! 1.560
38! ⋅ 2
=
2
= 780

 40  3 40− 3
P( X = 3) =   ( 0,1) (1 − 0,1)
 
3
= (9.880)(0,1) 3(0,9)37= 0, 2003 = 20, 03%

 40 40! 40! 40 ⋅ 39⋅ 38 ⋅ 37! 59.280


de vez que:   = = = = = 9.880
 3  (40 − 3) !3! 37!⋅ 3! 37! ⋅ 3 ⋅ 2 ⋅1 6

Logo, P (funcionar) = P ( X ≤ 3) = P( X = 0) + P ( X = 1) + P( X = 2)+ P (X = 3)


= 0,0148 + 0,0657+ 0,1423 + 0,2003 =
= 0,4231 = 42,31%
Logo, a probabilidade do produto eletrônico funcionar é de 42,31%.

b) O produto eletrônico não funcionar.

A probabilidade de que o produto eletrônico não funcione existe quando ele tiver quatro ou mais circui-
tos defeituosos. Logo, podemos calcular como:
P(nãofuncionar) = P(X > 3) = P(X ≥ 4) = P(X = 4) ∪ L ∪ P(X = 40)
Este cálculo é muito extenso. Todavia, é possível chegar ao mesmo valor por meio da probabilidade
complementar. Repare bem que a letra (b) é o complemento da letra (a), pois na letra (a) existe a pro-
babilidade de o produto funcionar, o contrário da letra (b) que é a probabilidade do produto não fun-
cionar. Logo:
P(nãofuncionar) = 1 − P(funcionar) → P(X > 3)= 1− P(X ≤ 3)
= 1 − 0,4231 =
= 0,5769=57,69%

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

EXERCÍCIO PROPOSTO

1. A probabilidade de um HD recém-fabricado apresentar algum defeito é de 0,3. Caso um funcionário


analise 10 produtos recém-fabricados, calcule a probabilidade de haver:

a) Três HD’s com defeito;

b) No máximo três HD’s com defeito;

c) Até oito HD’s com defeito.

2. A probabilidade de um HD recém-fabricado apresentar algum defeito é de 0,3. Caso um funcionário


analise 10 produtos recém-fabricados, calcule a probabilidade de haver:

a) Três HD’s com defeito;

b) No máximo três HD’s com defeito;

c) Até oito HD’s com defeito.

3. Foi desenvolvida uma vacina contra certa doença que ataca animais. Sabe-se de acordo com os testes
realizados que três a cada quatro animais são curados. Caso fossem trazidos 5 animais infectados com
a doença, calcule a probabilidade de todos se curarem.

Distribuição de Poisson

Muitas vezes estamos interessados em fazer uma contagem em um determinado intervalo de tempo ou 107
em certa área. Como, por exemplo, quantas pessoas entram em um Shopping em determinado horário da
noite ou quantos arranhões um automóvel apresenta em suas portas.

A distribuição de Poisson (lê-se poasson) é representada por uma v.a. X que representa uma contagem
discreta do número de ocorrências de um evento por certo período de tempo ou por certo volume ou área.
Podemos utilizar uma distribuição de Poisson nas seguintes situações:

• N° de usuários de computador ligados à internet;

• Nº de acessos à internet por dia;

• N° de clientes que chegam a um supermercado certo dia;

• N° de acidentes de trânsito em um mês;

• N° de defeitos em uma peça;

• Nº de casamentos por mês em uma igreja;

• Nº de pulgas retiradas de cachorros em uma clínica veterinária;

• Nº de suturas em cirurgias realizadas em um hospital em determinado mês;

• Nº de funcionários contratados por ano em uma empresa multinacional;

• N° de gols em uma copa do mundo, etc.

Repare que em todas as situações, temos uma contagem de uma variável discreta, seja em um certo in-
tervalo de tempo, volume ou local. Logo, considerando a probabilidade de ocorrência de sucessos em um
determinado intervalo, sendo X o número de sucessos em um intervalo, a função de probabilidade da
variável X, isto é: P(X = k), é definida por:

e−λ .λ k
P(X = k) = ,k = 0,1,2,
k!

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Onde:

X = Número de ocorrências em um determinado intervalo de tempo;

k = Resultado particular de X;

λ = Número médio de ocorrências do evento de interesse no intervalo de tempo mensurado, ou seja, é o


valor esperado (obs: lê-se lambda);

e = Constante matemática aproximada por 2,718282;

A v.a. X tem distribuição de Poisson, com parâmetro λ. Indicaremos o parâmetro e a distribuição da v.a.
pela notação:

X ~ Poisson (λ).

O símbolo Por exemplo, podemos calcular a probabilidade de haver certo número de alunos na biblio-
~ significa “tem teca da UFERSA em determinado dia (sendo o número de alunos a v.a. X). Para calcularmos a
distribuição”. Assim, probabilidade de haver, por exemplo, 100 alunos (este seria k, um resultado particular de X)
quando escrevemos X ~ na biblioteca da Ufersa em determinado dia, precisamos saber o número médio de alunos que
Binomial (n, p), significa: comparecem à respectiva biblioteca por dia (sendo esse número o valor de λ).
X tem distribuição
Podemos também, por exemplo, calcular a probabilidade de haver um certo número de arra-
binominal com
nhões em um carro recentemente fabricado (v.a. X). Logo, se quisermos calcular a probabili-
parâmetros
dade de haver dois arranhões (k=2) em um carro recentemente fabricado, é necessário saber
n e p.
o número médio de arranhões por carro fabricado (sendo esse valor o parâmetro λ).

108 ESPERANÇA E VARIÂNCIA

Seja X uma v.a. com distribuição de Poisson de parâmetro λ, a esperança e variância desse modelo são
dadas por:

E(X) = λ Var(X) = λ

EXERCÍCIO RESOLVIDO

1. Uma empresa de telemarketing realiza em média 5 chamadas por minuto. Suponha que as chamadas
sigam uma distribuição de Poisson. Calcule a probabilidade de:

a) Não receber chamadas em um minuto.


Seja a v.a. X definida como o número de chamadas que chegam em t minutos, então X ~ Poisson (5).

Podemos definir uma função de λ em função do tempo t, logo:

λ = 5t = 5 ( 1 ) = 5 chamadas

Perceba que o valor de λ é a esperança e variância de X. Logo, mesmo antes de ocorrer alguma cha-
mada, nós já esperamos que ocorram 5 chamadas a cada minuto. Como este é um valor médio, pode
ser um pouco mais ou menos que isso; no entanto, em média são 5.
0
e−5 ( 5)
P( X = 0) = = e −5 = 0,0067 = 0,67%
0!

A probabilidade de não recebermos chamadas em um minuto é de 0,67%.

b) Receber duas chamadas em trinta segundos.

λ = 5t = 5⋅ ( 0,5 ) = 2,5 chamadas


−2,5 2
e ( 2,5 )
P ( X = 2) = = 0,2565 = 25,65%
2!
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

c) Receber cinco chamadas em trinta segundos.

λ = 5t = 5⋅ ( 0,5 ) = 2,5 chamadas


5
e−2,5 ( 2,5 )
P ( X = 5) = = 0,0668 = 6,68%
5!

d) Receber entre sete a nove chamadas em dois minutos.

λ = 5t = 5⋅ 2 = 10 chamadas
P ( 7 ≤ X ≤ 9 ) = P(X = 7) ∪ P(X = 8)∪ P(X = 9)

Como não existe intersecção entre os eventos, então:

P ( 7 ≤ X ≤ 9 ) = P(X = 7) + P(X = 8) + P(X = 9)

e−10 (10 )
7

P( X = 7) = = 0,0901 = 9,01%
7!
e−10 (10 )
8

P( X = 8) = = 0,1126 = 11,26%
8!
e−10 (10 )
9

P( X = 9) = = 0,1251 = 12,51%
9!

P ( 7 ≤ X ≤ 9 ) = 0,0901 + 0,1126 + 0,1251 = 0,3278 = 32,78%

2. Em um shopping, entram em média 25 pessoas a cada 10 minutos. Suponha que o número de pessoas
pelo shopping siga uma distribuição de Poisson. Calcule a probabilidade de 35 pessoas passarem pelo
109
shopping em 12 minutos.

Seja a v.a. X definida como o número de pessoas que passam pelo shopping em “t” minutos, então X ~
Poisson (25). Para calcular o valor de λ, podemos fazer uma regra de 3 simples, ou seja:
PESSOAS TEMPO (min)
25 − 10
λ − 12

12.25
λ= = 30 pessoas
10
e −25 ( 25 )
35

P ( X = 35 ) = = 0, 0114 = 1,14%
35!
A probabilidade de 35 pessoas passarem pelo shopping em 12 minutos é de 1,14%.

3. No painel de certo modelo de avião, há em média uma falha por meio me-
tro quadrado (uma falha por 0,5 m2). Considere que o painel apresente 2m2 e
que o número de falhas no painel pode ser modelado por uma distribuição de
Poisson. Calcule a probabilidade de este modelo de avião apresentar ao menos
três falhas em seu painel.

Esta questão pede a probabilidade de o avião apresentar três ou mais falhas em seu painel. No entan-
to, não há um número máximo de falhas que um painel deste tipo de avião pode apresentar. Assim, a
única forma de resolvermos será pela probabilidade complementar. Logo, temos:

Seja a v.a. X definida como o número de falhas no painel de certo modelo de avião, então X ~ Poisson
(1). Para calcular o valor de λ, podemos fazer uma regra de três simples, ou seja:

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

FALHAS COMPRIMENTO (m2 )


1 − 0,5
λ − 2

2 ⋅1 2 2 2
λ= = = ⋅ = 4 falhas
0,5  1   1   1 
2
 
P ( X ≥ 3) = 1 − P(X < 3) = 1 − P(X ≤ 2)

P(X ≤ 2) = P(X = 0) ∪ P(X = 1)∪ P(X = 2)

Como não existe intersecção entre os eventos, então:

P ( X ≤ 2 ) = P(X = 0) + P(X = 1) + P(X = 2)

−4 0
e ( 4)
P (X = 0) = = 0,0183 = 1,83%
0!
1
e−4 ( 4 )
P (X = 1) = = 0,0733 = 7,33%
1!
2
e−4 ( 4 )
P ( X = 2) = = 0,1465 = 14,65%
2!

110 P ( X ≤ 2) = 0,0183 + 0,0733 + 0,1465 = 0,2381 = 23,81%

Observe que essa não é a resposta da questão, foi pedido a probabilidade de haver ao menos 3 falhas
no painel do avião, encontramos a probabilidade de haver no máximo 2 (o complementar de ao menos
3 falhas). Sendo assim, iremos diminuir de um para encontrarmos a probabilidade desejada.

P ( X ≥ 3) = 1 − P(X < 3) = 1 − P(X ≤ 2) = 1 − 0,2381 = 0,7619 = 76,19%

Logo, a probabilidade de haver ao menos 3 falhas no painel do avião é de 76,19%.

EXERCÍCIO PROPOSTO

1. Suponha que em uma indústria de automóvel são fabricados em média 12 carros por dia. Suponha que
o número de carros produzidos é modelado por uma distribuição de Poisson. Calcule a probabilidade
de em dois dias serem produzidos 20 carros.

2. Em uma universidade federal, o número de cadeiras quebradas por semestre pode ser modelado por
uma distribuição de Poisson. Sabendo que em média há 45 cadeiras quebradas por semestre, calcule
a probabilidade de no próximo semestre haver 40 cadeiras com algum defeito.

3. Na Biblioteca Orlando Teixeira, da Ufersa, há em média cinco empréstimos por hora. Supondo que o
número de empréstimos pode ser modelada por uma distribuição de Poisson, calcule a probabilidade
de em 7 horas e meia haver 40 empréstimos.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

Principais modelos probabilísticos contínuos


UN 02

Vimos situações nas quais é possível calcular probabilidades quando mensuramos uma v.a. discreta. Mas
se quisermos, por exemplo, mensurar a probabilidade de uma lâmpada durar mais de 800 horas? E se
quisermos calcular a probabilidade de um saco de leite de 1 litro apresentar mais de 1.200 ml? Estes tipos
de probabilidade retratam situações nas quais se faz uso de uma v.a. contínua (tempo em horas e volume
em mililitros). Nesta seção, veremos os dois principais modelos probabilísticos contínuos.

Distribuição Exponencial

A distribuição exponencial envolve probabilidades ao longo do tempo ou da distância entre ocorrências de


determinado evento em um intervalo contínuo. É uma distribuição contínua, assimétrica à direita (Figura
2) e assume valores de zero a +∞ (mais infinito).

Figura 2 – Gráfico da densidade da exponencial.

f(x)

111

0 x
Utilizamos a distribuição exponencial, por exemplo, como modelo do tempo entre falhas de equipamentos
elétricos, tempo entre a chegada de clientes a um shopping ou outro local, tempo entre chamadas telefô-
nicas, tempo de funcionamento de um produto eletrônico, etc.

Assim, uma variável aleatória X tem distribuição exponencial de probabilidade se sua função densidade
de probabilidade é dada por:

λ e−λ k se k > 0
f(x) = 
0 se k ≤ 0

Onde:

λ = Número médio de chegadas por unidade de tempo;

e = Constante matemática aproximada por 2,718282;

k = Valor que a v.a. assume, onde 0 ≤ k < +∞ .

No entanto, por ser um modelo probabilístico contínuo, iremos calcular a probabilidade de X estar entre
dois pontos. Veremos a seguir a função de distribuição acumulada da distribuição exponencial de parâ-
metro λ.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

FUNÇÃO DE DISTRIBUIÇÃO ACUMULADA DA DISTRIBUIÇÃO EXPONENCIAL

f(x) = λ e −λ k ,∀ k ≥ 0
k
k 0 k k
 1  −λ x
∫ f(x)dx = ∫ f(x)dx + ∫ f(x)dx = 0 + ∫f(x)dx =  − λ e
−∞ −∞ 0 0  λ 0
k
 λ k k
=  −  e −λ x = ( −1 )e−λ x = −e −λ x = ( −e −λ k ) − ( −e −λ 0 )
 λ 0
0 0

−λ k
= ( −e ) − ( −e 0 ) = ( −e −λ k ) − ( −1 ) = ( −e −λ k ) + 1
k
P(X ≤ k) = F(X) = ∫ f(x)dx = 1 − e −λ k
0

Logo, utilizaremos este resultado, ou seja, a função de distribuição acumulada de "0" a "k" de uma variável
aleatória X exponencialmente distribuída é dada por 1 - e-λk.

Vale salientar que a função densidade de probabilidade de toda a área da v.a. X será igual a um, ou seja:

+∞ −λ k −λ k ∞
∫ 0 λ e dx = (− e )|
=1
0
A v.a. X tem distribuição exponencial com parâmetro λ. Indicaremos o parâmetro e a distribuição da v.a.
pela notação:

X ~ Exponencial (λ).

ESPERANÇA E VARIÂNCIA

112 Seja X uma v.a. com distribuição exponencial de parâmetro λ, a esperança e variância desse modelo são
respectivamente:

1
E(X)= 1
λ Var(X) =
λ2

Repare que a distribuição exponencial é definida apenas por um parâmetro (λ), o qual representa a mé-
dia aritmética do número de chegadas por unidade de tempo. Já o valor de (1/l) que representa o tempo
médio entre chegadas, que é o valor esperado desta distribuição. Por exemplo, se ocorrem em média seis
chamadas telefônicas a cada hora (l = 6), o tempo médio entre as chamadas será de 1/6 de hora, ou seja,
10 minutos.

SAIBA MAIS
Apesar da semelhança, existe uma forte diferença entre as distribuições de Poisson e Expo-
nencial. Sabemos que a Poisson é uma distribuição de probabilidade discreta e a exponencial,
contínua.

A distribuição de Poisson modela o número de chegadas por unidade de tempo, ao passo que
a Exponencial modela o tempo entre chegadas, motivo pelo qual a Poisson e a Exponencial uti-
lizam o parâmetro λ em sua modelagem. No entanto, o valor esperado da distribuição discreta é
λ , já o da distribuição contínua é 1 λ .

Temos como exemplo o número de pessoas que passam em um supermercado em determinado


intervalo de tempo. Enquanto a distribuição de Poisson vai trabalhar com a quantidade de pes-
soas que passam pelo estabelecimento, a Exponencial vai modelar o intervalo entre uma pessoa
e outra que passa pelo supermercado, ou seja, se passam 120 pessoas por hora ( λ = 120), então
o tempo médio de uma pessoa para outra seria de 0,5 minutos, sendo assim, passa uma pessoa
a cada 30 segundos ( 1 120 = 0,0083 de hora = 0,0083 ⋅ 60 min = 0,5
. min )

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

EXERCÍCIO RESOLVIDO
1. Uma fábrica de tubos de TV determinou que a vida média dos tubos de sua fabri-
cação é de 800 horas de uso contínuo e segue uma distribuição exponencial. Qual
a probabilidade de que a fábrica tenha que substituir um tubo gratuitamente, se
oferece uma garantia de 300 horas de uso?

Seja X o tempo de vida dos tubos de TV.

Temos que X ~ Exponencial (1/800).

Como foi informado que a vida média dos tubos é de 800 h, o valor esperado desta distribuição é E(X)
= 800. Assim, temos:
1 1 1
Como E ( X ) = ⇒ = 800⇒ λ =
λ λ 800
Para que um tubo seja substituído gratuitamente, ele deve apresentar um problema antes do término
da garantia, ou seja, X < 300. Logo, a probabilidade solicitada é:
 1  3
− 300 −
P(X < 300) = 1 − e−λ x = 1 − e  800  =1 −e 8
= 1 − 0,6873 =
= 0,3267 = 32,67%

2. Certo material eletrônico tem duração de vida que segue uma distribuição exponencial com vida mé-
dia de 150 horas como garantia desde que o produto seja usado em condições normais. Caso o pro-
duto funcione menos do que o previsto, ele é trocado com direito a garantia, caso contrário, o cliente
terá de trocar, no entanto, pagará pelo conserto (sem direito a garantia). Supondo que um cliente
comprou esse produto eletrônico e o utilizou nas condições recomendadas pelo fabricante, calcule a
probabilidade de o produto eletrônico ser trocado:

a) Sem direito a garantia.


113
Seja X a duração de vida em horas de certo material eletrônico. Assim, temos que X ~ Exponencial
(1/150).

Como foi informado que a vida média do material eletrônico era de 150 horas, perceba que não foi
informando o valor de λ, não informando o valor esperado da v.a. X, ou seja, a esperança matemática.
Como a média da distribuição é inversa de λ, então:

E(X) = (1/λ) = 150. Logo, é possível encontrar o valor de λ como:


1 1 1
E ( X ) = ⇒ = 150⇒ λ =
λ λ 150
É pedida a probabilidade de o produto ser trocado sem direito a garantia. Logo, o material deve deixar
de funcionar após o término da garantia, assim, X > 150 horas. Portanto, temos:
P(X > 150) = 1 − [ P(X ≤ 150)] = 1 − 1 − e −150/150  = e −1 =
= 0,3678 = 36,78%

b) Com direito a garantia.

A probabilidade de o material ser trocado com direito a garantia é o complementar da letra (a). Por-
tanto, temos:
P(X < 150) = 1 − P(X > 150) = 1 − 0,3678 = 0,6322 = 63,22%

3. Um Engenheiro Elétrico deseja averiguar o tempo (horas) de duração de uma bateria de carro do tipo
SUV, modelo 4x4, motor 2.8 a diesel. Sabendo que o fabricante da bateria informou que o tempo mé-
dio de funcionamento é de aproximadamente 3000 horas e que segue uma distribuição exponencial,
defina a variável aleatória e calcule a probabilidade de uma bateria deste mesmo modelo durar:

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

a) No máximo 2.250 h.

Seja X o tempo de duração de em horas uma bateria de carro do tipo SUV, modelo 4x4, motoro 2.8 a
diesel. Assim, temos que X ~ Exponencial (1/3000).

Como foi informado que a vida média da bateria é de 3.000 horas, então E(X) = (1/λ) = 3.000. Logo, é
possível determinar o valor de λ como:
1 1 1
E ( X ) = ⇒ = 3.000⇒ λ =
λ λ 3.000

P(X < 2.250) = 1 − e −2.250/3.000 = 1 − 0,4724 = 0,5276 = 52,76%

b) No mínimo 3.575 hs.

P(X > 3.575) = 1 − [ P(X ≤ 3.575) ] = 1 − 1 − e −3.575/3.000  = e −3.575/3.000 =


= 0,3037 = 30,37%

c) No máximo 3.575 hs.

P(X < 3.575) = 1 − P(X > 3.575) = 1 − 0,3037 = 0,6963 = 69,63%

d) Entre 2.250 a 3.575 hs.


Neste caso, nós temos duas probabilidades acumuladas. Uma definida como até 2.250 h e outra defi-
nida como até 3.575 h. Fazendo a diferença delas, teremos a probabilidade procurada. Logo, temos:

P(2.250 < X < 3.575) = P(X < 3.575) − P(X < 2.250) =
= F(3.575) − F(2.250) =
114 = 1 − e−3.575/3.000  − 1 − e−2.250/3.000  =
= 0,6963 − 0,5276 = 0,1687 = 16,87%

EXERCÍCIO PROPOSTO
1. Um tipo de calculadora tem tempo médio de funcionamento de 100 horas e segue uma distribuição
exponencial. Calcule a probabilidade de uma calculadora deste tipo durar mais de 150 horas?

2. O tempo de vida (em horas) de um transistor é uma variável aleatória com distribuição exponencial.
O tempo médio de vida do transistor é de 400 horas. Qual a probabilidade de o transistor durar entre
500 a 600 horas?

3. Suponha que o tempo em horas de falha de ventiladores em um computador pessoal possa ser mo-
delado por uma distribuição exponencial com tempo médio de funcionamento de 333 horas. Defina a
variável aleatória e calcule a probabilidade:

a) De o ventilador durar no mínimo 1.000 horas.

b) De o ventilador durar no máximo 1.000 horas.

c) De o ventilador durar entre 150 a 270 horas.

Distribuição Normal

A distribuição normal, também conhecida como distribuição gaussiana, é a mais importante das distribui-
ções de probabilidade, uma vez que muitas variáveis de situações práticas podem ser modeladas por uma
distribuição normal e com isso, existe um importante resultado chamado Teorema do Limite Central, que
apresenta, em condições gerais, uma v.a. resultante da soma de n v.a.’s independentes. No limite, quando n
tende a infinito, há convergência para uma distribuição normal.

Uma consequência deste teorema é que podemos aproximar várias distribuições de probabilidade para
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

uma distribuição normal, como, por exemplo, a distribuição Binominal e Poisson.

Assim, dizemos que a v.a. X tem distribuição normal com parâmetros e , −∞ < µ < +∞ e 0 < σ 2 < +∞
2

se sua função densidade de probabilidade é dada por:


(x −µ )2
1 −
f(x) = e 2σ2
, −∞ < x < +∞
σ 2π

Se X tem distribuição normal com parâmetros e , usaremos a notação X ~ Normal ( ,


2 2
).

A densidade de X é representada na Figura 3:

Figura 3 – Função densidade de probabilidade da normal.


f(x)

m x

Repare que os parâmetros da distribuição são na verdade a esperança e variância do modelo. Eles repre-
sentam a média (E(X)= ) e variância (Var(X)= 2 ) do modelo normal. Perceba também que a integral de
toda a área do gráfico, ou seja, a função densidade de probabilidade de -∞ a +∞ é um. Logo: 115
(x −µ )2
+∞ +∞ 1 −
∫ f(x)dx = ∫ e 2σ2
dx = 1
−∞ −∞ σ 2π

PROPRIEDADES DA DISTRIBUIÇÃO NORMAL

a) f(x) é simétrica em torno da média (μ)

f(x)

0,5 0,5

m x

O gráfico da função densidade é dividido pela média da distribuição, na qual cada lado é igual (apresenta
a mesma probabilidade). E como a soma dos lados deve resultar no valor um, cada face tem probabilidade
0,5 ou 50%, que utilizaremos como notação na qual o lado à esquerda da média é representado por
P ( −∞ < Z < µ) = 0,5, já o lado à direita da média é representado por P ( µ < Z < +∞) = 0,5

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Logo, pela propriedade da simetria, temos também que P ( Z > a ) = P ( Z < −a ) , ou seja:

-a m +a

b) f(x) 0 quando x ±∞

Na medida em que os valores de X vão se aproximando dos extremos, sua probabilidade vai diminuindo
e tendendo a zero. Repare pela figura 2.3 que a área do gráfico vai se aproximando de zero tanto para -∞
quanto para +∞.

f(x)

116
m x

d) f(x) possui como ponto de máximo;

DISTRIBUIÇÃO NORMAL PADRÃO

Para o cálculo das probabilidades da função densidade f(x), devemos resolver a integral no intervalo:

( x −µ )2

b 1 2 σ2
P (a < X < b ) = ∫ e dx
a σ 2π
No entanto, a integral acima só pode ser resolvida por aproximações e por métodos numéricos, conside-
rando que não se pode aplicar o teorema fundamental do cálculo, pois não podemos achar uma função
cuja derivada seja igual a e− x 2 . Além do mais, teríamos que elaborar uma tabela de probabilidades para
2

cada valor diferente de e , o que acarretaria grande trabalho para tabelar estas probabilidades em face
2

das suas várias combinações.

Então como procedemos?


Banco de imagens/NEaD

Os problemas foram solucionados por meio de uma mudança de variável, fixando-se a média ea
variância 2=1.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

FIQUE DE OLHO
Distribuição Normal Padrão: É uma distribuição normal com os parâmetros (média e variância)
específicos, ou seja, é uma distribuição normal com média igual a zero e variância igual a um.
Representamos essa distribuição pela letra maiúscula “Z”.

O que difere a normal padrão de uma distribuição normal qualquer são os parâmetros (μ e σ2 ).
Quando uma distribuição normal tem pelo menos um dos dois parâmetros diferentes de μ = 0
e/ou σ2 = 1, essa distribuição é normal, mas não é uma normal padrão.

A distribuição normal padrão foi criada para facilitar o cálculo de probabilidades, já que pela
função densidade de uma distribuição normal (não padrão) ser bem mais complexo.

Assim, quando temos uma distribuição normal com média zero e variância um, dizemos que ela é uma
distribuição normal padrão ou normal reduzida. A mudança de variável fixando =0 e 2 = 1 é uma trans-
formação da v.a. X ~ Normal para uma nova v.a. Z ~ Normal (0,1) é dada por:

X −µ
Z=
σ

Quando realizamos a transformação, dizemos que estamos padronizando a v.a. X para uma v.a. Z. A proba-
bilidade de X estar entre dois valores a e b é dada por:

 a − µ X − µ b− µ   a− µ b− µ 
P (a < X < b ) = P 
σ 
= P
σ 
< < <Z <
 σ σ  σ

Onde: X ~ Normal
117
σ é o desvio-padrão da v.a. X. Se for fornecido σ2, use σ 2
a e b ∈ R , a< b

Z ~ Normal (0, 1)

Para realizar estes cálculos, foi construída uma tabela z (ANEXO A) que traz o resultado de probabilidades
como esta, desde que seja uma distribuição normal de média zero e variância um (normal padrão).

E quando temos uma distribuição com


média diferente de zero e/ou variância
diferente de um?
Banco de imagens/NEaD
Banco de imagens/NEaD

Lembre-se de que temos


que padronizar antes!

Por exemplo, seja X ~ Normal (3, 27). A probabilidade de X estar entre 3 e 11,25 é dada por:

 3 − 3 X − 3 11,25 − 3 
P ( 3 < X < 11,25) = P  < <  = P ( 0 < Z < 1,25)
 27 27 27 

Para encontrar esta probabilidade, faremos uso da tabela z do Anexo A. A Figura 2.5 ilustra a região soli-
citada.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Figura 5 – Probabilidade da v.a. Z estar entre 0 e 1,25, ou seja, P(0 < Z < 1,25).

0 1,25
A probabilidade da ocorrência do valor entre zero e z = 1,25 corresponde à área tracejada na figura 2.5.
Para usar a tabela z, devemos:

a) Localizar na 1a coluna o valor 1,2

b) Localizar na 1a linha o valor 0,05

c) O número 1,2 da coluna e o número 0,05 da linha compõem o valor de Z = 1,25

d) No cruzamento da linha 1,2 com a coluna 0,05 está o número 0,3944. Esta é a probabilidade de
P ( 0 < Z < 1,25) . A figura 4 ilustra o número encontrado.

Figura 4 - Tabela da dist. normal padrão. Reduzida do Anexo A.

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06


0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636
118 0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123


0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454
0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315

1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554


1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279

Observamos que neste exemplo padronizamos a variável aleatória X para uma Z e depois procuramos o
valor padronizado na tabela. No entanto, a tabela z dá uma área de zero a um valor real qualquer, ou seja,
, a qual é ilustrada na figura 5.
Figura 5 – Área fornecida na tabela Z.
f (x)

0 a x
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

A respeito da tabela Z (ANEXO A), observe que:

P(0 < Z < 3) = 0,4987.

Logo, pela propriedade da simetria de Z, P(-3 < Z < 3) = 2 (0,4987) = 0,9974, ou seja, o intervalo -3 a +3
representa 99,74% do gráfico de uma distribuição normal padrão.

Assim, quando temos uma probabilidade igual à área da Figura 2.7, basta procurarmos o valor diretamen-
te na tabela. Todavia, quando temos uma probabilidade diferente de , precisamos fazer a dife-
rença ou soma das áreas; dependerá da área pedida. A questão 1 do exercício resolvido a seguir, apresenta
o cálculo de diversas probabilidades nas quais serão realizados estes procedimentos. Já as questões 2, 3 e
4 apresentam aplicações do modelo normal nas quais é necessário o cálculo de áreas.

EXERCÍCIO RESOLVIDO
1. Seja Z uma variável aleatória normal padrão, determine:

a) P(0 < Z < 0,87) = 0,3078.

0 0,87
b) P(Z < 0) = 0,5.
119

0
c) P(-1,52 < Z < 1,52) = 2 P(0 < Z < 1,52) = 2 (0,4357) = 0,8714.

-1,52 0 1,52

d) P(-0,89 < Z < 0) = P(0 < Z < 0,89) = 0,3133.

-0,89 0 0 0,89
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

e) P(Z < -0,68) = P(Z > 0,68) =

Pela propriedade da simetria em torno da média zero de Z

-a m +a

= P(0 < Z < +∞) – P(0 < Z < 0,68) = 0,5 – 0,2517 = 0,2483.

– =
0 +∞ 0 0,68 0 0,68
f) P( Z > 1,18) =

120

0 1,18

= P(0 < Z < +∞) – P(0 < Z < 1,18) = 0,5 – 0,3810 = 0,1109.

– =
0 +∞ 0 1,18 0 1,18

= P(0 < Z < +∞) – P(0 < Z < 1,18) = 0,5 – 0,3810 = 0,1109.

g) P(Z > -2,29)=

-2,29 0
Temos que P(-2,29 < Z < 0) = P(0 < Z < 2,29), então:

P(Z > -2,29) = P(0 < Z < 2,29) + P(< Z < +∞) = 0,4890 + 0,5 = 0,9890.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

h) P(Z < 1,69) = P(-∞ < Z < 0) + P(0 < Z < 1,69) = 0,5 + 0,4545 = 0,9545.

0 1,69

i) P(0,31 < Z < 2)

0 0,31 2

P(0 < Z < 2) - P(0 < Z < 0,31) = 0,4772 - 0,1217 = 0,3555

– =
0 2 0 0,31 0 0,31 2 121
j) P(-2,74 < Z < -1,88) = P(1,88 < Z < 2,74)

=
-2,74 -1,88 0 0 1,88 2,74

P(0 < Z < 2,74) - P(0 < Z < 1,88) = 0, 4969 - 0,4693 = 0,0276

– =
0 2,74 0 1,88 0 1,88 2,74

k) P(-0,64 < Z < 1,51) = P(0 < Z < 0,64) + P(0 < Z < 1,51) = 0,2389 + 0,4345 = 0,6734

-0,64 0 1,51

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

EXERCÍCIO RESOLVIDO
1. Suponha que a estatura de recém-nascidos do sexo masculino é uma variável aleatória com distribui-
ção aproximadamente normal com média 50 cm e desvio-padrão de 2,50 cm. Calcule a probabilidade
de um recém-nascido do sexo masculino ter estatura:
a) Entre 50 cm e 57 cm.

Seja X a estatura de recém-nascidos do sexo masculino. Temos que X ~ Normal (50; 2,52).
 50 − 50 X − 50 57 − 50 
P ( 50 < X < 57 ) = P  < <  = P ( 0 < Z < 2,8 ) = 0,4974
 2,5 2,5 2,5 
Essa probabilidade é encontrada de forma similar ao Exercício resolvido da página 119, letra (a). No
entanto, ilustramos esse valor na Tabela da Normal (Anexo A) abaixo:

ANEXO A - Tabela da Normal (versão reduzida)

a 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08


0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517

122 0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365

1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306

1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761

2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934

2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

b) Inferior a 52 cm.

 X − 50 48 − 52 
P ( X < 52) = P  = P ( Z < 0,8 ) = P( −∞ <Z <0) + P(0 <Z < 0,8) = 0,5 + 0,2881 = 0,7881
2,5 
<
 2,5
Essa probabilidade é encontrada de forma similar ao Exercício resolvido da página 119, letra (h). No
entanto, ilustramos esse valor na Tabela da Normal (Anexo A) abaixo:

ANEXO A - Tabela da Normal (versão reduzida)

a 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07


0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157


0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486
0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340

2. O volume de enchimento de uma caixa de leite de um litro normalmente é distribuído com média de

a)
1000 ml e variância igual a 2.025 ml2. Calcule a probabilidade de uma caixa de leite de um litro conter:
Mais de 1.026,10 ml.
LEITE
123
Seja X o volume de enchimento de uma caixa de leite de um litro. Temos que X ~ Normal (1.000; 2.025).

 X − 1000 1.026,10 − 1000 


P ( X > 1.026,10) = P  >  = P ( Z > 0,58 ) = P(0 < Z < +∞ ) − P(0 < Z < 0,58)
 2.025 2.025 
= 0,5 − 0,2190 = 0,2810

Essa probabilidade é encontrada de forma similar ao Exercício resolvido da página 119, letra (f). No en-
tanto, ilustramos esse valor na Tabela da Normal (Anexo A) abaixo:
ANEXO A - Tabela da Normal (versão reduzida)

a 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08


0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517

b) Entre 949,6 e 1.026,10 ml.


 949,6 − 1000 X − 1000 1.026,10 − 1000 
P ( 949,6 < X < 1.026,10) = P  < < =
 2.025 2.025 2.025 
= P ( −1,12 < Z < 0,58 ) =
= P(0 < Z < 0,58) + P(0 < Z < 1,12) =
= 0,2190 + 0,3686 = 0,5876
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Essa probabilidade é encontrada de forma similar ao Exercício resolvido da página 119, letra (k). No en-
tanto, ilustramos esse valor na Tabela da Normal (Anexo A) abaixo, todavia, como já foi ilustrada a proba-
bilidade P(0<Z<0,58), será apresentada apenas a probabilidade P(0<Z<1,12):

ANEXO A - Tabela da Normal (versão reduzida)

a 0,00 0,01 0,02 0,03


0,0 0,0000 0,0040 0,0080 0,0120
0,1 0,0398 0,0438 0,0478 0,0517
0,2 0,0793 0,0832 0,0871 0,0910
0,3 0,1179 0,1217 0,1255 0,1293
0,4 0,1554 0,1591 0,1628 0,1664

0,5 0,1915 0,1950 0,1985 0,2019


0,6 0,2257 0,2291 0,2324 0,2357
0,7 0,2580 0,2611 0,2642 0,2673
0,8 0,2881 0,2910 0,2939 0,2967
0,9 0,3159 0,3186 0,3212 0,3238

1,0 0,3413 0,3438 0,3461 0,3485


1,1 0,3643 0,3665 0,3686 0,3708
124 1,2 0,3849 0,3869 0,3888 0,3907

3. Suponha que a pressão sanguínea sistólica em indivíduos com idade entre 20 e 25 anos tenha distri-
buição aproximadamente normal com média 130 mm/Hg e variância igual a 81 (mm/Hg)2. Nestas
condições, calcule a probabilidade de um indivíduo desta faixa etária apresentar pressão:

a) Menor do que 111,28 mm/Hg.

Seja X a pressão sanguínea sistólica em indivíduos com idade entre 20 a 25 anos. Temos que X ~ Normal
(130; 81).
 X − 130 111,28 − 130 
P ( X < 111,28 ) = P  < =
 81 81 
= P ( Z < −2,08 ) = P(Z > 2,08) =
= P(0 < Z < +∞) −P(0 <Z <2,08) =
= 0,5 − 0,4812 = 0,0188

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
II - PROBABILIDADE

Essa probabilidade é encontrada de forma similar ao Exercício resolvido da página 119, letra (e). No en-
tanto, ilustramos esse valor na Tabela da Normal (Anexo A) abaixo:

ANEXO A - Tabela da Normal (versão reduzida)

a 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08


0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517
0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365

1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 125
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306

1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761

2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854

b) Entre 125,50 e 134,50 mm/Hg.


 125,5 − 130 X − 130 134,5 − 130 
P ( 125,5 < X < 134,5) = P  < < =
 81 81 81 
= P ( −0,5 < Z < 0,5) = 2P(0 < Z < 0,5) =
= 2( 0,1915) = 0,3830

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
II - PROBABILIDADE

Essa probabilidade é encontrada de forma similar ao Exercício resolvido da página 119, letra (c). No en-
tanto, ilustramos esse valor na Tabela da Normal (Anexo A) abaixo:

ANEXO A - Tabela da Normal (versão reduzida)

a 0,00 0,01 0,02


0,0 0,0000 0,0040 0,0080
0,1 0,0398 0,0438 0,0478
0,2 0,0793 0,0832 0,0871
0,3 0,1179 0,1217 0,1255
0,4 0,1554 0,1591 0,1628

0,5 0,1915 0,1950 0,1985


0,6 0,2257 0,2291 0,2324

EXERCÍCIO PROPOSTO
1. As notas de alunos de uma turma de Estatística é distribuída normalmente com média 7,5 e variância
4. Calcule a probabilidade de um aluno ter nota:

a) Entre 7,5 e 8,0


b) Inferior a 4
126 c) Superior a 9

2. Em uma academia, as mulheres levantam em média 120 kg no leg press, com desvio-padrão igual a 30
kg. Supondo que o peso (kg) levantado nesta máquina pelas mulheres seja normalmente distribuído,
calcule a probabilidade de uma mulher levantar no leg press:

a) Mais de 99 kg
b) Mais de 192 kg
c) Entre 111 a 203,70 kg

3. A taxa de glicose no sangue de pessoas com faixa etária de 30 a 40 anos pode ser modelado por uma
distribuição normal com média 120 mg por 100 ml de sangue e variância 56,25 mg2 por 100 ml de
sangue. Calcule a probabilidade de um indivíduo apresentar taxa:

a) Entre 120 a 135,6 mg por 100 ml de sangue


b) Inferior a 128,7 mg por 100 ml de sangue
c) Entre 121,5 a 129,9 mg por 100 ml de sangue

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III INTRODUÇÃO À INFERÊNCIA
ESTATÍSTICA, CORRELAÇÃO E
REGRESSÃO LINEAR SIMPLES

Na Unidade I, vimos como realizar uma análise inicial dos dados fazendo
uso de estatística descritiva. Já na Unidade II, estudamos a teoria das pro-
babilidades e os principais modelos probabilísticos para descrição de alguns
fenômenos de nosso interesse. Nessa terceira e última unidade, vamos abor-
dar dois principais conceitos: Inferência Estatística e Correlação e Regressão
Linear Simples.
Primeiro, por meio da Inferência Estatística, como fazer afirmações sobre
características de uma população baseando-se em resultados de uma amostra
previamente selecionada; procedimento muito utilizado em pesquisa de opi-
nião durante o período eleitoral, por exemplo.
Segundo, por meio da Análise de Regressão Linear Simples e Correlação,
estudando a influência que uma variável pode exercer na outra. Iremos, por
exemplo, mostrar matematicamente que a variável “altura em metros” de uma
pessoa está linearmente relacionada com a variável “peso em kg”, ou que a
variável “velocidade em km/h” está relacionada com a variável “Tempo de
viagem em horas”.

Objetivos:

• Entender a importância e aplicação da Inferência Estatística e da Análise de


Regressão Linear Simples;

• Compreender a distribuição amostral da média e proporção;

• Compreender e realizar um Teste de Hipóteses para média e/ou propor-


ção;

• Calcular, classificar e interpretar uma Correlação Linear;

• Calcular e interpretar os parâmetros da reta de Regressão Linear Simples;

• Realizar previsões a partir da reta de Regressão Linear Simples;

• Descrever o quanto a variável dependente do modelo de regressão é ex-


plicada pela variável independente.
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Introdução à inferência estatística


UN 03

A maior parte das pesquisas e estudos em todas as áreas do conhecimento é realizada com amostras. No
entanto, o pesquisador almeja generalizar os resultados obtidos na amostra para a população, ou seja,
saber se o que obteve com amostras é válido para toda a população. Esta é, sem dúvida, a essência da in-
ferência estatística.

FIQUE DE OLHO
INFERÊNCIA ESTATÍSTICA: É o ramo da Estatística que se refere ao processo de obtenção de
informações sobre o parâmetro de uma população a partir de resultados observados na amostra.

A seguir, veremos as principais definições utilizadas em inferência estatística:

AMOSTRA ALEATÓRIA: Processo de seleção de uma amostra na qual todos os elementos da população
tem a mesma probabilidade de compor (fazer parte) da amostra.

PARÂMETRO: Medida usada para descrever uma característica da população estudada. Normalmente é
um valor desconhecido e, por isso, procuramos entendê-lo através de um estudo realizado numa amostra.
São muito utilizados como parâmetros a média (μ), a variância (σ2), o desvio-padrão (σ), a proporção (ρ),
dentre outros.

ESTIMADOR: Medida usada para descrever uma característica da amostra. É uma função (fórmula) que
permite, através de uma estimativa, descrever como se comporta o parâmetro da população; baseando-se
nas observações de uma amostra. Temos como exemplos de estimadores a média ( X ), variância (S2), des- 129
vio- padrão (S), a proporção ( p̂), dentre outros.

ESTIMATIVA: É o valor numérico do estimador (resultado obtido pela fórmula do estimador).

Suponha por exemplo, que estamos interessados em estimar a média de um simulado aplicado numa
turma de cursinho de 150 alunos. O parâmetro estudado é a nota média dessa turma. Foi retratada uma
amostra das notas de 50 alunos. O estimador nesse caso será a média amostral definido por:
n
X = ∑xi
i=1

Supondo que após o cálculo da média das notas dos 50 alunos, obtivemos uma média amostral igual a 8,5.
Então esse valor (resultado numérico do estimador) é denominado de estimativa.

Distribuição amostral

Sabemos que a inferência estatística visa o conhecimento de certo parâmetro de uma população por meio
do estudo de estimativas de uma amostra desta população. Vimos anteriormente que a estimativa é obtida
através de um estimador, na qual, para se fazer inferência, é necessário conhecer determinadas caracte-
rísticas do estimador utilizado. Assim, iremos estudar a distribuição de dois dos principais estimadores
(média e proporção), ou seja, a distribuição amostral deles.

FIQUE DE OLHO
DISTRIBUIÇÃO AMOSTRAL: É uma distribuição de probabilidade baseada numa amostra alea-
tória, que retrata o comportamento de uma medida estatística (por exemplo, média, proporção,
entre outras). A distribuição amostral de uma medida estatística retrata como essa medida se
comportaria caso retirássemos todas as amostras possíveis de tamanho “n”. As distribuições
amostrais são muito utilizadas na inferência estatística, visto que é um ramo que estuda popula-
ções com base em amostras aleatórias.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

DISTRIBUIÇÃO AMOSTRAL DA MÉDIA

Seja X uma variável aleatória com média populacional µ e variância populacional σ2. Seja X a média de
uma amostra aleatória de tamanho n da v.a. X. Temos que o valor esperado e a variância de X são, respec-
tivamente:
σ2
E( X) = µ Var ( X )=
n
Pelo Teorema do Limite Central, vemos que quando o tamanho da amostra (n) é suficientemente grande,
a distribuição da média amostral ( X ) aproxima-se de uma distribuição normal com média das médias
amostrais igual à média populacional µ e variância das médias amostrais igual à variância da população
dividida pelo tamanho da amostra (σ2/n).

a) Como regra prática, para amostras com mais de 30 elementos, pode-se assumir na maioria dos casos
que a distribuição da média amostral converge para a distribuição normal com os parâmetros citados
anteriormente.

b) Se a distribuição da v.a. X é normal com média µ e a variância σ2, a média amostral de X tem distribuição
normal com valor esperado µ e variância σ2/n, independentemente do tamanho da amostra.

Assim, poderemos transformar a v.a. X com distribuição normal em uma distribuição Normal Padrão Z,
utilizando o mesmo procedimento da seção “fique de olho” da página 117. Logo, temos que:

X −µ
Z=
σ2
n
onde:
X é a média amostral;
μ é a média populacional;
130 n tamanho da amostra;
Z Distribuição Normal Padrão (Média zero e variância um).

EXERCÍCIO RESOLVIDO
1. Suponha que a quantidade média de certa bebida em garrafa seja de 1.000 ml, com desvio-padrão de
70 ml. Se for retirada uma amostra de 35 garrafas dessa bebida, calcule a probabilidade da quantidade
média de bebida das garrafas ser acima de 1.350 ml.

Temos pelo Teorema do Limite Central que a distribuição da quantidade média (ml) de bebida nas
garrafas tem distribuição normal, com média 1.000 e variância 702/35, ou seja:

Seja X a quantidade (ml) de certa bebida em garrafa de 1.000 com média 1.000 ml e variância 4.900
ml2, para uma amostra de 35 garrafas, temos que:

 σ2 
X ~ Normal  µ ; 
 n 
Logo, temos que:
4.900 
X ~ Normal  1.000 ;
 35 
Assim, é solicitada a seguinte probabilidade:
 
P ( X > 1.350 ) = P 
X − µ 1.020 − µ 
> =
 2 2 
 σ σ 
 n n 
 
 
 
 X − 70 1.020 − 1.000   1.020 − 70 
= P >  = P Z > =
 4.900 4.900   140 
 35 35 
 
 1.020 − 1.000 
= P Z >  = P ( Z > 1,6903) ≈ P ( Z > 1,69)
ESTATÍSTICA
 140 
E Autor: André Luiz Sena da Rocha
 n n 
 
 
 
 70 
= P 
X − 70 1.020 − 1.000III - INTRODUÇÃO1.020À− INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES
>  = P Z > =
 4.900 4.900   140 
 35 35 
 
 1.020 − 1.000 
= P Z >  = P ( Z > 1,6903) ≈ P ( Z > 1,69)
 140 
Daí temos, de forma similar a (f) do exercício resolvido da página 119:

P ( Z > 1,69) = P ( 0 < Z < +∞) − P (0 < Z < 1,69) = 0,5 − 0, 4545 = 0,0455

Temos que a probabilidade da quantidade média de bebida das garrafas ser acima de 1.350 ml é igual a
4,55%

2. Sabendo que certo tipo de elevador fabricado em uma empresa suporta em média 800 kg com vari-
ância de 361 kg2. Se for retirada uma amostra de 30 elevadores deste tipo da empresa em questão,
calcule a probabilidade de o peso médio que os elevadores suportam estar abaixo de 810 kg.
Vimos no Teorema do Limite Central que a distribuição do peso médio (kg) dos elevadores da marca e
empresa em questão, têm distribuição normal, com média 800 kg e variância σ2/n = 361/30, ou seja:

Seja X o peso médio (kg) que os elevadores suportam, temos:


 4.900 
X ~ Normal  1.000 ;
 35 
Assim, é solicitada a seguinte probabilidade:
 
X − 800 810 − 800 
P ( X < 810) = P  > = P ( Z < 2,8875) ≈ P ( Z < 2,89)
361 361 
 
 30 30 
 

Daí temos, de forma similar a (h) do exercício resolvido da página 119:


= P ( Z < 2,89) = P (−∞ < Z < 0) + P ( 0 < Z < 2,89) =
131
= 0,5 + 0,4981 = 0,9981

A probabilidade do peso médio que os elevadores suportam estar abaixo de 810 kg é de 99,81%.

EXERCÍCIO PROPOSTO
1. Suponha que todo semestre as notas das turmas de 3ª série do ensino médio de um colégio apresen-
tam média igual a 8,0 com desvio-padrão igual a 4. Como iniciou as aulas agora, calcule a probabilida-
de de uma nova turma de 60 alunos da 3ª série apresentar uma média semestral acima de 7.

2. Suponha que na corrida de São Silvestre o tempo médio de percurso dos 15 km é de 65 minutos com
variância 36 minutos2. Calcule a probabilidade de, em uma próxima versão da corrida com o mesmo
percurso e com 30 participantes, haver um tempo médio abaixo de 62 minutos.

3. O fabricante declarou que seu tipo de bateria utilizada em carros apresenta vida média de 48 meses
com desvio-padrão de 5 meses. Calcule a probabilidade de numa amostra de 36 baterias, ser obtido
uma vida média acima de 50 meses.

4. O número médio de livros emprestados por dia na Biblioteca Orlando Teixeira da, UFERSA, é de 60
com desvio-padrão de 20 livros. Calcule a probabilidade de em 40 dias, haver uma média de livros
emprestados por dia acima de 55 livros.

DISTRIBUIÇÃO AMOSTRAL DA PROPORÇÃO


Considere uma população N que tem uma proporção p de portadores de certa característica do nosso
interesse. E que seu cálculo é representado abaixo:

nº de elementos com a característica de interesse na população


p=
nº total de elementos pesquisados da população

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Considere p̂ como a proporção de portadores de certa característica de interesse de uma amostra de tama-
nho n da população. E que seu cálculo é representado abaixo:

nº de elementos com a característica de interesse na amostra


pˆ =
nº total de elementos pesquisados da amostra

Definimos então a variável aleatória X como:

1, se portador da característica de interesse;


X =
0, em caso contrário.

Para cada indivíduo (ou para cada Xi), observamos que ele apresenta a característica de interesse ou não
apresenta. Logo, este experimento aleatório se caracteriza como um ensaio de Bernoulli, no qual a proba-
bilidade de sucesso (apresentar a característica) é p. No entanto, assumindo que a existência de um indiví-
duo independe de ter a característica de interesse de outro, realizando esse experimento mais de uma vez
(n vezes), temos uma distribuição binomial com valor esperado np e variância np(1-p).

Vimos na página 114 quando estudamos a distribuição Normal, que uma consequência do Teorema Cen-
tral do Limite é que podemos aproximar a distribuição Binomial para uma distribuição normal. Com base
nesse teorema, observamos que a distribuição amostral da proporção ( ), quando n é maior ou igual a 30,
tem distribuição aproximadamente normal, com os seguintes parâmetros:p̂

 p(1 − p) 
pˆ ~ Normal  µ = p ; σ 2 = 
 n 
onde:
p é a proporção de indivíduos que apresentam a característica de interesse na população;
132 n tamanho da amostra;

Assim, poderemos transformar a v.a. p̂ com distribuição normal em uma distribuição Normal Padrão Z,
utilizando o mesmo procedimento da pagina
p̂ 115. Logo, temos:

pˆ − p
Z=
p(1− p)
n
em que:
é a proporção de portadores de certa característica de interesse de uma amostra de tamanho n da
p̂ população.
Z Distribuição Normal Padrão (Média zero e variância um).

EXERCÍCIO RESOLVIDO
1. Em uma universidade federal, 25% dos alunos concluintes não apresentam nenhuma reprovação ou
trancamento. Em uma amostra de 50 alunos concluintes, qual a probabilidade de no máximo 30%
deles não apresentarem nenhuma reprovação ou trancamento?

Seja p̂ a proporção de alunos concluintes que não apresentam nenhuma reprovação ou trancamento
em disciplinas na amostra de 50.
 0, 25(1− 0, 25) 
Então: pˆ ~ Normal  0, 25 ;  , logo: pˆ ~ Normal (0, 25 ; 0, 00375) .
 50 
Daí temos, de forma similar a (h) do Exercício resolvido da página 119:

 
 pˆ − 0, 25 0,30 − 0, 25
P ( p < 0,30 ) = P
ˆ > =
 
 0, 00375 0, 00375
= P (Z < 0,8165)≈ P (Z < 0,82)=
= P (−∞ < Z < 0) + P (0 < Z < 0,82) = 0,5 + 0, 2939 = 0, 7939

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

A probabilidade de no máximo 30% deles não apresentarem nenhuma reprovação ou trancamento é


de 79,39%.

2. Segundo o Instituto Nacional de Câncer José Alencar Gomes da Silva, o câncer de mama é o segundo
tipo de câncer mais frequente no mundo e o mais comum entre as mulheres, respondendo por 22% dos
casos novos de câncer a cada ano. Suponha que foi retirada uma amostra de 40 casos novos de câncer
no ano. Qual a probabilidade de que entre 30% a 40% desses casos sejam de câncer de mama em mu-
lheres?

 0, 22(1− 0, 22) 
Seja pˆ ~a Normal 0, 22
proporção ;
de casos de câncer de
 mama em mulheres na amostra dos 40 casos.
 40 
 0, 22(1− 0, 22) 
ˆ
Então: p ~ Normal 0, 22 ;  logo: pˆ ~ Normal ( 0, 22 ; 0, 00429)
 40 
daí temos, de forma similar a (i) do exercício resolvido da página 119:
0,30 − 0, 22 pˆ − 0, 22 0, 40 − 0, 22
P (0,30 < pˆ < 0, 40) = P  > =
 0, 00429 0, 00429 0, 00429
= P (1, 2214 < Z < 2, 7481)≈ P ( 1, 22< Z < 2, 75 ) =
= P (0 < Z < 2, 75)−P (0< Z < 1, 22)=
= 0, 4970 − 0,3888 = 0,1082

A probabilidade de que entre 30% a 40% desses casos sejam de câncer de mama em mulheres é de
10,82%.

133
EXERCÍCIO PROPOSTO
1. Em uma pequena cidade, o percentual de habitantes com idade acima de 60 anos é de aproximada-
mente 28%. Foi extraída uma amostra aleatória de 80 habitantes. Calcule a probabilidade de haver
menos do que 25% dos moradores com idade acima de 60 anos.

2. Em uma concessionária, todo mês, há uma demanda de 5% de carros que retornam para conserto com
direito à garantia. Suponha que foi realizado um sorteio aleatório de 80 automóveis ainda na garan-
tia. Calcule a probabilidade de que ao menos 10% deles compareçam à concessionária para realizar
algum tipo de conserto.

3. Em certa empresa, a proporção de funcionários com nível superior que exercem função num cargo de
nível médio é de 0,8. Suponha que foi realizado um sorteio de 32 funcionários com cargo na empresa
de nível médio, calcule a probabilidade da proporção de funcionários com formação superior estar
entre 0,75 e 0,85.

4. Numa Universidade Federal, o percentual de professores doutores que têm Pós-doutorado é de 18%.
Foi selecionada uma amostra de 300 professores doutores. Logo, calcule a probabilidade de haver ao
menos 16% professores com pós-doutorado.

Agora que conhecemos a distribuição da média e a proporção amostral, vamos estudar um procedimento
muito importante na Estatística. Esse procedimento é muito utilizado para averiguar como se comporta
uma população baseado em informações de uma amostra.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Teste de hipóteses

Suponha que em um estudo realizado recentemente foi declarado que a altura média de crianças com 10
anos de idade é de 1,38 m. Um pesquisador médico decide averiguar se isto ocorre em sua cidade. Assim,
ele retira uma amostra aleatória simples de 80 crianças de 10 anos e obtêm uma altura média amostral
de 1,43 m.

Então, as crianças da cidade do pesquisador apresentam altura média acima do que foi descrito no estu-
do? O médico pode então dizer que as crianças de sua região são em média mais altas do que ocorre nas
demais regiões?

Para o pesquisador chegar a uma conclusão e tomar uma decisão, é mais seguro se esses dados fossem
submetidos a um teste estatístico. Esse teste é conhecido como teste de hipóteses, ferramenta essencial da
Estatística para se fazer inferência.

FIQUE DE OLHO
TESTE DE HIPÓTESES: Procedimento bastante utilizado na estatística, na qual utiliza da teoria
das probabilidades e toma como base resultados obtidos numa amostra para avaliar determina-
dos parâmetros que são desconhecidos numa população.

TIPOS DE HIPÓTESES NO TESTE

Um Teste de Hipóteses é um procedimento estatístico acerca de duas hipóteses. A primeira é chamada de


134 Hipótese Nula (H0) e a segunda, chamada de Hipótese Alternativa (H1). O teste se dá basicamente se a
hipótese nula é rejeitada (H1 é automaticamente aceita) ou se não é rejeitada (H0 é aceita e H1 é rejeitada).
Independentemente da decisão tomada, haverá uma probabilidade desta decisão ser a correta e outra
probabilidade da decisão ser incorreta.

A Hipótese Nula é aquela que será testada, sendo sempre contrário ao resultado obtido na amostra, ou
sempre o contrário do que o pesquisador quer provar em seu estudo ou análise. Refere-se a um parâmetro
específico da população (por exemplo, μ ou r). Quando declaramos a hipótese nula, deve haver um sinal
de igualdade com relação ao parâmetro específico da população (por exemplo, H0: μ = 1,38 m).

A Hipótese Alternativa é qualquer hipótese diferente da hipótese nula. H1 será sempre o que o pesqui-
sador quer provar em seu experimento realizado na amostra. É sempre a nova alternativa. Assim como
sempre declaramos igualdade na hipótese nula, na hipótese alternativa declaramos o sinal de “maior” (>),
“menor” (<) ou “diferente” (≠), como, por exemplo, em H1: μ ≠ 1,38 m.

Para o exemplo da altura média das crianças de 10 anos, temos que a hipótese nula é descrita como altura
média de 1,38 m (valor obtido no estudo anterior ou tido como padrão ou verdadeiro). Tendo em vista que
o pesquisador encontrou uma altura média superior a este valor, ele definirá a hipótese alternativa como
as crianças apresentam altura média superior ao considerado padrão. Logo, as hipóteses são:

H 0 : µ = 1,38 m
H 1 : µ > 1,38 m

Lembre-se de que o teste utiliza dados da amostra


para fazer inferência sobre a população. Logo,
Banco de imagens/NEaD

não definimos as hipóteses com base nos valores


da amostra (no caso, a média de 1,43 m). Assim,
estará incorreto se definirmos H1: μ = 1,43 m!
Banco de imagens/NEaD

Entendi! Então só definimos as hipóteses


em relação à população. Após definir as
hipóteses, o que vem a seguir?

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Precisamos saber a região de


Banco de imagens/NEaD

rejeição e não rejeição de H0.

REGIÃO DE REJEIÇÃO E NÃO REJEIÇÃO DE H0

A distribuição amostral para o teste é divida em duas regiões. Uma região de rejeição RR (rejeitar H0) e
outra de não rejeição RA (aceitar H0). O tamanho da região de rejeição é expresso por uma probabilidade
α (lê-se alfa), e está localizada nas extremidades da distribuição amostral (logo, RR + RR = α). Consequen-
temente, o tamanho da região de não rejeição é de tamanho 1-α.
RA
(1 - a)

RR RR
(a/2) (a/2)

m x
Veja a figura acima. As duas regiões são divididas igualmente por um valor crítico que veremos adiante
(exemplo de um teste para média). Este valor será de acordo com o tipo de teste e distribuição a ser utilizada. 135
No entanto, em um teste de hipóteses, nem sempre teremos duas regiões de rejeição: dependendo de
como definimos a hipótese alternativa, poderemos ter apenas uma região. Veremos isto nos tipos de testes
de hipóteses.

TIPOS DE TESTE DE HIPÓTESES


Podemos ter três tipos de testes de hipóteses para H1. O tipo do teste está diretamente relacionado à for-
ma como vai ser definida a hipótese alternativa. Quando H1 é definido pela diferença (por exemplo, em
um teste para média, H1: μ ≠ μ0), chamamos de teste bilateral (bicaudal), no qual teremos duas regiões de
rejeição (daí o prefixo bi). Como a soma das duas regiões de rejeição resulta em α, e devido a simetria da
distribuição, cada RR é definida como α/2.

RA
RR 1-a RR
a/2 a/2

Já quando H1 é definida como menor (H1: μ < μ0) ou maior (H1: μ > μ0), teremos um teste unilateral (unicau-
dal), havendo apenas uma região de rejeição (sendo o valor da região igual a α).

RA RA
RR 1-a 1-a RR
a a

Teste unilateral à esquerda Teste unilateral à direita


H1: m < m0 H1: m > m0

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Observe que as duas regiões diferem entre si em localização, mas não em tamanho.

Mas e como eu sei se

Banco de imagens/NEaD
rejeito a hipótese nula?
Quais critérios eu uso?
Banco de imagens/NEaD

Os critérios para rejeição serão


vistos na regra de decisão.

REGRA DE DECISÃO

Para qualquer tipo de teste, teremos dois valores a ser comparados. Uma estatística de teste (valor calcu-
lado que, de acordo com os tipos de testes que serão vistos nessa Unidade, chamaremos de ZCalc ou TCalc) e
um valor crítico (valor de uma tabela estatística que, de acordo com o tipo do teste, chamaremos de ZTab ou
TTab). Este último é definido com base no valor de e no tamanho da amostra (n).
Para tomarmos a decisão acerca da rejeição da hipótese nula, veremos os critérios de acordo com cada um
dos três tipos de testes possíveis. Tomaremos como exemplo o teste de hipóteses para média (veremos na
página 139):

I. Teste unilateral à direita


RA
1-a

136
RR
a

0
Valor Crítico
Ztab
a) Se a estatística de teste for menor ou igual ao valor crítico (estará assim na região de não rejeição de
H0), a hipótese nula não é rejeitada, ou seja, se ZCalc ≤ ZTab.

b) Se a estatística de teste acusar um valor na região de rejeição de H (estará acima do valor crítico), a
0
hipótese nula é rejeitada. Em outras palavras, se ZCalc > ZTab. Tal valor observado é chamado "significa-
tivo". H0 é rejeitada sempre que ocorrer um valor "significativo".

II. Teste unilateral à esquerda


Repare que nesse teste o valor crítico é negativo. Nesse caso, o procedimento será obter o valor de ZTab da
mesma forma que foi obtido em (I) e depois mudar o sinal para negativo (ou seja, teremos o valor -ZTab).

RA
1-a

RR
a

0
Valor Crítico
Ztab
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

a) Se a estatística de teste for maior ou igual ao valor crítico (estará assim na região de não rejeição de
H0), a hipótese nula não é rejeitada, ou seja, se ZCalc ≥ -ZTab.

b) Se a estatística de teste acusar um valor na região de rejeição de H0 ( estará abaixo do valor crítico), a
hipótese nula é rejeitada, ou seja, se ZCalc < -ZTab.

III. Teste bilateral


Para o caso de um teste bilateral, teremos duas regiões de rejeição. Como o tamanho das duas regiões é
igual a α e as regiões são simétricas, cada região tem tamanho α/2. Logo, temos:

a) Se a estatística de teste estiver entre o valor crítico negativo e positivo (estará assim na região de não
rejeição de H0), a hipótese nula não é rejeitada, ou seja, se -ZTab ≤ ZCalc ≤ ZTab.

b) Se a estatística de teste acusar um valor na região de rejeição de H0 (estará acima do valor crítico ou
abaixo do valor crítico negativo), a hipótese nula é rejeitada, ou seja, se ZCalc > ZTab ou se ZCalc < - ZTab.

RA
(1 - a)

RR RR
(a/2) (a/2)
0
- Valor Crítico Valor Crítico
-ZTab ZTab 137
Tudo bem. Até agora eu

Banco de imagens/NEaD
entendi. Sabemos quais
são os critérios para
rejeitar H0. No entanto,
e se eu tomar a
decisão errada?
Banco de imagens/NEaD

Você terá cometido um dos erros


definidos a seguir.

TIPOS DE ERROS EM UM TESTE DE HIPÓTESES

Imagine um tribunal no qual uma pessoa está sendo acusada de cometer um crime. Quais seriam as hipó-
teses declaradas?
Banco de imagens/NEaD

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Sabendo que a hipótese alternativa é sempre a hipótese contrária a hipótese nula, temos:

H0: O réu é inocente até que se prove o contrário


H1: O réu é culpado

Imagine que o julgamento será realizado por um teste de hipóteses. Podemos cometer dois tipos de erro
neste julgamento, sendo eles:

a) ERRO DO TIPO I (a): Declarar o réu inocente quando ele é culpado, ou seja, não rejeitamos H0 quando
deveríamos fazê-lo.
b) ERRO DO TIPO II (b): Declarar o réu culpado quando ele é inocente, ou seja, rejeitamos H0 quando não
deveríamos fazê-lo.

Esses dois tipos de erros são muito conhecidos na inferência estatística. O Erro do tipo I é o mais impor-
tante a ser evitado, sendo conhecido como o Nível de Significância do teste (α), no qual normalmente é
previamente definido (os valores mais utilizados são: 1%, 5% ou 10%). Já para o caso da decisão correta
de não rejeitar H0 quando ela é verdadeira, definimos como (1–α) e a chamamos de Nível de Confiança
do teste. Naturalmente procura-se obter baixo nível de significância e, consequentemente, alto nível de
confiança.

Em um teste de hipóteses, deve-se ter todo o cuidado em não cometer um destes erros. Assim, trabalhare-
mos com a probabilidade de ocorrência do Erro do Tipo I e II. Logo, podemos defini-los como:

ERRO TIPO I (α)

Probabilidade de rejeitar H0 dado que H0 é verdadeira.

138 P (rejeitar H0 | H0 é verdadeira)

ERRO TIPO II (β)

Probabilidade de não rejeitar H0 dado que H0 é falsa.

P (não rejeitar H0 | H0 é falsa)

SAIBA MAIS
Quando se toma uma decisão em um teste de hipóteses, não basta informar se rejeitou a hipóte-
se nula ou não. Deve-se informar o nível de significância (α) ou o nível de confiança (1-α) em sua
conclusão, pois vemos que há uma probabilidade de termos cometido o Erro do Tipo I.

EXEMPLO 1: Com 95% de confiança, rejeita a hipótese nula...

EXEMPLO 2: Com 5% de significância, não rejeita a hipótese nula...

PROCEDIMENTOS PARA A CONSTRUÇÃO DE UM TESTE DE HIPÓTESES

1. Definir o tipo de teste a ser realizado (teste para média, proporção, variância, etc.);

2. Estabelecer a Hipótese Nula (H0) e a Hipótese Alternativa (H1) do teste;

3. Escolher um nível de significância α;

4. Estabelecer a região de rejeição e não rejeição, encontrando o valor crítico do teste;

Obs: Lembre-se de que se o teste for bilateral deve fazer α/2. Se for unilateral, use α.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

5. Definir a regra de decisão do teste;

6. Calcular a estatística de teste;

7. Tomar uma decisão: Se a estatística de teste estiver na região de rejeição, rejeita-se H0; se estiver na
região de não rejeição, não se rejeita H0;

8. Informar o nível de confiança (1 – α) ou o nível de significância (α) do teste na conclusão.

TESTE PARA A MÉDIA

O Teste de Hipóteses para a média é realizado de duas formas distintas, dependendo do conhecimento do
pesquisador sobre a variância da população. A seguir, veremos os dois tipos:

TESTE PARA A MÉDIA QUANDO σ2 É CONHECIDO

Quando queremos realizar um teste de hipóteses para a média populacional, se conhecemos o valor do
desvio-padrão ou variância da população, utilizamos a distribuição normal para definir a estatística do
teste e seu valor crítico. No entanto, se a população não for aproximadamente normal, mas o tamanho da
amostra for suficientemente grande (n ≥ 30), o Teorema Central do Limite garante que esta distribuição
convirja para uma distribuição normal e este teste poderá ser aplicado.

As hipóteses neste tipo de teste são:

H0 : µ = µ0
 µ ≠ µ0 Teste Bilateral (α / 2)

H1 :  µ > µ0 Teste Unilateral (α )
µ < µ
 0 Teste Unilateral (α ) 139
Sabendo que a média amostral é normalmente distribuída com média μ e variância σ 2 / n , vemos que a
estatística de teste segue uma distribuição normal padrão e é definida como:

X −µ
ZCalc =
σ2
n

O valor crítico (ZTab) será definido com base em α, e a regra de decisão será:

a) Se o teste for bilateral:

se –ZTab ≤ ZCalc ≤ ZTab, não se rejeita H0

b) Se o teste for unilateral à direita:

se ZCalc ≤ ZTab, não se rejeita H0

c) Se o teste for unilateral à esquerda:

se ZCalc ≥ -ZTab, não se rejeita H0

EXERCÍCIO RESOLVIDO
1. Suponha que em um estudo realizado recentemente, foi declarado que a altura média de crianças com
10 anos de idade é de 1,38 m com variância 0,04 m2. Um pesquisador médico decide averiguar se isto
ocorre em sua cidade. Assim, ele retira uma amostra aleatória simples de 80 crianças de 10 anos e
obtém uma altura média amostral de 1,43 m. Teste com 2,5% de significância se as crianças da cidade
do pesquisador apresentam altura superior àquela encontrada no estudo.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Definindo as hipóteses:

H0: μ = 1,38 m
H1: μ > 1,38 m

A estatística de teste será:


X −µ 1,43 − 1,38
ZCalc = = = 2,236 ≈ 2,24
σ 2 0,04
n 80

O valor crítico será determinado com base em α = 2,5%. Como o teste é unilateral à direita, haverá
apenas uma região de rejeição. Deste modo, qual será o valor de Z que deixará como resto uma área
de 2,5% da distribuição?
RA
1- a = 97,5%

RR
a = 2,5%

0
ZTab
Utilizando a Tabela da Normal Padrão (ANEXO A), precisamos saber o coeficiente que deixa uma área
de 0,025 à direita. Repare que metade do gráfico é equivalente a 0,5 (50%). No entanto, precisamos
140 retirar desta área o valor de α (2,5% ou 0,025). Assim, diminuímos o valor de α de 50%. Achando o
valor de 0,475. A pergunta é: qual o valor de zTab tal que nos dê uma probabilidade de 0,475?
P ( 0 < Z < zTab ) = 0,5 − 0,025 = 0,4750
Olhando na Tabela da Normal Padrão, devemos procurar de forma contrária a que utilizávamos. Antes,
procurávamos por meio do coeficiente z e achávamos uma probabilidade. Agora que já sabemos a pro-
babilidade (0,4750), precisamos saber o valor de zTab que nos dá esta probabilidade.

Ao analisar a tabela abaixo, percebemos que ela é parte da Tabela da Distribuição Normal Padrão que
se encontra no Anexo A. Devemos procurar na tabela a probabilidade exata 0,4750. Se não houver este
valor, devemos procurar o mais aproximado.

Distribuição Normal Padrão (forma reduzida).

Zc 0,00 0,01 0,02 0,03 0,04 0,05 0,06


0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772
..
.
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750

2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Note que o coeficiente zTab que nos dá uma probabilidade de 0,4750 é 1,96. Logo, temos que:

P (0 < Z < z Tab ) = 0,4750 ⇒ P (0 < Z < 1,96 ) =0,4750


Para o nosso exemplo, temos, portanto, ZTab = 1,96. Assim, temos como conclusão do teste:
RA
1- a = 97,5%

RR
a = 2,5%

0
ZTab ZCal
1,96 2,24
Assim, com 97,5% de confiança, como ZCalc > ZTab, rejeitamos a hipótese nula, ou seja, a altura média das
crianças com 10 anos de idade da cidade na qual o pesquisador realizou o estudo é acima de 1,38m.

2. A fábrica Cigar anuncia que o índice de nicotina dos seus cigarros é em média 27 mg por cigarro e
apresenta um desvio-padrão de 12,25 mg por cigarro. Uma fábrica concorrente analisou uma amos-
tra de 50 cigarros daquela e constatou uma média amostral de 22 mg por cigarro. Teste com 1% de
significância se os cigarros da fábrica Cigar apresentam uma quantidade de miligramas de nicotina
por cigarro menor do que o anunciado.
Definindo as hipóteses:
H0: μ = 27 mg
H1: μ < 27 mg
141
A estatística de teste será:
X −µ 22 − 27
ZCalc = = = −2,8861 ≈ −2,89
σ 2
12,252
n 50
O valor crítico será determinado com base em α = 1%. Como o teste é unilateral à esquerda, haverá
apenas uma região de rejeição. Qual valor de ZTab deixará como resto uma área de 1% da distribuição?
RA
1- a = 99%

RR
a = 1%
0
-ZTab
Utilizando a Tabela da Normal Padrão (ANEXO A), precisamos saber o coeficiente que deixa uma área de
0,01 à direita (considerando que pela propriedade de simetria da normal, a área à direita é a mesma à
esquerda). Note que metade do gráfico é equivalente a 0,5 (50%). No entanto, precisamos retirar desta
área o valor de α (1% ou 0,01). Assim, diminuímos o valor de α de 50%, encontrando o valor de 0,49.

A pergunta é: qual o valor de zTab tal que nos dê uma probabilidade de 0,49?

P ( 0 < Z < zTab ) = 0,5 − 0,01 = 0,49


Ao analisar a tabela abaixo (parte da tabela do Anexo A), observamos que não existe a probabilidade
exata de 0,49, Na verdade, existem duas probabilidades bem próximas: 0,4898 (coeficiente 2,32) e
0,4901 (coeficiente 2,33).

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Distribuição Normal Padrão (forma reduzida)

Z 0,00 0,01 0,02 0,03 0,04


0,0 0,0000 0,0040 0,0080 0,0120 0,0160
0,1 0,0398 0,0438 0,0478 0,0517 0,0557
0,2 0,0793 0,0832 0,0871 0,0910 0,0948
0,3 0,1179 0,1217 0,1255 0,1293 0,1331
0,4 0,1554 0,1591 0,1628 0,1664 0,1700

0,5 0,1915 0,1950 0,1985 0,2019 0,2054


0,6 0,2257 0,2291 0,2324 0,2357 0,2389
0,7 0,2580 0,2611 0,2642 0,2673 0,2703
0,8 0,2881 0,2910 0,2939 0,2967 0,2995
0,9 0,3159 0,3186 0,3212 0,3238 0,3264

1,0 0,3413 0,3438 0,3461 0,3485 0,3508


1,1 0,3643 0,3665 0,3686 0,3708 0,3729
1,2 0,3849 0,3869 0,3888 0,3907 0,3925
1,3 0,4032 0,4049 0,4066 0,4082 0,4099
1,4 0,4192 0,4207 0,4222 0,4236 0,4251

142 1,5
1,6
0,4332
0,4452
0,4345
0,4463
0,4357
0,4474
0,4370
0,4484
0,4382
0,4495
1,7 0,4554 0,4564 0,4573 0,4582 0,4591
1,8 0,4641 0,4649 0,4656 0,4664 0,4671
1,9 0,4713 0,4719 0,4726 0,4732 0,4738

2,0 0,4772 0,4778 0,4783 0,4788 0,4793


2,1 0,4821 0,4826 0,4830 0,4834 0,4838
2,2 0,4861 0,4864 0,4868 0,4871 0,4875
2,3 0,4893 0,4896 0,4898 0,4901 0,4904
2,4 0,4918 0,4920 0,4922 0,4925 0,4927
Logo, toda vez que não conseguirmos um valor exato para o coeficiente ZTab, faremos a média dos coeficien-
tes que apresentam as probabilidades mais próximas. Assim, temos que o valor de ZTab será a média entre
2,32 e 2,33, totalizando 2,325:
Então, para o nosso exemplo, temos o valor de ZTab = 2,325. Assim, temos como conclusão do teste:
P ( 0 < Z < zTab ) = 0,49 ⇒ P ( 0 < Z < 2,325) ≈ 0,49
RA
1- a = 99%

RR
a = 1%

0
-ZTab
ZCal
-2,325
-2,89
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Dessa forma, com 1% de significância, como ZCalc < -ZTab, rejeitamos a hipótese nula, ou seja, os cigarros da
fábrica Cigar apresentam uma quantidade de miligramas de nicotina por cigarro menor do que o anuncia-
do (27 mg).

EXERCÍCIO PROPOSTO
1. Por questão de segurança, a profundidade média de um mergulhador raso, profissional, utilizando
ar comprimido, é de aproximadamente 50 metros, com desvio-padrão de 10 metros. Foi seleciona-
da uma equipe de 42 mergulhadores e aferida a profundidade em que estes conseguiam mergulhar,
obtendo média de 52 m. Teste com 90% de confiança se esta equipe alcança a profundidade média
orientada pelo padrão de segurança.

2. Mediu-se o comprimento (em mm) da cauda de uma amostra de 35 ratos de determinada espécie, es-
colhidos aleatoriamente. Foi obtida uma média de 54 mm e variância 4 mm2. Para o rato estar dentro
da normalidade da sua espécie, deve apresentar 55 mm de comprimento médio de cauda. Teste com
97,5% de confiança se o rato está abaixo da normalidade para sua espécie.

3. Estudo recente informou que o salário médio de arquitetos com mais de 5 anos de profissão em certo
País é de 6,5 salários mínimos com desvio-padrão de 1 salário mínimo. Foi selecionada uma amostra
de 36 arquitetos com mais de 5 anos de profissão desse País e constatou-se um salário médio amostral
de 6 salários mínimos. Teste com 98% de confiança se o salário mínimo de arquitetos com esse tempo
de profissão desse País é realmente o que está descrito no estudo.

4. Um estudo comprovou que o peso médio (kg) excedente nas mochilas escolares para crianças com 10
anos de idade é de 5 kg com variância de 16 kg2. Foi retirada uma amostra de 41 crianças com essa
faixa etária e constatou-se um peso médio excedente em suas mochilas de 6 kg. Teste com 0,5% de
significância se o peso médio das mochilas excedente é acima que o descrito no estudo.
143
Então, ao realizarmos um teste
de hipóteses quando a variância é
conhecida, utilizamos a distribuição

Banco de imagens/NEaD
normal. Mas e se a variância
for desconhecida?
Banco de imagens/NEaD

Aí utilizamos uma nova distribuição


de probabilidade. A distribuição t de
Student. Antes de estudarmos o teste de
hipóteses para média quando a variância
é desconhecida, vamos conhecer esta
distribuição de suma importância.

DISTRIBUIÇÃO T DE STUDENT

A Distribuição t de Student é um modelo de distribuição contínua semelhante à distribui- O número de graus


ção normal padrão. No entanto, apesar de ser simétrica e ter média igual a zero (μ = 0), de liberdade para um
ela é mais “alargada” do que a normal, por apresentar maior variabilidade para pequenas conjunto de dados,
amostras. Todavia, na medida em que o tamanho da amostra (n) aumenta, mais próxima corresponde ao número
de uma distribuição normal padrão ela fica, até que para valores acima de 30, a diferença de valores que podem
entre as distribuições torna-se mínima. variar depois de terem
sido impostas certas
restrições a todos
os valores.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Distribuição T-Student e Normal

Distribuição Normal

Distribuição t-Student

-3 -2 -1 0 1 2 3

Utilizamos com maior frequência a distribuição t de Student quando se tem amostras inferiores a 30 ou
quando não conhecemos o desvio-padrão ou variância populacional. Diferentemente da distribuição Nor-
mal, que necessita apenas do nível de significância α, a distribuição t, além deste valor, possui um parâ-
metro adicional chamado “graus de liberdade”, diretamente relacionado ao tamanho da amostra (n). E de
forma similar à distribuição Normal, consultaremos uma nova tabela: a tabela da distribuição t.
A tabela da t relaciona valores da distribuição t de Student a áreas denotadas por α. Os valores de t são
obtidos localizando o número adequado de graus de liberdade, obtido por meio do tamanho da amostra
menos um, ou seja, n-1.
Na Tabela t, precisamos de dois parâmetros: o valor de e o número de graus de liberdade (sendo este
número obtido pelo tamanho da amostra menos um, ou seja, n-1). Logo, qual seria o valor da t para um
experimento realizado com uma amostra de tamanho 14 e 5% de significância (α = 0,05)?
Iremos representar a partir de agora pela seguinte notação:
144 t (α %; g .l .)
= t (α %; n−1)

No caso do nosso exemplo, temos t (α =5%; n−1=13) = t (5%; 13) . Analisando a tabela abaixo (versão completa no
Anexo B), vemos que o valor procurado de t é:
t (5%; 13)
= 1,7709

Distribuição T-Student (versão reduzida)


A
10% 5% 2,5% 1% 0,5%
g.l.
1 3,0777 6,3138 12,7062 31,8207 63,6574
2 1,8856 2,9200 4,3027 6,9646 9,9248
3 1,6377 2,3534 3,1824 4,5407 5,8409
4 1,5332 2,1318 2,7764 3,7469 4,6041
5 1,4759 2,0150 2,5706 3,3649 4,0322

6 1,4398 1,9432 2,4469 3,1427 3,7074


7 1,4149 1,8946 2,3646 2,9980 3,4995
8 1,3968 1,8595 2,3060 2,8965 3,3554
9 1,3830 1,8331 2,2622 2,8214 3,2498
10 1,3722 1,8125 2,2281 2,7638 3,1693

11 1,3634 1,7959 2,2010 2,7181 3,1058


12 1,3562 1,7823 2,1788 2,6810 3,0545
13 1,3502 1,7709 2,1604 2,6503 3,0123
14 1,3450 1,7613 2,1448 2,6245 2,9768
15 1,3406 1,7531 2,1315 2,6025 2,9467

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Exemplo:

1. Encontre os valores da distribuição t de Student com os seguintes parâmetros:

a) 1% de significância e amostra igual a 6: t (1% ; 5) = 3,3649

b) 2,5% de significância e amostra igual a 7: t (2,5% ; 6) = 2,4469

c) 5% de significância e amostra igual a 20: t (5% ; 19) = 1,7291

d) 10% de significância e amostra igual a 52: t (10% ; 51) = 1,2984

e) 5% de significância e amostra igual a 89: t (5% ; 88) = 1,6624

f) 0,5% de significância e amostra igual a 43: t (0,5% ; 42) = 2,6981

TESTE PARA A MÉDIA QUANDO σ2 É DESCONHECIDO

Quando queremos realizar um teste de hipóteses para a média populacional, se conhecemos o valor do
desvio-padrão ou variância da população, temos como base para a estatística do teste, a distribuição nor-
mal. No entanto, quando desconhecemos o desvio-padrão ou variância populacional (situação mais co-
mum na prática) tomamos como base uma nova distribuição de probabilidade, a distribuição t de Student.

O procedimento do teste é bastante similar ao anterior, o que mudará é a distribuição de probabilidade


utilizada (distribuição t). Neste caso, como não conhecemos σ2, precisamos calcular a estimativa S2 a partir
de uma amostra. Para a construção das hipóteses a serem analisadas, a região de rejeição será baseada
em uma estatística de teste com base na distribuição t de Student. As hipóteses neste tipo de teste são as
mesmas do anterior:
145
H0 : µ = µ0
 µ ≠ µ0 Teste Bilateral (α / 2)

H1 :  µ > µ0 Teste Unilateral (α )
µ < µ Teste Unilateral (α )
 0

Como a variância é desconhecida, vamos utilizar a variância amostral S2 como estimador. Assim, a estatís-
tica de teste segue uma distribuição t de Student, sendo definida como:

X −µ
TCalc =
S2
n

Onde o valor crítico (TTab) será definido com base em α e nos graus de liberdade (n-1).

A regra de decisão será:

a) Se o teste for bilateral:

se –TTab ≤ TCalc ≤ TTab, não se rejeita H0

b) Se o teste for unilateral à direita:

se TCalc ≤ TTab, não se rejeita H0

c) Se o teste for unilateral à esquerda:

se TCalc ≥ -TTab, não se rejeita H0

A seguir, veremos um exemplo de aplicação:

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

EXERCÍCIO RESOLVIDO
1. Segundo informações de um servidor, o tempo para transmitir certa quantidade em megabytes em de-
terminada rede de computadores é de em média 7,4 s. Depois de algumas mudanças na rede, um enge-
nheiro de computação acredita que houve uma mudança no tempo de transmissão de dados. A fim de
verificar, ele realizou um teste com uma amostra de 10 tentativas de transmissão da mesma quantidade
de megabytes, obtendo um tempo médio de transmissão de 7,95 s e um desvio-padrão de 1,08 s. Teste
com 10% de significância se o tempo médio de transmissão continuar sendo o informado pelo servidor.

Definindo as hipóteses:
H0: μ = 7,4 s
H1: μ ≠ 7,4 s
X −µ 7,95 − 7,4
A estatística de teste será: TCalc = = = 1,61
S2
1,082
n 10
O valor crítico será determinado com base em α = 10%. No entanto, perceba que difere do Exercício
resolvido 1 da página 139, como também o Exercício resolvido 2 da página 141. Repare que além de
utilizar a distribuição t de Student, o teste agora é bilateral (pois há o sinal da diferença em H1); logo, o
valor de α deverá ser dividido por 2 (considerando que há duas regiões de rejeição). Assim, utilizando
a tabela do Anexo B (versão resumida), temos:
t (α /2=5%; 10−1=9) = t (5%; 9) = 1,8331
Distribuição T-Student (versão reduzida)
A
10% 5% 2,5% 1% 0,5%
g.l.
1 3,0777 6,3138 12,7062 31,8207 63,6574
146 2 1,8856 2,9200 4,3027 6,9646 9,9248
3 1,6377 2,3534 3,1824 4,5407 5,8409
4 1,5332 2,1318 2,7764 3,7469 4,6041
5 1,4759 2,0150 2,5706 3,3649 4,0322

6 1,4398 1,9432 2,4469 3,1427 3,7074


7 1,4149 1,8946 2,3646 2,9980 3,4995
8 1,3968 1,8595 2,3060 2,8965 3,3554
9 1,3830 1,8331 2,2622 2,8214 3,2498
10 1,3722 1,8125 2,2281 2,7638 3,1693

Logo, teremos como conclusão do teste analisando o gráfico abaixo:

RA
(1- a) = 90%

RR RR
a/2 = 5% a/2 = 5%
0
-TTab TCal TTab
1,611
-1,8331 1,8331
Como –TTab ≤ TCalc ≤ TTab, conclui-se com 10% de significância que não se rejeita a hipótese nula, ou seja,
o tempo médio de transmissão de certa quantidade de megabytes em determinada rede de computa-
dores é de 7,4 s.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

2. Certa marca de automóveis está vendendo um novo modelo e afirma que o carro faz em média 17
km com um litro (km/l) de gasolina na estrada. Para constatar se isto realmente ocorre, uma revista
nacional de carros alugou oito automóveis do mesmo modelo e realizou um teste na estrada. Obtendo,
assim, média de 14,2 km/l e variância igual a 7,84 (km/l)2. Teste com 2,5% de significância se o carro
fizer uma quilometragem por litro menor do que é descrito pelo fabricante.

Definindo as hipóteses:

H0: μ = 17 km/l
H1: μ < 17 km/l

A estatística de teste será: X −µ 14,2 − 17


TCalc = = = −2,8284 ≈ −2,83
S 2 7,84
n 8

O valor crítico será determinado com base em α = 2,5%. Diferentemente do Exercício resolvido da
página 146, este teste é unilateral à esquerda. Logo, haverá apenas uma região de rejeição. Assim,
utilizando a tabela do Anexo B (versão resumida), temos:
t (α =2,5%; 8−1=7 )
= t (2,5%; 7)
= 2,3646

Distribuição t de Student (versão resumida).

A
10% 5% 2,5% 1% 0,5%
g.l.
1 3,0777 6,3138 12,7062 31,8207 63,6574
2 1,8856 2,9200 4,3027 6,9646 9,9248
3
4
1,6377
1,5332
2,3534
2,1318
3,1824
2,7764
4,5407
3,7469
5,8409
4,6041
147
5 1,4759 2,0150 2,5706 3,3649 4,0322

6 1,4398 1,9432 2,4469 3,1427 3,7074


7 1,4149 1,8946 2,3646 2,9980 3,4995
8 1,3968 1,8595 2,3060 2,8965 3,3554
9 1,3830 1,8331 2,2622 2,8214 3,2498
10 1,3722 1,8125 2,2281 2,7638 3,1693

Logo, teremos como conclusão do teste analisando o gráfico abaixo:

RA
1- a = 97,5%

RR
a = 2,5%
0
-TTab
-2,3643
TCal
-2,83
Como TCalc < -TTab, conclui-se com 2,5% de significância que se rejeita a hipótese nula, ou seja, o carro
em questão faz uma quilometragem por litro inferior ao descrito pelo fabricante.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

EXERCÍCIO PROPOSTO
1. Biólogos de um laboratório acreditam que o diâmetro pupilar médio de coelhos adultos sadios di-
minuiu. Foi tirada uma amostra de 12 animais, obtendo média igual a 5,2 mm de diâmetro pupilar
e variância de 1,44 mm2. Sabendo que em um estudo anterior, o diâmetro pupilar médio de coelhos
adultos sadios foi de 5,48 mm, teste com 0,5% de significância se a crença dos biólogos estiver correta.

2. Segundo as normas da Federação Internacional de Automobilismo (FIA), os capacetes utilizados na


Fórmula 1 (F1) devem resistir a testes de impacto e absorção de energia de em média 2.793 kg. Um
engenheiro mecânico retirou uma amostra de 28 capacetes de F1 e, após um experimento, obteve
um impacto e absorção de energia média de 3.017,43 kg e um desvio-padrão de 251,37 kg. Teste com
95% de confiança se os capacetes apresentarem um impacto e absorção de energia média superior às
normas da FIA.

3. Um fabricante de raquetes de tênis afirmou que o comprimento médio de suas raquetes é de 71 cm.
Foi comprado um lote com 20 raquetes desse fabricante e foi obtido uma média de 69 cm e desvio-
-padrão de 3 cm. Teste com 90% de confiança se o comprimento médio da raquete é o que o fabricante
afirmou.

4. Uma pesquisa realizada pela Fundação Instituto de Pesquisas Econômicas (FIPE) divulgou que o preço
médio da cesta básica em São Paulo em novembro de 2013 é de R$ 346,59. Assim, foram pesquisados
15 supermercados em São Paulo nesse mesmo período e foi obtido nessa amostra um preço médio
da cesta básica de R$ 340,00 com desvio-padrão de R$ 30. Teste com 97,5% de confiança se o preço
médio da cesta básica em São Paulo nesse período está abaixo do que o que foi descrito pelo FIPE.

TESTE PARA A PROPORÇÃO

148 Da mesma forma que poderemos estar interessados em testar a média, podemos testar também a propor-
ção. Por exemplo, suponha que um candidato a prefeito de certa cidade afirma que tem 52% dos votos dos
eleitores. Já o resultado de uma pesquisa de opinião realizada na cidade com 400 eleitores indicou que
há 47% dos votos favoráveis a ele. Mas e aí? O candidato A está certo ou errado? Se tivéssemos aplicado a
pesquisa com todos os eleitores, obteríamos o percentual afirmado pelo candidato A?

Uma questão como esta é facilmente resolvida com um teste de hipóteses para a proporção. Assim, defi-
nindo a proporção populacional "p" como a proporção de indivíduos que apresentam certa característica
de interesse na população e a proporção amostral como “ ”, teremos para o teste as seguintes hipóteses:

H0 : p = pˆ
 p ≠ pˆ Teste Bilateral (α / 2)

H1 :  p > pˆ Teste Unilateral à direta (α )
 p < pˆ Teste Unilateral à esquerda (α )

Vimos quando estudamos a distribuição amostral da proporção que sua distribuição é aproximadamente
normal, com média p e variância p(1-p)/n. Logo, a estatística de teste será descrita por:
pˆ − p
ZCalc =
p (1 − p )
n
em que:
p: proporção de indivíduos que apresentam certa característica de interesse na população
p̂: proporção de indivíduos que apresentam certa característica de interesse na amostra
n: tamanho da amostra.

O valor crítico (ZTab) será definido com base em um valor previamente fixado de α, e a regra de decisão
será:
a) Se o teste for bilateral:

Se –ZTab ≤ ZCalc ≤ ZTab, não se rejeita H0

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

b) Se o teste for unilateral à direita:

Se ZCalc ≤ ZTab, não se rejeita H0

c) Se o teste for unilateral à esquerda:

Se ZCalc ≥ -ZTab , não se rejeita H0

EXERCÍCIO RESOLVIDO

1. Suponha que um candidato a prefeito de certa cidade (candidato A) afirma que tem 52% dos votos
dos eleitores. Já o resultado de uma pesquisa de opinião realizada na cidade com 400 eleitores indicou
que há 47% dos votos favoráveis a ele. Teste com 10% de significância se a afirmação do candidato
estiver correta.

Definindo as hipóteses:
H0 : p = 0,52
H1 : p ≠ 0,52

A estatística de teste será:


pˆ − p 0,47 − 0,52 -0,05
ZCalc = = = = −2,0016 ≈ −2
p (1 − p ) 0,52(1 − 0,52) 0,000624
n 400

O valor crítico será determinado com base em α = 10%. No entanto, como o teste é bilateral, haverá
duas regiões de rejeição, nas quais a soma das duas regiões deverá ser igual a α (logo, cada região será
149
α/2 = 5%). Assim, temos como região de rejeição e não rejeição de H0:

RA
(1- a) = 90%

RR RR
a/2 = 5% a/2 = 5%
0
-ZTab ZTab

Sabemos que a distribuição amostral da proporção é normal, e por isso, vamos utilizar tal distribuição
que se encontra no Anexo A. Precisamos saber qual é o coeficiente que deixa uma área de 0,05 à direita
(consequentemente deixará também à esquerda). Repare que metade do gráfico é equivalente a 0,5
(50%). No entanto, precisamos retirar dela o valor de α (5% ou 0,05). Assim, diminuímos o valor de
α de 50%, encontrando o valor de 0,45. A pergunta é: qual o valor de zTab tal que nos dê uma proba-
bilidade de 0,45?
P ( 0 < Z < zTab ) = 0,5 − 0,05 = 0,45

Ao analisar a tabela abaixo, percebemos que ela é na verdade parte da Tabela da Distribuição Normal
Padrão que se encontra no Anexo A. Devemos procurar dentro da tabela a probabilidade exata 0,45. Se
não houver esse valor, devemos procurar o mais aproximado.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Distribuição Normal (versão reduzida)

Zc 0,00 0,01 0,02 0,03 0,04 0,05 0,06


0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123


0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454
0,7 0,2580 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315

1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554


1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279

150 1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406


1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750

2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803

Repare que há dois valores mais próximos de ZTab (0,4495, dado pelo coeficiente 1,64, e 0,4505, dado
pelo coeficiente 1,65). A fim de obter melhor aproximação, faremos a média dos dois coeficientes, ou
seja, a média de 1,64 com 1,65, cujo resultado é 1,645. Sendo assim, temos:

P ( 0 < Z < zTab ) = 0,45 ⇒ P ( 0 < Z < 1,645) = 0,45


Então, para o nosso exemplo, temos ZTab = 1,645. Logo, a conclusão do teste é:
RA
(1- a) = 90%

RR RR
a/2 = 5% a/2 = 5%
0
ZCal -ZTab ZTab
-2
-1,645 1,645
Como ZCalc < -ZTab, com 90% de confiança rejeita-se a hipótese nula, ou seja, a afirmação do candida-
to A não é correta, pois ele apresenta um percentual de votos favoráveis diferente de 52%.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

2. Dados dos meses anteriores informam que 95% da produção de um tipo de calçado em certa máquina
não apresentam defeitos. No entanto, os 5% restantes apresentam algum defeito na sola de borracha.
Foi comprada uma nova máquina de produção, que produziu 300 calçados, com 288 em perfeito es-
tado, tendo os demais algum defeito na sola de borracha. Teste com 0,5% de significância se a nova
máquina produzir mais itens em perfeito estado do que a antiga máquina.

Definindo as hipóteses:

H0 : p = 0,95
H1 : p > 0,95

Primeiro, devemos calcular a proporção amostral. Sabemos que foram construídos 300 calçados e
que 288 estavam em perfeito estado. Logo, temos:

nº de objetos que têm a característica de interesse na amostra


pˆ = =
nº total de objetos pesquisados da amostra
288
= = 0,96
300

A estatística de teste será:


pˆ − p 0,96 − 0,95 0,01
ZCalc = = = = 0,7948 ≈ 0,79
p (1 − p ) 0,95(1 − 0,95) 0,0001583
n 300

O valor crítico será determinado com base em α = 0,05%. Uma vez que o teste é unilateral, haverá
apenas uma região de rejeição. Assim, temos como região de rejeição e não rejeição de H0:
151
RA
1- a = 99,5%

RR
a = 0,05%

0
ZTab

Utilizando a Tabela da Normal Padrão (Anexo A), precisamos saber o coeficiente que deixa uma área
de 0,005. Note que metade do gráfico é equivalente a 0,5 (50%). No entanto, precisamos retirar desta
área o valor de α (0,5% ou 0,005). Assim, diminuímos o valor de α de 50%, encontrando o valor de
0,4950. A pergunta é: qual o valor de zTab tal que nos dê uma probabilidade de 0,4950?

P ( 0 < Z < zTab ) = 0,5 − 0,005 = 0,4950

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Ao analisar a tabela abaixo, percebemos que ela é parte da Tabela da Distribuição Normal Pa-
drão que se encontra no Anexo A. Devemos procurar dentro da tabela a probabilidade exata
0,4950. Se não houver este valor, devemos procurar o mais aproximado.

Distribuição Normal (versão reduzida)

Z 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08


0,0 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319
0,1 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714
0,2 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103
0,3 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480
0,4 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844

0,5 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190


0,6 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517
0,7 0,2611 0,2642 0,2673 0,2703 0,2734 0,2764 0,2794 0,2823
0,8 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106
0,9 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365

1,0 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599


1,1 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810
152 1,2 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997
1,3 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162
1,4 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306

1,5 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429


1,6 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535
1,7 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625
1,8 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699
1,9 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761

2,0 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812


2,1 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854
2,2 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887
2,3 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913
2,4 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934

2,5 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951


2,6 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963

Observe que há dois valores mais próximos de ZTab (0,4949, dado pelo coeficiente 2,57, e 0,4951,
dado pelo coeficiente 2,58). A fim de obter melhor aproximação, faremos a média dos dois coeficien-
tes, ou seja, a média de 2,57 com 2,58, cujo resultado é 2,575. Logo, temos:

P ( 0 < Z < zTab ) = 0,4950 ⇒ P ( 0 < Z < 2,575) = 0,4950

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Então, para o nosso Exercício resolvido, temos ZTab = 2,575. Logo, a conclusão do teste é:

RA
1- a = 99,5%

RR
a = 0,05%

0
ZCal ZTab
0,79 2,575

Como ZCalc ≤ ZTab, com 99,5% de confiança não se rejeita a hipótese nula, ou seja, a máquina nova pro-
duz a mesma quantidade de calçados em perfeito estado.

EXERCÍCIO PROPOSTO
1. O governo declarou em um estudo que o percentual de crianças adotadas no País por ano com idade
acima de 12 anos é igual a 20%. Em um orfanato, só no ano passado, 25% das 150 adoções foram
crianças nesta faixa etária. Teste com 8% de significância se este orfanato apresenta um percentual 153
acima do declarado pelo Governo.

2. Um fabricante de cartuchos de tinta para impressora está qualificando uma nova máquina de pro-
dução. Ele qualificará se a percentagem de cartuchos produzidos com defeito for no máximo 2% (ou
igual a 2%). Uma amostra aleatória de 250 cartuchos contém oito defeituosas. Teste ao nível de signi-
ficância de 0,5% se a máquina não pode ser qualificada (obtendo percentual de cartuchos com defeito
acima de 2%).

3. Um estudo realizado indicou que 80% das crianças com idade entre 8 a 10 anos apresentam fortes do-
res nas costas devido ao excesso de peso da mochila escolar. Uma amostra de 400 crianças dessa faixa
etária apresentou 336 com excesso de peso em sua mochila. Teste ao nível de significância de 3% de
significância se o percentual de crianças com peso acima do permitido é o mesmo descrito no estudo.

4. O fabricante de uma marca de capacetes de motociclistas informa que 1% de seus produtos apresenta
algum defeito. Uma amostra aleatória de 50 capacetes foi submetida a um teste de impacto para ava-
liar sua resistência em caso de acidentes. Foi observado algum dano em 2 destes capacetes. Teste ao
nível de significância de 3% se o percentual dos capacetes produzidos com defeito está abaixo do que
o fabricante afirmou.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Correlação e regressão linear simples


Nos capítulos anteriores, estudamos a análise descritiva dos dados e a teoria das probabilidades com
maior atenção aos modelos probabilísticos, tendo também estudado inferência estatística no início deste
capítulo. No entanto, até agora estávamos tratando de uma variável em análise.
Por exemplo, quando tínhamos interesse em estudar as notas de alunos de uma turma, estudávamos apenas
seu rendimento utilizando as notas que tiraram na prova. Entretanto, quando temos uma amostra do rendi-
mento acadêmico de alunos, há várias outras variáveis que podiam ser estudadas, como: número de disciplinas
que estão cursando no semestre, semestre que estão cursando, percentual de conclusão do curso, se já pos-
suem outra graduação, etc. Podemos ver que há grande possibilidade de estas variáveis estarem relacionadas.
Assim, é possível estudar a influência que uma variável pode exercer na outra. Quando se faz este tipo de
estudo, estamos realizando uma análise bivariada. Na Estatística, uma análise bivariada é o caso mais sim-
ples de análises de mais de uma variável. É muito comum ser realizada também uma análise multivariada
(estudo de mais de duas variáveis). No entanto, aqui vamos explorar apenas o estudo de duas variáveis.

Mas como se faz uma análise deste tipo (bivariada)?

Banco de imagens/NEaD
Banco de imagens/NEaD

Para fazermos uma análise


deste tipo, precisamos
conhecer os conceitos de
correlação Linear de Pearson e
Análise de Regressão
Linear Simples.

154 COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON

Para uma análise de duas variáveis, estamos interessados em saber se cada unidade observada de uma va-
riável Y (conhecida como variável dependente ou resposta) sofre influência de cada unidade observada de
uma variável X (conhecida como variável independente ou explanatória), ou seja, se elas estão relacionadas.
Suponha, por exemplo, o peso de uma pessoa. Será que a altura exerce influência em seu peso? Será que
O termo
quanto mais alta essa pessoa for, mais pesada ela também será?
“correlação”
O comportamento conjunto dessas duas variáveis (Peso Vs. Altura) pode ser observado graficamente por
significa até que
meio do Diagrama de Dispersão e numericamente por meio do Coeficiente de Correlação.
ponto duas
variáveis estão
Diagrama de Dispersão
relacionadas
Gráfico bastante utilizado para verificar o grau de associação, correlação linear ou dependência entre duas va-
entre si.
riáveis estudadas. Para sua construção, basta colocar uma variável em função de outra em um plano cartesiano.
Para interpretar um diagrama de dispersão, basta observar a direção e a dispersão dos pontos. Se há
correlação linear, os pontos estarão alinhados como uma reta (de forma ascendente ou descendente). A
seguir, veremos os tipos de diagramas de dispersão.
a) Correlação linear positiva: Se X e Y crescem no mesmo sentido (são diretamente proporcionais);
Correção linear positiva
20

r = 0,8996
15
y
10
5

2 4 6 8 10 12
x
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

b) Correlação linear positiva perfeita: Se X cresce na mesma proporção de Y (Exemplo: Se X aumenta 50%
Y aumenta 50%);
Correção linear positiva perfeita

120
r=+1

100
80
y
60
40
20

2 4 6 8 10 12
x
c) Correlação linear negativa: Se X e Y variam em sentidos contrários (são inversamente proporcionais);

Correção linear negativa


r = - 0,9534
20

155
15
y
10
5

2 4 6 8 10 12
x

d) Correlação linear negativa perfeita: Se X cresce, Y diminui na mesma proporção (Exemplo: Se X aumen-
ta 50%, Y diminui 50%);

Correção linear negativa perfeita


120

r=-1
100
80
y
60
40
20

2 4 6 8 10 12
x

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

e) Correlação linear nula: Se X cresce e Y varia ao acaso (não há padrão de reta). Não existe correlação li-
near;
Correção linear nula
r = 0,0051

80
60
y
40
20
0

0 10 20 30 40
x

f) Correlação não linear: Se existe uma relação entre X e Y, no entanto, não se trata de relação linear.

Correção não-linear
25
20

156
15
y
10
5

0 10 20 30 40 50
x

EXERCÍCIO RESOLVIDO
1. Logo abaixo temos uma tabela com o peso (kg) e altura (m) de 12 alunos de uma turma de matemáti-
ca. Construa o diagrama de dispersão.

Peso e altura dos alunos (dados brutos)

Peso (Y) 82,4 55,4 92,4 75,8 70,1 58,0 88,5 77,9 64,3 67,9 57,8 60,5
Altura (X) 1,85 1,51 1,92 1,77 1,72 1,60 1,90 1,80 1,64 1,70 1,54 1,65

Sabemos que a variável Peso é a variável dependente, pois pode sofrer influência da variável Altura,
sendo esta a variável independente. No entanto, a fim de constatar, vamos construir o Diagrama de
Dispersão e calcular a correlação entre ambos:

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Figura 6 – Diagrama de dispersão entre peso e altura.

1.9
1.8
y - Altura (m)
1.7
1.6
1.5

60 70 80 90
x - Peso (kg)

Observe na figura 6 que X e Y crescem no mesmo sentido. Quando constatamos isto no diagrama de
dispersão, dizemos que existe correlação linear positiva entre as variáveis.

Com base no diagrama, sabemos que


existe uma correlação linear. No entanto, 157

Banco de imagens/NEaD
ela é alta ou baixa?

Para saber isto, precisamos


quantificar a correlação
Banco de imagens/NEaD

por meio do Coeficiente de


Correlação de Pearson!

COEFICIENTE DE CORRELAÇÃO LINEAR DE PEARSON

É uma medida do grau de dependência linear entre duas variáveis. Este coeficiente, representado por r
(correlação amostral) ou ρ (correlação populacional), é dado pela fórmula:

 n  n 
Correlação n  ∑ X i  ∑Yi 
 i =1  i =1 
positiva entre duas ∑ X Y
i i −
n
variáveis mostra apenas r= i =1

que essas   n   
2
 n  
2

variáveis crescem no  n  ∑ Xi    n  ∑Yi  


 X 2 −  i =1   ⋅  Y 2 −  i =1  
mesmo sentido. Não indica ∑ i n  ∑ i n 
que aumentos sucessivos  i =1   i =1 
   
em X causam aumentos    
sucessivos em Y.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

em que:
n tamanho da amostra (quantidade de elementos de X ou Y);
n

∑X
i =1
i soma de todos os elementos de X;
n

∑Y
i =1
i soma de todos os elementos de Y;

∑X Y
i =1
i i
soma do produto de X com Y;
n

∑X
i =1
2
i soma de todos os elementos de X (cada um ao quadrado);
n

∑Y
i =1
i
2
soma de todos os elementos de Y (cada um ao quadrado);

OBSERVAÇÕES:
• O valor de r varia de (–1) a (+1), ou seja, -1 ≤ r ≤ +1;
• Valores de r iguais a (–1) e (+1) indicam que os pontos estão exatamente sobre a reta, isto é, a correla-
ção é perfeita e o diagrama de dispersão mostrará pontos que formam uma reta perfeita;
• Valores próximos de (–1) e (+1) indicam correlação forte;
• Valores próximos de zero indicam correlação fraca;
• Quanto mais próxima de zero for a correlação, maior será o indício de que não há correlação;
• O sinal de r indica se a correlação é positiva (+) ou negativa (-).

Além de uma correlação ser positiva ou negativa, podemos classificá-la com relação à intensidade da asso-
ciação entre as duas variáveis estudadas. O quadro 4 ilustra os tipos de classificação:

Quadro 4 – Classificação sobre a intensidade de correlação linear.


158 Correlação Correlação Tipo de
negativa positiva correlação
0 0 Nula
-0,30 até 0 0 até 030 Fraca
-0,60 até -0,30 0,30 até 0,60 Média
-0,90 até -0,60 0,60 até 0,90 Forte
-0,99 até -0,60 0,90 até 0,99 Fortíssima
-1 +1 Perfeita

http://fr.wikipedia.org/wiki/Karl_Pe-
arson #mediaviewer/Fichier:Karl_Pe-
SAIBA MAIS
Karl Pearson (1857-1936) foi um renomado estatístico britânico que contri-
buiu para o desenvolvimento da Estatística como uma área científica. Foi o
fundador do Departamento de Estatística Aplicada na University College
London em 1911, sendo o primeiro departamento universitário dedicado à
disciplina no mundo. Suas inúmeras contribuições à área destacam-se nas
arson.jpg

áreas de regressão e correlação.

EXERCÍCIO RESOLVIDO
1. Logo abaixo temos uma tabela que mostra o peso (kg) e a altura (m) dos alunos de uma turma de ma-
temática. Calcule o Coeficiente de Correlação Linear.
Peso e altura dos alunos (dados brutos)
Peso (Y) 82,4 55,4 92,4 75,8 70,1 58,0 88,5 77,9 64,3 67,9 57,8 60,5
Altura (X) 1,85 1,51 1,92 1,77 1,72 1,60 1,90 1,80 1,64 1,70 1,54 1,65

Para o cálculo da correlação de X com Y, devemos obter a soma de X e de Y, a soma do produto de X com
Y e a soma do quadrado de X e Y. Apesar de inicialmente as contas parecerem grandes, organizando-as
em um quadro, temos um procedimento de mais fácil compreensão. O quadro 3.2 ilustra os procedi-
mentos, com os valores ao final representando a soma de cada coluna.
ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Quadro 5 - Cálculos para a correlação


n Xi Yi Xi ° Yi X² Y²
1 1,85 82,40 152,44 3,42 6,789,76
2 1,51 55,40 83,65 2,28 3,069,16
3 1,92 92,40 177,41 3,69 8,537,76
4 1,77 75,80 134,17 3,13 5,745,64
5 1,72 70,10 120,57 2,96 4,914,01
6 1,60 58,00 92,80 2,56 3,364,00
7 1,90 88,50 168,15 3,61 7,832,25
8 1,80 77,90 140,22 3,24 6,068,41
9 1,64 64,30 105,45 2,69 4,134,49
10 1,70 67,90 115,43 2,89 4,610,41
11 1,54 57,80 89,01 2,37 3,340,84
12 1,65 60,50 99,83 2,72 3,660,25
Total 20,60 851,00 1.479,13 35,56 62.066,98

Com base nisto, temos que:


n n
n = 12 ∑X = 20,60 ∑Y i = 851
i
i =1 i =1

n n n

∑X Y i i = 1.479,13 ∑X 2
i = 35,56 ∑Y
i =1
i
2
= 62.066,98
i =1 i =1

A partir destes valores, podemos calcular o coeficiente de correlação.


 n  n 
n  ∑ X i  ∑Yi 
X iYi −  i =1  i =1 
159
∑ n
r= i =1

  n   
2
 n  
2

 n  ∑ X i    n  ∑ Y i  
 X 2 −  i =1   ⋅  Y 2 −  i =1  
∑ i n  ∑ i n 
 i =1   i =1 
   
   
(20,6)(851)
1.479,13 −
= 12 =
 ( 20,6 )   ( 851) 
2 2

 35,56 −  ⋅  62.066,98 − 
 12   12 
   
1.479,13 − 1.460,88
= =
(35,56 − 35,36 ) ⋅ ( 62.066,98 − 60.350,08)
18,25 18,25 18,25
= = = = 0,9849
(0,2) ⋅ (1.716,9) 343,38 18,53

Logo, r = 0,9849, ou seja, há uma fortíssima correlação positiva entre o peso e a altura destes alunos.
Assim, na medida em que aumenta a altura, o peso também aumenta. No entanto, para constatar que
haveria uma alta correlação caso retirássemos novas amostras, iremos aprender na próxima seção
um teste da existência de correlação linear.
E para a situação em que
haverá uma correlação
linear negativa?
Banco de imagens/NEaD
Banco de imagens/NEaD

O procedimento será o mesmo. No


entanto, para ilustrar, veremos a
seguir um exemplo para este caso!

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

2. Seja o tempo (horas) e a velocidade média (km/h) de 11 pessoas que fizeram uma viagem de 400 km
em seus automóveis. Construa um diagrama de dispersão e calcule a correlação linear.
Tempo e velocidade das pessoas (dados brutos)

Y - Tempo de 4,0 5,5 4,5


4,0 4,5 3,5 5,0 3,9 3,3 3,7 3,0
viagem (hs)
X - Velocidade
100 80 102 88 89 130 85 110 145 120 160
média (km/h)

Sabemos que a variável Tempo de viagem (variável dependente) provavelmente sofre influência da
variável Velocidade média (variável independente). No entanto, para constatar, vamos construir o Dia-
grama de Dispersão e calcular a correlação entre eles:

Figura 7 – Diagrama de dispersão entre peso e altura.


160
y - Tempo de viagem (hs)
140
120
100

160
80

3.0 3.5 4.0 4.5 5.0 5.5


x - Velocidade média (km/h)
Com relação à figura 3.2, observa-se que há uma relação linear inversa, ou seja, na medida em que
aumenta a velocidade média (X), diminui o tempo de viagem (Y), caracterizando-se, portanto, uma cor-
relação negativa. Todavia, vamos averiguar quanto será essa correlação. Para tanto, o quadro 6 ilustra
os valores para os cálculos a serem realizados.
Quadro 6 – Cálculos para a correlação.
n Xi Yi Xi ° Yi X² Y²
1 100 4,0 400 10.000 16,00
2 80 5,5 440 6.400 30,25
3 102 4,0 408 10.404 16,00
4 88 4,5 396 7.744 20,25
5 89 4,5 401 7.921 20,25
6 130 3,5 455 16.900 12,25
7 85 5,0 425 7.225 25,00
8 110 3,9 429 12.100 15,21
9 145 3,3 479 21.025 10,89
10 120 3,7 44414.400 13,69
11 160 3,0 480 25.600 9,00
Total 1.209,00 44,90 4.756,00 139.719,00 188,79
Com base nisto, temos que:
n = 11 n n

∑ X i = 1.209,00 ∑Y
i =1
i = 44,90
i =1

n n
n

∑ X iYi = 4.756,00 ∑ X i2 = 139.719,00 ∑Y


i =1
i
2
= 188,79
i =1
i =1

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

A partir destes valores, podemos calcular o coeficiente de correlação.

 n  n 
n  ∑ X i  ∑Yi 
∑ X iYi −  i =1  i =1 
n
r= i =1

  n   
2
 n  
2

 n  ∑ X i    n  ∑ Y i  
 X 2 −  i =1   ⋅  Y 2 −  i =1  
∑ i n  ∑ i n 
 i =1   i =1 
   
   
(1.209)(44,9)
4.756 −
= 11 =
 ( 1.209 )   ( 44,9) 
2 2

 139.719 −  ⋅  188,79 − 
 11   11 
   
4.756 − 4.934,92
= =
(139.719 − 132.880,09) ⋅ (188,79 − 183,27)
-178,92 -178,92 -178,92
= = = = −0,9209
(6.838,91) ⋅ (5,52) 37.750,78 194,29

Logo, r = -0,9209, ou seja, há uma fortíssima correlação linear negativa entre a velocidade média e o
tempo de viagem. Assim, na medida em que aumenta a velocidade média, o tempo de viagem diminui.

3. Os dados abaixo apresentam o número de cafezinhos tomados num shopping (Y) em 10 dias e o nú-
mero de pessoas que passaram pelo Shopping no mesmo período. Construa um diagrama de disper-
são e calcule a correlação linear.
161
Número de cafés e de pessoas (dados brutos)

Y 1500 2800 2500 2000 1750


X 1100 2500 2400 1900 1400

Vamos averiguar se o número de cafezinhos é influenciado pelo número de pessoas que passam pelo
Shopping em que o café é vendido. Para averiguar, vamos construir o Diagrama de Dispersão:

Figura 8 – Diagrama de dispersão entre X e Y.


900
y - Números de cafezinhhos
800
700
600
500
400
300

60 80 100 120 140 160


x - Números de pessoas que passam pelo Shopping
Observa-se pela figura 3.3 que não á um padrão de correlação nem positiva nem negativa. Logo, há for-
tes indícios da correlação entre essas duas variáveis ser baixa ou nula. Isso parece ser lógico, pois não
necessariamente as pessoas que entram no Shopping irão tomar café. Para constatar, vamos calcular o
coeficiente de correlação entre eles: O Quadro 7 ilustra os valores para os cálculos a serem realizados.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Quadro 7 – Cálculos para a correlação.

n Xi Yi Xi · Yi X2 Y2
1 749 49 36.701 561.001 2.401
2 650 51 33.150 422.500 2.601
3 249 62 15.438 62.001 3.844
4 830 65 53.950 688.900 4.225
5 497 74 36.778 247.009 5.476
6 574 89 51.086 329.476 7.921
7 749 95 71.155 561.001 9.025
8 946 111 105.006 894.916 12.321
9 251 120 30.120 63.001 14.400
10 642 145 93.090 412.164 21.025
11 501 157 78.657 251.001 24.649
Total 6.638 1.018 605.131 4.492.970 107.888

Com base nisto, temos que:


n
n = 11 n

∑X
i =1
i = 6.638 ∑Y i = 1.018
i =1
n

∑X Y
n n
= 605.131
i =1
i i
∑X
i =1
2
i = 4.492.970 ∑Y i
2
= 107.888
i =1

A partir destes valores, podemos calcular o coeficiente de correlação.


162  n  n 
n  ∑ X i  ∑Yi 
 i =1  i =1 
∑ X Y
i i −
n
r= i =1

  n   
2
 n  
2

 n ∑ i X   n ∑ i  
Y
 X 2 −  i =1   ⋅  Y 2 −  i =1  
∑ i n  ∑ i n 
 i =1   i =1 
   
   
(6.638)(1.018)
605.131 −
= 11 =
 ( 6.638 )   ( 1.018 ) 
2 2

 4.492.970 −  ⋅  107.888 − 
 11   11 
   
605.131 − 614.316,73
= =
( 4.492.970 − 4.005.731,27 ) ⋅ (107.888 − 94.211,27)

-9.185,73 -9.185,73 -9.185,73


= = = = −0,1125
( 487.238,73) ⋅ (13.676,73) 6.663.832.555,75 81.632,3

SAIBA MAIS
É possível que exista uma relação entre duas variáveis, mas na verdade não exista nenhuma re-
lação de causa-efeito. Essa indicação de relação linear pode ocorrer por mera coincidência ou
devido a influência de uma terceira variável. Chamamos o estudo desse fenômeno de Regressão
Espúria.

Por exemplo, pode ser que encontremos uma relação entre chuvas na cidade de Fortaleza e nas-
cimento de crianças prematuras. Ou seja, há necessidade de certa teoria por trás de uma relação.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Até agora eu entendi. Mas se depois de


calcular a correlação entre duas variáveis for
constatado um forte valor de r, posso afirmar

Banco de imagens/NEaD
que a correlação será alta sempre
para essas duas varáveis?

Não. Precisamos fazer um teste para


Banco de imagens/NEaD

saber se isso ocorreria com novas


amostras. Veremos este teste
(Teste de correlação linear) a seguir.

SAIBA MAIS
O link abaixo mostra como se calcula o coeficiente de correlação linear
no Microsoft Excel.

http://www.youtube.com/watch?v=TIdz-szSN08

Teste de hipóteses para a existência de correlação

Depois de ter calculado a correlação entre duas variáveis, faz-se necessário averiguar se a correlação re-
almente existe entre elas. Apesar de muitas vezes o pesquisador encontrar uma forte correlação em duas 163
variáveis, ainda há possibilidade dessa correlação ter sido forte apenas na amostra encontrada, podendo
ser diferente caso o pesquisador faça um novo experimento.

Portanto, veremos a seguir um teste de hipóteses para averiguar se realmente existe correlação linear. O
resultado do teste terá nível de confiança (1-α) e nível de significância α. Logo, as hipóteses a ser testadas
são:
H0 : ρ = 0
H1 : ρ ≠ 0
A hipótese nula será o veredicto de não haver correlação linear entre as variáveis. Consequentemente, a
hipótese alternativa descreve a situação na qual haverá correlação linear entre as variáveis.

A estatística do teste é baseada no tamanho de amostra (n) e no valor da correlação linear de Pearson (r).
Terá distribuição t de Student e pode ser calculada por:
r
TCalc =
1 − r2
n−2
O valor crítico (TTab) será encontrado com base na tabela t do Anexo B. No entanto, devemos utilizar na
tabela o valor de α/2 e o número de graus de liberdade (n-2). Observe neste último que teremos n-2 graus
de liberdade, pois temos duas variáveis em questão (ao invés de apenas uma, como visto no teste de hipó-
teses para média quando σ2 é desconhecido). Logo, teremos como TTab:
TTab = t (α /2 ; n−2)

Os critérios de rejeição do teste são:

a) se –TTab ≤ TCalc ≤ TTab , não se rejeita H0


b) se TCalc > TTab , rejeita-se H0
c) se TCalc < -TTab , rejeita-se H0

Observação: Uma vez constatado em teste de hipóteses que há correlação linear entre as variáveis, o pró-
ximo passo será definir um modelo matemático que descreva a relação linear entre X e Y.
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

EXERCÍCIO RESOLVIDO

1. Seja o peso e a altura dos 12 alunos do Exercício resolvido 1 da página 158. Realize o teste de hipóte-
ses da correlação linear com 95% de confiança.

Vemos no Exercício resolvido da página 158 que r = 0,9849 e n = 12. Vamos definir as hipóteses a
serem testadas:
 H0 : ρ = 0

 H1 : ρ ≠ 0
Se H0 for rejeitada, então, com (1-α)% de confiança, afirmaremos que existe correlação linear entre as
variáveis. Caso contrário (H0 não é rejeitada), assumiremos que não existe correlação linear.
Logo, a estatística de teste será:
r 0,9849 0,9849 0,9849
TCalc = = = = = 17,99
1−r 2
1 − 0,98492
0,002997199 0,05474668
n−2 12 − 2

O valor crítico será dado por:


TTab = t (5%/2 ; 12−2)
= t (2,5% ; 10)
= 2,2281

Assim, como TCalc > TTab (17,99 > 2,2281), rejeita-se H0 com 95% de confiança, ou seja, existe correlação
linear entre X e Y.

2. Seja o tempo e a velocidade média das 11 pessoas do Exercício resolvido 2 da página 160. Realize o
teste de hipóteses da correlação linear com 1% de significância.
164
Vimos no Exercício resolvido a página 160 que r = -0,9209 e n = 11. Vamos definir as hipóteses a serem
testadas:
 H0 : ρ = 0

 H1 : ρ ≠ 0
Se H0 for rejeitada, então, com (1-α)% de confiança, afirmaremos que existe correlação linear entre as
variáveis. Caso contrário (H0 não é rejeitada), assumiremos que não existe correlação linear.

Logo, a estatística de teste será:


r −0,9209 −0,9209 −0,9209
TCalc = = = = = −7,0875
1−r 1 − ( −0,9209) 0,129933
2 2
0,01688258
n−2 11 − 2
O valor crítico será dado por:
TTab = t (1%/2 ; 11−2)
= t (0,5% ; 9)
= 3,2498

Assim, como TCalc < -TTab (-7,0875 < 3,2498), rejeita-se H0 com 99% de confiança, ou seja, existe corre-
lação linear entre X e Y.

3. Seja o número de cafezinhos e o número de pessoas que passam pelo Shopping do Exercício resolvi-
do 3 da página 161, realize o teste de hipóteses da correlação linear com 1% de significância.

Como r = -0,1125, a correlação entre o número de cafezinhos e o número de pessoas que passaram no
Shopping é fraca ou inexistente. Vamos definir as hipóteses a serem testadas:
 H0 : ρ = 0

 H1 : ρ ≠ 0
Se H0 for rejeitada, então, com (1-α)% de confiança, afirmaremos que existe correlação linear entre as
variáveis. Caso contrário (H0 não é rejeitada), assumiremos que não existe correlação linear.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Logo, a estatística de teste será:

r −0,1125 −0,1125 −0,1125


TCalc = = = = = −0,3397
1−r 1 − ( −0,1125) 0,3312
2 2
0,1097
n−2 11 − 2

O valor crítico será dado por:

TTab = t (1%/2 ; 11−2)


= t (0,5% ; 9)
= 3,2498

Assim, como -TTab ≤ TCalc ≤ TTab (-3,2498 ≤ -0,3397 ≤ 3,2498), não se rejeita-se H0 com 99% de confian-
ça, ou seja, não existe correlação linear entre X e Y. Assim sendo, o número de cafezinhos tomados no
Shopping não é influenciado pelo número de pessoas que passam pelo mesmo local.

REGRESSÃO LINEAR SIMPLES

Vimos na seção anterior que é possível analisar se há relação linear entre duas variáveis, assim como se
pode quantificar tal relação e testar sua existência. No entanto, surge o problema de determinar uma fun-
ção que exprima este relacionamento. A seguir, veremos um modelo matemático que poderá descrever a
relação entre duas variáveis.

SAIBA MAIS
Como surgiu a expressão: “Análise de Regressão”?
http://pt.wikipedia.org/wiki/Francis_
Galton#mediaviewer/Ficheiro:Francis_

A expressão “análise de regressão” foi utilizada pela primeira vez por Sir
Francis Galton, antropólogo, meteorologista, matemático e estatístico in-
glês, nascido em Haslemere (Surrey), em 1822, e falecido aos 88 anos, em
1911. Francis Galton realizou inicialmente um estudo das alturas de pais
165
(X) e filhos (Y). Observe que a variável dependente é a altura dos filhos. E
Galton estava interessado em saber se existia relação linear sobre a altura
Galton_1850s.jpg

do pai com o filho, ou seja, se a altura do pai iria influir na altura do filho.
Para realizar a regressão, o pesquisador ajustou uma li-
nha de mínimos quadrados e usou-a para prever a altura
dos filhos a partir da altura dos pais. Ele percebeu que se
a altura dos pais fosse acima da média, o mesmo ocorria
com a altura dos filhos. No entanto, a altura média dos filhos era inferior à
altura média dos pais. Com isso, Galton observou que a altura dos filhos
regrediu em relação à média. E daí, ele se referiu à linha dos mínimos qua-
drados como uma linha de regressão.

Equação da reta de regressão

A análise de regressão visa à descrição, por meio de um modelo matemático, da relação existente entre
duas variáveis. O modelo de regressão linear simples segue o mesmo modelo de uma função do 1ª grau
(Y = aX +b), na qual sua equação da reta pode ser representada por:

Yi = β0 + β1 X i + ε i
em que:
Y variável dependente

X variável independente

β0 intercepto da reta ou coeficiente linear da reta

β1 inclinação da reta ou coeficiente angular da reta

ε i erro aleatório de Y para a observação i. Isolando εi da reta de regressão, temos: ε i = Yi − ( β0 + β1 X i ) .
Ele representa a omissão de todas as variáveis que afetam a variável dependente e foram omitidas
no modelo, ou por erro de especificação ou por falta de dados
ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

OBSERVAÇÕES:
• A inclinação representa a mudança esperada de Y por unidade de X, isto é, representa a mudança
de Y (tanto positiva quanto negativa) para uma particular unidade X;
• O intercepto representa o valor de Y quando X = 0;
• O erro representa uma variável aleatória com distribuição normal de média 0 e variância σ2 e que
descreve o erro de Y para cada observação i.

Mas como iremos utilizar este modelo na prática?

Banco de imagens/NEaD
Veremos um exemplo a seguir para
ilustrar este procedimento. No
entanto, precisamos antes conhecer
os coeficientes da reta, ou seja, as
Banco de imagens/NEaD

equações que definem

Coeficientes da reta de regressão

Acabamos de conhecer o modelo matemático para a reta de regressão. No entanto, precisamos conhecer
os coeficientes da reta. Assim, veremos o exemplo a seguir:

Considere duas variáveis. Uma é a renda mensal bruta em reais (X) e a outra é o gasto mensal em reais (Y)
166 de 5 funcionários de uma concessionária de automóveis. Os dados seguem abaixo:

Y 1500 2800 2500 2000 1750


X 1100 2500 2400 1900 1400

Analisando o Diagrama de Dispersão (Figura 3.4), observamos uma possível relação linear. No entanto,
perceba que podemos traçar inúmeras retas, dentre as quais nenhuma consegue contemplar todos os
pontos. Assim, qual seria a melhor reta que contém a menor distância entre todos os pontos do diagrama?
Qual o critério para identificarmos o melhor modelo?

Figura 9 - Diagrama de dispersão.


1200 1400 1600 1800 2000 2200 2400
y - Gasto mensal diário

1600 1800 2000 2200 2400 2600 2800


x - Renda mensal bruta

Para selecionar a melhor reta que dará um melhor ajuste para os dados, utiliza-se o método dos mínimos
quadrados, ou seja, traçaremos uma reta que minimize a distância entre todos os pontos, como pode ser
observado na figura 9:

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Figura 10 – Método dos mínimos quadrados.

ε5

1200 1400 1600 1800 2000 2200 2400


ε4

y - Gasto mensal diário


ε3

ε2

ε1 ε1
1600 1800 2000 2200 2400 2600 2800
x - Renda mensal bruta

Na figura 10, é possível observar a distância entre a reta e o ponto, representada pela reta vermelha e com
n
valor quantificado por εi. Supondo que S = ∑ ε i2 , o método de mínimos quadrados irá estabelecer a me-
i =1
lhor reta na qual o valor de S será o menor possível.

n n

∑ε = ∑ Y − ( β + β1 X i )  , nosso objetivo é encontrar os valores dos parâmetros β0 e β1 que


2
Seja S = 2
i i 0
i =1 i =1
tornam S mínimo. Para isso, precisamos derivar S com relação a β0 e β1: 167
n
∂S
∂β0 i =1

= −2 Yi − β0 − β1 X i 

n
∂S
∂β1 i =1

= −2 X i Yi − β0 − β1 X i 

Para que S seja mínimo, ambas as equações devem ser igualadas a zero. Usando b0 e b1 como estimadores
de mínimos quadrados de β0 e β1, temos:
n
−2 ∑ Y − b
i =1
i 0 − b1 X i  = 0

n
−2 ∑ X Y − b
i =1
i i 0 − b1 X i  = 0

Desenvolvendo as equações, teremos:


n n


i =1
Yi − nb0 − b1 ∑Xi =1
i =0

n n n


i =1
X iYi − b0 ∑i =1
X i − b1 ∑Xi =1
2
i =0

Dessas duas equações, podemos formar o seguinte sistema:

 n n


 Yi − nb0 − b1
 i =1 i =1
Xi = 0 ∑
 n n n

 ∑
 i =1
X Y
i i − b0
i =1
X i −∑b1
i =1
X i2 = 0 ∑

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Nomeando o sistema em (I) e (II), temos:


 n n


 Yi = nb0 + b1 X i
 i =1 i =1
∑ (I )
 n n n

∑
 i =1
X i Yi = b0
i =1
X i +∑b1
i =1
X i2 ∑ ( II )

Estas duas equações são conhecidas como equações normais para a determinação de b0 e b1. Vamos resol-
ver o sistema para encontrar a equação que representará os dois valores.

Assim, a partir de (I) vamos dividir todos os elementos por n. Lembrando que

 n
  n

 X = ∑ x i / n  e que  Y = ∑ yi / n  , temos:
 i =1   i =1 
n n

∑Y
i =1
i
nb
b1 ∑X
i =1
i
= 0+ ⇒ Y = b0 + b1 X ⇒ b0 = Y − b1 X
n n n

Substituindo o valor b0 em (II), teremos:


n n n


i =1
X iYi = b0 ∑
i =1
X i + b1 ∑Xi =1
2
i

n n n

∑ (
X iYi = Y − b1 X ) ∑ X i + b1 ∑ X i2
168 i =1 i =1 i =1

Desenvolvendo os parênteses:
n n n n


i =1
X iYi = Y ∑
i =1
X i − b1 X ∑ i =1
X i + b1 ∑X
i =1
2
i

Desenvolvendo a equação da média tanto para X quanto para Y, temos:


 n  n   n  n 
n
 Yi 
  ∑ X i  b1 
 ∑ X i 

Xi 
 n ∑ ∑
∑i =1
X iYi = 
i =1  i =1  −  i =1  i =1  + b
n n
1
i =1
X i2 ∑
2
 n  n   n 
n
 Yi 
  ∑ Xi 
 ∑
b1 

Xi 
 n ∑
∑i =1
X iYi − 
i =1  i =1  = −  i =1  + b
n n
1
i =1
X i2 ∑
Colocando b1 em evidência, temos:

 n  n    n 
2 
n
 Yi 
  ∑ Xi 
 ∑
 n


Xi 
 ∑ 


i =1
X iYi −  i =1 
n
i =1  = b1 
 i =1
Xi −
2  i =1
n

∑ 

 
 
 
Isolando b1, temos:
 n  n 
n  ∑
 Yi 

Xi 
 ∑

i =1
X iYi − 
i =1  i =1 
n
b1 = 2
 n 
n

 ∑
Xi 


i =1
X i2 − 
i =1
n

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Assim, podemos reescrever a equação da reta de regressão em função dos estimadores de mínimos qua-
drados b0 e b1 da seguinte forma:

yˆ = bo + b1 x

onde ŷ é o valor estimado a partir de dado valor de x e com os coeficientes da reta b0 e b1.

EXERCÍCIO RESOLVIDO

1. Utilizando os dados do Peso (kg) e altura (m) de 12 alunos de uma turma de matemática fornecidos
pelo Exercício resolvido 1 da página 158, forneça a equação da reta de regressão.

Do Exercício resolvido da página 158, temos:


n n
n = 12 ∑X
i =1
i = 20,60 ∑Y
i =1
i = 851

n n n
∑X Y
i =1
i i = 1.479,13 ∑X 2
i = 35,56 ∑Y i
2
= 62.066,98
i =1 i =1

Queremos escrever a equação da reta de regressão, que é dada por:


yˆ = bo + b1 x

Assim, precisamos encontrar o valor de b0 e b1. Logo, teremos:

 n  n 
169
n

 ∑X i  Yi 
 ∑

i =1
X iYi − 
i =1  i =1 
n
b1 = 2
 n 
n

 ∑ Xi 


i =1
X i2 − 
i =1
n

1.479,13 −
(20,6 )( 851)
12 1.479,13 − 1460,88 18,25
= = = = 91,25
35,56 −
(20,6 )2 35,56 − 35,36 0,2
12

Uma vez encontrado o valor de b1, podemos facilmente encontrar o valor de b0.

b0 = Y − b1 X
n n


i =1
yi ∑x
i =1
i
= − b1
n n
851 20,6
= − ( 91,25) = 70,92 − 156,65=-85,73
12 12

Logo, a equação da reta de regressão pode ser escrita como:

yˆ = −85,73 + 91,25x

Analisando o modelo de regressão, observamos que o peso dos alunos será dado por 91,25 kg para
cada metro de altura que o aluno tiver, menos 85,73 kg.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

2. Utilizando os dados do tempo (horas) e a velocidade média (km/h) de 11 pessoas que fizeram uma
viagem de 400 km em seus automóveis, fornecidos pelo Exercício resolvido 2 da página 160, demons-
tre a equação da reta de regressão.

Do Exercício resolvido da página 160, temos:


n n

n = 11 ∑X i = 1.209,00 ∑Y i =1
i = 44,90
i =1

n n

∑Y
n
= 188,79
∑ X iYi = 4.756,00 ∑ X i = 139.719,00
2 2
i
i =1 i =1
i =1

Queremos escrever a equação da reta de regressão, dada por:

yˆ = bo + b1 x

Assim, precisamos encontrar o valor de b0 e b1. Logo, temos:

 n  n 
n

 ∑ X i  Yi 
 ∑

i =1
X iYi − 
i =1  i =1 
n
b1 = 2
 n 
n

 ∑Xi 

∑i =1
X i2 − 
i =1
n

(1.209)( 44,9)
170 =
4.756 −
11 =
4.756 − 4.934,92
=
-178,92
= −0,0262
139.719 −
(1.209)2 139.719 − 132.880,09 6.838,91
11
Uma vez encontrado o valor de b1, podemos facilmente encontrar o valor de b0.

b0 = Y − b1 X
n n

∑y
i =1
i ∑x
i =1
i
= − b1
n n
44,9 1.209
= − ( −0,0262) = 4,08+2,88=6,96
11 11
Logo, a equação da reta de regressão pode ser escrita como:

yˆ = 6,96 − 0,0262x
Analisando o modelo de regressão, observamos que o tempo de viajem será de 6,96 hs menos 0,0262
hs para cada aumento na velocidade média ( km/h ).

Uso da reta de regressão para previsões

As equações do modelo de regressão também podem ser utilizadas para realizar previsões de uma variá-
vel (dado o valor da outra variável).

No entanto, só é recomendado fazer previsão quando o modelo se ajusta bem aos dados, ou seja, quando
após o teste de hipóteses de correlação a hipótese nula foi rejeitada.

Observação: Utilizamos a notação " ŷ ” para indicar uma previsão a partir de um dado valor de x e dos
coeficientes da reta.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

EXERCÍCIO RESOLVIDO
1. Utilizando os dados do Peso (kg) e altura (m) de 12 alunos da turma de matemática do Exercício re-
solvido 1 da página 158, realize as seguintes previsões:

a) Qual seria o peso (kg) para um aluno de 1,75 m?


A questão solicita uma previsão da variável dependente Y, dado o valor 1,75 m da variável indepen-
dente X. Precisamos resolver este problema da equação da reta de regressão que foi encontrada no
Exercício resolvido 1 da página 169, sendo ela:
yˆ = −85,73 + 91,25x
Logo, temos que X = 1,75. Desse modo, temos:
yˆ = −85,73 + 91,25(1,75) = 73,9575 ⇒ yˆ = 73,96 kg

b) Qual seria a altura (m) para um aluno de 100 kg?


O que a questão solicita é similar ao solicitado pela primeira questão, mas ao contrário. Foi dado um
valor de Y e precisamos saber o valor de X.
100 = -85,73 + 91,25x
91,25x = 100 + 85,73
91,25x = 185,73
185,73
x= = 2,035 ⇒ x = 2,04 m
91,25
2. Utilizando os dados do tempo (horas) e a velocidade média (km/h) de 11 pessoas que fizeram uma
viagem de 400 km em seus automóveis, conforme o Exercício resolvido 2 da página 160, forneça a
equação da reta de regressão.
171
a) Qual seria o tempo de viagem se o condutor fosse a 180 km/h?
O que a questão solicita é uma previsão da variável dependente Y, dado o valor 180 da variável inde-
pendente X. Precisamos resolver este problema da equação da reta de regressão que foi encontrada no
Exercício resolvido 2 da página 170, sendo ela:
yˆ = 6,96 − 0,0262x
Logo, podemos dizer que x = 180. Assim, temos:
yˆ = 6,96 − 0,0262(180) = 2,24 ⇒ yˆ = 2,24 hs

b) Qual seria a velocidade média que o condutor deveria seguir se pretendesse chegar a seu destino em
seis horas de viagem?

O que a questão solicita é similar ao requisitado pela primeira, mas ao contrário. Foi dado um valor de
Y, precisamos saber o valor de X.
6 = 6,96 − 0,0262x
0,0262x = 6,96 − 6
0,0262x = 0,96
0,96
x= = 36,6 ⇒ x = 37 km / h
0,0262

Coeficiente de Determinação (r2)

O Coeficiente de Determinação (r2) é o valor que mede o efeito da variável independente X na variação de
Y, ou seja, o quanto X exerce influência em Y. O valor de r2 pode ser obtido por:
n

∑( )
2
Y −Y
variação explicada do modelo
r2 = = i =1
2
variação total do modelo  n 
n ∑  Yi 
 
∑ i =1
2  i =1
Yi −
n

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Ele indicará o percentual que, X explica Y e pode ser calculado elevando ao quadrado o coeficiente de cor-
relação linear de Pearson (outra forma de calculá-lo seria a descrita acima). Como o valor de r varia entre
-1 e +1, e como o coeficiente de determinação estará elevado a um expoente par, r2 varia apenas entre zero
e um, ou seja:
0 ≤ r2 ≤ 1
Observações:

• Se todas as observações seguem uma reta perfeita (r = ±1), então r2 = 1. Neste caso, a variável X explica
toda variação nas observações Y;
• Se b1 = 0, então Ŷ = Y e r2 = 0. Isso significa que X não exerce influência nenhuma na variação de Y.
• À medida que são incluídas mais variáveis independentes no modelo de regressão (daí teríamos uma
regressão linear múltipla), maior será o coeficiente de determinação. No entanto, nem sempre um alto
valor de r2 significa que a reta de regressão está corretamente especificada, ou que o modelo esteja
bem ajustado aos dados. Uma vez que r2 é alto, ainda há a possibilidade de haver variáveis indepen-
dentes que quase não influenciam a variável dependente. Em situações como essa, existe a necessida-
de de testes mais complexos que não será abordado aqui.

SAIBA MAIS
Os links abaixo mostram como fazer regressão linear simples na calculadora CASIO fx-82MS.

172 http://www.youtube.com/watch?v=DGau_1at2Oc
http://www.youtube.com/watch?v=frzSEUrA5to

Já os links a seguir mostram como construir a reta de regressão no Microsoft Excel


http://www.youtube.com/watch?v=JLGTOlo-kQQ
http://www.youtube.com/watch?v=rx8uDzM5UYM
http://www.youtube.com/watch?v=wcubCNRc4nU

EXERCÍCIO RESOLVIDO
1. Utilizando os dados do tempo (horas) e a velocidade média (km/h) de 11 pessoas que fizeram uma
viagem de 400 km em seus automóveis, conforme o Exercício resolvido 1 da página 158, informe o
quanto a variável X explica a variável Y.

Vimos no Exercício resolvido 1 da página 158 que a correlação linear foi igual a 0,9849. Logo, r2 =
0,98492 = 0,9700, ou seja, 97% da variação de Y são explicados por X.

2. Utilizando os dados do tempo (horas) e a velocidade média (km/h) de 11 pessoas que fizeram uma
viagem de 400 km em seus automóveis, conforme o Exercício resolvido 2 da página 160, informe o
quanto a variável X explica a variável Y.

Vimos no Exercício resolvido 2 da página 160 que a correlação linear foi igual a 0,9849. Logo, r2 =
-0,92022 = 0,8468, ou seja, 84,68% da variação de Y são explicados por X.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

3. Seja o preço (R$) de revenda de um determinado carro [Y] e a quilometragem desse carro [X]. Foram
realizadas 14 medições durante o uso do carro e consultado seu preço de revenda de acordo com cada
medição da quilometragem rodada. Os dados são ilustrados abaixo:

X Y

[Quilometragem] [Preço de revenda (R$)]


5.000 42.000
10.000 40.000
15.000 37.000
20.000 34.000
25.000 31.000
30.000 30.000
35.000 28.500
40.000 27.000
45.000 25.200
50.000 24.700
55.000 24.000
60.000 22.500
65.000 22.000
70.000 21.000

a) Construa um Diagrama de Dispersão; 173


Veremos como se comporta uma variável em função da outra através do Diagrama de Dispersão. Logo,
pela figura 11 temos:

Figura 11 – Diagrama de dispersão entre X e Y.t


10000 20000 30000 40000 50000 60000 70000
y - Preço de revenda (R$)

2500 3000 3500 4000


x - Quilometragem rodada (km)

Observa-se que uma forte correlação negativa entre as variáveis X e Y. Ou seja, há fortes indícios de
que quanto maior será a quilometragem do carro, menor será o preço de revenda.

b) Calcule o coeficiente de correlação Linear de Pearson;

Construímos o Diagrama de Dispersão (figura 3.6) e constatamos que há fortes indícios de uma corre-
lação linear negativa. No entanto, precisamos averiguar quantitativamente quanto será essa possível
correlação. Assim, o Quadro 3.5 ilustra os valores para os cálculos a serem realizados.

ESTATÍSTICA
Autor: André Luiz Sena da Rocha E
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

Quadro 8 – Cálculos para a correlação.

n Xi Yi Xi · Yi X2 Y2
1 5.000 42.000 210.000.000 25.000.000 1.764.000.000
2 10.000 40.000 400.000.000 100.000.000 1.600.000.000
3 15.000 37.000 555.000.000 225.000.000 1.369.000.000
4 20.000 34.000 680.000.000 400.000.000 1.156.000.000
5 25.000 31.000 775.000.000 625.000.000 961.000.000
6 30.000 30.000 900.000.000 900.000.000 900.000.000
7 35.000 28.500 997.500.000 1.225.000.000 812.250.000
8 40.000 27.000 1.080.000.000 1.600.000.000 729.000.000
9 45.000 25.200 1.134.000.000 2.025.000.000 635.040.000
10 50.000 24.700 1.235.000.000 2.500.000.000 610.090.000
11 55.000 24.000 1.320.000.000 3.025.000.000 576.000.000
12 60.000 22.500 1.350.000.000 3.600.000.000 506.250.000
13 65.000 22.000 1.430.000.000 4.225.000.000 484.000.000
14 70.000 21.000 1.470.000.000 4.900.000.000 441.000.000
Total 525.000 408.900 13.536.500.000 25.375.000.000 12.543.630.000

Com base nisto, temos que:


n
n
n = 14 ∑Y = 408.900
174 ∑X
i =1
i = 525.000
i =1
i

n
n
∑Y
n
= 12.543.630.000
∑ X iYi = 13.536.500.000 ∑ X i2 = 25.375.000.000
2
i
i =1
i =1 i =1

A partir destes valores, podemos calcular o coeficiente de correlação:

 n  n 
n  ∑ X i  ∑Yi 
∑ X iYi −  i =1  i =1 
n
r= i =1

  n   
2
 n  
2

 n ∑ i X   n ∑ i  
Y
 X 2 −  i =1   ⋅  Y 2 −  i =1  
∑ i n  ∑ i n 
 i =1   i =1 
   
   

(525.000)(408.900)
13.536.500.000 −
= 14 =
 ( 525.000)   ( 408.900) 
2 2

 13.536.500.000 −  ⋅  25.375.000.000 − 
 14   14 
   

13.536.500.000 − 15.333.750.000
= =
(25.375.000.000 − 19.687.500.000) ⋅ ( 12.543.630.000 − 11.942.800.714,29)

-1.797.250.000 -1.797.250.000
= = =
(5.687.500.000) ⋅ ( 600.829.285,71) 3.417.216.562.475.625.000
-1.797.250.000
= = −0,9722
1.848.571.492

Logo, r = -0,9722, ou seja, há uma forte correlação negativa entre as duas variáveis. Logo, quanto maior
a quilometragem rodada pelo carro, menor será o preço de revenda.

ESTATÍSTICA
E Autor: André Luiz Sena da Rocha
III - INTRODUÇÃO À INFERÊNCIA ESTATÍSTICA, CORRELAÇÃO E REGRESSÃO LINEAR SIMPLES

c) Teste com 5% de significância se realmente há correlação entre as duas variáveis;

Vimos na letra (b) de que a correlação entre as variáveis foi negativa. Logo, precisamos testar, caso
fôssemos retirar novas amostras, se a correlação ainda seria negativa. Sendo assim, vamos definir as
hipóteses a serem testadas:
 H0 : ρ = 0

 H1 : ρ ≠ 0
Se H0 for rejeitada, então, com (1-α)% de confiança, afirmaremos que existe correlação linear entre
as variáveis. Caso contrário (H0 não é rejeitada), assumiremos que não existe correlação linear. Logo,
a estatística de teste será:
r −0,9722 −0,9209 −0,9209
TCalc = = = = = −7,0875
1−r 1 − ( −0,9722) 0,129933
2 2
0,00456893
n−2 14 − 2

O valor crítico será dado por:


TTab = t (5%/2 ; 14−2)
= t (2,5% ; 12)
= 2,1788

Assim, como TCalc < -TTab (-7,0875 < 2,1788), rejeita-se H0 com 95% de confiança, ou seja, existe corre-
lação linear entre X e Y.

d) Forneça a equação da reta;

Queremos escrever a equação da reta de regressão, dada por:


yˆ = bo + b1 x
Assim, precisamos encontrar o valor de b0 e b1. Logo, temos: 175
 n   n

n

 ∑
X i  Yi 
  ∑

i =1
X iYi − 
i =1  i =1 
n
b1 = 2
 n 
n

 ∑ Xi 

∑ i =1
X i2 − 
i =1
n

(525.000)(408.900)
13.536.500.000 −
= 14 =
13.536.500.000 −
( 525.000)
2

14
13.536.500.000 − 15.333.750.000
= =
25.375.000.000 − 19.687.500.000

-1.797.250.000
= = −0,316
5.687.500.000
b1 = −0,316
Uma vez encontrado o valor de b1, podemos facilmente encontrar o valor de b0.
b0 = Y − b1 X
n n


i =1
yi ∑x
i =1
i
= − b1
n n
408.900 525.000
= − ( −0,316 ) = 29.207,14+11.850=41.057,14
14 14
b0 = 41.057,