Você está na página 1de 338

Probabilidade e

Estatística

www.esab.edu.br
Probabilidade e
Estatística

Vila Velha (ES)


2014
Escola Superior Aberta do Brasil

Diretor Geral
Nildo Ferreira
Diretora Acadêmica
Beatriz Christo Gobbi
Coordenadora do Núcleo de Educação a Distância
Beatriz Christo Gobbi
Coordenadora do Curso de Administração EAD
Rosemary Riguetti
Coordenador do Curso de Pedagogia EAD
Claudio David Cari
Coordenador do Curso de Sistemas de Informação EAD
David Gomes Barboza

Produção do Material Didático-Pedagógico


Delinea Tecnologia Educacional / Escola Superior Aberta do Brasil

Diretoria Executiva Design Educacional


Charlie Anderson Olsen Aline Batista
Larissa Kleis Pereira Revisão Gramatical
Margarete Lazzaris Kleis Bárbara Seger Zeni
Conteudista Daniela Piantola
Michele Andreia Borges Hellen Melo Pereira
Coordenação de Projeto Laís Gonçalves Natalino
Patrícia Battisti Michela Silva Moreira

Líderança Técnica Design Educacional Design Gráfico


Renata Oltramari Fernando Andrade
Neri Gonçalves Ribeiro
Líderança Técnica Revisão Gramatical
Tiago Costa Pereira Diagramação
Grazielle Xavier
Supervisão de Design Gráfico
Laura Martins Rodrigues Equipe Acadêmica da ESAB
Coordenadores dos Cursos
Docentes dos Cursos

Copyright © Todos os direitos desta obra são da Escola Superior Aberta do Brasil.
www.esab.edu.br
Av. Santa Leopoldina, nº 840
Coqueiral de Itaparica - Vila Velha, ES
CEP 29102-040
Apresentação
Caro estudante,

Seja bem-vindo à disciplina de Probabilidade e Estatística. Estamos ingressando em


um campo de conhecimento que tem grande importância na tomada de decisão
nas mais diversas situações e áreas de conhecimento. A estatística e a probabilidade
nos dão suporte a decisões como a de realizar, por exemplo, uma cirurgia cuja
probabilidade de sucesso é apenas de 30%, a decisão de lavar o carro sabendo que
há 85% de chances de chover, entre outras situações. Por isso, convidamos você a
mergulhar nos estudos da probabilidade e da estatística.

Nesse módulo, trabalharemos principalmente com base nos autores Magalhães e


Lima (2005), Bussab e Morettin (2002) e Bisquerra, Martínez e Sarriera (2004).

Uma de nossas expectativas na disciplina é proporcionar a você um conhecimento


estatístico passível de aplicação em seu curso.

Esperamos que esteja animado para fazer este percurso. Convidamos você a iniciar os
estudos.

Bom estudo!
Objetivo
Conhecer os conceitos e cálculos estáticos, para compreender e aplicar esses
conhecimentos nas mais diversas áreas de atuação profissional ou acadêmica.

Habilidades e competências
• Compreender o conceito de estatística.
• Conhecer as medidas descritivas.
• Conhecer as distribuições de probabilidade.
• Apresentar os dados estatísticos em tabelas e gráficos.
• Descrever os dados estatísticos por meio de medidas de tendência central e dispersão.
• Calcular a probabilidade de determinados eventos ocorrerem.

Ementa
Conceitos preliminares. Noções de amostragem. Apresentação de dados.
Medidas de tendência central e de dispersão. Probabilidade, variáveis aleatórias.
Distribuição de probabilidades. Amostragem e estimativa de parâmetros.
Sumário
1. Conceitos preliminares.....................................................................................................7
2. Planejamento de uma pesquisa estatística....................................................................11
3. Noções de amostragem..................................................................................................16
4. Outros tipos de amostragem aleatória...........................................................................22
5. Apresentação dos dados: tabelas e gráficos...................................................................27
6. Tipos de gráficos estatísticos .........................................................................................33
7. Tabelas e gráficos...........................................................................................................40
8. Exercícios resolvidos.......................................................................................................47
9. Distribuição de frequência.............................................................................................53
10. Intervalo de classe e ponto médio..................................................................................59
11. Medidas de tendência central........................................................................................65
12. Moda, média e mediana para dados agrupados.............................................................71
13. Média geométrica e média harmônica...........................................................................80
14. Medida de dispersão......................................................................................................86
15. Variância e desvio-padrão para dados agrupados..........................................................93
16. Exercícios resolvidos.......................................................................................................99
17. Separatrizes e gráfico boxplot......................................................................................107
18. Medidas de assimetria e curtose..................................................................................113
19. Variável bidimensional.................................................................................................119
20. Diagrama de dispersão e coeficiente de correlação......................................................125
21. Regressão linear simples..............................................................................................133
22. Probabilidade: conceito e axiomas...............................................................................140
23. Probabilidade condicional e teorema de Bayes............................................................149
24. Teorema do produto.....................................................................................................155
25. Exercícios resolvidos.....................................................................................................161
26. Variável aleatória discreta............................................................................................166
27. Distribuição de Bernoulli..............................................................................................173
28. Distribuição binomial...................................................................................................178
29. Distribuição de Poisson................................................................................................186
30. Variáveis aleatórias contínuas......................................................................................191
31. Distribuição normal.....................................................................................................198
32. Exercícios resolvidos ....................................................................................................204
33. Aproximação normal à binomial..................................................................................211
34. Amostragem e inferência estatísticas...........................................................................217
35. Distribuições amostrais................................................................................................222
36. Estimação: conceitos e propriedades............................................................................232
37. Estimadores de mínimos quadrados e máxima verossimilhança..................................239
38. Exercícios resolvidos.....................................................................................................245
39. Intervalos de confiança................................................................................................250
40. Teste de hipóteses: introdução.....................................................................................257
41. Etapas para realizar um teste de hipótese....................................................................263
42. Testes bilaterais e unilaterais.......................................................................................269
43. Teste de hipótese para média e teste para proporção...................................................277
44. Exercícios resolvidos.....................................................................................................286
45. Teste t-Student.............................................................................................................294
46. Teste Qui-Quadrado.....................................................................................................302
47. Exercícios resolvidos.....................................................................................................311
48. Exercícios resolvidos.....................................................................................................321
Glossário.............................................................................................................................330
Referências.........................................................................................................................336
1 Conceitos preliminares
Objetivo
Introduzir os conceitos de estatística, amostra e população e
apresentar as etapas de uma pesquisa estatística e a classificação das
variáveis.

Muitas vezes, quando ouvimos falar em estatística, logo imaginamos


tabelas, gráficos e cálculos. No entanto, o “pensamento estatístico”
pertence ao nosso cotidiano, é usado de forma intuitiva para tomar
decisões a respeito de várias situações do dia a dia.

Uma situação trivial, por exemplo, é quando vamos sair de casa para o
trabalho ou para a faculdade. Sabemos que normalmente levamos em
média 20 minutos (por exemplo) para realizar o trajeto. Como fazemos
essa dedução? Conforme nossas experiências em realizar esse percurso,
reparamos que chegamos ao trabalho em aproximadamente de 20
minutos após termos saído de casa. Dependendo do trânsito, levamos
mais ou menos tempo. Mas, com a informação do tempo médio,
conseguimos tomar a decisão a respeito do horário em que devemos
acordar para nos arrumar e, assim, não chegar todos os dias atrasados ou
antecipados em nosso destino.

Em nenhum momento utilizamos um cálculo matemático formal,


fizemos a nossa análise estatística de maneira intuitiva. Porém, se
tivermos situações mais complexas, vamos necessitar de métodos e
técnicas formais para resolver o problema.

Se fizermos valer o pensamento estatístico sempre de forma intuitiva,


poderemos ser induzidos ao erro em situações mais complexas. Assim,
o estudo sistemático da estatística contribui para solucionar diversos
problemas, de modo a auxiliar nas tomadas de decisão.

Diante do emprego intuitivo da estatística em nosso cotidiano, podemos


nos perguntar: mas o que vem a ser, de fato, a estatística?

www.esab.edu.br 7
Segundo Magalhães e Lima (2005, p. 1), a estatística é “(...) como um
conjunto de técnicas que permite, de forma sistemática, organizar,
descrever, analisar e interpretar dados oriundos de estudos ou
experimentos, realizados em qualquer área de conhecimento”.

1.1 Conceitos básicos de estatística


Para Magalhães e Lima (2005), o estudo da estatística é dividido
basicamente em três grandes áreas:

Estatística descritiva: encarrega-se das etapas iniciais da análise dos


dados. Em outras palavras, seu propósito é descrever e resumir a
informação daquele determinado conjunto de dados, de forma a obter
conclusões sobre as principais características de interesse. Por exemplo:
em um fichário com informações de pacientes doadores de sangue,
descrever quantos têm o tipo sanguíneo AB positivo.

Probabilidade: podemos pensar em probabilidade como um ramo


matemático que estuda a incerteza proveniente de fenômenos aleatórios.
Por exemplo: a probabilidade de chover em certo dia é de 75%.

Inferência estatística: é o estudo de técnicas que nos permitem tirar


conclusões a partir de uma parcela (subconjunto) de valores do conjunto
original (total) de dados. Esse procedimento se faz necessário em muitos
estudos e experimentos por razões de natureza econômica, ética e física
ou, até mesmo, pela impossibilidade de acesso a todos os dados.

Em estudos mais complexos, geralmente são utilizadas as três áreas da


estatística. Você reparou que na descrição da área de inferência estatística
nós falamos em conjunto de dados total e em subconjunto desses dados?
Esses termos nos apresentam a dois grandes conceitos em estatística:
população e amostra.

• População: é o conjunto total de dados que engloba a característica


que nos interessa estudar. Exemplos: o conjunto de habitantes
de determinado bairro de uma cidade, o conjunto de alunos
matriculados em uma determinada turma etc.

www.esab.edu.br 8
• Amostra: é um subconjunto ou uma parte da população. Por
exemplo: para verificar o grau de instrução dos moradores de
determinado bairro, a amostra consistirá em pesquisar apenas alguns
moradores desse bairro, e não a população total que ali residente.
Veja na figura a seguir essa relação entre os dois conceitos:

Amostra

População

Figura 1 – População versus amostra.


Fonte: Elaborada pela autora (2013).

Agora, observe a resolução da atividade a seguir para a fixação dos


conceitos de população e amostra. Nas situações a seguir, vamos identificar
quando se referem a população e quando se referem a uma amostra.

a. Uma empresa possui 9.863 funcionários. Uma pesquisa, para


levantar as necessidades da empresa com relação aos aspectos
ergonômicos, foi aplicada a 1000 funcionários e detectou a
necessidade da implantação de novos sistemas de iluminação nos
ambientes.
b. Um paciente realizou uma coleta de sangue para verificar os níveis de
colesterol.
c. Uma empresa confeccionou 1.800 peças de certo produto; contudo,
os testes refinados de qualidade foram feitos em 80 peças.

www.esab.edu.br 9
Solução

a. A população é o conjunto total de indivíduos que temos interesse


em analisar. Nesse caso a população é os 9.863 funcionários da
empresa. Já a amostra é uma parcela dessa população; sendo assim, a
amostra foi composta por 1000 funcionários.
b. Nessa situação, o sangue do paciente é a população de interesse. Para
verificar o nível de colesterol de um indivíduo, basta coletar apenas
um pouco de sangue, isto é, uma amostra de sangue.
c. A população, nessa situação, são as 1.800 peças de certo produto, e a
amostra coletada para os testes de qualidade foram as 80 peças desse
produto.
Antes de concluirmos esta unidade, é importante você saber que para
utilizarmos a estatística como instrumento de tomada de decisão em um
determinado problema, precisamos compreender a sequência de algumas
etapas.

Saiba mais
Veja como a estatística é utilizada para responder
questões como: quantos somos? Quem vai vencer
a eleição para prefeito na capital do meu estado?
Quantas escolas municipais há no Brasil? Clique
aqui.

Nesta unidade compreendemos os conceitos básicos de estatística, e na


próxima unidade você conhecerá as etapas que fazem parte do processo
de uma pesquisa estatística. Até lá.

www.esab.edu.br 10
Planejamento de uma pesquisa
2 estatística
Objetivo
Conhecer a etapa de planejamento de uma pesquisa estatística.

Agora que já vimos alguns conceitos básicos em estatística, vamos nos


concentrar no planejamento de uma pesquisa estatística.

Seja qual for a pesquisa, sempre teremos um objetivo a ser alcançado ou


comprovado. Com a pesquisa estatística não é diferente. Dessa forma,
para executá-la, o primeiro passo é fazer um planejamento dessa pesquisa,
que consiste em primeiramente determinar o tema, o problema de
pesquisa e os objetivos a serem alcançados.

Para tanto, é conveniente fazer uma boa revisão de literatura (evitando


refazer o trabalho de outros autores) para compreender melhor o tema
em questão e delimitar até onde sua pesquisa vai se aprofundar. Vejamos
um exemplo de tema e problema de pesquisa.

• Tema: perfil dos estudantes de graduação em Administração e


Sistemas de Informação de uma Instituição de Ensino Superior
(IES).
• Problema de pesquisa: Qual o perfil dos estudantes de graduação
em Administração e Sistemas de Informação de uma IES?
Após a definição do tema, devemos traçar os objetivos, bastante
claros, que irão nortear a pesquisa. Temos sempre o objetivo geral e
os específicos. O objetivo geral da pesquisa é a principal meta que se
deseja alcançar. Ele está totalmente interligado ao tema e ao problema
de pesquisa. Já os objetivos específicos são as etapas para se chegar ao
objetivo geral. Vejamos como ficariam os objetivos, seguindo o mesmo
tema do exemplo anterior.

www.esab.edu.br 11
Objetivo geral: conhecer o perfil dos estudantes de graduação dos cursos
de Administração e Sistemas de Informação de uma IES.

Objetivos específicos:

a. conhecer as características individuais dos alunos;


b. avaliar o nível de satisfação dos alunos com o curso;
c. verificar se existe associação entre o nível de satisfação do aluno e o
seu rendimento escolar.
Perceba que o tema, o problema de pesquisa e o objetivo geral estão
relacionados entre si; dessa forma, para expressar o problema de pesquisa,
pegamos o tema e inserimos uma indagação no início (qual, como, por
que, quantos etc.). No caso do objetivo, pegamos o tema e inserimos
um verbo, isto é, uma ação que se deseja alcançar (verificar, analisar,
estudar, desenvolver, mapear etc.). Agora, retorne aos exemplos citados
anteriormente e observe como eles procedem dessa forma.

Após estabelecidos o tema, o problema, os objetivos gerais e específicos,


que fazem parte do planejamento de uma pesquisa, devemos pensar de
que forma coletar os dados para que possamos atingir os resultados.

2.1 Coleta de dados


Na etapa de coleta de dados, antes de colocar a “mão na massa”, é preciso
entender alguns conceitos e fazer a opção por um deles. Para começar,
devemos optar pelo tipo de pesquisa: direta e/ou indireta

A pesquisa direta, chamada também de primária, é um documento ou qualquer


fonte cuja origem remonta, de forma geral, à época que se está pesquisando,
frequentemente, produzida pelas próprias pessoas estudadas.

A pesquisa indireta, chamada também de secundária, consiste em todo o trabalho


que se baseia em outro, este sendo a fonte de origem ou primária. Tem como
característica o fato de não produzir uma informação original, mas sobre ela trabalhar,
procedendo a análise, ampliação, comparação etc. (SOUZA; FIALHO; OTANI, 2007, p. 36)

www.esab.edu.br 12
Outro fator-chave para a coleta de dados é a escolha das variáveis
de interesse da pesquisa. As variáveis são as características que
podem ser observadas (ou medidas) em cada elemento da população
(MAGALHÃES; LIMA, 2005).

Voltando ao nosso exemplo, na população dos estudantes de


Administração de uma IES, podemos definir as seguintes variáveis, com
base no objetivo específico (conhecer as características individuais dos
alunos): estado civil, idade, número de filhos etc.

As variáveis são classificadas em qualitativas (nominais e ordinais) e


quantitativas (discretas e contínuas).

NÍVEL DE MENSURAÇÃO

QUALITATIVAS: suas realizações QUANTITATIVAS (intervalares): suas


são atributos dos elementos realizações são números resultantes
pesquisados. de contagem ou mensuração.

Nominais: Ordinais: é Discretas: Contínuas:


apenas possível ordenar podem assumir podem assumir
identifica as as categorias apenas alguns infinitos valores.
categorias. valores.

Exemplo: estado Exemplo: Exemplo: número Exemplo: renda


civil: solteiro, satisfação no de filhos: 0, 1, 2,.. mensal: de 600 a
casado, atendimento: bom, 1.051,51 reais.
divorciado. regular, ruim.

Figura 2 – Classificação das variáveis em termos do nível de mensuração.


Fonte: Elaborada pela autora (2013).

www.esab.edu.br 13
Com as variáveis em mãos, deve-se pensar em como serão coletados os
dados: por meio de entrevista, questionário ou outros. Vamos apresentar
aqui como elaborar um questionário, ferramenta usualmente utilizada
para coletar dados.

A elaboração de um questionário deve ser feita com muita cautela. A


proposta da pesquisa, isto é, os objetivos, a população a ser estudada,
tudo isso deve estar bem claro.

Veja a seguir um exemplo de questionário para levantar dados sobre o


perfil dos alunos de Administração e Sistemas de Informação de uma IES.

1) Informe qual é o seu sexo: ( ) Feminino ( ) Masculino


2) Qual a sua idade? __________ (anos).
3) Você possui quantos filhos? __________.
4) Qual a fase predominante em que você se encontra no curso? __________.
5) Qual o nível de escolaridade de sua mãe?
( ) Sem escolaridade ( ) Ensino Fundamental ( ) Ensino Médio ( ) Ensino Superior ( )
Pós-graduado
6) Dê uma nota de 1 (um) a 5 (cinco), sendo o nível mínimo 1 e o nível máximo 5,
para as seguintes características relacionadas com você e seu curso.
a) Didática dos professores de seu curso: __________ (1 2 3 4 5).
b) Nível de conhecimento dos professores: __________ (1 2 3 4 5).
c) Satisfação com o curso, num sentido geral: __________ (1 2 3 4 5).
7) Como você avalia seu rendimento no curso?
( ) Ótimo ( ) Bom ( ) Regular ( ) Ruim ( ) Péssimo

www.esab.edu.br 14
Nesse questionário foram apresentadas algumas perguntas para coletar
os dados. Observe que temos várias formas de categorizar a resposta
às perguntas. Nas perguntas 2, 3 e 4 deixamos espaços livres para que
os entrevistados respondam. Já nas demais perguntas, acrescentamos
algumas opções de respostas. Note que na pergunta 6 solicitamos que o
entrevistado dê uma nota de 1 a 5, o que nos leva ao conhecimento da
escala de Likert, na qual as respostas para cada item variam segundo o
grau de intensidade.

Estudo complementar
Compreenda melhor a intervenção de escalas,
como a escala de Likert, para a construção de um
questionário. Para tanto, faça a leitura do artigo
“A escala Likert – coisas que todo o pesquisador
deveria saber”. Disponível aqui.

Com o questionário pronto, temos de analisar a viabilidade de se coletar


os dados na população total ou apenas em uma parcela dela, ou seja, em
uma amostra. Assim, na nossa próxima unidade apresentaremos a noção
de amostragem.

Dica
Para auxiliar no processo de construção de um
questionário, alguns procedimentos devem
ser levados em consideração. Para tanto, leia
os trechos das páginas 16, 17 e 18 do material
disponível aqui.

www.esab.edu.br 15
3 Noções de amostragem
Objetivo
Apresentar a diferença entre amostragem aleatória e não aleatória
e amostragem simples, tamanho de uma amostra e cálculo do erro
amostral.

Caro aluno, você está lembrando que, como vimos na unidade 1, uma
amostra é uma parte da população? Então, para determinar uma amostra
significativa de dada população, existem técnicas que chamamos de
técnicas de amostragem. Elas são o processo de seleção de uma amostra,
que possibilita o estudo das características desconhecidas da população.
As principais técnicas de amostragem são subdividas em amostragem
aleatória e não aleatória.

TÉCNICAS DE AMOSTRAGEM

Aleatória Não aleatória


• Intencional: ocorre quando o pesquisador
• Aleatória simples. seleciona intencionalmente os componentes
• Estratificada proporcional. da amostra.
• Sistemática. • Voluntária: ocorre quando o componente
• Por conglomerados. da população se oferece voluntariamente para
participar da amostra independentemente do
julgamento do pesquisador.

Figura 3 – Principais técnicas de amostragem.


Fonte: Elaborada pela autora (2013).

Nesta unidade veremos com mais detalhes a técnica de amostragem


aleatória simples.

Mas quais os motivos que nos levam a optar por uma amostragem, ao
invés de uma população?

www.esab.edu.br 16
Os motivos encontrados na literatura sobre estatística são basicamente:
a economia, pois com o número reduzido de elementos (ou pessoas)
a serem pesquisados aumenta a viabilidade financeira de se aplicar a
pesquisa; o tempo, pois é um fator decisivo em muitas pesquisas que
necessitam obter os resultados rapidamente, como as pesquisas eleitorais;
a operacionalidade, pois com um número reduzido de indivíduos a
serem pesquisados é mais fácil efetuar as operações necessárias para
levantar os dados da pesquisa; e a confiabilidade, pois a verificação e o
acompanhamento dos dados é mais simples.

Vale ressaltar que quando a população é pequena, ou com características de


fácil mensuração, ou com necessidade de alta precisão, como nas pesquisas
censitárias, então é viável realizar a pesquisa na população de interesse.

3.1 Amostragem aleatória simples


Segundo Magalhães e Lima (2005) e Bussab e Morettin (2002), a
amostragem aleatória simples é um método para selecionar, sem
reposição, n elementos de uma população de tamanho N, em que todos
têm a mesma probabilidade de ser escolhidos para a amostra.

Esse tipo de amostragem é equivalente a um sorteio lotérico e pode ser


realizada numerando-se a população de 1 a N. Sorteiam-se, por meio
de um dispositivo aleatório qualquer, n números dessa população, que
corresponderão aos elementos pertencentes à amostra.

Quando o número de elementos da amostra é muito grande, podemos


utilizar uma tabela de números aleatórios, isto é, números que não
obedecem a uma sequência padrão. Existem diversos geradores
computacionais de números aleatórios, um deles é a planilha eletrônica
que costumamos utilizar em nossos computadores.

www.esab.edu.br 17
Vejamos um exemplo:

O objetivo da pesquisa é estudar algumas características dos funcionários


de certa empresa. A lista com os dados dos funcionários da empresa segue
abaixo.

Nome Idade Gênero


1 Bárbara 28 Feminino
2 Cristiano 32 Masculino
3 Otávio 41 Masculino
4 Marcelo 39 Masculino
5 Sofia 29 Feminino
6 Maria Júlia 21 Feminino
7 João 32 Masculino
8 Carlos 34 Masculino
9 Maria Clara 26 Feminino
10 Ingrid 37 Feminino
11 Laura 30 Feminino
12 Daniel 30 Masculino
13 Rafael 33 Masculino
14 Simone 28 Feminino
15 Felipe 27 Masculino

Quadro 1 – População de funcionários de uma empresa.


Fonte: Elaborado pela autora (2013).

Agora, vamos extrair uma amostra aleatória simples de 5 funcionários.


Para isso, vamos utilizar uma tabela contendo 5 números aleatórios
(gerados em uma planilha eletrônica).

Os números gerados foram: 5, 15, 11, 2 e 10.

Buscando esses números na tabela da população, vamos ter os respectivos


funcionários selecionados (em ordem crescente).

www.esab.edu.br 18
2 Cristiano 32 Masculino
5 Sofia 29 Feminino
10 Ingrid 37 Feminino
11 Laura 30 Feminino
15 Felipe 27 Masculino

Quadro 2 – Amostragem de funcionários de uma empresa.


Fonte: Elaborado pela autora (2013).

Você deve ter observado que estimamos uma amostragem de tamanho


5 para uma população de 15 funcionários. Essa estimação foi feita sem
nenhum cálculo, pois trata-se de uma população pequena. Contudo,
se nos depararmos com uma população grande, devemos utilizar um
cálculo para estimar um tamanho relevante para a amostra. Na sequência
veremos esse cálculo.

3.2 Tamanho de uma amostra simples e erro amostral


Para estimar o tamanho de uma amostra, é necessário especificar o erro
amostral tolerável, ou seja, o quanto se admite errar na avaliação dos
parâmetros (medida que descreve certa característica dos elementos da
população) de interesse.

Para ficar mais claro, pense o seguinte: você já deve ter observado que em
pesquisas eleitorais é divulgado que certo candidato tem, por exemplo,
31% das intenções de voto, com uma margem de erro de 2% para mais
ou para menos. Essa margem de erro de 2% refere-se ao erro amostral,
isto é, o quanto a pesquisa tolera errar. Assim, a preferência do eleitorado
por certo candidato fica em um intervalo de 29% a 33% (ou seja, 31%–
2% = 29% ou 31% + 2% = 33%)

Agora que já compreendemos a noção de erro amostral, vamos apresentar


como é feito esse cálculo do tamanho de uma amostra por meio da fórmula:
1
n0 =
( E0 )²

www.esab.edu.br 19
Em que:

• n0 é uma primeira aproximação para o tamanho da amostra;


• E0 é o erro amostral tolerável.
Se população for 20 vezes maior que o valor calculado n0, então se pode
tomar a amostra com esse valor (isto é, com n0). Caso contrário, deve-se
fazer a seguinte correção (BARBETTA, 2011):
N ⋅ n0
n=
N + n0

Em que:

• N é o tamanho (número de elementos) da população;


• n é o tamanho (número de elementos) da amostra.
Vamos ver um exemplo:

Se selecionarmos uma amostra aleatória simples de uma população de


1000 indivíduos, admitindo um erro amostral tolerável de 5%, qual o
tamanho mínimo da amostra?

Resolução:

1º passo – descrever os dados fornecidos pelo problema:

• E0 = 5% = 0,05
• N = 1000
• n0 = ?
2º passo – calcular n0:

1
n0 =
( E0 )²
1
n0 =
(0,05)²
n0 = 400

www.esab.edu.br 20
Como a população N = 1000 não é muito grande, então vamos efetuar o
cálculo de correção:

N ⋅ n0
n=
N + n0
1000 ⋅ 400
n=
1000 + 400
n = 285,7

Assim, fazendo o arredondamento de n = 285,7 para o inteiro maior,


devemos utilizar uma amostra de 286 elementos.

Fórum
Caro estudante, dirija-se ao Ambiente Virtual de
Aprendizagem da Instituição e participe do nosso
Fórum de discussão. Lá você poderá interagir com
seus colegas e com seu tutor de forma a ampliar,
por meio da interação, a construção do seu
conhecimento. Vamos lá?

www.esab.edu.br 21
Outros tipos de amostragem
4 aleatória
Objetivo
Apresentar outros tipos de amostragem aleatória.

Na unidade 3 apresentamos a diferença entre amostragem aleatória e


não aleatória. Na amostragem aleatória, observamos que temos algumas
técnicas de amostragem, mas a ênfase foi na amostragem aleatória
simples. Agora, nesta unidade, vamos apresentar outras técnicas de
amostragem aleatória, com base nos autores Magalhães e Lima (2005).

4.1 Amostragem estratificada proporcional


A amostragem estratificada caracteriza-se pela escolha de uma amostra
de cada subgrupo (estratos) da população considerada. Os estratos
podem ser o sexo, a idade, a classe social, cargos que ocupam em uma
determinada indústria etc. Por exemplo: um grupo de 80 alunos, dos
quais 51 são do sexo masculino e 29 do sexo feminino. Vamos obter
uma amostra estratificada proporcional. Isto é, obter dois estratos (sexo
masculino e sexo feminino) de uma amostra de 10% da população.
Assim, observe a tabela a seguir:

www.esab.edu.br 22
Tabela 1– Exemplo de amostragem estratificada proporcional.
Amostra
Sexo População 10% da população
(arredondada)

(10 ⋅ 51)
Masculino 51 = 5,1 5
100

(10 ⋅ 29)
Feminino 29 = 2,9 3
100
(10 ⋅ 80)
Total 80 =8 8
100

Fonte: Elaborada pela autora (2013).

A Tabela 1 nos indica que 10% dos 51 alunos do sexo masculino equivale
a uma amostra de 5 alunos, ou seja, devem ser extraídos 5 alunos do sexo
masculino para compor o desenvolvimento da pesquisa. Com relação ao
sexo feminino, 10% do total de 29 alunas equivale a uma amostra de 3
alunas para compor a pesquisa. Assim, o total de alunos (sexo feminino e
masculino) que irá fazer parte da amostragem é 8.

4.2 Amostragem sistemática


Trata-se de uma variação da amostragem aleatória simples, conveniente
quando a população está ordenada segundo algum critério, como fichas
em um fichário, listas telefônicas etc.

Em suma, a amostragem sistemática consiste em selecionarmos os


indivíduos de forma predeterminada (MAGALHÃES; LIMA, 2005).
Desse modo, podemos definir algumas regras ou padrões para selecionar
os indivíduos. Na sequência, apresentaremos uma regra prática:

Considerando N o tamanho da população e n o tamanho da amostra,


N
calcula-se o intervalo de amostragem aproximando-o para o inteiro
n
mais próximo: a. Sorteia-se um número x entre 1 e a, formando-se a
amostra dos elementos correspondentes aos números x, x + a, x + 2a, ...

www.esab.edu.br 23
Exemplo

Seja N = 1000, n = 200. Então, o intervalo de amostragem

N 1000
=
a = = 5.
n 200

Agora imagine que o número sorteado x (entre 1 e a = 5) seja 3. Assim,


o primeiro elemento da população a ser considerado à pesquisa será o
elemento x = 3. Os outros elementos a serem selecionados à pesquisa
seguirão uma sequência sistemática, a partir do elemento inicial e do
intervalo de amostragem a = 5 (x, x + a, x + 2a, ...), até completar o
número de elementos da população pesquisada. Veja o esquema abaixo:

x = 3,
x + a = 3 + 5 = 8,
x + 2 a = 3 + 2 ⋅ 5 = 13,
...,
x + 199a = 3 + 199 ⋅ 5 = 998

Portanto, a amostra irá conter, para a pesquisa, os elementos da


população de números: 3, 8, 13, ..., 998.

4.3 Amostragem por conglomerados


A amostragem por conglomerados é uma técnica utilizada normalmente
em amostragens de grandes populações. Alguns exemplos de
conglomerados são: o conjunto de empresas dos mais diversos ramos, o
conjunto de residências em um bairro.

Para aplicar essa técnica, devemos primeiramente dividir a população,


através de uma seleção aleatória, em conglomerados heterogêneos. Ao
contrário dos estratos, espera-se que os conglomerados sejam quase tão
heterogêneos quanto a população toda. Em uma segunda etapa, devemos
selecionar, também aleatoriamente, elementos de cada conglomerado
elegido na primeira etapa. Assim, obtemos uma amostra via técnica de
amostragem por conglomerados.

www.esab.edu.br 24
Veja a aplicação dessa técnica no seguinte exemplo:

Coletar dados em uma amostra de trabalhadores de diversos ramos


empresariais. A figura a seguir ilustra a população e a sequência de etapas
da técnica de amostragem por conglomerados.
População

1ª etapa: seleção
aleatória por
conglomerados.

1ª etapa: seleção
aleatória de
elementos.
Amostra
Figura 4 – Representação de uma amostragem por conglomerados.
Fonte: Elaborada pela autora (2013).

Exemplo

Em determinado bairro B, deseja-se levantar a quantidade de moradores


por domicílio. Esse bairro é composto de cinco quarteirões Q, isto é, B =
{Q1, Q2, Q3, Q4, Q5}. Abaixo é apresentada a quantidade de domicílios
por quarteirão.

Q1 = 30, Q2 = 27, Q3 = 38, Q4 = 14, Q5 = 18.

www.esab.edu.br 25
Selecionam-se três quarteirões por sorteio, obtendo-se como resultado os
quarteirões Q2, Q4 e Q5.

A Figura 5 ilustra esses quarteirões.

Quarteirão 2 Quarteirão 4 Quarteirão 5


1 6 11 16 21 1 6 11 16 1 6 11
26
2 7 12 17 22 2 7 12 2 7 12
17
3 8 13 18 23 3 8 13 3 8 13
4 9 14 19 24 27 4 9 14 4 9
18 14
5 10 15 20 25 5 10 15 5 10

Figura 5 – Ilustração dos quarteirões de determinado bairro.


Fonte: Elaborada pela autora (2013).

Devemos agora selecionar, também por seleção aleatória, dez domicílios


para consultar a quantidade de moradores neles. O resultado dessa
seleção foi a relação dos domicílios abaixo:
Q 4 − 14, Q2 − 18, Q 4 − 8, Q5 − 1, Q2 − 25,
Q5 − 6, Q5 − 8, Q2 − 15, Q2 − 27, Q5 − 9

Com esse resultado podemos levantar a quantidade de moradores dos


domicílios sorteados.

Você viu nesta unidade outras técnicas de amostragem aleatória, opções à


técnica de amostragem aleatória simples (unidade 3). A escolha por uma
dessas técnicas na condução de uma pesquisa vai depender de vários fatores
como o objetivo da pesquisa, os parâmetros que se deseja estimar etc.

www.esab.edu.br 26
Apresentação dos dados: tabelas e
5 gráficos
Objetivo
Representar e interpretar um conjunto de dados em tabela e gráficos.

Nas primeiras unidades vimos que em uma pesquisa estatística o


primeiro passo é o planejamento da pesquisa e o entendimento do
tema em que se está trabalhando. Após isso são coletados os dados,
normalmente por meio de um questionário, aplicado a uma população
ou amostra específica.

Com esses dados em mãos, é preciso organizá-los para posteriormente


extrair algumas conclusões. Uma forma de organizar esses dados é por
meio de uma tabela.

Provavelmente, você já deve ter visto tabelas em jornais, livros ou


revistas. O objetivo de representar dados em uma tabela é facilitar a sua
interpretação e gerar informação útil.

Uma tabela possui linhas e colunas nas quais inserimos os dados coletados
de forma organizada. A figura a seguir apresenta um exemplo de tabela.

www.esab.edu.br 27
Perfil dos estudantes do curso de
Administração e Sistemas de Cabeçalho da tabela:
Informação de uma IES apresentar o título
com infrmações
Aluno Pergunta 1 Pergunta 2 relevantes da pesquisa.
(sexo) (idade)
1 F 19
2 M 20 Variáveis:
3 F 20 características
4 F 21
observadas.
5 M 22 Corpo da tabela:
6 M 21 contém os dados.
7 M 21
Rodapé da tabela:
Fonte: Elaborado pela autora
contém a fonte.
Figura 6 – Apresentação dos dados em tabela.
Fonte: Elaborada pela autora (2013).

Podemos observar na Figura 6 os componentes de uma tabela. Ela deve


conter cabeçalho com título que evidencie o que está sendo abordado na
pesquisa. Na primeira linha da tabela, é necessário constar as variáveis que
são trabalhadas na pesquisa. As linhas subsequentes deverão conter os dados
da pesquisa. Por fim, abaixo da tabela, é preciso citar a fonte da pesquisa.

No corpo da tabela, campos em que se encontram os dados coletados


relacionados às respectivas variáveis, note que, na variável “Idade”, os dados
não estão ordenados. Isto é, são os dados brutos: resultados numéricos não
organizados obtidos da observação direta de um fenômeno.

Para facilitar a interpretação dos dados, fazemos a ordenação deles


colocando-os em ordem crescente ou decrescente. Chamamos o corpo
desses dados ordenados de rol.

www.esab.edu.br 28
Tabela 2 – Exemplo de dados brutos e rol.
Dados brutos da Rol da variável
variável “Idade” “Idade”
19 19
20 20
20 20
21 21
22 21
21 21
21 21
21 22

Fonte: Elaborada pela autora (2013).

Além disso, vale ressaltar que nenhuma célula da tabela deve ficar em
branco, elas devem sempre conter um número ou sinal. Para isso, existem
alguns símbolos estabelecidos por convenção internacional. Vejamos
alguns exemplos:

• - (hífen), quando o valor numérico é nulo;


• ... (reticências), quando não se dispõe do dado;
• x (letra x), quando o dado foi omitido a fim de evitar
individualização da informação;
• 0; 0,0; 0,00 (zero), dado numérico igual a zero.
Na sequência, veremos alguns tipos de tabelas denominadas de séries
estatísticas.

www.esab.edu.br 29
5.1 Séries estatísticas
Uma série estatística é um conjunto de dados ordenados, apresentados
em uma tabela ou gráfico, em função de características como tempo,
espaço ou espécie.

Assim, chamamos de série temporal, ou cronológica, toda série em que


os dados fazem correspondência com o fator época. Veja o exemplo que
segue:

Tabela 3 – Projeção da população no Brasil.


Ano População estimada
2008 189.612.814
2009 191.480.630
2010 193.252.604
2011 194.932.685
2012 196.526.293
2013 198.043.320
2014 199.492.433
2015 200.881.685
2016 202.219.061
2017 203.510.422
2018 204.759.993
2019 205.970.182
2020 207.143.243

Fonte: IBGE (2008).

A tabela anterior se caracteriza como uma série temporal, pois apresenta


uma projeção da população brasileira pelo tempo em anos. A série
espacial, ou geográfica, é a série em que os dados fazem correspondência
com o fator geográfico.

www.esab.edu.br 30
Exemplo:

Tabela 4 – Nascidos vivos e registrados no ano de 2002.


Região Ano (2002)
Norte 190.117
Nordeste 706.688
Sudeste 1.118.971
Sul 374.404
Centro-Oeste 194.363

Fonte: IBGE (2002).

A tabela anterior retrata uma série espacial (ou geográfica), pois apresenta
os dados de nascimento no Brasil, no ano de 2002, pelas regiões
geográficas brasileiras. Por fim, temos a série por espécie ou categoria,
que corresponde à qualidade ou aos atributos de determinado objeto
pesquisado. Veja o exemplo que segue:

Tabela 5 – Preço da tabela FIPE para automóveis em 27 de janeiro de 2013.


Carro – GM – Chevrolet Preço
Celta 1.0/ Super 1.0 MPFI VHC 8v 5p, modelo 2005 a gasolina R$ 14.613,00
Corsa Hat. Joy 1.0/ 1.0 FlexPower 8V 5p, modelo 2005 a gasolina R$ 16.861,00

Fonte: FIPE (2013).

A tabela anterior evidencia uma série por categorias de carro da marca


Chevrolet com relação ao seu preço. O tempo e o espaço se mantêm
constantes (fixados), isto é, tempo: em 27 de janeiro de 2013; espaço: Brasil.

www.esab.edu.br 31
Vimos até o momento a representação dos dados organizados em uma
tabela, mas também podemos apresentar os dados em um gráfico. Veja o
exemplo que segue:
194.363 190.117
Norte
374.404 Nordeste
706.688 Sudeste
Sul
Centro-Oeste
1.118.971
Figura 7 – Gráfico de nascidos vivos e registrados no ano de 2002.
Fonte: Elaborada pela autora (2013).

A figura anterior ilustrou, por meio de um gráfico chamado gráfico de


setores, os dados da Tabela 4, de registro civil do IBGE. Assim, o gráfico
nos transmite a quantidade da população de nascidos vivos e registrados
no ano de 2002, por região.

Na unidade a seguir, estudaremos com mais detalhes os tipos de gráficos


estatísticos.

www.esab.edu.br 32
6 Tipos de gráficos estatísticos

Objetivo
Apresentar, reconhecer e interpretar os tipos de gráficos estatísticos.

Os gráficos constituem um importante instrumento de análise e


interpretação de um conjunto de dados. A importância dos gráficos está
ligada, sobretudo, à facilidade e rapidez na absorção e interpretação das
informações por parte do leitor e também às inúmeras possibilidades
de ilustração e resumo dos dados apresentados. Para isso, um gráfico
deve ser atraente, simples, claro, verdadeiro e preciso. A seguir serão
apresentados alguns tipos de gráficos estatísticos.

6.1 Gráfico de setores


O gráfico de setores, conhecido popularmente como “gráfico de pizza”,
é indicado para representar variáveis qualitativas nominais. Também
é útil para comparar intensidade de partes em relação ao total (100%) e
representá-las em valores absolutos ou percentuais.

Recomenda-se seu uso para o caso em que o número de categorias de


determinada variável não seja muito extenso, prejudicando a leitura do
gráfico.

www.esab.edu.br 33
Por exemplo, a variável “gênero” de um indivíduo é uma variável
qualitativa nominal que possui duas categorias (classes): feminino e
masculino. Assim, podemos representá-las através do gráfico de setores.

147,06º
Feminino
41% Masculino
59%

Figura 8 – Gráfico de setores para a variável gênero masculino e feminino.


Fonte: Elaborada pela autora (2013).

Observe que a medida do ângulo de cada setor circular é proporcional


ao número de elementos de cada categoria. No caso da figura anterior,
a medida do ângulo é proporcional ao número de pessoas nas categorias
gênero feminino e gênero masculino.

Sabe-se que o ângulo total de uma circunferência é 360°, então temos a


seguinte relação, via regra de três simples:
41% ⋅ 360° = x ⋅100%
360° 100% 41% ⋅ 360°
=x
x 41% 100%
x = 147, 6º

Da mesma forma, podemos encontrar o outro ângulo para a categoria


gênero masculino (59%) utilizando também a regra de três simples.

www.esab.edu.br 34
6.2 Gráficos de barras horizontais ou verticais
O gráfico de barras horizontais ou verticais é indicado, normalmente,
para representar variáveis qualitativas ordinais. Esse tipo de gráfico
é recomendado quando as variáveis possuem muitas categorias e para
indicar a relação de ordem entre uma categoria e outra. Assim, barras
horizontais devem ser desenhadas observando-se a sua ordem de
grandeza (preferencialmente crescente). Por exemplo:

Uma pesquisa avaliou o grau de satisfação dos clientes com relação ao


atendimento. Foram estabelecidas as seguintes categorias: bom, regular e
ruim.

Observe que, na variável de interesse, queremos estimar o grau de


satisfação com relação ao atendimento a clientes, que se caracteriza como
uma variável qualitativa ordinal. Nesse caso, podemos representá-la por
meio do gráfico de barras.

4
Bom
52
Regular
Ruim
35

0
20 40 60

Figura 9 – Gráfico de barras horizontais que representa o grau de satisfação no atendimento ao cliente.
Fonte: Elaborada pela autora (2013).

Note que representamos os dados anteriores em um gráfico de barras


horizontais. Mas podemos representar, também, em um gráfico de barras
verticais.

www.esab.edu.br 35
60
52
50

40
35 Bom
30 Regular
20 Ruim

10
4
0

Figura 10 – Gráfico de barras verticais que representa o grau de satisfação no atendimento ao cliente.
Fonte: Elaborada pela autora (2013).

Na sequência estudaremos sobre o gráfico de barras múltiplas.

6.3 Gráfico de barras múltiplas


O gráfico de barras múltiplas é utilizado para comparar entre si as
intensidades de cada subdivisão da modalidade do atributo e possibilitar
que se tenha ideia da intensidade total de cada modalidade. Para
compreender melhor, veja o exemplo que segue.

Comparar o grau de escolaridade (nenhum, fundamental e médio) dos


moradores dos bairros Encosta do Morro, Parque da Figueira e Monte Verde.

Encosta do Morro
Médio
Parque da Figueira Fundamental
Nenhum
Monte Verde

0 5 10 15 20 25

Figura 11 – Gráfico de barras múltiplas para o grau de escolaridade dos moradores dos bairros Encosta do
Morro, Parque da Figueira e Monte Verde.
Fonte: Barbetta (2011, p. 70).

www.esab.edu.br 36
Assim, com base no gráfico anterior, podemos verificar que no Bairro
Monte Verde temos uma quantidade mais elevada de moradores com
Ensino Médio. Além disso, entre os três bairros, Monte Verde é o que se
destaca com maior nível de escolaridade perante os demais bairros.

6.4 Gráfico de linhas, ou poligonal


O gráfico de linhas, ou poligonal, é utilizado normalmente para analisar
tendências ao longo do tempo. Sua construção é feita colocando-se no
eixo vertical (y) a mensuração da variável em estudo e no eixo horizontal
(x), as unidades da variável em uma ordem crescente. Esse tipo de gráfico
permite representar séries longas, o que auxilia a detectar suas flutuações
e tendências.

Por exemplo: representar a variação percentual do PIB no Brasil nos anos


de 1991 a 1998.

Nota: *O valor do PIB em 1998 foi de 901 bilhões de reais.


7
5,85
6
4,92
5 4,22
4 3,68
3
2 2,76
1,03
1
0
0,15
-1 -0,54

1991 1992 1993 1994 1995 1996 1997 1998*


Figura 12 – Exemplo de gráfico de linhas para a variação percentual do PIB no Brasil.
Fonte: IBGE (1999).

Na sequência veremos o nosso último e importante gráfico estatístico, o


histograma.

www.esab.edu.br 37
6.5 Histograma
O histograma é utilizado para representar variáveis quantitativas. São
retângulos justapostos, feitos sobre as classes da variável em estudo.

Esse tipo de gráfico será muito utilizado em nossos estudos daqui para
frente, pois em situações práticas é comum trabalharmos com variáveis
quantitativas. O histograma é o mais indicado para representar esse tipo
de variável, pois há uma continuidade nos valores, análoga ao conceito
de reta real visto na unidade 35 da disciplina de Matemática. Exemplo:
representar as idades de uma turma de alunos.
12
10
8

Frequência 6
4
2
0
18-23 23-28 28-33 33-38 38-43
Idade
Figura 13 – Histograma da variável idade.
Fonte: Elaborada pela autora (2013).

Vimos nesta unidade os principais gráficos estatísticos comumente


utilizados em estudos e pesquisas. Esses gráficos nos auxiliam na
interpretação das variáveis em estudo, de forma atraente, para que seja
possível uma tomada de decisão.

Na próxima unidade você irá aprender como construir tabelas e gráficos


na planilha eletrônica Excel, da Microsoft. Esse é um importante
instrumento de trabalho estatístico. Bons estudos!

www.esab.edu.br 38
Resumo

Olá, estudante!

Ingressamos no estudo da estatística nas unidades 1 a 6. Vimos que


em nosso dia a dia costumamos efetuar cálculos estatísticos de forma
intuitiva, mas que em problemas com um grau de complexidade maior
precisamos de um estudo sistemático e formal para solucioná-los de forma
adequada. A estatística é uma ferramenta útil nas mais diversas áreas de
conhecimento, como Administração, Saúde, Economia, auxiliando nas
tomadas de decisão. Para tanto, é necessário fazer um planejamento, definir
bem os objetivos, utilizar instrumentos de coleta de dados e organizar os
dados coletados em tabelas e/ou gráficos para extrair informação relevante.
Esses aspectos mencionados fizeram parte de seu estudo ao longo das
unidades 1 a 6. Agora, dirija-se às Atividades de Aprendizagem e coloque
em prática o que foi visto até o momento. Sucesso!

www.esab.edu.br 39
7 Tabelas e gráficos

Objetivo
Desenvolver tabelas e gráficos estatísticos em planilhas eletrônicas.

Nesta unidade vamos aprender a desenvolver tabelas e gráficos


estatísticos na planilha eletrônica Microsoft Excel 2010. Você também
pode utilizar outras planilhas eletrônicas dependendo do seu sistema
operacional, por exemplo, StarOffice e LibreOffice. O nosso objetivo
aqui é desenvolver de forma básica esses requisitos da estatística, sem
avançar no mérito informático. Para melhor compreender, abra no
seu computador o programa e crie a sua planilha eletrônica para ir
acompanhando. Observe o exemplo:

Uma pesquisa realizada com 300 pessoas, tinha como pergunta principal:
“Qual a funcionalidade que você mais utiliza em seu celular?” Das 300
pessoas, 170 responderam que faziam mais uso da telefonia, 80 que
enviavam mais torpedos, 45 responderam que utilizavam mais o serviço
de internet e 5 assinalaram a opção “outros”

Com base nas informações desse exemplo, vamos organizar os dados


expostos em uma tabela do Microsoft Excel 2010.

Como vimos na unidade 5, uma tabela (seja ela eletrônica ou manual) é


composta por linhas e colunas. Na primeira linha inserimos as variáveis
com que estamos trabalhando na pesquisa. Seguindo os dados do nosso
exemplo, podemos inserir na primeira linha da primeira coluna da
planilha as funcionalidades do celular. Assim, vamos chamar a variável
apenas de “funcionalidade”. Ainda na primeira linha, porém na coluna
ao lado (2ª coluna), vamos destacar o número de pessoas, ou seja, a
quantidade de pessoas que informou a principal funcionalidade que
utiliza no celular. Para compreender melhor, veja a figura que segue.

www.esab.edu.br 40
Figura 14 – Exemplo de construção de tabela no Microsoft Excel 2010.
Fonte: Elaborada pela autora (2013).

Repare que na primeira coluna foram colocadas abaixo da primeira


linha as categorias de “funcionalidade”: telefonia, torpedo, internet
e outros. Na coluna ao lado, foram colocados os números de pessoas
correspondentes a cada categoria da variável “funcionalidade”.

Vale salientar que cada “quadradinho” da planilha eletrônica é chamado


de célula. As colunas são nominadas pelas letras do nosso alfabeto e as
linhas são numeradas. Assim, podemos dizer que na célula A4 temos a
categoria “internet” e na célula B4 temos o respectivo número de pessoas,
45, que utiliza como principal funcionalidade do celular a internet.

De posse dessas informações dispostas na tabela, podemos criar um gráfico.


Para esse exemplo, um gráfico indicado é o de setores, pois a variável
“funcionalidade” é uma variável qualitativa nominal (reveja unidade 6).

Assim, selecionamos as informações da tabela que elaboramos na


planilha eletrônica (Figura 14). Na aba “Inserir” da planilha aparecerá às
opções de gráfico, conforme destaque da Figura 15:

www.esab.edu.br 41
Figura 15 – Iniciando construção de gráfico.
Fonte: Elaborada pela autora (2013).

Note que temos várias opções de gráficos estatísticos que aprendemos na


unidade 6. Os gráficos de colunas e de barras são respectivamente os que
chamamos de gráficos de barras verticais e horizontais. Temos também
o gráfico de linhas (ou poligonal) e o gráfico de setores (pizza) – o que
desejamos criar para esse exemplo. Ao selecionarmos o tipo de gráfico (no
caso o de pizza) aparecerão algumas possibilidades: em duas dimensões e
em três dimensões.

Figura 16 – Selecionando o gráfico de pizza.


Fonte: Elaborada pela autora (2013).

www.esab.edu.br 42
Observe na Figura 16 que, ao passar o mouse pelas opções de gráfico de
pizza, aparece uma caixa de diálogo explicando para qual série de dados
aquele tipo de gráfico de pizza é mais indicado. Selecionando aquela
primeira opção (em 2D), temos o gráfico de pizza para o exemplo dado.
O gráfico é gerado automaticamente com base nas informações da tabela
que criamos anteriormente.

Figura 17 – Gráfico modelo pizza no Microsoft Excel 2010.


Fonte: Elaborada pela autora (2013).

Finalmente, temos o gráfico de pizza, conforme a Figura 17. Note


que ao criar um gráfico abrem-se novas abas, que são ferramentas para
incrementá-lo.

www.esab.edu.br 43
Agora vamos exemplificar para você como construir um gráfico
histograma simples. Conforme visto na unidade 5, o histograma é
um gráfico apropriado para representar variáveis quantitativas. Ele é
composto de barras horizontais justapostas (isto é, juntas, grudadas).
Observe a construção desse gráfico na Figura 18 que segue:

Figura 18 – Construindo o gráfico histograma.


Fonte: Elaborada pela autora (2013).

www.esab.edu.br 44
Selecionando os dados da tabela sobre peso e as respectivas frequências,
vamos em direção à aba “Inserir” e dentro da opção “gráficos” escolhemos
a primeira opção, “gráfico de colunas”, e então temos o respectivo
gráfico. Porém, repare que o gráfico apresenta as colunas verticais
separadas umas das outras. Nesse caso, precisamos juntá-las. Para isso
dê um clique em cima das barras verticais, pressione o botão direito do
mouse e logo aparecerá uma caixa de diálogo com opções de formatação
das barras. Veja a figura a seguir:

Figura 19 – Formatando o gráfico.


Fonte: Elaborada pela autora (2013).

www.esab.edu.br 45
Repare que na opção “Formatar Série de Dados...”, da cascata que se
forma ao clicarmos com o botão direto do mouse, abre-se uma janela
com “Opções de Série”. Nesse ambiente há duas opções: “Sobreposições
de Séries” e “Largura do Espaçamento”. É essa última opção que você
reduzirá a 0%; dessa forma, as barras ficarão justapostas no histograma,
conforme a Figura 20.

Figura 20 – Histograma.
Fonte: Elaborada pela autora (2013).

Estudo complementar
Vimos nesta unidade dois exemplos simples de
construção de gráficos no Excel 2010 da Microsoft.
Agora aprenda com mais detalhes a elaboração
de gráficos no Microsoft Excel 2010 assistindo aos
vídeos “Montando nossa primeira tabela”, clicando
aqui, e “Gráficos”, disponível aqui.

www.esab.edu.br 46
8 Exercícios resolvidos

Objetivo
Apresentar exercícios resolvidos sobre tabelas e gráficos estatísticos.

Nesta unidade, vamos apresentar alguns exercícios resolvidos


relacionados à interpretação de tabelas e gráficos estatísticos. Vamos
começar?

Exercício 1

(UFG - 2004) Uma pesquisa mostrou que a uma semana das inscrições
para os principais vestibulares, muitos candidatos ainda estavam
indecisos em relação ao curso pretendido, como mostra a tabela a seguir:

Tabela 6 – Decisões sobre cursos.


Forma de decisão sobre o curso
Respostas %
Já decidiu 86,6
86,8
Pesquisando melhor sobre cursos 4,9
Não sabe 4,0
Decidirá na hora da inscrição 1,3
Teste vocacional (aptidão) 1,3
Pesquisando mercado de trabalho 0,9
Decidirá em conjunto com os pais 0,4
Guia do vestibulando 0,4

Fonte: Adaptada do jornal O Popular, Goiânia, 15/09/2003.

www.esab.edu.br 47
De acordo com os dados, o número de candidatos que decidirão pelo
curso por meio do teste vocacional representa, entre os indecisos:

a. 1,3%
b. 9,85%
c. 10,15%
d. 11,9%
e. 13,2%

Resolução

A tabela nos informa que 86,8% dos candidatos já decidiram sobre


o curso. As demais categorias da tabela (“pesquisando melhor sobre o
curso”, “não sabe” etc.) são os indecisos. Assim, os indecisos somam
13,2% do total de candidatos pesquisados, isto é:

4,9 + 4,0 + 1,3 + 1,3 + 0,9 + 0,4 + 0,4 = 13,2


A problemática da questão é saber, dentre os 13,2% de candidatos
indecisos, o quanto representam (em percentual) os candidatos que
decidirão pelo teste vocacional. Assim, temos agora que 13,2 é o valor
que representa 100% dos candidatos indecisos. Precisamos saber, então,
o quanto 1,3% representa dos candidatos que decidirão pelo teste
vocacional. Aplicando uma regra de três simples, temos a seguinte relação:

13,2 x = 1,3 ⋅100


13,2 ---- 100% 130
x=
1,3 ---- x 13,2
x = 9,85%

Portanto, 9,85% dos candidatos indecisos realizarão um teste vocacional


para ajudar na decisão. A resposta correta é a letra “b”.

www.esab.edu.br 48
Exercício 2

(Enem – MEC – 2002) No gráfico estão representados os gols marcados


e os gols sofridos por uma equipe de futebol nas dez primeiras partidas
de um determinado campeonato.

6
Gols marcados
5 Gols sofridos
Número de gols

0
28/1 04/2 11/2 18/2 25/2 04/3 11/3 18/3 25/3 01/4

Data da Partida

Figura 21 – Gráfico de linhas para os gols marcados e sofridos por uma equipe de futebol.
Fonte: Adaptada de Iezzi, Hazzan e Degenszajn (2004).

Considerando que, nesse campeonato, as equipes ganham 3 pontos para


cada vitória, 1 ponto por empate e 0 ponto em caso de derrota, a equipe
em questão, ao final da décima partida, terá acumulado um número de
pontos igual a:

a. 15
b. 17
c. 18
d. 20
e. 24

Resolução

Para resolver este problema precisamos encontrar os pontos acumulados


nas 10 partidas, ou seja, nas partidas dos dias 28/1 a 1/4. Observando o
gráfico, temos a seguinte relação de pontos:

www.esab.edu.br 49
• No dia 28/1 o time venceu com 2 gols (2 x 0). Logo, recebeu 3
pontos.
• No dia 4/2 o time perdeu com 3 com gols de diferença (4 x 1).
Logo, recebeu 0 ponto.
• No dia 11/2 o time empatou com 3 gols (3 x 3). Logo, recebeu 1
ponto.
• No dia 18/2 o time perdeu com 5 gols de diferença (5 x 0). Logo,
recebeu 0 ponto.
• No dia 25/2 o time venceu com 1 gol de diferença (2 x 1). Logo,
recebeu 3 pontos.
• No dia 4/3 o time venceu com 2 gols de diferença (3 x 1). Logo,
recebeu 3 pontos.
• No dia 11/3 o time empatou com 2 gols (2 x 2). Logo, recebeu 1
ponto.
• No dia 18/3 o time venceu com 1 gol de diferença (1 x 0). Logo,
recebeu 3 pontos.
• No dia 25/3 o time empatou com 0 gol (0 x 0). Logo, recebeu 1
ponto.
• No dia 1/4 o time venceu com 3 gols de diferença (3 x 0). Logo,
recebeu 3 pontos.
Portanto, o time acumulou nas 10 partidas:

3 + 0 + 1 + 0 + 3 + 3 + 1 + 3 + 1 + 3 = 18 pontos
Portanto, a resposta correta é a letra “c”.

www.esab.edu.br 50
Exercício 3

O histograma seguinte mostra os gastos dos clientes de uma loja de


tecnologia registrados em um caixa expresso durante o um dia.

Número de
29
clientes

15

7 6
3 2

5 50 100 150 200 250 300


Gastos
(em reais)

Figura 22 – Histograma dos gastos (em reais) pelo número de clientes.


Fonte: Elaborada pela autora (2013).

a. Que total de clientes gastou pelo menos 200 reais?


b. Que total de clientes gastou menos de 100 reais?

Resolução

a. Os clientes que gastaram pelo menos 200 reais, ou seja, no mínimo


esse valor, são os clientes representados nas colunas de 200 a 250 e
de 250 a 300 reais. Portanto:
3 + 2 = 5 clientes
b. Os clientes que gastaram menos de 100 reais foram os clientes
representados nas colunas de 5 a 50 e de 50 a 100 reais. Logo:
29 + 7 = 36 clientes

www.esab.edu.br 51
Apresentamos até aqui alguns exercícios resolvidos com o objetivo de
aprimorar a sua aprendizagem e ativar seu raciocínio lógico com relação
à interpretação de dados e às informações dispostas em tabelas e gráficos
estatísticos. Agora aproveite o embalo e siga com seus estudos!

Tarefa dissertativa
Caro estudante, convidamos você a acessar o
Ambiente Virtual de Aprendizagem e realizar a
tarefa dissertativa.

www.esab.edu.br 52
9 Distribuição de frequência
Objetivo
Determinar as distribuições de frequência – frequência absoluta,
relativa e acumulada.

Vimos até o momento as etapas de planejamento, coleta de dados e


apresentação dos dados (em tabelas e gráficos). Nesta unidade, vamos
aprender um importante conceito da estatística que nos permite
extrair as primeiras informações dos dados coletados e apresentados de
forma bruta em uma tabela. O conceito ao qual nos referimos é o de
distribuição de frequência. Antes de explicitarmos esse conceito a você,
veja a tabela a seguir, que apresenta alguns dados brutos.

Tabela 7 – Pesquisas estatísticas.


Animal Animal
  Gênero Idade Gênero Idade
preferido preferido
1 Feminino 28 Cachorro 16 Feminino 45 Cachorro
2 Masculino 32 Cachorro 17 Masculino 40 Gato
3 Feminino 41 Cachorro 18 Feminino 36 Cachorro
4 Masculino 39 Cachorro 19 Feminino 31 Gato
5 Feminino 29 Gato 20 Masculino 25 Gato
6 Feminino 21 Cachorro 21 Feminino 33 Cachorro
7 Masculino 32 Gato 22 Feminino 26 Cachorro
8 Masculino 34 Gato 23 Masculino 29 Cachorro
9 Feminino 26 Cachorro 24 Feminino 34 Gato
10 Feminino 37 Gato 25 Feminino 29 Cachorro
11 Feminino 30 Gato 26 Masculino 40 Cachorro
12 Masculino 30 Gato 27 Masculino 38 Gato
13 Masculino 33 Gato 28 Masculino 35 Cachorro
14 Feminino 28 Gato 29 Feminino 28 Gato
15 Masculino 27 Cachorro 30 Feminino 37 Gato

Fonte: Elaborada pela autora (2013).

www.esab.edu.br 53
Observando a Tabela 7, não é possível de imediato dizer se a população
pesquisada gosta mais de cachorro ou de gato. Por isso entramos com a
ideia de distribuição de frequência, que consiste em construir uma nova
tabela com a informação resumida, isto é, quantificando a ocorrência
(frequência) das pessoas que afirmaram gostar mais de cachorros, assim
como das pessoas que afirmaram gostar mais de gatos.

Em outras palavras, a distribuição de frequências compreende a


organização dos dados de acordo com as ocorrências dos diferentes
resultados observados. Assim, para a variável “animal preferido”, nas
categorias cachorro e gato, tem-se a tabela de distribuição de frequência
a seguir:

Tabela 8 – Distribuição de frequência para a variável “animal preferido”.


Animal preferido Frequência
Cachorro 15
Gato 15
Total 30

Fonte: Elaborada pela autora (2013).

Essa forma de organização dos dados facilita a observação de cada


categoria da variável. Assim, é possível verificar mais facilmente que,
das 30 pessoas pesquisadas, metade (15 pessoas) gosta de cachorro e a
outra metade (15 pessoas) gosta de gato. Se não tivéssemos organizado
os dados dessa forma, estaríamos sujeitos a apostar que a maioria dos
pesquisados gosta mais de cachorro do que de gato. De acordo com a
tabela de distribuição de frequências, constatamos a quantidade correta
em cada uma das categorias.

O registro das ocorrências ou frequências, que realizamos na tabela


anterior, com base nos dados brutos da Tabela 7, é um tipo de
distribuição de frequência que se chama frequência absoluta (fi ) de um
conjunto de dados. Muitas vezes você verá que a representaremos apenas
por frequência.

Assim, para cada variável (xi ) estudada, a frequência absoluta (fi ) é o


número de vezes que ocorre cada um de seus valores (ou realizações).

www.esab.edu.br 54
Vejamos outro exemplo:

A frequência absoluta para a variável “gênero” da Tabela 7 é distribuída


da seguinte forma:

Tabela 9 – Distribuição de frequência para a variável “gênero”.

Gênero ( xi ) Frequência absoluta ( fi )


Feminino 17
Masculino 13
Total 30

Fonte: Elaborada pela autora (2013).

A partir de agora representaremos a frequência absoluta em uma tabela


pela sua sigla (fi ).

Vejamos agora a frequência relativa (fri ). Como o próprio nome sugere,


é relativa a alguma coisa, nesse caso: para cada valor assumido por uma
variável x, a frequência relativa (fri ) é a razão entre a frequência absoluta
(fi ) e o número total de dados (n). Matematicamente:

fi
fri =
n
Para você compreender melhor esse conceito, vamos tomar o exemplo da
Tabela 9, abrindo uma coluna ao lado da coluna (fi ):

Tabela 10 – Frequência relativa: variável “gênero”.

Gênero ( xi ) ( fi ) ( fri )
17
Feminino 17 = 0,57
30

13
Masculino 13 = 0, 43
30
Total 30 1

Fonte: Elaborada pela autora (2013).

www.esab.edu.br 55
Agora, temos os dados absolutos com relação ao total de pessoas
pesquisadas, que nominamos de frequência relativa. A fri será sempre um
valor compreendido entre 0 e 1, portanto, na linha do total, a soma da fri
tem de resultar 1 (um). Esse valor numérico (1) corresponde à população
total, que em frequência absoluta é 30. Logo, o total da fi = 30 está
relacionado ao total da fri = 1.

Para auxiliar na interpretação do resultado da fri , podemos transformá-lo


em valor percentual. Para isso, basta multiplicar cada resultado da fri por
100. Veja a tabela a seguir:

Tabela 11 – Frequência relativa em percentual: variável “gênero”.

Gênero ( xi ) ( fi ) fri fri (%)


17
Feminino 17 = 0,57 57%
30

13
Masculino 13 = 0, 43 43%
30
Total 30 1 100%

Fonte: Elaborada pela autora (2013).

Então, podemos afirmar que 57% dos pesquisados são do sexo feminino.

A frequência relativa é uma importante mensuração de dados, pois ao


submetermos novamente o mesmo experimento, no entanto com um
número maior (ou menor) de n elementos, é possível extrair algumas
relações.

Outra frequência que podemos efetuar é a frequência acumulada (faci),


que é a soma das frequências dos valores anteriores. Podemos calcular
a frequência acumulada das frequências absolutas e das frequências
relativas. Esse cálculo é importante quando queremos saber não a quantia
exata de uma categoria, mas os valores acumulados abaixo dela.

www.esab.edu.br 56
Exemplo

Uma pesquisa realizada com funcionários de uma empresa fez um


levantamento da quantidade de filhos que cada funcionário possui. A tabela
a seguir apresenta a frequência absoluta da variável “número de filhos”.

Tabela 12 – Frequência absoluta para a variável “número de filhos”.

Nº de filhos ( xi ) ( fi )
0 3
1 2
2 3
3 2
4 1
Total 11

Fonte: Elaborada pela autora (2013).

Para encontrar a frequência acumulada do exemplo anterior, observe a


tabela que segue:

Tabela 13 – Frequência acumulada para a variável “número de filhos”.

Nº de filhos ( xi ) ( fi ) Frequência acumulada ( faci )


0 3 3
1 2 2+3=5
2 3 3+5=8
3 2 2 + 8 = 10
4 1 1 + 10 = 11
Total 11 –
Fonte: Elaborada pela autora (2013).

A sequência de cálculos que executamos para encontrar a frequência


acumulada foi: na primeira linha da frequência acumulada tomamos
o valor da frequência absoluta (que se encontra na mesma linha). Na
segunda linha tomamos o resultado da frequência absoluta (que se
encontra na segunda linha) e somamos com o resultado da frequência
acumulada da linha anterior e assim sucessivamente, até completar os
dados da tabela.

www.esab.edu.br 57
De posse da frequência acumulada, podemos constatar que 8 pessoas
possuem dois, um ou nenhum filho.

Na próxima unidade estudaremos outra forma de resumir os dados.


Vamos em frente!

Atividade
Chegou a hora de você testar seus conhecimentos
em relação às unidades 1 a 9. Para isso, dirija-se
ao Ambiente Virtual de Aprendizagem (AVA) e
responda às questões. Além de revisar o conteúdo,
você estará se preparando para a prova. Bom
trabalho!

www.esab.edu.br 58
10 Intervalo de classe e ponto médio
Objetivo
Representar um conjunto de dados por intervalos de classe e
determinar o ponto médio.

Na unidade anterior aprendemos a resumir os dados brutos em tabelas


de distribuição de frequência. Os exemplos abordados apresentaram
variáveis com poucas categorias (classes), tais como gênero (feminino ou
masculino) e animal preferido (cachorro ou gato).

Todavia, as variáveis quantitativas costumam apresentar uma quantidade


grande de classes distintas, isto é, não existe praticamente repetição
(coincidência) de valores. Para compreender melhor, observe o exemplo a
seguir.

Observe a relação das idades de 30 funcionários de uma empresa.

21 25 26 26 27 28 28 28 29 29 29 30 30 31 32
32 33 33 34 34 35 36 37 37 38 39 40 40 41 45

Dessas 30 idades, 19 delas são diferentes: 21; 25; 26; 27; 28; 29; 30; 31;
32; 33; 34; 35; 36; 37; 38; 39; 40; 41; e 45 anos. Embora essa redução
de 30 para 19 idades seja significativa, o número de classes (19) ainda é
bastante grande. Aconselha-se, quando o número de resultados distintos
é superior a 8, agrupar os dados por intervalos de classes.

Assim, intervalo de classe é o agrupamento dos valores assumidos pela


variável. Logo, podemos distribuir as idades da forma a seguir:

www.esab.edu.br 59
Tabela 14 – Intervalo de classe para a variável “idade”.

Idades FA Limite inferior (l i )


21 |- 27 4
27 |- 33 12 Limite superior (l s )
Intervalo 33 |- 39 9
de clases
39 |- 45 4
45 |- 51 1
Total 30

Fonte: Elaborada pela autora (2013).

Cada linha da tabela representa um intervalo de classe, ou seja, em cada


classe da tabela, temos um intervalo que vai de um limite inferior (li ) a
um limite superior (ls ). O espaçamento entre esses limites de cada classe
é o mesmo. Observe que entre a idade 21 e 27 temos uma diferença de 6
anos de idade. Entre as idades 27 e 33, também temos uma diferença de
6 anos de idade, e assim por diante. A esse “espaçamento” chamamos de
amplitude de intervalo (h).

O símbolo |- significa que o intervalo de classe é fechado à esquerda


(isto é, inclui o valor à esquerda) e aberto à direita (isto é, exclui o valor
à direita). Dessa forma, no primeiro intervalo de classe (21 |- 27), quem
tem 27 anos não é contabilizado e, mais explicitamente, nesse intervalo
estarão incluídas somente as pessoas com idade 21, 22, 23, 24, 25 ou
26 anos. No próximo intervalo de classe (27 |- 33), a idade 27 será
contabilizada, já a idade 33 só será contabilizada no intervalo seguinte, e
assim sucessivamente.

Você deve estar se perguntando: como se define o intervalo de classes


para um conjunto de dados? Podemos separá-los de qualquer forma?

A quantidade de intervalos de classe não pode ser escolhida


aleatoriamente, é necessário utilizar alguma regra para que os dados
sejam separados uniformemente. Duas principais regras, comumente
utilizadas na estatística, são:

www.esab.edu.br 60
• Critério da raiz: para definir a quantidade de intervalos de classe
(i) segundo esse critério, devemos extrair a raiz quadrada dos n
elementos da amostra. Matematicamente:

i= n
O valor de i é sempre arredondado para o inteiro mais próximo.

• Critério de Sturges: para determinar o número de intervalos de


classe (i) por esta regra, utilizamos a fórmula a seguir:
i = 1 + (3,3 . log n)
Em que:

• i é o número de classes;
• n = número de elementos;
• log é o logaritmo na base 10.
O valor de i é sempre arredondado para o inteiro mais próximo.

Para o exemplo da Tabela 14, aplicamos o critério da raiz, em que


encontramos o número de intervalo de classes i = 5. Observe:

=
Critério da raiz: i =
30 5, 48  5

Se utilizássemos o critério de Sturges no exemplo da Tabela 14,


encontraríamos i = 6 intervalos de classe.

Critério de Sturges: i =
1 + (3,3 ⋅ log n ) =
1 + (3,3 ⋅ log 30) =
5,87  6

Note que o número de intervalos de classe não foi o mesmo encontrado


em cada um dos critérios. Isso pode ocorrer, pois o critério da raiz é
mais recomendado quando temos no máximo 25 elementos distintos
em uma amostra. Em nosso exemplo, existem 19 elementos distintos.
Para finalizarmos a construção de uma tabela por intervalos de classe,
precisamos calcular a amplitude do intervalo h (o espaçamento entre os
limites inferior e superior de cada classe). Para tanto, precisamos extrair
as seguintes informações:

www.esab.edu.br 61
valor mínimo: o menor valor numérico da amostra (conjunto de dados);

valor máximo: o maior valor numérico da amostra;

amplitude amostral (AA): a diferença entre o valor máximo e o valor


mínimo da amostra.

Vamos aplicar ao nosso exemplo (idade de 30 funcionários de certa


empresa):

Valor mínimo = 21 anos.

Valor máximo = 45 anos.

AA = 45 – 21 = 24 anos (ou seja, a diferença de idade entre o funcionário


mais velho e o mais novo é de 24 anos).

Amplitude dos intervalos (h): já sabemos que todos os intervalos


devem ter a mesma amplitude h, ou seja, o mesmo tamanho, de
modo que a amplitude amostral (AA = 24 anos) deve ser distribuída
igualmente por todas as cinco classes (i = 5, pelo critério da raiz). Então,
matematicamente a amplitude dos intervalos é descrita como:

AA
h=
k
Portanto:
AA
h=
k
31
=
h = 6,2  6
5
Para organizar os intervalos das classes, é preciso lembrar que cada
intervalo é composto de dois extremos, que chamaremos de limites: o
inferior – li (à esquerda) e o superior – ls (à direita).

www.esab.edu.br 62
Em cada classe ls = li + h. Assim, cada classe tem seu próprio limite
inferior e superior, isto é, cada valor da variável só pertence a um único
intervalo. O primeiro intervalo tem início com o valor mínimo, no caso
em estudo, 21 anos. Sabendo que h = 6, então:
l s= li + h
ls = 21 + 6 = 27 primeiro intervalo de classe
ls = 27 + 6 = 33 segundo intervalo de classe
ls = 33 + 6 = 39 terceiro intervalo de classe
ls = 39 + 6 = 45 quarto intervalo de classe
l s = 45 + 6 = 51 quinto intervalo de classe

As frequências absolutas, relativas e acumuladas, estudadas na unidade


9, são calculadas da mesma forma que nas situações em que os dados
não estão organizados em intervalos de classe. Por fim, a nossa tabela de
intervalo de classe e sua distribuição de frequência ficará assim:

Tabela 15 – Distribuição de frequência para intervalo de classe.

fi
Idades ( xi ) ( fi ) ( faci ) fri = fri (%)
n
4
21 |- 27 4 4 = 0,13 13
30

12
27 |- 33 12 12 + 4 =16 = 0, 40 40
30

9
33 |- 39 9 9 + 16 = 25 = 0,30 30
30

4
39 |- 45 4 4 + 25 = 29 = 0,13 13
30

1
45 |- 51 1 1 + 29 = 30 = 0,03 3
30
Total 30 – 1 100

Fonte: Elaborada pela autora (2013).

www.esab.edu.br 63
Vimos na Tabela 15 a distribuição de frequência das idades dos 30
funcionários de certa empresa. Outra medida que podemos acrescentar à
tabela de distribuição de frequência quando os dados estão por intervalo
de classe é o chamado ponto médio.

O ponto médio (pmi ) é uma medida que divide o intervalo em


duas partes exatamente iguais. Essa medida é muito importante
quando trabalhamos com dados agrupados por intervalos de classe,
pois o ponto médio será a representação de cada classe do intervalo.
Matematicamente, temos:
l +l
pm = i s
2
Assim, o ponto médio dos intervalos de classe da Tabela 16 é:

Tabela 16 – Ponto médio.

fi
Idades ( xi ) ( pmi ) ( fi ) ( faci ) fri = ( fi ) (%)
n
21 + 27 4
21 |- 27 = 24 4 4 = 0,13 13
2 30

27 + 33 12
27 |- 33 = 30 12 12 + 4 =16 = 0, 40 40
2 30

33 + 39 9
33 |- 39 = 36 9 9 + 16 = 25 = 0,30 30
2 30

39 + 45 4
39 |- 45 = 42 4 4 + 25 = 29 = 0,13 13
2 30

45 + 51 1
45 |- 51 = 48 1 1 + 29 = 30 = 0,03 3
2 30
Total - 30 - 1 100

Fonte: Elaborada pela autora (2013).

Até o momento você estudou como extrair as primeiras informações de


um conjunto de dados a partir da distribuição de frequência. Contudo,
existem outras medidas interessantes que nos proporcionam a análise dos
dados. Conheça-as na próxima unidade.

www.esab.edu.br 64
11 Medidas de tendência central

Objetivo
Compreender e desenvolver os cálculos de moda, mediana e média.

Nas unidades 9 e 10, aprendemos que um conjunto de dados pode ser


resumido através de uma distribuição de frequência e que esta pode ser
representada por meio de uma tabela ou de um gráfico. Se o conjunto
refere-se a uma variável quantitativa, há uma terceira maneira de resumi-
lo: através das medidas de tendência central.

A medida de tendência central, ou medida de centralidade, é útil


para representarmos um conjunto de dados por um valor único central.
As principais medidas de centralidade são: média aritmética, moda e
mediana. Vamos dar início ao conhecimento da média?

Média aritmética
Provavelmente você já ouviu falar em média aritmética, ou apenas média.
Por exemplo: a média de gastos mensais com supermercado, a média
de notas de uma determinada disciplina, a estatura média da população
brasileira etc. A média é uma importante medida para representar um
conjunto de dados, pois com base na observação dos dados podemos
estimar um único valor que os represente. Mas como efetuamos o cálculo
da média? Acompanhe o exemplo a seguir.

Em uma turma, 10 alunos obtiveram as seguintes notas na primeira


prova da disciplina de português:

7,0 – 7,5 – 9,0 – 10,0 – 5,0 – 8,5 – 2,0 – 4,0 – 8,0 – 7,0
Qual foi a média aritmética da turma na primeira prova?

www.esab.edu.br 65
Vamos chamar de x1, x2, x3, ..., xn = 10 as notas da prova, sendo n = 10
a quantidade de alunos que realizaram a prova. A média aritmética das
notas da prova será a soma das notas, x1 + x2 + x3 + ... + x10, dividida por
n. Isto é:

7,0 + 7,5 + 9,0 + 10,0 + 5,0 + 8,5 + 2,0 + 4,0 + 8,0 + 7,0 68
µ
= = = 6,8
10 10

De maneira genérica, temos que a média aritmética de um conjunto de


dados é:
n

x1 + x 2 + x3 + ... + x10 ∑x i
=µ = i =1
ou
n n
n

x1 + x 2 + x3 + ... + x10 ∑x i
=x = i =1

n n

Em que µ representa a média aritmética de uma população e x a média


aritmética de uma amostragem.

Moda
O entendimento da moda (Mo) em estatística é semelhante ao que
utilizamos no cotidiano para designar que tal roupa, por exemplo, está na
moda, ou seja, uma determinada roupa está na moda quando a maioria
da população a utiliza. Portanto, em estatística a moda é o valor que
ocorre mais vezes em um conjunto de dados. Assim, tomando o exemplo
das notas novamente:

7,0 – 7,5 – 9,0 – 10,0 – 5,0 – 8,5 – 2,0 – 4,0 – 8,0 – 7,0
A moda será:

Mo = 7,0
Afinal, a nota 7,0 aparece duas vezes e as demais uma única vez. Assim,
chamamos a nota 7,0 de valor modal, ou unimodal.

www.esab.edu.br 66
Se acrescentarmos mais uma nota, por exemplo, a nota 8,0, temos duas
notas distintas que ocorrem com a mesma frequência.

7,0 – 7,5 – 9,0 – 10,0 – 5,0 – 8,5 – 2,0 – 4,0 – 8,0 – 7,0 – 8,0
Assim, Mo = 7,0 e Mo = 8,0, que chamaremos de valor bimodal.

Caso um conjunto de dados possua 3 valores distintos que apareçam com


a mesma frequência, não utilizaremos a moda como medida de análise
dos dados. Por outro lado, podemos encontrar um conjunto de dados em
que todos os valores aparecem uma única vez.

7,0 – 7,5 – 9,0 – 10,0 – 5,0 – 8,5 – 2,0 – 4,0 – 8,0


Para esse caso, como não há valores repetidos, dizemos que conjunto de
dados é amodal.

Mediana
A mediana (Md) é uma medida de tendência central que indica
exatamente o valor central de uma amostra de dados – esse valor divide o
conjunto de dados em duas partes iguais.

Levando em consideração o exemplo das notas da disciplina de


português, para determinar a mediana precisamos primeiramente
ordenar os dados brutos.

Dados brutos: 7,0 – 7,5 – 9,0 – 10,0 – 5,0 – 8,5 – 2,0 – 4,0 – 8,0 – 7,0

Rol: 2,0 – 4,0 – 5,0 – 7,0 – 7,0 – 7,5 – 8,0 – 8,5 – 9,0 – 10,0

A mediana será o valor que se encontra no meio da distribuição de


dados, ou seja, que divide o conjunto de dados em duas partes.

www.esab.edu.br 67
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
Rol:
2, 0 – 4, 0 – 5, 0 – 7, 0 – 7, 0 – 7,5 – 8, 0 – 8,5 – 9, 0 – 10, 0

5 elementos à direita 7,25 5 elementos à esquerda


da mediana. da mediana.

O valor que divide o rol em duas partes iguais é a mediana, Md = 7,25.

Se tivermos um conjunto de dados com o número de elementos n


grande, o uso de fórmula facilita o encontro da mediana. Contudo,
temos duas fórmulas possíveis.

Quando n é par: se o conjunto tiver uma quantidade par de dados,


então a mediana será calculada por meio da fórmula a seguir:

x n  + x n 
   +1 
2 2 
Md =
2

Em que x representa o elemento (valor) do conjunto de dados e


n n 
  e  + 1
2 2 

o índice do elemento x. Para melhor compreender a fórmula, observe o


exemplo a seguir:

Utilizando as informações do exemplo anterior, temos que n = 10 e,


portanto, é par. Logo:
x 10  + x 10
 
2 2 

 +1  x (5) + x ( 6 )
=Md =
2 2
Buscando os elementos x5 e x6 no rol, encontramos os respectivos
valores: x5 = 7,0 e x6 = 7,5. Substituindo em:
x 10  + x 10
 
2 2 

 +1  x(5) + x( 6 ) 7,0 + 7,5
=Md = = = 7,25
2 2 2

www.esab.edu.br 68
Quando n é impar: agora, se acrescentarmos mais uma nota ao rol,
teremos n = 11 notas, isto é, uma quantidade ímpar de elementos. Então:
x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11
Rol:
2, 0 – 4, 0 – 5, 0 – 7, 0 – 7, 0 – 7,5 − 8, 0 – 8, 0 – 8,5 – 9, 0 – 10, 0

5 elementos à direita Mediana 5 elementos à esquerda


da mediana. da mediana.

Assim, a fórmula da mediana quando n é impar é: Md = x n +1 


 
 2 
 n +1
Em que x é um elemento do conjunto de dados e   é o índice do
elemento x.  2 

Aplicando em nosso exemplo:

=
Md x=
 n +1 
x=
11+1  x6
   
 2   2 

Buscando o elemento x6 no rol, encontramos o valor 7,5. Logo, a


mediana Md = 7,5.

Considerações importantes sobre medidas de tendência central

Em distribuições simétricas, a média, a mediana e a moda são iguais.

50% 50%

Média = Moda = Mediana


Figura 23 – Representação da média, moda e mediana para uma distribuição simétrica.
Fonte: Elaborada pela autora (2013).

www.esab.edu.br 69
Em distribuições assimétricas, a média tende a deslocar-se para o lado da
cauda mais longa da curva.

50%

50%

Mediana Média
Figura 24 – Representação da média, moda e mediana para uma distribuição assimétrica.
Fonte: Elaborada pela autora (2013).

É importante destacar que normalmente usamos apenas uma das medidas para
representar a distribuição.

Em suma, como a média considera em seu cálculo todos os valores da


distribuição, então para uma distribuição razoavelmente simétrica, ela é a
mais indicada para representar o conjunto de dados. Já para distribuições
assimétricas, pela razão de serem considerados todos os valores da
distribuição, a média pode ser afetada por valores extremos, o que
implica uma análise mais distante da realidade dos dados.

Com relação à medida de centralidade moda, ela é mais indicada para


distribuições em que houver um elemento típico cuja frequência seja
muito superior à frequência dos demais elementos.

www.esab.edu.br 70
Moda, média e mediana para
12 dados agrupados
Objetivo
Determinar moda, média e mediana para dados agrupados.

Na unidade 11, aprendemos a calcular a média, a moda e a mediana de


um conjunto de dados brutos, ou rol. Agora veremos como calcular essas
medidas quando os dados estão agrupados em uma tabela.

Média para dados agrupados


Observe o exemplo que segue:

Em uma empresa foi elaborado um levantamento para saber o número


de filhos que cada funcionário possui, para uma possível implantação do
Plano de Saúde Família.

Tabela 17 – Número de filhos por funcionário de uma empresa.

Nº de filhos ( xi ) Frequência ( fi )
0 3
1 2
2 3
3 2
4 1
Total 11

Fonte: Elaborada pela autora (2013).

O exemplo anterior nos fornece os dados referentes à quantidade de


filhos que cada funcionário de certa empresa possui, já organizados em
uma tabela. Nessa situação, como podemos calcular a média de filhos por
funcionários?

www.esab.edu.br 71
A tabela nos informa que três funcionários não têm filhos (0 filho), que
dois funcionários têm apenas um filho, e assim por diante. Logo, para
iniciar o cálculo da média temos que obter o produto do número de
filhos pela sua frequência. Podemos fazer isso abrindo uma nova coluna
na tabela para facilitar a realização do cálculo.

Tabela 18 – Número de filhos por funcionário de uma empresa.

Nº de filhos ( xi ) ( fi ) xi × fi
0 3 0×3=0
1 2 1×2=2
2 3 2×3=6
3 2 3×2=6
4 1 4×1=4

Total 11 ∑x × f
i i =
18

Fonte: Elaborada pela autora (2013).

De posse do produto xi × fi em cada linha, temos que a soma desses


resultados ( ∑ x × f ) é igual a 18. A média será então a soma de x
i i i
×
fi dividida pelo total de dados (elementos do conjunto), isto é, n = 11
funcionários. Matematicamente, a média é:

µ
=
∑ x × f=
i i 18
= 1,6
n 11
Fazendo o arredondamento da média para o inteiro mais próximo (pois o
número de filhos é uma variável discreta, já que não podemos ter meio),
temos m = 2 filhos. Portanto, os funcionários de determinada empresa
têm em média dois filhos.

www.esab.edu.br 72
Veja outro exemplo:

O cálculo da média bimestral da disciplina de Estatística de uma


universidade é composto pela realização de Exercícios de Fixação,
chamados de EF, e da Avaliação Bimestral, chamada de AB. Os EF têm
peso 3 e a AB tem peso 7. A soma desses pesos é o máximo que um aluno
poderá obter de nota ao final do bimestre, ou seja, 3 + 7 = 10 pontos.

Um aluno tirou nota 9,0 nos EF e nota 7,0 na AB. Qual será a média
desse aluno no bimestre?

Para resolver este problema, vamos organizar os dados em uma tabela.

Tabela 19 – Pesos das notas de uma disciplina.


Peso Nota
EF 3 9,0
AB 7 7,0

Fonte: Elaborada pela autora (2013).

Abrindo uma nova coluna na tabela, calcula-se o peso multiplicado pela


nota.

Tabela 20 – Produto do peso pela nota.


Peso (P) Nota (N) P×N
EF 3 9,0 27
AB 7 7,0 49

Total n = 3 + 7 = 10 - ∑ P× N =
76

Fonte: Elaborada pela autora (2013).

Então, a média será:

µ
=
∑ P × N= 76
= 7,6
∑P 10

Logo, o aluno obteve média 7,6 no bimestre.

www.esab.edu.br 73
Média aritmética para dados em intervalos de classe
A média aritmética para distribuição de dados em intervalos de classe
é semelhante ao cálculo da média aritmética de dados agrupados sem
intervalos de classe. A diferença é que, ao invés de considerar os valores
da variável x, toma-se como parâmetro o ponto médio dos intervalos de
classe da variável x. Observe o exemplo.

A tabela a seguir apresenta a idade dos alunos de uma determinada turma


de graduação:

Tabela 21 – Idade dos estudantes de uma turma.

Idade ( xi ) ( pmi ) ( fi )
18 |- 23 20,5 2
23 |- 28 25,5 11
28 |- 33 30,5 5
33 |- 38 35,5 2
38 |-43 40,5 2
Total - 22

Fonte: Elaborada pela autora (2013).

De forma análoga ao exemplo da Tabela 19, abriremos uma coluna para


obter o produto, agora, do ponto médio pela FA.

Tabela 22 – Produto do ponto médio pela FA.

Idade ( xi ) ( pmi ) ( fi ) pmi × fi


18 |- 23 20,5 2 20,5 × 2 = 41
23 |- 28 25,5 11 25,5 × 11 = 280,5
28 |- 33 30,5 5 30,5 × 5 = 152,5
33 |- 38 35,5 2 35,5 × 2 = 71
38 |-43 40,5 2 40,5 × 2 = 81

Total - 22 ∑ pm × f =626.
i i

Fonte: Elaborada pela autora (2013).

www.esab.edu.br 74
De posse do produto pmi × fi em cada linha, temos que a soma desses
resultados ( ∑ pm × f ) é igual a 626. A média será então a soma de
i i

pmi × f i dividida pelo total de dados (elementos do conjunto), isto é, n


= 22 idades. Matematicamente, a média é:

µ
=
∑ pm ×=
f i i 626
= 28,5
n 22

Portanto, a média de idade da turma é 28,5 anos.

Moda para dados agrupados


Se os dados estiverem agrupados por classe em uma tabela, obtém-se a
moda da forma que encontramos na unidade 10, isto é, observando o
dado que aparece com maior frequência. Veja o exemplo que segue:

Tabela 23 – Número de livros de literatura por estudante.

Nº de livros ( xi ) ( fi )
0 8
1 10
2 3
5 1
Total 22

Fonte: Elaborada pela autora (2013).

A moda Mo = 1 livro de literatura por estudante.

www.esab.edu.br 75
Mediana para dados agrupados
Quando os dados estiverem agrupados, a mediana dos valores x1, x2, x3,
..., xn será determinada pela sua posição em relação à frequência absoluta
acumulada (faci). Lembrando que para encontrar a posição da mediana
devemos utilizar as fórmulas vistas na unidade 10, ou seja:

 x n  x n 
  2   
2 
, quando é par


Md 
x , quando n é ímpar
  
  

Assim, tomando como base as informações da Tabela 23 e sabendo que o


número de elementos n = 22 é par, temos:

x n  + x n 
   +1 
2 2 
Md =
2
x 22  + x 22 
   +1 
 2   2 
Md =
2
x(11) + x(12 )
Md =
2
Encontrando a frequência absoluta acumulada (faci):

Tabela 24 – Frequência acumulada para determinar a posição da mediana.

Nº de livros ( xi ) ( fi ) ( faci )
0 8 8 Da 1ª à 8ª posição
1 10 18 Da 9ª à 18ª posição
2 3 21 Da 19ª à 21ª posição
5 1 22 22ª posição
Total 22 -

Fonte: Elaborada pela autora (2013).

www.esab.edu.br 76
Assim, as posições x11 e x12 possuem os respectivos valores: x11 = 1 e x12 = 1.

Substituindo em:
x(11) + x(12 ) 1 + 1 2
Md= = = = 1.
2 2 2

Veja outro exemplo:

Um comerciante contabilizou o número de defeitos por peça de sua loja


e obteve a seguinte relação:

Tabela 25 – Número de defeitos por peça.

Nº de defeitos ( xi ) Peças ( fi )
0 32
1 15
2 3
3 1
Total 51

Fonte: Elaborada pela autora (2013).

Qual é a mediana do número de defeitos por peça?

Solução: Para encontrarmos a mediana do número de defeitos por


peça, precisamos encontrar a posição da mediana. Como o número de
elementos (peças) n = 51 é ímpar, então devemos utilizar a fórmula:

Md = x n +1 
 
 2 

Substituindo n = 51 na fórmula, temos:


=
Md x=
 51+1 
x 26
 
 2 

Logo, devemos encontrar a posição de x26 na tabela com relação a sua


frequência absoluta acumulada.

www.esab.edu.br 77
Tabela 26 – Mediana para n ímpar.

Nº de defeitos ( xi ) Peças ( f i ) ( faci )


0 32 32 Da 1ª à 32ª posição
1 15 47
2 3 50
3 1 51
Total 51 -

Fonte: Elaborada pela autora (2013).

Assim a posição x26 encontra-se na primeira classe da tabela, sendo x26 = 0.


Portanto, a mediana do número de defeitos por peça é Md = 0.

Estudo complementar
Para aprender a resolver problemas estatísticos
que envolvam o cálculo da moda e da mediana
para um conjunto de dados organizados em
intervalo de classe, leia o material disponível aqui.

www.esab.edu.br 78
Resumo

Na unidade 7 você aprendeu a desenvolver gráficos estatísticos em uma


planilha eletrônica do Microsoft Excel 2010. Na unidade 8 o objetivo
foi apresentar a você exercícios resolvidos de forma a colaborar com
sua aprendizagem a respeito da interpretação de informações dispostas
em tabelas e gráficos. Nas unidades 9 e 10, estudamos como resumir
e organizar os dados por meio do que chamamos de distribuição de
frequências, que compreende a organização dos dados de acordo com as
ocorrências dos diferentes resultados observados. Por fim, nas unidades
11 e 12 estudamos as principais medidas de tendência central: média,
moda e mediana. Essas medidas são úteis para representar um conjunto
de dados por um valor único central.

www.esab.edu.br 79
Média geométrica e média
13 harmônica
Objetivo
Calcular a média geométrica e a média harmônica.

Nas unidades 11 e 12 você estudou as medidas de tendência central.


Dentre essas medidas, aprendemos o cálculo da média aritmética, tanto
para um conjunto de dados brutos quanto para um conjunto de dados
agrupados. Nesta unidade veremos outros tipos de cálculos para a média,
os quais chamamos de média geométrica e média harmônica. Para tanto,
tomaremos como base a concepção de Iezzi, Hazzan e Degenszajn (2004).

13.1 Média geométrica


O cálculo da média geométrica (Mg) é definido pela raiz n-ésima do
produto dos n elementos de um conjunto de dados, tal que n ≥ 2, e
os elementos x1, x2, ..., xn são números reais não negativos (IEZZI;
HAZZAN; DEGENSZAJN, 2004).

Matematicamente:
Mg= n x1 ⋅ x 2 ⋅ ... ⋅ xn

Vamos a um exemplo?

www.esab.edu.br 80
Seja o conjunto de dados cujos elementos são: 1 – 2 – 4 – 8 – 16; ou seja,
temos n = 5 elementos. Assim, a média geométrica desses dados é a raiz
quíntica (raiz de índice igual a 5) do produto dos cinco elementos. Veja:

Mg = 5
1 ⋅ 2 ⋅ 4 ⋅ 8 ⋅ 16
Mg = 5 1024
Mg = 4

Dica
Sabemos que nem sempre utilizar uma
calculadora científica é tarefa fácil, não é mesmo?
Então, para ajuda-lo com essa tarefa,
recomendamos este site. Nele, você irá encontrar
algumas dicas de encontrar vários tipos de
resultado.

Analisando os dados desse exemplo, repare que a sequência dos


elementos forma uma progressão geométrica. Nessas situações, em
que uma sequência de dados está em progressão geométrica, a média
geométrica é a mais indicada para representar o conjunto de dados por
um único elemento central.

Outra aplicabilidade da média geométrica é em sistemas financeiros,


então vamos acompanhar um exemplo?

Se um investimento durante dois meses rende 1% no primeiro mês e 2%


no segundo mês, qual é o rendimento médio mensal desse investimento?

O rendimento médio mensal desse investimento é a raiz quadrada do


produto dos fatores de crescimento.

www.esab.edu.br 81
Para recordar, em matemática financeira, os fatores de crescimento
relacionados às taxas de crescimento iguais a i (em nosso exemplo, i =
1% e i = 2%) são obtidos fazendo-se 1 + i. Sendo assim, os fatores de
crescimento do nosso exemplo são respectivamente:

1% ⇒ 0,01 ⇒ (1 + 0,01) = 1,01


2% ⇒ 0,02 ⇒ (1 + 0,02) = 1,02
Portanto, a média geométrica desses dois fatores é:

1, 01 ⋅ 1, 02 =
1, 01499

O resultado obtido é o fator médio de crescimento mensal.


Transformando na taxa de rendimento médio mensal, temos:

1 + i = 1,01499 ⇒ i = 1,01499 – 1 ⇒ i = 0,01499 ⇒ 1,50%


Ou seja, 1,50% é o rendimento médio mensal desse investimento.

13.2 Média harmônica


Sabemos, pela unidade 11, que o cálculo da média aritmética é a soma
dos elementos de um conjunto de dados dividida pelo número de
elementos que esse conjunto possui. Isto é:

x1 + x 2 + ... + xn
µ=
n

A média harmônica (Mh) é o inverso da média aritmética dos inversos


dos elementos x1, x2, ..., xn, sendo esses elementos valores não nulos
(IEZZI; HAZZAN; DEGENSZAJN, 2004). Matematicamente, temos:

O inverso da média aritmética é:

 x1 + x 2 + ... + x 
= = 
 n  x1 + x 2 + ... + x

www.esab.edu.br 82
E o inverso dos elementos x1, x2, ..., xn é:

1 1 1
x1−1 , x 2 −1 ,..., xn −1 = , ,..., .
x1 x 2 xn

Substituindo o inverso dos elementos em m‒1, chegamos ao cálculo da


média harmônica (Mh):
n
Mh =
1 1 1
+ + ... +
x1 x 2 xn

Suponhamos o seguinte exemplo: calcular a média harmônica dos valores


2 e 5.

Sabemos que n = 2 elementos, os valores x1 = 2 e x2 = 5. Então:


n 2 2 2 10 20
Mh = = = = =2 ⋅ = =2,86
1 1 1 1 5+2 7 7 7
+ +
x1 x 2 2 5 10 10

Portanto, a média harmônica dos valores 2 e 5 é 2,86.

Agora você deve estar se perguntando em qual situação devemos aplicar a


média harmônica ao invés das médias aritmética e geométrica. Pois bem,
você já deve ter visto situações como estas:

• à medida que a velocidade de um carro aumenta, o tempo estimado


de chegada para realizar certo percurso diminui;
• quanto maior a quantidade de trabalhadores na construção de uma
obra, por exemplo, menor a quantidade de dias para que a obra
fique pronta.
As duas situações anteriores refletem o que chamamos de grandezas
inversamente proporcionais. Isto é, quando a velocidade aumenta, o
tempo diminui (proporcionalmente); quanto mais trabalhadores, menos
dias para a obra ficar pronta. Assim, se quisermos determinar, por
exemplo, a velocidade média para realizar certo percurso, o cálculo mais
indicado é o da média harmônica.

www.esab.edu.br 83
Observe a problemática a seguir:

Um veículo realizou o trajeto de ida e volta entre as cidades A e B. Na


ida ele atingiu uma velocidade média de 90 Km/h, na volta a velocidade
média atingida foi de 110 Km/h. Qual foi a velocidade média para
realizar todo o percurso de ida e volta?

Utilizando a média harmônica para determinar a velocidade média do


percurso de ida e volta, temos:

Sabendo que n = 2 velocidades médias estimadas (percurso de ida e


percurso de volta):
2
Mh =
1 1
+
90 110

Resolvendo primeiramente o denominador, isto é, a adição das frações


1 1
+ , temos que o mínimo múltiplo comum (m.m.c.) entre 90 e
90 110
110 = 990. Logo:
2 2 2 2
=
Mh = = = =
1 1 11 + 9 20 2
+
90 110 990 990 99
99
= 2⋅ = 99 km/h
2

Portanto, a velocidade média do percurso de ida e volta às cidades A e B


é de 99 Km/h.

Nesta unidade você estudou as médias geométrica e harmônica que,


assim como a média aritmética, são medidas úteis para representar
uma distribuição de dados. A opção pelo cálculo de uma das médias
(geométrica, harmônica e aritmética) vai depender do problema que
está sendo trabalhado. Como já mencionado anteriormente a média
geométrica é uma medida interessante para representar um conjunto de
dados que se apresenta em progressão geométrica, e a média harmônica é

www.esab.edu.br 84
adequada em problemas cujas grandezas são inversamente proporcionais.
Agora que já vimos as principais medidas de centrabilidade, vamos
conhecer na unidade seguinte as medidas de dispersão. Até lá!

Saiba mais
Outra aplicação da média geométrica é em
problemas financeiros que apresentam variações
percentuais sucessivas. Veja um exemplo
disponível aqui.

www.esab.edu.br 85
14 Medida de dispersão
Objetivo
Compreender e desenvolver o cálculo das medidas de dispersão:
desvio médio, desvio quadrático, variância, desvio-padrão e
coeficiente de variação.

Na unidade 11, vimos que a média é uma medida que resume um


determinado conjunto de dados para um único valor. O cálculo da
média leva em consideração todos os dados (elementos) de um conjunto.
Podemos ter, assim, conjuntos de dados que possuem a mesma média.
No entanto, seus elementos possuem uma variação diferente. Vamos a
um exemplo.

Uma pesquisa em duas pequenas cidades do interior de certo estado


brasileiro estimou a quantidade de funcionários dos principais mercados de
alimentos de cada uma das cidades. A Tabela 27 ilustra os dados coletados.

Tabela 27 – Quantidade de funcionários nos mercados de alimentos de duas cidades.


Quantidade de funcionários por mercado Média de funcionários
Cidade A 15 – 19 – 19 – 22 – 25 – 26 21
Cidade B 20 – 20 – 21 – 22 – 22 21

Fonte: Elaborada pela autora (2013).

Podemos perceber, no exemplo anterior, que a média de funcionários


nos mercados da cidade A e da cidade B é a mesma, ou seja, tanto a
cidade A quanto a cidade B possuem uma média de 21 funcionários
por mercado. Contudo, repare que a distribuição de funcionários por
mercado na cidade A é diferente da distribuição de funcionários por
mercado na cidade B. Inclusive, pode-se notar que na cidade A havia 6
principais mercados de alimentos a serem pesquisados contra 5 mercados
de alimentos da cidade B.

www.esab.edu.br 86
Como podemos avaliar se a média calculada, de fato, é representativa
com relação à distribuição dos dados? A resposta a essa pergunta nos leva
ao conhecimento da medida de dispersão.

A medida de dispersão é uma medida que nos ajuda a compreender o


comportamento dos nossos dados com relação a sua média (BUSSAB; MORETTIN,
2002; MAGALHÃES; LIMA, 2005).

Essa medida nos permite inferir se os valores de certo conjunto de dados


estão mais dispersos ou menos dispersos. Em muitos casos, temos que
a média é afetada por valores discrepantes e, consequentemente, torna-
se uma medida menos representativa da distribuição de dados. Sendo
assim, a medida de dispersão vem agregar na tarefa de análise de uma
distribuição de dados (BUSSAB; MORETTIN, 2002; MAGALHÃES;
LIMA, 2005).

Em suma, chama-se medida de dispersão a medida que avalia o quanto


a média é representativa para um determinado conjunto de dados, isto é,
o quanto os dados estão dispersos ou concentrados ao redor da média.

São medidas de dispersão: desvio médio, desvio quadrático, variância,


desvio-padrão e coeficiente de variação. Vamos conhecer, primeiramente,
as medidas de dispersão denominadas desvio médio e desvio quadrático.

14.1 Desvio médio e desvio quadrático


Chamamos de desvio médio a diferença entre cada valor do conjunto de
dados e sua média aritmética. E denominamos de desvio quadrático o
desvio médio elevado ao quadrado (MAGALHÃES; LIMA, 2005). Em
termos matemáticos, temos:

Desvio Médio = DM = xi ‒ m
Desvio Quadrático = DQ = DM2 = ( xi ‒ µ)2

www.esab.edu.br 87
Em que:

• xi representa cada um dos elementos do conjunto de dados;


• m é a média do conjunto de dados.
Tomemos o conjunto dos funcionários (por mercado) da cidade A:

Tabela 28 – Desvio médio e desvio quadrático – cidade A.

Cidade A: Número de funcionários


Média (μ) DM (xi - μ) DQ ( xi - μ)2
por mercado ( xi )

15 15 – 21 = – 6 ( – 6)2 = 36
19 19 – 21 = – 2 ( – 2)2 = 4
19 19 – 21 = – 2 ( – 2)2 = 4
21
22 22 – 21 = 1 ( 1)2 = 1
25 25 – 21 = 4 ( 4)2 = 16
26 26 – 21 = 5 ( 5)2 = 25

Fonte: Elaborada pela autora (2013).

Assim, conforme informações da Tabela 28, podemos afirmar que o


primeiro mercado possui uma diferença de 6 funcionários com relação à
média geral de funcionários por mercado. Ou seja, o primeiro mercado
tem 6 funcionários a menos (ou – 6 funcionários) que a média geral. Já o
último mercado consultado possui 5 funcionários a mais que a média geral.

Você deve estar se perguntando: por que transformar o desvio médio


em desvio quadrático, elevando cada valor do desvio médio à segunda
potência, isto é, ao quadrado?

Você observou que o desvio médio pode ter como resultado valores
negativos. Todavia, para determinar o cálculo da variância e do desvio-
padrão que veremos a seguir, é necessário que os dados sejam não
negativos. Para isso, transformamos esses dados em valores positivos
elevando-os ao quadrado.

www.esab.edu.br 88
Antes de conhecermos os cálculos da variância e do desvio-padrão, vamos
determinar o desvio médio e quadrático para o número de funcionários
da cidade B.

Tabela 29 – Desvio médio e desvio quadrático – cidade B.


Cidade B: Número de funcionários
Média (μ) DM ( xi - μ) DQ ( xi - μ)2
por mercado ( xi )
20 20 – 21 = –1 ( – 1)2 = 1
20 20 – 21 = –1 ( – 1)2 = 1
21 21 21 – 21 = 0 ( 0)2 = 0
22 22 – 21 = 1 ( 1)2 = 1
22 22 – 21 = 1 ( 1)2 = 1

Fonte: Elaborada pela autora (2013).

Para o caso da cidade B, repare que encontramos desvios médios e


quadráticos diferenciados com relação aos da cidade A. Isso ocorre, pois
apesar de a média de funcionários de ambas as cidades ser a mesma (21
funcionários), o conjunto de dados é diferente.

14.2 Variância e desvio-padrão


A variância e o desvio-padrão avaliam a dispersão (ou concentração)
do conjunto de valores que está sendo analisado em relação à média
aritmética desses valores (MAGALHÃES; LIMA, 2005). O cálculo
dessas medidas leva em consideração o somatório dos valores resultantes
do desvio quadrático (DQ). Em termos matemáticos, temos:

∑(x i − µ )²
= s=
Variância ² i =1

n
n

∑(x i − µ )²
Desvio-padrão= s= i =1

www.esab.edu.br 89
Em que:

• (xi - m)2 é o desvio quadrático (DQ). Sendo xi cada um dos


elementos do conjunto de dados e m a média.
• n é a quantidade de elementos que o conjunto de dados possui.
A notação da variância é designada por s2, pois estamos trabalhando com
os dados em função de seus desvios quadráticos, sua unidade de medida
equivale à unidade de medida dos dados ao quadrado. O desvio-padrão
é nada mais que a raiz quadrada da variância e é expresso na mesma
unidade de medida dos dados em análise.

Tomemos novamente o exemplo do número de funcionários por


mercado das cidades A e B. A Tabela 30 apresenta o somatório do desvio
quadrático encontrado anteriormente das cidades A e B.

Tabela 30 – Somatório dos desvios quadráticos – cidades A e B.


Somatório de DQ
n

∑(x
i =1
i − µ )²

Cidade A 36 + 4 + 4 + 1 + 16 + 25 + = 86
Cidade B 1+1+0+1+1=4

Fonte: Elaborada pela autora (2013).

De posse dos somatórios do desvio quadrático das cidades A e B e


sabendo que o número de elementos n da cidade A é igual a 6 e da
cidade B é igual a 5, podemos então calcular a variância e o desvio-
padrão de ambas as cidades.

www.esab.edu.br 90
Tabela 31 – Variância e desvio-padrão – cidades A e B.

Variância Desvio-padrão
n n

∑(x i − µ )² ∑(x i − µ )²
s² = i =1
s= i =1
n n

86
Cidade A s=
² = 14,33 =s =
14, 33 3, 786
6
4
Cidade B s=
² = 0,8 s
= =
0,8 0,894
5

Fonte: Elaborada pela autora (2013).

O resultado do desvio-padrão significa que, em média, o número de


funcionários da cidade A está disperso com relação à média aritmética
em aproximadamente 3,786 funcionários. Já a cidade B tem um desvio-
padrão de aproximadamente 0,894 funcionários, isso significa que os
dados da cidade B estão muito mais concentrados (homogêneos) que o
conjunto de dados da cidade A.

Desse modo, podemos concluir que quanto maior o desvio-padrão de


um conjunto de dados, mais dispersos esses dados estão. E quanto menor
o desvio-padrão, menos dispersos estão os dados.

Para sua reflexão


Reflita sobre a seguinte situação: se uma turma
possui notas muito baixas e um desvio-padrão
elevado, o que isso significa? E se a turma obteve
notas elevadas e um desvio-padrão baixo?
A resposta a essa reflexão forma parte de sua
aprendizagem e é individual, não precisando ser
comunicada ou enviada aos tutores.

www.esab.edu.br 91
14.3 Coeficiente de variação
O coeficiente de variação é uma medida de dispersão relativa, pois
permite comparar a dispersão de diferentes distribuições (com diferentes
médias e desvios-padrão). Normalmente, essa medida é calculada em
percentual (MAGALHÃES; LIMA, 2005).

s s
cv= ou cv(%)= × 100
µ µ
Em que:

• s é o desvio-padrão da variável no conjunto de dados;


• m é a média aritmética da variável no mesmo conjunto.
Quanto menor o coeficiente de variação percentual, mais os dados estão
concentrados ao redor da média, pois o desvio-padrão é pequeno em
relação à média.

Exemplo: Sabendo que o desvio-padrão da cidade A é s = 3,786 e a


média é m = 21, então o coeficiente de variação será:

3, 786
cv = = 0,180 ou cv(%)= 0,180 × 100= 18%
21
Vimos, nesta unidade, as medidas de dispersão para um conjunto de
dados brutos. Na unidade a seguir veremos como calcular as medidas de
variância e desvio-padrão para dados agrupados. Vamos em frente!

www.esab.edu.br 92
Variância e desvio-padrão para
15 dados agrupados
Objetivo
Determinar a variância e o desvio-padrão para dados agrupados.

Na unidade anterior conhecemos os conceitos de variância e desvio-


padrão para uma distribuição de dados brutos. Nesta unidade
estudaremos essas mesmas medidas, mas para dados agrupados
(organizados) com base nos autores Bussab e Morettin (2002) e
Magalhães e Lima (2005).

Veja o exemplo que segue:

As notas da turma de alunos de uma faculdade foram organizadas a partir


da frequência (ocorrência) dos valores das notas. A Tabela 32 ilustra essa
organização das notas.

Tabela 32 – Notas da turma de uma faculdade.

Nota ( xi ) Frequência ( fi )
2 1
4 3
5 3
6 5
7 5
8 4
Total 21

Fonte: Elaborada pela autora (2013).

Quando os dados apresentam-se agrupados pelas suas respectivas


frequências, utilizamos o seguinte cálculo para a variância e o desvio-
padrão, segundo Bussab e Morettin (2002):

www.esab.edu.br 93
n

∑ f (x i i − µ )²
= s=
Variância ² i =1

n
n

∑ f (x i i − µ )²
Desvio-padrão= s= i =1

n
Em que:

• fi representa a frequência (ocorrência) de cada um dos elementos do


conjunto de dados;
• n é a quantidade de elementos que o conjunto de dados possui;
• (xi - m)2 é o desvio quadrático (DQ), sendo xi cada um dos elementos
do conjunto de dados e m a média.
Assim, para o exemplo anterior, vamos primeiramente determinar a
média das notas. Na unidade 12, vimos que para determinar a média
aritmética para dados agrupados devemos multiplicar o valor de cada
elemento do conjunto de dados pela sua respectiva frequência. Desse
modo, tomando os valores da tabela do exemplo anterior:
n

∑x f i i
=µ = i =1

n
(2 × 1) + (4 × 3) + (5 × 3) + (6 × 5) + (7 × 5) + (8 × 4)
=
21
126
= = 6
21
Com essa informação podemos dar sequência no cálculo da variância e
do desvio-padrão, obtendo o valor do desvio médio (DM), seguido pelo
cálculo do desvio quadrático (DQ). Observe a Tabela 33:

www.esab.edu.br 94
Tabela 33 – Variância e desvio-padrão para dados agrupados – exemplo das notas.

Nota ( xi ) Frequência ( fi ) Média (μ) DM ( xi - μ) DQ ( xi - μ)2


2 1 2–6=–4 (– 4)2 = 16
4 3 4–6=–2 (– 2)2 = 4
5 3 5–6=–1 (– 1)2 = 1
6
6 5 6–6=0 (0)2 = 0
7 5 7–6=1 (1)2 = 1
8 4 8–6=2 (2)2 = 4
Total 21

Fonte: Elaborada pela autora (2013).

Logo, a variância será:


n
− µ )² ∑ f (x i i
=s² = i =1

n
(1 × 16) + (3 × 4) + (3 × 1) + (5 × 0) + (5 × 1) + (4 × 4)
=
21
52
= = 2, 48
21
E o desvio-padrão:
n

∑ f (x i i − µ )²

= i =1
= =
2, 48 1,57
n
Portanto, as notas estão dispersas em aproximadamente 1,57 pontos.

Agora observe o exemplo a seguir:

www.esab.edu.br 95
Tabela 34 – Variância e desvio-padrão para dados agrupados – exemplo das notas.

Idade ( xi ) Ponto médio ( pmi ) Frequência ( fi )


18 |- 24 21 5
24 |- 30 27 10
30 |- 36 33 4
36 |- 42 39 12
42 |- 48 45 7
48 |- 54 51 2
Total - 40

Fonte: Elaborada pela autora (2013).

Quando os dados apresentam-se agrupados com intervalos de


classe, utilizamos o mesmo cálculo da variância e do desvio-padrão
apresentado anterior; no entanto, os valores de xi serão o ponto médio
(PM) de cada classe.

Assim, a variância e o desvio-padrão para dados em intervalo de classe


serão:
n

∑ f ( pm − µ )²
i i
= s=
Variância ² i =1

n
n

∑ f ( pm − µ )²
i i
Desvio-padrão= s= i =1

n
Assim, para o exemplo anterior, vamos primeiramente determinar a
média das notas. Lembre-se que para determinar a média aritmética para
dados agrupados com intervalo de classe devemos multiplicar cada valor
do ponto médio pela sua respectiva frequência. Desse modo, tomando os
valores da Tabela 34 do exemplo anterior:
n

∑ pm f i i
=µ= i =1

n
(21 × 5) + (27 × 10) + (33 × 4) + (39 × 12) + (45 × 7) + (51 × 2)
=
40
1392
= = 34,8
40
www.esab.edu.br 96
Com essa informação podemos dar sequência no cálculo da variância e
do desvio-padrão, obtendo o valor do Desvio Médio (DM), seguido pelo
cálculo do Desvio Quadrático (DQ). Observe a Tabela 35:

Tabela 35 – Variância e desvio-padrão para dados agrupados – exemplo das notas.


Ponto
Frequência
Idade ( xi ) médio DM (pmi – m) DQ (pmi – m)2
( fi )
( pmi )
18 |- 24 21 5 21 – 34,8 = – 13,8 (– 13,8)2 = 190,44
24 |- 30 27 10 27 – 34,8 = – 7,8 (– 7,8)2 = 60,84
30 |- 36 33 4 33 – 34,8 = – 1,8 (– 1,8)2 = 3,24
36 |- 42 39 12 39 – 34,8 = 4,2 (4,2)2 = 17,64

42 |- 48 45 7 45 – 34,8 = 10,2 (10,2)2 = 104,04

48 |- 54 51 2 51 – 34,8 = 16,2 (16,2)2 = 262,44


Total - 40

Fonte: Elaborada pela autora (2013).

Logo, a variância será:


n

∑ f ( pm − µ )²
i i
s² = i =1

n
(5 × 190, 44) + (10 × 60,84) + (4 × 3,24) + (12 × 17,64) +
s² =
40
+(7 × 104,04) + (2 × 262, 44)
40
3038, 4
=s² = 75,96
40

www.esab.edu.br 97
E o desvio-padrão:

∑ f ( pm
i − µ )²
i
=s² i =1
= =
75,96 8, 72
n

Portanto, as idades estão dispersas em aproximadamente 8,72 anos.

Vimos nesta unidade como efetuar o cálculo da variância e do desvio-


padrão para dados agrupados. Na próxima unidade veremos alguns
exercícios resolvidos que abrangem o cálculo de medidas de tendência
central e medidas de dispersão. Até lá!

www.esab.edu.br 98
16 Exercícios resolvidos
Objetivo
Apresentar exercícios resolvidos de medidas de tendência central e
medidas de dispersão.

Estudamos nas unidades anteriores as medidas de tendência central e as


medidas de dispersão, certo? Nesta unidade nos dedicaremos inteiramente
a acompanhar a resolução de alguns exercícios que o auxiliarão a um
melhor entendimento desse conteúdo. Portanto procure ter muita atenção!

Exercício 1

Considerando os dados a seguir:

Altura (cm): 160 – 158 – 160 – 173 – 164 – 171 – 180 – 163 – 164 – 165

Determine:

a. a moda;
b. a mediana;
c. a média aritmética;
d. o desvio médio e quadrático;
e. a variância e o desvio-padrão.

www.esab.edu.br 99
Resolução:

a. Como vimos na unidade 11, a moda de um conjunto de dados


brutos é o valor que ocorre com mais frequência perante os demais
dados. Assim, para o nosso conjunto de dados anterior temos que os
valores da altura (cm) que ocorrem com mais frequência são 160 cm
e 164 cm (2 vezes cada). Portanto, temos a bimodal Mo = 160 cm e
Mo = 164 cm.
b. Também na unidade 11 aprendemos a calcular a mediana para
um conjunto de dados brutos. Para tanto, precisamos em primeira
instância pôr os dados em ordem crescente ou decrescente, ou seja,
confeccionar o rol das alturas:

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10
158 160 160 163 164 164 165 171 173 180

Agora note que temos n = 10 elementos (dados), então n é uma


quantidade par de dados. Portanto, devemos utilizar a fórmula a seguir
para o cálculo da mediana quando n é par.
x n  + x n x 10  + x 10
 
2 2 

 +1   
2 2 

 +1  x (5) + x ( 6 )
=Md = =
n 2 2

Os elementos x(5) e x(6) são x(5) = 164 e x(6) = 164.

Portanto:
x(5) + x( 6 ) 164 + 164
=Md = = 164 cm
2 2

www.esab.edu.br 100
c. Ainda conforme o aprendizado da unidade 11, a média aritmética é
determinada pela soma de todos os elementos do conjunto de dados
dividida pela quantidade n de elementos. Logo:
n

∑x i
=µ =
i =1

n
158 + 160 + 160 + 163 + 164 + 164 + 165 + 171 + 173 + 180
µ=
10
1658
=µ = 165,8 cm
10
d. Com base na unidade 14, o desvio médio é a diferença entre cada
valor do conjunto de dados por sua média aritmética, e o desvio
quadrático é o valor de cada desvio médio elevado ao quadrado.
Assim, temos:
Tabela 36 – Desvio médio e desvio quadrático das alturas (cm).

Altura ( xi ) Média (μ) DM ( xi - μ) DQ ( xi - μ)2


158 – 7,8 60,84
160 – 5,8 33,64
160 – 5,8 33,64
163 – 2,8 7,84
164 – 1,8 3,24
165,8
164 – 1,8 3,24
165 – 0,8 0,64
171 5,2 27,04
173 7,2 51,84
180 14,2 201,64

Fonte: Elaborada pela autora (2013).

www.esab.edu.br 101
e. Na unidade 14 aprendemos também a calcular a variância e o
desvio-padrão para um conjunto de dados brutos.
A variância é o somatório dos desvios quadráticos (calculados na Tabela
37) dividido pela quantidade de elementos n do conjunto de dados:
n

∑(x i − µ )²
423, 6

= i =1
= = 42,36 cm
n 10

O desvio-padrão é a raiz quadrada da variância:


n

∑(x i− µ )²
=s i =1
= =
42,36 6,51 cm
n

Exercício 2

O departamento de Recursos Humanos de uma empresa realizou um


levantamento com seus funcionários para verificar quantas vezes por
semana eles praticam algum tipo de atividade física, como caminhadas,
musculação etc.

Tabela 37 – Dedicação semanal a atividade física.


Dedicação semanal a
Frequência ( fi )
atividade física ( xi )
0 20
1 2
2 3
3 8
4 5
5 15
6 1
Total 54

Fonte: Elaborada pela autora (2013).

www.esab.edu.br 102
A partir dos dados da Tabela 37, determine:

a. a moda;
b. a mediana;
c. a média aritmética;
d. a variância e o desvio-padrão.
Resolução:

a. Na unidade 12 estudamos as medidas de dispersão para dados


agrupados. Vimos que a moda para um conjunto de dados
agrupados é o elemento que possui a maior frequência. Nesse caso,
temos que a moda Mo = 0 dedicação semanal a atividade física, pois
foi o elemento que teve a maior incidência (frequência igual a 20).
b. Vimos também na unidade 12 que para determinar a mediana dos
dados agrupados devemos observar, primeiramente, se o número de
elementos n é par ou ímpar. Temos nesse exercício n = 54, que é par.
Portanto:

x n  + x n x 54  + x 54
 
2 2 

 +1   
 2   2 

 +1  x( 27 ) + x( 28)
=Md = =
n 2 2

Agora devemos calcular a Frequência Absoluta Acumulada (FAA) e


encontrar os elementos x(27) e x(28):

www.esab.edu.br 103
Tabela 38 – Frequência absoluta acumulada da dedicação semanal a atividade física.

Dedicação semanal a atividade física ( xi ) Frequência ( fi ) FAA ( faci )


0 20 20
1 2 2 + 20 = 22
2 3 3 + 22 = 25
3 8 8 + 25 = 33
4 5 5 + 33 = 38
5 15 15 + 38 = 53
6 1 1 + 53 = 54
Total 54 -

Fonte: Elaborada pela autora (2013).

Os elementos x(27) e x(28) são x(27) = 3 e x(28) = 3. Portanto:


x(27 ) + x(28) 3 + 3
=
Md = = 3 dias de dedicação semanal a atividade
2 2
física.

c. Conforme aprendemos na unidade 12, a média aritmética para


dados agrupados é calculada da maneira a seguir:
n

∑x f i i
=µ =
i =1

n
(0 × 20) + (1 × 2) + (2 × 3) + (3 × 8) + (4 × 5) + (5 × 15) + (6 × 1)
=
54
133
= = 2,5
54

www.esab.edu.br 104
Portanto, a média é de 2,5 dias de dedicação semanal a atividade física.

d. A variância e o desvio-padrão para dados agrupados, conforme


conhecimento visto na unidade 14, são calculados da seguinte forma:
n

∑ f (x i i − µ )²
= s=
Variância ² i =1
e
n
n

∑ f (x i i − µ )²
Desvio-padrão= s= i =1

Como já temos a média, pelo item anterior, então precisamos determinar


o desvio quadrático para encontrar a variância e o desvio-padrão. Assim:

Tabela 39 – Desvio quadrático da dedicação semanal a atividade física.


Dedicação semanal a
atividade física Frequência ( fi ) Média (m) DM ( xi – m) DQ ( xi – m)2
( xi )
0 20 – 2,5 6,25
1 2 – 1,5 2,25
2 3 – 0,5 0,25
3 8 2,5 0,5 0,25
4 5 1,5 2,25
5 15 2,5 6,25
6 1 3,5 12,25
Total 54

Fonte: Elaborada pela autora (2013).

www.esab.edu.br 105
Logo, a variância será:

∑ f (x i i − µ )²
s² = i =1

n
(20 × 6,25) + (2 × 2,25) + (3 × 0,25) + (8 × 0,25) +
s² =
54
+(5 × 2,25) + (15 × 6,25) + (1 × 12,25)
54
249,5

= = 4,62
54

E o desvio-padrão:
n

∑ f (x i i − µ )²

= i =1
= =
4, 62 2,15
n

Portanto, a dedicação semanal a atividades físicas está dispersa em


aproximadamente 2,15 dias por semana.

Agora que você já aprendeu como resolver problemas envolvendo


medidas de tendência central e medidas de dispersão, vamos conhecer na
unidade a seguir as separatrizes e o gráfico boxplot.

www.esab.edu.br 106
17 Separatrizes e gráfico boxplot
Objetivo
Apresentar, determinar e representar as medidas de separatrizes e o
gráfico boxplot.

Na unidade 11 você conheceu a mediana, uma medida que divide


(separa) o rol de dados em duas partes iguais. Dessa forma, a mediana é
uma medida de tendência central que chamamos, também, de separatriz.

Segundo Bussab e Morettin (2002), as separatrizes nos ajudam na


visualização e análise da assimetria da distribuição dos dados. Assim,
outra separatriz muito conhecida são os quartis.

Os quartis são números que dividem a sequência ordenada de dados


em quatro partes iguais, isto é, que contêm a mesma quantidade de
elementos em cada uma das quatro partes.

Veja o exemplo que segue:

As notas da turma de um determinado curso foram:


50% 50%

2 3 4 4 5 5 5 7 8 9 10

( Ei ) (Q1 ) (Q2 ) = Md (Q3 ) (Es )

Figura 25 – Descrição dos quartis que exemplificam as notas de uma turma.


Fonte: Elaborada pela autora (2013).

www.esab.edu.br 107
Chamamos de extremo inferior (Ei ) o menor valor dos dados em
análise. Chamamos de primeiro quartil (Q1) o valor que delimita os
25% valores abaixo. O segundo quartil (Q2) é a própria mediana (Md)
que separa os 50% valores abaixo dos 50% valores acima. Chamamos de
terceiro quartil (Q3) o valor que separa os 25% valores acima. Por fim,
chamamos de extremo superior (Es ) o maior valor dos dados em análise.

Observe como se comporta a distribuição dos quartis em uma curva


assimétrica:

25% 25%

25% 25%

Figura 26 – Distribuição dos quartis em uma curva assimétrica.


Fonte: Elaborada pela autora (2013).

17.1 Cálculo de separatrizes


Para calcularmos um quartil precisamos primeiramente que os dados
estejam ordenados crescentemente ou decrescentemente. Após isso, da
mesma forma que o cálculo da mediana – em que encontramos a posição
do elemento e então o buscamos no conjunto de dados –, calculamos a
posição do quartil através da fórmula:

i ⋅ (n + 1)
Posição= P=
i
4

www.esab.edu.br 108
Em que:

• i é o quartil desejado (1, 2 ou 3);


• n é o número de elementos do conjunto de dados.
Se o valor da posição for fracionário, devemos fazer a média entre os dois
valores que estão nas posição imediatamente anterior e imediatamente
posterior à posição calculada.

Observe o exemplo:

Suponha que desejamos conhecer a idade limite que separa os 75% mais
jovens dos 25% mais velhos de n = 14 funcionários de determinada
empresa. A Tabela 40 apresenta o rol da idade dos funcionários.

Tabela 40 – Rol da idade dos funcionários de certa empresa.

x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 x11 x12 x13 x14

21 26 27 28 28 29 30 30 32 32 33 34 37 39

Fonte: Elaborada pela autora (2013).

Assim, determinar a idade limite que separa os 75% mais jovens dos
25% mais velhos significa que se procura o 3º quartil. Pois cada quartil
delimita 25% dos dados (25% + 25% + 25% + 25% = 100% dos
dados). Então, sendo i = 3:

3 ⋅ (14 + 1)
=P3 = 11, 25
4
Assim, para encontrarmos Q3 precisamos efetuar a média entre os valores
que estão uma posição antes de 11,25, ou seja, 11, e uma posição depois de
11,25, que é a posição 12. Os elementos que estão nas posições 11 e 12 são
x11 = 33 e x12 = 34. A média desses elementos será o terceiro quartil:
33 + 34
=Q3 = 33,5
2

www.esab.edu.br 109
Portanto, a idade que separa os 75% mais jovens dos 25% mais velhos é
a idade de 33,5 anos.

Estudo complementar
Agora que você já aprendeu sobre a medida
separatriz, denominada quartis, conheça também
outras separatrizes, como os decis e centis (também
conhecido como percentis), disponíveis aqui.

17.2 Gráfico boxplot


O boxplot é um gráfico apropriado para resumir o conjunto de
observações de uma variável quantitativa. Esse gráfico revela vários
aspectos dos dados, dentre eles: tendência central, dispersão e assimetria.
Além disso, um gráfico boxplot também possibilita a visualização de
valores discrepantes (atípicos).

A construção do boxplot é feita com base no chamado resumo de cinco


números.

• Extremo inferior (Ei )


• Primeiro quartil (Q1)
• Mediana (Md)
• Terceiro quartil (Q3)
• Extremo superior (Es )
A parte central do gráfico é composta de uma “caixa” com o nível
superior dado por Q3 e o nível inferior por (Q1). O tamanho da caixa
é uma medida de dispersão chamada amplitude interquartílica - dq
(BUSSAB; MORETTIN, 2002):

dq = Q3 ‒ Q1

www.esab.edu.br 110
A mediana, medida de tendência central, é representada por um traço no
interior da caixa, e segmentos de reta são colocados da caixa até os valores
máximo e mínimo, que não sejam observações discrepantes.

Es *

Q3

dq
Md
Q1

Ei

Figura 27 – Gráfico boxplot.


Fonte: Elaborada pela autora (2013).

O dado discrepante é representado por asterisco (*).

Veja o exemplo de Magalhães e Lima (2005, p. 17):

Suponha que um produtor de laranjas costume guardar as frutas em caixas e está


interessado em estudar o número de laranjas por caixa. Após um dia de colheita, 20
caixas foram contadas. Os resultados foram: 48, 35, 37, 52, 43, 29, 61, 33, 44, 55, 69,
43, 22, 35, 38, 57, 53, 67, 62 e 48. Para os dados apresentados, temos que MD = 46,
Q1 = 36,5 e Q3 = 55,5. Também temos que o número de laranjas em uma caixa é 22
e o número máximo, 69.

www.esab.edu.br 111
De acordo com Magalhães e Lima (2005), o boxplot correspondente é
apresentado na Figura 28:

70

60

50
Laranjas
40

30

20

Figura 28 – Gráfico boxplot para o exemplo das laranjas.


Fonte: Magalhães e Lima (2005).

Note que por meio do gráfico boxplot conseguimos visualizar que a


distribuição dos dados referentes ao exemplo das laranjas é bastante
simétrica, pois a distância entre o primeiro quartil e a mediana é a mesma
entre a mediana e o terceiro quartil.

Tarefa dissertativa
Caro estudante, convidamos você a acessar o
Ambiente Virtual de Aprendizagem e realizar a
tarefa dissertativa.

Estamos finalizando mais uma unidade e na sequência você estudará as


medidas de assimetria e curtose.

www.esab.edu.br 112
18 Medidas de assimetria e curtose

Objetivo
Apresentar e determinar as medidas de assimetria e curtose.

Na unidade anterior você conheceu as medidas separatrizes e viu como


elas se comportam no gráfico boxplot. Nesta unidade vamos estudar as
medidas de assimetria e curtose com base nos autores Bussab e Morettin
(2002) e Magalhães e Lima (2005).

As medidas de assimetria e curtose proporcionam, juntamente com as


medidas de posição e dispersão, a descrição e compreensão completa da
distribuição de frequências estudada.

As distribuições de frequências não diferem apenas quanto ao valor


médio e a variabilidade, mas também quanto a sua forma.

As medidas de assimetria referem-se à forma da curva de uma


distribuição de frequências.

Assim, dizemos que uma distribuição de frequência é simétrica quando


a média, a mediana e a moda são iguais (m = Md = Mo), ou seja,
apresentam um mesmo valor ou, ainda, coincidem em um mesmo
ponto. Podemos visualizar a distribuição simétrica na Figura 29.

Distribuição
simétrica

µ = Md = Mo
Figura 29 – Distribuição simétrica ou curva simétrica.
Fonte: Elaborada pela autora (2013).

www.esab.edu.br 113
Quando a média, a mediana e a moda recaem em pontos diferentes
da distribuição, isto é, apresentam valores diferentes, sendo que o
deslocamento desses pontos pode ser para a direita ou para a esquerda,
chamamos de distribuição (ou curva) assimétrica positiva ou distribuição
(ou curva) assimétrica negativa, respectivamente. Observe a Figura 30:

A Assimetria positiva B Assimetria negativa

Figura 30 – Representação gráfica das curvas assimétrica positiva (a) e assimétrica negativa (b).
Fonte: Elaborada pela autora (2013).

Na assimetria positiva, a média, a mediana e a moda têm a seguinte


relação de ordem:

m > Md > Mo
Na assimetria negativa, a média, a mediana e a moda têm a relação de
ordem a seguir:

m < Md < Mo
Podemos concluir então que, em distribuições assimétricas, média, moda
e mediana terão valores diferentes, em que a média será maior que a
mediana, e esta maior que a moda, quando a assimetria for positiva; e a
média será menor que a mediana, e esta menor que a moda, quando a
assimetria for negativa.

Na sequência conheça um novo conceito, o de curtose. Vamos lá?!

www.esab.edu.br 114
18.1 Curtose
A curtose indica até que ponto a curva de frequências de uma
distribuição se apresenta mais afilada ou mais achatada do que uma
curva padrão (BUSSAB; MORETTIN, 2002). De acordo com o grau de
curtose, podemos ter três tipos de curvas de frequência.

Mesocúrtica

Quando a distribuição (ou curva) de frequências apresenta um grau de


achatamento equivalente ao da curva normal.

Distribuição Mesocúrtica Curva Normal

Figura 31 – Representação gráfica da curva mesocúrtica.


Fonte: Elaborada pela autora (2013).

Platicúrtica

Quando uma distribuição (ou curva) de frequências apresenta um alto


grau de achatamento, superior ao da curva normal.

Figura 32 – Representação gráfica da curva platicúrtica.


Fonte: Elaborada pela autora (2013).

www.esab.edu.br 115
Leptocúrtica

Quando uma distribuição (ou curva) de frequências apresenta um alto


grau de ilamento, superior ao da curva normal.

Figura 33 – Representação gráfica da curva leptocúrtica.


Fonte: Elaborada pela autora (2013).

A medida de curtose (k) leva em consideração a diferença entre os


valores do primeiro e terceiro quartis, dividida por dois. Esse resultado é
dividido pela diferença entre o nonagésimo centil e o décimo centil. Em
termos matemáticos, calcula-se a curtose da seguinte forma:

(Q3 − Q1 )
k= 2
C 90 − C10
Assim, é determinado que:

• k = 0,263 ⇒ Curva ou distribuição mesocúrtica.


• k > 0,263 ⇒ Curva ou distribuição platicúrtica.
• k < 0,263 ⇒ Curva ou distribuição leptocúrtica.

www.esab.edu.br 116
Exemplo:

Em conjunto de dados com n = 12 elementos, a saber:

0 0 1 4 4 5 6 6 6 8 9 10

Além disso, temos as seguintes informações a respeito das separatrizes dos


dados: Q1 = 2,5, Q3 = 7, C10 = 0 e C90 = 8,5.

Para determinar a curtose dos dados, vamos aplicar o cálculo:


(Q3 − Q1 ) 7 − 2,5 4,5
2 2 4,5 1
k= = = 2 = × = 0, 265
C 90 − C10 8,5 − 0 8,5 2 8,5

Sendo k = 0,265, que é maior que 0,263, isso significa que a curva ou
distribuição é platicúrtica.

Você viu nesta unidade as medidas de assimetria e curtose que nos


auxiliam a compreender a assimetria e amplitude dos dados.

Atividade
Chegou a hora de você testar seus conhecimentos
em relação às unidades 10 a 18. Para isso, dirija-
se ao Ambiente Virtual de Aprendizagem (AVA) e
responda às questões. Além de revisar o conteúdo,
você estará se preparando para a prova. Bom
trabalho!

www.esab.edu.br 117
Resumo

Na unidade 13 você aprendeu duas novas abordagens para se calcular


a média, paralelas à média aritmética. Essas duas abordagens de média
são chamadas de média geométrica e média harmônica e auxiliam na
determinação de uma medida central em sequências geométricas e
sequências inversamente proporcionais, respectivamente. Já nas unidades
14 e 15 estudamos as medidas de dispersão que avaliam o quanto a
média é representativa para um determinado conjunto de dados. Na
unidade 16 foram apresentados a você alguns exercícios resolvidos
para a fixação da aprendizagem com relação ao cálculo das medidas de
tendência central e medidas de dispersão. Por fim, nas unidades 17 e 18
aprendemos a determinar as medidas de separatrizes, como os quartis, e
as medidas de assimetria curtose.

www.esab.edu.br 118
19 Variável bidimensional
Objetivo
Compreender e determinar as frequências absoluta e relativa de uma
variável bidimensional.

Até o momento, vimos como organizar e resumir as informações


pertinentes a uma única variável. Porém, em uma pesquisa estatística, é
comum o interesse em verificar a associação entre duas ou mais variáveis,
isto é, verificar se uma determinada variável está influenciando outra
variável em estudo.

Utilizando as ideias principais dos estudos de Bussab e Morettin (2002)


e Magalhães e Lima (2005), nesta unidade vamos tratar da associação
entre duas variáveis. Todavia, os conceitos abordados aqui podem ser em
geral expandidos para situações em que três ou mais variáveis estão sendo
estudadas (BUSSAB; MORETTIN, 2002; MAGALHÃES; LIMA, 2005).

Assim, podemos iniciar esse assunto com o seguinte questionamento: como


calcular as frequências absolutas e relativas entre duas variáveis em estudo?

Primeiramente, devemos organizar os dados em uma tabela, a qual


chamamos de tabela de contingência ou tabela de dupla entrada. Para
elucidar esse conceito, vamos observar o exemplo a seguir.

Em uma pesquisa com 200 estudantes do Ensino Superior, foram feitas


diversas perguntas. Entre estas, uma relacionada ao sexo (feminino ou
masculino) e à carreira escolhida.

Com o interesse de verificar a associação entre o sexo e a carreira


escolhida, podemos montar uma tabela de contingência que consiste em
dispor as categorias de uma das variáveis na linha da tabela e as categorias
da outra variável na coluna da tabela, de tal forma que possamos
distribuir as ocorrências (frequências) de ambas as variáveis. Observe o
esquema na Tabela 41.

www.esab.edu.br 119
Tabela 41 – Esquema de como fazer a contagem para uma distribuição conjunta.
Dados
Carreira
Estudantes Sexo Criação da tabela de contingência
escolhida
1 Economia Masculino Carreira Sexo
escolhida Feminino Masculino
2 Administração Feminino
3 Administração Masculino Economia II

4 Economia Masculino Administração III I

5 Administração Feminino
... ... ...
200 Administração Feminino

Fonte: Elaborada pela autora (2013).

Fazendo a classificação de todos os estudantes, origina-se a Tabela 42.

Tabela 42 – Frequências absolutas para distribuição conjunta da relação entre o sexo e a carreira escolhida dos
estudantes.

Carreira Sexo
Total
escolhida Feminino Masculino
Economia 35 85 120
Administração 25 55 80
Total 60 140 200

Fonte: Bussab e Morettin (2002).

Com base na Tabela 42 de contingência, podemos constatar que dos 120


estudantes de Economia, 85 são do sexo masculino versus 35 estudantes
do sexo feminino.

Note que os totais nas linhas constituem o total de estudantes pelo sexo
(masculino ou feminino) e os totais das colunas constituem o total dos
estudantes pela carreira escolhida (economia ou administração).

Para facilitar a análise de uma tabela de contingência, podemos incluir


as frequências relativas (em percentagens), que podem ser calculadas em
relação ao total geral (em nosso exemplo, 200 estudantes) ou aos totais
das linhas ou das colunas, dependendo do objetivo.

www.esab.edu.br 120
Neste momento, vamos determinar a frequência relativa (em percentual)
pelo total geral, aplicando uma regra de três simples. Por exemplo:
tomando os 35 estudantes do sexo feminino cuja carreira escolhida foi
economia, esse valor em percentual é:

200 (total da geral) − − − − 100 (%) 35 × 100


=⇒x = 17,5%
35 (estudantes) − − − − − − x (%)  200

Analogamente, para cada valor da Tabela 42, temos as frequências


relativas em percentual, conforme a Tabela 43.

Tabela 43 – Frequência relativa (em percentual) para distribuição conjunta da relação entre o sexo e a carreira
escolhida.
Sexo
Carreira escolhida Total
Feminino Masculino
Economia 35 (17,5%) 85 (42,5%) 120 (60%)
Administração 25 (12,5%) 55 (27,5%) 80 (40%)
Total 60 (30%) 140 (70%) 200 (100%)

Fonte: Bussab e Morettin (2002).

Na Tabela 43, podemos observar que dos 70% estudantes do sexo


masculino, a maioria (42,5%) optou pela carreira de economista.

Na Tabela 44, a distribuição da frequência relativa (em percentagem) está


relacionada aos totais por linha.

Para os estudantes que escolheram a carreira de economista e são do sexo


feminino (primeiro item da primeira linha), calculamos:

120 (carreira escolhida: economia) − − − − − − − − 100 (%) 


⇒
35 (sexo feminino e carreira de economia ) − − − − − x (%)
35 × 100
=
⇒x = 29%
120

www.esab.edu.br 121
Fazendo a mesma conta para cada item da Tabela 44, temos:

Tabela 44 – Frequência relativa (percentual) para distribuição conjunta da relação entre o sexo e a carreira
escolhida.
Sexo
Carreira escolhida Total
Feminino Masculino
Economia 35 (29%) 85 (71%) 120 (100%)
Administração 25 (31%) 55 (69%) 80 (100%)
Total 60 (30%) 140 (70%) 200 (100%)

Fonte: Elaborada pela autora (2013).

Nesse caso, podemos verificar que 31% dos estudantes de administração


são do sexo feminino e que 69% dos estudantes de administração são do
sexo masculino.

Exercício resolvido

A Tabela 45 apresenta os valores observados em uma amostra de 130


empregados do ramo do comércio. Determine a frequência relativa (em
percentual) e interprete de forma geral os resultados.

Tabela 45 – Número de fumantes por sexo (feminino e masculino).


Fumantes
Sexo
Sim Não Total
Feminino 24 18 42
Masculino 25 63 88
Total 49 81 130

Fonte: Adaptado de Magalhães e Lima (2005).

Solução:

Sabendo que o total de empregados é 130, aplicando regra de três


simples para os valores da Tabela 45, encontramos suas respectivas
frequências relativas (em percentual). Vejamos:

www.esab.edu.br 122
130 (total geral) − − − − − − 100 (%) 24 × 100
=⇒x = 18%
24 (empregados) − − − − − x (%)  130

Fazendo essa operação para cada valor da Tabela 45, originamos a Tabela 46.

Tabela 46 – Frequência relativa (em percentual) para as variáveis sexo (feminino e masculino) e fumantes.
Fumantes
Sexo
Sim Não Total
24 × 100 18 × 100 42 × 100
Feminino = 18% = 14% = 32%
130 130 130

25 × 100 63 × 100 88 × 100


Masculino = 19% = 48% = 68%
130 130 130

49 × 100
Total = 38% 130 (100%)
130

Fonte: Elaborada pela autora (2013).

Observando os resultados da Tabela 46, podemos verificar que a maioria


dos empregados não fuma (62%) e que 48% dos não fumantes são do
sexo masculino. Observando a linha da Tabela 46 que representa o sexo
feminino, temos que dos 32% de trabalhadores do sexo feminino 18%
são fumantes contra 14% não fumantes.

Nesta unidade, você aprendeu a relacionar duas variáveis e a identificar


suas frequências absoluta e relativa. Na próxima unidade, conheceremos
o gráfico que representa as variáveis bidimensionais: gráfico de dispersão.
Além disso, estudaremos a medida que identifica se há forte associação
entre as variáveis estudadas ou se elas são independentes.

www.esab.edu.br 123
Fórum
Caro estudante, dirija-se ao Ambiente Virtual de
Aprendizagem da Instituição e participe do nosso
Fórum de discussão. Lá você poderá interagir com
seus colegas e com seu tutor de forma a ampliar,
por meio da interação, a construção do seu
conhecimento. Vamos lá?

www.esab.edu.br 124
Diagrama de dispersão e
20 coeficiente de correlação
Objetivo
Apresentar e determinar o diagrama de dispersão e o coeficiente de
correlação.

Na unidade anterior, você aprendeu sobre as variáveis bidimensionais. Os


exemplos aplicados tratavam de variáveis qualitativas. Contudo, quando
as variáveis são quantitativas, podemos utilizar outros critérios de análise
passíveis de procedimentos analíticos mais refinados. Para estudarmos
melhor esse assunto, vamos ter como suporte os estudos de Bussab e
Morettin (2002).

20.1 Diagrama de dispersão


Segundo Bussab e Morettin (2002, p. 60): “Um procedimento bastante
útil para se verificar a associação entre variáveis quantitativas é o gráfico
de dispersão, que nada mais é que a representação dos pares de valores
num sistema cartesiano”.

Para melhor compreender, vamos ver um exemplo.

Na Tabela 47 são apresentados dados referentes às variáveis tempo de


serviço (X) e salário (Y) de certo departamento de uma empresa.

Tabela 47 – Salário por tempo de serviço de certa empresa.


Funcionário Tempo de serviço (X) Salário (Y)
João 1 ano R$ 900,00
Carlos Alberto 3 anos R$ 992,25
Maria Cristina 4 anos R$ 1.041,87
Cecília 5 anos R$ 1.093,97

Fonte: Elaborada pela autora (2013).

www.esab.edu.br 125
Na Figura 34, o gráfico de dispersão para as variáveis quantitativas X e Y
é representado em um eixo cartesiano no qual os dados das variáveis X e
Y são apresentados por pontos P (x, y).
y
1.100,00
1.050,00
1.000,00
950,00
900,00
850,00
800,00
0 1 2 3 4 5 x

Figura 34 – Gráfico de dispersão das variáveis: tempo de serviço (X) e salário (Y).
Fonte: Elaborada pela autora (2013).

Através do diagrama de dispersão, podemos concluir que parece haver


uma dependência entre as variáveis X e Y. Pois, à medida que aumenta
o tempo de serviço, aumenta o salário. Assim, dizemos que temos uma
associação linear direta (ou positiva).

Agora, veja o próximo exemplo.

Uma pesquisa feita por certa empresa levantou as seguintes variáveis em


relação à evolução de algumas obras: número de operários trabalhando
na obra (X) e evolução da obra em dias (Y).

Tabela 48 – Número de operários (X) em relação à evolução da obra em dias (Y).


Nº de operários (X) Dias (Y)
3 7
5 5
6 4
8 2

Fonte: Elaborada pela autora (2013).

www.esab.edu.br 126
Os dados da Tabela 48 podem ser apresentados em um gráfico, conforme
a Figura 35.
y
7
6
5
4
3
2
1
0
0 1 2 3 4 5 6 7 8
x

Figura 35 – Apresentação dos dados e diagrama de dispersão para as variáveis número de operário (X) e dias (Y).
Fonte: Elaborada pela autora (2013).

Observando a Figura 35, podemos concluir que parece haver uma relação
de dependência entre as variáveis, pois à medida que aumenta o número
de funcionários, diminui o número de dias. Assim, dizemos que temos
uma associação linear inversa (ou negativa).

Outra possibilidade na análise entre duas variáveis é não haver associação


entre elas. Veja o exemplo a seguir, extraído de Bussab e Morettin (2002).

Um teste sobre conhecimento de língua estrangeira foi aplicado a 8


indivíduos. Em seguida, mediu-se o tempo gasto por cada um para aprender
a operar uma determinada máquina. Os resultados obtidos no teste e o
tempo, em minutos, necessário para aprender a operar satisfatoriamente a
máquina estão apresentados na Tabela 49 e na Figura 36.

www.esab.edu.br 127
Tabela 49 – Resultado no teste (X) em relação ao tempo (Y).
Indivíduo Resultado no teste (X) Tempo (Y)
A 45 343
B 52 368
C 61 355
D 70 334
E 74 337
F 76 381
G 80 345
H 90 375

Fonte: Adaptada de Bussab e Morettin (2002).

y
380
370
360
350
340
330
0 10 20 30 40 50 60 70 80 90 x

Figura 36 – Apresentação dos dados e diagrama de dispersão para as variáveis resultado no teste (X) e tempo (Y).
Fonte: Adaptada de Bussab e Morettin (2002).

Através da Figura 36, podemos concluir que não parece haver nenhum
tipo de dependência entre as duas variáveis, uma vez que “(...) conhecer
o resultado no teste não ajuda a prever o tempo gasto para aprender a
operar a máquina” (BUSSAB; MORETTIN, 2002, p. 62).

www.esab.edu.br 128
20.2 Coeficiente de correlação linear
O coeficiente de correlação linear r é uma medida que permite verificar o
quão uma variável está associada a (ou depende da) outra.

Para calcular r, precisamos determinar algumas medidas referentes ao


conjunto de dados (a saber: a média (m), o desvio médio (DM) e o
desvio-padrão (s)) de ambas as variáveis X e Y. Se houver necessidade,
recapitule esses conceitos vistos nas unidades 11 e 14.

Assim, o cálculo para determinar a correlação linear r é:

r=
∑ (z x ⋅ zy )
n

Em que:
desvio médio x − µ
=• z x = , é um valor padronizado da variável X.
desvio-padrão s
desvio médio y − µ
=• z y = , é um valor padronizado da variável Y.
desvio-padrão s
• n é número de elementos do conjunto de dados.
Tomando o exemplo e os dados vistos anteriormente na Figura 35, temos
que:

n = quantidade de elementos = 4.

Média das variáveis X e Y:


3+5+6+8
µx =
4
µ x = 5,5

7 +5+ 4+2
µy =
4
µ y = 4,5.

www.esab.edu.br 129
Para calcular o desvio-padrão das variáveis X e Y, precisamos encontrar os
valores de Desvio Médio (DM) e Desvio Quadrático (DM):

Tabela 50 – Desvio médio e desvio quadrático dos valores da Tabela 49.

Nº de operários (X ) Dias (Y ) Média (μx ) DM ( xi – μx ) DQ ( xi – mx )2


3 7 3–5,5=–2,5 6,25
5 5 5–5,5=–0,5 0,25
5,5
6 4 6–5,5=0,5 0,25
8 2 8–5,5=2,5 6,25
Nº de operários (X ) Dias (Y ) Média (μx ) DM ( yi – μy ) DQ ( yi – μy )2
3 7 7–4,5=2,5 6,25
5 5 5–4,5=0,5 0,25
4,5
6 4 4–4,5=–0,5 0,25
8 2 2–4,5=–2,5 6,25

Fonte: Elaborada pela autora (2013).

Para encontrarmos os valores de desvio-padrão:


n

∑(x i − µ x )²
6,25 + 0,25 + 0,25 + 6,25 13
s x=
² i =1
= = = 3,25
n 4 4

∑(x i − µ x )²
sx
= i =1
= =
3,25 1,80
n

∑( y i − µ y )²
6,25 + 0,25 + 0,25 + 6,25 13
s y=
² i =1
= = = 3,25
n 4 4

∑( y i − µ y )²
sy
= i =1
= =
3,25 1,80
n

Então: sx = 1,80 e sy = 1,80.

www.esab.edu.br 130
De posse dessas informações, abrimos algumas colunas na Tabela 51 para
facilitar o cálculo dos desvios médios e dos valores padronizados.

Tabela 51 – Cálculo do coeficiente de correlação linear.

Nº de
Dias x − µx y − µy
operários ( x – μx ) ( y – μy ) 2 zx = zy = zx . zy
(X)
(Y) sx sy
3 7 –2,5 2,5 –1,39 1,39 –1,92
5 5 –0,5 0,5 –0,28 0,28 –0,08
6 4 0,5 –0,5 0,28 –0,28 –0,08
8 2 2,5 –2,5 1,39 –1,39 –1,92

Fonte: Elaborada pela autora (2013).

Somando os produtos zx . zy , obtemos r:

r=
∑ (z x ⋅ zy )
=
( −1,92) + ( −0,08) + ( −0,08) + ( −1,92) −4
= = −1
n 4 4
Mas, qual o significado do resultado r = – 1?

Para qualquer conjunto de dados, o valor do coeficiente de correlação


linear r é um valor pertencente ao intervalo ‒ 1 a 1. Assim, quando r
= ‒ 1 significa que as variáveis estudadas X e Y têm uma forte relação
de dependência. Isto é, possuem um alto grau de associabilidade, cujo
diagrama de dispersão é uma reta decrescente, ou seja, as variáveis
X e Y obedecem a uma associação linear negativa. Quando r = 1, as
variáveis estudadas X e Y têm também uma forte relação de dependência,
contudo, seu diagrama de dispersão é uma reta crescente. Portanto, as
variáveis X e Y obedecem a uma associação linear positiva. Se r = 0, então
não haverá uma correlação entre as variáveis X e Y.

www.esab.edu.br 131
Para melhor compreender a análise dos resultados de r, veja o esquema
apresentado na Figura 37.
Sentido Intensidade

 +1 Forte
Positiva Moderada

Fraca

Valor de r  0 Ausência
 Fraca
 Negativa Moderada
 –1 Forte

Figura 37 – Sentido e intensidade da correlação em função do valor de r.


Fonte: Adaptada de Barbetta (2011).

Agora que você já aprendeu o que é a correlação entre variáveis e como


calculá-la, siga seus estudos e conheça o cálculo de regressão linear
simples. Bons estudos!

www.esab.edu.br 132
21 Regressão linear simples

Objetivo
Compreender e determinar a medida de regressão linear simples.

O estudo da regressão aplica-se àquelas situações em que há razões para


supor uma relação de causa e efeito entre duas variáveis quantitativas
X e Y, descrita em termos de uma equação matemática. Essa relação de
causalidade é a diferença entre o estudo de correlação e de uma análise de
regressão (BUSSAB; MORETTIN, 2002; MAGALHÃES; LIMA, 2005).

Por exemplo:

• entre a variável renda e a variável consumo existe uma relação de


causalidade, em que a variável consumo está relacionada com a
variável renda;
• entre a variável memória RAM do computador e a variável tempo
de resposta do sistema, também existe uma relação de causa e efeito
(causalidade).
Geralmente, denomina-se a variável dependente Y de variável resposta e
a variável independente X de variável explicativa.

Assim como no estudo de correlações, a regressão linear também toma


por base um conjunto de observações em pares (x, y), relativo às variáveis
X e Y. Desse modo, no estudo da regressão linear, temos que y está em
função (depende) de x e, como o nome sugere, essa função é linear (do
1º grau), tal que:

y = ax + b (regra geral da equação da reta)


Uma forma de verificar a existência (ou não) de regressão é por meio do
gráfico de dispersão.

www.esab.edu.br 133
Para melhor compreender, considere o exemplo a seguir.

Em determinado departamento, foram coletadas as informações de peso


e de altura das funcionárias. Os dados são apresentados na Tabela 52 e o
diagrama de dispersão encontra-se na Figura 38.

Tabela 52 – Relação de dados de peso e altura.


Altura (cm) Peso (kg)
158 50
158 54
160 48
160 50
160 56
163 60
163 55
167 57
168 58
170 60
173 57
175 62
181 63

Fonte: Elaborada pela autora (2013).

y
65
60
55
Altura (cm)
50
45
40
155 160 165 170 175 180 x
Peso (kg)
Figura 38 – Diagrama de dispersão de alturas e pesos.
Fonte: Elaborada pela autora (2013).

www.esab.edu.br 134
Como podemos observar na Figura 38, o peso (kg) das funcionárias tem
relação com sua altura (cm), ou seja, o peso aumenta proporcionalmente
em relação à altura. Observe no diagrama de dispersão que há uma
representação de uma reta que passa entre os pontos (x, y). Essa reta é
chamada de reta de regressão e tem por finalidade criar um modelo
aproximado à realidade dos dados, que explica, de forma geral, a relação
entre as variáveis X e Y.

Assim, para encontrarmos a reta de regressão y = ax ‒ b, que simula a


realidade em estudo, devemos encontrar os parâmetros (coeficientes) a
e b. Para tanto, o cálculo da regressão linear, que fornece a e b, é dado
pelas equações:

n ⋅ ∑ ( X ⋅ Y ) − ( ∑ X ) ⋅ ( ∑Y )
a=
n ⋅ ∑ X 2 − (∑ X )
2

b=
∑Y − a ⋅ ∑ X
n

Em que:

• n é o número de elementos do conjunto de dados;


• ∑ ( X ⋅ Y ) é o somatório dos produtos x . y.
• ∑ X é a soma dos valores de X;
• ∑Y é a soma dos valores de Y;
∑ X é a soma dos quadrados dos valores de X.
2

Retomando o nosso exemplo, vamos encontrar a reta de regressão dos
dados da Figura 38, efetuando o cálculo dos parâmetros a e b. Para
facilitar a execução dos cálculos, vamos abrir mais duas colunas na Tabela
53, com os itens X 2 e X . Y.

www.esab.edu.br 135
Tabela 53 – Cálculos para regressão linear simples.

Altura (X) Peso (Y) X2 X. Y


158 50 24964 7900
158 54 24964 8532
160 48 25600 7680
160 50 25600 8000
160 56 25600 8960
163 60 26569 9780
163 55 26569 8965
167 57 27889 9519
168 58 28224 9744
170 60 28900 10200
173 57 29929 9861
175 62 30625 10850
181 63 32761 11403

∑ X = 2156 ∑Y = 730 ∑X 2
= 358194 ∑ X ⋅Y =
121394

Fonte: Elaborada pela autora (2013).

Com base nos cálculos determinados na Tabela 53, podemos substituí-los


nas fórmulas dos parâmetros a e b.

n ⋅ ∑ ( X ⋅ Y ) − ( ∑ X ) ⋅ ( ∑Y )
=a =
n ⋅ ∑ X 2 − (∑ X )
2

13 ⋅ (121394) − (2156) ⋅ (730) 4242


= = = 0,518
13 ⋅ (358194) − (2156)2 8186

De posse do parâmetro a, podemos calcular o parâmetro b:

b=
∑Y − a ⋅ ∑ X =
(730) − (0,518) ⋅ (2156)
= −29, 754
n 13
Sendo assim, temos a reta de regressão:

www.esab.edu.br 136
y = ax + b
y = 0,518x – 29,754.
Com a equação de regressão em mãos, podemos predizer o peso de um
indivíduo y ’ com altura, por exemplo, x = 178 cm. Vejamos:

y ’ = 0,518 . (178) ‒ 29,754


y ’ = 62,45 kg
Isso significa que um indivíduo com altura 178 cm deverá pesar em
torno de 62,45 kg, para o caso estudado: funcionárias mulheres de certo
departamento.

É importante salientar que o sinal do parâmetro a indica o sentindo (positivo


ou negativo) da relação, ou seja, um acréscimo ou decréscimo de y ’.

Observe mais um exemplo

O gestor de uma rede de 17 lojas deseja desenvolver um modelo com a


finalidade de estimar as vendas médias mensais (em reais). As variáveis
observadas para as 17 lojas foram:

• X: número de clientes;
• Y: vendas (em 104 reais).
O gráfico de dispersão referente aos 17 pares de dados (x, y) é
apresentado na Figura 39:

www.esab.edu.br 137
14
12
10
8
Vendas 6
4
2

0
350 550 750 950 1150
Clientes

Figura 39 – Gráfico de dispersão das variáveis X e Y.


Fonte: Elaborada pela autora (2013).

Analogamente, efetuando os cálculos feitos no exemplo anterior,


encontramos que a reta de regressão ilustrada no gráfico da Figura 39 é
dada por:

y = 0,000777x + 8,381
Interessado em prever as vendas para uma loja com 800 clientes, qual o
valor de y ’?

www.esab.edu.br 138
Solução:

O gestor possui um modelo a partir da regressão linear simples que


simula, com base nos dados originais, a relação entre as variáveis clientes
(X) e vendas (Y). Como ele deseja saber o valor das vendas (em reais)
para um número de x = 800 clientes, então basta substituirmos, na reta
de regressão, a variável x por 800. Assim:

y = 0,000777x + 8,381 ⇒
y ’ = 0,000777 . (800) + 8,381
y ’ = 9,00
Portanto, para um número de 800 clientes, a loja apresentará um total de
vendas de 9,00 × 104 reais = 90.000 (noventa mil reais).

Nesta unidade, você aprendeu a respeito do conceito e do cálculo da


regressão linear simples. Na próxima unidade, vamos aprender um
importante conhecimento em estatística: probabilidade.

Saiba mais
Você sabia que o cálculo de correlação, que você
aprendeu na unidade 20, e o cálculo de regressão
linear, que você aprendeu nesta unidade, são
possíveis de calcular, de forma mais imediata, por
meio de calculadoras científicas? Para aprender
como efetuar esses cálculos na calculadora
científica, assista ao vídeo disponível aqui.

www.esab.edu.br 139
22 Probabilidade: conceito e axiomas
Objetivo
Apresentar o conceito e os axiomas de probabilidade e determinar a
probabilidade de alguns eventos.

Nesta unidade, iniciaremos o estudo das probabilidades. Diferentemente


das distribuições de frequência - em que a partir da observação de certo
fenômeno, conseguíamos extrair informações com base na análise de
certas medidas de centrabilidade e variabilidade -, a probabilidade é
o ramo da matemática que nos permite criar modelos para situações
das quais não podemos observar o fenômeno diretamente. Em outras
palavras, a teoria da probabilidade se encarrega e dá suporte para o
desenvolvimento de técnicas estatísticas que envolvem experimentos ou
fenômenos aleatórios (BUSSAB; MORETTIN, 2002; MAGALHÃES;
LIMA, 2005).

Denominamos fenômeno aleatório “[...] a situação ou acontecimento cujos


resultados não podem ser previstos com certeza” (MAGALHÃES; LIMA,
2005, p. 37). Por exemplo, a condição meteorológica: 80% de chance de
chover em certo dia; sucesso em uma cirurgia: 30% de chance de sucesso;
as chances de um determinado time vencer o campeonato; entre outras
situações do nosso cotidiano que são produtos de uma incerteza.

Como fazemos para determinar essas chances, essas probabilidades?

Vejamos um exemplo clássico em probabilidade.

Ao lançarmos um dado comum, em suas perfeitas condições, isto é,


que não tenha sofrido nenhuma violação, qual a probabilidade de sair o
número 4?

Sabemos que um dado comum possui seis lados, numerados de 1 a 6.


Cada lado possui apenas um número: ou 1, ou 2, ou 3, ou 4, ou 5, ou 6.

www.esab.edu.br 140
Então, a probabilidade de sair o número 4 é de uma entre seis
1
possibilidades. Representamos matematicamente por .
6
Com base nesse exemplo, podemos generalizar alguns conceitos
importantes no estudo das probabilidades.

• Espaço Amostral (Ω): é o conjunto de todos os resultados possíveis


de um experimento aleatório. Para cada experimento aleatório,
haverá um espaço amostral único associado a ele. Exemplos:
lançamento de um dado: Ω = {1, 2, 3, 4, 5, 6}; exame de sangue
(tipo sanguíneo): Ω = {A, B, AB, O}.
• Evento: é qualquer subconjunto do espaço amostral. Em outras
palavras, é o conjunto de resultados favoráveis (desejado). A notação
de um evento é normalmente designada pelas letras do nosso
alfabeto grafadas em maiúsculo.

Exemplo

Lançamento de um dado.

Espaço amostral: Ω = {1, 2, 3, 4, 5, 6}.

Alguns eventos de Ω:

A = {sair face par} = {2, 4, 6}.

B = {sair face maior que 3} = {4, 5, 6}.

C = {sair face 1} = {1}.

Então, a probabilidade de um evento A qualquer ocorrer se define com o


número P (A), tal que:

número de casos favoráveis # A


=P( A) =
número de casos possível #Ω

www.esab.edu.br 141
O símbolo # significa cardinalidade, isto é, o número (quantidade) de
elementos do conjunto evento ou/e do conjunto espaço amostral.

No caso do dado, a probabilidade de ocorrer o evento A = {sair face par}


= {2, 4, 6} é calculada da seguinte forma:

Já sabemos que o espaço amostral é #Ω = 6 possibilidades: {1, 2, 3, 4, 5, 6}.

A cardinalidade do evento A é #A = 3, apenas os números pares: {2, 4, 6}.

Calculando a probabilidade, temos:

#A 3
P( A) =
== =
0,50 ⇒ P ( A ) =
50%
#Ω 6
Ou seja, 50% de chance de tirarmos um número par no lançamento de
um dado.

Observe outro exemplo

Em uma festa de confraternização de uma empresa, foi feito um sorteio


de uma cesta de chocolates. Sabendo que na festa havia 14 funcionários
do atendimento ao cliente e 3 funcionários da diretoria. Qual a
probabilidade de:

a. o sorteado ser um funcionário do atendimento ao cliente?


b. o sorteado ser um funcionário da diretoria?

Solução

Primeiramente, vamos detectar o nosso espaço amostral. Sendo o


espaço amostral o conjunto de todos os casos possíveis, então: Ω =
{atendimento, diretoria}. A cardinalidade do espaço amostral é: #Ω = 14
+ 3 = 17 possibilidades.

www.esab.edu.br 142
Agora, vamos resolver os eventos designados pelos itens a e b da questão:

a. evento A = {atendimento}. A cardinalidade do evento A é #A = 14


funcionários. Logo, a probabilidade de ser sorteado um funcionário
do atendimento ao cliente é:

# A 14
P( A) = = = 0,82 ⇒ P ( A ) =82%
# Ω 17

Ou seja, 82% de chances de ser sorteado um funcionário do atendimento


ao cliente.

b. evento B = {diretoria}. A cardinalidade do evento B é #B = 3


funcionários. Logo, a probabilidade de ser sorteado um funcionário
da diretoria é:

#B 3
P (B ) = = = 0,18 ⇒ P ( A ) =
18%
# Ω 17
Ou seja, 18% de chances de ser sorteado um funcionário da diretoria.

22.1 Axiomas de probabilidade


Os axiomas são verdades inquestionáveis, universalmente válidas,
utilizadas como princípios na construção de uma teoria ou como base
para uma argumentação.

Assim, nesta seção veremos algumas dessas verdades na teoria de


probabilidade, que nos permitirão resolver problemas probabilísticos.

Dessa forma, suponhamos um experimento aleatório qualquer e um


espaço amostral Ω associado a ele. A cada evento Ei (i = 1, 2, 3, ...),
associaremos um número real denominado P (Ei), que deve satisfazer as
seguintes condições.

www.esab.edu.br 143
Primeiro axioma: a probabilidade de ocorrência de um evento é sempre
um número real compreendido entre 0 e 1. Ou seja:

0 ≤ P (Ei) ≤ 1
Segundo axioma: a probabilidade de ocorrência do espaço amostral
é igual a 1, pois pelo menos um dos resultados do espaço amostral
ocorrerá. Por isso, o espaço amostral é chamado de evento certo e
representado por:

P (Ω) = 1
Terceiro axioma: a probabilidade de ocorrência do conjunto vazio é
nula (igual a zero), uma vez que não há resultados no conjunto vazio, e
representamos por:

P (∅) = 0
Quarto axioma: a soma das probabilidades de todos os eventos que
compõem o espaço amostral é igual a 1. Ou seja:

∑ P ( E=)
i P ( E1 ) + P ( E 2 ) + ... + P ( E=
n) 1

22.2 Operações entre eventos probabilísticos


As operações entre eventos probabilísticos partem da ideia de união,
intersecção e complementar da teoria de conjuntos – que você estudou
na unidade 6 da disciplina de Matemática. Sendo assim, vamos ver
como essas propriedades operatórias se comportam para eventos
probabilísticos?

www.esab.edu.br 144
União

Dados o evento A e o evento B de um espaço amostral qualquer Ω, a


união desses eventos, pela notação A ∪ B é a junção dos elementos de A
com os elementos de B. Em termos de probabilidade, A ∪ B representa
a ocorrência de pelo menos um deles, isto é, que ocorre o evento A ou o
evento B ou, ainda, ambos os eventos.

Exemplo

Seja o espaço amostral Ω = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} e os eventos A =


{2, 3, 9} e B = {1, 3, 6, 10}. A união entre os eventos A e B é a junção
dos elementos de A com os elementos de B:

A ∪ B = {1, 2, 3, 6, 9, 10}
Note que o elemento 3 é comum a ambos os eventos; no entanto, não é
necessário representá-lo duas vezes no conjunto união A ∪ B.

Intersecção

Dados o evento A e o evento B de um espaço amostral qualquer Ω, a


intersecção desses eventos, pela notação A ∩ B, são os elementos comuns
a ambos os eventos. Em termos de probabilidade, A ∩ B representa a
ocorrência simultânea dos eventos A e B.

Exemplo

Seja o espaço amostral Ω = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} e os eventos A


= {4, 7, 8} e B = {7, 8, 9, 10}. Analisando ambos os eventos, chegamos
à conclusão de que a intersecção entre A e B são os elementos 7 e 8 (os
únicos que pertencem tanto ao evento A quanto ao evento B). Assim:

A ∩ B = {7, 8}

www.esab.edu.br 145
Complementar de um evento

Dado o evento A de um espaço amostral qualquer Ω, chamamos de


evento complementar ao evento A, pela notação A C ou A, todos os
elementos do espaço amostral que não pertencem a A.

Exemplo

Seja o espaço amostral Ω = {1, 2, 3, 4, 5, 6, 7, 8, 9, 10} e o evento A =


{1, 2, 3, 7, 9, 10}. O complementar do evento A é:

AC = {4, 5, 6, 8}
Observe que:

• a união do evento A e seu complementar, AC, forma o próprio


espaço amostral: A ∪ AC = Ω;
• a intersecção do evento A e seu complementar, AC, é o conjunto
vazio: A ∩ AC = ∅.
Essas duas afirmações ocorrem para qualquer evento A e seu
complementar AC.

A Figura 40 ilustra, pelo diagrama de Venn, a união e a intersecção entre


dois eventos, A e B, e o complementar AC de um evento A em um espaço
amostral Ω.

Intersecção A B Intersecção A B Complementar A


c
∩ ∪

Ac
A B A B A

Ω Ω Ω

Figura 40 – Representação da união entre dois eventos através do diagrama de Venn.


Fonte: Elaborada pela autora (2013).

www.esab.edu.br 146
Continue seus estudos. Na sequência, veremos a regra da adição de
probabilidades.

22.3 Regra da adição de probabilidades


Dados dois eventos A e B de um espaço amostral qualquer Ω, a
probabilidade da união dos eventos A e B, isto é, P (A ∪ B), é calculada
através da regra da adição de probabilidades:

P (A ∪ B) = P (A) + P (B) ‒ P (A ∩ B)
Para ilustrar essa regra, considere o exemplo a seguir.

Seja o espaço amostral #Ω = 200 estudantes do curso de Administração e


os eventos #A = 100 estudantes matriculados em Contabilidade, B = 80
estudantes matriculados em Estatística e C = 50 estudantes matriculados
em TGA (Teoria Geral da Administração). Considerando ainda que
30 estudantes estão matriculados simultaneamente nas disciplinas de
Contabilidade e Estatística, isto é, #(A ∩ B) = 30, qual a probabilidade
de que um estudante aleatoriamente escolhido esteja:

a. Matriculado em Contabilidade ou Estatística, ou seja, P (A ∪ B)?


b. Matriculado em Estatística ou TGA, ou seja, P (B ∪ C)?

Solução:

Primeiramente, vamos determinar a probabilidade individual de cada


evento ocorrer. Assim:
# A 100 #B 80 #C 50
P (=
A) = , P=
(B ) = , P (=
C) =
# Ω 200 # Ω 200 # Ω 200
#( A ∩ B ) 30
e P ( A=∩ B) = .
#Ω 200

www.esab.edu.br 147
Dessa forma, a probabilidade de P (A ∪ B) é a soma da probabilidade
do evento A com o evento B. Todavia, existem 30 alunos que estão
matriculados em ambas as disciplinas, ou seja, se somarmos P (A) com
P (B) contabilizaremos nessa soma duas vezes os 30 alunos. Portanto,
devemos retirar da soma P (A) + P (B) a intersecção (A ∩ B). Logo:

P ( A ∪ B )= P ( A ) + P ( B ) − P ( A ∩ B )=
100 80 30 150 3
= + − = =
200 200 200 200 4
Já no item b da questão, a probabilidade de P (B ∪ C) é a soma da
probabilidade do evento B com o evento C. Como nessas duas disciplinas
não há alunos simultaneamente matriculados, basta somarmos P (B) com
P (C). Logo:
80 50 130 13
P ( B ∪ C ) = P ( B ) + P (C ) = + = =
200 200 200 20

No caso do item b, quando a intersecção entre os eventos é vazia, isto é,


não existe elemento comum entre os eventos (já que não existem alunos
matriculados simultaneamente nas disciplinas de Estatística e TGA),
então dizemos que os eventos são mutuamente exclusivos.

Agora, prossiga seus estudos pela teoria da probabilidade seguindo para


a próxima unidade, que trata das probabilidades condicionais. Vamos
conhecê-las?

www.esab.edu.br 148
Probabilidade condicional e
23 teorema de Bayes
Objetivo
Apresentar o conceito de probabilidade condicional e o teorema de
Bayes e determinar a probabilidade condicional de alguns eventos.

Prosseguindo no estudo da probabilidade, iniciado na unidade 22, vamos


aprender agora o conceito de probabilidade condicional e o teorema
de Bayes. Para isso, vamos resgatar algumas ideias dos autores Bussab e
Morettin (2002).

Em muitas situações práticas, temos que a probabilidade de certo


evento ocorrer é influenciada pela ocorrência de um evento anterior. O
cálculo utilizado para determinar a probabilidade de um evento sob essa
“influência” é chamado de cálculo da probabilidade condicional.

Considere o exemplo a seguir.

Os estudantes de uma turma do 2º ano do Ensino Médio de uma escola


estão classificados da seguinte forma na Tabela 54:

Tabela 54 – Dados hipotéticos referentes à aprovação de alunos.


Aprovado Reprovado Recuperação Total
Menina 14 1 7 22
Menino 12 1 5 18
Total 26 2 12 40

Fonte: Elaborada pela autora (2013).

Dado que um estudante, escolhido ao acaso, esteja em recuperação, a


5
probabilidade de ele ser menino é de . Isso porque do total de 12
12
estudantes em recuperação, 5 são meninos. Escrevemos:

www.esab.edu.br 149
5
P (homem | recuperação) =
12

Repare que o valor 5 é a intersecção entre o conjunto dos estudantes


meninos e o conjunto dos estudantes em recuperação. O valor 12 são
todos os estudantes (meninos e meninas) que estão em recuperação.

Generalizando essa ideia, temos que a probabilidade condicional, dados


dois eventos A e B quaisquer, é:

Se o evento A ocorre, então o evento B ocorrerá com probabilidade P.


Sua probabilidade é calculada através da fórmula:
P( A ∩ B )
P (B | A) =
P( A)

Em que A é chamado de hipótese e B é chamado de tese.

Assim, com base no exemplo mencionado, seja A o evento “estudante em


recuperação” e B o evento “menino”, a probabilidade condicional de se
ocorre A, então B ocorre com probabilidade P é:
5
Sendo que P ( A ∩ B ) = , pois do total de 40 estudantes, 5 deles são
meninos. 40

12
E P( A) = , pois dos 40 estudantes, 12 estão em recuperação.
40
Temos que:

5
P ( A ∩ B ) 40 5 40 5
P (B | =
A) = = ⋅ =
P( A) 12 40 12 12
40

Ou seja, o resultado é o mesmo que já havíamos obtido anteriormente.

www.esab.edu.br 150
Para sua reflexão
Se invertermos a relação hipótese e tese do exemplo
anterior, isto é, se a hipótese for o conjunto B
(“meninos”) e a tese o conjunto A (“estudantes em
recuperação”), a probabilidade condicional P (A | B)
será a mesma que a obtida P (B | A)?
A resposta a essa reflexão forma parte de sua
aprendizagem e é individual, não precisando ser
comunicada ou enviada aos tutores.

Veja outro exemplo de probabilidade condicional.

Suponha a experiência de observar o clima em determinado dia. Seja


A o evento “chove” e B o evento “céu nublado”. Os eventos A e B se
relacionam. A probabilidade de que todos os dias sejam nublados e
chuvosos é de 10%, enquanto que a probabilidade de todos os dias
serem nublados é de 30%. Escolhendo-se um dia qualquer entre todos
os que representam a população, qual será a probabilidade de esse dia ser
chuvoso, dado que é, sabidamente, um dia nublado?

Solução

Primeiramente, vamos organizar as informações fornecidas no enunciado


da questão:

A probabilidade de ocorrer ambos os eventos A e B é a intersecção:

P (A ∩ B) = 10%
A probabilidade de ocorrer o evento B individualmente é:

P (B) = 30%
O clima é o espaço amostral Ω. Dessa forma, Ω = 100%.

www.esab.edu.br 151
Assim, a probabilidade condicional de esse dia ser chuvoso, dado que é,
sabidamente, um dia nublado é:
10
P ( A ∩ B ) 100 10 100 10 1
P( A =
| B) = = ⋅ = = = 0,33= 33%
P (B ) 30 100 30 30 3
100
Portanto, e dado que o dia está nublado, há 33% de chances de chover.

Na sequência, veremos um dos mais importantes teoremas envolvendo


probabilidade condicional: teorema de Bayes.

Teorema de Bayes
Segundo Bussab e Morettin (2002), o teorema de Bayes expressa
uma probabilidade condicional em termos de outras probabilidades
condicionais, do mesmo espaço amostral.

Dessa forma, dado um determinado evento A contido em uma união de


eventos mutuamente exclusivos, com P (A) > 0, então para i tal que i =
1, 2, 3, ..., n:
P ( Bi ) ⋅ P ( A | Bi )
P ( Bi | A ) =
P ( Bi ) ⋅ P ( A | Bi ) + ... + P ( Bn ) ⋅ P ( A | Bn )

A Figura 41 ilustra a partição do espaço amostral pelos eventos Bi e o


conjunto A.
B3 B4
B1

A B5
B2
B6 Ω
Figura 41 – Partição do espaço amostral.
Fonte: Elaborada pela autora (2013).

www.esab.edu.br 152
Perceba que A = (A ∩ B1) ∪ (A ∩ B2) ∪ (A ∩ B3) ∪ (A ∩ B4) ∪ (A ∩
B5) ∪ (A ∩ B6).

Para melhor compreender, vamos ver um exemplo.

Seja o espaço amostral de 3000 peças fabricadas por uma indústria em


um dia. Sendo que: a máquina A fabrica 2000 peças, das quais 1%
são defeituosas; e a máquina B fabrica 1000 peças, das quais 3% são
defeituosas. Da produção total de um dia, uma peça é escolhida ao acaso
e, examinando-a, constata-se que é defeituosa. Qual a probabilidade de
que a peça tenha sido produzida pela máquina B?

Vejamos: o espaço amostral e suas partições são definidos conforme a


Figura 42.

MB

D
MA

Figura 42 – Partição do espaço amostral do exemplo das máquinas.


Fonte: Elaborada pela autora (2013).

A probabilidade de uma peça qualquer ser da máquina A é:

2000 2
P (=
MA ) = .
3000 3
A probabilidade de uma peça qualquer ser da máquina B é:

1000 1
P (=
MB ) = .
3000 3
A quantidade de peças defeituosas da máquina A e da máquina B é:

www.esab.edu.br 153
Sabendo que 1% das peças da máquina A e 3% da máquina B são
defeituosas, temos:

P (MA ∩ D) = 0,01 ⋅ 2000 = 20


P (MB ∩ D) = 0,03 ⋅ 1000 = 30
Assim, as probabilidades condicionais “sabendo que a peça é da máquina
A, então peça com defeito”, e “sabendo que a peça é da máquina B, então
peça com defeito”, são:

P(M A ∩ D ) 20 1
P (D | =
MA ) = = .
P(M A ) 2000 100

P(MB ∩ D ) 30 3
=
P (D | M B) = = .
P(MB ) 1000 100

Então, a probabilidade de que uma peça, escolhida ao acaso, tenha


sido produzida pela máquina B, sabendo que essa peça é defeituosa,
é calculada a partir das probabilidades condicionais determinadas
anteriormente. Ou seja:

P ( M B ) ⋅ P (D | M B )
P(MB | D ) =
P ( M B ) ⋅ P (D | M B ) + P ( M A ) ⋅ P (D | M A )

1 3 3 3

3 100 300 3 300
P(MB | D ) = = = 300 = ⋅ ⇒
1 3 2 1 3 2 5 300 5
⋅ + ⋅ +
3 100 3 100 300 300 300

3
P(MB | D ) =
5

Na sequência de seus estudos, você irá aprender a regra do produto de


probabilidades. Essa regra é uma importante consequência do cálculo de
probabilidade condicional. Siga em frente!

www.esab.edu.br 154
24 Teorema do produto

Objetivo
Apresentar o teorema do produto.

Vimos na unidade 22, em probabilidade, a regra da adição de


probabilidades. Todavia, ainda não apresentamos para você a regra do
produto de probabilidade, visto que para compreender essa regra era
necessário que você tivesse o conhecimento de probabilidade condicional
introduzido na unidade 23. Para estudarmos esse assunto, teremos como
suporte teórico os estudos de Bussab e Morettin (2002) e Magalhães e
Lima (2005).

Dessa forma, segundo Bussab e Morettin (2002) e Magalhães e


Lima (2005), temos que a regra do produto de probabilidades é uma
consequência do cálculo de probabilidade condicional. Observe:
P( A ∩ B )
Probabilidade Condicional ⇒ P ( B | A ) = (1)
P( A)

Na equação (1), isolando a probabilidade da intersecção, isto é, P (A ∩


B), temos:
P( A ∩ B )
=
P (B | A) ⇒ P ( A ∩=
B ) P (B | A) ⋅ P ( A) (2 )
P( A)

Nesse caso, o evento A ocorreu previamente, e o segundo valor é a


probabilidade de ocorrência de B, dado que A ocorreu.

Para o caso em que o evento B ocorreu previamente, e o segundo valor é


a probabilidade de ocorrência de A, dado que B ocorreu, temos:

P( A ∩ B )
=
P( A | B ) ⇒ P ( A ∩=
B ) P ( A | B ) ⋅ P (B ) (3)
P (B )

www.esab.edu.br 155
Vamos ver um exemplo.

Uma urna contém ao todo 10 bolas, das quais 4 são amarelas (A) e 6 são
verdes (V). Se ocorrer um sorteio de duas bolas, uma de cada vez e sem
reposição, isto é, sorteamos a primeira bola, verificamos sua cor e não a
devolvemos à urna; sorteamos novamente uma bola e verificamos sua cor.
Quais as probabilidades em relação aos pares de bolas sorteadas?

Observe a Tabela 55 de probabilidades, a seguir.

Tabela 55 – Regra do produto de probabilidades: eventos dependentes.


Resultados (cores das bolas sorteadas)
Probabilidades
1º sorteio 2º sorteio
4 3 2
A A ⋅ =
10 9 15

4 6 4
A V ⋅ =
10 9 15

6 4 4
V A ⋅ =
10 9 15

6 5 1
V V ⋅ =
10 9 3

Fonte: Elaborada pela autora (2013).

Ao sortear uma bola da urna (sem repô-la) e, posteriormente, sortear


uma nova bola da urna, a probabilidade de ocorrer, por exemplo
(conforme a Tabela 55), uma bola amarela (no 1º sorteio) e uma bola,
novamente, amarela (2º sorteio) – isto é, a probabilidade de ocorrer duas
bolas amarelas – é determinada pela regra do produto de probabilidades:

P (A ∩ A) = P (A | A) ⋅ P (A)
Ou seja, sabendo que no primeiro sorteio a probabilidade de sair uma
bola amarela é 4 (pois, inicialmente há 4 bolas amarelas na urna), para
4 2
um total de 10 bolas, então P ( A=
) = .
10 5

www.esab.edu.br 156
Já para o 2º sorteio, a probabilidade da segunda bola está condicionada
à primeira retirada, pois não houve reposição da 1ª bola à urna. Dessa
forma, temos não mais 4 bolas amarelas na urna, e sim 3 bolas amarelas,
para um total não mais de 10 bolas na urna, mas de 9 bolas. Portanto,
3 1
a probabilidade condicional é P ( A | A=
) = . Logo, substituindo os
9 3
valores na fórmula:

P ( A ∩=
A) P( A | A) ⋅ P( A)

4 3 2 1
P( A ∩ A) = ⋅ = ⋅
10 9 5 3
2
P( A ∩ A) =
15
Exatamente o valor que havíamos encontrado na Tabela 55.

Eventos independentes
Dizemos que dois ou mais eventos são independentes quando a ocorrência
de um deles não influencia a probabilidade de ocorrência de outros.

Assim, a regra do produto de probabilidades entre dois eventos A e B


independentes, isto é, a probabilidade da intersecção P (A ∩ B), é o
produto P (A) ⋅ P (B). Matematicamente:

P (A ∩ B) = P (A) ⋅ P (B)
Essa justificativa é dada, pois se A e B são eventos independentes, então:

P (B | A) = P (B) e P (A | B) = P (A)
Pela igualdade (3):

P (A ∩ B) = P (A | B) ⋅ P (B)

www.esab.edu.br 157
Substituindo P (B | A) por P (B), conforme enunciado dado
anteriormente, então:

P (A ∩ B) = P (A) ⋅ P (B)
Tomando as informações do exemplo anterior em que temos uma urna
com 10 bolas, das quais 4 bolas são amarelas (A) e 6 bolas são verdes
(V), se ocorrer um sorteio de duas bolas, uma de cada vez, mas agora
com reposição – isto é, sorteamos a primeira bola, verificamos sua cor e
a devolvemos à urna –, as probabilidades com relação aos pares de bolas
sorteadas podem ser observados na Tabela 56:

Tabela 56 – Regra do produto de probabilidades: eventos independentes.


Resultados (cores das bolas sorteadas)
Probabilidades
1º sorteio 2º sorteio
4 4 4
A A ⋅ =
10 10 25

4 6 6
A V ⋅ =
10 10 25

6 4 6
V A ⋅ =
10 10 25

6 6 9
V V ⋅ =
10 10 25

Fonte: Elaborada pela autora (2013).

Ao sortear uma bola da urna, repô-la e, posteriormente, sortear uma


nova bola da urna, a probabilidade de ocorrer, por exemplo (conforme
a Tabela 56), uma bola amarela (no 1º sorteio) e uma bola, novamente,
amarela (2º sorteio) – isto é, a probabilidade de ocorrer duas bolas
amarelas – é determinada pela regra do produto de probabilidades
para eventos independentes. Pois houve reposição das bolas à urna e,
portanto, não se alterou o espaço amostral. Logo:

P (A ∩ A) = P (A) ⋅ P (A)

www.esab.edu.br 158
Ou seja, sabendo que no primeiro sorteio a probabilidade de sair uma
bola amarela é 4 (pois há 4 bolas amarelas na urna), para um total de 10
4 2
bolas, então P ( A=
) = . No segundo sorteio, haverá novamente
10 5
a mesma chance de ocorrer uma bola amarela, pois houve reposição da
primeira bola amarela à urna.

Logo, substituindo os valores na fórmula:

P ( A ∩ A )= P ( A ) ⋅ P ( A )

4 4 2 2
P( A ∩ A) = ⋅ = ⋅
10 10 5 5
4
P( A ∩ A) =
25

Exatamente o valor que havíamos encontrado na Tabela 56.

Agora que você já aprendeu alguns conceitos importantes em


probabilidade e probabilidade condicional, siga seu estudo à próxima
unidade e veja alguns exercícios resolvidos sobre esse tema. Bons estudos!

www.esab.edu.br 159
Resumo

Na unidade 19, você teve a oportunidade de conhecer as famosas tabelas


de contingências, utilizadas para relacionar duas ou mais variáveis. Essas
tabelas nos permitem verificar a influência que uma determinada variável
exerce na outra. Quando as variáveis são qualitativas, possibilitam realizar
a análise dessa influência com base nas frequências absolutas e relativas.
Porém, quando as variáveis são quantitativas, outras medidas são
utilizadas como parâmetros de análise da correlação entre essas variáveis.

Assim, na unidade 20, apresentamos a você o diagrama de dispersão e


a medida de correlação linear simples, que avalia o quanto uma variável
quantitativa está associada a outra variável, igualmente, quantitativa.

Já na unidade 21, você aprendeu o conceito de regressão linear simples, o


qual nos permite modelar um conjunto de dados em que duas variáveis
quantitativas estão relacionadas. Com base nessa modelagem, é possível
simular o valor da variável dependente Y, dado o valor da variável
independente X.

Na unidade 22, ingressamos na teoria das probabilidades: vimos seu


conceito, seus axiomas e as operações entre eventos probabilísticos.
A probabilidade é uma medida que nos auxilia em diversas situações
práticas permeadas por incertezas.

Na unidade 23, você conheceu o cálculo de probabilidade condicional e


o teorema de Bayes, isto é, a probabilidade de um dado evento ocorrer
sabendo-se que outro evento ocorreu anteriormente.

Por fim, vimos, na unidade 24, o teorema do produto de probabilidades:


uma consequência do cálculo de probabilidade condicional, que é
muito útil para determinar a probabilidade de dois eventos ocorrerem
simultaneamente, isto é, a intersecção entre dois eventos.

www.esab.edu.br 160
25 Exercícios resolvidos
Objetivo
Apresentar exercícios resolvidos de probabilidade, probabilidade
condicional e teorema do produto.

Acabamos de estudar, na unidade anterior, o teorema do produto. Agora


você terá oportunidade de fixar sua aprendizagem sobre o conteúdo de
probabilidade, probabilidade condicional e regra do produto, vistos da
unidade 23 à 24. Apresentaremos a você alguns exercícios resolvidos
sobre os temas mencionados. Para que você obtenha uma melhor
aprendizagem, sugerimos que leia atentamente o enunciado do exercício,
tente resolvê-lo e, posteriormente, veja a resolução. Vamos começar?

Exercício 1

Na Universidade Duke, dois alunos receberam notas máximas em química


ao longo de todo o semestre. Mas, na véspera da prova final, os dois
foram a uma festa em outro estado e não voltaram à universidade a tempo
para a prova. Disseram ao professor que um pneu do carro havia furado
e perguntaram se poderiam fazer uma prova de segunda chamada. O
professor concordou, escreveu uma segunda prova e mandou os dois a salas
separadas. A primeira pergunta (na primeira página) valia meio ponto. Eles
viraram a página e encontraram a segunda pergunta, que valia 9,5 pontos.
A segunda questão da prova era: “Qual foi o pneu que furou?”. Assim,
determine a probabilidade de ambos os colegas responderem, igualmente,
qual foi o pneu que furou (MLODINOW, 2009).

www.esab.edu.br 161
Resolução

Um carro possui quatro pneus: dianteiro direito (DD), dianteiro


esquerdo (DE), traseiro direito (TD) e traseiro esquerdo (TE). Queremos
saber qual é a probabilidade de ambos responderem que o mesmo pneu
furou. Isso significa que o evento desejado (A) são os possíveis pares:
resposta
do 2º
aluno

A  , DD ),( DE , DE ),(TD,TD ),(TE ,TE )} ⇒
{( DD
resposta
do 1º
aluno
⇒#A=4 possibilidades

Note que o primeiro aluno tem 4 possibilidades de resposta (pois um


carro tem 4 pneus), sendo a cardinalidade do espaço amostral desse
aluno #Ω1 = 4. O segundo aluno também tem 4 possibilidades de
resposta, sendo a cardinalidade do espaço amostral desse segundo aluno
#Ω1 = 4. Como desejamos os pares de respostas 1º aluno e 2º aluno, o
espaço amostral da questão será o produto entre os espaços amostrais dos
alunos: #Ω = 4 . 4 = 16.

Portanto, a probabilidade de que ocorra o evento A é igual a:

#A 4 1
P ( A=
) = = = 0, 25 ou 25%
# Ω 16 4
Concluindo, os alunos têm 25% de chances de acertar a segunda questão
da prova.

Exercício 2

Um baralho com 52 cartas possui 4 cartas de cada número. Se retirarmos


aleatoriamente uma carta desse baralho, qual é a probabilidade de sair o
número 13 (que é também chamado de Rei)?

www.esab.edu.br 162
Resolução

Temos que o espaço amostral são as 52 cartas do baralho, então #Ω = 52.


Queremos saber a probabilidade de o evento “sair uma carta Rei” ocorrer.
Vamos chamá-lo de evento R. Como cada numeração do baralho tem 4
cartas do mesmo valor, então #R = 4. Portanto:

#R 4 1
P ( R=
) = = = 0,08 ou 8%
# Ω 52 13

Exercício 3

Um grupo de 100 pessoas apresenta, de acordo com o gênero e filiação


partidária, a seguinte composição:

Tabela 57 − Valor absoluto referente à filiação partidária por gênero.


Partido X Partido Y Partido Z Total
Homens 33 19 23 75

Mulheres 5 9 11 25

Total 38 28 34 100

Fonte: Elaborada pela autora (2013).

Sorteada uma pessoa ao acaso, qual é a probabilidade de que seja filiada


ao partido Z sabendo que é uma mulher?

Resolução

Nessa questão deseja-se saber qual é a probabilidade de que uma pessoa


sorteada seja do partido Z, com a condição de que essa pessoa é uma
mulher. Isso significa que precisamos determinar a probabilidade
condicional da situação dada. Para tanto, vamos chamar de M o evento
mulher e de Z o evento do respectivo partido Z. Assim:

M ∩Z
P(Z / M ) =
M

www.esab.edu.br 163
Sabendo que o espaço amostral #Ω = 100. pessoas, então:
11
#( M ∩ Z ) = , isto é, 11 mulheres que são do partido Z.
100
25
#M = , isto é, 25 mulheres para um total de 100 pessoas.
100
Substituindo esses valores na fórmula de probabilidade condicional:
11
11 100 11
P(Z / =M ) 100= ⋅ = = 0, 44
25 100 25 25
100
Portanto, a probabilidade de que seja sorteada uma pessoa do partido Z,
sabendo que esta é uma mulher, é de 0,44 ou 44%.

Exercício 4

A probabilidade de um homem viver mais de dez anos é 1/3, e a


probabilidade de uma mulher viver mais de dez anos é 1/2. Encontre a
probabilidade de, dentro de dez anos, ambos estarem vivos.

Resolução

Vamos chamar de H o evento homem, cuja probabilidade de viver


1
mais de dez anos é P ( H ) = , e vamos chamar de M o evento mulher,
3 1
cuja probabilidade de viver mais de dez anos é P ( M ) = . Queremos
2
a probabilidade de ambos estarem vivos (dentro de dez anos), ou seja,
queremos a probabilidade da intersecção: mulher e homem viverem mais
de dez anos: P (H ∩ M). Como a probabilidade de cada pessoa viver é
independente de outra pessoa, então:

www.esab.edu.br 164
P ( H ∩ M )= P ( H ) ⋅ P ( M ) ⇒
1 1
P (H ∩ M ) = ⋅ ⇒
3 2
1
P (H ∩ M ) = ⇒
6
P (H ∩ M ) = 0,1666 ou 16,66%
Portanto, as chances de ambos viverem mais de dez anos é de 16,66%.

Agora que você já viu como se resolvem alguns problemas de


probabilidade, probabilidade condicional e regra do produto dê
continuidade aos seus estudos e aprenda, na próxima unidade, o que é
uma variável aleatória discreta e os modelos probabilísticos associados a
ela. Bons estudos!

www.esab.edu.br 165
26 Variável aleatória discreta
Objetivo
Compreender o conceito de variável aleatória e determinar a
distribuição de probabilidade e o valor esperado de uma variável
aleatória discreta.

Nas unidades 22 a 24 você aprendeu o conceito e cálculos para se


determinar a probabilidade de certos fenômenos aleatórios. Contudo,
segundo Bussab e Morettin (2002, p. 97), “[...] em situações práticas
mais gerais necessitamos ampliar estes conceitos para que tenhamos
modelos probabilísticos que representem todos os tipos de variáveis”.

No caso das variáveis quantitativas temos um arcabouço de análise


muito mais rico do que para as variáveis qualitativas. Todavia, podemos
transformar as variáveis qualitativas em variáveis quantitativas. Por
exemplo, considere um questionário cujas perguntas têm como opção
de resposta sim ou não. Podemos associar a essas opções de resposta
(qualitativa) um valor numérico 1 para a resposta sim e 0 para a resposta
não (BUSSAB; MORETTIN, 2002).

Com o auxílio dos trabalhos de Bussab e Morettin (2002) e Magalhães e


Lima (2005), vamos ampliar o nosso conceito sobre variáveis ao definir
variável aleatória discreta, para então conhecermos alguns modelos
probabilísticos que nos ajudem a simular uma determinada realidade
a fim de esclarecer aspectos que permeiem essa realidade, bem como
auxiliar na tomada de decisão futura.

www.esab.edu.br 166
26.1 Definição de variável aleatória discreta
Dizemos que uma variável é aleatória quando os resultados numéricos
dessa variável são determinados pelo acaso, isto é, por fatores de chance de
certo valor ocorrer (BUSSAB; MORETTIN, 2002). Essa variável aleatória
será discreta quando assumir apenas valores inteiros (..., ‒ 1, 0, 2, ...).

Assim, para o experimento de lançamento de uma moeda, em que


desejamos determinar a chance de sair cara, por exemplo, podemos associar
o número 1 se sair cara e o número 0 se sair coroa (pois teremos 0 cara).

Saiba mais
Caro estudante, para um pouco mais sobre variável
aleatória e alguns exemplos, você pode clicar aqui.

26.2 Distribuição de probabilidade para variáveis


aleatórias discretas
A distribuição de probabilidades, ou modelo probabilístico discreto,
indica, para uma variável aleatória, quais são os resultados que podem
ocorrer e qual é a probabilidade de cada resultado acontecer. Em outras
palavras, chamamos essa distribuição de probabilidade de função
discreta de probabilidade que, segundo Magalhães e Lima (2005), é
a função que associa a cada valor da variável aleatória uma respectiva
probabilidade.

Sendo X uma variável aleatória e x1, x2, ..., xn seus resultados possíveis
então a função discreta de probabilidade P : x → p (x) possui a seguinte
notação (MAGALHÃES; LIMA, 2005):

P (X = xi ) = p (xi ) = pi em que i = 1, 2, 3, ...

www.esab.edu.br 167
Para você compreender melhor esse conceito e fixar sua aprendizagem,
veja os exemplos a seguir.

Exemplo

Imagine que um grande lote de peças possui 70% dos itens com algum
tipo de defeito. Construa a distribuição de probabilidades para a
variável aleatória número de itens com defeito dentre 2 itens sorteados
aleatoriamente.

Solução

Conforme o enunciado da questão, sabemos que no lote 70% dos itens


apresentam algum tipo de defeito. Isso significa que dos 100% de itens
do lote, 30% não apresentam defeito:

70%
 + 30%
 = 100%

com defeito sem defeito total de itens

Desejamos então encontrar a distribuição de probabilidade tomando


como parâmetro o número de itens com defeito ao serem sorteados,
aleatoriamente, dois itens do lote. Dessa forma, vamos chamar o item
com defeito de D e o item bom (sem defeito) de B e organizar os dados
em forma de tabela.

Tabela 58 – Distribuição das probabilidades dos resultados do espaço amostral.


Resultados possíveis Resultados numéricos
Probabilidades
1º item 2º item desejados
0 (número de peças sem
B B 0,3 × 0,3 = 0,09
defeitos)
B D 1 (peça com defeito) 0,3 × 0,7 = 0,21
D B 1 (peça com defeito) 0,7 × 0,3 = 0,21
D D 2 (peças com defeitos) 0,7 × 0,7 = 0,49

Fonte: Elaborada pela autora (2013).

www.esab.edu.br 168
Observe que, na situação em que apenas um dos dois itens apresenta
defeito, temos duas possibilidades de ocorrência: sair item bom e item
com defeito ou sair item com defeito e item bom, isso significa que as
probabilidades serão somadas, isto é, 0,21 + 0,21 = 0,42. A Tabela 59 e a
Figura 43 resumem essas observações.

Tabela 59 − Distribuição de probabilidade da variável aleatória: número de itens com defeito de um


determinado lote.
Resultados possíveis ( x ) Probabilidade P ( x )
0 0,09
1 0,42
2 0,49

Fonte: Elaborada pela autora (2013).

0,42 0,49
0,09
0 1 2
Figura 43 − Distribuição de probabilidade da variável aleatória: número de itens com defeito de um
determinado lote.
Fonte: Elaborada pela autora (2013).

Portanto, a chance de sair um item com defeito é de 0,42 ou, em


percentual, 42%. A chance de sair dois itens com defeito é de 49%.
Repare então que a chance de sair pelo menos um item com defeito é a
soma de 42% + 49% = 91%.

26.3 Função de distribuição acumulada de


probabilidade
Semelhante à ideia de distribuição de frequência acumulada vista na
unidade 9, temos, com base em Magalhães e Lima (2005), que a função
de distribuição acumulada de probabilidade de uma variável aleatória
discreta X é definida, para qualquer número real x, pela seguinte expressão:

F (x) = P (X ≤ x)

www.esab.edu.br 169
Assim, retomando o exemplo desta unidade sobre as peças defeituosas
de uma produção, teremos a distribuição acumulada de probabilidade
indicada na Tabela 60.

Tabela 60 – Função distribuição acumulada de probabilidade.


Distribuição acumulada de
Resultados possíveis ( x ) Probabilidade P ( x )
probabilidade P (X ≤ x)
0 0,09 0,09
1 0,42 0,09 + 0,42 = 0,51
2 0,49 0,51 + 0,49 = 1

Fonte: Elaborada pela autora (2013).

Conforme ilustra a Tabela 60, a distribuição acumulada de probabilidade


nada mais é do que a soma das probabilidades anteriores.

Dessa forma, podemos concluir que 0,51 (ou 51%) dos itens possuem 0
ou 1 defeito. Vejamos, na sequência, o valor esperado.

26.4 Valor esperado e desvio-padrão de distribuição


de probabilidade
Você aprendeu nas unidades 11 e 14 a importância de se calcular a
média e o desvio-padrão de uma distribuição conjunta de dados, cujos
respectivos objetivos eram representar, por um único valor, o conjunto de
dados e avaliar sua dispersão. Na distribuição de probabilidades também
temos interesse em verificar a média das probabilidades, isto é, a média
dos resultados da variável aleatória quando o número de observações
for muito grande, a qual chamamos de esperança ou valor esperado, e o
desvio-padrão.

www.esab.edu.br 170
Para calcularmos o valor esperado e o desvio-padrão de uma dada
distribuição de probabilidades:

Tabela 61 – Distribuição de probabilidade qualquer.

Variável aleatória ( xi ) Probabilidade ( Pi )


x1 P ( x1 )
x2 P ( x2 )
... ...
xn P ( xn )

Fonte: Elaborada pela autora (2013).

Temos que o valor esperado mx é a soma dos produtos entre variável


aleatória x e a probabilidade P(x). Matematicamente:

n
µx
= ∑(x
i =1
i ⋅ pi )

O desvio-padrão é calculado da seguinte forma:

n
s
= ∑ p ⋅ (x
i =1
i i − µ x )2

Para melhor compreender, vamos tomar os dados da Figura 43 do exemplo:

Tabela 62 – Distribuição de probabilidade da variável aleatória: número de itens com defeito de um


determinado lote.
Resultados possíveis ( x ) Probabilidade P ( x )
0 0,09
1 0,42
2 0,49

Fonte: Elaborada pela autora (2013).

www.esab.edu.br 171
O valor esperado e o desvio-padrão dessa distribuição de probabilidades
estão representados na Tabela 63. Vejamos:

Tabela 63 – Desenvolvimento do cálculo do valor esperado e o do desvio-padrão.

Cálculo para
obtenção do Cálculos para o valor do desvio-padrão
x P ( x) valor esperado

xi – pi xi – μx ( xi – μx )2 pi ( xi – μx )2

0 0,09 0 . 0,09 = 0 0 – 1,40 = – 1,40 ( – 1,40)2 = 1,96 0,09 . 1,96 = 0,18


1 0,42 1 . 0,42 = 0,42 1 – 1,40 = – 0,40 ( – 0,40)2 = 0,16 0,42 . 0,16 = 0,07
2 0,49 2 . 0,49 = 0,98 2 – 1,40 = 0,60 ( 0,60)2 = 0,36 0,42 . 0,16 = 0,07

Fonte: Elaborada pela autora (2013).

Assim, o valor esperado é:


n
µ x =∑ ( xi ⋅ pi ) =0 + 0, 42 + 0,98 =1, 40
i =1

O desvio-padrão é:
n
s
= ∑ p ⋅ (x
i =1
i i − µx =
)2 = 0, 66
0, 43

Portanto, podemos concluir que, em média, o valor esperado para


ocorrer itens com defeito é de 1,40, e o desvio-padrão, ou seja, a
dispersão da distribuição de probabilidades é de 0,66 item.

Assim, estamos finalizando mais uma unidade. Vimos o conceito de


variável aleatória, distribuição de probabilidade e valor esperado de
uma variável aleatória discreta. Na próxima unidade, vamos conhecer a
distribuição de Bernoulli.

Tarefa dissertativa
Caro estudante, convidamos você a acessar o
Ambiente Virtual de Aprendizagem e realizar a
tarefa dissertativa.

www.esab.edu.br 172
27 Distribuição de Bernoulli

Objetivo
Conhecer e determinar a distribuição de Bernoulli.

Na unidade anterior abrimos caminho ao estudo de modelos


probabilísticos discretos. Dando prosseguimento, veremos nesta
unidade um modelo de distribuição de probabilidade muito famoso:
a distribuição de Bernoulli ou ensaio de Bernoulli. Utilizaremos como
apoio teórico as concepções de Bussab e Morettin (2002).

Para melhor compreender o conceito de distribuição de Bernoulli é


necessário que você acompanhe o raciocínio a seguir.

Dado um experimento e seus resultados possíveis, temos as seguintes


situações:

• uma moeda é lançada. Se desejarmos que saia a face coroa, então o


resultado a favor ou é coroa, ou não é (ocorrendo, então, cara);
• um dado é lançado. Se desejarmos a face 6, então o resultado a favor
ou é 6 ou não é (ocorrendo, então, 1, 2, 3, 4 ou 5);
• uma peça é escolhida ao acaso, de um lote de 250 peças. Se
desejarmos obter uma peça boa, então o resultado a favor é uma
peça boa, ou não é (ocorrendo, então, pegar uma peça com defeito);
• em uma urna com bolas vermelhas e brancas, se desejarmos retirar
uma bola vermelha, então o resultado a favor ou é bola vermelha ou
não é (ocorrendo, então, a retirada de uma bola branca).
Em todas essas situações, estamos interessados na ocorrência de um
sucesso (coroa, face 6 e peça boa) ou um fracasso (cara, face diferente
de 6 e peça com defeito) (BUSSAB; MORETTIN, 2002). Essa forma de
olhar e analisar um problema ou situação é a principal característica da
distribuição de Bernoulli.

www.esab.edu.br 173
Em outras palavras, a distribuição de Bernoulli apresenta apenas dois
resultados possíveis: sim (o que desejamos que ocorra) ou não, com
probabilidade de sucesso (de ocorrer um sim) que indicaremos por p.

É importante ressaltar que a distribuição de Bernoulli ocorre em


situações em que observamos apenas um elemento e verificamos se ele
tem (ou não) certo atributo desejado.

Em linguagem matemática, definimos a distribuição de Bernoulli em


termos de uma função tal que dada uma variável aleatória X, esta assume
apenas dois valores, o valor 1, que representa o sucesso, sim; e o valor
0, que representa o fracasso, não. Indicaremos por p a probabilidade de
sucesso, isto é:

P (sucesso) = P (1) = p
Em que p é um número compreendido entre 0 e 1. Em decorrência
disso, a probabilidade de fracasso é:

P (fracasso) = P (0) = 1 – p
Ressaltamos que essa justificativa é pautada na definição de probabilidade
e no conjunto complementar de uma probabilidade, vistos na unidade
22. Para que você consiga visualizar melhor esse conhecimento, vamos
ver um exemplo?

Exemplo

Em uma empresa de grande porte sabe-se que 65% dos sócios foram
favoráveis a determinado projeto e 35% foram contra. A probabilidade
de, ao acaso, fazer contato com um dos sócios que foram favoráveis ao
projeto, pode ser escrita através do modelo probabilístico de Bernoulli.

www.esab.edu.br 174
Assim, vamos representar os 65% favoráveis (sucesso) pelo número 1 e os
35% contra (fracasso) por 0. Logo:

Tabela 64 – Distribuição de Bernoulli.


Resultados numéricos
Resultados possíveis Probabilidade P ( x )
desejados ( x )
Contra 0 (sócios favoráveis) 0,35
Favoráveis 1 (sócios favoráveis) 0,65

Fonte: Elaborada pela autora (2013).

De forma simplificada, temos a seguinte função de distribuição de


Bernoulli para esse exemplo.

Tabela 65 – Distribuição de Bernoulli.


x P ( x)
0 0,35
1 0,65

Fonte: Elaborada pela autora (2013).

0,65
0,35
0 1
Figura 44 − Distribuição de Bernoulli.
Fonte: Elaborada pela autora (2013).

Portanto, há 0,65 ou 65% de chance de realizar, ao acaso, um contato


com um sócio favorável ao projeto.

Agora veremos como calcular o valor esperado e o desvio-padrão em uma


distribuição de Bernoulli.

www.esab.edu.br 175
Valor esperado e desvio-padrão de uma distribuição
de Bernoulli
O objetivo de encontramos o valor esperado e o desvio-padrão de uma
distribuição de Bernoulli é o mesmo que vimos na unidade anterior para
distribuição de probabilidade discreta: encontrar um único valor médio
que represente a distribuição e a medida de dispersão, respectivamente.

Sendo assim, vamos acompanhar o raciocínio a seguir para calcularmos o


valor esperado e o desvio-padrão de uma dada distribuição de Bernoulli.
Veja a Tabela 66:

Tabela 66 – Distribuição de Bernoulli qualquer.


Variável aleatória ( x ) Probabilidade P ( x )
0 (1 – p)
1 P

Fonte: Elaborada pela autora (2013).

Temos que o valor esperado mx é nada mais do que a própria


probabilidade p de ocorrer o sucesso, representado pelo valor numérico
1. Matematicamente, temos:

mx = p
Já o desvio-padrão é calculado pela seguinte fórmula:

s= p ⋅ (1 − p ) = p − p2

Para melhor compreender, vamos retomar os dados do exemplo anterior


(dos sócios da empresa de grande porte). Temos:

Tabela 67 – Distribuição de Bernoulli.


x P ( x)
0 0,35 (1 – p)

1 0,65 (p)

Fonte: Elaborada pela autora (2013).

www.esab.edu.br 176
Aplicando as respectivas fórmulas, temos que o valor esperado e o desvio-
padrão dessa distribuição são:

Valor esperado:

mx = p = 0,65
Desvio-padrão é:

s= p ⋅ (1 − p ) = 0, 65 ⋅ 0,35 = 0, 23

Portanto, podemos concluir que, em média, o valor esperado para


ocorrer um contato com um sócio favorável ao projeto é de 0,65
(ou 65%), e o desvio-padrão, ou seja, a dispersão da distribuição de
Bernoulli, é de 0,23 sócios favoráveis.

Estudo complementar
Caro estudante, você pode estudar sobre as
contribuições de Jacob Bernoulli e diversos
outros aspectos da história da Estatística no texto
disponível aqui.

Nesta unidade estudamos a distribuição de Bernoulli, um modelo de


distribuição de probabilidade. Na próxima unidade, vamos dar um passo
à frente no cálculo de distribuição de probabilidade com a distribuição
binomial.

Atividade
Chegou a hora de você testar seus conhecimentos
em relação às unidades 19 a 27. Para isso, dirija-
se ao Ambiente Virtual de Aprendizagem (AVA) e
responda às questões. Além de revisar o conteúdo,
você estará se preparando para a prova. Bom
trabalho!

www.esab.edu.br 177
28 Distribuição binomial

Objetivo
Conhecer e determinar a distribuição binomial.

Na unidade 27 você aprendeu o que é e como determinar a distribuição


de Bernoulli. Contudo, a distribuição ou ensaio de Bernoulli caracteriza-
se pela realização do experimento em um único lance. Se repetirmos um
ensaio de Bernoulli n vezes, n ≥ 2, então teremos o que chamamos de
distribuição binomial (BUSSAB; MORETTIN, 2002).

Acompanhe agora o raciocínio para o cálculo de uma distribuição binomial.

Seja X uma variável aleatória que representa o número de sucessos em n


ensaios de Bernoulli. Portanto, o sucesso é quando obtemos pelo menos
uma peça com defeito, e o fracasso é quando nenhuma peça possui
defeito. Assim, dentre todas as possibilidades, temos duas em particular:

SS
 ...S e FF
 ...
F
x n−x

Temos que x é o número de sucessos obtidos nos n experimentos. Sendo


assim, quando há fracasso, subtraímos dos n experimentos aqueles que
obtiveram sucesso, portanto, n – x.

Sabendo, pelo conceito de distribuição de Bernoulli, que p representa a


probabilidade de sucesso, e 1 – p representa a probabilidade de fracasso,
então a probabilidade de ocorrer ambas as situações, sucesso e fracasso,
nos n experimentos, é o produto:

p ⋅ p ⋅ ... ⋅ p ⋅ (1 − p ) ⋅ (1 − p ) ⋅ ... ⋅ (1 − p ) = p x ⋅ (1 − p )n − x
  
x vezes de n − x vezes
sucesso

www.esab.edu.br 178
Além dessas duas possibilidades particulares temos ainda a combinação
(possibilidades) de sequências que apresentam sucesso e fracasso
concomitantemente, por exemplo:

SSFF ...S ou FSFF ...S etc.


Para determinarmos as probabilidades dessas combinações, utilizaremos
o artifício da análise combinatória no estudo de combinação simples que
você deve ter aprendido no ensino básico (para relembrar esse conteúdo
vá ao ícone de estudo complementar):

n  n!
x =
  x !(n − x )!
Portanto, temos que a probabilidade determinada por meio do modelo
de distribuição binomial é:
n 
P ( x )=   ⋅ p x ⋅ (1 − p )n − x ⇒
x
n!
=
P(x ) ⋅ p x ⋅ (1 − p )n − x
x !(n − x )!
Veja agora alguns pressupostos importantes do modelo de distribuição
binomial:

• são efetuados n experimentos iguais e independentes, isto é, por iguais


entendem-se as mesmas condições para cada um dos experimentos, e
por independentes que a probabilidade não é condicional;
• cada um dos experimentos tem apenas 2 resultados possíveis e
excludentes, ou seja, sim e não (ou sucesso e fracasso);
• consequentemente, a probabilidade de sucesso (p) para cada
experimento é constante;
• a variável aleatória de interesse é o número de sucessos obtidos nos n
experimentos.

www.esab.edu.br 179
Com base nesses pressupostos, você reparou que mencionamos apenas
dois parâmetros? Os parâmetros n e p. Para identificarmos uma
distribuição binomial, basta sabermos esses dois parâmetros, lembrando
que o valor de x na fórmula é o valor que desejamos obter de sucesso em
cada um dos n experimentos.

Vejamos agora um exemplo para que você compreenda melhor o cálculo


de distribuição binomial.

Exemplo

Considere que um grande lote de peças possui 60% das peças com algum
tipo de defeito. Com base nessa informação, construa a distribuição de
probabilidades para a variável aleatória número de itens com defeito
dentre 3 sorteados aleatoriamente.

Solução

Vamos chamar as peças boas de B e as peças com defeito de D. Assim,


primeiramente, para que você consiga compreender melhor, vamos
organizar o raciocínio, ou seja, os resultados de possibilidades, na Tabela 68.

Tabela 68 – Organização dos resultados do exemplo.


Resultados possíveis Variável aleatória ( x )
BeBeB 0 (peça com defeito)
BeBeD 1 (peça com defeito)
... ...
DeDeB 2 (peças com defeito)
... ...
DeDeD 3 (peças com defeito)

Fonte: Elaborada pela autora.

www.esab.edu.br 180
O exemplo apresentado pode ser representado por uma distribuição
binomial em que os parâmetros n (número de experimentos) e p
(probabilidade) são:

• n = 3 sorteios.
• p = 60% ⇒ 0,6 (peça com defeito, ou seja, sucesso, pois se deseja o
número de peças com defeito).
Assim, se quisermos saber a probabilidade da distribuição binomial P(x)
para x = 0, isto é, zero peça com defeito (fracasso), então:
n!
=
P(x ) ⋅ p x ⋅ (1 − p )n − x ⇒
x !(n − x )!
3!
⇒=P (0) ⋅ 0, 60 ⋅ (1 − 0, 6)3−0 ⇒
0!(3 − 0)!
3!
⇒ P (0) = ⋅ 1 ⋅ (0, 4)3 ⇒ P (0) = 1 ⋅ 1 ⋅ 0,064 ⇒
1 ⋅ 3!
⇒ P (0) = 0,064
Para x = 1 peça com defeito, a probabilidade da distribuição binomial será:

n!
=
P(x ) ⋅ p x ⋅ (1 − p )n − x ⇒
x !(n − x )!
3!
⇒=P (1) ⋅ 0,61 ⋅ (1 − 0,6)3−1 ⇒
1!(3 − 1)!
(3 ⋅ 2 ⋅1)
⇒ P (1) = ⋅ 0,6 ⋅ (0, 4)2 ⇒ P (1) = 3 ⋅ 0,6 ⋅ 0,16 ⇒
1 ⋅ (2 ⋅1)
⇒ P (1) = 0,288

Para x = 2 peças com defeito, a probabilidade da distribuição binomial será:


n!
=
P(x ) ⋅ p x ⋅ (1 − p )n − x ⇒
x !(n − x )!
3!
⇒=P (2) ⋅ 0, 62 ⋅ (1 − 0, 6)3−2 ⇒
2 !(3 − 2)!
(3 ⋅ 2 ⋅ 1)
⇒ P (2)
= ⋅ 0,36 ⋅ (0, 4)1 ⇒
2 ⋅1
⇒ P (2) = 3 ⋅ 0,36 ⋅ 0, 4 ⇒ P (2) = 0, 432

www.esab.edu.br 181
Por fim, para x = 3 peças com defeito, a probabilidade da distribuição
binomial será:
n!
=
P(x ) ⋅ p x ⋅ (1 − p )n − x ⇒
x !(n − x )!
3!
⇒= P (3) ⋅ 0, 63 ⋅ (1 − 0, 6)3−3 ⇒
3!(3 − 3)!
(3 ⋅ 2 ⋅ 1)
=
P (3) ⋅ 0, 216 ⋅ (0, 4)0 ⇒
(3 ⋅ 2 ⋅ 1) ⋅ 1
⇒ P (3) = 1 ⋅ 0, 216 ⋅ 1 ⇒ P (1) = 0, 216
Portanto, as probabilidades determinadas são:

Tabela 69 – Resultados das probabilidades binomiais.


Resultados possíveis ( x ) Probabilidade P ( x )
0 0,064
1 0,288
2 0,432
3 0,216

Fonte: Elaborada pela autora (2013).

Note que o símbolo (!) representa o fatorial de um número, que é o


produto dos números naturais que inicia em n e decresce até um 1. Por
exemplo: 4! = 4 . 3 . 2 . 1 = 24. Por definição o fatorial de 0! = 1.

Salientamos também que, por definição, qualquer número elevado a 0 é


igual a 1.

Agora, com base nos resultados da Tabela 69, considere as perguntas a


seguir.

Qual é a probabilidade binomial de no máximo uma peça ser defeituosa?


Qual é a probabilidade binomial de pelo menos duas peças serem defeituosas?

www.esab.edu.br 182
Vamos às respostas? Respondendo à primeira pergunta, temos que a
probabilidade de no máximo uma peça ser defeituosa significa que
queremos as situações em que nenhuma peça, dos 3 sorteios, seja
defeituosa ou que somente uma peça dos 3 sorteios seja defeituosa, isto é,
queremos as somas das probabilidade binomiais de P(0) e P(1). Portanto:

P(0) + P(1) = 0,064 + 0,288 = 0,352


Com relação à segunda pergunta, queremos saber a probabilidade, entre
os 3 sorteios, de termos as situações em que duas peças sejam defeituosas
ou que três peças sejam defeituosas. Ou seja, queremos a soma das
probabilidades binomiais de P(2) e P(3). Portanto:

P(2) + P(3) = 0,432 + 0,216 = 0,648


Em resumo temos, na primeira questão, que há 0,352 ou 35,2% de
chance de que nenhuma peça seja defeituosa ou que apenas uma peça seja
defeituosa, dentre 3 peças sorteadas. Do mesmo modo, temos que, na
segunda pergunta, há 0,648 ou 64,8% de chance de que duas peças sejam
defeituosas ou três peças sejam defeituosas, dentre as 3 peças sorteadas.

Dica
Você reparou que no cálculo da primeira
probabilidade binomial P(0) bastaria calcular
o último membro da fórmula da binomial,
isto é, bastaria calcular (1 – p)n ? Já na última
probabilidade, em nosso exemplo P(3), bastaria
calcular o segundo membro da fórmula binomial,
ou seja, p x. Volte à resolução desses casos e
observe o desenvolvimento desses cálculos!

www.esab.edu.br 183
Valor esperado e desvio-padrão
O cálculo do valor esperado e do desvio-padrão é análogo ao da
distribuição de Bernoulli que nós vimos na unidade 27. Como
a distribuição binomial é n ensaios de Bernoulli, então devemos
acrescentar esse parâmetro ao cálculo do valor esperado e do desvio-
padrão. Logo:

Valor esperado:

mx = n . p
Desvio-padrão:

s= n ⋅ p ⋅ (1 − p )

Vejamos então qual é o valor esperado e o desvio-padrão do exemplo


anterior, sabendo que n = 3 e p = 0,6.

Valor esperado:

µ x = n ⋅ p = 3 ⋅ 0,6 =1,8 peças

Desvio-padrão:

s= n ⋅ p ⋅ (1 − p ) = 3 ⋅ 0, 6 ⋅ (1 − 0, 6) =
= 3 ⋅ 0, 6 ⋅ 0, 4 = 0, 72 =
= 0,85 peças

www.esab.edu.br 184
Nesta unidade você aprendeu a calcular as probabilidades binomiais
de um dado experimento aleatório, correto? Determinamos essas
probabilidades a partir de uma fórmula matemática. Na próxima
unidade, conheceremos outro modelo de distribuição de probabilidade
para variáveis discretas: a distribuição de Poisson.

Saiba mais
As probabilidades para algumas binomiais podem
ser encontradas em tabelas nos livros de estatística
ou, atualmente, podem ser geradas através de
softwares e disponibilizadas em documentos
eletrônicos. Veja aqui o vídeo que mostra como
utilizar a distribuição binomial no Excel

www.esab.edu.br 185
29 Distribuição de Poisson

Objetivo
Conhecer e determinar a distribuição de Poisson.

Na unidade anterior você conheceu o modelo binomial de distribuição


de probabilidades, certo? Nesta unidade, com o auxílio das principais
ideias do trabalho de Bussab e Morettin (2002), apresentaremos o
último modelo de distribuição de probabilidades para variáveis aleatórias
discretas de que iremos tratar nesta disciplina. Então, vamos lá?

Para Bussab e Morettin (2002, p. 121), a distribuição de Poisson “(...)


é largamente empregada quando se deseja contar o número de eventos
de certo tipo, que ocorrem em um intervalo de tempo, ou superfície, ou
volume”. Para assimilar com mais precisão a afirmação dos autores, veja
os exemplos de aplicação dessa distribuição:

• número de chamadas telefônicas recebidas durante um intervalo de


tempo;
• número de mensagens que chegam a um servidor, por segundo;
• número de falhas de um computador em um dia de operação;
• número de acidentes ocorridos em uma semana;
• número de defeitos por m².
Para determinarmos as probabilidades de sucesso x (x = 1, 2, ..., n) em
um dado experimento através do modelo de distribuição de Poisson,
em que o número de vezes n em que é repetido o experimento é grande
e a probabilidade p do experimento é pequena, podemos aproximar as
probabilidades de Poisson pela fórmula (BUSSAB; MORETTIN, 2002):

e − np ⋅ (n ⋅ p )x
P(x ) =
x!

www.esab.edu.br 186
Para saber mais sobre o número e, chamado de número de Euler, procure
o ícone Saiba Mais ao final desta unidade.

De modo geral, dizemos que a variável aleatória X tem uma distribuição


de Poisson com parâmetro l > 0 se:

e −l ⋅ l x
P(x ) =
x!
Em que l = n . p é o número médio de ocorrências em um intervalo de
tempo ou espaço considerado. Em outras palavras, l é o valor esperado.
Além disso, na distribuição de Poisson o valor esperado e o desvio-padrão
são os mesmos, ou seja:

mx = s = l = n . p
Observe alguns exemplos para elucidar esse conhecimento.

Exemplo 1

Em uma central telefônica chegam 240 ligações por hora. Qual é a


probabilidade de que:

a. em 1 minuto não haja nenhuma chamada?


b. em 2 minutos haja quatro chamadas?

Resolução

a. A variável aleatória X é o número de chamadas por minuto, ou seja,


uma variável aleatória discreta.
Agora precisamos identificar os parâmetros n e p.

Como queremos saber se não haverá nenhuma chamada, isto é, x = 0, em


um minuto, então o tempo de ocorrência desejado para o experimento é
n = 1.

www.esab.edu.br 187
A probabilidade p do experimento refere-se às 240 ligações por hora.
Como 1 hora tem 60 minutos, então vamos escrever o parâmetro p em
função das ligações por minuto. Desse modo:

240
=p = 4.
60
De posse dos parâmetros n = 1 e p = 4, temos l = n . p = 1 . 4 = 4. A
probabilidade de Poisson P(0) será:
e −l ⋅ l x
=
P(x ) ⇒
x!
e −4 ⋅ 40
P (0) =
0!
0,018315 ⋅ 1
P (0) =
1
P (0)  0,02
Portanto, a probabilidade de nenhuma chamada ocorrer em 1 minuto é
aproximadamente 2% (ou 0,02) de chance.

Vamos resolver agora o item b da questão:

b. Neste item queremos a probabilidade de sucesso quando x = 4


chamadas. O parâmetro n = 2 minutos e o nosso conhecido
240
=p = 4.
60
De posse dos parâmetros n = 2 e p = 4, temos l = n . p = 2 . 4 = 8. A
probabilidade de Poisson P(4)será:
e −l ⋅ l x
=
P(x ) ⇒
x!
e −8 ⋅ 84
P (4) =
4!
−8
e ⋅ 4096
P (0) =
24
P (0) = 0,0573
P (0)  0,06

www.esab.edu.br 188
A probabilidade de duas chamadas ocorrerem em 2 minutos é
aproximadamente 6% (ou 0,06).

Exemplo 2

Em certo tipo de fabricação de fita magnética, ocorrem defeitos a uma


taxa média de 1 a cada 3000 metros. Qual é a probabilidade de que um
rolo com 3000 metros de fita magnética tenha no máximo dois defeitos?

Resolução

A variável aleatória X é o número de defeitos a cada 3000 metros de fita


magnética.

O enunciado do exemplo já nos proporciona a taxa média l = 1 (a cada


3000 metros).

Desejamos então encontrar a probabilidade de Poisson de um rolo com


3000 metros de fita magnética que tenha no máximo 2 defeitos, ou seja,
queremos P(0) + P(1) + P(2). Dessa forma:

e −1 ⋅ 10 0,3679 ⋅ 1
P (0)= ⇒ P (0)= ⇒ P (0)= 0,3679
0! 1
e −1 ⋅ 11 0,3679 ⋅ 1
P (1)= ⇒ P (1)= ⇒ P (1)= 0,3679
1! 1
e −1 ⋅ 12 0,3679 ⋅ 1
P (2)= ⇒ P (2)= ⇒ P (2)= 0,1839
2! 2

Logo:

P(0) + P(1) + P(2) = 0,3679 + 0,3679 + 0,1839 = 0,9197


Portanto a probabilidade de ocorrer no máximo 2 defeitos em um rolo
com 3000 metros de fita magnética é de aproximadamente 92% (ou 0,92).

www.esab.edu.br 189
Estudo complementar
Descubra sobre as contribuições de Leonhard Euler
para o desenvolvimento e o surgimento do número e
no texto “Refletindo sobre o ensino e aprendizagem
do número de Euler”, disponível aqui.

www.esab.edu.br 190
30 Variáveis aleatórias contínuas

Objetivo
Determinar o valor esperado de uma variável aleatória contínua.

Das unidades 26 à 29 apresentamos a você os modelos probabilísticos


para as variáveis aleatórias discretas. Nesta unidade, utilizando o trabalho
de Bussab e Morettin (2002), iniciaremos o estudo pelos modelos
probabilísticos relacionados às variáveis aleatórias contínuas. Então,
vamos em frente?

Os autores Bussab e Morettin (2002, p. 139) afirmam que “[...] de modo


geral, podemos dizer que as variáveis aleatórias cujos valores resultam de
algum processo de mensuração são variáveis aleatórias contínuas”. Assim,
para conhecermos os modelos probabilísticos das variáveis aleatórias
contínuas que dão suporte às aplicações nas mais diversas áreas de
conhecimento, vamos antes elucidar o processo teórico de criação desses
modelos.

Acompanhe, então, o raciocínio a seguir.

Consideremos que um jogo de azar é realizado da seguinte forma:


tomamos um círculo e o dividimos em duas partes iguais, 1 e 2. Sobre o
centro do círculo é fixado um ponteiro; esse ponteiro é girado e anota-se
o número do setor onde a ponta do ponteiro parou.

www.esab.edu.br 191
1 2

Figura 45 − Círculo dividido em duas partes iguais.


Fonte: Elaborada pela autora (2013).

A distribuição de probabilidade desse jogo, cujo círculo é dividido em


duas partes iguais, é:

Tabela 70 − Distribuição de probabilidade, tabela e histograma x


P ( x)
1 0,50
2 0,50

Fonte: Elaborada pela autora (2013).

0,5 0,5

1 2
Figura 46 − Distribuição de probabilidade, tabela e histograma.
Fonte: Elaborada pela autora (2013).

Agora, considere a mesma situação, mas com o círculo dividido em


quatro, oito e dezesseis partes iguais.

8 1 1516 1 2
4 1 14 3
7 2 13 4
6 3 12 5
3 2 11 6
5 4 10 9 8 7

Figura 47 – Círculo dividido em quatro, oito e dezesseis partes iguais


Fonte: Elaborada pela autora (2013).

www.esab.edu.br 192
As distribuições de probabilidades, ilustradas em histogramas, são
respectivamente:

0,125
0,125
0,125
0,125
0,125
0,125
0,125
0,125

0,0625
0,0625
0,0625
0,0625
0,0625
0,0625
0,0625
0,0625
0,0625
0,0625
0,0625
0,0625
0,0625
0,0625
0,0625
0,0625
0,25
0,25
0,25
0,25

1 2 3 4 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

Figura 48 – Histograma das distribuições de probabilidade.


Fonte: Elaborada pela autora (2013).

Uma questão emerge dessa situação: qual é o número máximo de setores


que podemos conseguir em um círculo? A resposta a essa pergunta é
infinitos setores, pois podemos fazer um recorte no círculo infinitas
vezes. Dessa maneira, como existem infinitos resultados possíveis, temos
uma situação próxima à da variável contínua. Observe pelos histogramas
da Figura 48 que as probabilidades se aproximam cada vez mais do
valor zero. Assim, não faz muito sentido utilizar os mesmos artifícios
matemáticos das variáveis aleatórias discretas.
y Função densidade
de propabilidade

y = f (x )

y Área = 1
(ou 100%)

α β

β −α
Figura 49 − Histograma da variável aleatória contínua.
Fonte: Elaborada pela autora (2013).

www.esab.edu.br 193
Para identificar uma distribuição contínua, existe a função densidade
de probabilidade, que é uma equação do tipo y = f (x). A função
densidade de probabilidade está relacionada com a probabilidade de a
variável aleatória contínua assumir algum resultado possível em um dado
intervalo sob a função densidade. Como vimos na Figura 49, a área sob
a função densidade é igual a 1, então

1
A = (b − a ) ⋅ y ⇒ 1 = (b − a ) ⋅ y ⇒ y = .
b −a

Matematicamente, essa função é expressa através da integração de y


= f (x), que não vem ao caso estudarmos aqui. Para tanto, vamos ver
uma generalização desse modelo por meio da chamada Distribuição
Uniforme. Acompanhe o exemplo que segue:

Exemplo

Em um relógio de parede, anota-se o ângulo formado pelo ponteiro com


o eixo horizontal, como na figura a seguir. Perguntamos a você: qual é a
probabilidade de se obter um ângulo entre 30º e 60º?

12

9 3

Figura 50 − Ilustração do exemplo para variável aleatória medida do ângulo.


Fonte: Elaborada pela autora (2013).

www.esab.edu.br 194
Solução

Como X, que representa a medida do ângulo da circunferência, é uma


variável contínua, temos a seguinte representação no histograma:
y

α = 0° a = 30° b = 60° β = 360°


Figura 51 – Histograma da variável aleatória medida do ângulo.
Fonte: Elaborada pela autora (2013).

Como estamos trabalhando com uma circunferência, então

uma volta completa representa 360º. Dessa forma, como


1 1 1
f ( x )= y= = = , então a área do intervalo
b − a 360° − 0° 360°
desejado é:
1 30°
A= (b − a ) ⋅ y= (60° − 30°) ⋅ = ⇒
360° 360°
1
⇒A= = 0,0833
12

www.esab.edu.br 195
Portanto, a probabilidade de o ponteiro parar entre um ângulo de 30º e
60º é P(30º < x < 60º) = 0,0833.

De maneira geral, a probabilidade da distribuição uniforme em um dado


intervalo é calculada por meio da fórmula a seguir:

b−a
P (a < x < b ) =
b −a

Nesta unidade, o nosso objetivo foi apresentar a você como se constrói


a ideia de modelos probabilísticos para variáveis aleatórias contínuas.
Conhecemos o modelo de distribuição uniforme, bastante simples. Na
unidade a seguir você conhecerá um dos modelos mais utilizados na
estatística: a distribuição normal. Vamos conhecê-lo?

www.esab.edu.br 196
Resumo

Na unidade 25 você teve a oportunidade de observar alguns exercícios


resolvidos sobre probabilidade e probabilidade condicional, que são
importantes conceitos dentro do estudo da estatística. Na unidade
26 iniciamos o estudo das variáveis aleatórias discretas e do modelo
de distribuição de probabilidade, que possui o mesmo objetivo da
distribuição conjunta de dados. Além disso, aprendemos a determinar
a medida de centrabilidade, denominada valor esperado (que segue o
mesmo raciocínio do conceito da média de um conjunto de dados), e o
desvio-padrão.

Na unidade 27 apresentamos a você o modelo probabilístico chamado


de distribuição de Bernoulli. Esse modelo é utilizado em situações nas
quais, dada uma variável aleatória discreta, temos o interesse em realizar
um único lançamento (executar uma única vez o experimento) e observar
suas probabilidades.

Na sequência das unidades, ou seja, na unidade 28 você aprendeu


a distribuição binomial que consiste em realizar vários n ensaios de
Bernoulli. Na unidade 29 você teve a oportunidade de conhecer mais um
modelo probabilístico para variáveis aleatórias discretas, a distribuição
de Poisson. Por fim, na unidade 30, introduzimos as variáveis aleatórias
contínuas, e você pôde estudar o modelo uniforme contínuo.

www.esab.edu.br 197
31 Distribuição normal

Objetivo
Apresentar, compreender e determinar a distribuição normal.

Na unidade 30 você estudou os modelos probabilísticos relacionados


às variáveis aleatórias contínuas, especificamente a distribuição
uniforme. Nesta unidade você vai conhecer a distribuição normal de
probabilidades, um modelo probabilístico para variáveis aleatórias
contínuas. Utilizaremos como apoio teórico o trabalho de Bussab e
Morettin (2002).

A distribuição normal de probabilidades é utilizada para identificarmos


as probabilidades de ocorrência de variáveis aleatórias quantitativas
contínuas. Essas variáveis são aquelas para as quais não conseguimos
enumerar todos os seus possíveis resultados, pois eles formam um
conjunto infinito, em um intervalo de números reais. Por exemplo, a
massa de uma mulher adulta, tomada ao acaso, é uma variável aleatória
quantitativa contínua, porque não conseguimos enumerar todos os
valores possíveis de peso dessa pessoa. Mas em nossas observações
diárias podemos verificar que o resultado poderá ser um número
real no intervalo entre 40,0 e 80,0 kg, que contém infinitos valores
intermediários.

A distribuição normal de probabilidades é uma distribuição contínua.


Segundo Bussab e Morettin (2002) é caracterizada por uma função da
variável aleatória (x), com os parâmetros de média populacional (m) e
variância (s2), variando dentro dos seguintes intervalos: ‒ ∞ < m < + ∞ e
0 < s2 < + ∞. Sua densidade é dada por:

1 2 2
f ( x, µ,s 2 ) = e −( x − µ ) /2s
s 2p

www.esab.edu.br 198
Em que:

• p = 3,14159...
• e = 2,71828...
Para o cálculo da probabilidade de ocorrência de variáveis normalmente
distribuídas não usaremos a fórmula apresentada anteriormente, mas sim
a Tabela de Probabilidades da Distribuição Normal Padrão, que veremos
mais adiante na unidade 32.

A distribuição normal de probabilidades é representada por uma curva


em forma de sino, que é perfeitamente simétrica em relação à média
populacional (m), independentemente dos valores assumidos pela média
populacional e pelo desvio-padrão populacional, ou seja, a área à direita é
igual à área à esquerda da média populacional (m). A média populacional
(m) especifica a posição central da distribuição de probabilidades, e o
desvio-padrão populacional (s) especifica a variabilidade da distribuição
de probabilidades. A Figura 52 representa uma curva da distribuição
normal, também conhecida como Curva de Gauss.

−∞ +∞

Figura 52 – Curva de Gauss.


Fonte: Elaborada pela autora (2013).

A seguir, apresentamos as principais características da Distribuição


Normal de Probabilidades. Vejamos:

• no ponto mais alto da curva normal está a média populacional (m),


que também é a moda e a mediana da distribuição, que é classificada
como unimodal. Assim como vimos na Unidade 11.

www.esab.edu.br 199
• os valores da variável aleatória x mais próximos da média
populacional (m) ocorrem com maior frequência;
• a probabilidade de um valor específico é igual a zero na distribuição
normal;
• a curva da distribuição normal aproxima-se mais do eixo X à medida
que se afasta da média populacional (m) em ambos os lados. Isso
significa que ela se prolonga indefinidamente em quaisquer das
direções, a partir da média populacional (m), mas nunca chega a
tocar o eixo X. Teoricamente os valores possíveis vão de ‒ ∞ a + ∞;
• a área total sob a curva da distribuição normal é igual a 1 ou 100%.
Essa área representa a probabilidade de ocorrência do espaço
amostral (Ω) do experimento que se está analisando. Lembre-se
de que o espaço amostral (Ω) é o conjunto de todos os resultados
possíveis de um experimento aleatório;
• a distribuição normal de probabilidade fica completamente
especificada se conhecemos sua média populacional (m) e seu desvio-
padrão (s), pois existe uma única distribuição normal para cada
combinação de média populacional (m) e desvio-padrão (s);
• a área sob a curva entre dois pontos (intervalo) é a probabilidade de
uma variável normalmente distribuída tomar um valor entre esses
pontos. Os intervalos mais conhecidos são:
• 68,26% dos valores de uma variável aleatória normal estão dentro
de um desvio-padrão positivo ou negativo, com relação à sua
média;
• 95,44% dos valores de uma variável aleatória normal estão dentro
de dois desvios-padrões positivos ou negativos, com relação à sua
média;
• 99,73% dos valores de uma variável aleatória normal estão dentro
de três desvios-padrões positivos ou negativos, com relação à sua
média (LEVIN, 2004).

www.esab.edu.br 200
Na Figura 53, você pode visualizar as áreas correspondentes a esses
desvios-padrões.

68,25%

95,45%
99,73%

x − 3s x − 2 s x − s x x + s x + 2 s x + 3s
Figura 53 – Áreas e desvios-padrões.
Fonte: Adaptada de Bisquerra, Martínez e Sarriera (2004).

Mas como podemos encontrar os valores das probabilidades para as


variáveis quantitativas contínuas? A maneira mais prática de encontrarmos
esses valores é utilizando uma Tabela da Distribuição Normal como, por
exemplo, a Tabela III presente na obra de Bussab e Morettin (2002), e que
será apresentada na unidade seguinte. Para utilizá-la devemos trabalhar
com valores relativos. Assim, teremos que padronizar os valores que a
variável em estudo pode assumir por meio do uso da Distribuição z ou
Escala z, que nos permitirá o uso de apenas uma tabela de probabilidades
para qualquer variável quantitativa contínua.

A Distribuição z ou Escala z é uma distribuição que trabalha com valores relativos


ao invés de com valores reais. Dessa forma é possível obtermos probabilidades
normais utilizando uma só tabela. Essa distribuição toma a média como ponto de
origem e o desvio-padrão como unidade de medida de afastamento.

www.esab.edu.br 201
A Distribuição z é também conhecida como distribuição normal
padrão, tem média zero (m = 0), e desvio-padrão igual à unidade (s =
1). Qualquer distribuição normal com média populacional (m) e desvio-
padrão (s) conhecidos pode ser transformada (relativizada) e expressa
em termos de z para efeitos de cálculos das suas probabilidades. Para essa
transformação, exprimimos a diferença entre a média populacional e
outro valor da distribuição normal original, e expressamos esse valor em
números de desvios-padrões a contar da média populacional (m). Esse
processo é traduzido matematicamente pela equação a seguir:

x−µ
z=
s
Em que:

• z = número de desvios-padrão a contar da média;


• x = valor desejado (valor a padronizar);
• m = média da distribuição normal ou média populacional;
• s = desvio-padrão da distribuição normal.
Os valores padronizados z podem assumir valores negativos ou positivos
quando calculados utilizando a fórmula anterior. Um valor de z com
sinal negativo significa que o valor da variável x é inferior ao da média
populacional (m), e um valor de z com sinal positivo significa que o valor
da variável x é superior ao da média populacional (m).

Para podermos utilizar adequadamente as tabelas de Distribuição Normal


Padrão, devemos arredondar o valor de z calculado por meio da equação
x−µ
z= para duas casas decimais após a vírgula.
s

www.esab.edu.br 202
A Figura 54 mostra a relação entre o eixo da variável aleatória x e o eixo
da variável padronizada (eixo z). Verifique que para o valor da média
populacional o valor de z é igual a zero.

σ
x
( µ − 2σ ) ( µ − σ ) µ ( µ + σ ) ( µ + 2σ )

z
−2 −1 0 1 2

Figura 54 – Distribuição z.
Fonte: Elaborada pela autora (2013).

Nesta unidade tivemos a oportunidade de conhecer a distribuição


normal de probabilidade e suas principais características e a distribuição
z, que trabalha com valores relativos em vez de valores reais. Na próxima
unidade apresentaremos alguns exercícios resolvidos sobre Distribuição
Normal de Probabilidade usando a distribuição z.

Fórum
Caro estudante, dirija-se ao Ambiente Virtual de
Aprendizagem da Instituição e participe do nosso
Fórum de discussão. Lá você poderá interagir com
seus colegas e com seu tutor de forma a ampliar,
por meio da interação, a construção do seu
conhecimento. Vamos lá?

www.esab.edu.br 203
32 Exercícios resolvidos

Objetivo
Apresentar exercícios resolvidos de distribuição normal.

Nesta unidade usaremos os conhecimentos adquiridos na unidade 31 para


solucionarmos exercícios sobre a Distribuição Normal de Probabilidades,
utilizando a Distribuição z, que nos permitirá o uso de apenas uma tabela
de probabilidades para qualquer variável quantitativa contínua.

Dessa forma, quando temos um problema de distribuição normal


para resolver, a primeira parte da solução consiste em entender o que
o problema pede e expressar matematicamente o intervalo solicitado
em termos da variável aleatória x, ou construir o gráfico salientando o
intervalo solicitado. A segunda parte é expressar o intervalo desejado de
probabilidade na escala z padrão, ou seja, calcular o valor de z usando a
x−µ
fórmula z = com duas casas decimais. E a última parte consiste
s
em obter as probabilidades usando a Tabela 71 de Distribuição Normal
Padrão de Bussab e Morettin (2002) que veremos a seguir.

www.esab.edu.br 204
Tabela 71 – Distribuição Normal Padrão.

www.esab.edu.br 205
Fonte: Bussab e Morettin (2002, p. 497).

Em qualquer tabela de distribuição normal padronizada, os valores de


z são apresentados com duas casas decimais. Então, caso o resultado
apresente mais de duas casas decimais, pedimos a você para arredondar z
para duas casas decimais.

Observe a Tabela 71 de Distribuição Normal Padrão e verifique que


na lateral esquerda você encontrará o valor inteiro de z e sua primeira
decimal. Na parte superior da tabela você verá a segunda casa decimal de
z e por essa razão os valores vão de 0 a 9.

Vamos resolver um exercício para você se familiarizar com o cálculo


da probabilidade de ocorrência da distribuição normal e com o uso da
Tabela de Distribuição Normal Padrão.

Exercício 1

Podemos dizer que o número de horas semanais que mulheres gastam


em academias é normalmente distribuído, com média de cinco horas
e desvio-padrão de uma hora. Para uma mulher selecionada ao acaso,

www.esab.edu.br 206
obtenha a probabilidade de o número de horas gastas em academia ser
inferior ou igual a 2,5 horas semanais.

Solução

Primeira parte: entender o que o problema pede e expressar


matematicamente o intervalo solicitado em termos da variável aleatória x:
p (x ≤ 2,5).

Segunda parte: expressar o intervalo desejado de probabilidade na escala


z padrão e calcular o valor de z.

Sabendo que m = 5 e s = 1, precisamos expressar o limite do intervalo


pedido na escala z padrão. Assim devemos expressar x = 2,5 horas na
escala z aplicando a fórmula

x−µ 2,5 − 5,0


z= = = −2,5
s 1

Concluímos então que p (x ≤ 2,5) = p (z < ‒ 2,5), porém ainda não


conhecemos o valor dessa probabilidade.

Terceira parte: para identificarmos o valor da probabilidade, usaremos


a Tabela 71. Encontre na primeira coluna a casa inteira e a primeira
casa decimal de z, ou seja, o valor 2,5. Como z sempre é expresso
com duas casas decimais, a segunda casa decimal 0 será encontrada na
segunda coluna da Tabela 71. O valor da probabilidade será encontrado
na intersecção da linha do valor 2,5 com a coluna de valor 0, ou seja,
0,49379, que arredondada para quatro casas decimais é 0,4938.

Assim, a probabilidade de o número de horas gastas em academia ser


inferior ou igual a 2,5 horas semanais é igual a 0,4938 ou 49,38%, ou p
(x ≤ 2,5) = p (z < ‒ 2,5) = 0,4938.

Note que a Tabela de Distribuição Normal Padrão foi construída de


acordo com a Figura 55.

www.esab.edu.br 207
Φ( z )

z
0 zc

Figura 55 – Área de construção da Tabela de Distribuição Normal Padrão.


Fonte: Bussab e Morettin (2002, p. 178).

Agora vamos ver como se calcula a probabilidade para alguns intervalos


mais comuns usando o exemplo dos autores Bussab e Morettin
(2002). No exemplo, o valor de z foi escolhido pelos autores de forma
aleatória. Fique atento ao intervalo para o qual está sendo solicitada a
probabilidade.

A B

z z
0 1,73 −1,73 0 1,73

z
0, 47 1,73
Figura 56 – Cálculo de probabilidades.
Fonte: Bussab e Morettin (2002, p. 178).

www.esab.edu.br 208
Vamos aprender a usar a Tabela 71 utilizando como referência os valores
de z da Figura 56, extraída de Bussab e Morettin (2002).

Passo 1

Considere que se deseja encontrar o valor da probabilidade de ocorrência


de um valor de z menor ou igual a 1,73. Esse valor será retirado
diretamente da Tabela de Distribuição Normal Padrão (Tabela 71),
apresentada anteriormente, usando o seguinte procedimento. Na tabela,
encontre na primeira coluna a casa inteira e a primeira casa decimal de z,
ou seja, o valor 1,7. Como z sempre é expresso com duas casas decimais,
a segunda casa decimal 3 será encontrada na quarta coluna da Tabela
71. O valor da probabilidade será encontrado na intersecção da linha do
valor 1,7 com a coluna de valor 3, ou seja, 0,45818, que arredondada
para quatro casas decimais é 0,4582.

Passo 2

Agora queremos encontrar o valor da probabilidade de ocorrência de um


valor de z variando entre ‒1,73 e zero.

O valor encontrado é o mesmo, porque a curva é simétrica ao valor da


média, portanto as áreas são iguais. Assim, podemos escrever que p (z ≤ ‒
1,73) = p (z ≥ 1,73) = 0,4582.

Passo 3

Nesta situação desejamos conhecer a probabilidade de o valor de z variar


entre 0,47 e 1,73. Devemos encontrar a probabilidade para o valor de z
igual a 0,47. O valor dessa probabilidade é igual a 0,1808 e foi obtido
da intersecção da linha 0,4 com a coluna de valor 7 da Tabela 71. Já
sabemos o valor da probabilidade para z menor ou igual a 1,73, que é
igual a 0,4582. Agora podemos calcular a probabilidade desejada, porque
já temos todos os valores necessários. Veja na expressão a seguir como
encontrar o valor da probabilidade solicitada.

www.esab.edu.br 209
p (0, 47 ≤ z ≤ 1, 73)= p (0 ≤ z ≤ 1, 73) − p (0 ≤ z ≤ 0, 47)=
= 0, 4582 − 0,1808 = 0, 2774
A probabilidade para z variando entre os valores 0,47 e 1,73 é igual a
0,2774.

Passo 4

Essa possibilidade não consta na Figura 56, mas é importante você


aprender como encontrar a probabilidade para um valor de z maior ou
igual a 1,73. Nesse caso, vamos subtrair da área da metade da Curva
de Gauss (área tabelada) o valor da probabilidade para um valor de z
variando entre zero e 1,73, conforme você visualiza na expressão a seguir:

p ( z ≥ 1, 73) =0,50 − p (0 ≤ z ≤ 1, 73) =


=0,50 − 0, 4582 = 0,0418.

Como uma das características da distribuição normal é ser simétrica


em torno da média, a área à esquerda da média contém 50% das
probabilidades, e é igual à área à direita. Assim, 0,50 representa a área da
metade da curva. Tente encontrar esses valores na Tabela 71.

Nesta unidade solucionamos exercícios usando a Distribuição z, que


nos permite usar apenas uma tabela de probabilidades para qualquer
variável quantitativa contínua, e ainda visualizamos a utilização da tabela
de Distribuição Normal Padrão de Probabilidades. Na próxima unidade
veremos que a distribuição normal de probabilidades pode ser usada
como uma aproximação da Distribuição Binomial de Probabilidades.

www.esab.edu.br 210
33 Aproximação normal à binomial
Objetivo
Determinar a medida de aproximação do modelo de distribuição
normal para o modelo de distribuição binomial.

Na unidade 31 você estudou a distribuição normal de probabilidades e


como obter o valor da probabilidade utilizando a Distribuição z e a Tabela
de Distribuição Normal Padrão. Na unidade 32 tivemos a oportunidade
de acompanhar alguns exercícios resolvidos sobre esse assunto. Nesta
unidade estudaremos como a distribuição normal de probabilidades
pode ser aproximada da distribuição binomial de probabilidades, a saber,
quando os experimentos aleatórios binomiais possuírem amostras grandes.
Usaremos como base o livro de Levin (2004).

Inicialmente, você deve saber que para fazermos a aproximação do


modelo de distribuição normal ao modelo de distribuição binomial
algumas condições devem ser satisfeitas. São elas:

a. tamanho de amostra grande (n ≥ 30);


b. proporção (p) não muito próxima de 0 (zero) ou de 1 (um);
c. np ≥ 5;
d. nq ≥ 5 ou n(1 ‒ p) ≥ 5.
Se uma dessas condições não for satisfeita, não poderemos fazer a
aproximação.

Para obtermos os valores de média populacional (m) e do desvio-padrão


(s) da distribuição normal de probabilidades usaremos as seguintes
fórmulas:
µ = np
s2 =
np (1 − p ) ou s =np (1 − p )

www.esab.edu.br 211
Lembre-se de que na unidade 28 você estudou a distribuição binomial
e que esse tipo de modelo probabilístico é usado em situações em que
observamos a presença (ou a ausência) de alguma característica (variável)
da população estudada. Normalmente, o interesse está no número
absoluto ou na percentagem de elementos da população que possuem a
característica em estudo.

Vamos apresentar, a seguir, um exemplo para que você entenda como


fazer a aproximação da distribuição normal à binomial.

Exemplo 1

Em um determinado município, a população foi consultada sobre a


realização de um projeto de infraestrutura a ser realizado pela Prefeitura
Municipal. Na pesquisa realizada, com uma amostra aleatória de 50
moradores, obteve-se que 40% eram favoráveis à realização desse projeto.
Com base nessas informações:

a. informe o valor da média populacional e do desvio-padrão;


b. calcule a probabilidade de ocorrência de 25 ou mais pessoas serem
favoráveis ao projeto.

Solução

Primeiramente, devemos verificar se o experimento é binomial. Como


temos n (50) ensaios e para cada ensaio apenas dois resultados possíveis
(favorável ou não favorável), além de os ensaios serem independentes
entre si (a resposta de uma pessoa não interfere na resposta de outra
pessoa), estamos trabalhando com um experimento binomial.

Agora devemos verificar se as condições necessárias são satisfeitas. Veja.

a. Tamanho de amostra grande (n ≥ 30) → No exemplo: n = 50.


b. Proporção (p) não muito próxima de 0 (zero) ou de 1 (um) →
No exemplo: p = 40% ou 0,4.

www.esab.edu.br 212
c. np ≥ 5. Substituindo os valores da fórmula pelos valores do exemplo,
temos: 50 × 0,4 = 20,0 → satisfaz, pois é maior do que 5.
d. n(1 ‒ p) ≥ 5. Substituindo os valores da fórmula pelos valores do
exemplo, temos: 50 (1 ‒ 0,4) = 50 × 0,6 = 30,0 → satisfaz, pois
é maior do que 5.
Como todas as condições foram satisfeitas, podemos usar as fórmulas
=µ np=
es np (1 − p ) para calcular a média e o desvio-padrão:

µ = n ⋅ p = 50 ⋅ 0, 4 = 20
s= np(1 − p )= 50 × 0, 4 × (1 − 0, 4)=
= 20 × 0, 6 = 12 = 3, 46

Logo, a média populacional (m) é igual a 20,0 e o desvio-padrão (s) é 3,46.

Para calcular a probabilidade de ocorrência de 25 ou mais pessoas serem


favoráveis ao projeto, primeiro devemos encontrar o valor padronizado z:

x − µ 25 − 20
=z = = 1, 45
s 3, 46

Com o valor de z = 1,45 você deve buscar na Tabela 71 da unidade 32 o


valor da probabilidade de ocorrência. Encontre na primeira coluna a casa
inteira e a primeira casa decimal de z, ou seja, o valor 1,4; a segunda casa
decimal 5 será encontrada na sétima coluna da Tabela 71. O valor da
probabilidade será encontrado na intersecção da linha do valor 1,4 com
a coluna de valor 5, ou seja, 0,42647, que arredondada para quatro casas
decimais é 0,4265.

Assim, a probabilidade de ocorrência de 25 ou mais pessoas serem


favoráveis ao projeto é igual a 0,4265 ou 42,65%.

Agora vamos resolver juntos mais um exemplo de aproximação da


distribuição normal à binomial.

www.esab.edu.br 213
Exemplo 2

Imagine que realizamos uma pesquisa com uma amostra aleatória de 45


pessoas sobre a liberação de cotas para ingresso nas universidades federais
para índios. Como resultado, obtivemos que 55% são favoráveis a essa
liberação. Informe a probabilidade de que 30 pessoas sejam favoráveis à
liberação das cotas.

Estamos trabalhando com um experimento binomial, pois temos apenas


duas opções de resposta (favorável ou não favorável). Como fizemos a
pesquisa de opinião com 45 pessoas temos uma amostra grande (n ≥ 30),
e a resposta de uma pessoa não interfere na resposta de outra, assim, os
ensaios são independentes entre si.

Vamos verificar se as condições anteriormente apresentadas são satisfeitas.

a. Tamanho de amostra grande (n ≥ 30) → No exemplo, n = 45.


b. Proporção (p) não muito próxima de 0 (zero) ou de 1 (um) →
No exemplo, p = 55% ou 0,55.
c. np ≥ 5. Substituindo os valores na fórmula pelos valores do exemplo,
temos: 45 × 0,55 = 24,75 → satisfaz, pois é maior do que 5.
d. n(1 ‒ p) ≥ 5. Substituindo os valores do exemplo na fórmula temos:
45 (1 – 0,55) = 45 × 0,45 = 20,25 → satisfaz, pois é maior do
que 5.
Como todas as condições foram satisfeitas, podemos usar as fórmulas
=µ np = es np(1 − p ) para calcular a média e o desvio-padrão.
Então, temos:

µ = n ⋅ p = 45 ⋅ 0,55 = 24,75

s = n ⋅ p(1 − p ) = 45 ⋅ 0,55(1 − 0,55) =


= 24,75 ⋅ 0, 45= 11,1375= 3,34

www.esab.edu.br 214
Logo, a média populacional (m) é igual a 24,75 e o desvio-padrão (s) é 3,34.

Para calcular a probabilidade de ocorrência de 30 ou mais pessoas


favoráveis ao sistema de cotas, em primeiro lugar, devemos encontrar o
valor padronizado z. Veja:

x − µ 30,0 − 24, 75 5, 25
=z = = = 1,57
s 3,34 3,34

Com o valor de z = 1,45 você deve buscar na Tabela de Distribuição


Normal Padrão (Tabela 71) o valor da probabilidade de ocorrência.
Encontre na primeira coluna a casa inteira e a primeira casa decimal
de z, ou seja, o valor 1,5; a segunda casa decimal 7 será encontrada na
sétima coluna da Tabela 71. O valor da probabilidade será encontrado
na intersecção da linha do valor 1,5 com a coluna de valor 7, ou seja,
0,44179, que arredondado para quatro casas decimais é 0,4418. Observe
a Tabela 72.

www.esab.edu.br 215
Tabela 72 – Distribuição Normal Padrão.

Fonte: Bussab e Morettin (2002, p. 497).

Veja que a probabilidade de ocorrência de 30 ou mais pessoas serem


favoráveis às cotas para ingresso de índios nas universidades federais é
igual a 0,4418 ou 44,18%.

Nesta unidade estudamos como se pode calcular a probabilidade de


um evento binomial usando a distribuição normal de probabilidades.
Na próxima unidade veremos como os conceitos de amostragem, já
estudados nas unidades 3 e 4, se relacionam com o conceito de inferência
estatística.

www.esab.edu.br 216
Amostragem e inferência
34 estatísticas
Objetivo
Apresentar os conceitos de amostragem e inferência estatísticas.

Na unidade anterior vimos como utilizar a distribuição normal de


probabilidade para encontrar a probabilidade de ocorrência de um evento
binomial quando temos uma amostra grande. Nesta unidade vamos
aprofundar os conhecimentos que você adquiriu nas unidades 3 e 4. Na
unidade 3 você estudou a diferença entre amostragem aleatória e não
aleatória, o método de amostragem aleatória simples, como calcular o
tamanho de amostra e o erro amostral. Na unidade 4 foram apresentados
outros tipos de amostragem aleatória: amostragem estratificada
proporcional, amostragem sistemática e amostragem por conglomerados.
Seria interessante você voltar àquelas unidades para rever os conteúdos lá
apresentados. As concepções de Bussab e Morettin (2002) fundamentam
teoricamente esta unidade.

Inicialmente, vamos rever alguns conceitos adquiridos nas unidades 3 e 4


e que irão nos acompanhar nesta unidade e nas unidades seguintes.

• Amostragem: é um processo por meio do qual se retira uma amostra (parte)


de uma população (todo).
• População: é um conjunto de elementos que possuem pelo menos um atributo
(característica) em comum.
• Amostra: é um subconjunto finito da população, ou seja, é uma parte da
população estudada.
• Atributo: é uma característica dos elementos da população; é a variável em
estudo.
• Inferência: é a ação de generalizar o resultado obtido na amostra para a
população.

www.esab.edu.br 217
Para exemplificarmos esses conceitos, selecionamos um texto. Leia-o com
atenção!

Em uma pesquisa realizada em um curso de graduação X, os alunos


matriculados nele constituem a população da pesquisa por possuírem um
atributo em comum, a saber, todos estão matriculados no curso.

Uma amostra poderia ser a turma regular do quarto semestre do curso,


que foi escolhida através de um processo de amostragem não aleatório.
No decorrer da unidade veremos os tipos de amostragem que podem
ser utilizados em nossas pesquisas. Na pesquisa com a turma do quarto
semestre, obteve-se que 45% estão satisfeitos com a infraestrutura da
biblioteca do campus. Assim, podemos dizer que 45% de todos os
alunos matriculados no curso de graduação X estão satisfeitos com a
infraestrutura da biblioteca do campus. Fizemos uma inferência, ou seja,
generalizamos o resultado obtido com os entrevistados da turma do
quarto semestre para todos os alunos do curso. O atributo pesquisado foi
a satisfação com a infraestrutura da biblioteca do campus.

Os processos de amostragem podem ser subdivididos em processos


aleatórios e não aleatórios, conforme você estudou na unidade 3.
Relembre que os processos aleatórios são aqueles nos quais utilizamos
uma Tabela de Números Aleatórios para identificar os participantes de
nossa amostra. Essa tabela pode ser gerada em seu computador ou você
pode utilizar uma tabela formatada por um autor – veja a Tabela VII de
Bussab e Morettin (2002, p. 502).

Já nos processos não aleatórios nenhuma tabela é utilizada; nesse caso,


com base em critérios preestabelecidos (por exemplo, faixa etária, sexo,
profissão etc.) o pesquisador é quem faz a escolha dos participantes da
amostra.

Normalmente as populações são muito grandes e se torna necessário


trabalhar com um processo de amostragem para se determinar uma
amostra de um tamanho (n) possível de se manipular, de forma que a
partir dos resultados obtidos com o auxílio dessa amostra possamos fazer
uma inferência (tirar conclusões) com relação à população em estudo.

www.esab.edu.br 218
Como você pode perceber, é muito difícil obtermos dados de algum
atributo de uma determinada população. Portanto, buscamos esses
dados sempre partindo de uma amostra selecionada por meio de algum
dos métodos vistos nas unidades 3 e 4: amostragem aleatória simples,
amostragem estratificada proporcional, amostragem sistemática e
amostragem por conglomerados.

Em Bussab e Morettin (2002, p. 256) encontramos o seguinte


exemplo acerca de quando se deve fazer uma inferência: “[...] se
estivéssemos observando a durabilidade de lâmpadas e testássemos
todas até queimarem, não restaria nenhuma para ser vendida. Assim, a
solução é selecionar parte dos elementos (amostra), analisá-la e inferir
propriedades para o todo (população)”. Nesse sentido, o setor de
qualidade de uma fábrica de lâmpadas escolherá algumas das lâmpadas
fabricadas (amostra), usando um método de amostragem (o que for mais
conveniente) para realizar o teste de durabilidade. Dessa forma, somente
algumas lâmpadas dentre todas as fabricadas num determinado período
(amostra) participarão do teste.

O resultado do teste, porém, será generalizado para todas as lâmpadas


fabricadas (população) nesse determinado período. Por exemplo, se
as lâmpadas testadas permaneceram funcionando ininterruptamente
por 2.000 h, pode-se afirmar que todas as lâmpadas fabricadas terão
durabilidade de 2.000 h. Fez-se uma inferência, uma generalização do
resultado obtido com a amostra para a população. Nesse exemplo o
atributo pesquisado foi a durabilidade da lâmpada.

Outro exemplo, também retirado de Bussab e Morettin (2002), trata


de uma máquina de encher automaticamente pacotes de café de 500
gramas. Essa máquina está regulada para que cada pacote de café possua
em média 500 gramas de café com um desvio-padrão de 100 gramas
(segundo o exemplo dos autores, porém na realidade esse desvio-padrão
está muito grande).

Com o uso continuado essa máquina pode desregular-se, ou seja, ela


passa a encher os pacotes com quantidades menores ou maiores do que
a média de 500 gramas para a qual foi programada, mas mantendo o
mesmo desvio-padrão (100 gramas).

www.esab.edu.br 219
Para que possamos regular a máquina, necessitamos saber como ela está
se comportando na realidade. Para descobrir, retiraremos uma amostra de
pacotes de café (de tamanho n), usando algum método de amostragem
(por exemplo, amostragem aleatória sistemática). Vamos pesar todos os
pacotes participantes da amostra para ver se a média está variando para
baixo (diminuindo) ou para cima (aumentando).

Vamos admitir que verificamos na amostra selecionada que a média de


peso dos pacotes de café é igual a 490 gramas com um desvio-padrão de
100 gramas. Em posse dos dados obtidos com essa amostra, podemos
fazer uma inferência, ou seja, admitir que todos os pacotes de café
embalados por essa máquina possuem em média 490 gramas com um
desvio-padrão de 100 gramas.

Tendo em vista o resultado obtido com a amostra e que a média desejada


é de 500 gramas por pacote, podemos afirmar que não é necessário
modificar a regulagem da máquina de empacotar café dessa empresa.

Esse processo inferencial é muito importante nas análises estatísticas que


veremos mais adiante nessa disciplina, como nos processos de Estimação
(unidade 36) e nos Testes de Hipóteses (unidade 40), por isso, fixe bem
os conceitos apresentados nesta unidade.

Na unidade seguinte veremos as Distribuições Amostrais para a Média


e para a Proporção, que também servirão de base para os estudos de
Estimação.

www.esab.edu.br 220
Para sua reflexão
Reflita sobre as seguintes questões: Porque
é necessário se ter uma amostra aleatória no
momento em que se deseja fazer uma pesquisa
científica? Porque os participantes da amostra
podem mudar, quando se retira duas ou mais
amostras de uma mesma população?
A resposta a essa reflexão faz parte de seu
processo de aprendizagem, que é individual,
assim não precisa ser comunicada ou enviada aos
tutores. Busque no material teórico apresentado
nessa unidade e a unidade 3 as respostas às
questões acima.

www.esab.edu.br 221
35 Distribuições amostrais

Objetivo
Determinar as distribuições amostrais da média e da proporção.

Na unidade 34 vimos a relação entre Amostragem e Inferência


Estatística. Nesta unidade veremos como se comportam as Distribuições
Amostrais para a Média e para a Proporção. Usaremos as obras de
Bussab e Morettin (2002) e de Levin (2004) para embasar os novos
conhecimentos aqui apresentados. Esses conhecimentos serão necessários
quando formos estudar o tema Estimação, na Unidade 36.

Vamos explicar através de um exemplo: suponha uma determinada


população composta por 100 pessoas. Se retirarmos uma amostra aleatória
de 10 pessoas, podemos calcular a média da variável em estudo (por
exemplo, idade), com base nos dados coletados dessas 10 pessoas. O valor
obtido seria a nossa média amostral (ou a média dos valores da amostra).

Mas pense bem: caso retirássemos outra amostra aleatória da mesma


população de 100 pessoas, podemos ter nessa amostra as mesmas 10
pessoas, como também podemos ter 10 pessoas diferentes. Assim, o
resultado da média amostral dessa segunda amostra seria diferente do
primeiro resultado obtido com a primeira amostra selecionada. Logo,
pode-se concluir que em uma mesma população existem diferentes
grupos (amostras) de 10 pessoas, que podem ser retirados dessa
população e, em consequência, teremos diferentes médias amostrais, uma
para cada grupo (amostra).

A esse fato chamamos em Estatística de variabilidade amostral, ou


seja, existem várias amostras relacionadas com uma determinada
população. Os modelos de distribuição de probabilidades (por exemplo,
a distribuição normal de probabilidades, já estudada na unidade 31) são
ferramentas para se estudar a variabilidade amostral, porém as amostras
devem ser aleatórias.

www.esab.edu.br 222
É por causa da variabilidade amostral que a estimação de um parâmetro
populacional com base na estatística amostral não é exata e que sempre
existirá um erro nesse processo de estimação, chamado de erro amostral
(E0 ). Estudaremos o que é estimação na Unidade 36, mas antes
precisamos entender o que é uma distribuição amostral.

Distribuição Amostral é a distribuição das probabilidades de uma


estatística da amostra, formada por várias amostras de mesmo tamanho
(n), retiradas repetidamente de uma população. Se para cada uma delas
se calcular um valor da estatística, tem-se uma distribuição amostral dessa
estatística, que pode ser a média ou o desvio-padrão.

Vamos estudar, a seguir, como encontrar a distribuição amostral da média.

35.1 Distribuição amostral da média


Quando temos a média como estatística da amostra, dizemos que temos
uma distribuição amostral das médias das amostras.

As propriedades da distribuição amostral das médias das amostras são:

a. a média das médias da amostra (mx ) é igual à média da população (m);


b. o desvio-padrão das médias das amostras (sx ) é igual ao desvio-
padrão populacional (s) dividido pela raiz quadrada de n, ou seja,
1
sx = em que n = tamanho da amostra.
n

O desvio-padrão das médias das amostras (sx ) também é chamado de


erro-padrão da média.

Acompanhe o exemplo a seguir, onde se mostra como calcular a média da


distribuição amostral e o desvio-padrão da distribuição amostral das médias.

www.esab.edu.br 223
Exemplo

Suponha que uma população seja constituída pelos números: 1, 2, 3 e 4.


Considere todas as amostras possíveis de tamanho igual a 2 que podem
ser extraídas dessa população com reposição; depois determine a média
e o desvio-padrão da população, a média da distribuição amostral e o
desvio-padrão da distribuição amostral das médias.

Vamos começar a fazer os cálculos.

Passo 1

Iniciemos pelo cálculo da média populacional (m):

n 4

∑X
i ∑X i
1 + 2 + 3 + 4 10
=x =
=i 1 =i 1
= == 2,5
n n 4 4

podemos afirmar que a m = 2,5.

Passo 2

Agora vamos calcular o desvio-padrão da população (s),

1 1
∑ − ( ∑ xi ) =
2
s
= xi2 .(30 − 25)
=
n  4
1 5
= =
.(5) = 1, =
25 1,1180
4 4

podemos afirmar que s = 1,1180.

www.esab.edu.br 224
Passo 3

Faremos, a seguir, o cálculo da média da Distribuição Amostral.


Para isso, devemos montar uma memória de cálculo com todas as
combinações possíveis de amostras de tamanho igual a 2 da população
em estudo e com a sua respectiva média.

Vamos relembrar que a nossa população é composta pelos números: 1,


2, 3 e 4. Assim, devemos fazer todas as combinações compostas por 2
elementos possíveis com esses quatro números. Para cada combinação,
vamos calcular a sua média aritmética. Veja na Tabela 73 essas
combinações e suas médias.

Tabela 73 – Cálculo da média da Distribuição Amostral.


AMOSTRA MÉDIA AMOSTRA MÉDIA
1, 1 1 3, 1 2
1, 2 1,5 3, 2 2,5
1, 3 2 3, 3 3
1, 4 2,5 3, 4 3,5
2, 1 1,5 4, 1 2,5
2, 2 2 4, 2 3
2, 3 2,5 4, 3 3,5
2, 4 3 4, 4 4

Fonte: Elaborada pela autora (2013).

Aplicando a mesma fórmula, vista anteriormente para o cálculo da


média populacional (m), usaremos os valores das médias das amostras
para substituir no somatório de (Xi ). Assim, encontraremos a média da
distribuição amostral ( µ x ). Temos que:

n 16

i ∑X ∑X i
µ
= = =
=i 1 =i 1
x
n 16
1 + 1,5 + 2 + 2,5 + 1,5 + 2 + 2,5 + 3 + 2 + 2,5 + 3 + 3,5 + 2,5 + 3 + 3,5 + 4
=
16
40
= = 2,5
16

www.esab.edu.br 225
Em que µ x = média da distribuição amostral das médias da amostra.
Veja que a média da Distribuição Amostral das Médias é igual à
média populacional, conforme a primeira propriedade apresentada
anteriormente.

Passo 4

Para calcular o desvio-padrão da Distribuição Amostral das Médias,


teremos que ampliar nossa memória de cálculo adicionando o valor da
média da amostra ao quadrado. Isso é necessário para podermos fazer as
substituições na fórmula de cálculo do desvio-padrão.

Tabela 74 – Cálculo do desvio-padrão da Distribuição Amostral das Médias.

AMOSTRA MÉDIA ( xi ) MÉDIA2 ( xi2 ) AMOSTRA MÉDIA ( xi ) MÉDIA2 ( xi2 )


1, 1 1 1 3, 1 2 4
1, 2 1,5 2,25 3, 2 2,5 6,25
1, 3 2 4 3, 3 3 9
1, 4 2,5 6,25 3, 4 3,5 12,25
2, 1 1,5 2,25 4, 1 2,5 6,25
2, 2 2 4 4, 2 3 9
2, 3 2,5 6,25 4, 3 3,5 12,25
2, 4 3 9 4, 4 4 16

Fonte: Elaborada pela autora (2013).

Veja que:

∑x i =1 + 1,5 + 2 + 2,5 + 1,5 + 2 + 2,5 +


+ 3 + 2 + 2,5 + 3 + 3,5 + 2,5 + 3 + 3,5 + 4 =40

∑x i
2
=
1 + 2, 25 + 4 + 6, 25 + 2, 25 + 4 + 6, 25 + 9 +
+ 4 + 6, 25 + 9 + 12, 25 + 6, 25 + 9 + 12, 25 + 16 =
110

www.esab.edu.br 226
1  ( ∑ ) 
2
x 1  402 
∑ xi − n =
i
s= 2
110 − =
16  16 
x
n
 
1  1600 
= 110 −
16  16 

1 10
sx = [110 − 100] = = 0, 625 = 0, 7905
16 16
s
Poderíamos ter aplicado a fórmula s x = .
n

s 1,1180 1,1180
s
= x = = = 0, 7905
n 2 1, 4142
Note que chegamos ao mesmo resultado e confirmamos a segunda
propriedade da Distribuição Amostral das Médias.

35.2 Distribuição amostral de uma proporção


Algumas vezes é mais interessante trabalhar com a proporção do que
com a média, como, por exemplo, quando precisamos saber se um
determinado cliente deseja comprar ou não certo produto.

Dica
Verifique que como só temos duas respostas
possíveis (comprar ou não comprar), estamos
trabalhando com uma distribuição binomial,
estudada na unidade 28.

Nesse caso, o nosso interesse está na proporção amostral (p) que é


utilizada para estimar a proporção populacional e é representada pelo
parâmetro p.

www.esab.edu.br 227
Quando temos a proporção como estatística da amostra, dizemos que
temos uma distribuição amostral da proporção. Assim, a distribuição
amostral da proporção é a distribuição de probabilidade de todos os
valores possíveis da proporção da amostra (p).

O processo de distribuição amostral para proporção é o mesmo que


o de distribuição amostral para a média. Ou seja, devemos retirar da
população em estudo diferentes amostras de um mesmo tamanho e cada
uma dessas amostras terá a sua proporção de “sucessos” (p). Entende-se
por “sucesso” a obtenção de uma resposta favorável à variável em estudo.

Para definir a proporção amostral (p), usaremos a fórmula apresentada


por Bussab e Morettin (2002) adaptada às nossas notações:

k
p=
n
Em que k é o número total de sucessos e n o tamanho da amostra.

Seguindo o mesmo raciocínio apresentado para a distribuição amostral


da média, vamos estudar as propriedades da distribuição amostral da
proporção.

a. O valor esperado (ou a média) da distribuição amostral da proporção


é obtido pela fórmula:

=
E ( p) ∑
=
p
p
k

Na qual:

• E(p) = valor esperado da distribuição amostral da proporção;


• p = proporção de “sucessos”.
Verifique que a fórmula mostrada anteriormente se assemelha à fórmula
da média aritmética ( x ), substituindo os valores da variável em estudo
(xi ) por p e o tamanho da amostra (n) por k.

www.esab.edu.br 228
b. O desvio-padrão das proporções das amostras (sp ) é obtido pela
(p )(1 − p ) ( p )(1 − p )
=
fórmula: sp = e a variância por
n n
p (1 − p )
p(1 − p )
=s2 =
n n
Em que: n é o tamanho da amostra e p a proporção populacional
(parâmetro)

O desvio-padrão das proporções das amostras (sp ) também é chamado


de erro-padrão da proporção.

Vamos acompanhar um exemplo para que você possa entender como


encontrar a distribuição amostral da proporção.

Exemplo

Um dono de um pequeno negócio perguntou aos seus quatro funcionários


se eles estavam satisfeitos com a nova escala de trabalho, respondendo “sim”
ou “não” em um formulário. Os funcionários 1 e 4 responderam “sim”
e os funcionários 2 e 3 responderam “não”. Considere todas as amostras
possíveis de tamanho igual a 2 que podem ser extraídas dessa população
com reposição. Em seguida, determine o valor esperado da distribuição
amostral da proporção e o desvio-padrão das proporções das amostras.

Solução

Primeiro, lembre-se de que estamos trabalhando com uma variável


aleatória que tem um comportamento binomial, pois só existem duas
respostas possíveis - sim ou não. Logo, a proporção da população (p) é
igual a 0,50. Considere a resposta “sim” como um “sucesso” e a resposta
“não” como um “fracasso”.

Vamos construir uma memória de cálculo com todas as combinações


possíveis de amostras de tamanho igual a 2 da população em estudo, com
o “número de sucesso” (k) e a respectiva “proporção de sucesso” (p). Veja
a Tabela 75.

www.esab.edu.br 229
Tabela 75 – Memória de cálculo da Distribuição Amostral.
NÚMERO DE PROPORÇÃO DE SUCESSO
AMOSTRA
SUCESSO (k) (p)
S1,N2 1 0,50
S1,N3 1 0,50
S1,S4 2 1,00
N2,N3 0 0,00
N2,S4 1 0,50
N3,S4 1 0,50

_ ∑ p = 3,00
∑k = 6 _

Fonte: Elaborada pelo autor (2013).

Na qual:

• S1 = resposta “sim” do funcionário 1;


• N2 = resposta “não” do funcionário 2;
• N3 = resposta “não” do funcionário 3;
• S4 = resposta “sim” do funcionário 4.
Agora, já podemos calcular o valor esperado da distribuição amostral da
proporção, usando a fórmula:

=
E ( p) ∑=
p 3,00
=
k 6 0,50

Assim, o valor esperado da distribuição amostral da proporção é igual a


0,50. Veja que o valor é igual ao da proporção da população (p).

Para calcular o desvio-padrão das proporções das amostras, usaremos a


seguinte fórmula:

(p )(1 − p )
sp =
n

www.esab.edu.br 230
Na qual p = 0,5 e n = 2, devido à seguinte afirmação presente no
enunciado: “Considere todas as amostras possíveis de tamanho igual a 2”.

( 0,50 )(1 − 0,50 )


=sp =
2
( 0,50 )( 0,50 ) 0, 25
= = = 0,35
2 2

Logo, o desvio-padrão das proporções das amostras é igual a 0,35.

Nesta unidade estudamos como calcular a média e o desvio-padrão,


partindo das Distribuições Amostrais para a Média e para a Proporção.
Esses conceitos serão importantes para você entender o raciocínio das
unidades 36 sobre Estimação e 40 a respeito dos Testes de hipóteses, as
quais serão estudadas mais adiante. Na unidade seguinte, você estudará o
conceito de estimação e suas propriedades.

Tarefa dissertativa
Caro estudante, convidamos você a acessar o
Ambiente Virtual de Aprendizagem e realizar a
tarefa dissertativa.

www.esab.edu.br 231
Estimação: conceitos e
36 propriedades
Objetivo
Introduzir os conceitos e propriedades de estimação estatística.

Na unidade 35 estudamos a Distribuição Amostral para a média e para


a proporção. Nesta unidade você estudará que por meio do processo de
estimação generalizamos (inferimos) os resultados obtidos com os dados
de uma amostra para a população em estudo, utilizando o raciocínio
indutivo. Por exemplo, se de uma amostra de funcionários de uma
empresa concluirmos que 20% deles possuem um curso de especialização
concluído, podemos afirmar que 20% de todos os funcionários dessa
empresa possuem um curso de especialização concluído, com uma
margem de erro (chamado de erro amostral). Usaremos o livro de Bussab
e Morettin (2002) para fundamentar teoricamente esta unidade.

Para que entendamos esse processo precisamos conhecer alguns conceitos


definidos por Bussab e Morettin (2002).

Parâmetro: é alguma característica da população em estudo, por


exemplo, o desvio-padrão de uma variável dentre os elementos da
população.

Estatística: é alguma característica da amostra em estudo, por exemplo,


o desvio-padrão de uma variável que será calculado com os elementos da
amostra.

Estimador: é uma função matemática através da qual se obtém o


valor de uma estatística; é toda a estatística amostral que tem um
correspondente parâmetro na população. Por exemplo: x é um
estimador de m; S é um estimador de s; e assim por diante.

www.esab.edu.br 232
Estimativa: é o valor encontrado com a aplicação do estimador. As
estimativas obtidas podem ser pontuais ou intervalares.

a. Estimativa pontual: o parâmetro é estimado unicamente pelo valor


do estimador.
b. Estimativa intervalar: o parâmetro é estimado através de um
intervalo de valores, no qual o estimador é o seu valor central.
Erro amostral: é a diferença entre o valor da estatística e o valor do
parâmetro.

Lembre que nesta unidade quando nos referirmos à população estaremos


trabalhando com parâmetros e quando trabalharmos com a amostra
vamos nos referir às estatísticas. O processo de estimação pode ser
utilizado para o cálculo de proporções, médias e desvio-padrão. Vamos
ver cada um em particular, iniciando pela proporção.

Vimos anteriormente que, ao fazer a estimação ou inferência


(generalização), sempre incorremos em um erro, chamado de erro
amostral tolerável. Lembra que você estudou na unidade 3 esse assunto?

Dessa forma, precisamos encontrar o erro-padrão. Cada uma das


operações – proporção, média, desvio-padrão – possui erros para calcular.

No processo de estimação representamos o parâmetro de interesse por θ


(theta, por exemplo). Para estimá-lo, extraímos uma amostra de tamanho
n da população e procuramos construir uma função desses valores, ou
seja, uma estatística, tal que seu valor, calculado com base nos dados
amostrais, reflita tão aproximadamente quanto possível o valor do
parâmetro populacional q.

Para calcularmos o valor do parâmetro necessitamos de estimadores, que


devem possuir as propriedades a seguir.

www.esab.edu.br 233
a. Não tendenciosidade.
É razoável exigir que um bom estimador tenha sua distribuição de valores
de algum modo centrado no verdadeiro valor q do parâmetro a ser
estimado E (θˆ) = θ em que θˆ é o estimador de q.

b. Variância mínima.
Entre os estimadores não tendenciosos de q, escolhe-se aquele que tenha
menor variância. Uma medida de variabilidade da distribuição de um
estimador de q é dada por seu desvio-padrão, também chamado, no caso,
erro-padrão de θˆ.

36.1 Estimação de uma proporção


Neste caso devemos ter uma amostra grande e o atributo (variável) em
observação não deve ser raro. Em primeiro lugar, vamos relembrar como
se calcula uma proporção (P). Para encontrarmos uma proporção usa-se a
seguinte fórmula:

k
p=
n
Em que:

• p = proporção;
• k = número de casos de sucesso;
• n = tamanho da amostra.
Vejamos um exemplo para que você compreenda melhor essa definição.

Exemplo 1

De uma amostra de 400 pessoas entrevistadas, 240 são favoráveis à


construção de uma praça no bairro onde moram. Qual é a proporção de
pessoas favoráveis à construção da praça?

www.esab.edu.br 234
Para chegar à proporção solicitada basta dividir a quantidade de pessoas
favoráveis pelo total de pessoas entrevistadas, ou seja,

k 240
p= = = 0, 60 ou 60%.
n 400
Para fazer a estimativa de uma proporção, você deve calcular o erro-
padrão de P, que é determinado pela fórmula:

=
Sp p(1 − p ) / n

Em que:

• Sp : erro-padrão de P;
• p: proporção do atributo;
• n: tamanho da amostra.

Solução

Suponha que 400 pessoas foram entrevistadas para saber se desejavam


que em seu bairro fosse construída uma praça. Dos entrevistados, 240
responderam que são favoráveis à construção de uma praça no bairro
onde moram. Qual é o erro-padrão da proporção de favoráveis à
construção da praça?

Vamos usar a fórmula=


Sp p(1 − p ) / n e substituir os valores:

S p = p(1 − p ) / n = 0, 60(1 − 0, 60) / 400 =0, 0245

Lembre que o valor de p foi calculado anteriormente.

Esse erro (Sp ) nos auxiliará a estimar o valor da proporção na população


aplicando a seguinte fórmula, que nos indica o intervalo de confiança
para a proporção da população:

p ± z .S p

www.esab.edu.br 235
O valor de z é retirado da Tabela da Distribuição Normal de acordo
com o nível de confiança desejado. Veremos na unidade 39 como
encontraremos o Intervalo de Confiança para uma proporção.

36.2 Estimação de uma média


Neste caso temos que levar em conta o tamanho da amostra (n). Se a
amostra for grande (n ≥ 30), usaremos a distribuição normal para estimar
o parâmetro da média populacional (m) a partir da média amostral ( x ),
através da fórmula:
S
Sx
n
Em que:

• Sx : erro-padrão da média amostral;


• S: desvio-padrão da amostra;
• n: tamanho da amostra.
Para realizarmos a estimação da média de uma população e
identificarmos o intervalo de confiança para a média populacional
usaremos a seguinte fórmula:

x ± z ⋅ Sx

Em que: z = valor padronizado.

Quando a amostra for pequena (n < 30), então usaremos a Distribuição


t de Student no lugar da Distribuição Normal. Assim, a diferença está no
indicador que multiplicará o erro-padrão da média amostral. A fórmula
x ± z ⋅ S x será escrita da seguinte forma:

x ± t ⋅ Sx

Em que: t = valor t-Student.

A distribuição t-Student será estudada na unidade 45. Vamos a mais um


exemplo.

www.esab.edu.br 236
Exemplo 2

Em uma escola municipal 100 crianças participaram de um projeto que


servia uma merenda diferenciada. Observou-se que essas crianças tiveram
um ganho médio de peso igual a 6,0 kg por ano, com um desvio-padrão
de 2,0 kg por ano. Com o objetivo de estimar o ganho médio de peso
anual de todos os alunos da escola, calcule a estimativa para o erro-
padrão da média.

Como a questão solicita apenas o cálculo da estimativa do erro-padrão da


média não precisamos no momento nos preocuparmos com o tamanho
da amostra. Vamos usar a fórmula:

S 2,0
=
Sx = = 0,2
n 100

Com esse exemplo finalizamos mais uma unidade. Vimos os principais


conceitos que regem a estimação: parâmetro, estatística, estimador,
estimativa. Também vimos os diferentes tipos de estimativas e
aprendemos a calcular o erro-padrão para a média e para a proporção,
saberes que utilizaremos para construir os intervalos de confiança,
conteúdo a ser estudado na unidade 39.

Atividade
Chegou a hora de você testar seus conhecimentos
em relação às unidades 28 a 36. Para isso, dirija-
se ao Ambiente Virtual de Aprendizagem (AVA) e
responda às questões. Além de revisar o conteúdo,
você estará se preparando para a prova. Bom
trabalho!

www.esab.edu.br 237
Resumo

Na unidade 31 você estudou a Distribuição Normal de Probabilidades,


um modelo probabilístico utilizado para identificarmos as probabilidades
de ocorrência de variáveis aleatórias quantitativas contínuas. Você
aprendeu a Distribuição z, na unidade 32, que permite o uso de
uma só tabela de probabilidades para qualquer variável quantitativa
contínua. Nessa mesma unidade, você também aprendeu a usar a
Tabela de Distribuição Normal Padrão, de Bussab e Morettin (2002),
para resolver os exercícios propostos. Na unidade 33, estudamos que
a distribuição normal de probabilidades pode ser usada como uma
aproximação da distribuição binomial de probabilidades, ou seja, quando
os experimentos aleatórios binomiais possuírem amostras grandes. As
condições que devem ser satisfeitas para se poder fazer essa aproximação
também foram apresentadas nessa unidade.

O conceito de inferência estatística e sua relação com a amostragem


foram apresentados na unidade 34, utilizando exemplos para facilitar
o entendimento. O comportamento das distribuições amostrais para a
média e para a proporção foi estudado na unidade 35. E por último, na
unidade 36, abordamos a Estimação para a média e para a proporção.

www.esab.edu.br 238
Estimadores de mínimos
37 quadrados e máxima
verossimilhança
Objetivo
Determinar os estimadores pelos métodos de mínimos quadrados e
máxima verossimilhança.

Nesta unidade, que está fundamentada teoricamente na obra de Bussab e


Morettin (2002), você estudará as características dos tipos de estimadores
de mínimos quadrados e de máxima verossimilhança. Relembro que
na unidade 36 você estudou que estimador é uma função matemática
através da qual se obtém o valor de uma estatística. Vamos ao estudo dos
estimadores!

Estimadores de mínimos quadrados


Usaremos o exemplo de Bussab e Morettin (2002) para explicar como se
encontra esse tipo de estimador.

Exemplo

Ao pesquisar a resistência Y de uma fibra em função de seu diâmetro


X, um engenheiro notou que as variáveis são aproximadamente
proporcionais, isto é, elas obedecem à relação Y ≈ qX, na qual q é
o coeficiente de proporcionalidade. O engenheiro precisa estimar
o parâmetro q com base em uma amostra de cinco unidades, que,
submetidas à mensuração e testes, produziram os resultados:

X : 1,2 1,5 1,7 2,0 2,6 X = 1,8


y : 3,9 4,7 5,6 5,8 7,0 Y = 5, 4

www.esab.edu.br 239
Comparando os valores de X com os valores de Y, verificamos que os
valores de Y são aproximadamente 3 vezes maiores do que os valores de
X. Assim, podemos concluir que o parâmetro θˆ é igual a 3.

Para verificar se realmente é esse o valor de θˆ, vamos usar um modelo


para prever os valores da variável Y (resistência da fibra) para os dados já
mencionados da variável X (diâmetro da fibra). O modelo será: Yˆ = 3 X .
Por meio desse modelo, encontraremos o estimador de mínimos quadrados.

Organizaremos os dados na forma de uma tabela para melhor visualizá-


los. Veja a tabela a seguir.

Tabela 76 – Análise do modelo Yˆ = 3 X .

X Y 3X Y – 3X (Y – 3X)2
1,2 3,9 3,6 0,3 0,09
1,5 4,7 4,5 0,2 0,04
1,7 5,6 5,1 0,5 0,25
2,0 5,8 6,0 -0,2 0,04
2,6 7,0 7,8 -0,8 0,64
TOTAL 0 1,06

Fonte: Bussab e Morettin (2002, p. 299).

Verifique que os valores da coluna Y ‒ 3X refletem a diferença entre o


valor encontrado pelo modelo aplicado (Yˆ = 3 X ) e os valores coletados
na pesquisa do engenheiro. A coluna (Y ‒ 3X)2 foi utilizada para evitar
o problema de sinal, que zera a soma dos valores. Devemos encontrar
uma estimativa que minimize a soma dos valores do modelo elevados ao
quadrado, que é 1,06 na Tabela 76.

Nosso problema agora é determinar o valor de q que minimize a função:


5
S (θ )
= ∑ (Y
i =1
i − θ X i )2 . Esse valor poderá ser obtido através da seguinte

equação (BUSSAB; MORETTIN, 2002):

www.esab.edu.br 240
5

∑XY i i
θˆ MQ = i =1
5

∑X i =1
i
2

O resultado dessa equação nos dará o valor do estimador de mínimos


quadrados para o parâmetro θˆ, no qual θˆMQ é o estimador de mínimo
quadrado.

Usamos sobre o símbolo dos somatórios o valor 5 por ser o tamanho das
amostras observadas pelo engenheiro. Vamos agora substituir os valores
da pesquisa do engenheiro na equação e ver a que resultados chegamos?

Primeiramente, vamos calcular os valores que devem ser substituídos na


equação para o cálculo do estimador de mínimo quadrado.

Tabela 77 – Valores para equação.

Xi Yi 4,68 7,05 9,52 11,6 18,2


Xi2 1,44 2,25 2,89 4,00 6,76

Fonte: Elaborada pela autora (2013).

Agora, faremos as substituições na equação:

∑XY i i
(4, 68 + 7,05 + 9,52 + 11, 60 + 18, 20)
θˆMQ
= =
i =1
5
(1, 44 + 2, 25 + 2,89 + 4,00 + 6, 76)
∑ X i2
i =1

∑XY i i
51,05
θˆMQ
= = = 2,94
i =1
5
17,34
∑ X i2
i =1

www.esab.edu.br 241
Verifique que o valor encontrado está muito próximo de 3, como
havíamos suposto no início do problema.

A seguir, vamos estudar o que é, e como se aplica o estimador de máxima


verossimilhança.

Estimadores de máxima verossimilhança


De acordo com Bussab e Morettin (2002, p. 301, grifo do autor), “[...]
verossímil (ou verossimilhante): aquilo que é verdade, provável, e
verossimilhança [...], a qualidade ou caráter de verossímil”. Os autores
também afirmam que uma amostra verossímil é aquela que fornece
“[...] a melhor informação possível sobre um parâmetro de interesse
da população, desconhecido, e que desejamos estimar” (BUSSAB;
MORETTIN, 2002, p. 301).

Esses autores também afirmam que pelo princípio da verossimilhança,


escolhe-se “[...] aquele valor do parâmetro desconhecido que maximiza
a probabilidade de obter a amostra particular observada, ou seja, o valor
que torna aquela amostra a ‘mais provável’” (BUSSAB; MORETTIN,
2002, p. 301).

Dessa forma, os estimadores de máxima verossimilhança são usados


quando não nos interessa conhecer em detalhes as estimativas. Nesse
caso, usamos estimativas que possuam uma maior concordância com
os dados coletados. Essa concordância será medida em termos de
verossimilhança. Vamos a um exemplo?

Exemplo 1

Ao utilizarmos a média amostral ( x ) para poder avaliar o real valor da


média populacional (m), devemos escolher para a média populacional
o valor que tem mais chance de ocorrer, tendo em vista o valor obtido
com a média amostral. Por exemplo, suponhamos que a média amostral
calculada é igual a 70 unidades. Então, aplicando o princípio de
verossimilhança, o valor da média populacional deverá ser também 70
unidades. Isso ocorre devido à propriedade de invariância, ou seja, não há
variação entre os valores da amostra e da população.

www.esab.edu.br 242
Por meio de outro exemplo presente na obra de Bussab e Morettin
(2002), vamos entender melhor os estimadores de máxima
verossimilhança.

Exemplo 2

Considere que temos n provas de Bernoulli com P (sucesso) = p, 0 < p


< 1 e k = número de sucessos. Devemos tomar como estimador aquele
valor de p que torna a amostra observada a mais provável de ocorrer.

Para resolver esse problema, adotamos que o número de provas realizadas


é igual a 3 (n = 3) e que, dessas provas, em duas obteve-se “sucesso”
e em uma “fracasso”. Nessa situação, teremos a seguinte função de
verossimilhança:

L(p) = P (2 sucessos e 1 fracasso)

Considerando p como sucesso e (1 – p) como fracasso e substituindo


na função acima, temos que: L(p) = p . p (1 ‒ p) = p2 (1 ‒ p) (BUSSAB;
MORETTIN, 2002).

Essa função pode ser trabalhada matematicamente, usando-se a operação


derivação. Caso você não teve aula desse assunto, peço que aceite como
verdade que derivando a expressão L(p) = p2 (1 ‒ p) obtemos como resultado:

L '( p ) = 2 p ⋅ (1 − p ) − p 2 = 0
L '( p ) = 2 p − 2 p 2 − p 2 = 0
L '( p ) =2 p − 3 p 2 =0
L '( p ) = p ⋅ (2 − 3 p ) = 0

Assim, concluímos que para a expressão L’ (p) = p (2 ‒ 3p) = 0 ser


verdadeira, p só pode assumir os valores “zero” ou 2/3, como você
poderá comprovar a seguir. Atenção! O valor 2/3 é obtido através da
probabilidade da distribuição binomial, representada nesse exemplo por:
p = número de sucessos/número de provas. Então, teremos:

www.esab.edu.br 243
a. para p = 0
L’ (p) = p (2 ‒ 3p) = 0
L’ (p) = 0 (2 ‒ 3x0) = 0 (2 ‒ 0) = 0
b. para p = 2/3

L '( p ) = p(2 − 3 p ) = 0

2 2 2 6 2 2
L '( p ) =  2 − 3 ⋅  =  2 −  = ⋅ (2 − 2) = ⋅ (0) = 0
3 3 3 3 3 3

Assim, o valor de p que torna a amostra observada a mais provável de


ocorrer é 2/3, e esse é o nosso estimador de máxima verossimilhança.

Nesta unidade, você aprendeu como identificar os estimadores de mínimos


quadrados e de verossimilhança, que você poderá utilizar em suas pesquisas
científicas. Na unidade seguinte, você encontrará exercícios para fixar os
conhecimentos já estudados na unidade 34, a respeito de amostragem e
inferência estatísticas, e na unidade 36, sobre estimação.

www.esab.edu.br 244
38 Exercícios resolvidos

Objetivo
Apresentar exercícios resolvidos de amostragem e estimação.

Nesta unidade, vamos resolver alguns exercícios relacionados à unidade 3,


intitulada Noções de amostragem, à unidade 34, intitulada Amostragem
e inferência estatísticas e à unidade 36, intitulada Estimação: conceitos e
propriedades. Essas unidades foram fundamentadas teoricamente pelas
obras de Bussab e Morettin (2002) e de Magalhães e Lima (2005).

Faça os exercícios a seguir para fixar os conhecimentos estudados nessas


unidades. Bom trabalho!

Exercício 1

Deseja-se retirar uma amostra de tamanho igual a 1000 fichas de


uma população de 5000 fichas de um arquivo. Qual é o método de
amostragem aleatória mais adequado para fazer essa seleção? Justifique a
sua resposta usando o conteúdo apresentado na unidade 4.

Solução

O método de amostragem mais adequado é o método de amostragem


aleatória sistemática, pois como temos um número muito alto de tamanho
de amostra (1000), os números das fichas selecionadas serão escolhidos de
acordo com a lógica apresentada na unidade 4: primeiro calcular o valor do
intervalo de seleção (a = N/ n): a = N/ n = 5000/ 1000 = 5

www.esab.edu.br 245
Na sequência, sortear a primeira ficha de forma que esteja dentro
do intervalo de seleção. Supondo que sorteamos o valor 3, então os
próximos números de fichas que participarão da amostra serão:

x = 3,
x + a = 3 + 5 = 8,
x + 2 a = 3 + 2 ⋅ 5 = 13,
...,
x + 999a = 3 + 999 ⋅ 5 = 4998

Exercício 2

Com o objetivo de estudar o estilo de liderança preferido pela comunidade


de uma escola, vamos realizar um levantamento por amostragem.
A população é composta por 10 professores, 10 servidores técnico-
administrativos e 30 alunos, que identificamos da seguinte maneira:

Tabela 78 − Identificação da comunidade escolar pesquisada.


Professores P1 P2 P3 P4 P5 P6 P7 P8 P9 P10
Servidores S1 S2 S3 S4 S5 S6 S7 S8 S9 S10
Alunos A1 A2 A3 A4 A5 A6 A7 A8 A9 A10
A11 A12 A13 A14 A15 A16 A17 A18 A19 A20
A21 A22 A23 A24 A25 A26 A27 A28 A29 A30

Fonte: Adaptada de Barbetta (2008).

Supondo que a preferência quanto ao estilo de liderança possa ser relativamente


homogênea dentro de cada categoria, realize uma amostragem aleatória estratificada
proporcional por categoria, para obter uma amostra global de tamanho igual a 10.
(BARBETTA, 2008, p. 49-50)

www.esab.edu.br 246
Solução

Usando o método de amostragem solicitado no enunciado do problema,


primeiro temos que montar a Tabela 79 para conseguirmos determinar a
quantidade de elementos das categorias (professores, servidores e alunos)
que participarão da pesquisa.

Tabela 79 – Determinação da quantidade de participantes por categoria.


Quantidade de participantes desejada
Categoria População Amostra
na amostra
Professor 10 10/ 50 = 0,2 × 100 = 2 2
Servidor 10 10/ 50 = 0,2 × 100 = 2 2
Aluno 30 30/ 50 = 0,6 × 100 = 6 6
Total 50 10

Fonte: Adaptada de Barbetta (2008).

Dessa forma, teremos na nossa amostra do estudo sobre o estilo de


liderança preferido pela comunidade dessa escola 2 professores, 2
servidores técnico-administrativos e 6 alunos.

Exercício 3

Uma faculdade possui 450 alunos matriculados no curso de graduação


em Administração, 620 alunos matriculados no curso de graduação em
Ciências Contábeis e 840 alunos matriculados no curso de graduação
em Direito. O Pró-Reitor de Ensino de Graduação deseja realizar uma
pesquisa para saber o nível de satisfação dos alunos com as grades
curriculares dos respectivos cursos. Para um erro amostral tolerável de
5%, calcule o tamanho mínimo da amostra aleatória.

Solução

Os dados do problema são: E0 = 50% = 0,05, N = 450 + 620 + 840 = 1910

www.esab.edu.br 247
Para calcular o tamanho mínimo de amostra (n0), vamos aplicar as
fórmulas apresentadas na unidade 3, usando a teoria de amostragem
apresentada por Magalhães e Lima (2005). Segue:

1 1
=
n0 = = 400
( E0 )² (0,05)²

N ⋅ n0 1910 × 400 764000


=n = = = 330, 74 ≅ 331
N + n0 1910 + 400 2310

Assim, deverão participar da pesquisa 331 alunos dessa faculdade.

Exercício 4

Em uma empresa, o diretor deseja conhecer a opinião de seus


funcionários sobre o novo plano de cargos e salários a ser implantado
na empresa. Ele também deseja que essa pesquisa de opinião seja
realizada com 15% dos funcionários de cada departamento da empresa.
Os funcionários estão distribuídos nos seguintes departamentos:
Administrativo, 55 funcionários; Produção, 145 funcionários; e
Logística, 25 funcionários. Calcule a quantidade de participantes da
amostra da pesquisa de opinião por departamento.

Solução:

Analisando o enunciado do problema, verificamos que estamos


trabalhando com a amostragem estratificada proporcional. Para
determinar a quantidade de participantes da amostra, vamos utilizar
os conteúdos da unidade 4 (tipos de amostragem aleatória), a partir de
Magalhães e Lima (2005). Para isso, usaremos, a Tabela 80.

www.esab.edu.br 248
Tabela 80 – Determinação da quantidade de participantes por departamento
Amostra
Departamento População 15% da população
(arredondada)
(15 × 55)
Administrativo 55 = 8, 25 8
100
(15 × 145)
Produção 145 = 21, 75 22
100
(15 × 25)
Logística 25 = 3, 75 4
100
Total 225 34

Fonte: Elaborada pela autora (2013).

Assim, de acordo com os dados da Tabela 80, a pesquisa abrangerá


a opinião de 8 funcionários do departamento administrativo, de 22
funcionários do departamento de produção e de 4 funcionários do
departamento de logística, totalizando 34 participantes da pesquisa.

Nesta unidade, você exercitou os conhecimentos adquiridos nas unidades


anteriores. Esperamos que esse seu trabalho tenha sido proveitoso. Na
unidade seguinte, estudaremos o que são, e como encontrar, os intervalos
de confiança.

www.esab.edu.br 249
39 Intervalos de confiança

Objetivo
Determinar os intervalos de confiança.

Nesta unidade, vamos estudar os intervalos de confiança e como


determiná-los, usando as obras de Bussab e Morettin (2002) e de
Bisquerra, Martinez e Sarriera (2004).

O intervalo de confiança é “[...] um espaço em torno de um estatístico


de confiança, dentro de cujos limites é provável que se encontre o
parâmetro” (BISQUERRA; MARTINEZ; SARRIERA, 2004, p. 71).
Para esses autores, “estatístico” é sinônimo de “estatística”.

Assim, o intervalo de confiança é o intervalo que deve conter o


verdadeiro valor do parâmetro em estudo. Os parâmetros usados são a
proporção, a média e o desvio-padrão.

Os intervalos de confiança são estimativas intervalares, ou seja,


representam uma amplitude (um conjunto de valores) na qual o parâmetro
pode ser encontrado. Normalmente, esses intervalos são construídos para
um nível de confiança ou nível de significância igual a 95%.

Podem ser usados outros valores de nível de confiança de acordo com a


conveniência do pesquisador. Outros valores comumente utilizados são
90% e 99%. Esses intervalos possuem um limite inferior e um limite
superior que estão relacionados ao erro-padrão, assunto estudado na
unidade 36. Na Figura 57, você poderá verificar a representação gráfica
de um intervalo de confiança qualquer.

www.esab.edu.br 250
0
Intervalo de confiança

De uma média: X ± Zσ σ X
De uma proporção: PD ± Z σ σ p

Figura 57 – Representação gráfica do intervalo de confiança.


Fonte: Adaptada de Bisquerra, Martinez e Sarriera (2004).

A seguir, vamos estudar como se obtêm os intervalos de confiança para os


parâmetros proporção e média.

Intervalos de confiança para proporção (p)


Devemos usar esse tipo de intervalo quando estamos trabalhando com
variáveis que têm comportamento binomial, ou seja, só apresentam
duas respostas. Como exemplo desse tipo de variável, podemos citar a
presença ou não de defeitos em um determinado produto.

Temos também que admitir que essas variáveis possam ser aproximadas
da distribuição normal. Portanto, as condições apresentadas na unidade
33 devem ser satisfeitas.

Vamos relembrar a fórmula usada para calcular a proporção de uma


x
amostra qualquer, apresentada na unidade 36. Segue: P = .
n
Outra fórmula que usaremos é a do erro-padrão de P, apresentada na
unidade 36:

www.esab.edu.br 251
p (1 − p )
P (1 − P ) / n ou s p =
Sp =
n

Na qual:

• Sp: erro-padrão da proporção amostral;


• P: proporção amostral do atributo;
• n: tamanho da amostra;
• sp: erro-padrão da proporção populacional;
• p: proporção populacional do atributo.
Esse erro-padrão nos auxiliará na construção do intervalo de confiança,
por meio da aplicação da seguinte expressão: P ± z ⋅ Sp

Essa expressão nos indica o intervalo de confiança para a proporção da


população. Vamos, a partir de uma adaptação do Exemplo 1 da unidade
36, detalhar como se encontra um intervalo de confiança para a proporção.

Exemplo

Considere que 400 pessoas foram entrevistadas para saber se desejavam a


construção de uma praça em seu bairro. Dos entrevistados, 240 pessoas
responderam que eram favoráveis à construção da praça. Calcule o
intervalo de confiança para a proporção de favoráveis à construção da
praça, levando em consideração um nível de confiança de 95%.

Solução

Primeiramente, devemos calcular a proporção de favoráveis à construção


da praça. Para isso, usaremos a seguinte fórmula:

P x=
= n
240 = 0, 60
400

www.esab.edu.br 252
Como desconhecemos a proporção da população (p), substituiremos os
valores do enunciado do exemplo na fórmula de cálculo do erro-padrão
da P. Segue:

S=
p P (1 − P ) / n= 0, 6 × (1 − 0, 6) / 400
=
= =
0, 0006 0, 0245

Agora, devemos calcular o intervalo de confiança para a proporção da


população, usando a seguinte relação: P ± z ⋅ Sp

O valor de z será determinado de acordo com o nível de confiança


estipulado no enunciado do problema. Nesse exemplo, o valor de z
para 95% de confiança é igual a 1,96. Esse valor foi retirado da Tabela
da Distribuição Normal Padrão (que foi apresentada na Tabela 71 da
unidade 32) da seguinte forma:

Relembre que o nível de confiança igual a 95% representa 95% da área da


Curva de Gauss, que está entre os valores de – z < Z < + z. Assim, temos
as caudas esquerda e direita representadas por a = 0,05/ 2 = 0,025.

Procure na parte central da Tabela 71 o valor de probabilidade que


subtraído de 0,5000 resulta em um valor o mais próximo possível de
0,025 (valor de a/ 2). Encontramos na Tabela 71 o valor 0,4750, que
subtraído de 0,5000 resulta no valor 0,025 (exatamente o valor de a/
2). Agora, identificaremos o valor de z que corresponde ao valor de p =
0,4750 da seguinte forma: do local onde está o valor 0,4750, na mesma
linha identificamos a casa inteira e a primeira casa decimal de z, e na
mesma coluna identificamos a segunda casa decimal de z. O valor de z
composto dessa maneira é igual a 1,96.

Assim, teremos que: P ± z . Sp = P ± 1,96 × 0,0245 = P ± 0,0482 = P ± 0,05

Concluindo, o intervalo de confiança solicitado será:

P ± 0,05 ou 0,60 ± 0,05 ou 0,55 ≤ p ≤ 0,65


A resposta do problema é que a proporção populacional (p) de favoráveis
à construção da praça variará entre 55% e 65% nessa comunidade.

www.esab.edu.br 253
Intervalos de confiança para média (m) – amostras
grandes
Quando a amostra é grande (n ≥ 30), podemos adotar que a variável em
análise possui um comportamento de distribuição normal. Dessa forma,
podemos usar na construção desse tipo de intervalo a fórmula do erro-
padrão para a média amostral, já apresentada na unidade 36 e a seguir:

S s
=Sx = ou s x
n n
Na qual:

• Sx: erro-padrão da média amostral;


• s x : erro-padrão da média populacional;
• S: desvio-padrão da amostra;
• n: tamanho da amostra;
• s: desvio-padrão da população.
Para identificarmos o intervalo de confiança para a média populacional,
usaremos a seguinte fórmula: x ± z ⋅ Sx = µ ± z ⋅ S x

Na qual:

• x : média amostral;
• Z: valor padronizado;
• m: média populacional;
• Sx: erro-padrão da média amostral.
Vamos novamente mostrar como pode ser resolvido um problema com
esse teor por meio de um exemplo.

www.esab.edu.br 254
Exemplo

Uma empresa incorporadora da construção civil pretende construir um


shopping center em um bairro de famílias de classe média. Uma pesquisa
encomendada pela empresa foi realizada com uma amostra de 100
famílias que vivem nesse bairro, com o objetivo de conhecer a renda
média anual das famílias. Identificou-se que a renda média anual das
famílias é de R$ 35.500,00 com um desvio-padrão de R$ 7.200,00.
Informe o intervalo de confiança para um nível de confiança de 95%.

Como a amostra é grande n = 100 (n ≥ 30), podemos adotar que a


variável em análise possui um comportamento de distribuição normal
e usar, na construção do intervalo de confiança solicitado, a fórmula
do erro-padrão para a média amostral, apresentada na unidade 36.
Substituindo os valores do exemplo na fórmula, temos que:

S 7200 7200
=
Sx = = = 720
n 100 10

Para identificarmos o intervalo de confiança para a média populacional,


usaremos a fórmula apresentada anteriormente. Veja:

x ± z ×=
Sx 35.500 ± 1,96 × =720 35.500 ± 1.411, 20
ou
34.088,80 ≤ µ ≤ 36.911, 20

O valor de z = 1,96 é retirado da Tabela da Distribuição Normal Padrão


para um nível de confiança de 95%, conforme explicado anteriormente.
Assim, a renda média anual populacional (de todas as famílias que vivem
nesse bairro) variará entre R$ 34.088,80 e R$ 36.911,20.

Nesta unidade, você aprendeu como construir os intervalos de confiança


para a proporção e para a média populacional, podendo agora verificar a
variação desses parâmetros. A seguir, você estudará os conceitos básicos
dos testes de hipóteses e verá como construir as hipóteses que serão
verificadas nos testes.

www.esab.edu.br 255
Estudo complementar
Vimos nesta unidade o conceito e exemplos de
intervalos de confiança para a proporção e para
média quando se possui uma amostra grande.
Agora aprenda um pouco mais sobre esse assunto
assistindo o vídeo ‘Intervalo de Confiança’,
disponível aqui.

www.esab.edu.br 256
40 Teste de hipóteses: introdução

Objetivo
Introduzir os conceitos básicos sobre testes de hipóteses.

Depois de estudar os intervalos de confiança, agora você estudará os


conceitos básicos de um teste de hipótese. Esses conceitos são aplicáveis
a todos os tipos de testes de hipóteses. Esta unidade se fundamenta
teoricamente nas contribuições de Bussab e Morettin (2002) e Levin (2004).

Vamos iniciar os estudos desta unidade apresentando a definição de


hipótese. Segundo o Dicionário Aurélio XXI, esse termo significa
suposição, conjectura, acontecimento incerto ou eventualidade
(FERREIRA, 1999). Em Estatística, uma hipótese é uma afirmação
(suposição) transformada em uma sentença matemática, que será
sempre expressa por meio de um parâmetro, que pode ser proporção,
média ou variância.

A seguir, apresentamos outros conceitos importantes que você deve aprender,


e que irão nos acompanhar nesta unidade e nas seguintes. São eles:

• hipótese nula: essa será a hipótese de trabalho do pesquisador.


Ela sempre possui a ideia de igualdade. Sua notação, ou seja, sua
identificação, é H0;
• hipótese alternativa: essa hipótese será considerada verdadeira no
caso de H0 ser falsa. Sua notação é H1.
Vamos ver alguns exemplos de hipótese nula (H0) e de hipótese
alternativa (H1).

www.esab.edu.br 257
Exemplo 1

H0 : a proporção de vendas da Filial A é maior ou igual à proporção de


vendas da Filial B.

H1 : a proporção de vendas da Filial A é menor do que a proporção de


vendas da Filial B.

Exemplo 2

H0 : o peso médio das mulheres brasileiras é igual a 55 kg.

H1 : o peso médio das mulheres brasileiras é diferente de 55 kg.

Exemplo 3

H0 : a variação da dosagem de um remédio para dor de cabeça é menor


do que 0,20 microgramas.

H1 : a variação da dosagem de um remédio para dor de cabeça é maior


ou igual a 0,20 microgramas.

Para poder ser usada em testes estatísticos, essa forma de escrever uma
hipótese deve ser transformada em uma expressão matemática. Nessas
expressões, você deve usar a notação dos parâmetros − média, proporção
e variância. Assim, as hipóteses anteriores devem ser reescritas da seguinte
forma:

Exemplo 1

H0 : a proporção de vendas da Filial A é maior ou igual à proporção de


vendas da Filial B.

H0 : pA ≥ pB

www.esab.edu.br 258
H1 : a proporção de vendas da Filial A é menor do que a proporção de
vendas da Filial B.

H1 : pA < pB

Exemplo 2

H0 : o peso médio das mulheres brasileiras é igual a 55 kg.

H0 : m = 55
H1 : o peso médio das mulheres brasileiras é diferente de 55 kg.

H1 : m ≠ 55

Exemplo 3

H0 : a variação da dosagem de um remédio para dor de cabeça é menor


ou igual a 0,20 microgramas.

H0 : s ≤ 20
H1 : a variação da dosagem de um remédio para dor de cabeça é maior do
que 0,20 microgramas.

H1 : s > 20
Essas são as três possibilidades de sinais usados nos conjuntos de
hipóteses nula e alternativa. Verifique que na hipótese nula sempre há o
sinal de igualdade.

Agora que você já sabe como escrever as hipóteses matematicamente,


vamos ver outros conceitos importantes. Nos testes de hipóteses,
buscamos conhecer a probabilidade de ocorrência da hipótese nula e
verificar se podemos aceitar, ou não, essa hipótese. Para que possamos
tomar a decisão com relação à aceitação ou rejeição da hipótese nula,
temos que levar em consideração os conceitos listados a seguir.

www.esab.edu.br 259
• Probabilidade de significância (p): é um valor obtido em função
da distribuição de probabilidades do resultado alcançado com a
amostra: “[...] é a probabilidade de a estatística do teste acusar um
resultado tão ou mais distante do esperado por H0 como resultado
da amostra observada” (BARBETTA, 2008, p. 184).
• Nível de significância (a): é o valor da probabilidade tolerável do
pesquisador incorrer em um Erro Tipo I. (BUSSAB; MORETTIN,
2002). Também é chamado de nível de confiança (LEVIN, 2004,
p. 154).
• Erro Tipo I (a): consiste em rejeitar a hipótese nula, sendo ela
verdadeira.
• Erro Tipo II (b): consiste em aceitar a hipótese nula, sendo ela falsa.
O Nível de significância (a) é utilizado na decisão do teste de hipótese
de acordo com a seguinte regra, chamada de Regra de decisão: se a
Probabilidade de significância (p) é maior que o Nível de significância
(a), deve-se aceitar a hipótese nula; se a Probabilidade de significância
(p) é menor ou igual ao Nível de significância (a), deve-se rejeitar a
hipótese nula.

Ou seja, quando p > a, significa que o erro que estamos cometendo em


rejeitar a hipótese nula, sendo ela verdadeira, é maior do que o erro que
admitimos (toleramos) incorrer no início do teste, que é o valor do Nível
de significância (a). E quando p ≤ a significa que o erro que estamos
cometendo em rejeitar a hipótese nula, sendo ela verdadeira, é menor ou,
no máximo, igual ao erro que admitimos (toleramos) incorrer no início
do teste, que é o valor do Nível de significância (a).

Vamos exemplificar a aplicação de todos esses conceitos?

Exemplo

Antes da aplicação de um teste de hipótese, determinamos que o


valor do Nível de significância (a) seria de 5% ou 0,05, ou seja, o
pesquisador é quem determina esse valor. Suponha que aplicamos um
determinado teste de hipótese e encontramos um valor de Probabilidade

www.esab.edu.br 260
de significância (p) igual a 0,002 (0,2%) usando a tabela da distribuição
que está sendo utilizada pelo teste em aplicação. Nesse caso, aplicando a
Regra de Decisão apresentada previamente, podemos rejeitar a Hipótese
Nula (H0) em favor da Hipótese Alternativa (H1), pois o valor da
probabilidade de se cometer um Erro Tipo I, encontrado com os dados
da amostra, foi muito menor (0,002) do que o pesquisador decidiu como
tolerável/aceitável (0,05) de cometer esse tipo de erro.

No Quadro 3, a seguir, podemos ver um resumo dessas decisões e sua


relação com os tipos de erros que podemos cometer quando se aplica um
teste de hipótese.

Decisão do Teste
Situação de H0
Aceita H0 Rejeita H0
Verdadeira Decisão correta Erro Tipo I
Falsa Erro Tipo II Decisão correta

Quadro 3 – Decisão do Teste de Hipótese.


Fonte: Elaborado pela autora (2013).

Há ainda outros conceitos importantes, tais como: valor crítico, zona de


aceitação e zona de rejeição. Observe a Figura 58 para entender melhor
esses três conceitos.

Zona de rejeição Zona de aceitação Zona de rejeição

z = −1,96 0 z = +1,96

2,5% 95% 2,5%

Valores críticos
Figura 58 – Representação da Zona de aceitação, Zona de rejeição e Valores críticos.
Fonte: Adaptada de Levin (2004).

www.esab.edu.br 261
Como você pode verificar, estamos usando a Curva de Gauss (curva
da distribuição normal), pois admitimos que as variáveis que usamos
nos testes de hipótese possuem uma distribuição normal. Verifique que
a região que corresponde a 95% da área interna da Curva de Gauss, e
que está afastada 1,96 desvio-padrão da média, é chamada de zona de
aceitação da hipótese nula. As áreas que estão fora dos 95% da área
interna da Curva de Gauss – ou seja, que correspondem a 2,5% da área
interna da Curva de Gauss (uma área do lado direito e outra do lado
esquerdo da curva) – são chamadas de zona de rejeição da hipótese nula.
A zona de rejeição também é chamada de região crítica.

O valor crítico corresponde ao valor da estatística que foi padronizado


(no caso, z = 1,96 desvios-padrões), ou seja, é o valor que faz o limite das
regiões de aceitação e de rejeição.

Agora que você já conhece os conceitos principais sobre a teoria dos


testes de hipótese, os quais serão necessários para entender como aplicá-
los, vamos ver na próxima unidade como você deve fazer a aplicação de
qualquer tipo de teste de hipótese. Ou seja, as etapas-padrão de aplicação
do teste de hipótese.

Para sua reflexão


Reflita sobre a questão: Qual é a importância do
Nível de significância na aplicação de qualquer
tipo de teste de hipóteses?
A resposta a essa reflexão faz parte de seu
processo de aprendizagem, que é individual,
assim não precisa ser comunicada ou enviada aos
tutores. Busque no material teórico apresentado
nessa unidade as respostas às questões acima.

www.esab.edu.br 262
Etapas para realizar um teste de
41 hipótese
Objetivo
Apresentar as etapas para realizar um teste de hipótese.

Na unidade anterior, vimos os principais conceitos para o entendimento


dos testes de hipóteses. Nesta unidade, apresentaremos a você o fluxo que
deve ser seguido na aplicação de qualquer tipo de teste de hipótese. A obra
de Bussab e Morettin (2002) fundamenta teoricamente esta unidade.

Então, vamos conhecer as etapas apresentadas por Bussab e Morettin


(2002) para a realização de um teste de hipótese. De acordo com esses
autores, a etapa inicial de qualquer tipo de teste de hipótese prevê a
identificação da afirmação que será testada (ou seja, qual é a hipótese
nula) no enunciado do problema. É a partir dessa afirmação que você
entenderá o problema que se deseja resolver. Em seguida, você deverá
identificar a hipótese alternativa (H1).

Na segunda etapa da aplicação do teste de hipótese, você deverá


escrever a hipótese nula (H0) e a hipótese alternativa (H1) em termos
matemáticos, ou seja, no formato de uma expressão matemática.
Afinal, estamos trabalhando com Estatística. Nessa fase, você deverá
identificar o estimador (a função) que será usada para testar a hipótese
nula. Relembrando que nessas expressões matemáticas você deve usar a
notação dos parâmetros – média (m), proporção (p) ou desvio-padrão
(s) populacional. Lembre-se dos sinais que compõem os conjuntos de
hipótese nula e hipótese alternativa, vistos na unidade anterior.

www.esab.edu.br 263
Dica
Se ficar em dúvida sobre os significados do
conceito de estimador, retorne à unidade 36, e
sobre os conceitos de nível de significância, Erro
Tipo I, valores críticos, zona de aceitação e zona de
rejeição, retorne à unidade 40.

Continuando a aplicação do teste de hipótese, na terceira etapa, você


deverá escolher o nível de significância (a) do teste, levando em conta
a gravidade do Erro Tipo I para a situação em estudo. O valor do nível
de significância deve ser pequeno, ou seja, normalmente varia entre 0,01
a 0,05 (ou entre 1% e 5%). Esses valores indicam se o pesquisador está
sendo mais ou menos restritivo. Assim, quanto menor o valor do nível de
significância, mais restritivo está sendo o pesquisador.

O valor do nível de significância na aplicação de uma pesquisa real


é determinado pelo pesquisador responsável por ela. Nesse material
de apoio ao seu estudo, o valor do nível de significância sempre será
apresentado no enunciado do problema a ser resolvido.

Na quarta etapa de aplicação do teste de hipótese, você deve identificar


o valor da estatística que é relevante para o teste. Por exemplo, se estamos
trabalhando com o estimador média e com uma amostra grande,
devemos calcular o valor padronizado z (que será a estatística do teste).
Para tanto, usamos a fórmula a seguir:

x−µ
z=
s
A quinta etapa consiste em identificar os valores críticos, a zona de
aceitação e zona de rejeição (ou região crítica). Encontrar o valor da
Probabilidade de Significância (p) é a sexta etapa do teste de hipótese.
Por exemplo, se estivermos trabalhando com uma variável que admitimos
possuir uma distribuição normal, esse valor será retirado da Tabela de
Distribuição Normal Padrão (Tabela 71 vista na unidade 32).

www.esab.edu.br 264
Na sétima etapa, devemos comparar o valor encontrado da probabilidade
de significância com o nível de significância para tomar a decisão do teste
(regra de decisão), que poderá ser “aceitar a hipótese nula” ou “rejeitar a
hipótese nula”. Essa hipótese será rejeitada caso a estatística do teste estiver
dentro da região crítica. E, de forma análoga, a hipótese será aceita caso a
estatística do teste não esteja dentro da Região Crítica.

Finalizando a aplicação do teste de hipótese, a oitava etapa consiste em


reformular a decisão em termos simples (coloquial) e não técnicos, para
facilitar o entendimento do leitor. Observe alguns exemplos de como se
deve reformular a decisão encontrada com a aplicação do teste:

a. existe evidência suficiente para garantir a rejeição de que... (colocar


na sequência a afirmação da hipótese nula);
b. não existe evidência suficiente para garantir a rejeição de que...
(colocar na sequência a afirmação da hipótese nula).
Vamos aplicar as etapas desse fluxo em um exemplo. Acompanhe a seguir.

Exemplo

Uma indústria compra de um fabricante parafusos que resistem a uma


carga média de ruptura por tração igual a 50 kg com um desvio-padrão
de 4 kg. O comprador da indústria deseja verificar se um grande lote de
parafusos recebidos deve ser considerado satisfatório. No entanto, existe
alguma razão para se temer que a carga média de ruptura por tração seja
eventualmente inferior a 50 kg. Se a carga média de ruptura por tração
for superior a 50 kg, esse fato não perturba o comprador, pois nesse caso
os parafusos seriam de melhor qualidade do que a especificação exige.

Para decidir se o lote é satisfatório ou não, o comprador decidiu tomar


uma amostra aleatória simples de 25 parafusos e submetê-los ao ensaio de
ruptura por tração. Decidiu também que se a carga média de ruptura por
tração for igual a 48 kg nessa amostra, ele comprará o lote.

www.esab.edu.br 265
Solução

Vamos iniciar a solução do problema identificando a afirmação que


deverá ser testada (primeira etapa), ou seja, a hipótese nula (H0), que no
nosso exemplo será:

H0 : os parafusos têm carga média de ruptura por tração igual a 50 kg.

Na sequência, vamos definir a hipótese alternativa (H1), a qual será


adotada como verdadeira caso a hipótese nula (H0) seja rejeitada. Assim:

H1 : os parafusos têm carga média de ruptura por tração diferente de 50 kg.

Na segunda etapa, você deverá escrever a hipótese nula e a hipótese


alternativa em termos matemáticos, identificando o estimador que será
usado no teste, com a notação do parâmetro média, pois é esse estimador
que foi apresentado no enunciado – carga média de ruptura por tração.
As expressões matemáticas serão:

H0 : m = 50

H1 : m ≠ 50

Vamos estabelecer o nível de significância (a) do teste (como vimos


anteriormente, essa é a terceira etapa da aplicação do teste). Adotaremos que
o valor do nível de significância será de 5%. Isso significa que nossa zona de
aceitação da hipótese nula corresponde a 95% da área da Curva de Gauss.

Na quarta etapa, vamos calcular a estatística do teste na amostra. Nesse


caso, vamos calcular o erro-padrão da média, visto na unidade 35. Segue:

s 4
s
= x = = 0,8
n 25

www.esab.edu.br 266
Na qual:

• s = 4 kg
• n = 25 parafusos

4
sx
= = 0,8
25

Considerando que a média amostral ( x ) é aproximadamente normal,


temos que:
x−µ
z=
sx
Sendo que:

• x = 48 kg
• m = 50 kg
• s x = 0,8
48 − 50 2
z= =
− =
−2,5
0,8 0,8
Agora, na quinta etapa, identificamos que o valor crítico, que limita
as zonas de aceitação e de rejeição, é z ± 2,5. A zona de aceitação está
representada pela área limitada por z = – 2,5 e z = + 2,5, ou seja, a
área entre esses dois valores de z. A zona de rejeição ou região crítica
está representada pelas seguintes áreas: inferior a z = – 2,5 e superior a
z = + 2,5.

Na sexta etapa de aplicação do teste, buscaremos na Tabela 71 de


Distribuição Normal o valor da probabilidade de significância para esse
valor de z calculado. Nessa tabela, encontramos que a probabilidade
é igual a 0,49379, que arredondada nos dá o valor de 0,4938. Na
realidade, esse valor corresponde à área interna da Curva de Gauss,
que representa o valor de z ≤ 2,5. Mas, como desejamos determinar a
probabilidade de ocorrerem valores de z superiores a 2,5 (z > 2,5), temos
que subtrair esse valor encontrado na Tabela 71 de 0,5 (correspondente
à metade da área interna da Curva de Gauss). Assim, o valor da
probabilidade será igual a 0,0062, que é o valor da probabilidade de

www.esab.edu.br 267
significância (p), o qual será comparado ao valor do nível de significância
(a) na sétima etapa de aplicação do teste de hipótese, que consiste em
aplicar a regra de decisão (que já foi apresentada na unidade 40).

Agora, vamos aplicar a regra de decisão, ou seja, decidiremos se vamos


aceitar ou rejeitar a hipótese nula (H0). Lembre que H0 será rejeitada caso
a estatística do teste esteja dentro da região crítica. Como p = 0,0062 e
a = 0,05, logo p < a. Pela regra de decisão, rejeita-se a hipótese nula
e passa a ser verdadeira a hipótese alternativa (H1). No nosso exemplo,
chegamos à conclusão de que H1: m ≠ 50 passa a ser verdadeira.

Finalizando a aplicação do teste de hipótese, vamos escrever essa decisão


em termos coloquiais. Então, nossa decisão reformulada será: “Existe
evidência suficiente para garantir a rejeição de que os parafusos têm carga
média de ruptura por tração igual a 50 kg”.

Para ter outra visão desse assunto, você pode estudar o Capítulo 12
de Bussab e Morettin (2002) referente aos Testes de Hipóteses. Na
próxima unidade, você estudará a diferença entre os testes de hipótese
considerados unilaterais e os testes bilaterais.

www.esab.edu.br 268
42 Testes bilaterais e unilaterais

Objetivo
Conhecer e aplicar os testes bilaterais e unilaterais.

Dando continuidade ao conteúdo sobre testes de hipótese, abordado nas


unidades 40 e 41, neste momento vamos ver a diferença entre dois tipos
de testes: bilaterais e unilaterais. Nesta unidade, usaremos como base
teórica as obras de Bisquerra, Martinez e Sarriera (2004) e de Bussab e
Morettin (2002).

Bisquerra, Martinez e Sarriera (2004, p. 78) conceituam como testes


unilaterais “[...] aqueles em que toda a região crítica está situada em um
dos extremos da distribuição[...]” e como testes bilaterais “[...] quando a
região bilateral crítica está situada nos dois extremos da distribuição”.

Esses testes podem ter outras denominações, dependendo do livro


consultado. Os testes bilaterais podem ser chamados de bicaudais e os testes
unilaterais, de unicaudais. Vejamos as características de cada um deles.

• Teste de hipóteses unilateral ou unicaudal: a hipótese nula será


rejeitada somente se o valor da estatística do teste cair na zona de
rejeição que está em apenas uma das extremidades da distribuição.
Pode ser a cauda esquerda ou a cauda direita, dependendo das
condições específicas que estão em estudo. Assim, a probabilidade de
significância está em apenas uma das caudas.
• Teste de hipóteses bilateral ou bicaudal: quando a zona de rejeição
está em ambas as caudas da curva, estamos trabalhando com um, e
a probabilidade de significância fica dividida por dois, metade para
cada extremidade da curva.

www.esab.edu.br 269
Na Figura 59 a seguir, você pode verificar pelos gráficos da Curva de
Gauss as áreas que correspondem às regiões críticas ou zonas de rejeição
do teste de hipótese.

Região
Direita Esquerda Ambos os lados
Crítica
Prova Unilateral Unilateral Bilateral
Representação
gráfica

H0 H1 H1 H0 H1 H0 H1

Figura 59 − Esquematização dos testes unilaterais e bilaterais.


Fonte: Adaptada de Bisquerra, Martinez e Sarriera (2004).

Outra conclusão que você pode tirar é sobre os sinais do conjunto de


hipótese nula e alternativa. Usaremos os exemplos da unidade 40.

a. Para o teste bilateral, teremos o seguinte conjunto de hipóteses:


H0 : m = 50

H1 : m ≠ 50

Verifique que na hipótese alternativa, há o sinal diferente (≠). Tal fato


faz com que a probabilidade de significância (p) encontrada deva ser
multiplicada por dois (porque as duas extremidades da curva estão
participando do teste) antes de se fazer a comparação com o nível de
significância (a), no momento da tomada de decisão de aceitar ou
rejeitar a hipótese nula. Normalmente, nesse tipo de teste a hipótese nula
será rejeitada quando o valor da estatística calculada apresentar um valor
muito baixo ou muito alto.

b. Para os testes unilaterais, teremos o seguinte conjunto de hipóteses:


H0 : pA ≥ pB

H1 : pA < pB

www.esab.edu.br 270
Esse é o teste unilateral à esquerda, pois somente a cauda esquerda da
Curva de Gauss está participando do teste de hipótese.

Ou:

H0 : s ≤ 20

H1 : s > 20

Esse é o teste unilateral à direita, pois somente a cauda direita da Curva


de Gauss está participando do teste de hipótese.

Nos testes unilaterais, a probabilidade de significância (p) encontrada


será a mesma a ser usada na comparação com o nível de significância
(a), no momento da tomada de decisão de aceitar ou rejeitar a hipótese
nula. Isso porque só uma das extremidades da Curva de Gauss está
participando do teste, ou só a extremidade esquerda da curva (sinal <
na hipótese alternativa), ou só a extremidade direita da curva (sinal > na
hipótese alternativa).

Quando a estatística calculada apresentar um valor significativamente


menor ou maior do que o esperado, usa-se esse tipo de teste de hipótese
e, assim, a hipótese nula pode ser rejeitada.

Vamos apresentar, a seguir, exemplos de enunciados de problemas


sobre esse tema, extraídos de Bussab e Morettin (2002), para que você
possa identificar esses tipos de testes e construir, de forma adequada,
suas hipóteses nula (H0) e alternativa (H1). A solução detalhada para
cada problema relacionado com esses exemplos de enunciados será
apresentada na unidade 43.

Exemplo de enunciado de teste bilateral


Uma máquina automática, para encher pacotes de café, enche-os segundo
uma distribuição normal, com média m e variância sempre igual a 400
g. A máquina foi regulada para m = 500 g. Desejamos, periodicamente,
colher uma amostra de 16 pacotes e verificar se a produção está sob

www.esab.edu.br 271
controle, isto é, se m = 500 g ou não. Se uma dessas amostras apresentasse
uma média x = 492 g, você pararia ou não a produção para regular a
máquina (BUSSAB; MORETTIN, 2002, p. 332)?

Nesse exemplo, estamos trabalhando com o parâmetro m, porque no


enunciado do problema consta que se deseja que os pacotes de café saiam
da máquina com 500 g em média (m = 500 g). Veja que a máquina foi
regulada para que todos os pacotes de café tenham um peso médio igual
a 500 g e que a pergunta do problema é: você pararia ou não a produção
para regular a máquina, caso verificasse que um dos pacotes amostrados
tem peso médio diferente de 500 g? (ou seja, x = 492, valor que aparece
no enunciado do problema).

Então, as hipóteses nula e alternativa para a aplicação desse teste de


hipótese são:

H0 : m = 500 g

H1 : m ≠ 500 g

Logo, temos um teste bilateral, uma vez que utilizamos nas hipóteses os
sinais = e ≠, significando que estamos trabalhando com as duas caudas da
Curva de Gauss. Veja a representação na Figura 60.

Figura 60 − Representação das áreas do teste bicaudal.


Fonte: Adaptada de Levin (1987).

www.esab.edu.br 272
Exemplo de enunciado de teste unilateral à esquerda
Uma estação de televisão afirma que 60% dos televisores estavam ligados
no seu programa especial na última segunda-feira. Uma rede competidora
deseja contestar essa informação e decide usar uma amostra de 200
famílias para o teste. Qual deve ser o procedimento adotado para avaliar a
veracidade da afirmação da estação (BUSSAB; MORETTIN, 2002)?

Nesse caso, estamos trabalhando com o parâmetro proporção p, porque


no enunciado do problema existe, na afirmação da estação de televisão,
uma percentagem de televisores ligados (60%) no seu programa especial.
Já a empresa concorrente duvida dessa informação e acredita que o
número de televisores ligados seja menor. Por isso, a concorrente deseja
fazer a pesquisa com as 200 famílias. Não há sentido lógico de a empresa
concorrente admitir uma percentagem maior do que 60%.

Logo, as hipóteses nula e alternativa para aplicação desse teste de


hipótese são:

H0 : p ≥ 0,60

H1 : p < 0,60

Assim, nessa situação temos um teste unilateral à esquerda, pois somente


a cauda esquerda da Curva de Gauss está participando do teste de
hipótese, conforme podemos ver na Figura 61:

α = 5%

0,544 p̂
Figura 61− Representação da área do teste unilateral à esquerda.
Fonte: Bussab e Morettin (2002, p. 336).

www.esab.edu.br 273
Dica
Observe que usamos a percentagem transformada
em número decimal (60% = 0,60) nas hipóteses.
Isso acontece porque ao escrevermos as hipóteses
de forma matemática, não podemos utilizá-las na
forma de percentagem.

Exemplo de enunciado de teste unilateral à direita


Uma companhia de serviços de ônibus intermunicipais planejou
uma nova rota para servir vários locais situados entre duas cidades
importantes. Um estudo preliminar afirma que a duração das viagens
pode ser considerada uma variável aleatória normal, com média igual a
300 minutos e desvio-padrão de 30 minutos. As 10 primeiras viagens
realizadas nessa nova rota apresentaram uma média igual a 314 minutos.
Esse resultado comprova ou não o tempo determinado nos estudos
preliminares (BUSSAB; MORETTIN, 2002)?

Nesse problema, voltamos a trabalhar com o parâmetro m, porque em


seu enunciado consta que a duração da viagem, pelo estudo preliminar,
possui média igual a 300 minutos. Porém, a duração média das 10
viagens realizadas (314 minutos) foi maior do que a duração do estudo
preliminar.

Assim, as hipóteses nula e alternativa para esse problema serão:

H0 : m ≤ 300 min

H1 : m > 300 min

Assim, nessa situação temos um teste unilateral à direita, pois somente a


cauda direita da Curva de Gauss está participando do teste de hipótese.
Veja na Figura 62.

www.esab.edu.br 274
RA

RC

Figura 62 − Representação da área do teste unilateral à direita.


Fonte: Adaptada de <www.bioinfo.ufc.br>.

Nesta unidade, você aprendeu a identificar os enunciados de problemas


de testes de hipótese bilateral, unilateral à esquerda e à direita e visualizou
nos gráficos as áreas que são testadas em cada um desses tipos de testes.
Na unidade seguinte, você estudará como resolver problemas de teste de
hipótese para a média e para a proporção.

www.esab.edu.br 275
Resumo

Na unidade 37, você conheceu o conceito e como encontrar os


valores dos estimadores de mínimos quadrados e dos estimadores de
máxima verossimilhança. Na unidade seguinte, fizemos juntos alguns
exercícios, nos quais você colocou em prática seus conhecimentos sobre
Amostragem e Inferência. Na unidade 39, você estudou os intervalos
de confiança para proporção e para a média, trabalhando com amostras
grandes e pequenas. Viu, também, como calcular o erro-padrão para a
proporção e para a média, e como construir esses intervalos.

A partir da unidade 40, apresentamos os conceitos teóricos sobre os


testes de hipóteses, uma importante ferramenta estatística e que pode
auxiliar o pesquisador no momento de justificar as conclusões de suas
pesquisas. Nessa unidade, você estudou os principais conceitos que nos
acompanharam nas unidades seguintes. Na unidade 41, estudamos
especificamente as etapas necessárias para realizar qualquer tipo de teste
de hipóteses. Você pôde estudar passo a passo como aplicar corretamente
qualquer tipo de teste de hipótese. Finalmente, a unidade 42 apresentou
as definições e as características dos testes de hipóteses unilaterais e
bilaterais – além de exemplos de enunciados de problemas sobre esses
tipos de teste – e das figuras que identificam as áreas da Curva de Gauss,
correspondentes a cada um desses tipos de testes.

www.esab.edu.br 276
Teste de hipótese para média e
43 teste para proporção
Objetivo
Conhecer e aplicar o teste de hipótese para média com variância
conhecida e teste para proporção.

Na unidade 42, você estudou os testes de hipótese bilaterais e unilaterais.


Nesta unidade, fundamentada teoricamente na obra de Bussab e
Morettin (2002), você irá estudar e verificar como se aplicam os testes
de hipótese para média com variância conhecida e teste para proporção.
O conteúdo teórico da unidade 41 e os exemplos dos enunciados
apresentados na unidade 42 auxiliarão a explicação.

43.1 Teste de hipótese para média com variância


conhecida
Para iniciar a explicação da aplicação desse tipo de teste de hipótese,
vamos retomar o exemplo de enunciado de teste bilateral apresentado
na unidade 42.

Exemplo

“Uma máquina automática, para encher pacotes de café, enche-os segundo


uma distribuição normal, com média m e variância sempre igual a 400 g. A
máquina foi regulada para m = 500 g. Desejamos, periodicamente, colher
uma amostra de 16 pacotes e verificar se a produção está sob controle, isto
é, se m = 500 g ou não. Se uma dessas amostras apresentasse uma média
x = 492 g, você pararia ou não a produção para regular a máquina?”
(BUSSAB; MORETTIN, 2002, p. 332).

www.esab.edu.br 277
Como vimos na unidade 41, para realizar um teste de hipótese, em
primeiro lugar, devemos identificar a afirmação que será testada (H0)
no enunciado do problema e, logo em seguida, identificar a hipótese
alternativa (H1). Assim, no nosso exemplo teremos:

• H0: O peso médio dos pacotes de café enchidos pela máquina é igual
a 500 g.
• H1: O peso médio dos pacotes de café enchidos pela máquina é
diferente de 500 g.
Na segunda etapa da aplicação do teste de hipótese, você deverá
escrever a hipótese nula (H0) e a hipótese alternativa (H1) em termos
matemáticos. Elas serão:

• H0: m = 500 g
• H1: m ≠ 500 g
Continuando a aplicação do teste de hipótese, na terceira etapa, você
deverá escolher o nível de significância (a) do teste. Vamos adotar o valor
de a = 1%, conforme Bussab e Morettin (2002).

Na quarta etapa, devemos identificar o valor da estatística que é relevante


para o teste. Como estamos trabalhando com o estimador média (peso
médio dos pacotes de café), devemos calcular o valor padronizado z (que
x−µ
será a estatística do teste), usando a fórmula: z =
s
Porém, não é dado no enunciado do problema o valor do desvio-padrão
(nem o amostral, nem o populacional). Assim, antes de usar a fórmula
anterior, devemos encontrar o valor do desvio-padrão. Verifique que, no
enunciado, há a seguinte afirmação: “variância sempre igual a 400 g2 ”,
expressa matematicamente como s2 = 400 g. Partindo dessa informação,
temos que “[...] para todo µ , a média x de 16 pacotes terá distribuição
N (m, 400/ 16) de modo que o desvio-padrão (ou erro-padrão) de
x é s x = 5. ” (BUSSAB; MORETTIN, 2002, p. 333).

www.esab.edu.br 278
Com o valor do desvio-padrão da distribuição amostral, vamos usar
agora a fórmula:
x−µ 492 − 500
z = = = − 1, 60
sx 5

A quinta etapa consiste em identificar os Valores Críticos, a Zona de


Aceitação e a Zona de Rejeição (ou Região Crítica). Esses valores podem
ser verificados na Figura 63.

Zona de rejeição Zona de rejeição

Zona de aceitação

z = −2,58 0 z = +2,58

0,5% 99% 0,5%

Valores críticos

Figura 63 – Identificação dos Valores Críticos, da Zona de Aceitação e da Zona de Rejeição.


Fonte: Adaptada de Levin (2004).

O valor crítico foi encontrado da seguinte forma: como nosso teste é


bilateral (a hipótese alternativa tem o sinal de ≠) e a = 1%, devemos
dividir o valor de a por 2, então a = 0,5% = 0,005. A seguir, vamos à
Tabela 81 de Distribuição Normal Padrão buscar o valor de z que mais
se aproxime do valor de a = 0,5% = 0,005.

www.esab.edu.br 279
Tabela 81 – Distribuição Normal Padrão.

Fonte: Bussab e Morettin (2002, p. 497).

www.esab.edu.br 280
Lembre-se de que, como estamos trabalhando com um teste bilateral,
devemos subtrair do valor 0,5000 o valor de p encontrado na tabela. Na
Tabela 81, encontramos o valor 0,4950 que subtraindo de 0,500 resulta
0,005 (o valor desejado de a). Agora, identificaremos o valor de z que
corresponde a p = 0,4950 da seguinte forma: do local onde está o valor
0,4950, na mesma linha identificamos a casa inteira e a primeira casa
decimal de z e na mesma coluna identificamos a segunda casa decimal de
z. O valor de z composto é igual a 2,58. Esse valor é o valor crítico.

Na sexta etapa identificamos, na Tabela 81, o valor da Probabilidade de


Significância (p), para um z = – 1,60. Então: p = 0,4452.

Na sétima etapa, comparamos o valor encontrado da probabilidade de


significância (p = 0,4452) com o nível de significância (a = 0,5% =
0,005) para tomar a decisão do teste. Como p > a, aceitamos a H0. Outra
forma de tomar a decisão é verificar se o valor da estatística calculada (z =
– 1,60) está dentro ou fora da Zona de Aceitação (–2,58 < z < 2,58). No
exercício, a estatística está dentro da Zona de Aceitação, assim devemos
aceitar a hipótese nula. Ao finalizar a aplicação do teste de hipótese
(oitava etapa), a decisão deve ser reformulada em termos não técnicos
para facilitar o entendimento e então, nossa decisão será: Não existe
evidência suficiente para garantir a rejeição de que o peso médio dos
pacotes de café enchidos pela máquina é igual a 500 g. Assim, finalizamos
a aplicação de um teste de hipótese para média com variância conhecida.

Agora, vamos estudar outro tipo de teste de hipótese, o teste de hipótese


para proporção, nesse caso, não trabalharemos mais com o estimador
média e sim com o estimador proporção. Vamos ao estudo!

www.esab.edu.br 281
43.2 Teste de hipótese para proporção
De forma semelhante, vamos estudar a aplicação desse tipo de teste
usando um exemplo apresentado na unidade 42.

Exemplo

“Uma estação de televisão afirma que 60% dos televisores estavam


ligados no seu programa especial na última segunda-feira. Uma rede
competidora deseja contestar essa informação e decide usar uma amostra
de 200 famílias para o teste. Qual deve ser o procedimento adotado para
avaliar a veracidade da afirmação da estação?” (BUSSAB; MORETTIN,
2002, p. 335).

“Vamos admitir que 104 famílias estavam assistindo ao programa.”


(BUSSAB; MORETTIN, 2002, p. 336).

Vamos repetir as etapas de aplicação de um teste de hipótese. A primeira


etapa consiste em identificar a hipótese nula (H0) no enunciado do
problema e, logo em seguida, a hipótese alternativa (H1). São elas:

• H0: A proporção de televisores ligados é igual ou maior que 60%;


• H1: A proporção de televisores ligados é menor que 60%.
Na segunda etapa da aplicação do teste de hipótese, você deverá
escrever a hipótese nula (H0) e a hipótese alternativa (H1) em termos
matemáticos. Assim, elas serão:

• H0: p ≥ 0,60
• H1: p < 0,60
Continuando a aplicação do teste de hipótese, na terceira etapa, você
deverá escolher o nível de significância (a) do teste. Vamos adotar o valor
de a = 5%, conforme Bussab e Morettin (2002).

www.esab.edu.br 282
Na quarta etapa identificamos o valor da estatística do teste. Como
estamos trabalhando com o estimador proporção p, vamos calcular a
estatística do teste usando a fórmula:

pˆ − p
z=
p.q
n

Em que:

• p̂ = proporção amostral;
• p = proporção populacional;
• q = 1 – p;
• n = tamanho da amostra.
O valor de p̂ é calculado com a fórmula p̂ = número de sucessos/n.

Substituindo os valores do enunciado na fórmula anterior, obtemos o


seguinte valor de z:

pˆ − p (104 / 200) − 0, 60
=z = =
p.q 0, 60.(1 − 0, 60)
n 200
0,52 − 0, 60 −0,08
= = = −2,31
0, 60.(0, 40) 0, 24
200 200

A quinta etapa consiste em identificar os Valores Críticos, a Zona de


Aceitação e a Zona de Rejeição (ou Região Crítica). Esses valores podem
ser verificados na Figura 64.

www.esab.edu.br 283
Zona de rejeição Zona de aceitação

α = 5%

z = −1,65 z

Valor crítico

Figura 64 – Identificação dos Valores Críticos, da Zona de Aceitação e da Zona de Rejeição.


Fonte: Adaptada de Bussab e Morettin (2002).

O valor crítico z = 1,65 foi encontrado da mesma forma que usamos


no exemplo anterior para o teste de hipótese para média com variância
conhecida. Tente encontrar esse valor!

A sexta etapa consiste em encontrar o valor da Probabilidade de


Significância (p); em que, para um z = – 2,31, retiramos da Tabela 81 (de
Distribuição Normal Padrão) o valor p = 0,4892, que deve ser subtraído
de 0,5000 e, então, o valor obtido será p = 0,0108, posteriormente
comparado com a = 0,05, na sétima etapa, para tomar a decisão do teste.
Assim, sendo p = 0,0108 menor que a = 0,05, nossa decisão será rejeitar
a hipótese nula. Rejeitamos também, por que o valor de z encontrado (z
= – 2,31) está na zona de rejeição da Figura 64. Verifique!

Na finalização da aplicação do teste de hipótese (oitava etapa), a nossa


decisão deve ser reformulada em termos não técnicos, sendo apresentada
da seguinte forma:

Existe evidência suficiente para garantir a rejeição de que a proporção de


televisores ligados é igual ou maior que 60%.

Desta forma, finalizamos a aplicação de um teste de hipótese para proporção.

www.esab.edu.br 284
Nesta unidade você estudou dois tipos de testes de hipótese, o teste para
média com variância conhecida e o teste de hipótese para proporção.
Também verificou que o primeiro teste de hipótese estudado é um
caso específico – variância conhecida, que é mais difícil de ocorrer na
realidade de nossas pesquisas, pois normalmente desconhecemos a
variância. No segundo tipo de teste de hipótese para proporção, lembre-
se de que, antes de usá-lo, você deve possuir as proporções amostral e
populacional. Na unidade seguinte, vamos resolver alguns exercícios
relacionados com esses dois tipos de testes estudados.

www.esab.edu.br 285
44 Exercícios resolvidos
Objetivo
Apresentar exercícios resolvidos de testes de hipótese para a média
com variância conhecida e testes para proporção.

Nesta unidade, vamos apresentar alguns exercícios para fixar os


conteúdos apresentados na unidade 43, que se refere ao teste de hipótese
para média e ao teste para proporção. Usaremos dois exemplos de Bussab
e Morettin (2002).

Inicialmente, use os conhecimentos que você adquiriu na unidade


anterior, a respeito do teste para a média com variância conhecida, para
resolver o problema a seguir.

Exercício 1

A associação dos proprietários de indústrias metalúrgicas está muito


preocupada com o tempo perdido com acidentes do trabalho, cuja
média, nos últimos tempos, tem sido da ordem de 60 horas/homem
por ano e variância sempre igual de 400 horas2/ homem. Tentou-se a
implantação de um programa de prevenção de acidentes, após o qual foi
tomada uma amostra de nove indústrias e medido o número de horas/
homem perdidas por acidente, que foi de 50 horas. Você diria, ao nível
de 5%, que há evidência de melhoria? (BUSSAB; MORETTIN, 2002).

Solução

Vamos aplicar o fluxo de solução de teste de hipótese que foi apresentada


na unidade 41.

www.esab.edu.br 286
Em primeiro lugar, devemos identificar a hipótese nula (H0) e a hipótese
alternativa (H1). Assim, no nosso exemplo, teremos:

• H0: o número médio de horas/homem perdidas é igual a 60;


• H1: o número médio de horas/homem perdidas é diferente de 60.
Vamos escrever a hipótese nula (H0) e a hipótese alternativa (H1) em
termos matemáticos. Elas serão:

• H0: m = 60
• H1: m ≠ 60
Continuando a aplicação do teste de hipótese, identificamos, no
enunciado do problema, o valor de a = 5%.

Vamos identificar o valor da estatística que é relevante para o teste.


Como estamos trabalhando com o estimador média (número médio de
horas/homem perdidas), devemos calcular o valor padronizado z (que
será a estatística do teste), usando a fórmula:

x−µ
z=
s

www.esab.edu.br 287
Porém, não é dado no enunciado do problema o valor do desvio-padrão
(nem o amostral nem o populacional). Assim, antes de usar a fórmula
anterior, devemos encontrar o valor do desvio-padrão. Verifique
que no enunciado há a seguinte afirmação: “variância sempre igual a
400 horas2/ homem”, que expressa matematicamente é s2 = 400 h2.
Levando em consideração essa informação, assumimos que, para todo
o valor de m, a média x de 9 indústrias terá a distribuição N (m, 400/
9), de modo que o desvio-padrão (ou erro-padrão) de x é s x = 6, 7.
Substituímos na fórmula:

x−µ 50 − 60
z= = = −1, 49
s 6, 7

Na Figura 65, estão identificados os Valores Críticos, a Zona de


Aceitação e a Zona de Rejeição.

Zona de rejeição Zona de rejeição

Zona de aceitação

z = −1,96 0 z = +1,96

2,5% 95% 2,5%

Valores críticos

Figura 65 – Identificação dos Valores Críticos, da Zona de Aceitação e da Zona de Rejeição.


Fonte: Adaptada de Levin (2004).

Antes de encontrar o valor crítico, dividiremos o valor de a = 5% por


2, então a = 2,5% = 0,025, isso porque o teste é bilateral (a hipótese
alternativa tem o sinal de ≠) Utilize a Tabela de Distribuição Normal
Padrão para identificar o valor crítico.

www.esab.edu.br 288
Tabela 82 – Distribuição Normal Padrão.

Fonte: Bussab e Morettin (2002, p. 497).

www.esab.edu.br 289
Procure, na parte central da Tabela 82, o valor de probabilidade que
subtraído de 0,5000 resulta em um valor o mais próximo possível de
0,025 (valor de a). Lembre-se que, como estamos trabalhando com
um teste bilateral, devemos subtrair do valor 0,5000 do valor de p
identificado na tabela. Encontramos, na Tabela 82, o valor 0,4750, que
subtraído de 0,5000 resulta no valor 0,025 (exatamente o valor de a).

Agora, identificaremos o valor de z que corresponde ao valor de p = 0,4750


da seguinte forma: do local onde está o valor 0,4750, na mesma linha
identificamos a casa inteira e a primeira casa decimal de z e na mesma
coluna identificamos a segunda casa decimal de z. O valor de z, composto
desta maneira, é igual a 1,96. Esse valor é o valor crítico procurado. Veja
que ele aparece na Figura 65 delimitando a zona de aceitação.

Identificaremos, na Tabela 82, o valor da probabilidade de significância


(p) para z = – 1,49 e retiramos dela o valor de p = 0,4319.

Hora da tomada de decisão, comparando o valor encontrado de p com


a. No nosso caso, como z = – 1,49 não está dentro da Zona de Rejeição,
devemos aceitar a hipótese nula.

Finalizando essa aplicação a decisão deve ser reformulada em termos não


técnicos, o que será:

Não existe evidência suficiente para garantir a rejeição de que o número


médio de horas/homem perdidas em acidentes de trabalho é igual a 60.

Dessa forma, finalizamos a aplicação de um teste de hipótese para


média com variância conhecida. Respondendo a questão do problema,
concluímos que não houve evidência de melhoria, pois não foi possível
rejeitar a hipótese nula.

www.esab.edu.br 290
Agora, use o que você aprendeu sobre o conteúdo apresentado na unidade
43, referente ao teste para proporção, para resolver o problema a seguir.

Exercício 2

“O consumidor de certo produto acusou o fabricante, dizendo que mais


de 20% das unidades fabricadas apresentam defeito. Para confirmar essa
informação ele usou uma amostra de tamanho 50, sendo 27% das peças
defeituosas. Mostre como o fabricante poderá refutar a acusação. Utilize um
nível de significância de 10%”. (BUSSAB; MORETTIN, 2002, p. 337)

Solução

Vamos escrever as hipóteses, nula (H0) e alternativa (H1):

• H0: a proporção de unidades com defeito é igual ou maior que 20%;


• H1: a proporção de unidades com defeito é menor que 20%.
Na segunda etapa da aplicação do teste de hipótese, você deverá
escrever a hipótese nula (H0) e a hipótese alternativa (H1) em termos
matemáticos. Assim, elas serão:

• H0: p ≥ 0,20
• H1: p < 0,20
O nível de significância (a) do teste é a = 10%, conforme mencionado
no enunciado do exercício.

Agora, vamos identificar o valor da estatística para o teste usando a fórmula:


p̂ p
pq

www.esab.edu.br 291
Em que:

• p̂ = proporção amostral;
• p = proporção populacional;
• q = 1 – p;
• n = tamanho da amostra.
Substituindo os valores do enunciado na fórmula anterior, obtemos o
seguinte valor de z:

pˆ − p 0, 27 − 0, 20
=z = =
p.q 0, 20.(1 − 0, 20)
n 50

0,07 0,07
= = 1, 25
0,16 0,0032
50
Na sequência, vamos identificar, no gráfico, o Valor Crítico, a Zona de
Aceitação e a Zona de Rejeição (ou Região Crítica). Você pode verificar
esses valores na Figura 66.

Zona de aceitação
Zona de rejeição

RC

Valor crítico

Figura 66 – Identificação dos Valores Críticos, da Zona de Aceitação e da Zona de Rejeição.


Fonte: Adaptado de <www.bioinfo.ufc.br>.

www.esab.edu.br 292
Para encontrar o Valor Crítico, usaremos a Tabela de Distribuição
Normal Padrão (Tabela 82). Vamos procurar, na parte central da Tabela,
o valor de probabilidade que subtraído de 0,500 resulta em um valor
mais próximo possível de 0,10 (valor de a). Assim, encontramos o valor
de p = 0,4015, que subtraído de 0,5000 resulta 0,0985, e arredondado
para 2 casas decimais é 0,10. Do local em que está o valor 0,4015,
identificamos a casa inteira e a primeira casa decimal de z (na mesma
linha) e a segunda casa decimal de z (na mesma coluna), compondo o
valor de z igual a 1,29.

Para o valor de z = 1,25 (estatística calculada), retiramos da Tabela 82


o valor da Probabilidade de Significância, que é igual a 0,3944. Esse
valor será comparado com o nível de significância para tomar a decisão
do teste. No nosso exercício, como a probabilidade de significância
encontrada é maior que o nível de significância estipulado, nossa decisão
será de aceitar a hipótese nula.

Para finalizar a aplicação do teste, nossa decisão deve ser reformulada em


termos não técnicos, sendo, apresentada da seguinte forma:

Não existe evidência suficiente para garantir a rejeição de que a


proporção de unidades com defeito é igual ou maior que 20%. Dessa
forma, finalizamos a aplicação de um teste de hipótese para proporção.

Nesta unidade, tivemos a oportunidade de acompanhar a resolução de 2


exercícios sobre testes de hipótese para a média com variância conhecida
e testes para proporção. Na próxima unidade vamos conhecer o teste
t-Student.

www.esab.edu.br 293
45 Teste t-Student

Objetivo
Aplicar o teste t-Student.

Na unidade 44, foram resolvidos exercícios sobre os testes de hipótese


para a média com variância conhecida e para proporção. Agora, vamos
conhecer outro tipo de teste de hipótese, o teste t-Student e estudar como
podemos aplicá-lo. Os livros de Levin (2004), de Bisquerra, Martínez
e Sarriera (2004) e de Bussab e Morettin (2002) foram utilizados para
fundamentar teoricamente essa unidade. Inicialmente, destacamos que o
teste de hipótese t-Student pode ser utilizado em duas situações:

a. quando desejarmos aplicar um teste de hipótese para a média e a


amostra for pequena (n < 30), para uma variável com distribuição
normal (BUSSAB; MORETTIN, 2002);
b. quando desejamos comparar duas médias, procedentes de
amostras de uma mesma população (BISQUERRA; MARTÍNEZ;
SARRIERA, 2004).
Vamos estudar cada situação separadamente.

45.1 Teste de hipótese para a média com amostra


pequena
Esse teste será usado quando nos interessa aplicar o teste de hipótese
para a média e dispomos de amostras pequenas, o que é bastante comum
nas pesquisas reais. A aplicação desse tipo de teste segue as etapas
apresentadas na unidade 41, com modificações em algumas delas.

www.esab.edu.br 294
Temos mudança na quarta etapa – identificação da estatística do teste.
Quando a amostra for pequena (n < 30), usaremos a Distribuição
t-Student no lugar da Distribuição Normal para encontrar a estatística
do teste de hipótese, que é o valor de t-Student, obtido usando a seguinte
expressão (BUSSAB; MORETTIN, 2002, p. 348):

x −µ x −µ
=t =
Sx S/ n

Em que:

• x : média amostral;
• m: média populacional;
• Sx: erro-padrão da média amostral;
• S: desvio-padrão da amostra;
• n: tamanho da amostra.
Outra mudança ocorre na sexta etapa de aplicação do teste que consiste
na identificação do valor da Probabilidade de Significância (p). Porém,
nesse tipo de teste de hipótese, buscaremos o valor de t-Student para
usá-lo na comparação com nível de significância (a) adotado, ao invés
de buscar o valor da Probabilidade de Significância (p) como nos demais
testes já apresentados na unidade 43.

Antes de encontrar o valor de t-Student, devemos identificar o grau de


liberdade (gl) através da fórmula gl = n – 1, para que se possa usar a
Tabela de Distribuição t-Student. Na Tabela 83, a coluna do grau de
liberdade está identificada pelo seguinte símbolo - φ/ a.

www.esab.edu.br 295
Tabela 83 – Distribuição t-Student.

Fonte: Morettin (2010, p. 347).

www.esab.edu.br 296
Com o valor encontrado de grau de liberdade (gl), vamos usar a Tabela
83 na qual você buscará identificar a linha do grau de liberdade calculado
e a coluna do nível de significância (a) adotado. Na intersecção da
linha com a coluna identificada anteriormente, você encontrará o valor
t-Student.

Na sétima etapa – decisão do teste – outra mudança ocorre. Aqui você


fará a comparação do valor t-Student calculado com o valor t-Student
tabelado. A decisão do teste de hipótese t-Student obedecerá as seguintes
regras de decisão:

• t calculado < t crítico, deve-se aceitar a hipótese nula;


• t calculado ≥ t crítico, deve-se rejeitar a hipótese nula do teste
(BISQUERRA; MARTÍNEZ; SARRIERA, 2004).
As etapas não citadas com mudanças nesse item serão aplicadas de forma
idêntica ao fluxo apresentado na unidade 41.

Veremos, a seguir, a situação de comparação de duas médias, procedentes


de amostras de uma mesma população.

45.2 Teste de hipótese para comparação entre duas


médias
Nesse caso, temos duas amostras que serão analisadas através do
teste de hipótese t-Student. Segundo Bisquerra, Martínez e Sarriera
(2004), existem duas opções de aplicação desse teste: amostras com
dados independentes e amostras com dados relacionados. Vamos ver,
detalhadamente, cada uma dessas opções de aplicação.

a. Amostras com dados independentes


As amostras são consideradas independentes quando os sujeitos de
pesquisa foram escolhidos ao acaso nos dois grupos em estudo e quando
não existe uma correlação entre os dados obtidos na pesquisa realizada.
Por exemplo, quando as amostras apresentam os dados coletados
(resultados) após a aplicação de dois métodos de produção diferentes
para um mesmo produto.

www.esab.edu.br 297
O teste permite que, para cada amostra, tenhamos um conjunto de
dados coletados e que cada amostra tenha um tamanho (n) diferente ou
igual. Mas, para aplicar essa versão do teste t-Student, devemos conhecer
os valores da média amostral ( x ), do desvio-padrão amostral (S) e o
tamanho da amostra (n) de cada grupo em estudo, ou seja, das duas
amostras em estudo.

Dica
Relembre como se calcula a média amostral
apresentada na unidade 11 – medidas de
tendência central – e como encontrar o desvio-
padrão da amostra visto na unidade 14 – medida
de dispersão.

Uma diferença na aplicação do teste t-Student para amostras consideradas


independentes, ocorre na quarta etapa da aplicação do teste - a
identificação da estatística do teste, obtida através da seguinte fórmula,
encontrada em Bisquerra, Martínez e Sarriera (2004, p. 92):

x1 x2
 (n1 − 1)S12 + (n2 − 1)S22   1 1
   
 n1 + n2 −   n1 n2 

Em que:

• x1 : média da amostra 1;
• x 2 : média da amostra 2;
• n1: tamanho da amostra 1;
• n2: tamanho da amostra 2;
• S1: desvio-padrão da amostra 1;
• S2: desvio-padrão da amostra 2.

www.esab.edu.br 298
Na identificação do grau de liberdade (gl), que ocorre na sexta etapa da
aplicação do teste de hipótese, usaremos a seguinte fórmula encontrada
em Bisquerra, Martínez e Sarriera (2004, p. 92):

gl = n1 + n2 ‒ 2.
Considerando:

• gl: grau de liberdade;


• n1: tamanho da amostra 1;
• n2: tamanho da amostra 2.
As demais etapas de aplicação do teste de hipótese se mantêm inalteradas
em relação aos testes que vimos na unidade 41.

b. Amostras com dados relacionados


Esse tipo de teste é usado quando se coletam os dados referentes aos
sujeitos de pesquisa em duas situações distintas sem que haja mudanças
desses sujeitos nem em suas quantidades, por exemplo, na seguinte
situação: comparação das vendas de um mesmo produto em duas lojas
diferentes de uma mesma rede de lojas quando existe a oferta ou não de
um brinde. As mudanças na aplicação do teste são nas mesmas etapas já
apresentadas anteriormente no item Amostras com dados independentes.
Assim, usaremos a fórmula a seguir para identificar a estatística do teste
– o valor de t-Student (BISQUERRA; MARTÍNEZ; SARRIERA, 2004,
d
p. 96): t = . E, para encontrar os valores para substituir nessa
Sd / n
fórmula, faremos uso de outras fórmulas. Veja:

( ∑ d )2
−∑d 2

d =
x1 − x 2 e Sd = n .
n −1

www.esab.edu.br 299
Sendo:

• t: valor de t-Student;
• d : média das diferenças entre cada par de amostras;
• x1 : média amostra 1;
• x 2 : média amostra 2;
• d: diferença entre as médias;
• Sd: desvio-padrão das diferenças entre cada par de amostras;
• n: tamanho das amostras.
Para identificar o grau de liberdade, será utilizada a fórmula: gl = n – 1
(BISQUERRA; MARTÍNEZ; SARRIERA, 2004, p. 96). Em que: gl:
grau de liberdade; n: tamanho da amostra.

Com essas fórmulas, você poderá identificar o valor de t-Student e fazer


a aplicação desse teste de hipótese, usando as etapas já apresentadas na
unidade 41.

Nesta unidade, você aprendeu a usar o teste de hipótese t-Student em


duas situações distintas – para a média com amostra pequena e para a
comparação entre duas médias:

a. quando as amostras possuírem dados independentes,


b. quando as amostras tiverem seus dados relacionados. Na próxima
unidade, você estudará o teste de hipótese Qui-Quadrado, o que é e
em quais condições poderá utilizá-lo.

www.esab.edu.br 300
Estudo complementar
Vimos nesta unidade os principais conceitos e
como aplicar o ‘Teste de Hipóteses t-Student’
usando a Tabela da distribuição t-Student. Veja
como usar o Excel para aplicar um Teste de
Hipóteses t-Student ’ no vídeo intitulado ‘Como
fazer um teste “T” no Excel’, clicando aqui.

www.esab.edu.br 301
46 Teste Qui-Quadrado

Objetivo
Aplicar o teste Qui-Quadrado

Na unidade 45, foram estudadas as situações em que se pode utilizar


o teste de hipótese t-Student. Nesta unidade, aprenderemos a aplicar
o teste de hipótese Qui-Quadrado. Os livros de Levin (2004), Bussab
e Morettin (2002) e de Bisquerra, Martínez e Sarriera (2004) foram
utilizados para fundamentar esta unidade.

O teste de hipótese Qui-Quadrado é utilizado quando as variáveis


estudadas não são medidas numericamente. Os dados referentes a
essas variáveis são qualitativos (dados categorizados) e só podem ser
apresentados na forma de uma tabela de dupla entrada, que especifica a
frequência dos dados da pesquisa. Um exemplo desse tipo de variável é
de “gênero”, pois temos somente as categorias: feminino ou masculino.
As amostras geralmente são grandes nesse tipo de teste de hipótese.

Esse teste de hipótese mede se existe associação entre as variáveis em


estudo, ou seja, podemos medir o grau de associação entre as variáveis em
estudo. (BISQUERRA; MARTÍNEZ; SARRIERA, 2004).

Para a aplicação do teste Qui-Quadrado, primeiramente, temos que


construir a hipótese nula de forma que ela afirme “[..] que não existem
diferenças significativas entre as distribuições que se comparam”
(BISQUERRA; MARTÍNEZ; SARRIERA, 2004, p. 102), ou seja,
que as variáveis são independentes, não existindo associação entre
elas. As etapas de aplicação do teste Qui-Quadrado seguem o fluxo já
apresentado na unidade 41, com algumas mudanças:

a. inexistência de hipóteses matemáticas;


b. fórmula para o cálculo da estimativa do teste (χ2);

www.esab.edu.br 302
c. fórmula do grau de liberdade (gl);
d. tabela da distribuição Qui-Quadrado.
Usaremos, para encontrar o valor crítico, a Tabela da Distribuição Qui-
Quadrado (MORETTIN, 2010, p. 348). Veja a Tabela 84.

Tabela 84 – Distribuição Qui-Quadrado.

Fonte: Morettin (2010, p. 348).

www.esab.edu.br 303
No topo da Tabela 84, consta uma representação do formato da curva
Qui-Quadrado, observe que essa distribuição não é simétrica em relação
à média dos dados, como a distribuição normal. Na Tabela 84, a coluna
do grau de liberdade (gl) está identificada pelo seguinte símbolo – φ/ a.

Nas demais etapas de aplicação do teste, não há alterações do fluxo


apresentado na Unidade 41.

Para esse tipo de teste, os dados coletados são organizados na forma


de uma tabela de dupla entrada, identificando as variáveis em estudo e
sua frequência observada. Depois, é necessário calcular a frequência
esperada (e), que será obtida através da fórmula a seguir:

(total da linha) ⋅ (total da coluna)


e=
n
Considerando: e: frequência esperada; n: tamanho da amostra.

A estatística do teste a ser utilizada é obtida pela fórmula:

(o − e )2
χ =∑
2

Em que:

• χ2: Qui-Quadrado;
• o: frequência observada;
• e: frequência esperada (BISQUERRA; MARTÍNEZ; SARRIERA
2004, p. 102).
Precisamos do grau de liberdade para usar a Tabela 84 da Distribuição
Qui-Quadrado. O grau de liberdade é obtido com a fórmula: gl = (l – 1)
(c – 1).

Em que: l: número de linhas; c: número de colunas (LEVIN, 2004, p. 197).

www.esab.edu.br 304
Com o valor do nível de significância (a) e com o valor do grau
de liberdade (gl), vamos retirar da Tabela 84 (de Distribuição Qui-
Quadrado ) o valor crítico de χ2, que limitará a zona de rejeição da
hipótese nula.

Na decisão do teste, devemos comparar o valor da estatística χ2 calculada


com o valor crítico de χ2. A decisão do teste será tomada com a seguinte
condição: “Rejeitaremos H0 se o valor observado da estatística for maior
do que o valor crítico, dado pela Tabela 84, fixado um valor do nível de
significância a’’ (BUSSAB; MORETTIN, 2002).

Por meio do exemplo a seguir, adaptado de Bussab e Morettin (2002),


vamos aprender a usar esse tipo de teste de hipótese.

Exemplo

Uma companhia de seguros analisou a frequência com que 2000


segurados (1000 homens e 1000 mulheres) usaram hospitais. Os
resultados dessa análise estão na Tabela 85. Deseja-se verificar se o uso do
hospital independe do sexo do segurado. Para isso, aplique o teste Qui-
Quadrado, usando um nível de significância igual a 5%.

Tabela 85 – Frequências com que 2000 segurados usaram o hospital.


Homens Mulheres
Usaram o hospital 100 150
Não usaram o hospital 900 850

Fonte: Bussab e Morettin (2002, p. 391).

www.esab.edu.br 305
Solução:

Iniciamos a aplicação do teste construindo as hipóteses nula e alternativa.

• H0: O uso do hospital independe do sexo do paciente.


• H1: O uso do hospital depende do sexo do paciente.
Nesse tipo de teste, por estarmos trabalhando com variáveis qualitativas
(ou não numéricas), não podemos escrever as hipóteses na forma
matemática.

Os valores constantes nas células da Tabela 85 representam a frequência


observada (o), ou seja, os valores coletados na pesquisa realizada.

Para calcular a estatística χ2 (Qui-Quadrado), precisamos dos valores da


frequência esperada (e). Vamos ver como obtê-las. Para cada uma das
frequências observadas, calcularemos a respectiva frequência esperada,
usando a fórmula:

(total da linha) ⋅ (total da coluna)


e=
n
Veja que, para usar a fórmula anterior, necessitamos dos totais das linhas
e das colunas da Tabela 85. Então, vamos adaptá-la acrescentando os
totais necessários, conforme mostra a Tabela 86:

Tabela 86 – Frequências com que 2000 segurados usaram o hospital.


Homens Mulheres TOTAL
Usaram o hospital 100 (a) 150 (c) 250
Não usaram o hospital 900 (b) 850 (d) 1750
TOTAL 1000 1000 2000 (n)

Fonte: Adaptada de Bussab e Morettin (2002).

www.esab.edu.br 306
Dica
Veja que em cada célula colocamos uma letra
como forma de identificá-la, isso é feito com a
finalidade de não misturar os valores na hora do
cálculo.

Agora, podemos calcular as frequências esperadas para cada célula.


Vamos aos cálculos:

(total da linha) ⋅ (total da coluna)


=
Célula a: e
n
(250) ⋅ (1000)
= = 125
2000

(total da linha) ⋅ (total da coluna)


=
Célula b: e
n
(1750) ⋅ (1000)
= = 875
2000

(total da linha) ⋅ (total da coluna)


=
Célula c : e
n
(250) ⋅ (1000)
= = 125
2000

(total da linha) ⋅ (total da coluna)


=
Célula d: e
n
(1750) ⋅ (1000)
= = 875
2000

www.esab.edu.br 307
Vamos agora calcular a estatística χ2 para essa situação usando a fórmula
a seguir:

(o − e )2 (o − e )2 (o − e )2 (o − e )2 (o − e )2
χ 2
=∑ = + + +
e e e e e
(100 − 125) (900 − 875) (150 − 125) (850 − 875)2
2 2 2
χ2 = + + +
125 875 125 875
( −25) (25) (25) ( −25)
2 2 2 2
χ2 = + + +
125 875 125 875
625 625 625 625
χ2 = + + +
125 875 125 875
χ2 = 5 + 0, 71 + 5 + 0, 71 = 11, 42
Assim, o valor de χ é 11,42.
2

Agora, vamos identificar o grau de liberdade usando a fórmula:

gl = (l − 1) ⋅ (c − 1) = (2 − 1) ⋅ (2 − 1) = 1

Com o valor de gl e o valor de a = 0,05, vamos usar a Tabela 84, da


Distribuição Qui-Quadrado, para encontrar o valor crítico de χ , que é
2

3,8415, veja na tabela a seguir:

www.esab.edu.br 308
Tabela 87 – Distribuição χ 2 de Qui-Quadrado

gl

α
Fonte: Morettin (2010, p. 347).

Relembrando que rejeitaremos H0 se o valor observado da estatística for


maior do que o valor crítico, dado pela Tabela 84, fixado um valor do
nível de significância a. Como o valor calculado da estatística é maior (χ2
= 11,42) do que o valor encontrado na tabela (χ2 = 3,841), a decisão será
de rejeitar a H0 = O uso do hospital depende do sexo do paciente. Assim,

www.esab.edu.br 309
a decisão será apresentada da seguinte forma: existe evidência suficiente
para garantir a rejeição de que o uso do hospital independe do sexo do
paciente.

Desse modo, finalizamos a aplicação do teste de hipótese Qui-Quadrado.

Nesta unidade, você aprendeu a utilizar o teste de hipótese Qui-


Quadrado (χ2), um teste aplicável quando você dispõe de variáveis
qualitativas, aquelas variáveis cujas respostas não são numéricas, e
tem como obter as frequências (%) de cada uma das categorias dessas
respostas. Na sequência, você encontrará exercícios resolvidos sobre os
testes de hipótese t-Student para amostras pequenas e para comparação de
médias de duas amostras de dados e Qui-Quadrado.

Para sua reflexão


Reflita sobre a questão: Porque o Teste de Hipótese
Qui-Quadrado é tão importante para as pesquisas
na área social?
A resposta a essa reflexão faz parte de seu
processo de aprendizagem, que é individual,
assim não precisa ser comunicada ou enviada aos
tutores. Busque no material teórico apresentado
nessa unidade as respostas às questões acima.

www.esab.edu.br 310
47 Exercícios resolvidos
Objetivo
Apresentar exercícios resolvidos sobre testes de hipótese utilizando os
testes t-Student e Qui-Quadrado.

Na unidade 45, você apreendeu a aplicar o teste de hipótese t-Student


e, na unidade 46, o teste de hipótese Qui-Quadrado. Agora vamos fixar
esses novos conhecimentos resolvendo os exercícios a seguir, que estão
fundamentados em Levin (2004), Bussab e Morettin (2002) e Bisquerra,
Martínez e Sarriera (2004).

O exercício a seguir corresponde ao teste t-Student para média com


amostra pequena, apresentado na unidade 45.

Exercício 1

“Um fabricante afirma que seus cigarros contêm não mais que 30 mg de
nicotina. Uma amostra de 25 cigarros fornece uma média de 31,5 mg e
um desvio-padrão de 3 mg. No nível de 5%, os dados refutam ou não a
afirmação do fabricante?” (BUSSAB; MORETTIN, 2002, p. 349).

Solução

Vamos construir as hipóteses.

• H0: A média de nicotina nos cigarros é menor ou igual a 30 mg.


• H1: A média de nicotina nos cigarros é maior do que 30 mg.
Agora, escrevemos as hipóteses em termos matemáticos. Elas serão:

• H0: m1 ≤ 30 mg
• H1: m1 > 30mg

www.esab.edu.br 311
Para identificar o valor da estatística do teste, vamos substituir os valores
=x 31,5, = µ 30, = S 3= e n 25 na fórmula a seguir:

x − µ x − µ 31,5 − 30 1,5
t= = = =
− =
2,5
Sx S/ n 3 / 25 0, 6
Vamos identificar o grau de liberdade (gl) para que se possa usar a Tabela
83 de Distribuição t-Student usando a seguinte fórmula: gl = n – 1 = 25 –
1 = 24.

Com o valor calculado do grau de liberdade (gl), vamos à Tabela


87 identificar a linha do grau de liberdade e a coluna do nível de
significância (a = 5% = 0,05) adotado. Na Tabela 87, a coluna do grau
de liberdade está identificada pelo seguinte símbolo - φ/ a.

Tabela 88 – Distribuição t-Student.

Fonte: Morettin (2010, p. 347).

www.esab.edu.br 312
Na intersecção da linha com a coluna identificada, você encontrará o
valor t-Student desejado nessa etapa, que é igual a 2,064.

Comparando o valor t-Student calculado (2,5) com o valor t-Student


tabelado (2,064) e usando a regra de decisão do teste de hipótese
t-Student, que é: se t calculado < t crítico, deve-se aceitar a hipótese nula;
e se t calculado ≥ t crítico deve-se rejeitar a hipótese nula do teste. A
decisão será: Existe evidência suficiente para garantir a rejeição de que a
média de nicotina nos cigarros é menor ou igual a 30 mg.

O próximo exercício, adaptado de Bisquerra, Martínez e Sarriera (2004),


está relacionado ao teste t-Student para comparação entre duas médias
com amostras com dados independentes, tema abordado na unidade 45.

Exercício 2

Deseja-se comparar o rendimento escolar dos meninos com o das


meninas, a um nível de significância de 10%. Os dados recolhidos
referentes às notas dos dois grupos são: Meninos: 6; 7; 5; 8; 5; 4 e
Meninas: 6; 9; 8; 3; 5; 7.

Solução

Vamos construir as hipóteses.

• H0 : A média das notas dos meninos é igual a média das notas das
meninas.
• H1: A média das notas dos meninos é diferente da média das notas
das meninas.
Agora, escrevemos as hipóteses em termos matemáticos. Elas serão:

• H0: m1 = m2
• H1: m1 ≠ m2

www.esab.edu.br 313
Para aplicar a fórmula da estatística t, antes devemos calcular a média
e o desvio-padrão de cada uma das amostras. Usando as fórmulas
apresentadas na unidade 11 (média) e na unidade 14 (desvio-padrão),
chegamos aos seguintes resultados:

= =
x1 5,83; x 2 6,= =
63; S1 1, 47 e S2 2,16.

Agora, podemos aplicar a fórmula:


x1 − x 2
t=
 (n1 − 1).S12 + (n2 − 1).S22   1 1 
  + 
 n 1 + n2 − 2   n1 n2 

5,83 − 6, 63
t=
 ( 6 − 1) .1, 47 2 + (6 − 1).2,16 2  1 1 
  + 
 6+6−2  6 6 

−0,80
t=
10,8045 + 23,3280 2
.
10 6
−0,80 −0,80
=t =
34,1325 2 1,13775
.
10 6
−0,80
t= = −0, 7500091 =
−0, 75
1,0666536

O valor crítico de t é obtido na Tabela 87 com o grau de liberdade e o


nível de significância. Assim, t crítico é igual a 2,228, para gl = n1 + n2 ‒
2 e a/ 2 = 5% (igual a 10%/ 2, porque o teste é bicaudal).

Como o valor crítico (2,228) é superior ao valor calculado (‒ 0,75),


podemos aceitar H0. Assim, a decisão será: não existe evidência suficiente
para garantir a rejeição de que a média das notas dos meninos é igual à
média das notas das meninas.

www.esab.edu.br 314
A seguir, vejamos um exercício relacionado ao teste t-Student para
comparação entre duas médias com amostras com dados relacionados,
assunto que estudamos na unidade 45.

Exercício 3

Imagine que você queira comparar as notas da disciplina de Estatística


com as notas da disciplina de Pedagogia em um grupo de seis indivíduos
em um nível de significância de 10%. Os dados recolhidos referentes às
notas das disciplinas são: Estatística: 6; 7; 5; 8; 5; 4 e Pedagogia: 6; 7; 8;
9; 5; 3 (BISQUERRA; MARTÍNEZ; SARRIERA, 2004).

Solução

Vamos construir as hipóteses:

• H0: A média das notas de Estatística é igual à média das notas de


Pedagogia.
• H1: A média das notas de Estatística é diferente da média das notas
de Pedagogia.
Agora, escrevemos as hipóteses em termos matemáticos. Elas serão:

• H0: m1 = m2
• H1: m1 ≠ m2
Para aplicar a fórmula da estatística t, antes devemos calcular a média da
diferença (d ) e o desvio-padrão da diferença (Sd), vamos usar a Tabela 88
para organizar o nosso raciocínio:

As notas da disciplina de Estatística estão representadas por ‘X’ e as notas


da disciplina de Pedagogia estão representadas por ‘Y’ na Tabela 88.
Lembre que a diferença (d) é dada pela subtração do valor da variável
Y do valor da variável X. Volte na Unidade 45 - Teste de Hipótese
t-Student para relembrar como se aplica esse teste.

www.esab.edu.br 315
Tabela 89 – Organização dos dados.

X 6 7 5 8 5 4 ∑ = 35
Y 6 7 8 9 5 3 ∑ = 38
d 0 0 -3 -1 0 1 ∑= −3

d2 0 0 9 1 0 1 ∑ = 11
Fonte: Adaptada de Bisquerra, Martínez e Sarriera (2004).

=
x1
∑ X=
35
= 5,83
n 6

x=
∑Y= 38
= 6,33
2
n 6

Substituindo os valores nas fórmulas, teremos:

d =x1 − x 2 =
5,83 − 6,33 =
− 0,5

(∑ d )
2
( −3)2
∑d n
11 − 2

6

11 − 1,5
=Sd = = = 1,9
n −1 6 −1 5

d −0,5 −0,5
t= = = = −0,89
Sd / n 1,378 / 6 0,56
O valor crítico de t é obtido, na Tabela 88, com gl = n – 1 = 6 – 1 = 5 e
a/ 2 = 5% (igual a 10%/2, porque o teste é bicaudal). Assim, t crítico é
igual a 2,571.

Como o valor crítico (2,571) é superior ao valor calculado ( –0,89),


podemos aceitar H0. A decisão será: não existe evidência suficiente para
garantir a rejeição de que a média das notas de Estatística é igual à média
das notas de Pedagogia.

A seguir, acompanhe um exercício relacionado ao teste Qui-Quadrado,


assunto apresentado na unidade 46.

www.esab.edu.br 316
Exercício 4

Em uma amostra composta de 20 liberais e de 20 conservadores foi


pesquisado o uso de métodos permissivos e não permissivos na educação
de crianças. Verifique, ao nível de significância de 5%, se existe associação
entre as variáveis “orientação política” e “permissividade na educação de
crianças”. O resultado da coleta de dados é apresentado na Tabela 89:

Tabela 90 – Distribuição dos dados coletados.

Uso de Métodos na Orientação política


educação de crianças Liberais Conservadores
Permissivos 5 10
Não permissivos 15 10

Fonte: Adaptada de Levin (2004).

Solução

Iniciamos a aplicação do teste construindo as hipóteses nula e alternativa:

• H0: A orientação política independe do uso de métodos na educação


de crianças.
• H1: A orientação política depende do uso de métodos na educação
de crianças.
Os valores constantes nas células da Tabela 89 representam a frequência
observada (o). Para calcular a estatística χ2 (Qui-Quadrado), precisamos
dos valores da frequência esperada (e). Vamos ver como obtê-la, usando a
fórmula:

(total da linha) ⋅ (total da coluna)


e=
n

Veja que, para usar a fórmula anterior, necessitamos dos totais das linhas
e das colunas da Tabela 89. Então, vamos adaptá-la, acrescentando os
totais necessários. Observe a Tabela 90 que mostra o resultado.

www.esab.edu.br 317
Tabela 91 – Distribuição dos dados coletados.

Uso de Métodos na Orientação política


Total
educação de crianças Liberais Conservadores
Permissivos 5 (a) 10 (c) 15
Não permissivos 15 (b) 10 (d) 25
Total 20 20 40

Fonte: Adaptada de Levin (2004).

Agora podemos calcular as frequências esperadas para cada célula. Vamos


aos cálculos:

(total da linha) ⋅ (total da coluna) (15) ⋅ (20)


=
Célula a: e = = 7,5
n 40
(total da linha) ⋅ (total da coluna) (25) ⋅ (20)
=
Célula b: e = = 12,5
n 40
(total da linha) ⋅ (total da coluna) (15) ⋅ (20)
=
Célula c: e = = 7,5
n 40
(total da linha) ⋅ (total da coluna) (25) ⋅ (20)
=
Célula d: e = = 12,5
n 40

Vamos, agora, calcular a estatística χ2 para essa situação usando a fórmula


a seguir:

(o − e )2 (o − e )2 (o − e )2 (o − e )2 (o − e )2
χ2 = ∑ = + + +
e e e e e

(5 − 7,5)2 (15 − 12,5)2 (10 − 7,5)2 (10 − 12,5)2


χ =2
+ + +
7,5 12,5 7,5 12,5

( −2,5)2 (2,5)2 ( −2,5)2 (2,5)2


χ =2
+ + +
7,5 12,5 7,5 12,5

6, 25 6, 25 6, 25 6, 25
χ2 = + + +
7,5 12,5 7,5 12,5

χ 2 = 0,83 + 0,50 + 0,83 + 0,50 = 2, 66


Assim, o valor de χ2 é 2,66.

www.esab.edu.br 318
Agora, vamos identificar o grau de liberdade usando a fórmula:

gl = (l − 1).(c − 1) = (2 − 1).(2 − 1) = 1

Usaremos a Tabela da Distribuição Qui-Quadrado para encontrar o valor


crítico de χ2, com o valor de gl e o valor de a = 0,05, que é 3,841. Veja a
Tabela 91:

Tabela 92 – Distribuição Qui-Quadrado.

Fonte: Morettin (2010, p. 348).

www.esab.edu.br 319
Na Tabela 91, a coluna do grau de liberdade está identificada pelo seguinte
símbolo - φ/ a. Como o valor calculado da estatística é menor (χ2 = 2,66)
do que o valor encontrado na Tabela (χ2 = 3,841), a decisão será de aceitar
a H0. Por isso, a decisão será apresentada da seguinte forma: não existe
evidência suficiente para garantir a rejeição de que a orientação política
independe do uso de métodos na educação de crianças.

Nesta unidade, você exercitou os conhecimentos das unidades 45 e 46


sobre os testes de hipótese t-Student e Qui-Quadrado, respectivamente.
Na próxima unidade vamos fazer mais exercícios sobre os testes de
hipóteses apresentados das unidades 42 a 46.

Tarefa dissertativa
Caro estudante, convidamos você a acessar o
Ambiente Virtual de Aprendizagem e realizar a
tarefa dissertativa.

www.esab.edu.br 320
48 Exercícios resolvidos
Objetivo
Apresentar exercícios resolvidos sobre testes de hipótese das
unidades 42 a 46 .

Na unidade anterior, fizemos exercícios sobre os Testes t-Student e Qui-


Quadrado. Nesta unidade, vamos acompanhar a resolução de exercícios
sobre testes bilaterais, unilaterais, de hipóteses para proporção, t-Student
e Qui-Quadrado. Os exercícios apresentados nesta unidade estão
fundamentados nas obras de Bussab e Morettin (2002) e Levin (2004).

Vamos começar resolvendo um problema apresentado como exemplo


de teste unilateral à direita na unidade 42, que também é um teste de
hipótese t-Student com amostra pequena.

Exercício 1

Uma companhia de serviços de ônibus intermunicipais planejou


uma nova rota para servir vários locais situados entre duas cidades
importantes. Um estudo preliminar afirma que a duração das viagens
pode ser considerada uma variável aleatória normal, com média igual
a 300 minutos e desvio-padrão de 30 minutos. As dez primeiras
viagens realizadas nessa nova rota apresentaram uma média igual a 314
minutos. Esse resultado comprova ou não o tempo determinado nos
estudos preliminares? Use um nível de significância de 5% (BUSSAB;
MORETTIN, 2002, p. 342).

www.esab.edu.br 321
Solução

Estamos trabalhando com um teste t-Student para amostras pequenas,


apresentado na unidade 45, que é um teste unilateral à direita, pois
somente a cauda direita da Curva de Gauss está participando do teste de
hipótese, uma vez que a duração média das dez viagens realizadas (314
minutos) foi maior do que a duração do estudo preliminar.

Vamos iniciar pela construção das hipóteses:

• H0: A duração média das viagens é igual ou menor que 300 minutos.
• H1: A duração média das viagens é maior do que 300 minutos.
Escritas em termos matemáticos ficam:

• H0: m ≤ 300 min


• H1: m > 300 min
Agora vamos encontrar a estatística do teste usando a fórmula:

x −µ
t=
Sx
Sendo:

• x = 314

• m = 300

=
• Sx S=
/ n 30 / 10
x − µ 314 − 300 14
=
• t = = = 0,147
S/ n 30 / 10 9, 49

Para poder identificar o valor crítico de t-Student na Tabela de


Distribuição t-Student, devemos calcular o grau de liberdade usando a
fórmula: gl = n – 1 = 10 – 1 = 9.

www.esab.edu.br 322
Com o valor encontrado de grau de liberdade (gl), vamos usar a Tabela de
Distribuição t-Student para identificar a linha do grau de liberdade calculado
e a coluna do nível de significância (a) adotado. Veja a Tabela 92:

Tabela 93 – Distribuição t-Student.

Fonte: Morettin (2010, p. 347).

www.esab.edu.br 323
Na intersecção da linha com a coluna identificada anteriormente, você
encontrará o valor crítico de t-Student. que é igual a 2,262.

Como o valor crítico de t-Student é maior (2,262) do que o valor


calculado (0,147), a decisão do teste de hipótese t-Student será de aceitar
a hipótese nula. A decisão será: Não existe evidência suficiente para
garantir a rejeição de que a “duração média das viagens” é igual ou menor
que 300 minutos (H0).

Exercício 2

Certo pesquisador decide testar se o comportamento caridoso varia


em função do “anonimato” ou “não-anonimato” do doador. Para isso,
fez uma pesquisa com duas amostras diferentes, uma amostra de seis
doadores que permaneceram no “anonimato” e outra amostra de seis
doadores que permaneceram no “não-anonimato”, registrando a quantia
que cada um doou. O resultado das doações pode ser observado na
Tabela 93. O pesquisador estabeleceu o nível de significância em 5%.
(LEVIN, 2004).

Tabela 94 – Resultados das doações.

Quantias doadas no Quantias doadas no não-


Doador
anonimato anonimato”
1 1 3
2 2 5
3 1 5
4 1 5
5 2 4
6 1 5

Fonte: Adaptada de Levin (2004).

Solução

Estamos trabalhando com um teste t-Student para amostras com dados


independentes, assunto foi apresentado na unidade 45.

www.esab.edu.br 324
Vamos resolver o problema iniciando pela construção das hipóteses:

• H0: A média da doação dos doadores no “anonimato” é igual à


média da doação dos doadores no “não-anonimato”.
• H1: A média da doação dos doadores no “anonimato” é diferente da
média da doação dos doadores no “não-anonimato”.
Agora, escrevemos as hipóteses em termos matemáticos. Elas serão:

• H0: m1 = m2
• H1: m1 ≠ m2
Esse exercício também é um teste de hipótese bilateral, já que
trabalharemos com o sinal de diferente na hipótese alternativa. Para
aplicar a fórmula da estatística t, antes devemos calcular a média
e o desvio-padrão de cada uma das amostras. Usando as fórmulas
apresentadas na unidade 11 (média) e na unidade 14 (desvio-padrão)
chegamos aos seguintes resultados:

= =
x1 1,33; =
x 2 4,5; S1 0, 48=
e S2 0,76.

Agora, podemos aplicar a fórmula:

x1 − x 2
t=
 (n1 − 1) ⋅ S12 + (n2 − 1) ⋅ S22  1 1
 ⋅ + 
 n1 + n2 − 2   n1 n2 

1,33 − 4,50
t=
 (6 − 1) ⋅ 0, 482 + (6 − 1) ⋅ 0, 76 2  1 1
 ⋅ + 
 6+6−2  6 6

−3,17 −3,17
=t =
1,152 + 2,888 2 4,04 2
⋅ ⋅
10 6 10 6
−3,17 −3,17
t= = = −8, 64
0, 404.0,333 0,3668

www.esab.edu.br 325
O valor crítico de t é obtido na Tabela 92 com o grau de liberdade
e o nível de significância. Assim, t crítico é igual a 2,228, para
gl = n1 + n2 − 2 = 10 e a / 2 = 5% (igual a 10%/2, porque o teste é
bicaudal).

Como o valor crítico (2,228) é inferior ao valor calculado (–8,64),


podemos rejeitar H0. A decisão será: Existe evidência suficiente para
garantir a rejeição de que a média da doação dos doadores no “anonimato”
é igual à média da doação dos doadores no “não-anonimato”.

Exercício 3

Considere que cinco operadores de certo tipo de máquina são treinados


em máquinas de duas marcas diferentes, A e B. Mediu-se o tempo que
cada um deles gasta na realização da mesma tarefa e os resultados estão
na Tabela 94:

Tabela 95 – Tempos para a realização da tarefa pelos operadores.


Tempo tarefa na Tempo tarefa na
Operador
Máquina Marca A Máquina Marca B
A 80 75
B 72 70
C 65 60
D 78 72
E 85 78

Fonte: Bussab e Morettin (2002, p. 376).

“Ao nível de significância de 10%, poderíamos afirmar que a tarefa


realizada na máquina A demora mais do que na máquina B?” (BUSSAB;
MORETTIN, 2002, p. 376).

www.esab.edu.br 326
Solução

Estamos trabalhando com um teste t-Student para amostras com dados


relacionados apresentado na unidade 45. Vamos construir as hipóteses:

• H0: A média dos tempos de execução da tarefa na máquina A é igual


à média dos tempos de execução da tarefa na máquina B.
• H1: A média dos tempos de execução da tarefa na máquina A é
diferente da média dos tempos de execução da tarefa na máquina B.
Agora, escrevemos as hipóteses em termos matemáticos. Elas serão:

• H0: mA = mB
• H1: mA ≠ mB
Como na hipótese alternativa estamos usando o sinal de diferente,
estamos trabalhando com um teste de hipótese bilateral.

Para aplicar a fórmula da estatística t, antes devemos calcular a média da


diferença (d ) e o desvio-padrão da diferença (Sd ), vamos usar a Tabela 95.

Tabela 96 – Organização dos dados.

A 80 72 65 78 85 ∑ = 380
B 75 70 60 72 78 ∑ = 355
d 5 2 5 6 7 ∑ = 25
d2 25 4 25 36 49 ∑ = 139
Fonte: Elaborada pela autora (2013).

Os valores de x1 são os dados da máquina A e os valores de x 2 são os


dados da máquina B. Os valores de x1 e de x 2 são obtidos usando a
fórmula de média aritmética apresentada na unidade 12 e o valor de Sd
é obtido usando a fórmula de desvio-padrão apresentada na Unidade 14 .

Substituindo os valores nas fórmulas temos:

www.esab.edu.br 327
d = x1 − x 2 = 76 − 71 = 5

(25)2 ( ∑ d )2
∑d − n 139 − 2

5 139 − 125
=Sd = = = 3,5
n −1 5 −1 4

d 5
=t = = 3,19
Sd / n 3,5 / 5

O valor crítico de t é obtido na Tabela de Distribuição t-Student (Tabela


92) com gl = n – 1 = 5 – 1 = 4 e a / 2 = 5% (igual a 10%/2, porque o
teste é bicaudal). Assim, t crítico é igual a 2,776.

Como o valor crítico (2,776) é menor ao valor calculado (3,19), podemos


rejeitar H0. A decisão será: Existe evidência suficiente para garantir a
rejeição de que a média dos tempos de execução da tarefa na máquina A é
igual à média dos tempos de execução da tarefa na máquina B.

Assim, poderíamos afirmar que a tarefa realizada na máquina A demora


mais que na máquina B.

Chegamos ao final desta unidade, na qual você resolveu exercícios sobre


os testes de hipótese apresentados nas unidades 42 a 46 e também ao
final dessa disciplina. Temos certeza de que você fixou os conhecimentos
apresentados na disciplina, os quais serão muito úteis em sua vida
profissional. Desejamos sucesso para você!

Atividade
Chegou a hora de você testar seus conhecimentos
em relação às unidades 37 a 48. Para isso, dirija-
se ao Ambiente Virtual de Aprendizagem (AVA) e
responda às questões. Além de revisar o conteúdo,
você estará se preparando para a prova. Bom
trabalho!

www.esab.edu.br 328
Resumo

Você aprendeu a aplicação dos testes de hipótese para média com


variância conhecida e para proporção na unidade 43 e na unidade 44
foram resolvidos, passo a passo, exercícios sobre os testes de hipótese
para a média com variância conhecida e para proporção. Estudamos que
o teste t-Student, apresentado na unidade 45, pode ser usado em três
situações: a) para médias com amostras pequenas; b) para comparação
entre duas médias, podendo ser aplicado para amostras com dados
independentes ou amostras com dados relacionados.O teste de
hipóteses Qui-Quadrado, que trabalha com variáveis qualitativas, foi
apresentado na unidade 46. Foram resolvidos exercícios sobre os testes
de hipóteses t-Student e Qui-Quadrado na unidade 47 e, na unidade 48,
foram resolvidos exercícios sobre os testes de hipótese apresentados na
unidade 42 – Testes bilaterais e unilaterais; na unidade 43 – Testes de
hipótese para média com variância conhecida e para proporção; unidade
45 – Teste t-Student; e na unidade 46 – Teste Qui-Quadrado para que
você fixe os conhecimentos adquiridos nessas unidades.

www.esab.edu.br 329
Glossário

Acaso
Significa a ocorrência de algum fato determinado de forma aleatória. O
aleatório (isto é, o acaso) é, grosso modo, causado por diversos fatores
pelos quais perdemos o controle da ocorrência de uma situação ou fato.
É a inexistência de um padrão. R

Aleatoriamente
Significa a ocorrência de algum fato determinado de forma aleatória, isto
é, pelo acaso. O aleatório é, grosso modo, causado por diversos fatores
pelos quais perdemos o controle da ocorrência de uma situação ou fato.
É a inexistência de um padrão. R

Análoga
Diz-se de algo que é semelhante, similar, parecido com outra coisa. R

Área tabelada
É a área que foi usada como base para encontrar o valor da probabilidade
de ocorrência. R

Arredondar
Efetuar o arredondamento de um número usando regras matemáticas.
R

Assimetria
É o contrário da simetria, ou seja, é quando um lado tem uma proporção
maior (ou menor) que o outro lado. R

www.esab.edu.br 330
Assimétrico
É o contrário de simétrico, ou seja, é quando um lado tem uma porção
maior (ou menor) que o outro. R

Axiomas
São verdades inquestionáveis, universalmente válidas, utilizadas como
princípios na construção de uma teoria ou usadas como base para uma
argumentação. R

Boxplot
É um gráfico apropriado para resumir o conjunto de observações de uma
variável quantitativa. R

Caudas
Na Curva de Gauss, são representadas pelas áreas à esquerda e à direita
da posição da média dessa curva. R

Censitária
Vem da palavra “censo”, que é o processo de levantamento de dados para
estudar a população inteira. R

Coloquial
Modo de escrita e fala utilizado na linguagem cotidiana, no nosso dia a
dia. R

Correlação
Dependência entre as funções de distribuição de duas ou mais variáveis
aleatórias, em que a ocorrência de um valor de uma das variáveis favorece
a ocorrência de um conjunto de valores das outras variáveis. R

www.esab.edu.br 331
Curva de Gauss
É o nome da curva da distribuição normal (curva em forma de sino). Foi
utilizada por Carl Gauss, em 1809, em análises de dados astronômicos.
R

Curva normal
Curva que apresenta uma área central em volta dos pontos de maior
frequência localizada no centro da curva, que representa a mídia dos
pontos. R

Dados
Um conjunto (ou mais) de valores numéricos (ou não). R

Dados brutos
Resultados numéricos não organizados obtidos da observação direta de
um fenômeno. R

Derivação
No cálculo, a derivada representa a taxa de variação de uma função. R

Diagrama de Venn
É um desenho ou esquema usado para representar relações entre
conjuntos. R

Escala de Likert
É uma escala em que as respostas para cada item variam segundo o grau
de intensidade: 1 – discordo totalmente, 2 – discordo parcialmente, 3 –
indiferente, 4 – concordo parcialmente e 5 – concordo totalmente. R

www.esab.edu.br 332
Estimador
É uma função matemática por meio da qual se obtém o valor de uma
estatística; é toda estatística amostral que tem um correspondente
parâmetro na população. R

Frequência
Número de vezes que um valor ou um subconjunto de valores do
domínio de uma variável aleatória aparece em uma experiência ou em
uma observação de caráter estatístico. R

Grandezas inversamente proporcionais


Duas grandezas são ditas inversamente proporcionas quando
aumentando uma delas a outra diminui na mesma proporção, e vice-
versa. R

Hipótese
É qualquer suposição passível de ser verificada (demonstrada). R

Incerteza
Pode ser compreendida como a falta de certeza ocasionada pela
variabilidade de certo fenômeno. R

Índice
O índice de um elemento representa a ordenação dele de modo a
distingui-lo dos demais elementos da variável em que se está trabalhando.
R

Inferir
Tirar uma conclusão. R

Integração

www.esab.edu.br 333
O processo de integração de uma função, em matemática, é o cálculo da
área delimitada pela curva em um intervalo dessa função. R

Intersecção
É o ponto de cruzamento entre uma linha e uma coluna da tabela de
Distribuição Normal Padrão. R

Justapostos
Significa que estão juntos. Assim, em um gráfico histograma, as barras
estão juntas (grudadas), justapostas. R

Mutuamente exclusivo
Em probabilidade, dizemos que dois eventos quaisquer são mutuamente
exclusivos quando não existem elementos comuns entre eles. Podemos
dizer também que esses eventos são disjuntos. R

Notação
É a forma de identificar ou de escrever um determinado símbolo
matemático. R

Parâmetro
É a medida que descreve certa característica dos elementos da população
de interesse. R

Progressão geométrica
Uma sequência de números reais é chamada de sequência geométrica, ou
Progressão Geométrica (PG), quando cada um de seus termos, a partir
do segundo, é igual ao produto do anterior por uma constante dada,
chamada razão da sequência geométrica. R

www.esab.edu.br 334
Refutar
O mesmo que rejeitar. R

Restritivo
Significa ficar dentro de certos limites. R

Simétrico
Dizemos que uma distribuição é simétrica quando um lado da
distribuição é o reflexo do outro lado. Se considerarmos em valor
percentual, dizemos que um lado tem o mesmo percentual que o outro,
ou seja, cada lado possui 50%. R

Tabela de contingência
Chamamos de tabela de contingência uma tabela que relaciona mais de
uma variável em estudo. Assim, quando relacionamos duas variáveis,
inserimos na primeira linha as categorias de uma variável e na primeira
coluna as categorias da outra variável. Os valores da tabela correspondem
às frequências absolutas de ambas as variáveis. R

Tabela de dupla entrada


Tabela que mostra a relação entre os dados de duas variáveis. R

Tese
É uma proposição conclusiva. R

Unidade de medida de afastamento


Fornece a distância entre os valores do eixo x no gráfico da Distribuição
z; é a escala do eixo x no gráfico da Distribuição z. R

Variabilidade
Possibilidade de mudar (de diversificar). R

www.esab.edu.br 335
Variações percentuais sucessivas
A razão entre uma grandeza (ou objeto) em um instante inicial 0 a t,
expressa em percentual, é chamada de variação percentual. Essa variação
percentual será sucessiva quando existir uma sequência sucessiva de
variações percentuais. R

www.esab.edu.br 336
Referências

BARBETTA, P. A. Estatística aplicada às Ciências Sociais. 7. ed. Florianópolis:


EdUFSC, 2011.

BISQUERRA, R.; MARTÍNEZ, F.; SARRIERA, J. C. Introdução à estatística:


enfoque informático com o pacote estatístico Spss. Porto Alegre: Artmed, 2004.

BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 5. ed. São Paulo:


Saraiva, 2002.

FERREIRA, Aurélio Buarque de Holanda. Dicionário eletrônico Aurélio


Século XXI. Rio de Janeiro: Nova Fronteira e Lexikon Informática, 1999.

IEZZI, G.; HAZZAN, S.; DEGENSZAJN, D. M. Fundamentos de


matemática elementar: matemática comercial, matemática financeira e estatística
descritiva. v. 11. São Paulo: Atual, 2004.

LEVIN, J. Estatística para ciências humanas. São Paulo: Prentice Hall, 2004.

MAGALHÃES, A. N.; LIMA, A. C. P. Noções de probabilidade e estatística. 6.


ed. São Paulo: Edusp, 2005.

MLODINOW, L. O andar do bêbado. Rio de Janeiro: Zahar, 2009.

MORETTIN, L. G. Estatística básica: probabilidade e inferência. São Paulo:


Pearson Prentice Hall, 2010.

SOUZA, A. C. de; FIALHO, F.; OTANI, N. TCC: métodos e técnicas.


Florianópolis: Visual Books, 2007.

www.esab.edu.br 337

Você também pode gostar