Você está na página 1de 151

ESTATÍSTICA

APLICADA

Simone Echeveste

1
SUMÁRIO

Introdução ................................................................................................. 003

1. Conceitos Básicos de Estatística ....................................................... 004

2. Apresentação de Dados...................................................................... 015

2.1. Tabelas de Frequencia ............................................................. 015

2.2. Gráficos .................................................................................... 018

3. Medidas de Tendência Central ........................................................... 032

4. Medidas de Variabilidade ................................................................... 044

5. Distribuição de probabilidade Normal.................................................. 055

6. Amostragem ....................................................................................... 072

7. Estimação................................................. 084

8. Testes de Hipóteses ........................................................................... 097

9. Análise de Correlação ........................................................................ 124

10. Análise de regressão................................................... 138

2
INTRODUÇÃO

O grande avanço tecnológico das últimas décadas gerou a necessidade


de formação de profissionais capazes de acompanhar este desenvolvimento
com habilidades para gerar e analisar dados, produzindo informação útil a ser
utilizada na resolução de problema. Neste contexto as ferramentas estatísticas
são imprescindíveis e o conhecimento das mesmas torna-se necessário para
qualquer profissional.

. A Estatística hoje se configura como uma das ciências que mais vem
crescendo em termos de utilização e importância na Administração: pesquisas
de marketing, comportamento do consumidor, estudos de qualidade,
confiabilidade, desenvolvimentos de novos produtos, avaliação de de
satisfação dos clientes, etc. são alguns exemplos da ampla utilização das
ferramentas estatísticas para resolução de problemas e tomada de decisões
nesta área.

A disciplina de Estatística Aplicada tem por objetivos: propiciar ao aluno


o estudo da estatística com vistas a análise de dados experimentais, cálculo e
interpretação das medidas descritivas, utilização de testes estatísticos como
ferramenta de análise de comparação e relação de dados no contexto das
pesquisas realizadas na área de Administração.

Os conteúdos serão apresentados em 10 capítulos contendo a


explicação teórica dos mesmos, bem como a apresentação de exemplos e
aplicações em problemas na área da Administração. Em cada capítulo será
destacado o objetivo de cada ferramenta estatística bem como a interpretação
dos resultados obtidos.

3
1. CONCEITOS BÁSICOS DE ESTATÍSTICA

Simone Echeveste

Neste capítulo será apresentado o contexto da pesquisa em que a


estatística está inserida, bem como serão destacados os principais conceitos
básicos de estatística. O objetivo aqui é que o aluno compreenda o vocabulário
pertinente à análise estatística e que compreenda os elementos importantes no
contexto desta análise.

Ao final deste capítulo espera-se que o aluno, dada uma situação


problema, identifique corretamente a população e a amostra de estudo bem
como as variáveis envolvidas classificando-as de acordo com a sua natureza.

O PAPEL DA ESTATÍSTICA NA CIÊNCIA

A necessidade de analisar um conjunto de dados estatisticamente está


sempre inserida no contexto de uma pesquisa, ou seja, temos inicialmente uma
situação problema a ser resolvida, ou ainda uma hipótese a ser testada e para
isso uma pesquisa deve ser realizada.

Com isso, em uma pesquisa destaca-se a importância da utilização da


estatística de acordo com os seguintes fatores:

a) Em uma pesquisa, muitas vezes são realizados estudos experimentais


ou observacionais que culminam em uma coleção de dados numéricos
que devem ser organizados e resumidos.

b) O padrão de variação nos dados faz com que a resposta não seja óbvia,
ou seja, somente tratando os dados adequadamente é que poderemos
verificar o comportamento das variáveis de estudo.

4
c) Uma análise estatística é composta por métodos para coleta e descrição
dos dados, viabilizando a verificação da força da evidência nos dados
pró ou contra as hipóteses de pesquisa. A presença de uma variação
não previsível nos dados faz disso, muitas vezes, uma tarefa pouco
trivial.

Figura 1. O papel da Estatística na pesquisa

Problema

Solução através de Experiências Solução através da ciência -


passadas, "palpites" Estatística

Tomada de Decisão

Em toda a pesquisa realizada almeja-se a resposta a um problema ou


ainda uma situação- problema que está vinculada a uma tomada de decisão a
ser realizada. Podemos considerar que nossa decisão pode ser tomada
através de dois tipos de soluções: a primeira que pode ser considerada uma
solução empírica que se fundamenta na observação e na experiência, livre de
um método científico – é uma forma de solução muitas vezes subjetiva que
pode levar a tomada de decisão errada.

O outro tipo de solução seria através do método científico, à luz de


dados provenientes de uma pesquisa que segue uma metodologia pré-
determinada para garantir a imparcialidade das informações obtidas. Neste
caso as ferramentas estatísticas são indispensáveis para a viabilização de uma
tomada de decisão com menores riscos e incertezas.

5
DEFINIÇÕES IMPORTANTES NA ESTATÍSTICA

Sempre que falamos em Estatística estamos inseridos no contexto de


uma pesquisa. As pesquisas podem ser classificadas em duas grandes
abordagens conforme demonstra a figura a seguir:

Figura 2. Tipos de Pesquisa

QUALITATIVA X QUANTITATIVA

PESQUISA QUALITATIVA PESQUISA QUANTITATIVA


Objetivo: Objetivo:
Alcançar uma Procurar quantificar os
compreensão do contexto dados e generalizar os
do problema, das razões resultados obtidos com
e motivações subjacentes
uma amostra para a
Estrutura:



Pequenas amostras
Não estruturada
Análise de Conteúdo
X 
população-alvo
Estrutura:
Grandes amostras
 Estruturada (questionário)
Resultados:
Desenvolve uma  Análise Estatística
compreensão inicial do Resultados:
problema (não Recomenda um curso final
conclusiva) de ação (conclusiva)

Uma pesquisa quantitativa é composta por quatro etapas distintas.


Destas etapas nas três últimas (planejamento, execução e comunicação dos
resultados) a estatística surge como uma importante ferramenta de suporte
para o pesquisador (Figura 3).

6
Figura 3. Contribuição da Estatística para a pesquisa

PESQUISA QUANTITATIVA

Reconhecimento e formulação
do problema de pesquisa

ESTATÍSTICA
Planejamento da pesquisa
(amostra, variáveis,
questionários,...)
Execução da pesquisa (campo)
Comunicação dos resultados

Na etapa Planejamento da pesquisa, a estatística tem importante


participação na determinação do tamanho da amostra a ser estudada, na
escolha do procedimento/processo de amostragem que deve ser utilizado para
a coleta de dados, bem como na elaboração do instrumento de coleta e no
estabelecimento do tipo de variáveis a serem pesquisadas.

No momento da Execução da pesquisa, a estatística é imprescindível,


pois fornece as ferramentas necessárias para a análise dos dados e para a
obtenção de conclusões sobre o objeto de estudo.

Na Comunicação dos resultados, a estatística auxilia a construção de


tabelas e gráficos facilitando a apresentação dos principais resultados obtidos.
Todas estas etapas são importantes de serem realizadas e fazem parte
da elaboração de uma pesquisa científica que procure ser o mais fidedigna
possível. O conhecimento destas etapas também é importante para o
julgamento da adequacidade de pesquisas realizadas por terceiros, ou seja,
quando nos é apresentado oralmente ou através de artigos resultados de uma
pesquisa precisamos ter um conhecimento mínimo do processo científico para
que sejamos capazes de criticar e entender os resultados obtidos.

Na literatura encontramos vários conceitos e definições para a


Estatística, alguns autores a definem como um ramo da matemática, já outros

7
defendem a ideia de que a Estatística representa por si só uma área única da
ciência desconsiderando ser esta uma subdivisão da matemática.

Rao (1999) define estatística como:

"A estatística é uma ciência que estuda e pesquisa sobre: o


levantamento de dados com a máxima quantidade de informação
possível para um dado custo; o processamento de dados para a
quantificação da quantidade de incerteza existente na resposta para um
determinado problema; a tomada de decisões sob condições de
incerteza, sob o menor risco possível. Finalmente, a estatística tem sido
utilizada na pesquisa científica, para a otimização de recursos
econômicos, para o aumento da qualidade e produtividade, na
otimização em análise de decisões”

Este conceito apresenta de forma clara e concisa todos os aspectos que


envolvem as diversas formas de utilização da Estatística: levantamento de
dados, processamento, análise e auxílio na tomada de decisões.

Ao iniciar uma análise estatística deve-se também considerar alguns


elementos relacionados á metodologia do estudo realizada, como as definições
de População e Amostra da pesquisa:

Uma população (N) é conjunto de elementos de interesse em um determinado


estudo, que podem ser pessoas ou resultados experimentais, com uma ou mais
características comuns, que se pretendem estudar.

Uma amostra (n) é um subconjunto da população usado para obter informação


acerca do todo. Obtemos uma amostra para fazer inferências de uma população.
Nossas inferências são válidas somente se a amostra é representativa da
população.

8
Para ilustrar estes conceitos através de um exemplo, considere a
seguinte situação de pesquisa:

SITUAÇÃO DE PESQUISA

“Uma empresa operadora de T.V. a cabo deseja realizar uma pesquisa


com seus clientes da cidade de Porto Alegre referente ao grau de satisfação
dos mesmos com o serviço prestado. Ao todo esta operadora possui, nesta
cidade, 217.193 assinantes dos quais foram selecionados 620 para
participarem desta pesquisa.”

População: 217.193 assinantes da operadora de T.V. a cabo de Porto


Alegre

Amostra: 620 assinantes da operadora de T.V. a cabo de Porto Alegre que


participaram da pesquisa

Outro conceito muito importante é o da Variável, que vem a ser a


matéria prima de qualquer pesquisa, ou seja, quando se termina uma coleta de
dados em um primeiro momento dispomos de um conjunto de valores ou ainda
respostas pertinentes as nossas variáveis de pesquisa.

Uma variável (x) é uma característica dos elementos investigados que difere
de um elemento para outro e do qual temos interesse em estudar. Cada
unidade (elemento) da população que é escolhido como parte de uma amostra
fornece uma medida de uma ou mais variáveis, também chamadas
observações.

9
As variáveis podem ser classificadas em:

 Variáveis Quantitativas: são as características que podem ser


medidas em uma escala quantitativa, ou seja, apresentam valores
numéricos/quantidades. Podem ser contínuas ou discretas.

Discretas: características mensuráveis que podem assumir


apenas um número finito ou infinito contável de valores e,
assim, somente fazem sentido valores inteiros. Exemplos:
números de carros vendidos, número de filhos, número de
reclamações recebidas por dia, etc.

Contínuas: características mensuráveis que assumem valores


em uma escala para as quais valores fracionais fazem sentido.
Exemplos: renda mensal, tempo de entrega da mercadoria,
tamanho do imóvel em m2, etc.

 Variáveis Qualitativas: são as características que não possuem


valores quantitativos, mas, ao contrário, são definidas por várias
categorias, ou seja, representam uma classificação dos elementos.
Podem ser nominais ou ordinais.

Nominais: não existe ordenação dentre as categorias.


Exemplos: marca do carro, tipo de fornecedor, profissão, etc.

Ordinais: existe uma ordenação entre as categorias.


Exemplos: escolaridade (Fundamental, Médio ou Superior),
grau de importância (nenhuma, pouca, razoável, muito), etc.

10
Figura 4. Classificação das variáveis

Variável

Qualitativa Quantitativa

Nominal Ordinal Discreta Contínua

Exemplo: Exemplo: Exemplo: Exemplo:


Profissão Grau da Satisfação Nº de Clientes Renda

A Estatística pode ser dividida em duas áreas: Descritiva e Inferencial.


A área descritiva é mais simples, contemplando ferramentas de organização
de dados e síntese de informação. A área Inferencial, por sua vez, permite ao
pesquisador projetar resultados amostrais para populações, bem como testar
hipóteses concernentes a parâmetros populacionais. Inferência estatística é o
processo pelo qual estatísticos tiram conclusões acerca da população usando
informação de uma amostra. A Estatística Inferencial está baseada em dois
pilares fundamentais: a Amostragem e a Probabilidade.

RECAPITULANDO

As ferramentas estatísticas são indispensáveis no tratamento de dados


provenientes de uma pesquisa. É através da análise e tratamento de dados
que o pesquisador obtém todas as informações pertinentes ao objeto de
estudo, propiciando uma tomada de decisão com menores riscos e incertezas.

11
Algumas definições importantes:

População (N):: é o conjunto de elementos de interesse em um


determinado estudo.

Amostra (n):: parte da população selecionada é a quantidade de


elementos investigada
Variável (x): é a característica da amostra a ser investigada, ou seja,
o que desejamos saber com a pergunta realizada.

A Estatística pode ser dividida em duas áreas: Descritiva- refere-se à


organização e síntese da informação e Inferencial destinada á projeção de
resultados amostrais para toda a população.

ATIVIDADES: CONCEITOS BÁSICOS DE ESTATÍSTICA

Considere a seguinte situação de pesquisa:


“Uma pesquisa foi realizada com um grupo aleatoriamente selecionado de 400
clientes de um restaurante japonês. O objetivo desta pesquisa era identificar o
perfil do cliente em relação às características Bairro que reside, Tempo que
freqüenta o restaurante, Gasto médio na refeição realizada e grau de
satisfação com o serviço oferecido pelo restaurante (muito satisfeito, satisfeito,
etc.).”

Questão 1. A população desta pesquisa pode ser considerada como sendo:


a) 400 clientes deste restaurante japonês
b) Todos os clientes deste restaurante japonês
c) Perfil do cliente
d) Características do cliente como bairro, tempo que frequenta, gasto e
grau de satisfação
e) Todos os restaurantes Japoneses

12
Questão 2. A amostra desta pesquisa pode ser considerada como sendo:
a) Perfil do cliente
b) Características do cliente como bairro, tempo que frequenta, gasto e
grau de satisfação
c) 400 clientes deste restaurante japonês
d) Todos os clientes deste restaurante japonês
e) Os restaurantes Japoneses

Questão 3. As variáveis desta pesquisa são:


a) Identificação do Perfil do cliente
b) Os 400 clientes deste restaurante japonês
c) Todos os clientes deste restaurante japonês
d) Bairro em que reside, tempo que frequenta o restaurante, gasto médio e
grau de satisfação com o serviço.
e) Os diferentes restaurantes Japoneses existentes

Questão 4. As variáveis quantitativas desta pesquisa são:


a) Bairro em que reside e grau de satisfação com o serviço.
b) Bairro em que reside, gasto médio e grau de satisfação com o serviço.
c) Tempo que frequenta o restaurante, gasto médio e grau de satisfação
com o serviço.
d) Tempo que frequenta o restaurante e gasto médio.
e) Todas as variáveis são quantitativas.

Questão 5. Marque V para verdadeiro e F para falso nas seguintes


afirmativas:

a) ( ) Em uma pesquisa o padrão de variação nos dados faz com que os


resultados não sejam óbvios, por este motivo, os resultados obtidos devem
receber um tratamento estatístico que permitirá a verificação do
comportamento das variáveis de estudo.

13
b) ( ) As variáveis quantitativas são características que não possuem
valores, mas, ao contrário, são definidas por categorias, ou seja,
representam uma classificação dos elementos.

c) ( ) A necessidade da utilização da Estatística na análise de dados ocorre


em pesquisas do tipo Quantitativas.

d) ( ) A Estatística dividi-se em duas partes: Estatística Descritiva e


Estatística Qualitativa.

GABARITO DAS ATIVIDADES PROPOSTAS

Questão 1. b) Todos os clientes deste restaurante japonês


Questão 2. c) 400 clientes deste restaurante japonês
Questão 3. d) Bairro em que reside, tempo que frequenta o restaurante, gasto
médio e grau de satisfação com o serviço.
Questão 4. d) Tempo que frequenta o restaurante e gasto médio.
Questão 5. a) V, b) F, c) V, d) F

14
2. APRESENTAÇÃO DE DADOS

TABELAS DE FREQUENCIA

O primeiro contato do pesquisador com os seus dados é feito através da


construção das tabelas de frequência, podemos dizer que neste momento os
dados recebem o seu primeiro tratamento. Nesta etapa de análise o
pesquisador identificará as possíveis respostas a uma determinada variável e o
comportamento das mesmas no que se refere a sua frequência.

A tabela de frequência tem por objetivo apresentar os resultados de


cada variável de uma forma organizada e resumida. Nesta tabela encontramos
o número de repetições de cada categoria de resposta de uma variável bem
como o seu percentual no grupo investigado.

De acordo com as normas da ABNT (Associação Brasileira de Normas


Técnicas) e do IBGE (Instituto Brasileiro de Geografia e Estatística) as tabelas
de frequência devem considerar os seguintes elementos:

a) Título: deve conter as informações necessárias para que se


compreenda “o que” está sendo apresentado na tabela, “onde” os
dados foram obtidos e “quando” esses dados foram coletados.

b) Cabeçalho: indica a natureza do conteúdo de cada coluna da tabela.

c) Corpo da Tabela: é a parte composta por linhas e colunas com as


informações observadas.

d) Rodapé: espaço logo abaixo da tabela que pode ser utilizado para a
apresentação de notas ou observações de natureza informativa.

e) Fonte: refere-se à entidade que organizou ou forneceu os dados


apresentados na tabela.

15
EXEMPLO DE CONSTRUÇÃO DE UMA TABELA DE FREQUÊNCIA:

Considere uma pesquisa realizada com uma amostra de 20 clientes que


compraram em um site de compras na Internet com o objetivo de investigar o
tempo atraso na entrega (em dias) das mercadorias adquiridas neste site. Os
dados observados foram:

0 1 0 2 3 3 2 1 0 4
3 1 0 0 4 2 1 0 1 0

Para estes dados podemos destacar as seguintes informações:

a) Variável de pesquisa: Tempo de atraso na entrega das mercadorias

b) Amostra investigada: 20 clientes

Para a construção da tabela precisamos das seguintes informações:

c) Valores da variável que surgiram: corresponde aos tempos de atraso


observados. Neste caso encontramos 0, 1, 2, 3 e 4 dias.

d) Frequência (f) de cada valor da variável: corresponde ao número de


vezes que cada valor se repetiu.

Para o exemplo, podemos observar que 0 dias de atraso se


repetiu em 7 clientes:
0 1 0 2 3 3 2 1 0 4
3 1 0 0 4 2 1 0 1 0

Na sequência, 1 dia de atraso se repetiu em 5 clientes:


0 1 0 2 3 3 2 1 0 4
3 1 0 0 4 2 1 0 1 0

16
Já 2 dias de atraso se repetiu em 3 clientes:

0 1 0 2 3 3 2 1 0 4
3 1 0 0 4 2 1 0 1 0

Para 3 dias de atraso observamos uma ocorrência em 3 clientes:


0 1 0 2 3 3 2 1 0 4
3 1 0 0 4 2 1 0 1 0

Por fim, para 4 dias de atraso observamos uma ocorrência em 2


clientes:
0 1 0 2 3 3 2 1 0 4
3 1 0 0 4 2 1 0 1 0

Agora organizamos essa informação através da estrutura de uma tabela


de frequência, considerando todos os seus elementos:

Tempo de atraso na entrega das mercadorias


Tempo de atraso Frequência %
0 7 35
1 5 25
2 3 15
3 3 15
4 2 10
Total 20 100
Fonte: Pesquisa Interna

Como calculamos a porcentagem da tabela de frequência?

17
Cálculo da Porcentagem:

IMPORTANTE!!!
De acordo com as normas, as tabelas de frequência não podem ser fechadas dos
lados e nem ter linhas dividindo as categorias da variável. As únicas linhas
permitidas são as que delimitam o cabeçalho e as que delimitam o total e no
centro da tabela é opcional colocar ou não o traço divisório das colunas.

GRÁFICOS ESTATÍSTICOS

A utilização de gráficos como forma de apresentação de dados pode ser


justificada através de um ditado popular de que "uma imagem vale mais que
1000 palavras"

Técnicas gráficas são geralmente utilizadas, em vez de tabelas, para


descrever um conjunto de dados através de um "desenho". Um gráfico
estatístico é uma forma de apresentação dos dados estatísticos, cujo objetivo é
o de reproduzir, no investigador ou no público em geral, uma impressão mais
rápida e viva do fenômeno em estudo. (Crespo, 1996)

18
A representação gráfica deve ser utilizada levando-se em conta algumas
qualidades essenciais básicas para a construção destes conforme nos mostra
a figura 2.

Figura 5. Qualidade de um bom gráfico

SIMPLICIDADE

•As informações devem ser diretas, evitando a apresenteção de


muitos elementos e dados em um mesmo gráfico.
•Muitas vezes, na construção de um gráfico a melhor escolha é a
forma mais simples e direta de apresentação.

CLAREZA

•As informações devem ser claras possibilitando uma


interpretação correta sem dúvidas sobre os resultados.

VERACIDADE

•O gráfico deve expressar a verdade sobre os dados estudados.

De acordo com Levin (1987), enquanto que algumas pessoas parecem


"desligar-se" ao serem expostas a informações estatísticas em forma de
tabelas, elas podem prestar bastante atenção às mesmas informações
apresentadas em forma gráfica. Este fato justifica a grande utilização por parte
dos pesquisadores e da mídia escrita e impressa dos gráficos em substituição
das tabelas.

19
GRÁFICO DE SETORES

O gráfico de setores, também conhecido como gráfico pizza, torta, queijo


ou bolacha é um dos mais simples recursos gráficos, sua construção é
baseada no fato de que o círculo possui 360º, sendo que este círculo é dividido
em fatias de acordo com o percentual em cada categoria. É um gráfico útil para
representar variáveis nominais ou apresentadas em categorias de respostas.

Figura 6. Exemplo de gráfico de setores

Banco em que possui conta

Caixa Banco do
Econômica Brasil
Federal

Santander

Banrisul

É recomendável a utilização deste gráfico para representar variáveis


qualitativas e que tenham poucas categorias de resposta distintas, pois
para uma variável com muitas opções de resposta este ficará visualmente
“poluído”.

20
GRÁFICO DE COLUNAS

O gráfico de colunas é um dos gráficos mais utilizados para representar


um conjunto de dados, sendo a representação de uma série de dados através
de retângulos dispostos verticalmente. A altura destes retângulos é
proporcional às suas respectivas frequências (ou porcentagens). Este gráfico
pode ser utilizado para representar qualquer tipo de variável em qualquer nível
de mensuração por este fato é um recurso extremamente utilizado em
pesquisas.

Figura 7. Exemplo de gráfico de colunas

Grau de Satisfação com o Atendimento (em %)


100

80

60

40

20

0
Muito Satisfeito Satisfeito Indiferente Insatisfeito Muito
Insatisfeito

O gráfico de colunas é um gráfico que não possui restrições, pode ser


utilizado para representar variáveis qualitativas e quantitativas. Quando o
número de categorias for muito extenso podemos utilizar legendas com cores
distintas para a identificação das categorias.

21
GRÁFICO DE BARRAS

O gráfico de barras é uma representação de uma série de dados através


de retângulos dispostos horizontalmente. Os comprimentos destes retângulos
são proporcionais às suas respectivas frequências. Este gráfico é semelhante
ao gráfico de colunas, contudo, a posição da escala e da frequência é trocada,
ou seja, na linha horizontal temos a frequência (ou percentual) de casos
observados e na linha vertical temos os valores (ou as categorias) da variável
de estudo.

Figura 8. Exemplo de gráfico de barras

Profissão (em %)

Contador

Psicólogo

Engenheiro

Administrador

Advogado

Médico

Professor

0 5 10 15 20 25 30

O gráfico de barras é um gráfico que não possui restrições, pode ser utilizado
para representar variáveis qualitativas e quantitativas. Quando o número de
categorias for muito extenso podemos utilizar legendas com cores distintas
para a identificação das categorias. É um excelente gráfico para os casos em
que as categorias das variáveis são expressas através de frases ou palavras
muito extensas.

22
GRÁFICO DE LINHAS

Este gráfico utiliza-se de uma linha para representar uma série


estatística. Seu principal objetivo é evidenciar a tendência ou a forma como o
fenômeno está crescendo ou decrescendo através de um período de tempo.
Seu traçado deve ser realizado considerando o eixo "x" (horizontal) a escala de
tempo e o eixo "y" (vertical) frequência observada dos valores.

Figura 9. Exemplo de gráfico de linhas

Lucro Mensal em mil reais


Jan - Dez 2012
500

450
Lucro (mil reais)

400

350

300

250

200
JAN FEV MAR ABR MAI JUN JUL AGO SET OUT NOV DEZ

O gráfico de linhas é o gráfico mais específico de todos, ou seja, sua


utilização é limitada para situações em que a variável a ser representada for
quantitativa, e os seus valores estão registrados ao longo de um período de
tempo.

23
COMO FAZER GRÁFICOS NO EXCEL

Fazer gráficos no Excel é muito fácil e simples!

Para isso, precisamos inicialmente fazer as tabelas de frequências e


calcular as porcentagens. Na confecção dos gráficos devemos considerar que
a informação percentual é sempre mais interessante de ser apresentada (essa
regra só não se aplica no caso do gráfico de linhas, pois, neste caso, muitas
vezes desejamos acompanhar a evolução de uma determinada variável que
não necessariamente é analisada em percentual).

Vamos considerar um exemplo de construção de um gráfico de barras


apresentando os resultados para a variável Profissão. Na planilha do Excel
precisamos colocar apenas duas informações: as categorias da variável que
apareceram (no caso do exemplo apresentado abaixo as profissões) e as suas
respectivas porcentagens.

24
Marque com o mouse estas duas colunas na planilha e escolha a opção
na barra de ferramentas Inserir  Gráfico  Barras

Escolha o gráfico de barras dentre as opções fornecidas pelo Excel,


uma dica importante é que a primeira opção apresentada é sempre a mais
interessante e mais simples.

25
Após o gráfico pronto você poderá formatar as cores, estilos,
acrescentar título, etc. utilizando a barras de ferramentas de Gráfico.

26
No item Design você pode modificar as cores do gráfico.

No item Layout você pode modificar os eixos do gráfico, acrescentar


títulos, legendas e valores.

No item Formatar você pode modificar os preenchimentos (cores) e


os contornos do gráfico.

27
RECAPITULANDO

Variável (x): é a característica da amostra a ser investigada, ou seja,


o que desejamos saber com a pergunta realizada.
Categorias: representam as possíveis respostas para a variável
investigada.
Frequência (f): é o número de vezes que cada categoria da variável
se repetiu, ou ainda, quantos elementos investigados optaram por
determinada resposta da questão.

As tabelas de frequência correspondem a uma forma de apresentação


de dados, seus elementos são: Título, Cabeçalho, Corpo, Rodapé e Fonte. Sua
estrutura é composta por linhas e colunas. As colunas são determinadas de
forma que a variável a ser apresentada e suas respectivas categorias
localizam-se na primeira coluna, já na segunda coluna é apresentado a
frequência (número de repetições) de cada categoria, e por fim, a terceira
coluna representa a porcentagem de cada categoria de resposta.

Os gráficos estatísticos são formas de apresentação dos dados cujo


objetivo é o de reproduzir, no investigador ou no público em geral, uma
impressão mais rápida e viva do fenômeno em estudo, levando-se em conta a
simplicidade,clareza e veracidade das informações apresentadas.

ATIVIDADES: APRESENTAÇÃO DE DADOS

Os dados a seguir referem-se ao tempo de espera na fila de uma casa


lotérica, em minutos, considerando um grupo de 15 clientes. Os resultados
obtidos foram:
6 5 6 7 8
8 8 8 5 7
8 7 6 8 6

28
Questão 1. A variável de pesquisa para este exemplo é:
a) 15 clientes de uma casa lotérica
b) Clientes da casa lotérica
c) Tempo de espera na fila (em minutos)
d) Contas pagas na fila da casa lotérica
e) Nenhuma das respostas anteriores

Questão 2. A amostra de pesquisa para este exemplo é:


a) 15 clientes de uma casa lotérica
b) Clientes da casa lotérica
c) Tempo de espera na fila (em minutos)
d) Contas pagas na fila da casa lotérica
e) Nenhuma das respostas anteriores

Questão 3. Construa uma tabela de frequência para representar estes dados.

Questão 4. Construa uma tabela para representar os dados abaixo que


referem-se ao número de viagens realizadas por 20 famílias nos últimos 5
anos:
0 1 2 5 2 3 4 2 2 4
4 0 0 2 3 2 1 5 2 1

Questão 5. "O desempenho do setor de Cartões de Crédito tem sido bastante


satisfatório e tem crescido na medida em que a compensação de cheques vem
diminuindo. Existe o incentivo por parte dos bancos ara que seja impulsionado
o uso de cartões, tudo porque a transação com cheque custa 455 % a mais
que a eletrônica. Por parte dos estabelecimentos comerciais, o incentivo
acontece por ser mais seguro e por reduzir as despesas financeiras.
Atualmente o potencial de crescimento de demanda é para o dobro de cartões
que estão em circulação,hoje,pouco mais de 40 milhões. Nos últimos 8 anos, o
uso do cartão de crédito aumentou 327 %, enquanto que a utilização do cartão
de débito, 562,5 %" Fonte: www.investnews.com.br

29
Os dados abaixo correspondem aos resultados de uma pesquisa realizada com
20 lojas de um shopping com o objetivo de verificar o valor mensal de suas
vendas (mil reais) pagas com cartão de débito:

12 15 10 5 10 10 5 12 2 2
10 15 10 15 10 5 10 10 10 10

Construa uma tabela de frequência para representar estes dados.

GABARITO DAS ATIVIDADES PROPOSTAS

Questão 1. c) Tempo de espera na fila (em minutos)


Questão 2. a) 15 clientes de uma casa lotérica
Questão 3.
Tempo de espera na fila (em minutos)
Tempo Frequência %
5 2 13,3
6 4 26,7
7 3 20,0
8 6 40,0
Total 15 100
Fonte: Pesquisa
Questão 4.
Número de viagens realizadas nos últimos 5 anos
Nº viagens Frequência %
0 3 15,0
1 3 15,0
2 7 35,0
3 2 10,0
4 3 15,0
5 2 10,0
Total 20 100
Fonte: Pesquisa

30
Questão 5.
Valor mensal de suas vendas (mil reais) pagas com cartão de débito:
Valor (mil reais) Frequência %
2 2 10,0
5 3 15,0
10 10 50,0
12 2 10,0
15 3 15,0
Total 20 100
Fonte: Pesquisa

31
3. MEDIDAS DE TENDÊNCIA CENTRAL

Simone Echeveste

Neste capítulo iremos abordar as Medidas de Tendência Central, que


são medidas que tem por objetivo representar todos os valores de uma variável
através de um único valor. As medidas de tendência central são: Média,
Mediana e Moda.

Nosso objetivo aqui é a apresentação de cada uma destas medidas no


que se refere à aplicabilidade, ao cálculo e à interpretação dos resultados
obtidos. O aluno ao final deste capítulo deverá ser capaz de calcular e
interpretar as medidas estatísticas apresentadas.

Podemos ainda aprofundar um pouco mais a nossa análise estatística


para o caso em que as variáveis analisadas sejam QUANTITATIVAS através
das medidas estatísticas de tendência central.

Estas medidas têm por objetivo encontrar a “tendência central” de um


conjunto de dados, ou seja, encontrar o valor do meio ou ainda os valores
típicos de uma distribuição. São medidas úteis para caracterizar e representar
um conjunto de dados através de um único valor utilizando critérios distintos
para isso. As medidas de tendência central são: média, mediana e moda.

Figura 10. Medidas de Tendência Central

MEDIDAS DE TENDÊNCIA CENTRAL

Média Mediana Moda

32
MÉDIA

A média é a medida de tendência central mais conhecida e mais


utilizada de todas. Existem vários tipos de médias, a que utilizamos em
pesquisas é a Média aritmética, obtida através da soma de todos os valores da
variável investigada (valores de x) dividida pelo número total de valores no
conjunto de dados (total da amostra – n). É representada pelos símbolos na
amostra e por na população.

Notação:
- média populacional
- média amostral
Fórmula:

onde:
= somatório
x – variável (valores obtidos para a variável investigada)
n – tamanho da amostra

Exemplo

Os dados abaixo representam o tempo de relacionamento (em anos) de


uma amostra de 7 clientes com a sua operadora de telefonia celular.

15 18 18 20 17 18 16

Elementos importantes:

Amostra (n): 7 clientes


Variável (x): tempo de relacionamento com a operadora de telefonia celular

33
Média:

= 17,4 anos

Interpretação: “Em média o tempo de relacionamentos dos clientes com sua


operadora de telefonia celular é de 17,4 anos”

MÉDIA PARA DADOS AGRUPADOS EM TABELAS DE FREQUENCIA

Quando os dados estão organizados na forma de uma tabela de


frequências devemos multiplicar os diferentes valores “x” pelas respectivas
frequências “f”. A fórmula utilizada deverá ser neste caso:

onde:
= somatório
x – variável
f – frequência de cada valor da variável
n – tamanho da amostra

34
Exemplo

Considere a seguinte tabela referente ao Número de faltas no período de


uma ano em uma amostra de 62 funcionários de uma empresa:

Número de faltas em um ano


Nº de faltas (x) Frequência (f) % x.f
0 5 8,0 0x5=0
2 25 40,3 2 x 25= 50
4 30 48,4 4 x 30= 120
6 2 3,2 6 x 2= 12
Total 62 (n) 100 182

= 2,9 faltas

Interpretação: “Em média os funcionários tiveram 2,9 faltas em um ano”

35
MEDIANA

Ordenados os elementos da amostra em ordem crescente a mediana é o


valor considerado o ponto do meio, que a divide ao meio, isto é, metade dos
elementos da amostra é menor ou igual à mediana e a outra metade é maior ou
igual à mediana.

Notação:
Md ou Me

Como obter a Mediana:

1º) todos os valores do conjunto de dados devem ser colocados em ordem


crescente, se houver algum valor que se repita mais de uma vez ele deve
repetido na ordenação também.

2º) devemos encontrar a posição da mediana considerando a seguinte regra:


se o tamanho da amostra (n) é ímpar, a mediana é o valor central; se o
tamanho da amostra (n) for par a mediana será a média dos dois valores
centrais.

EXEMPLO 1: Quando o tamanho da amostra “n” for ímpar

Uma pesquisa foi realizada com o objetivo de verificar a renda, em


salários mínimos, de uma amostra de 5 clientes de uma loja.

8,0 9,1 8,5 9,7 9,2

Amostra (n): 5 clientes de uma loja


Variável (x): Renda em salários mínimos

36
Mediana (Md)

1º) Colocar os valores em ordem crescente

8,0 8,5 9,1 9,2 9,7

2º) Encontrar o valor central no conjunto de dados

8,0 8,5 9,1 9,2 9,7

Mediana

Interpretação: “Metade dos clientes desta loja possuem renda de 9,1 salários
mínimos ou menos e metade dos clientes possui renda de 9,1 salários mínimos
ou mais.”

EXEMPLO 2: Quando o tamanho da amostra “n” for par

Uma pesquisa foi realizada com o objetivo de verificar a renda, em


salários mínimos, de uma amostra de 6 clientes de uma loja.

8,0 8,8 8,5 9,7 9,5 9,2

Amostra (n): 6 clientes de uma loja


Variável (x): Renda em salários mínimos

1º) Colocar os valores em ordem crescente

8,0 8,5 8,8 9,2 9,5 9,7

37
2º) Encontrar os dois valores centrais no conjunto de dados

8,0 8,5 8,8 9,2 9,5 9,7

Mediana

3º) Calcular o ponto médio entre estes dois valores central (somando os dois
valores e dividindo por dois)

Md = 9,0 salários mínimos

Interpretação: “Metade dos clientes desta loja possuem renda de 9 salários


mínimos ou menos e metade dos clientes possui renda de 9 salários mínimos
ou mais.”

MODA

A moda de um conjunto de dados é simplesmente o valor do conjunto de


dados que ocorreu com maior frequência, ou seja, que mais se repetiu.

Notação:
Mo

38
EXEMPLO

Os dados apresentados a seguir referem-se aos valores da diária (em


reais) para um casal em uma amostra de 8 Hotéis na cidade de Porto Alegre:

200 210 200 210

210 250 230 210

Amostra (n): 8 Hotéis em Porto Alegre


Variável (x): Valor da diária para um casal (em reais)

Mo = 210 reais (este valor se repete quatro vezes na amostra, foi o valor de
diária que mais se repetiu).

200 210 220 210

210 250 230 210

Interpretação: “O valor da diária para um casal que ocorreu com maior


frequência foi de 210 reais”.

ATENÇÃO!!!
- Um conjunto de dados pode não ter moda, ou seja, nenhum valor se repetir
Exemplo: Idade de 5 clientes
34, 56, 23, 42, 38
Nenhum valor se repete – não tem moda!

- Um conjunto de dados pode ter mais que uma moda, ou seja, poderemos ter mais que um
valor da variável se repetindo com frequências iguais.
Exemplo: Idade de 8 clientes:
35, 23, 35, 40, 51, 40, 32, 55
Duas modas: 35 e 40 peças!

39
RECAPITULANDO

As Medidas de Tendência Central tem por objetivo representar todos os


valores de uma variável através de um único valor. As medidas de tendência
central são: Média, Mediana e Moda.

A Média representa a soma de todos os valores de uma variável dividida


pela quantidade de valores existente; já a mediana representa o valor central
de um conjunto de dados de forma que metade dos valores observados são
iguais ou menores a ela e metade iguais ou superiores a ela. A moda
corresponde ao valor da variável que ocorreu com maior frequência, ou ainda,
o que mais se repetiu.

ATIVIDADES: MEDIDAS DE TENDÊNCIA CENTRAL

Questão 1. Uma pesquisa foi realizada com 12 empresas do ramo alimentício,


com o objetivo de verificar o número de funcionários que estas possuem, os
dados obtidos estão abaixo:

32 35 45 50 30 22 15 25 10 15 30 21

Calcule e interprete:
a) Média
b) Mediana
c) Moda.

40
Questão 2. A tabela abaixo representa os salários pagos a 100 operários da
empresa GLT & Cia:

Tabela. Salários GLT & Cia


Nº de salários mínimos Nº de operários %
0 40 40,0
2 30 30,0
4 10 10,0
6 15 15,0
8 5 5,0
Total 100 100,0
Fonte: Pesquisa

a) Quem é a variável de estudo?


b) Qual foi a amostra pesquisada?
c) Qual a média de salário dos operários da empresa GLT & Cia?

Questão 3. Uma pesquisa levantou os dados sobre o mercado imobiliário de


determinado centro urbano, do ano 2005 a 2012, e os valores obtidos sobre o
número de lançamentos (em mil unidades) e o total em vendas (em milhões de
Reais) estão dispostos abaixo:

Ano 2005 2006 2007 2008 2009 2010 2011 2012


Vendas 5,1 4,0 4,5 10,1 12,6 9,7 10,2 11,7
Fonte: Pesquisa

a) Quem é a variável desse estudo?


b) Quem é a amostra estudada?
c) Calcule e interprete a média.
d) Calcule e interprete a mediana.
e) Calcule e interprete a moda.

41
Questão 4. A tabela abaixo apresenta os valores das diárias pagas por 40
turistas nos hotéis do balneário Beach Star:

Tabela. Diárias pagas em Beach Star


Diária (em R$) Nº de turistas %
80 18 45,0
96 10 25,0
145 5 12,5
210 7 17,5
Total 40 100
Fonte: Rede hoteleira

a) Calcule e interprete a média para estes dados.

Questão 5. Segundo dados divulgados pelo DIEESE (Departamento


Intersindical de Estatísticas e Estudos Sócioeconômicos), os valores da cesta
básica em Dezembro de 2009, em 10 capitais brasileiras pesquisadas, estão
na tabela abaixo:

Tabela. Valor da Cesta Básica em 10 capitais brasileiras em Dezembro de


2009

Capital Valor da cesta básica (R$)


Brasília 222,22
RJ 213,36
SP 228,19
Curitiba 211,85
Porto Alegre 237,58
Belém 204,32
Fortaleza 176,96
Manaus 215,94
Recife 171,31
Salvador 183,15
Fonte: DIEESE

Através dos dados apresentados na tabela acima:


a) Calcule e interprete o preço médio da Cesta Básica para as capitais
pesquisadas
b) Calcule e interprete o preço mediano da Cesta Básica para as capitais
pesquisadas

42
GABARITO DAS ATIVIDADES PROPOSTAS

Questão 1.
a) Em média estas empresas possuem 27,5 funcionários
b) Metade das empresas possui menos que 27,5 funcionários e metade mais
que 27,5 funcionários.
c) Os números de funcionários que ocorrem com maior freqüência são 15 e
30 funcionários

Questão 2.
a) Variável: Salários GLT&Cia
b) Amostra: 100 operários
c) 2,3 salários mínimos

Questão 3.
a) Variável: Total de vendas
b) Amostra: 8 anos
c) Em média foram vendidos 8,5 milhões de reais neste período por ano.
d) Metade do período foi vendido menos que 9,9 milhões de reais e metade
mais que 9,9 milhões de reais
e) Não tem moda, pois nenhum valor se repete

Questão 4.
O valor médio das diárias é de 114,9 reais.

Questão 5.
a) O preço médio da cesta básica nestas capitais é de 206,5 reais.
b) Metade das capitais o preço da cesta básica é inferior a 212,6 reais e
metade é superior a 212,6 reais.

43
4. MEDIDAS DE VARIABILIDADE

Simone Echeveste

Neste capítulo iremos abordar as Medidas de Variabilidade, que são


medidas que tem por objetivo mensurar variação de um conjunto de dados em
torno da média.

Nosso objetivo aqui é a apresentação de cada uma destas medidas no


que se refere à aplicabilidade, ao cálculo e à interpretação dos resultados
obtidos. O aluno ao final deste capítulo deverá ser capaz de calcular e
interpretar as medidas de variabilidade: variância, desvio-padrão e coeficiente
de variação.

A média é extremamente útil como uma medida que objetiva


representar/ resumir um conjunto de dados, mas também é imprescindível ao
pesquisador ter conhecimento da variação que ocorre em torno desta média.
Para isso o cálculo das medidas de variabilidade contribui para uma melhor
interpretação do comportamento de uma variável quantitativa (sua média e sua
variação).

Tão importante quanto representarmos todos os valores de um conjunto


de dados através das medidas de tendência central é ter o conhecimento da
variação que ocorre em torno desta medida. As medidas de variabilidade são
extremamente úteis no tratamento de dados, pois estas indicam a variação
existente em torno da média. As medidas de variabilidade que veremos em
nossa disciplina são: Variância, Desvio-padrão e Coeficiente de variação

44
Figura 11. Medidas de Variabilidade

Medias de Variabilidade

Coeficiente de
Variância Desvio-padrão
Variação

VARIÂNCIA

A variância de uma amostra corresponde à média dos quadrados dos


desvios dos valores em relação à média, Quanto maior for a variação dos
valores do conjunto de dados, maior será a variância.

Notação:
2
- variância populacional
2
s - variância amostral

Onde:
Fórmula:
x – valores da variável investigada
- média da amostra
n – tamanho da amostra
Σ - somatório

Propriedades da Variância
1. Somando-se (ou subtraindo-se) a cada elemento de um conjunto de valores
uma constante, a variância não se altera;
2. Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores
por um valor constante, a variância fica multiplicada (ou dividida) pelo quadrado
da constante.

45
EXEMPLO

Os dados apresentados abaixo correspondem ao número de


reclamações (em mil reclamações) diárias recebidas pelo PROCON referentes
as operadoras de TV a cabo no período de 5 dias:

17 18 16 20 22

Elementos importantes:

Variável (x): número de reclamações (em mil reclamações) diárias recebidas


pelo PROCON referentes as operadoras de TV a cabo
Amostra (n): 7 dias

Média:

Variância:

reclamações/dia2

46
No cálculo da variância pode-se observar que a unidade da variável
estudada é levada ao quadrado, dificultando assim, a interpretação de seu
resultado final. A solução para este problema é extrair a raiz quadrada da
variância, permitindo assim que se volte à unidade original da variável. Essa
nova medida (a raiz quadrada da variância) é chamada de desvio-padrão.

DESVIO-PADRÃO

O desvio-padrão corresponde à raiz quadrada da variância. Esta medida


expressa a variação média do conjunto de dados em torno da média, para mais
ou para menos na mesma unidade de medida da média.

Notação:
- desvio-padrão populacional
s- desvio-padrão amostral

Fórmula:

Propriedades do Desvio-padrão
1. Somando-se (ou subtraindo-se) a cada elemento de um conjunto de valores uma
constante, o desvio-padrão não se altera;
2. Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores por
um valor constante, o desvio-padrão fica multiplicado (ou dividido) pela constante.

O desvio-padrão de uma amostra pode ser calculado considerando as


seguintes etapas:

47
Figura 12. Etapas para o cálculo do Desvio-padrão

1ª) Calcular a média

2ª) Subtrair a média de cada valor do conjunto (desvio)

3ª) Elevar ao quadrado cada desvio

4ª) Somar os quadrados dos desvios

5ª) Dividir esta soma por (n-1)

6ª) Extrair a raiz quadrada

Para o exemplo apresentado teremos:

Variância:
reclamações/dia2

Desvio-padrão:

reclamações/dia

Interpretação:
Em média, o PROCON recebe diariamente 18,6 reclamações com uma
variação em torno desta média de 2,4 reclamações.

48
COEFICIENTE DE VARIAÇÃO

Neste momento poderemos questionar: quando um desvio-padrão é


grande e quando ele é pequeno? Na verdade, um desvio padrão pode ser
considerado grande ou pequeno dependendo da ordem de grandeza da
variável.

Por este motivo quando desejamos comparar a variabilidade entre


métodos, ou ainda entre grupos de valores é indicada a utilização do
Coeficiente de Variação que representa o desvio-padrão expresso como uma
porcentagem da média.

Notação:
C.V. - Coeficiente de variação

Fórmula:
Onde:
- média da amostra
s – desvio-padrão

Para o exemplo...

Interpretação:
Existe uma variação em torno da média de 12,9%.

49
Figura 13. Interpretação Coeficiente de Variação

Maior coeficiente de variação - Dados


mais HETEROGÊNEOS

Menor coeficiente de variação - Dados


mais HOMOGÊNEOS

MEDIDAS DE VARIABILIDADE PARA DADOS AGRUPADOS EM TABELAS


DE FREQUENCIA

Os dados abaixo referem-se ao tempo de espera na fila de um caixa de


supermercado (em minutos):

Tempo de espera na fila (minutos)


Tempo de espera (x) Frequência (f) % x.f
0 5 8,0 0x5=0
2 25 40,3 2 x 25= 50
4 30 48,4 4 x 30= 120
6 2 3,2 6 x 2= 12
Total 62 (n) 100 182

Média:

50
Agora vamos calcular a variância e o desvio-padrão. Neste caso
devemos considerar a frequência de cada valor da variável.

Variância:

Tempo de espera na fila (minutos)


Tempo de espera (x) Frequência (f) %
0 5 8,0 (0 – 2,9)2. 5 = 42,05
2 25 40,3 (2 – 2,9)2. 25 = 20,25
4 30 48,4 (4 – 2,9)2. 30 = 36,3
6 2 3,2 (6 – 2,9)2. 2 = 19,22
Total 62 (n) 100 117,82

minutos2

Desvio-padrão:

s = 1,4 minutos

Interpretação:
“Em média o tempo de espera na fila deste supermercado é de 2,9 minutos
com uma variação em torno desta média de 1,4 minutos”.

51
RECAPITULANDO

As Medidas de Variabilidade (Variância, Desvio-padrão e Coeficiente de


Variação) são extremamente úteis no tratamento de dados, pois estas indicam
a variação existente em torno da média.

Quando realizamos o tratamento estatístico de dados provenientes de


variáveis quantitativas o cálculo e interpretação destas medidas fornece
informação detalhada e de extrema importância na tomada de decisão do
pesquisador.

ATIVIDADES: MEDIDAS DE VARIABILIDADE

Questão 1. Os dados abaixo são referentes às taxas de desemprego (em %)


em alguns países selecionados da América do Sul e da América do Norte:

Brasil Uruguai Chile Argentina Canadá EUA Venezuela


11.4 12.1 5.6 7.3 4.8 5.3 7.3

Calcule e interprete a Média e o desvio-padrão para estes dados.

Questão 2. A capacidade em litros dos porta-malas dos carros populares


produzidos no Brasil foi investigada obtendo-se os seguintes dados:

Corsa: 240 litros Uno: 224 litros Hobby: 325 litros Gol: 146 litros

Calcule e interprete a média e o desvio-padrão para estes dados.

52
Questão 3. Um fabricante de molas está interessado em implementar um
sistema de controle de qualidade para monitorar seu processo de produção.
Para isto, foi registrado o número de molas fora da conformidade em cada lote
de produção. Os dados apresentados na tabela de frequência abaixo referem-
se a 20 lotes selecionados, observando-se o número de molas fora da
conformidade.

Número de molas fora de conformidade


Número de molas f %
6 3 15,0
7 6 30,0
8 4 20,0
9 3 15,0
12 4 20,0
Total 20 100,0

a) Calcule e interprete as medidas descritivas: média e desvio-padrão


para estes dados.

Questão 4. Considere a seguinte tabela:

Número de faltas no mês de uma amostra de 153 funcionários na empresa WK


Nº de faltas Nº funcionários %
0 85 55,5
1 20 13,1
2 40 26,1
3 8 5,3
Total 153 100,0

Calcule e interprete a média e o desvio-padrão para estes dados.

53
Questão 5. Duas turmas de Estatística apresentam as seguintes estatísticas
para as notas na prova G1:
Turma A: média = 7,8 pontos e desvio-padrão = 1,4 pontos
Turma B: média = 8,2 pontos e desvio-padrão = 2,5 pontos.
Qual das duas turmas teve um desempenho mais homogêneo na prova G1?
Justifique.

GABARITO DAS ATIVIDADES PROPOSTAS

Questão 1.
A taxa média de desemprego é 7,7% com uma variação em torno desta média
de 2,9%.

Questão 2.
Em média, a capacidade do porta malas destes carros é de 233,8 litros com
uma variação em torno desta média de 73,4 litros.

Questão 3.
Em média são produzidas por lote 8,4 molas fora da conformidade com uma
variação de 2,2 molas.

Questão 4.
Em média, os funcionários da empresa WK possuem 0,8 falta, com uma
variação em torno desta média de 1 falta.

Questão 5.
CVA = 17,9% CVB = 30,5%
CVA < CVB
A turma A teve um desempenho mais homogêneo na prova G1, comparada
com a turma B pois tem um coeficiente de variação menor.

54
5. DISTRIBUIÇÃO DE PROBABILIDADE NORMAL

Simone Echeveste

A distribuição Normal ou Gaussiana é, sem dúvida, o modelo


probabilístico mais conhecido. Várias técnicas estatísticas necessitam da
suposição de que os dados se distribuam normalmente para serem utilizadas.
Na natureza uma grande quantidade de variáveis apresenta tal distribuição.

O objetivo deste capítulo é a apresentação desta distribuição através de


exemplos de aplicações na área da administração, espera-se que o aluno
compreenda as situações problema em que ela possa ser aplicada e as
interpretações dos resultados fornecidos.

A distribuição Normal é o modelo probabilístico mais utilizado no


tratamento estatístico de dados, pois diversas ferramentas estatísticas
necessitam da suposição de que os dados se distribuam normalmente para
serem utilizadas.

A sua função densidade de probabilidade da distribuição normal f(x) é


dada por:

(x )2
1 2 2
f ( x) e ; para - < x < ,- < < e 2
>0
2

Os parâmetros da Normal são a média ( µ ) e o desvio-padrão ( ), que


permitem infinitas curvas normais com diferentes formatos (mas sempre
simétricas). O gráfico da função densidade de probabilidade é apresentado a
seguir:

55
Figura 14. Gráfico da Curva Normal

Figura 15. Características da Distribuição Normal

Sua curva de probabilidades tem forma de sino

A curva é simétrica em relação à média

No ponto mais alto na curva encontra-se a média da distribuição

A área total sob a curva é igual a 100%

As probabilidades para a variável aleatória normal são dadas por áreas


sob a curva

O desvio padrão determina a largura da curva. Quanto maior o desvio


padrão mais larga e mais plana tende a ser a curva, mostrando a
variabilidade nos dados

56
A distribuição Normal, independentemente dos valores dos parâmetros,
apresenta sempre a seguinte relação (Figura 11):

Figura 16. Áreas importantes da Curva Normal

DISTRIBUIÇÃO NORMAL-PADRÃO OU NORMAL REDUZIDA - Z

A função densidade de probabilidade f(x) da distribuição normal depende


dos valores de μ e σ, por essa razão teremos várias equações para vários
diferentes valores de μ e σ. Todas as curvas normais representativas de
distribuições de frequências podem ser transformadas em uma curva normal
padrão, usando-se a média µ e o desvio padrão da variável em estudo.

Para evitar cálculos com a integração, uma tabela única foi desenvolvida
para uma variável aleatória agora chamada de “Z” com μ=0 e σ=1, e sua
distribuição de probabilidades é definida como normal padronizada, ou ainda
normal padrão.

57
Seja X uma variável aleatória normalmente distribuída com quaisquer
parâmetros média e desvio-padrão . Para realizar o processo de
padronização devemos realizar a seguinte transformação:

x
Z

Onde:
x = valor de interesse da variável
= média da variável
= desvio-padrão da variável

Após a padronização poderemos obter as probabilidades associadas a


cada área através da Tabela Normal padrão apresentada a seguir:

58
Tabela da Distribuição Normal Padrão P(Z<z) – VALORES POSITIVOS
z 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

59
Tabela da Distribuição Normal Padrão P(Z<z) – VALORES NEGATIVOS
z 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,6 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,7 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,8 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

60
COMO UTILIZAR A TABELA NORMAL PADRÃO

Na tabela desejamos saber a área correspondente a um determinado


valor de “z”, devemos considerar duas informações importantes obtidas a partir
do valor de “z” que são: a linha e a coluna em que devemos procurar o valor.

Por exemplo, para P(z<1,35) lê-se “probabilidade de z ser inferior a


1,35”:

1,35

Devemos dividir esse número em duas partes: a primeira composta pela


parte inteira do número e a primeira casa após a vírgula que representa os
décimos; a segunda parte é composta pela segunda casa após a vírgula que
representa o centésimo.

Linha

1,35 Coluna

Para o nosso exemplo P(z<1,35) deveremos buscar na tabela dos


valores de “z” positivos a linha 1,3 e a coluna 0,05:

Então P(z<1,35) = 0,9115 ou ainda 91,15%

61
Outro exemplo: P(z<-0,27)

Linha

-0,27 Coluna

Deveremos buscar na tabela dos valores de “z” negativos a linha -0,2 e


a coluna 0,07:

Então P(z<-0,27) = 0,3936 ou ainda 39,36%

EXEMPLO 1

O valor gasto em uma refeição em um restaurante tem distribuição


normal com média de 20 reais e desvio-padrão de 0,50 reais, Qual a
probabilidade de um cliente aleatoriamente selecionado gaste menos de 21
reais?

Passo 1: Dados do Problema

x= valor gasto em uma refeição


= 20 reais
= 0,50 reais
Pede-se: P(x < 21 reais)

62
Passo 2: Padronizar para obter o cálculo da área pela tabela Normal Padrão

Passo 3: Buscar o valor da probabilidade P(z<2,00) na tabela normal

Linha

2,00
Coluna

Deveremos buscar na tabela dos valores de “z” positivos a linha 2,0 e a


coluna 0,00:

63
Então a P(x < 21 reais)= 0,9772 ou 97,72%

97,72%

EXEMPLO 2

O número de unidades vendidas em uma loja de materiais esportivos no


período de um mês é normalmente distribuído com média de 7000 unidades e
desvio-padrão de 600 unidades. Qual é a probabilidade de que em um
determinado mês esta loja venda menos de 6400 unidades?

Passo 1: Dados do Problema

x= número de unidades vendidas em uma loja de materiais esportivos no


período de um mês
= 7000 unidades
= 600 unidades

Pede-se:
P(x < 6400 unidades)

64
Passo 2: Padronizar para obter o cálculo da área pela tabela Normal Padrão

Passo 3: Buscar o valor da probabilidade P(z<-1,00) na tabela normal

Linha

-1,00
Coluna

Deveremos buscar na tabela dos valores de “z” negativos a linha -1,0 e


a coluna 0,00:

Então a P(x < 6400 unidades)= 0,1587 ou 15,87%

65
15,87%

Nos exemplos anteriores observe que as áreas/probabilidades


solicitadas foram sempre áreas INFERIORES a um valor “x” de interesse,
observe que na tabela normal padrão utilizada as probabilidade que ali se
encontram referem-se sempre a áreas inferiores:

Quando a probabilidade desejada for uma área SUPERIOR a algum


valor de “x” ou ainda ENTRE dois valores de “x” devemos utilizar a mesma
tabela, porém observando as seguintes regras:

No mesmo exemplo anteriormente citado, vamos considerar agora que


desejamos saber a probabilidade desta loja vender mais de 7500 unidades:

Pede-se:
P(x > 7500 unidades)

Observe que aqui desejamos a área localizada a DIREITA no gráfico


(área escura), ou seja, uma área SUPERIOR, porém a tabela apresenta
apenas o cálculo das áreas INFERIORES, ou ainda a ESQUERDA do gráfico

66
(área clara). Neste caso utilizaremos a informação que a curva ao todo possui
100% de área, então calcularemos a área INFERIOR e do resultado obtido na
tabela subtrairemos 100%.

Então poderemos estabelecer a seguinte regra:

P( x ≥ a ) = 100% - P( x ≤ a )

Voltando ao exemplo:

b) Probabilidade de vender mais de 7500 unidades


Pede-se:
P(x > 7500 unidades)

Vamos então aplicar a regra:

P(x > 7500 unidades) = 100% - P(x < 7500 unidades)

Padronizando para obter o cálculo da área pela tabela Normal Padrão

67
Buscando o valor da probabilidade P(z<0,83) na tabela normal

Linha

0,83
Coluna

Deveremos buscar na tabela dos valores de “z” positivos a linha 0,8 e a


coluna 0,03:

Então a P(x < 7500 unidades)= 0,7967 ou 79,67%

79,67%

Não esqueça que a probabilidade desejada é SUPERIOR a 7500 horas


então:
P(x > 7500 horas) = 100% - P(x < 7500 horas)
P(x > 7500 horas) = 100% - 79,67%

P(x > 7500 horas) = 20,33%

68
79,67%
20,33%

Agora vejamos o terceiro e último tipo de área/probabilidade a ser


calculada: ENTRE dois valores.

Qual é a probabilidade desta loja vender entre 6300 unidades e 7400


unidades?

Pede-se:
P( 6300 ≤ x ≤ 7400 )

Neste caso, teremos dois valores de “x” que deverão ser padronizados
resultando em dois valores de probabilidade, uma referente á área inferior a
7400 e outra inferior a 6300.

P (x < 7400)

P (x < 6300)

69
Para obter a área de interesse devemos subtrair uma área da outra.
Então poderemos estabelecer a seguinte regra:

P( a ≤ x ≤ b ) = P( x ≤ b ) – P( x ≤ a )

Voltando ao exemplo:
Pede-se:

P( 6300 ≤ x ≤ 7400 )

Vamos então aplicar a regra:

P( 6300 ≤ x ≤ 7400 ) = P( x ≤ 7400) – P( x≤ 6300)

Padronizando para obter o cálculo da área pela tabela Normal Padrão

Na tabela: linha 0,6 e coluna 0,07  0,7486 ou 74,86%

Na tabela: linha -1,1 e coluna 0,07  0,1210 ou 12,10%

70
Então:
P( 6300 ≤ x ≤ 7400 ) = 74,86% – 12,10%

P( 6300 ≤ x ≤ 7400 ) = 62,76%

62,76%

RECAPITULANDO

A distribuição de probabilidades para uma variável aleatória “X” é


expressa através de um modelo matemático que representa as probabilidades
associadas aos possíveis valores que esta variável pode assumir.

A Distribuição Normal é o modelo probabilístico mais conhecido, onde


várias técnicas estatísticas necessitam da suposição de que os dados se
distribuam normalmente para serem utilizadas. Seus parâmetros são a média e
o desvio-padrão.

ATIVIDADES DISTRIBUIÇÃO DE PROBABILIDADE NORMAL

Questão 1. Determinado atacadista efetua suas vendas por telefone. Após


alguns meses, verificou-se que os pedidos se distribuem normalmente com
média de 3.000 pedidos e desvio-padrão de 180 pedidos. Qual a probabilidade
de que um mês selecionado ao acaso esta empresa venda menos de 2700
pedidos.

Questão 2. O conteúdo líquido das garrafas de 300 ml de um refrigerante é


normalmente distribuído com média de 300 ml e desvio-padrão de 2 ml.
Determine a probabilidade de uma garrafa selecionada ao acaso apresentar
conteúdo líquido:

71
a) Inferior a 306 ml
b) Superior a 305 ml
c) entre 302 e 304 ml

Questão 3. O lucro mensal obtido com ações de determinada empresa tem


distribuição normal com média de 12 mil reais e desvio-padrão de 5 mil reais.
Qual a probabilidade de que em determinado mês o lucro desta empresa seja:

a) Superior a 18 mil reais


b) Inferior a 8 mil reais
c) Entre 10 e 15 mil reais

Questão 4. Suponha que a renda média anual de uma grande comunidade


tenha distribuição normal com média de 15 mil reais e com um desvio-padrão
de 3 mil reais. Qual a probabilidade de que um indivíduo aleatoriamente
selecionado deste grupo apresente uma média salarial anual superior a 18 mil
reais?

Questão 5. O escore de um estudante no vestibular é uma variável com


distribuição normal com média de 550 pontos e desvio-padrão de 30 pontos.
Se a admissão em certa faculdade exige um escore mínimo de 575 pontos,
qual é a probabilidade de um aluno ser admitido nesta faculdade?

GABARITO DAS ATIVIDADES PROPOSTAS

Questão 1. P( x < 2700 pedidos) = 4,75%

Questão 2. a) 99,87% b) 0,62% c) 13,59%

Questão 3. a) 11,51% b) 21,19% c) 38,12%

Questão 4. P( x > 18 mil reais) = 15,87%

Questão 5. P( x > 575 pontos) = 20,33%

72
6. AMOSTRAGEM

Simone Echeveste

Quando uma pesquisa/estudo analisa os dados de todo o


Universo/grupo que ele tenta compreender, dizemos que está trabalhando com
a população. Entretanto, muitas vezes o pesquisador trabalha com tempo,
energia e recursos econômicos limitados, tornando possível a análise de
apenas parte do grupo de dados retirados da população. Este grupo denomina-
se amostra.

Neste capítulo serão apresentados os elementos importantes


relacionados ao processo de seleção da amostra que fará parte da pesquisa.
Com o estudo da teoria da amostragem espera-se que o aluno conheça as
diferentes metodologias de seleção da amostra, bem como compreenda os
procedimentos do cálculo do tamanho mínimo de uma amostra em uma
pesquisa.

“Frederick Mosteller, estatístico e professor em Harvard


disse, certa vez, que é possível mentir usando estatísticas,
mas que se mente mais, e melhor, sem estatísticas. É
preciso entender que as amostras podem levar a
conclusões erradas. Contudo, as opiniões pessoais, sem
base em dados, levam, em geral, a conclusões muito mais
erradas.”

Amostragem é o conjunto de procedimentos e técnicas para extração de


elementos da população para compor a amostra. O objetivo da amostragem é
obter amostras representativas das populações em estudo.

73
As técnicas de amostragem se dividem em: probabilísticas e não-
probabilísticas. As técnicas probabilísticas são aquelas onde todos elementos
da população têm uma probabilidade não nula de seleção. Nas técnicas não-
probabilísticas não podemos garantir que todos elementos têm probabilidade
de serem selecionados para a amostra.

TÉCNICAS DE AMOSTRAGEM PROBABILÍSTICAS

Amostra Aleatória Simples


Uma amostra aleatória simples é selecionada tal que todos os
elementos da população tenham a mesma chance de serem
selecionados, por exemplo, através de um sorteio.

Amostra Sistemática
Uma amostra sistemática poderá ser tratada como uma amostra
aleatória simples se os elementos da população estiverem ordenados
aleatoriamente, e a seleção será realizada através da escolha
sistemática, por exemplo, de uma a cada cinco elementos.

Amostra Estratificada
Esta técnica consiste em dividir a população em subgrupos, que são
denominados estratos. Estes estratos devem ser internamente mais
homogêneos do que a população toda, com respeito às variáveis em
estudo.

Amostra por conglomerados


Chamamos de conglomerado a um agrupamento de elementos da
população. Por exemplo, numa população de alunos de um escola, as
turmas formam conglomerados de alunos.

74
TÉCNICAS DE AMOSTRAGEM NÃO-PROBABILÍSTICAS

Amostra por cotas


Nesta técnica a população é vista de forma segregada, dividida em
diversos subgrupos. Numa pesquisa socioeconômica, por exemplo, a
população pode ser dividida por faixas de renda, faixas de idade, nível
de instrução, etc.

Amostra por julgamento


Os elementos escolhidos são aqueles julgados como típicos da
população que se deseja estudar.

Amostra por fluxo


Os elementos são selecionados através do fluxo destes em determinado
local. Por exemplo, considere uma pesquisa referente à opinião das
pessoas sobre a administração da cidade. A amostra pode ser
selecionada considerando o fluxo das pessoas no centro de Porto
Alegre.

As perguntas mais frequentes em relação ao tamanho mínimo da


amostra podem ser resumidas em três questões apresentadas na figura 17.

Figura 17. Questões mais frequentes sobre o tamanho da amostra

O tamanho da amostra escolhido no meu trabalho está


correto?

Considerando o tamanho da amostra que utilizei, os


resultados obtidos têm significância estatística?

Com o tamanho da amostra que utilizei, o meu trabalho


pode ser aceito em uma publicação científica?

75
Neste contexto, definir o tamanho mínimo da amostra é indispensável
para garantir a capacidade de o estudo responder aos objetivos propostos
considerando o rigor científico indispensável em qualquer pesquisa. É
importante observar que não existe um tamanho de amostra pré-determinado,
ou seja, cada pesquisa deve ser considerando sua população e seus objetivos.

A determinação do tamanho amostral é realizada mediante fórmulas


estatísticas, conhecidas como fórmulas para cálculo de tamanho de amostra
que consideram alguns elementos importantes apresentados na figura 18.

Figura 18. Elementos que devem ser considerados no cálculo do tamanho


mínimo da amostra

Tipo de • A fórmula a ser utilizada para a determinação do tamanho mínimo da


amostra depende se a variável a ser estimada é quantitativa ou
variável qualitativa.

Tamanho da • O universo (população) alvo do estudo deve ser claramente


determinado pelo pesquisador, bem como, se possível, seu
população tamanho conhecido.

Estimativa • É preciso ter uma idéia inicial do que se espera encontrar como
inicial dos resultado. Esse valor pode ser obtido através de um estudo
parâmetros piloto, ou ainda, através de estudos similares.

Erro Máximo • É a diferença entre o valor que a estatística fornece na


pesquisa e o verdadeiro valor do parâmetro que se deseja
de estimar. O erro máximo de uma pesquisa é estipulado pelo
Estimação pesquisador, quanto maior for o erro estabelecido, menor será
o tamanho da amostra e vice-versa.

76
DETERMINAÇÃO DO TAMANHO MÍNIMO DA AMOSTRA

Quando desejamos coletar uma amostra aleatória de dados que será


utilizada para estimar uma média populacional quantos valores amostrais
devem ser obtidos? De acordo com TRIOLA (2008) a determinação do
tamanho de uma amostra é muito importante, pois amostras
desnecessariamente grandes gastam tempo e dinheiro, e amostras muito
pequenas podem levar a resultados pobres.

Não podemos evitar a ocorrência do ERRO AMOSTRAL, porém


podemos limitar seu valor através da escolha de uma amostra de tamanho
adequado. Obviamente, o ERRO AMOSTRAL e o TAMANHO DA AMOSTRA
seguem sentidos contrários (conforme apresentação da figura 19 abaixo).
Quanto maior o tamanho da amostra, menor o erro cometido e vice-versa.

Figura 19. Relação entre erro amostral e o tamanho da amostra

Tamanho da
Amostra

Erro Amostral

77
CÁLCULO DO TAMANHO MÍNIMO DA AMOSTRA

A) PARA ESTIMAR UMA MÉDIA QUANDO A POPULAÇÃO É CONHECIDA

Para estimarmos uma média, o cálculo para o tamanho mínimo de


amostra necessita das seguintes informações:

- Determinação do erro de estimação ( )

- Nível de confiança desejado nos resultados (normalmente este valor é


estipulado em 95%)

Valores de z para níveis de confiança


estabelecidos e o tamanho da amostra.

Nível de confiança Valor tabela Z


90% 1,645
95% 1,960
99% 2,575

- Tamanho da população de interesse do estudo (N).

A fórmula utilizada é:

Onde:
2
– desvio-padrão populacional elevado ao quadrado (variância)
Z2 – valor da tabela normal padrão elevado ao quadrado
2
– erro máximo de estimação estabelecido pelo pesquisador
N – tamanho da população

78
EXEMPLO

Deseja-se determinar o tamanho mínimo de uma amostra para estimar a


média de gastos mensais em supermercado de clientes que possuem o cartão
fidelidade, considerando um erro máximo de estimação de 15 reais e uma
confiabilidade de 95%, o desvio-padrão deste gasto é sabido ser de 200 reais.
Considere que ao todo 6500 clientes possuem o cartão fidelidade.

Informações do problema:
Deseja estimar a média de gastos mensais no supermercado
N = 6.500 clientes (População)
Z= 1,96 (valor da tabela normal para uma confiança de 95%)
= 15 reais (erro amostral)
= 200 reais (desvio-padrão)

Para o valor final recomenda-se o


arredondamento sempre para o
próximo número inteiro.

Para esta pesquisa deve-se investigar no mínimo 619 clientes.

79
Para o caso do desvio-padrão ser desconhecido, deve-se utilizar uma
estimativa deste valor com base em dados amostrais, como por exemplo:

- Através de um estudo piloto com base na primeira coleta de pelo


menos 31 valores amostrais selecionados aleatoriamente, calcular o
desvio-padrão amostral.

- Através da utilização do desvio-padrão obtido em outra pesquisa


semelhante (características populacionais, mensuração das variáveis)
da que está sendo realizada.

B) PARA ESTIMAR UMA MÉDIA QUANDO A POPULAÇÃO É DESCONHECIDA

Para o caso do tamanho total da população ser desconhecido, ou ainda


aqueles casos em que a população é infinita, poderemos utilizar a seguinte
fórmula para determinar o tamanho mínimo da amostra:

EXEMPLO

Um Administrador de empresas deseja estimar a renda média para o


primeiro ano de trabalho em sua área de atuação. Quantos administradores
devem ser selecionados, desejando ter 95% de confiança em que a renda
média amostral esteja a menos de 20 reais da verdadeira renda média
populacional? Sabemos, por um estudo prévio, que o desvio-padrão é de 150
reais.

80
Devemos, portanto, obter uma amostra de ao menos 216
administradores que estejam no primeiro ano de trabalho, selecionadas
aleatoriamente.

C) PARA ESTIMAR UMA PROPORÇÃO QUANDO A POPULAÇÃO É CONHECIDA

Outro parâmetro estatístico cuja determinação afeta o tamanho da


amostra é a proporção populacional. A fórmula para cálculo do tamanho da
amostra para uma estimativa da PROPORÇÃO POPULACIONAL (p) é dada
por:

z 2 p (1 p ) N
n
(N 1) 2 z 2 p (1 p)

Onde:

Z- valor distribuição normal (para 95% de confiança, z=1,96)


p = proporção da característica a ser estudada (quando não sabemos esta
proporção, utilizamos o valor de p=50% ou ainda p=0,50)
N = tamanho da população
= erro máximo de estimação (normalmente, para pesquisas na área de
administração utilizamos 5% - 0,05)

EXEMPLO 1

Vamos supor uma pesquisa com uma população de 1450 assinantes da


NET, qual o tamanho mínimo que amostra deve ter considerando um erro
máximo de estimação de 5%?

Informações do problema:
Z- 1,96 (para 95% de confiança, z=1,96)
p = 0,50 (quando não sabemos esta proporção, utilizamos o valor de p=0,50)
N = 1.450
= 0,05

81
z 2 p(1 p) N 1,962.0,50(1 0,50).1450
n
(N 1) 2 z 2 p(1 p) (1450 1).0,052 1,962.0,50(1 0,50)

3,84 0,25 1.450


n
1449 0,0025 3,84 0,25

0,9604 1.450 1.392,58


n 303,86
3,6225 0,9604 4,5829

Devemos então investigar uma amostra de 304 assinantes da NET.

D) PARA ESTIMAR UMA PROPORÇÃO QUANDO A POPULAÇÃO É


DESCONHECIDA

Quando a população é desconhecida utilizamos para estimar uma


proporção a seguinte fórmula:

EXEMPLO

Uma pequena indústria fabricante de gêneros alimentícios deseja


realizar uma pesquisa em um supermercado de uma região de São Leopoldo
com o objetivo de estimar a proporção de consumidores que preferem o leite
embalado em sacos plásticos. Qual deve ser o tamanho mínimo da amostra
considerando um nível de confiança de 95% e um erro máximo de estimação
de 5%?

Informações do problema:

Z- 1,96 (para 95% de confiança, z=1,96)


p = 0,50 (quando não sabemos esta proporção, utilizamos o valor de p=0,50)
= 0,05

82
Devemos então investigar uma amostra de 385 consumidores.

RECAPITULANDO

A determinação do processo de amostragem e do tamanho da amostra


são decisões muito importantes em qualquer pesquisa, cabe sempre ao
pesquisador procurar desenhar seu planejamento amostral procurando reduzir
o máximo possível a fonte de erros.

Dependendo a variável principal a ser estimada e algumas informações


a respeito da população alvo da pesquisa, podemos utilizar diferentes fórmulas
para determinar o tamanho mínimo da amostra.

ATIVIDADES AMOSTRAGEM

Questão 1. Uma pesquisa é planejada para determinar as despesas médicas


anuais das famílias dos empregados de uma grande empresa. A gerência da
empresa deseja ter 95% de confiança de que a média da amostra está no
máximo com uma margem de erro de 50 reais da média real das despesas
médicas familiares. Um estudo-piloto indica que o desvio-padrão pode ser
calculado como sendo igual a 400 reais. Qual o tamanho de amostra
necessário?

83
Questão 2. Um estudo deseja saber a proporção de eleitores que se declaram
indecisos em relação a certo candidato. Qual deverá ser o tamanho mínimo de
amostra para uma confiança de 95% e um erro máximo de estimação de 5%.

Questão 3. Uma grande loja de departamentos deseja realizar uma pesquisa


com seus clientes que possuem cartão da loja. Ao todo são 4500 clientes, qual
o tamanho da amostra que deve ser adotado com um erro máximo de
estimação de 5% e um nível de confiança de 95%?

Questão 4. Um gerente de restaurante deseja estimar o tempo médio que os


clientes levam para realizar uma refeição. Com base em estudos anteriores
sabe-se que o desvio-padrão é de 15 minutos. Utilizando uma confiança de
95% e um erro máximo de 5 minutos, qual deve ser o tamanho mínimo da
amostra para este estudo?

Questão 5. Uma pesquisa deseja estimar a proporção de analfabetos em uma


região do interior do Brasil com uma confiabilidade de 95% e com um erro de
estimação máximo de 2,5%. Qual o tamanho da amostra a ser utilizada?

GABARITO ATIVIDADES PROPOSTAS

Questão 1. n = 245,8 246


Questão 2. n = 384,16 385
Questão 3. n = 354,01 355
Questão 4. n = 34,57 35
Questão 5. n = 1.536,64 1.537.

84
7. ESTIMAÇÃO

Simone Echeveste

Neste capítulo serão trabalhados alguns conceitos importantes a


respeito de estimação pontual e intervalar. Será apresentado ao aluno a
construção e a interpretação de um Intervalo de Confiança, bem como a
importância da informação fornecida pelo mesmo.

O aluno, ao final deste capítulo deverá realizar estimações intervalares


para parâmetros como a média e a proporção através da construção de
intervalos de confiança, bem como realizar a correta interpretação dos
mesmos.

Ao realizar uma pesquisa na grande maioria das vezes necessitamos


conhecer algumas características da população através de informações
amostrais, ou seja, uma amostra é extraída da população e, a partir da sua
análise, as informações obtidas são inferidas para toda a população de
interesse.

A estimação é o processo que consiste no uso de dados da amostra


(dados amostrais) para estimar valores de parâmetros populacionais
desconhecidos, tais como média, desvio padrão, proporções etc
.

Estimação é o processo pelo qual utilizamos um valor amostral (estimador)


com o objetivo de inferir o seu respectivo valor populacional (parâmetro).

85
IMPORTANTE:

A média populacional é estimada por


O desvio-padrão populacional é estimado por s
A proporção populacional é estimada por p

ESTIMAÇÃO POR PONTO E POR INTERVALOS DE CONFIANÇA

A estimação pontual, ou por ponto de um parâmetro ocorre sempre que


calculamos alguma estatística utilizando apenas a aplicação da fórmula de seu
estimador. Neste tipo de estimativas a informação fornecida é composta por um
único valor.

Quando calculamos, por exemplo, o salário médio de um grupo de


pessoas e chegamos ao resultado reais estamos estimando que
em média essas pessoas tenham um salário de 3.250 reais. Observe que
nossa estimativa é pontual, ou seja, feita utilizando apenas um único valor.

Já a estimação intervalar consiste na determinação de um intervalo de


valores do qual, com certa confiança (probabilidade), esteja contido o
parâmetro desconhecido, utilizando para isso a informação obtida com o seu
estimador. A utilização de intervalos de confiança é uma alternativa sempre
muito interessante no processo de estimação, pois permite determinar o erro
máximo de estimação cometido com certa confiança pré-estabelecida.

INTERVALO DE CONFIANÇA PARA MÉDIA

Ao construir um intervalo de confiança para uma média desejamos


estabelecer um intervalo de valores com uma probabilidade pré-estabelecida
considerando a estimativa da média ( ) corrigida pelo erro de estimação ( ).

86
Destaca-se aqui que a variável analisada (x) deve apresentar
distribuição aproximadamente normal para que se possa realizar esse
procedimento de estimação intervalar.

Figura 20. Representação do Intervalo de Confiança 95% para a média

95%

Duas situações são consideradas quando desejamos estabelecer um


intervalo de confiança para a média populacional µ:

1ª) Quando o desvio-padrão é conhecido


2ª) Quando o desvio-padrão é desconhecido

Seja “X” uma variável aleatória que apresenta distribuição normal com
desvio-padrão desconhecido, o intervalo de confiança para a média µ pode
ser assim determinado:

Atenção!

x = média amostral
= erro de estimação
t= valor tabelado tabela t-student
Onde: s = desvio-padrão amostral
n = tamanho da amostra

87
Observe que neste intervalo utilizaremos a distribuição t-student que é
uma distribuição muito semelhante à distribuição normal e é utilizada em casos
de pequenas amostras ou ainda quando é desconhecido. A tabela t-student
apresentada abaixo possui ( n - 1) graus de liberdade:

Tabela de valores críticos da distribuição t de Student.


Gl (n-1) IC 95% IC 98% IC 99%
0,050 0,020 0,010
1 12,706 31,821 63,656
2 4,303 6,965 9,925
3 3,182 4,541 5,841
4 2,776 3,747 4,604
5 2,571 3,365 4,032
6 2,447 3,143 3,707
7 2,365 2,998 3,499
8 2,306 2,896 3,355
9 2,262 2,821 3,250
10 2,228 2,764 3,169
11 2,201 2,718 3,106
12 2,179 2,681 3,055
13 2,160 2,650 3,012
14 2,145 2,624 2,977
15 2,131 2,602 2,947
16 2,120 2,583 2,921
17 2,110 2,567 2,898
18 2,101 2,552 2,878
19 2,093 2,539 2,861
20 2,086 2,528 2,845
21 2,080 2,518 2,831
22 2,074 2,508 2,819
23 2,069 2,500 2,807
24 2,064 2,492 2,797
25 2,060 2,485 2,787
26 2,056 2,479 2,779
27 2,052 2,473 2,771
28 2,048 2,467 2,763
29 2,045 2,462 2,756
30 2,042 2,457 2,750
39 2,023 2,426 2,708
40 2,021 2,423 2,704
49 2,010 2,405 2,680
50 2,009 2,403 2,678
59 2,001 2,391 2,662
60 2,000 2,390 2,660
99 1,984 2,365 2,626
100 1,984 2,364 2,626
120 1,980 2,358 2,617
200 1,972 2,345 2,601
infinito 1,960 2,326 2,576

88
EXEMPLO 1

Em um estudo realizado com uma amostra de 25 clientes investidores


de um banco verificou uma idade média destes clientes de 54,7 anos com um
desvio-padrão de 5,2 anos. Construa o Intervalo de Confiança (IC) 95% para a
verdadeira idade média de todos os clientes investidores deste banco.

Dados do Problema:
Variável (x) – Idade (em anos)
Amostra (n)= 25 clientes
= 54,7 anos
s = 5,2 anos
t = 2,064 (veja na página a seguir como encontrar esse valor)

Intervalo de Confiança 95%

= 2,1466

[54,7 ± 2,15]

[54,7 – 2,15 a 54,7+ 2,15]

[52,55 a 56,85]

Interpretação: Estima-se com 95% de confiança que a verdadeira idade média


destes clientes seja um valor entre 52,55 anos e 56,85 anos .

89
COMO ENCONTRAR O VALOR DE “T” NA TABELA T-STUDENT

Na tabela “t” devemos considerar duas informações importantes: a linha


e a coluna onde o valor se encontra. Na linha temos os graus de liberdade (gl)
que correspondem sempre ao tamanho da amostra menos 1 (n-1) e a coluna
devemos observar o nível de confiança do intervalo desejado.

No exemplo acima, o tamanho da amostra é 25 e o intervalo de


confiança solicitado é 95%, então devemos olhar na tabela a linha 25 – 1 = 24
e a coluna que corresponde ao IC 95%:

O valor de “t” então para este exemplo é de 2,064


t= 2,064

90
EXEMPLO 2

Em uma central 0800 de atendimento a dúvidas sobre os produtos de


um empresa foi registrado em uma amostra de 15 dias apresentou uma média
de 53 atendimentos ao dia com um desvio-padrão de 4 atendimentos. Obtenha
o intervalo de confiança 95% para a verdadeira média de atendimentos diários
recebidos por esta central.

Dados do Problema:
Variável (x) – Número de atendimentos realizados ao dia
Amostra (n)= 15 dias
= 53 atendimentos
s = 4 atendimentos
t = 2,145 (procurar na tabela - linha 14 e coluna IC95%)

Intervalo de Confiança 95%

= 2,22

91
[53 ± 2,22]

[53 – 2,22 a 53 + 2,22]

[50,78 a 55,22]

Interpretação: Estima-se com 95% de confiança que o verdadeiro número


médio de atendimentos realizados por esta central seja um valor entre 50,78 e
55,22 atendimentos ao dia.

INTERVALO DE CONFIANÇA PARA PROPORÇÃO

Seja “p” a proporção de ocorrência de algum evento de interesse em


uma população, o Intervalo de Confiança para uma proporção da população
pode ser definido como:

Figura 21. Representação do Intervalo de Confiança 95% para a proporção

95%

Atenção!

p= proporção observada na amostra


= erro de estimação
z= valor tabelado tabela normal
n = tamanho da amostra

92
Os valores de Z (normal-padrão) podem ser obtidos na tabela t com
infinitos graus de liberdade. Valores típicos:

z 0, 05 =1,645 (IC 90%)

z 0 ,025 1,96 (IC 95%)

z 0 ,005 2,576 (IC 99%)

EXEMPLO

Num depósito uma amostra de 230 latas de certo produto alimentar


armazenadas para serem distribuídas foram verificadas constatando-se que 12
ultrapassaram já o prazo de validade. Construa e interprete o Intervalo de
confiança 95% para a proporção verdadeira de latas que já ultrapassaram o
prazo de validade.

Dados do Problema:
Proporção investigada – proporção de latas com prazo de validade vencido

Amostra (n)= 230 latas


Verifique que, de acordo com o enunciado do problema das 230 latas, 12
ultrapassaram o prazo de validade.

= 0,0522

z = 1,96 (valor obtido a partir da normal padrão de acordo com os valores de z


apresentada na página anterior)

93
Intervalo de Confiança 95%

Após o intervalo construído,


multiplique os valores obtidos
por 100 para apresentar o
intervalo em percentual.

Interpretação: Estima-se com 95% de confiança que a verdadeira proporção


de latas que já ultrapassaram o prazo de validade seja um valor entre 2,35% a
8,09%.

94
RECAPITULANDO

A Estimação é o processo pelo qual utilizamos um valor amostral


(estimador) com o objetivo de inferir o seu respectivo valor populacional
(parâmetro), podendo ser realizada de duas formas: estimativa pontual ou
estimativa intervalar.

A estimação intervalar é construída a partir do cálculo do estimador de


interesse ajustado a um erro de estimação, corresponde a uma alternativa
sempre muito interessante no processo de estimação, pois permite ao
pesquisador considerar em uma estimativa pontual o erro de estimação que
pode ocorrer neste valor.

ATIVIDADES SOBRE ESTIMAÇÃO

Questão 1. Um determinado Instituto de Pesquisa investigou uma amostra de


400 Administradores sobre o tempo que levaram para obter seus diplomas. A
média obtida foi de 4,5 anos com um desvio-padrão de 0,5 anos. Com base
nesses dados amostrais, construa um intervalo de 95% de confiança para o
verdadeiro tempo médio gasto por todos os Administradores para obter seus
diplomas.

Questão 2. Uma amostra de 539 lares de certa cidade foi selecionada e


determinou-se que em 133 deles havia pelo menos uma arma de fogo. Usando
um nível de confiança de 95% calcule o Intervalo de Confiança para a
verdadeira proporção de lares com pelo menos uma arma de fogo.

Questão 3. Para estimar o tempo médio de atendimento em um restaurante do


tipo fast-food um pesquisador anotou o tempo gasto por 40 garçonetes para
completar um pedido-padrão (consistindo de 1 hamburguer, uma fritas e uma
bebida). As garçonetes levaram, em média, 4,3 minutos com um desvio-padrão
de 2,4 minutos, para completar os pedidos. Construa o intervalo de confiança

95
95% para o verdadeiro tempo médio necessário para completar um pedido-
padrão.

Questão 4. Quarenta e uma pessoas, de uma amostra aleatória de 500


trabalhadores, estão desempregadas. Calcule um intervalo de confiança 95%
para esta proporção.

Questão 5. Para avaliar o peso médio de uma nova safra de limões, o


administrador de uma fazenda obteve os pesos de 50 limões novos
encontrando uma média de 115,5 gramas, com um desvio-padrão de 20,4
gramas. Construa e interprete confiança 95% para o verdadeiro peso médio
dos limões.

GABARITO DAS ATIVIDADES PROPOSTAS

Questão 1. R: [4,45 anos a 4,51 anos]

Questão 2. R: [21,03% a 28,31%]

Questão 3. R: [3,56 minutos a 5,04 minutos]

Questão 4. R: [5,8% a 10,6%]

Questão 5. R: [109,85 gramas a 121,15 gramas].

96
8. TESTES DE HIPÓTESES

Simone Echeveste

Neste capítulo estudaremos uma importante ferramenta de análise


estatística muito utilizada na área da Administração que é o Teste de
Hipóteses. Esta ferramenta permite ao pesquisador verificar se uma afirmação
sobre um parâmetro (média) pode ser aceita para toda a população ou não.

Ao final deste capítulo o aluno deverá identificar os tipos de problemas


que podem ser analisados através de um teste de hipóteses, compreender
todos os passos que compõem a realização deste, bem como concluir sobre os
resultados obtidos.

Em algumas situações de pesquisa existe um particular interesse em


decidir sobre a verdade ou não de uma hipótese específica (se dois grupos têm
a mesma média ou não, ou se o parâmetro populacional tem um valor em
particular ou não). Na Estatística quando falamos em hipóteses nos referimos a
uma afirmação a respeito de um parâmetro, como a média ou o desvio-padrão,
por exemplo.

Neste caso precisamos ferramentas que permitam testar se uma


afirmação é aceita ou rejeitada tendo como base as informações obtidas em
uma amostra. O Teste de hipóteses viabiliza uma estrutura para que façamos
isto, ele é útil quando desejamos verificar a alegação (afirmação) feita sobre
um parâmetro (média ou proporção).

97
Exemplos:
- O lucro médio mensal da empresa é de 500 mil reais.
- As vendas médias da loja A são superiores às da loja B.
- O tempo médio de entrega da mercadoria é de 7 dias.

Um teste de hipóteses deve considerar alguns passos importantes na


sua realização. Iniciamos com a determinação da hipótese a ser investigada,
ou ainda o efeito que desejamos comprovar, este deve se referir a algum
parâmetro populacional como a média ou a proporção, por exemplo.

A hipótese estabelecida é comparada aos resultados obtidos


considerando uma pesquisa realizada com uma amostra de “n” elementos. As
informações obtidas com os estimadores dos parâmetros de interesse
adicionadas a alguns elementos de probabilidade permitirão ao pesquisador
decidir se a hipótese é verdadeira ou não.

Figura 22. Elementos de um Teste de Hipóteses

1º) Descreva o efeito em que está interessado em comprovar em termos de


um parâmetro populacional como, por exemplo, uma média ( ) ou uma
proporção ( );

2º) A Hipótese Nula (H0) é a afirmação de que tal efeito não está presente
na população;

3º) Com base nos dados obtidos na amostra verifique se os valores obtidos
estão muito distantes do valor do parâmetro pela hipótese nula; caso
afirmativo, os dados evidenciam que a hipótese nula é falsa e que o efeito
que está procurando está realmente presente;

98
Em geral, estipula-se um nível de 5%. O valor da probabilidade de se
obter o efeito observado, dado que a hipótese nula é verdadeira, é chamado de
p-valor. Se o valor do p-valor for menor que o nível de significância estipulado
(normalmente de 5%), assume-se o erro tipo I e rejeita-se a hipótese nula. Ao
contrário, se o p-valor for maior, não é assumido o erro tipo I e se aceita a
hipótese nula.

Os testes podem rejeitar ou aceitar a hipótese nula e nesta decisão


podem ocorrer dois possíveis tipos de erros conforme demonstra a Figura 20:

Figura 23. Tipos de Erros em um Teste de Hipóteses

Erro Tipo I

• É o erro ao rejeitar H0 quando, na realidade, H0 é verdadeira. A


probabilidade de cometer este erro do tipo I é designada por α (nível de
significância).

Erro Tipo II

• É o erro ao aceitar H0 quando, na realidade, H0 é falsa. A


probabilidade de cometer este erro do tipo II é designada por β .

Em um teste de hipóteses é obviamente desejável que se reduza ao mínimo


as probabilidades α e β dos dois tipos de erros. A redução simultânea dos
erros ocorre sempre quando aumentamos o tamanho da amostra.

99
COMPONENTES DE UM TESTE DE HIPÓTESES

HIPÓTESES DE PESQUISA

O primeiro passo consiste em formular hipóteses sobre a afirmação de


estudo. As hipóteses estatísticas sempre comparam dois ou mais parâmetros e
podem ser classificadas em dois tipos:

Hipótese Nula (H0) estabelece a ausência de diferença entre os


parâmetros. É sempre representada por uma igualdade.

Hipótese Alternativa (H1) é a hipótese contrária à H0 geralmente é a


hipótese que o pesquisador quer ver confirmada. Pode representar
simplesmente uma desigualdade, ou ainda a ideia de
superioridade/inferioridade.

-O tempo médio de entrega da mercadoria é de 7 dias

H0 : = 7 dias
H1 : 7 dias

-A quantidade média de peças defeituosas do fabricante A é superior a


do fabricante B

H0 : A = B

H1 : A > B

ESTATÍSTICA DO TESTE

A estatística do teste é um valor calculado com as informações


provenientes da amostra e posteriormente utilizado para se tomar a decisão
sobre a aceitação ou rejeição da hipótese nula (H0).

100
REGRA DE DECISÃO

Se o valor da estatística do teste localiza-se na região crítica,


rejeitamos a hipótese (nula) H0, pois existe uma forte evidência amostral de sua
falsidade. Ao contrário, aceitamos H0, concluindo que não existe evidência
amostral significativa para sua rejeição.

CONCLUSÃO EXPERIMENTAL

Após a regra de decisão o teste deve ter uma conclusão experimental


onde o pesquisador de acordo com o contexto do problema finalizará a sua
análise descrevendo os resultados obtidos.

Figura 24. Etapas de um teste de hipóteses

Formulação das hipóteses de pesquisa H0 e H1

Calcular a Estatística do Teste

Estabelecer a Regra de Decisão e o nível de significância do teste

Concluir

101
TESTE DE HIPÓTESES PARA UMA MÉDIA (TESTE T – STUDENT)

O objetivo deste teste é comparar os valores obtidos em uma amostra


com uma média estabelecida como referência.

Hipóteses

Ho : o (referência)
Ha : o (referência)

Estatística do teste

Onde: x = média da amostra

X 0 = valor de referência
o
t cal s = desvio-padrão da amostra
s
n = tamanho da amostra
n

Regra de decisão

Na regra de decisão devemos considerar que a variável analisada tenha


distribuição aproximadamente normal. Neste caso, a partir dos valores da
tabela t-student iremos definir os pontos de corte na regra de decisão, ou seja,
a partir de que ponto inicia e termina a região crítica (região de rejeição).

A regra estabelece que se o valor calculado na estatística do teste for


um valor localizado na região de aceitação deveremos então aceitar a hipótese
nula H0 que representa a decisão de que a diferença encontrada nos dados
amostrais com os parâmetros populacionais NÃO é significativa.

102
Para o caso do valor calculado na estatística estar localizado na região
crítica deveremos então rejeitar a hipótese nula H0 que representa a decisão
de que SIM, existe diferença significativa dos dados amostrais com os
parâmetros populacionais.

Figura 25. Regra de decisão

Região crítica Região de Região crítica


Aceitação

0
(-) Valor tabelado (+) Valor tabelado

Como obter o valor tabelado da Regra de Decisão

Utilizaremos aqui o valor da tabela t-student, da mesma forma como já


utilizamos para a construção dos Intervalos de Confiança, utilizando a mesma
tabela. A linha a ser utilizada corresponde aos graus de liberdade, obtidos a
partir do tamanho da amostra investigada menos 1(n – 1). Já a coluna
corresponderá ao nível de significância desejado do teste (p-value) que
corresponde ao erro do teste – normalmente esse nível de significância é
estabelecido em no máximo 5%.
Nível de significância do teste
Graus de liberdade
(n – 1)

103
EXEMPLO 1

Uma fábrica de móveis afirma que o tempo médio de entrega de seus


produtos vendidos é de 18 dias. Para verificar esta afirmação uma amostra de
30 pedidos desta empresa foi analisada verificando-se um tempo médio de
entrega de 17,8 dias com um desvio-padrão de 5,6 dias. Analise os dados e
conclua ao nível de significância de 5%.

Passo 1 – Dados do Problema

Variável (x)= Tempo de entrega dos produtos (dias)


µ0= 18 dias (valor de referência)
n= 30 pedidos (tamanho da amostra)
x = 17,8 dias (média da amostra)
s= 5,6 dias (desvio-padrão da amostra)
α = 0,05 (nível de significância do teste: p=5%)

Passo 2 – Hipóteses de Pesquisa

H0 : µ = 18 dias
H1 : µ ≠ 18 dias

Passo 3 – Cálculo da Estatística do Teste

x - μ0 17,8 - 18 - 0,20 - 0,20


t calc = = = = - 0,196
s 5,6 5,6 1,02
n 30 5,48

t calc - 0,196

104
Passo 4 – Regra de Decisão

Vamos agora identificar o valor tabelado a ser utilizado na Regra de


Decisão: A amostra desta pesquisa foi de 30 televisores, então o grau de
liberdade (n-1) é 30 – 1 = 29 (linha 29 da tabela t). O nível de significância
estabelecido no problema é de 5% - então a coluna a ser utilizada da tabela é a
que corresponde 0,05.

Tabela de valores críticos da distribuição t de Student.


Gl (n-1) IC 95% IC 98% IC 99%
0,050 0,020 0,010
18 2,101 2,552 2,878
19 2,093 2,539 2,861
20 2,086 2,528 2,845
21 2,080 2,518 2,831
22 2,074 2,508 2,819
23 2,069 2,500 2,807
24 2,064 2,492 2,797
25 2,060 2,485 2,787
26 2,056 2,479 2,779
27 2,052 2,473 2,771
28 2,048 2,467 2,763
29 2,045 2,462 2,756
30 2,042 2,457 2,750
39 2,023 2,426 2,708
40 2,021 2,423 2,704
49 2,010 2,405 2,680
50 2,009 2,403 2,678
59 2,001 2,391 2,662
60 2,000 2,390 2,660
99 1,984 2,365 2,626
100 1,984 2,364 2,626
120 1,980 2,358 2,617
200 1,972 2,345 2,601
infinito 1,960 2,326 2,576

O valor de “t” tabelado é então 2,045 – esse valor determinará na regra


de decisão os limites da região crítica.

105
Regra de Decisão

Região de Região crítica


Região crítica Aceitação

0
-2,045 +2,045

A regra estabelecida é: se o valor da estatística do teste for SUPERIOR


a +2,045 ou INFERIOR a -2,045 nossa decisão será REJEITAR H0, ou seja, há
diferença significativa entre os valores observados na amostra com o valor
estabelecido como referência.

Já se o valor da estatística do teste estiver ENTRE -2,045 e +2,045


nossa decisão será de ACEITAR H0 o que implica na existência de uma
diferença NÃO significativa entre os valores da amostra com a referência.

Para o nosso exemplo o valor da estatística do teste foi de t= -0,196

Região de Região crítica


Região crítica Aceitação

0
-2,045 +2,045
-0,196

Este valor (t=-0,196) está localizado, na nossa regra de decisão, dentro


da região de aceitação – então nossa decisão será ACEITAR H0.

106
Ao aceitar a hipótese nula H0 estaremos aceitando a seguinte afirmação:

H0 : µ = 18 dias

No contexto do problema, estaremos então aceitando que o tempo


médio de entrega dos produtos desta fábrica de móveis não difere
significativamente de 18 meses, ou seja, a diferença encontrada em relação a
esse tempo médio na amostra NÃO FOI SIGNIFICATIVA.

Passo 5 – Conclusão

Na conclusão escreveremos um parágrafo referente ao resultado final do


teste de hipóteses:

“Verifica-se através do teste estatístico realizado, ao nível de


significância de 5%, que o tempo médio de entrega dos produtos não difere
significativamente de 18 meses.”

EXEMPLO 2

Uma indústria alimentícia produz determinado tipo de pão, cujo peso


médio deve ser de 190 gramas. Devido a mudanças na política cambial, que
ocasionou aumento no preço do trigo, alguns ingredientes da receita foram
substituídos. Uma equipe do controle de qualidade desta indústria resolveu
verificar se o peso do produto aumentou e escolheu, aleatoriamente, 200
unidades, medindo o peso de cada uma. O peso médio obtido da amostra foi
de 182 gramas com um desvio e padrão de 12 gramas. Analise os dados e
conclua ao nível de significância de 5%.

Passo 1 – Dados do Problema

Variável (x)= Peso do pão (gramas)


µ0= 190 gramas (valor de referência)
n= 200 pães (tamanho da amostra)

107
= 5,6
182meses (desvio-padrão
gramas da amostra)
(média da amostra)
s = 12 gramas (desvio-padrão da amostra)
α = 0,05 (nível de significância do teste: p=5%)

Passo 2 – Hipóteses de Pesquisa

H0 : µ = 190 gramas
H1 : µ ≠ 190 gramas

Passo 3 – Cálculo da Estatística do Teste

x - μ0 182 - 190 -8 -8
t calc = = = = - 9,41
s 12 12 0,85
n 200 14,14

t calc - 9,41

Passo 4 – Regra de Decisão

A amostra desta pesquisa foi de 200 pães televisores, então o grau de


liberdade (n-1) é 200 – 1 = 199 (não temos na tabela a linha 199, então
usaremos a mais próxima – neste caso a linha 200). O nível de significância
estabelecido no problema é de 5% - então a coluna a ser utilizada da tabela é a
que corresponde 0,05.

108
Tabela de valores críticos da distribuição t de Student.
Gl (n-1) IC 95% IC 98% IC 99%
0,050 0,020 0,010
18 2,101 2,552 2,878
19 2,093 2,539 2,861
20 2,086 2,528 2,845
21 2,080 2,518 2,831
22 2,074 2,508 2,819
23 2,069 2,500 2,807
24 2,064 2,492 2,797
25 2,060 2,485 2,787
26 2,056 2,479 2,779
27 2,052 2,473 2,771
28 2,048 2,467 2,763
29 2,045 2,462 2,756
30 2,042 2,457 2,750
39 2,023 2,426 2,708
40 2,021 2,423 2,704
49 2,010 2,405 2,680
50 2,009 2,403 2,678
59 2,001 2,391 2,662
60 2,000 2,390 2,660
99 1,984 2,365 2,626
100 1,984 2,364 2,626
120 1,980 2,358 2,617
200 1,972 2,345 2,601
infinito 1,960 2,326 2,576

O valor de “t” tabelado é então 1,972 – esse valor determinará na regra


de decisão os limites da região crítica.

Regra de Decisão

Região de Região crítica


Região crítica Aceitação

0
-9,41 -1,972 +1,972

Para o nosso exemplo o valor da estatística do teste foi: t= -9,41

109
Este valor (t=-9,41) está localizado, na nossa regra de decisão, FORA
da região de aceitação, ou ainda, ele localiza-se na REGIÃO CRÍTICA – então
nossa decisão será REJEITAR H0.

H0 : µ = 190 gramas
H1 : µ ≠ 190 gramas

Ao rejeitar a hipótese nula H0 estaremos concordando com a afirmação


feita em H1:

H1 : µ ≠ 190 gramas

No contexto do problema, estaremos então concluindo que os pães têm


um peso médio DIFERENTE de 190 gramas, ou seja, a diferença encontrada
em relação a esse peso médio na amostra FOI SIGNIFICATIVA. Como esta
diferença foi significativa, poderemos observar na amostra que o peso
encontrado de 182 gramas é INFERIOR ao peso de referência 190 gramas.

Passo 5 – Conclusão

“Verifica-se através do teste estatístico realizado, ao nível de


significância de 5%, que o peso médio dos pães após a substituição de alguns
ingredientes é significativamente DIFERENTE de 190 gramas. Observa-se ao
analisar os resultados da amostra que este peso é significativamente
INFERIOR a 190 gramas.”

110
TESTE DE HIPÓTESES PARA COMPARAÇÃO ENTRE DUAS MÉDIAS (T-
STUDENT PARA DUAS AMOSTRAS)

Este teste é muito semelhante ao anteriormente visto, porém aqui não


teremos um valor de referência a ser comparados, mas sim duas amostras
provenientes de dois grupos distintos e o objetivo aqui é comparar as médias
destas duas amostras independentes verificando se existe ou não diferença
significativa entre elas.

Cada um dos grupos investigados (ou amostras investigadas) gera suas


estatísticas descritivas que deverão ser utilizadas no cálculo da estatística do
teste: tamanho da amostra (n), média amostral ( ) e desvio-padrão amostral
(s).

n1 n2
Grupo 1 x1 Grupo 2 x2
s1 s2

Hipóteses:

Ho : 1 2

H1 : 1 2

As hipóteses são estabelecidas a partir da comparação da média dos


grupos, na hipótese nula H0 novamente teremos a ausência de diferença
significativa, ou seja, a média do grupo 1 é igual a média do grupo 2. Já a
hipótese alternativa H1 indica que EXISTE diferença significativa entre as
médias dos grupos 1 e 2.

111
Estatística do teste

Onde:

(desvio-padrão ao quadrado)
(desvio-padrão ao quadrado)

Regra de decisão

A regra de decisão para este teste é praticamente a mesma do teste


anterior, porém a única diferença refere-se aos graus de liberdade que agora,
como teremos dois grupos, será: (n1 + n2 – 2), ou seja deve-se somar os
tamanhos de amostra dos dois grupos e subtrair dois.

Região crítica
Região de Região crítica
Aceitação

(-) Valor tabelado (+) Valor tabelado

112
EXEMPLO 1

Uma empresa fabricante de telefones celulares afirma que a duração


média em horas (em stand by) da sua bateria é superior à duração das
concorrentes. Duas amostras formadas por 40 baterias do fabricante e 40 do
concorrente apresentaram médias iguais a 65 e 60 horas, com um desvio-
padrão de 2 e 3 horas, respectivamente. Seria possível supor que a bateria da
empresa do fabricante tenha significativamente maior duração? Considere um
nível de significância de 5%.

Passo 1 – Dados do Problema

Variável (x)= Tempo de duração da bateria (horas)


Grupo 1 – Fabricante Grupo 2 - Concorrente

α = 0,05 (nível de significância do teste: p=5%)

Passo 2 – Hipóteses de Pesquisa

Ho : 1 2

H1 : 1 2

113
Passo 3 – Cálculo da Estatística do Teste

Passo 4 – Regra de Decisão

A tabela a ser utilizada é a mesma tabela do teste anterior. Na linha


vamos obter os graus de liberdade (gl) considerando a soma dos dois
tamanhos de amostra dos grupos menos 2:

Gl: (n1+n2 – 2) = (40+40 - 2) = .78 (Na tabela não temos linha 78, então
iremos para a mais próxima que é a linha 60)

Tabela de valores críticos da distribuição t de Student.


Gl (n-1) IC 95% IC 98% IC 99%
0,050 0,020 0,010
25 2,060 2,485 2,787
26 2,056 2,479 2,779
27 2,052 2,473 2,771
28 2,048 2,467 2,763
29 2,045 2,462 2,756
30 2,042 2,457 2,750
39 2,023 2,426 2,708
40 2,021 2,423 2,704
49 2,010 2,405 2,680
50 2,009 2,403 2,678
59 2,001 2,391 2,662
60 2,000 2,390 2,660
99 1,984 2,365 2,626
100 1,984 2,364 2,626
120 1,980 2,358 2,617
200 1,972 2,345 2,601
infinito 1,960 2,326 2,576

114
O valor de “t” tabelado é então 2,000 – esse valor determinará na regra
de decisão os limites da região crítica.

Regra de Decisão

Região de Região crítica


Região crítica Aceitação

0
-2,000 +2,000
8,77

Para o nosso exemplo o valor da estatística do teste foi: t= 8,77

Este valor (t=8,77) está localizado, na nossa regra de decisão, FORA da


região de aceitação, ou ainda, ele localiza-se na REGIÃO CRÍTICA – então
nossa decisão será REJEITAR H0.

Ho : 1 2

H1 : 1 2

Ao rejeitar a hipótese nula H0 estaremos concordando com a afirmação


feita em H1:

H1 : µ1 ≠ µ2

No contexto do problema, estaremos então concluindo que os grupos de


celulares (fabricante e concorrente) têm um tempo médio de duração da bateria
DIFERENTE um do outro, ou seja, a diferença encontrada em relação a esse
tempo médio de duração na amostra investigada FOI SIGNIFICATIVA. Como
esta diferença foi significativa, poderemos observar na amostra que o tempo

115
médio de duração do fabricante (65 horas) é SUPERIOR ao tempo médio de
duração do concorrente (60 horas).

Passo 5 – Conclusão

“Verifica-se através do teste estatístico realizado, ao nível de


significância de 5%, que o tempo médio de duração da bateria é
significativamente DIFERENTE entre os dois grupos de estudo (fabricante e
concorrente). Observa-se ao analisar os resultados da amostra que este tempo
médio é significativamente SUPERIOR para o fabricante.”

EXEMPLO 2

Duas técnicas de venda são aplicadas em dois grupos de vendedores com o


objetivo de verificar se alguma delas é mais eficaz que a outra. Foi observado o
Número de unidades vendidas no período de uma semana. Os dados
observados foram:

Técnica de venda Nº Vendedores Venda Diária Média Desvio-Padrão


Técnica A 20 76 unidades 9 unidades
Técnica B 25 78 unidades 8 unidades

Analise estes dados a um nível de significância de 5%.

Passo 1 – Dados do Problema

Variável (x)= venda diária (unidades)


Grupo 1 – Técnica de vendas A Grupo 2 – Técnica de vendas B

116
α = 0,05 (nível de significância do teste: p=5%)

Passo 2 – Hipóteses de Pesquisa

Ho : 1 2

H1 : 1 2

Passo 3 – Cálculo da Estatística do Teste

Passo 4 – Regra de Decisão

Gl: (n1+n2 – 2) = (20 + 25 - 2) = 43 (Na tabela não temos linha 43, então
iremos para a mais próxima que é a linha 40)

117
Tabela de valores críticos da distribuição t de Student.
Gl (n-1) IC 95% IC 98% IC 99%
0,050 0,020 0,010
18 2,101 2,552 2,878
23 2,069 2,500 2,807
24 2,064 2,492 2,797
25 2,060 2,485 2,787
26 2,056 2,479 2,779
27 2,052 2,473 2,771
28 2,048 2,467 2,763
29 2,045 2,462 2,756
30 2,042 2,457 2,750
39 2,023 2,426 2,708
40 2,021 2,423 2,704
49 2,010 2,405 2,680
50 2,009 2,403 2,678
59 2,001 2,391 2,662
200 1,972 2,345 2,601
infinito 1,960 2,326 2,576

O valor de “t” tabelado é então 2,021 – esse valor determinará na regra


de decisão os limites da região crítica.

Regra de Decisão

Região de Região crítica


Região crítica Aceitação

0
-2,021 0,78 +2,021

Para o nosso exemplo o valor da estatística do teste foi: t= 0,78


Este valor (t=0,78) está localizado, na nossa regra de decisão, DENTRO
da região de aceitação, ou ainda, ele localiza-se na REGIÃO DE ACEITAÇÃO
– então nossa decisão será ACEITAR H0.

118
Ho : 1 2

H1 : 1 2

Ao aceitar a hipótese nula H0 estaremos concordando com a afirmação


feita em H0:

H1: µ1 = µ2

No contexto do problema, estaremos então concluindo que não existe


diferença significativa para as vendas médias entre as técnicas de venda A e B.

Passo 5 – Conclusão

“Verifica-se através do teste estatístico realizado, ao nível de


significância de 5%, que não existe diferença significativa para as vendas
médias entre as técnicas de venda A e B”.
.

119
RECAPITULANDO

Os Testes de hipóteses fornecem ao pesquisador uma ferramenta útil


na comprovação ou não de hipóteses feitas sobre um parâmetro (média ou
proporção). Trata-se de uma comprovação científica da existência de
diferenças significativas a partir da análise de resultados provenientes de
amostras com parâmetros populacionais.

ATIVIDADES SOBRE TESTES DE HIPÓTESES

Questão 1. O tempo de deslocamento de Porto Alegre até São Leopoldo antes


das obras da copa apresentava uma média de 40 minutos. Atualmente, devido
as obras em andamento, uma amostra de 50 indivíduos que realizaram este
trajeto apresentou uma média de tempo de 70 minutos com um desvio-padrão
de 5 minutos. Analise os dados e conclua ao nível de significância de 5% se
houve um aumento significativo neste tempo médio de deslocamento.

Questão 2. Foi feita uma comparação salarial entre profissionais de


determinada categoria que atuam nos setores público e privado. Foram
investigados 45 profissionais do setor público, encontrando-se média de R$
1220, com desvio-padrão de R$ 240. Entre 28 profissionais do setor privado, a
média foi de R$ 1470, com desvio-padrão de R$ 270. Usando 5% de
significância, analise e conclua sobre estes dados.

Questão 3. A industrial ABC S.A. fabricante de determinado equipamento


eletrônico, procedeu a substituição de certo componente importado pelo similar
nacional. Um grande comprador da referida indústria supõe que tal substituição
tenha diminuído a duração do produto que antes era anunciada como sendo,
em média, de 210 horas. Para julgar a aceitabilidade de sua suposição, o
comprador testou uma amostra de 100 unidades, verificando um tempo médio

120
de duração de 197 horas com um desvio-padrão de 16 horas. Fixado o nível de
significância de 5% conclua sobre o caso.

Automóvel n Média de consumo Desvio-padrão


Colossal 12 unidades 14 km/l 2 km/l
XP15 10 unidades 15 Km/l 4 km/l

Questão 4. O dono de uma empresa de entregas e mudanças possui uma frota


de automóveis e está interessando em testar duas marcas de pneus radiais. Os
dados em km rodados até o desgaste do pneu para uma amostra de 25
unidades do pneu A e 25 unidades do pneu B são:

Pneu A : Média: 38500 km; Desvio-padrão: 1200 km


Pneu B – Média 36700 km; Desvio-padrão: 960 km

Através destes dados, foi realizado o teste t-student de comparação de duas


médias resultando um valor de estatística do teste t=5,86. Ao analisar estes
dados, ao nível de significância de 5% você poderia concluir que:

A. ( ) Não existe diferença significativa para a quantidade de km rodados até o


desgaste entre os pneus A e B
B. ( ) Existe diferença significativa para a quantidade de km rodados até o
desgaste entre os pneus A e B. Observa-se que quantidade é superior para
o pneu B.
C. ( ) Não existe diferença significativa para a quantidade de km rodados até o
desgaste entre os pneus A e B. Observa-se que quantidade é superior para
o pneu A.
D. ( ) Existe diferença significativa para a quantidade de km rodados até o
desgaste entre os pneus A e B, porém essa diferença é insignificante.
E. ( ) Existe diferença significativa para a quantidade de km rodados até o
desgaste entre os pneus A e B. Observa-se que esta quantidade é
significativamente superior para o pneu A.

121
Questão 5. O tempo médio gasto para profissionais da área de Ciências
Contábeis realizarem uma determinada tarefa tem sido de 50 minutos. Um
novo procedimento está sendo implementado. Neste novo procedimento,
retirou-se uma amostra de 25 pessoas, com um tempo médio de execução
desta mesma tarefa de 48 minutos e um desvio-padrão de 11,9 minutos.
Através destes dados, foi realizado o teste t-student resultando um valor de
estatística do teste t=0,84. Ao analisar estes dados, ao nível de significância de
5% você poderia concluir que:

A. ( ) Aceita-se H0, não existe diferença significativa para o tempo de execução


médio da tarefa com o novo procedimento.
B. ( ) Rejeita -se H0, existe diferença significativa para o tempo de execução
médio da tarefa com o novo procedimento. Observa-se que este tempo com
o novo procedimento é significativamente inferior a 50 minutos.
C. ( ) Aceita-se H0, existe diferença significativa para o tempo de execução médio
da tarefa com o novo procedimento. Observa-se que este tempo com o
novo procedimento é significativamente superior a 50 minutos.
D. ( ) Rejeita -se H0, existe diferença significativa para o tempo de execução
médio da tarefa com o novo procedimento. Observa-se que este tempo com
o novo procedimento é significativamente inferior a 48 minutos.
E. ( ) Aceita-se H0, existe diferença significativa para o tempo de execução médio
da tarefa com o novo procedimento. Observa-se que este tempo com o
novo procedimento é significativamente inferior a 50 minutos.

122
GABARITO DAS ATIVIDADES PROPOSTAS

Questão 1. t= 42,25
Conclusão: Rejeita-se H0, logo existe diferença significativa no tempo médio
de deslocamento. Observa-se que com as obras em andamento este tempo de
deslocamento de Porto Alegre a São Leopoldo é significativamente superior a
40 minutos.

Questão 2. t= -4,01
Conclusão: Rejeita-se H0, logo existe diferença significativa para o salário
médio dos profissionais entre os setores público e privado. Observa-se que o
salário médio dos profissionais do setor privado é significativamente superior
ao dos funcionários do setor público.

Questão 3. t= -0,77
Conclusão: Aceita-se H0, logo não existe diferença significativa na média de
consumo entre os dois tipos de automóveis.

Questão 4. Letra “E”


Existe diferença significativa para a quantidade de km rodados até o desgaste
entre os pneus A e B. Observa-se que esta quantidade é significativamente
superior para o pneu A.

Questão 5. Letra “A”


Aceita-se H0, não existe diferença significativa para o tempo de execução
médio da tarefa com o novo procedimento.

123
9. ANÁLISE DE CORRELAÇÃO

Simone Echeveste

Neste capítulo será abordada uma ferramenta estatística com grande


aplicabilidade em estudos da área de Administração dos quais é necessário
investigar o grau de relacionamento entre duas variáveis quantitativas. Será
apresentado o cálculo do Coeficiente de Correlação de Pearson e a sua
interpretação no contexto do problema.

Espera-se que o aluno, após o término de estudo deste capítulo possa


identificar em quais situações aplica-se esta ferramenta, bem como realize os
cálculos necessários para a mensuração da correlação entre duas variáveis
interpretando corretamente os resultados obtidos.

Muitas vezes, na prática, necessitamos estudar o relacionamento de


duas variáveis, coletadas como pares de valores, para resolver questões, como
por exemplo:

Figura 25. Exemplos de correlações na área da Administração

- Quanto maior for a - Existe relação entre o - A nota de satisfação com


renda de uma família, preço da gasolina e o o serviço prestado está
maior serão os seus IPCA? relacionada com a Idade
gastos no do cliente?
supermercado?

124
A existência de uma relação entre as variáveis e a mensuração deste
grau de relação é o que caracteriza o objeto da Análise de Correlação. Esta
ferramenta estatística indica a existência ou não de relacionamento entre duas
variáveis e se este relacionamento é fraco, moderado ou forte.

Os dados para a análise de correlação são provenientes de observações


de variáveis aos pares, isto significa que cada observação da amostra é
composta por dois valores (x e y), e com estes valores podemos, inicialmente,
construir o digrama de dispersão que é uma forma de verificar o tipo de
correlação existente entre duas variáveis.

Diagrama de Dispersão

Um dos métodos mais usados para a investigação de pares de dados é


a utilização de diagramas de dispersão. Geometricamente, um diagrama de
dispersão é considerado uma coleção de pontos num plano cujas duas
coordenadas cartesianas são os valores de cada membro do par de dados. É
um gráfico no qual cada ponto representa um par de valores observados, onde
podemos visualizar a relação entre as variáveis, bem como através da
disposição dos pontos podemos observar a existência ou não de um possível
relacionamento entre as variáveis.

Gráfico 1. Diagrama de Dispersão para as variáveis: Renda X Aplicação


Mensal na poupança
700
Aplicação mensal na poupança (reais)

600

500

400

300

200

100

0
0 2000 4000 6000 8000 10000 12000
Renda (reais)

125
TIPOS DE CORRELAÇÕES

A) Correlação Positiva ou Direta

Ocorre quando as duas variáveis crescem no mesmo sentido, estão


diretamente correlacionadas. À medida que a variável X aumenta, Y aumenta
também (ou vice-versa).

Exemplo: Vendas X Gastos em propaganda

330

280
Vendas (mil reais)

230

180

130

80
1 1,5 2 2,5 3 3,5
Gastos em propaganda (m il reais)

B) Correlação Negativa ou Inversa

Ocorre quando as duas variáveis crescem em sentido opostos, estão


inversamente correlacionadas. À medida que uma variável aumenta, a outra
diminui.

Exemplo: Número de faltas X Desempenho do aluno

10
Desempenho do aluno

0
0 2 4 6 8 10 12 14 16
Número de faltas

126
C) Ausência de Correlação

Ocorre quando as duas variáveis não estão correlacionadas.

Exemplo: Altura X Quociente de Inteligência

200
190
180
170
Altura

160
150
140
130
120
110
85 95 105 115 125
Quociente de Inteligência

COEFICIENTE DE CORRELAÇÃO DE PEARSON (r )

O Coeficiente de correlação de Pearson é uma medida do grau e da


direção de uma relação linear entre duas variáveis. O símbolo representa o
coeficiente de correlação populacional e o símbolo r representa o coeficiente de
correlação amostral.

Figura 26. Condições importantes do Coeficiente de Correlação de Pearson

As variáveis
O relacionamento
envolvidas devem ser As variáveis
entre as duas
aleatórias e medidas investigadas devem
variáveis deve ser
no mínimo em escala ter distribuição normal.
linear.
intervalar.

127
Sua fórmula é:

n. x. y ( x).( y)
r
[n. x 2 ( x) 2 ] [n. y2 ( y) 2 ]

Como Calcular:
1º) Obtenha a soma dos valores de x : x
2º) Obtenha a soma dos valores de y: y
3º) Multiplique cada valor de x por seu valor y correspondente e obtenha a sua soma: x.y
2
4º) Eleve ao quadrado cada valor de x e obtenha a sua soma: x
2
5º) Eleve ao quadrado cada valor de y e obtenha a sua soma: y
6º) Use essas cinco somas para calcular o coeficiente de correlação.

INTERPRETAÇÃO DO COEFICIENTE DE CORRELAÇÃO DE PEARSON (r )

O Coeficiente de Correlação de Pearson foi desenvolvido de forma que


seu resultado final será sempre um valor entre -1 e +1, ou seja: -1 r 1. A
partir dos valores de r, podemos verificar o tipo da correlação existente entre as
variáveis estudadas considerando as seguintes regras na interpretação de seu
resultado:

Se r > 0 indica uma correlação positiva ou direta entre as variáveis, um


aumento na variável X provocará um aumento na variável Y.

Se r < 0 indica uma correlação negativa ou inversa entre as variáveis,


um aumento na variável X provocará uma redução na variável Y.

Se r = 0 indica a inexistência de qualquer relação ou tendência linear


entre as variáveis X e Y.

128
EXEMPLO 1

Uma amostra de 6 residências selecionadas aleatoriamente foi


observada quanto à idade do imóvel, em anos, e quanto ao preço de venda,
em unidades monetárias. Os dados observados foram:

Residência Idade do Imóvel(x) Preço de venda (y)


1 1 100
2 2 80
3 3 90
4 4 15
5 5 50
6 6 20

Para este exemplo temos as seguintes informações:

n = 6 residências
x = Idade do Imóvel
y = Preço de venda dos imóveis

Para calcular o Coeficiente de Correlação de Pearson precisaremos dos


seguintes somatórios:

1º) Obtenha a soma dos valores de x : x


2º) Obtenha a soma dos valores de y: y
3º) Multiplique cada valor de x por seu valor y correspondente e obtenha a sua
soma: x.y
4º) Eleve ao quadrado cada valor de x e obtenha a sua soma: x2
5º) Eleve ao quadrado cada valor de y e obtenha a sua soma: y2

129
Tabela de cálculos:

Residência Idade (x) Preço de venda (y) x.y x2 y2


1 1 100 100 1 10000
2 2 80 160 4 6400
3 3 90 270 9 8100
4 4 15 60 16 225
5 5 50 250 25 2500
6 6 20 120 36 400
Totais 21 355 960 91 27.625

Cálculo do Coeficiente de correlação de Pearson

n. x. y ( x).( y)
r
2 2
[n. x ( x) ] [n. y2 ( y) 2 ]

6 960 - (21)x(355)
r
[6 x 91 - (21)2 ] x [6 x 27.625- (355)2 ]

5.760 - 7.455 1.695 1.695


r 0,8299
[546 - 441] [165.750 - 126.025] 105 39.725 2.042,33

r 0,8299

Interpretação:
Como r apresenta um valor negativo, indica correlação inversa/negativa entre
a idade do imóvel e o seu preço de venda, ou seja, quanto maior a idade do
imóvel (mais antigo for) menor tende a ser o preço de venda.

130
INTERPRETAÇÃO DA INTENSIDADE DA CORRELAÇÃO

Podemos além de identificar a existência de correlação e o seu tipo


(direta, inversa) analisar a sua intensidade da seguinte forma: (Callegari-
Jacques, 2003)

 Se 0,00 < r < ±0,30 – existe correlação fraca


 Se ±0,30 ≤ r < ±0,60 – existe correlação moderada
 Se ±0,60 ≤ r < ±0,90 – existe correlação forte
 Se ±0,90 ≤ r < ±1,00 – existe correlação muito forte

Considere o símbolo “±” relacionado ao sinal da correlação – se negativo


(-) inversa e se positivo direta (+).

EXEMPLO 2

Uma cadeia de supermercados financiou um estudo para verificar a


relação entre a renda mensal (salários mínimos) e as despesas semanais em
supermercados de 8 famílias selecionadas aleatoriamente.

Renda mensal (salários mínimos) x Despesa semanal supermercado (reais)


Família Renda mensal (x) Despesa semanal supermercado (y)

1 3,5 280
2 3,8 360
3 2,6 200
4 1,9 110
5 3,1 230
6 2,8 210
7 4,2 330
8 4,0 350

131
Para este exemplo temos as seguintes informações:

n = 8 famílias
x = Renda mensal (salários mínimos)
y = Despesa semanal supermercado (reais)

Tabela de cálculos:
Família Renda mensal (x) Despesa superm.(y) x.y x2 y2
1 3,5 280 980 12,3 78400
2 3,8 360 1368 14,4 129600
3 2,6 200 520 6,8 40000
4 1,9 110 209 3,6 12100
5 3,1 230 713 9,6 52900
6 2,8 210 588 7,8 44100
7 4,2 330 1386 17,6 108900
8 4,0 350 1400 16,0 122500
Total (Σ) 25,9 2070 7164 88,2 588500

Considere: ∑ x = 25,9 ∑ y = 2070 ∑ x.y = 7164 ∑ x 2


= 88,2 ∑y 2
= 588500

Cálculo do Coeficiente de correlação de Pearson

n. x. y ( x).( y)
r
2 2
[n. x ( x) ] [n. y2 ( y) 2 ]

132
Interpretação:
Como r apresenta um valor positivo, indica correlação direta/positiva entre a
renda mensal e as despesas semanais no supermercado, ou seja, quanto
maior a renda maior tende a ser a despesa semanal no supermercado.
Podemos ainda destacar se esta correlação é muito forte.

RECAPITULANDO

Na Análise de Correlação estamos interessados em mensurar o grau de


associação entre duas variáveis através do cálculo do Coeficiente de
Correlação de Pearson. Quando duas variáveis estão correlacionadas essa
relação pode ser direta (a medida que uma variável aumenta a outra aumenta
também ou vice-versa) ou inversa (a medida que uma variável aumenta a outra
diminui).

ATIVIDADES ANÁLISE DE CORRELAÇÃO

Questão 1. Um comerciante de temperos está curioso sobre a grande variação


nas vendas de loja para loja e acha que as vendas estão associadas com o
espaço nas prateleiras dedicados a sua linha de produto em cada ponto de
venda. Oito lojas foram selecionadas ao acaso através e as duas seguintes
variáveis foram mensuradas: x: total de espaço de frente (comprimento x altura
em cm2) dedicado a sua linha de produtos na loja e y= total das vendas dos
produtos, em reais, no último mês. Os dados são apresentados na tabela a
seguir:

Vendas x espaço dedicado aos produtos


Loja Loja 1 Loja 2 Loja 3 Loja 4 Loja 5 Loja 6 Loja 7 Loja 8 Totais ( )
Espaço (x) 340 230 405 325 280 195 265 300 x= 2340
Vendas (y) 71 65 83 74 67 56 57 78 y = 551
X.Y 24140 14950 33615 24050 18760 10920 15105 23400 x.y= 164940
2 2
X 115600 52900 164025 105625 78400 38025 70225 90000 x = 714800
2 2
Y 5041 4225 6889 5476 4489 3136 3249 6084 y = 38589

Calcule e interprete o Coeficiente de Correlação de Pearson para estes dados.

133
Questão 2. Considere as seguintes informações referentes a 15 Municípios do
Rio Grande do Sul:

RELAÇÃO ENTRE O ÍNDICE DE POBREZA (%) E O PIB PER CAPTA (REAIS)


2 2
Município Índice de Pobreza (X) PIB per capta (Y) X.Y X Y
Alegrete 30,9 14,2 438,8 954,8 201,6
Bagé 26,8 10,1 270,7 718,2 102,0
Bento Gonçalves 21,1 24,2 510,6 445,2 585,6
Camaquã 26,6 16,9 449,5 707,6 285,6
Canoas 29,5 49,5 1460,3 870,3 2450,3
Caxias do Sul 20,9 30,5 637,5 436,8 930,3
Erechim 26,3 21,4 562,8 691,7 458,0
Guaíba 31,4 20,1 631,1 986,0 404,0
Porto Alegre 23,7 26,3 623,3 561,7 691,7
Rio Grande 29,1 32,0 931,2 846,8 1024,0
Santa Maria 25,3 12,8 323,8 640,1 163,8
Sapucaia 31,4 14,0 439,6 986,0 196,0
Tramandaí 28,9 8,9 257,2 835,2 79,2
Vacaria 28,8 14,7 423,4 829,4 216,1
Viamão 33,1 7,0 231,7 1095,6 49,0
Totais (Σ ) 413,8 302,6 8191,5 11605,3 7837,2

Ao realizar a Análise de Correlação de Pearson para estes dados o valor


do coeficiente foi r= -0,272, sobre a interpretação deste valor você diria que:

A. ( ) Pode-se concluir que existe uma correlação direta entre o Índice de Pobreza e o
PIB per capta destes municípios, ou seja, quanto maior o Índice de Pobreza menor
tende a ser o PIB per capta.

B. ( ) Pode-se concluir que não existe diferença significativa entre o Índice de Pobreza
e o PIB per capta destes municípios, ou seja, o PIB não é superior em Municípios mais
pobres.

C. ( ) Pode-se concluir que existe uma correlação inversa entre o Índice de Pobreza e
o PIB per capta destes municípios, ou seja, quanto maior o Índice de Pobreza menor
tende a ser o PIB per capta.

D. ( ) Pode-se concluir que existe uma correlação inversa entre o Índice de Pobreza e
o PIB per capta destes municípios, ou seja, quanto maior o Índice de Pobreza maior
tende a ser o PIB per capta.

134
E. ( ) Pode-se concluir que existe uma correlação inversa extremamente forte entre o
Índice de Pobreza e o PIB per capta destes municípios, ou seja, para todos os
municípios quanto maior o Índice de Pobreza menor foi o PIB per capta.

Questão 3. Procurando quantificar os efeitos da escassez de sono sobre a


capacidade de resolução de problemas simples, um agente tomou ao acaso 10
sujeitos e os submeteu a experimentação. Deixou-os sem dormir por diferentes
números de horas, após o que solicitou que os mesmos resolvessem os itens
"contas de adicionar" de um teste. Obteve, assim, os seguintes dados:

Amostra Horas sem dormir (x) Nº de erros (y) x.y x2 y2


1 8 8 64 64 64
2 8 6 48 64 36
3 12 6 72 144 36
4 12 10 120 144 100
5 16 8 128 256 64
6 16 14 224 256 196
7 20 14 280 400 196
8 20 12 240 400 144
9 24 16 384 576 256
10 24 12 288 576 144
Total (Σ) 160 106 1848 2880 1236

Calcule e interprete o coeficiente de correlação linear de Pearson para estes


dados.

Questão 4. Em uma indústria de cervejas realizou-se um estudo com o objetivo


de correlacionar a temperatura do dia com as vendas de refrigerante. Realizou-
se para isso uma Análise de Correlação entre essas variáveis resultando em
um coeficiente de correlação de Pearson de r = 0,926. Através da interpretação
deste valor podemos concluir que:

A( ) Existe uma correlação direta forte entre a temperatura do dia e as vendas de


refrigerante.

B( ) Existe uma correlação inversa fraca entre a temperatura do dia e as vendas de


refrigerante.

C( ) Existe uma correlação inversa forte entre a temperatura do dia e as vendas de


refrigerante.
D( )
Essas variáveis não possuem nenhuma correlação

135
E( ) Existe uma correlação direta muito forte entre a temperatura do dia e as vendas
de refrigerante.

Questão 5. Um estudo de correlação foi realizado com o objetivo de verificar a


relação entre as variáveis Horas de estudo (x) e nota na prova de Estatística
(y). Os dados observados em uma amostra de 8 alunos foram:

Aluno Horas de estudo (x) Nota na prova (y) x.y x2 y2


1 2 1 2 4 1
2 4 3 12 16 9
3 5 6 30 25 36
4 5 6 30 25 36
5 6 8 48 36 64
6 8 7 56 64 49
7 9 8 72 81 64
8 10 10 100 100 100
Total (Σ) 49 49 350 351 359

Calcule e interprete o coeficiente de correlação linear de Pearson para estes


dados.

GABARITO DAS ATIVIDADES PROPOSTAS

Questão 1. r = 0,857
“Existe uma correlação forte direta entre total de espaço de frente
dedicado a sua linha de produtos na loja e y= total das vendas dos
produtos, em reais, no último mês, ou seja, quanto maior o espaço de
frente dedicado a linha de produtos, maior tende a ser as vendas dos
produtos.

Questão 2.
C. ( x ) Pode-se concluir que existe uma correlação inversa entre o Índice
de Pobreza e o PIB per capta destes municípios, ou seja, quanto maior
o Índice de Pobreza menor tende a ser o PIB per capta.

136
Questão 3. r = 0,801
“Existe uma correlação forte direta entre o número de horas sem dormir
e o número de erros, ou seja, quanto maior o número de horas sem
dormir, maior tende a ser o número de erros cometidos.

Questão 4.

E. ( X ) Existe uma correlação direta muito forte entre a temperatura do dia


e as vendas de refrigerante.

Questão 5. r = 0,911
“Existe uma correlação muito forte direta entre o número de horas de
estudo e a nota na prova, ou seja, quanto maior o número de horas de
estudo, maior tende a ser a nota na prova.”

137
10. ANÁLISE DE REGRESSÃO

Simone Echeveste

Neste capítulo será apresentada uma ferramenta de análise estatística


aplicada em estudos em que se deseja estabelecer um modelo matemático que
represente a relação entre duas variáveis X e Y. Este modelo é extremamente
útil ao pesquisador, pois permitirá ao mesmo a realização de previsões e
estimativas.

Ao final deste estudo o aluno deverá ser capaz de identificar as


situações em que a Análise de Regressão pode ser utilizada na resolução de
problemas na área de Administração de empresas, bem como interpretar
corretamente os resultados obtidos com essa ferramenta de análise de dados.

A relação linear entre duas variáveis X e Y pode ser investigada de duas


formas: através da Análise de Correlação onde quantificamos a intensidade
dessa relação e a outra através da Análise de Regressão onde a forma dessa
relação é explicitada através de um modelo matemático.

Usamos Análise de Regressão quando acreditamos que há relações


entre as variáveis e desejamos expressar matematicamente tais relações. A
Regressão Linear nos fornece equações do primeiro grau para determinarmos
estimativas dos valores médios de algumas variáveis em função dos valores
das outras.

138
MODELO DE REGRESSÃO LINEAR

Os Modelos de regressão simples são modelos matemáticos que


relacionam o comportamento de uma variável Y com uma variável X através de
uma função:

F(X) = Y = a + bX

Neste modelo a variável X é a variável independente da equação


enquanto Y = f(X) é a variável dependente das variações de X.

Figura 27. Denominação das variáveis no modelo de Regressão Linear

Variável Variável
"x" "y"
Variável Variável
Independente Dependente

Poderemos utilizar seus resultados para os seguintes objetivos:

Realizar previsões sobre o comportamento futuro de algum fenômeno


através de uma coleta de dados.
Simular os efeitos sobre uma variável Y em decorrência de alterações
introduzidas nos valores de uma variável X.

ESTIMADORES PARA O MODELO DE REGRESSÃO LINEAR

Os estimadores dos coeficientes angular ( ) e linear ( ) serão


designados respectivamente por b e a. Então a estimativa do modelo adotado,
será dada por:

Y = a + bX

139
Os valores de a e b serão determinados, através do Método dos
Mínimos Quadrados (MMQ), aplicado na amostra selecionada, utilizando-se
as seguintes fórmulas:

onde e são as médias dos valores de Y e X.

INFORMAÇÕES IMPORTANTES

A inclinação (b) da regressão mede a direção e a magnitude da relação. Quando as duas


variáveis estão correlacionadas positivamente, a inclinação (valor de b) também será positiva,
enquanto quando as duas variáveis estão correlacionadas negativamente, a inclinação (valor
de b) será negativa.

A magnitude da inclinação da regressão pode ser lida como segue: para cada acréscimo
unitário na variável (X), a variável dependente aumentará/diminuirá b unidades de y .

140
EXEMPLO 1

Certa empresa, estudando a variação da demanda de seu produto


(unidades vendidas) em relação à variação de preço de venda (reais), obteve
os dados que estão na tabela abaixo:

PREÇO DO PRODUTO X DEMANDA


Mês Preço (X) Demanda (Y)
1 35 350
2 40 325
3 50 290
4 55 270
5 60 250
6 65 240
7 70 235
8 80 220
9 95 215
10 110 205

Observe no diagrama de dispersão acima apresentado que podemos traçar


uma reta que representa a relação entre as variáveis.

141
CÁLCULOS DA EQUAÇÃO DA RETA DE REGRESSÃO

Para este exemplo temos as seguintes informações:

n = 10 meses
x = Preço (reais)
y = Demanda (unidades vendidas)

Primeiramente precisaremos para a realização dos cálculos, de acordo


com as fórmulas, dos seguintes somatórios: Σx, Σx.y e Σx2

Mês Preço (x) Demanda (y) x.y x2


1 35 350 12250 1225
2 40 325 13000 1600
3 50 290 14500 2500
4 55 270 14850 3025
5 60 250 15000 3600
6 65 240 15600 4225
7 70 235 16450 4900
8 80 220 17600 6400
9 95 215 20425 9025
10 110 205 22550 12100
Total (Σ) 660 2.600 162.225 48.600

Cálculo das Médias

142
Cálculo do Coeficiente b

Cálculo do Coeficiente a

Atenção ao sinal de negativa do


coeficiente!!!

Equação da Reta de Regressão:

Equação da Reta para as variáveis:


x: preço e y: demanda

Após a determinação da Equação da Reta poderemos utilizá-la agora


com o objetivo de fazer previsões. Por exemplo, poderemos estimar qual
será a demanda esperada para um preço de 100 reais.

143
Neste caso, estamos determinando o valor de x= 100 reais e desejamos
estimar qual será valor de y = demanda (unidades vendidas), para isso basta
substituirmos os dados na Equação da Reta obtida:

Para x = 100 reais

Conclusão
Estima-se que para um preço de 100 reais sejam vendidas em torno de 196,76
unidades do produto.

EXEMPLO 2

Os dados abaixo representam o x: tempo de experiência em anos, e os


respectivos y: salários (em salários mínimos) de uma amostra de 8
Administradores:

Tempo de Experiência X Renda Mensal


Administrador X: Experiência (anos) Y: Salários Mínimos
1 2 5
2 5 6
3 10 11
4 8 9
5 6 7
6 12 10
7 15 14
8 11 10

144
Para este exemplo temos as seguintes informações:

n = 8 administradores
x = Tempo de experiência (anos)
y = Renda mensal (salários mínimos)

Tabela de cálculos:

Administrador X: Experiência (anos) Y: Salários Mínimos x.y x2


1 2 5 10 4
2 5 6 30 25
3 10 11 110 100
4 8 9 72 64
5 6 7 42 36
6 12 10 120 144
7 15 14 210 225
8 11 10 110 121
Total (Σ) 69 72 704 719

Cálculos para a construção da Equação da Reta

Cálculo das Médias

Cálculo do Coeficiente b

145
Cálculo do Coeficiente a

Equação da Reta: Equação da Reta para as variáveis:


x: Tempo de experiência e y: Renda mensal

QUESTÃO:
Qual será a renda mensal estimada de um Administrador com 15 anos
de experiência?

Neste caso, estamos determinando o valor de x= 15 anos e desejamos


estimar qual será valor de y = renda mensal (salários mínimos), para isso basta
substituirmos os dados na Equação da Reta obtida:

Para x = 15 anos

Conclusão
Estima-se que para um tempo de experiência de 15 anos o salário mensal de
um Administrador seja em torno de 13,27 salários mínimos.

146
RECAPITULANDO

A Análise de Regressão linear simples estuda o relacionamento entre


uma variável dependente (y) e outra variável independente (x). Este
relacionamento é representado por um modelo matemático, através de uma
equação que associa a variável dependente com a variável independente.

Após a determinação da Reta de Regressão, ou ainda Equação de


Regressão poderemos utilizá-la com o objetivo de realizar projeções ou
simulações com as variáveis utilizadas no modelo.
.
ATIVIDADES SOBRE ANÁLISE DE REGRESSÃO

Questão 1. Uma amostra de funcionários de uma empresa foi observada


quanto às variáveis: tempo de experiência na função (anos), e produtividade na
realização da tarefa (número de relatórios produzidos). Para os dados obtidos
com uma amostra de 20 funcionários obteve-se a seguinte Equação da Reta de
Regressão: y = 58,13 + 1,62x. Através desta equação responda às seguintes
questões:

- Através do valor do coeficiente “b” da reta podemos dizer que a correlação


entre o tempo de experiência na função e a produtividade é:

a. ( ) Inexistente
b. ( ) Direta/positiva
c. ( ) Inversa/Negativa
d. ( ) Direta/Negativa
e. ( ) Inversa/Positiva

- Para um funcionário com 10 anos de experiência, estima-se que este produza


aproximadamente quantos relatórios?

a. ( ) 1,62 relatórios

147
b. ( ) 74 relatórios
c. ( ) 58 relatórios
d. ( ) 10 relatórios
e. ( ) 120 relatórios

Questão 2. Suponhamos que uma cadeia de supermercados tenha financiado


um estudo dos gastos em alimentação para famílias de quatro pessoas.
Obteve-se a seguinte equação de regressão linear: y = −200 + 0,10 x, onde y
representa a despesa mensal estimada com alimentação e x a renda líquida
mensal. Através da Equação da Reta estabelecida, estime a despesa de uma
família de quatro pessoas com renda mensal de R$ 15.000.

Questão 3. Foi feito um levantamento a respeito dos imóveis de dois


dormitórios alugados por uma imobiliária da zona sul da cidade de Porto
Alegre. Para verificar a relação entre o valor do aluguel cobrado (reais), e a sua
distância em relação ao centro da cidade (metros), coletou-se os dados de 8
imóveis cadastrados nessa imobiliária.

Valor do aluguel X Distância do centro

Imóvel Distância do centro (x) Valor do Aluguel (y)


1 5 950
2 4 980
3 6 1000
4 9 1100
5 6 1090
6 4 990
7 6 970
8 8 1030

a) Obtenha a Equação da Reta de regressão para estes dados


b) Estime o valor do aluguel de um imóvel localizado a 10 metros

148
Questão 4. Um corretor do mercado de ações, visando prever o número de
negócios fechados por dia, decidiu utilizar o número de chamadas telefônicas
recebidas como variável independente. Os resultados obtidos para uma
amostra de 10 dias foram:

Número de chamadas recebidas X Número de negócios fechados


Dia Nº chamadas recebidas Nº Negócios fechados
1 591 42
2 146 32
3 185 36
4 245 44
5 600 82
6 510 70
7 394 56
8 486 65
9 483 63
10 106 23

a) Obtenha a Equação da Reta de regressão para estes dados


b) Estime o número de negócios fechados para um dia em que se recebam
500 chamadas.

Questão 5. Os dados abaixo representam o valor de um determinado mês da


fatura do cartão de crédito (em reais) e a renda mensal (em salários mínimos)
de uma amostra de 7 indivíduos:

Indivíduo Renda Mensal (x) Gasto cartão (y)


1 3,5 520
2 5,0 850
3 2,8 310
4 4,5 800
5 5,2 860
6 5,8 910
7 6,9 900

a) Obtenha a Equação da Reta de regressão para estes dados


b) Estime o gasto no cartão de uma família com renda de 7,5 salários
mínimos.

149
GABARITO DAS ATIVIDADES PROPOSTAS

Questão 1.
b. ( X ) Direta/positiva
b. ( X ) 74 relatórios

Questão 2.
R: R$ 1.300,00

Questão 3.
a) R: Y = 885,57 + 21,36 X
b) R: R$ 1.099,17

Questão 4.
a) R: Y = 20,42 + 0,08 X
b) R: 60,42 negócios fechados

.
Questão 5.
a) R: Y = 15,20 + 149,66 X
b) R: 1.137,65 reais

150
Referências Bibliográficas

BARBETTA, Pedro Alberto. Estatística Aplicada às Ciências Sociais. Florianópolis: Ed.


Da UFSC, 2001. 337 p.

CALLEGARI-JACQUES, S.M. Bioestatística: Princípios e Aplicações. ArtMed,


Porto Alegre, 3a reimpressão, 2006.

CLARK, J. DOWNING, D. Estatística aplicada. São Paulo : Saraiva, 1998.

MOORE, D. A Estatística Básica e sua prática. Rio de Janeiro: Ed. LTC, 2000.

SIMON, Gary A. FREUND, John E. Estatística Aplicada. Porto Alegre : Bookman,


2000. 404 p.

151

Você também pode gostar