Você está na página 1de 100

Estatística Básica

com Excel

Prof. Francisco Carlos Benedetti


2008

1
CAPÍTULO I – Estatística Descritiva:
Definições, Tabelas e Gráficos

CAPÍTULO II – Medidas Estatísticas:


Medidas de Tendência Central e Medidas de Dispersão

CAPÍTULO III – Medidas Estatísticas de Posição

CAPÍTULO IV – Probabilidades

CAPÍTULO V – Probabilidades: Distribuições Binomiais

CAPÍTULO VI – Distribuições de Probabilidades: Histogramas e


Medidas

CAPÍTULO VII – Distribuições Normais Probabilidades: A


famosa Curva de Gauss

CAPÍTULO VIII – Distribuições Amostrais

CAPÍTULO IX – Intervalos de Confiança para a Média: desvio


padrão conhecido

CAPÍTULO X – Intervalos de Confiança para Média – desvio


padrão desconhecido: a Distribuição T de Student

CAPÍTULO XI – Distribuições Amostrais e Intervalos de


Confiança para uma Proporção

CAPÍTULO XII – Correlação entre Variáveis


Regressão Linear
Outros tipos de Regressão

2
CAPÍTULO I

Estatística Descritiva:
Definições, Tabelas e Gráficos
• Como usar Excel para construir gráficos (a fim de praticar a famosa
expressão: “muitas vezes, uma figura fala mais do que mil
palavras”);
• Como saber qual tipo de gráfico usar (gráfico de barras ou
histogramas?);

4.1 Introdução geral ao curso

Estatística é a ciência que lida com dados, o que envolve coleta,


classificação, resumo, organização, análise, interpretação e inferência
dos mesmos; geralmente nos leva a predições e estimativas. Nas mais
diferentes áreas do conhecimento e da atividade humana é possível observar uma
grande massa de informações que nos apresentam, seja pela tv, jornais e revistas
impressos ou Internet. Não há limites para o uso da Estatística e, para quem está
ou quer estar no mercado de trabalho, deve atentar ao fato de que Estatística não
é apenas uma forma de apresentar números, tabelas e gráficos para que alguém
os entenda, mas sim, a partir de tais informações, concluir fatos, descobrir
relações para, após análise e reflexão, tomar decisões. Este será o caminho que
percorreremos neste curso.
Vamos à primeira parte de nosso estudo em Estatística, que se refere à
apresentação e organização de dados. Durante todo o curso utilizaremos a planilha
eletrônica Excel, e também um software estatístico chamado R. Note que o
objetivo não é usar o Excel para fazer uma bela apresentação de dados (para isso
você tem a disciplina específica), mas sim para usufruirmos suas funções, seus
cálculos facilitadores e suas formas de análise de dados.

4.2 Estatística descritiva

Estatística Descritiva: é a o segmento da Estatística que está relacionada


à organização, resumo, descrição e apresentação dos dados. Não é nosso curso
todo, é apenas o começo, já que estudaremos também cálculo de probabilidades,
amostragem e tomadas de decisão.
População é o conjunto de dados que descrevem algum fenômeno de
interesse.
Amostra é um subconjunto, ou seja, uma parte da população.

3
4.3 Tipos de variável

Uma variável é uma característica que difere, ou varia, de uma observação


para outra.
As medidas de alturas de pessoas são variáveis numéricas, enquanto o grau
de satisfação de um consumidor com determinado produto (baixo, médio, alto)
não é uma variável numérica (é uma categoria, uma qualidade). Perceba, dessa
forma, que há diferenças entre os tipos de dados que obtemos.
Variáveis quantitativas (numéricas) são medidas sobre uma escala
numérica. Exemplos: valores em reais (preços, salários), medidas de comprimento
(de área, de volume), índices (porcentagens diversas), tempos de realização de
certos processos.
Variáveis qualitativas (categorizadas) não são numéricos, podem ser
classificados em um grupo de categorias (certo-errado, V-F, sim-não, ótimo-bom-
regular-ruim).

4.4 Apresentação de dados qualitativos (categorizados)

A apresentação de dados qualitativos costuma ser mais imediata, sem


tantas dificuldades para análise; costumam ser ilustrados por meio de tabelas e
gráficos de barras. Também podemos citar o sectograma, conhecido como gráfico
tipo “pizza”.
O professor Reinaldo, de Logística, realizou amostragens com seus alunos
em determinada turma de graduação em Informática. Propôs uma análise
proveniente de coleta de dados em supermercados para avaliar a possibilidade de
criação de caixas com serviços exclusivos. O arquivo super1.xls ilustra tal pesquisa,
que será detalhada em outro texto. Para o momento, utilizaremos esse conjunto
de dados para ilustrarmos a apresentação de uma variável qualitativa.
Essa variável será “tipo de pagamento”, que significa a forma como os
clientes pagaram suas compras. Os valores que essa variável pode assumir são:
cartão de crédito, cartão de débito, dinheiro, cheque ou vale (tíquete). A seguir
uma ilustração do conjunto de dados; utilizaremos, desse exemplo, a coluna
intitulada “forma de pagamento”.
Nossa intenção é observar as quantidades (porcentagens) que ocorreram
para cada valor da variável “tipo de pagamento”. Para construir qualquer tipo de
gráfico (como o de barras e o tipo “pizza”), devemos antes construir uma tabela
com essas quantidades. Em Estatística, chamamos essas tabelas de “tabelas de
distribuição de freqüências”.

4
A tabela de distribuição de freqüências, feita com auxílio de lápis-e-papel e
calculadora simples, pode ser assim apresentada:

Forma de Freqüência Freqüência


pagamento absoluta relativa
Dinheiro 118 44,70%
Cheque 43 16,29%
Cartão de crédito 19 7,58%
Cartão de débito 83 31,44%
Tíquete 0 0,00%

Total 264 100%

Como fazê-la no Excel?


Construa a primeira linha e a primeira coluna da tabela acima, usando à
vontade seus conhecimentos de digitação e de Excel (itens de embelezamento
para apresentações ficarão por sua conta, ok?). Usaremos a função =CONT.SE
desse programa para fazer a contagem de cada valor da variável em questão.

5
Na célula B2 (veja a figura anterior) digitamos =CONT.SE (intervalo dos
dados, expressão que se deseja contar). O intervalo dos dados neste
exemplo é a coluna já indicada (“formas de pagamento”); veja que ela está na
planilha um do arquivo super1.xls, mas estamos usando a planilha 2 para construir
a tabela. A expressão que se deseja contar é o valor da variável em questão,
no caso, “dinheiro” (escreva entre aspas, exatamente como está no conjunto de
dados).
Em seguida, proceda de modo análogo com as células B3, B4, B5 e B6. O
total de dados pode ser obtido com a função =SOMA, conforme ilustra a próxima
figura.

Já é possível construir um gráfico de barras, relacionando as formas de


pagamento com a freqüência absoluta. Como trabalharemos com porcentagens,
construiremos a coluna de freqüências relativas e, em seguida, construiremos o
gráfico de barras e o tipo pizza, usando esses valores.
Na coluna das freqüências relativas, podemos usar a opção de dividir 118
pelo total 264, obtendo 0,446969696 (=B2/B$7). Fazendo-se isso para as células
seguintes, você obterá as respectivas proporções; para apresentar esses cálculos
na forma percentual com o número de casas decimais que desejar, basta usar os
botões circulados na figura a seguir.

Vamos ao gráfico de barras:


1º) Clique no assistente de gráfico, selecione o “tipo colunas” (é o
primeiro e já vem selecionado!) e pressione avançar;
2º) Na etapa 2 de 4, há duas abas: na aba intervalo de dados selecione a
coluna de freqüências relativas; na aba série digite o nome que deseja ao
gráfico (como “Forma de Pagamento”) e em rótulos do eixo das categorias

6
(X) selecione a coluna das variáveis qualitativas, ou seja, a coluna das
formas de pagamento, e pressione avançar.

3º) Você pode, ao avançar as próximas etapas, optar por inserir mais
nomes ou informações no gráfico. Verifique as possibilidades; eu,
Francisco, resolvi deixá-lo assim:
Formas de Pagamento

50,00%
44,70%
45,00%
40,00%
35,00% 31,44%
30,00%
25,00%
20,00% 16,29%
15,00%
10,00% 7,58%
5,00% 0,00%
0,00%
Dinheiro Cheque Cartão de crédito Cartão de débito Tíquete

Fica como exercício para você a realização do gráfico tipo “pizza” para esse
mesmo exemplo. Uma possibilidade é a apresentada abaixo.
Formas de Pagamento

0,00%

31,44%
Dinheiro
44,70% Cheque
Cartão de crédito
Cartão de débito
Tíquete
7,58%

16,29%

7
4.5 Apresentação de dados quantitativos – HISTOGRAMAS

Para iniciar as análises do tipo de dados que mais trabalharemos (ou seja,
dados numéricos), vale a pena observarmos uma classificação dos mesmos:
Variável inteira (ou discreta) é aquela que pode assumir somente um
número “contável” de valores. Ex.: nº de funcionários de uma empresa, nº de
erros de impressão num exemplar de jornal, nº de filhos de um casal.
Variável real (ou contínua) pode assumir qualquer valor em um ou mais
intervalos sobre a reta real. Ex.: medidas de comprimento de uma peça fabricada,
áreas ou volumes de certos produtos, valores do dólar ao longo de um ano, índices
percentuais da inflação nos últimos 12 meses.
O que é um histograma?
É o tipo de gráfico usado para se resumir um conjunto que possua muitos
dados numéricos (inteiros ou reais), agrupando-os em intervalos. Veja o exemplo
de 81 alturas de alunos de uma turma de Administração de Empresas; os dados
brutos são:
1.84,1.82,1.75,1.83,1.63,1.74,1.85,1.62,1.69,1.60,1.70,1.71,1.72,1.71,1.70,1.68,1.58,1.58,
1.76,1.74,1.65,1.75,1.74,1.61,1.63,1.79,1.60,1.67,1.70,1.83,1.70,1.57,1.70,1.70,1.84,1.68,
1.63,1.62,1.56,1.65,1.78,1.82,1.77,1.85,1.70,1.70,1.76,1.55,1.60,1.52,1.78,1.63,1.70,1.60,
1.73,1.60,1.63,1.76,1.67,1.77,1.75,1.80,1.73,1.78,1.73,1.72,1.64,1.63,1.63,1.78,1.49,1.62,
1.73,1.56,1.74,1.60,1.60,1.57,1.57
Histograma Histograma

30 28 28 20
16
25 14 14 14
Freqüência

15 12
Freqüência

20 16
10 8
15
10 8 5
1 2
5 0 0 0 0 0 0
0 1 0 0 0
0
Mais
1,40
1,45
1,50
1,55
1,60
1,65
1,70
1,75
1,80
1,85
1,90
1,95
2,00

1,40 1,50 1,60 1,70 1,80 1,90 2,00 Mais


Bloco Bloco

Observe que os histogramas são diferentes, mas representam os mesmos


dados. No primeiro gráfico, os valores foram agrupados em intervalos de 10cm
(0,10m), enquanto no segundo os dados foram agrupados em intervalos de 5cm.
Como construir histogramas no Excel?
Este texto não tem a intenção de ser um tutorial para uso do Excel. O que
será feito é uma narrativa de como o ser humano que te escreve estas palavras
construiu as figuras do texto. Explicações mais detalhadas e/ou técnicas podem ser
obtidas, por exemplo, em Winston, W. L.: Microsoft Excel, Data Analysis and
Business Modeling, livro que inspirou uma parte deste curso.
Assim, para construir o primeiro histograma anteriormente apresentado, fiz
a seguinte seqüência de passos:

8
1º) Ferramentas Análise de Dados* Histograma
2º) No intervalo de entrada, introduza a coluna dos dados (ver próxima
figura); no intervalo de bloco, é necessário introduzir uma coluna previamente
construída (fazê-la na mesma planilha facilita), a qual conterá os limites dos
intervalos escolhidos para o histograma. Na figura seguinte você poderá perceber
os dois intervalos por mim escolhidos para construir o histograma**.
3º) Selecione a opção “Resultado do gráfico” e pressione OK.

Ao seguir esses passos, você perceberá (provavelmente) que seu


histograma ainda não ficou igual ao meu... O uso de barras juntas é largamente
usado pelos estatísticos. Para fazê-lo, clique duplo em qualquer uma das barras, e
aparecerá uma janela de título “Formatar seqüência de dados”. Em “Opções”,
digite o número zero na caixa “Largura do espaçamento” e clique em OK (ver
próxima figura). E aproveite para explorar um pouco essa janela e veja o que há
em outras opções...

*
Se a opção “Análise de dados” não estiver disponível, siga os seguintes passos para disponibilizá-la:
Ferramentas Suplementos Selecione “Ferramentas de Análise” e “Ferramentas de Análise VBA”
**
Vários autores sugerem um mínimo de 5 e um máximo de 20 classes; existe, ainda, uma regra empírica:
n classes, onde n é a quantidade de valores (embora acredite que, se n for muito grande, n pode não ser
interessante, como no caso de n=10.000...).

9
Último comentário neste item: se você não inserir um intervalo de bloco ao
construir um histograma, o Excel o fará automaticamente, seguindo algumas
regras matemáticas (as quais podem ser observadas na Ajuda desse programa);
porém, alguns pequenos problemas podem ocorrer ao se comparar histogramas
com intervalos de valores diferentes (esse problema será abordado no exercício 2).

4.6 Gráficos de controle


Muito útil em situações de análise de vários processos, um gráfico de
controle fornece um panorama geral de oscilações através de uma observação
gráfica de todos os valores numéricos (ou, pelo menos, de grande parte deles). O
exemplo a seguir, obtido através da planilha Dólar Comercial.xls fornece uma idéia
de como oscilou o valor do dólar comercial no período de 01/11/2006 até
19/01/2007 (fonte: www.fvg.br).
Dólar Comercial

2,19

2,18

2,17

2,16

2,15

2,14

2,13

2,12
0 10 20 30 40 50 60

10
Para obter esse gráfico, basta usar o assistente de gráfico do Excel, optar
pelo tipo “Dispersão (XY)” e, na etapa seguinte, inserir a coluna dos valores do
dólar na caixa “Intervalo de Dados”, escolhendo as séries em “Colunas”. Os
próximos passos são triviais.
Muitas pessoas que trabalham com esse diagrama, conforme poderemos
perceber através de alguns casos que estudaremos, costumam ligar os pontos do
gráfico através de segmentos. Caso deseje, você poderá fazê-lo com a seguinte
seqüência: duplo click em qualquer ponto do gráfico já obtido, e na aba “padrões”
“linha” use a opção “automática” ou “personalizada”.
Dólar Comercial

2,19

2,18

2,17

2,16

2,15

2,14

2,13

2,12
0 10 20 30 40 50 60

Observação importante: esse tipo de gráfico faz bastante sentido quando a


variável do eixo x é “tempo”, uma vez que o visual gráfico indicará uma ou mais
tendências ao longo de determinados períodos (crescentes, decrescentes, pouco
ou muito oscilantes, constantes etc.).

4.7 Diagrama “ramo-e-folhas”

Para encerrar este primeiro texto de estatística descritiva, vamos apresentar


mais uma “modalidade” de apresentação de dados: o diagrama ramo-e-folhas,
que é bastante usado em resumos de dados, porém visualizando todos eles. É
usado, por exemplo, numa coleta de dados dinâmica; suponha que as alturas
descritas anteriormente tenham sido coletadas da seguinte forma: o professor
(autor deste texto) pergunta a cada aluno sua respectiva altura, e a anota no
papel. Já imaginou quantas vezes iria repetir o algarismo 1? Quantas vezes iria
repetir o algarismo 7 (para as pessoas que têm de 1,70m a 1,79m de altura)? Veja
o diagrama a seguir e observe como ele foi construído.

14 | 9
15 | 256677788
16 | 00000001222333333345577889
17 | 0000000001122333344445556667788889
18 | 022334455

11
Para construirmos um diagrama ramo-e-folhas no papel, você pode seguir
as seguintes dicas: (a) primeiramente, decidir quais serão os ramos; note que este
passo querer de você a intuição e o bom senso. Nesse exemplo os ramos foram
compostos de 2 algarismos, mas a natureza dos dados podem levá-lo a outras
opções; (b) na primeira coluna, liste os ramos em ordem crescente (nada impede
que seja decrescente, mas use seu bom gosto!) (c) nas linhas de cada ramo,
escreva as folhas.

4.8 Exercícios

1. Neste problema estudaremos um caso real em que analisaremos um


conjunto de dados referentes a uma dimensão crítica de uma peça, e tal
exemplo é extremamente ilustrativo de vários processos de produção. Se
esta dimensão estiver dentro dos limites, ela encaixa na contra-peça, caso
contrário vai ficar folgada ou muito apertada. Neste caso, oriundo de uma
empresa fabricante de canetas, a dimensão estudada é o diâmetro externo
da extremidade de uma caneta, e na contra-peça a dimensão é o diâmetro
interno da tampinha da caneta. Observe as informações contidas no
conjunto de dados que estão no arquivo peça e contrapeça1.xls.
(a) Construa o gráfico de controle e pelo menos dois histogramas para
esse conjunto de dados;
(b) Todos os dados estão dentro dos limites aceitáveis para as medidas
das tampas?
(c) Pode-se dizer que esse processo está estável? Justifique.
(d) A máquina que produziu as peças dessa amostra está trabalhando a
contento, ou é possível que ela necessite de um ajuste? Justifique.

2. Em outra situação real, faremos uma análise de dados obtidos numa grande
empresa do setor de celulose e papel. No arquivo Umidade em madeira1.xls
constam médias percentuais diárias de umidade, obtidas a partir de
amostras de “punhados” de madeira coletados para controle do teor de
umidade na madeira, que é a matéria-prima para a produção de celulose e
posteriormente o papel; a forma como tais amostragens são realizadas
serão discutidas bem mais adiante em nosso curso, mas se você deseja já
ter uma idéia de como ela é realizada, veja a explicação fornecida pelo
responsável por tais amostragens no quadro abaixo. Se desejar responder
às perguntas diretamente, “pule” esse quadro.
“Pegamos 6 amostras por dia de aproximadamente 80 g de madeira picada (que chamamos de “cavaco”),
pesamos a amostra, colocamos na estufa por um determinado tempo, e pesamos novamente. A diferença
de peso entre o inicial e o final é considerada como umidade que evaporou. As medidas de peso antes e
depois estão ocultas, sendo que a tabela já mostra o valor percentual de umidade, que é o dado de
controle para o processo.

Ex: medida antes da estufa = 80g


medida depois da estufa 60 g.
Percentual de umidade = [(80-60)/80]x100 = 25% informação para controle do processo”.

12
(a) No item (b) desta questão será pedido você que construa
histogramas para os três meses que constam no arquivo anexo.
Antes de fazê-lo, porém, vamos resolver uma dúvida “informática”:
é preferível construir os três histogramas usando um mesmo bloco
para intervalo de dados ou não há problemas em construir os três
histogramas com blocos automáticos do Excel? Justifique.
(b) Construa os histogramas referente aos três meses apresentados
nesse arquivo, e descreva diferenças entre eles. Diante do contexto
deste caso, justifique o porquê das diferenças entre esses
histogramas.
(c) A meta que a empresa deseja para as médias percentuais é de
27,5%. Pode-se ver que essa meta não foi alcançada em nenhum
dos três meses. Pergunta: esse fato significa que o processo de
controle de umidade está completamente descontrolado? Justifique.

4.9 Respostas dos exercícios


1.
(a) Gráficos feitos com Excel.
(b) Sim, pois todos estão no intervalo 132,00mm e 190,67mm.
(c) De maneira geral o processo parece estável, já que boa parte dos dados se encontra na
faixa entre 130mm e 150mm; porém, houve pelo menos 4 períodos em que o processo
parece ter modificado seu comportamento, apresentando valores superiores aos da
maioria.
(d) É possível que essa máquina necessite de um ajuste; apesar dos dados se comportarem
conforme explicado nos itens anteriores, o fato de existirem grande parte deles na faixa
[130; 150] mostra que o processo está se desenvolvendo de forma que as peças estão
consideravelmente próximas ao limite inferior, apresentado no conjunto original dos dados.

2.
(a) É preferível construir os três histogramas usando um mesmo bloco para intervalo de dados,
uma vez que, com blocos automáticos, teremos que nos esforçar mais para comparar os
valores dos eixos horizontais dos três histogramas, já que os intervalos de cada um dos
três meses são diferentes. Compare as duas situações no arquivo Umidade em
madeira2.xls.
(b) No mês de Novembro, as porcentagens de umidade foram mais baixas (concentração de
dados no “começo” do histograma) e no mês de Janeiro foram mais altas (concentração de
dados no “fim” do histograma); em Dezembro há uma relativa simetria. O fator
extremamente provável dessas diferenças é o período chuvoso mais intenso em Dezembro
e Janeiro.
(c) Não, pois a variabilidade dos dados não é grande. Assim como o caso do exercício 1, os
dados têm um comportamento regular, não possuindo grandes oscilações, apesar do fato
de estarem acima do desejado (faça gráficos de controle para visualizar isso).

13
CAPÍTULO II

Medidas Estatísticas:
Medidas de Tendência Central
Medidas de Dispersão

• Quais as diferenças entre as medidas de tendência central de um


conjunto de dados? Uma pode ser mais representativa que outra?
• Como posso medir o espalhamento dos dados em relação à média
aritmética?
• O que a média e o desvio padrão podem fazer juntos?
• É possível identificar comportamentos relacionando medidas
estatísticas e histogramas?
• É possível comparar histogramas?

2.1 Um exemplo para guiar definições e análises


Façamos uma atividade invertida em relação ao capítulo anterior: com base
em um conjunto de dados e através de um comando do Excel, iremos:
1. Definir algumas medidas estatísticas;
2. Relacioná-las entre si, especialmente média e desvio padrão;
3. Apresentar outras relações com outros comandos.
Suponha que o conjunto de dados Receitas XYZ.xls contém as receitas
semanais do produto XYZ, em reais; tal produto é fabricado e distribuído por uma
filial de uma grande empresa, num período de 51 semanas. Note que, inicialmente,
não vamos analisar um dado específico, mas sim o conjunto como um todo,
através de medidas nele calculadas. A opção do Excel a ser utilizada é Estatística
Descritiva, na seguinte seqüência: Ferramentas Análise de dados
Estatística descritiva. Nessa caixa, selecionar “resumo estatístico”, conforme
indica a figura a seguir.
Com esses passos, o Excel apresentará um resumo de medidas (algumas
principais, outras pouco usadas) a partir do qual teremos uma noção das
características e possíveis tendências do conjunto dos dados (ver figuras).

14
Coluna1

Média 2294,941176
Erro padrão 32,4390398
Mediana 2303
Modo 2144
Desvio padrão 231,661081
Variância da
amostra 53666,85647
Curtose -0,81417258
Assimetria -0,13156425
Intervalo 888
Mínimo 1807
Máximo 2695
Soma 117042
Contagem 51

15
2.2 Medidas de Tendência Central:

• Média
Para uma variável quantitativa* X, chamaremos a média de uma amostra de
X , e a média de uma população de µ , que é a letra grega “mi” usada pela
maioria dos textos em Estatística. A média aritmética é a divisão de todos os
valores de X, pela quantidade deles, que chamaremos de n. Matematicamente, ela
é assim definida:

Xi x1 + x 2 + x 3 + x 4 +...+ x n
X= ou X=
n n

O símbolo c é a letra grega sigma (maiúscula), muito usada em matemática


para indicar uma somatória de valores. A média aritmética é uma medida que
fornece uma noção da concentração dos dados em um único valor. É
aquele valor que todos os elementos pesquisados deveriam ter se o conjunto
estudado fosse absolutamente uniforme (todos os elementos iguais).
No exemplo, podemos dizer que a média semanal da receita do produto
XYZ é de R$ 2.294,94 (arredondando), no período considerado. No Excel, a função
=MÉDIA(....) também retorna tal medida.

• Mediana
Uma definição informal: ao ordenarmos os dados (crescente ou
decrescentemente), o termo que ocupa a posição absolutamente central na
seqüência de dados (ou seja, 50% dos dados estão antes dele e 50% depois).
Em nosso exemplo, se observarmos todas as receitas semanais numa
ordem crescente (ou decrescente – há uma opção fácil no excel para fazê-lo), o
valor R$ 2.303,00 ocupará a posição central. Na verdade, há um detalhe: se há um
número ímpar de elementos, há o termo central. Se há um número par de
elementos, a mediana é definida com a média entre os dois termos centrais. No
caso, como são 51 elementos, o central é o 26º; se houvesse 50 termos, os
centrais seriam o 25º e o 26º).
A explicação teórica destes detalhes está no rodapé desta página. Leia
somente se estiver com muita curiosidade matemática; caso contrário, gaste sua
energia no próximo item*. No Excel, a mediana também pode ser obtida com a
função =MED(...).

• Moda

*
lembre-se: X é variável, ou seja, assume vários valores!
*
Definição: a Mediana de uma amostra de n observações x1, x2,...., xn é o valor que ocupa a posição:
(a) (n+1)/2, que é o termo central, se n for ímpar; (b) a média aritmética entre os dois termos centrais, cujas
posições são n/2 e n/2+1, no caso de n ser par.

16
Pouco usada, é uma medida de uso bastante restrito. Numa definição
também informal, é o dado que ocorre mais vezes (tem maior freqüência). Basta
ver que, no exemplo, o fato de que o valor R$ 2.144,00 ter se repetido não traz
tanta importância para a análise do conjunto todo. Dados financeiros como esses,
geralmente, fazem com que o Excel não disponibilize esse valor, uma vez que é
fácil verificar conjuntos de dados em que nenhum valor se repete. Assim como se
pode ter um conjunto que não possui Moda, pode-se também haver mais de uma
moda (por exemplo, no conjunto 1,1,1,2,2,2,3,4,5).
É provável que, mesmo intuitivamente, o controlador de estoque de uma
loja de pneus, sapatos ou roupas use a Moda para manter seu estoque atualizado
para a loja e para os consumidores (o número de pessoas do sexo masculino que
calça sapato 40 é maior que o número de homens que calça 48).
No caso do exemplo, podemos chamar de classe modal ao intervalo para
o qual há mais dados, ou seja, o intervalo para o qual o retângulo do histograma é
mais alto. No histograma apresentado a seguir, veja que o intervalo [2.400;2.500]
é uma classe modal. Claro que, se definirmos outros intervalos para o bloco, no
Excel, teremos outra classe modal (e não há nenhum problema quanto a isso).

Relações entre essas medidas e os histogramas.

Em conjuntos de dados razoavelmente simétricos, essas três medidas (em


especial média e mediana) tendem a ser próximas. Em nosso exemplo, admitindo
que o histograma é razoavelmente simétrico (mais à frente justificaremos o porquê
desta afirmação ser verdadeira), é possível observar que essas medidas localizam-
se em torno do centro do histograma.

Histograma

12
10
Freqüência

8
6 Freqüência
4
2
0
Mais
1800
1900
2000
2100
2200
2300
2400
2500
2600
2700

Bloco

Média 2.294,94 Mediana 2.303,00

17
Detalhes da mediana: divide o histograma ao meio (duas áreas de 50%), e
não é afetada pelos extremos, ao contrário da média aritmética. Nos dados
(1,1,1,1,2,2,2,3,4,5,15), a mediana vale 2, e não é afetada pelo dado 15,
consideravelmente diferente dos demais. No exercício 2 do capítulo anterior,
referente a percentuais de umidade em madeira (matéria prima para papel e
celulose), pudemos observar inclinações diferentes para três meses consecutivos
(reveja os histogramas que você construiu).
Veja como é a relação entre histogramas e medidas, através de exemplos
extraídos de arquivos disponíveis do livro Complete Business Statistics:

Inclinação à esquerda Inclinação à direita


(Assimetria Negativa) (Assimetria Positiva)

Simétrico

18
Assimetria, cuja medida está no resumo estatístico, indica o quão afastado
de uma simetria perfeita o histograma está. Quando afirmei que o conjunto de
dados Receitas XYZ.xls era razoavelmente simétrico, não o fiz apenas no
“olhômetro” do histograma, mas também com os olhos na medida da assimetria,
no caso, -0,13. A teoria estatística diz que se esse valor está entre -1 e 1, o
conjunto pode ser considerado relativamente simétrico*.
A assimetria pode servir para responder a uma questão tradicional em
Estatística: quem é melhor para descrever o conjunto de dados: a média ou a
mediana? “Essencialmente, usamos a média como a melhor medida de localização
central se o conjunto de dados não exibe uma inclinação (assimetria) excessiva.
Caso contrário, usamos a mediana como medida de localização central”
(WINSTON, p. 273). É o caso de um pequeno exemplo citado anteriormente, o
conjunto 1,1,1,1,2,2,2,3,4,5,15; nele a média vale 3,36, razoavelmente superior a
boa parte dos dados. A mediana vale 2, e é uma medida que ilustra melhor esse
conjunto de dados, no caso de se necessitar uma informação rápida usando
apenas essas medidas. E isso faz sentido também matematicamente, já que a
assimetria é desses dados é 2,73.
Porém, um conjunto pode ser simétrico e apresentar problemas tanto no
uso da média quanto no uso da mediana. Isso será explorado através de um
exercício.

2.3 Medidas de dispersão

• Amplitude
É a diferença entre o maior e o menor dado: Amplitude = Xmaior – Xmenor
Está disponível no resumo estatístico, em nosso exemplo do capítulo, com o
título de Intervalo (veja o resumo do exemplo das receitas mensais do produto
XYZ). É uma medida mais intuitiva, apenas para dar uma noção de que intervalo
os dados variam. Veja que é uma medida limitada, já que não se sabe o que
ocorre com dois conjuntos de dados que tenham a mesma amplitude:
provavelmente um conjunto terá os dados mais espalhados que o outro, apesar de
terem mesma amplitude.

• Desvio Padrão: essa medida é a que você usará muito...

Qual a média entre os números 1 e 9? E entre os números 4 e 6? Veja que


a média 5 é a mesma para as duas perguntas, porém, esse valor é mais

Maior que 1 indica um alto grau de assimetria positiva


Menor que -1 indica alto grau de assimetria negativa
Entre -1 e 1 indica um relativo grau de simetria.

19
representativo para 4 e 6 do que para 1 e 9. Por quê? Porque 1 e 9 estão mais
dispersos em relação à média!
Como estabelecer uma medida para esse “espalhamento” dos dados?
O desvio padrão é a medida mais famosa e mais usada com sucesso para
estabelecer essa medida, a qual vale R$ 231,66 (com arredondamento) em nosso
exemplo base. Numa oração razoavelmente informal, porém suficiente para se
buscar uma clareza em termos de significado, esse valor significa que “os dados
estão espalhados, em média, 231,66 reais unidades da média aritmética R$
2.294,94”.
Como calculá-lo? Bem, sugiro fortemente que você se contente em usar o
Excel, seja com o resumo estatístico já apresentado, seja com a função
=DESVPAD(...). Mas, se sua curiosidade matemática é muito grande, veja como é
a fórmula:

( x1 x) 2 + ( x 2 x) 2 + .... + ( x n x) 2
S=
n 1
De modo geral, usamos S para o desvio padrão de uma amostra, e
(sigma) para o desvio padrão de uma população*. A letra n é o número de
elementos da amostra (número de dados), e há considerações que se pode fazer
para o uso de n ou de n – 1 no denominador, porém essa discussão não será aqui
abordada, uma vez que ela não é relevante ao nosso estudo.
A primeira instrução que você deve construir em seu pensamento
para entender o que significa o desvio padrão é a seguinte: quanto maior
o desvio padrão, mais afastados da média estão os dados.
Reciprocamente, quanto menor o desvio padrão, menos afastados da
média estão os dados. Essa instrução é importante principalmente quando se
comparam amostras de mesmo tamanho retiradas de uma mesma população,
conforme veremos em capítulos mais à frente.

• Variância
É o quadrado do desvio padrão. Sua importância específica também
aparecerá em aulas mais a frente, porém perceba que o desvio padrão é mais
prático, já que tem a mesma unidade dos dados.
( x1 x ) 2 + ( x2 x) 2 + .... + ( xn x) 2
S =
2

n 1

2 2
Xi n. X
*
Há também a fórmula S=
n 1

20
2.4 Aprofundando o estudo sobre desvio padrão: por que, em inúmeras
situações, o desvio padrão e a média devem ser usados juntos?

Numa massa de dados razoavelmente simétrica é comum observarmos que


há uma concentração maior de dados no centro do histograma, ou seja, há mais
valores em torno da média (conforme já investigamos em vários exemplos).
Porém, como avançar além da intuição e decidir, de maneira estatística, se um
dado está ou não consideravelmente afastado da média?
Primeiramente veja que essa indagação é importante em diversos
processos: há dados afastados que podem indicar algum problema na produção de
determinada peça, ou ainda um valor alto e inesperado de vendas, que é ao
mesmo tempo bom para o caixa da empresa e motivo de preocupação para o setor
que controlar o estoque da empresa.
O que muitas empresas usam nesta primeira análise de relação entre média
e desvio padrão está relacionado ao que, em teoria estatística, é intitulado “Regra
Empírica para Distribuição de Dados”, que indica o número de desvios padrão
acima e abaixo da média aritmética. Não é difícil imaginar que boa parte dos dados
fique próximo à média, mais especificamente, a dois desvios da média (para mais
ou para menos), veja um possível enunciado para essa regra, e em seguida a
aplicaremos no exemplo da produção automobilística presente neste texto.

REGRA EMPÍRICA

[X ]
S , X + S : geralmente entre 60% e 80% dos dados, podendo chegar a
90% no caso de distribuições cujo pico e proximidades são consideravelmente
altos;
[ ]
X 2.S , X + 2.S : aproximadamente 95% para distribuições simétricas;
torna-se próxima de 100% para distribuições bastante concentradas em torno da
média;
[ ]
X 3.S , X + 3.S : praticamente 100%.

Em nosso exemplo, temos os seguintes intervalos (que podem ser


calculados com qualquer calculadora simples, ou mesmo no Excel*):
1º INTERVALO Média – S 2.063 Média + S 2.527
2º INTERVALO Média – 2S 1.832 Média +2S 2.758
3° INTERVALO Média – 3S 1.600 Média +3S 2.990
Nº de
dados Percentual de dados
1º INTERVALO 34 66,7%
2º INTERVALO 50 98,0%
3° INTERVALO 51 100,0%
*
A formatação condicional e outras funções do Excel podem ser usados para contar esses valores.

21
Veja, através das duas tabelas acima, que os intervalos encontrados
satisfazem tal regra. Porém, há algumas considerações que devemos fazer em
relação ao único dado que está além do 2º intervalo: na teoria estatística,
costuma-se chamar dados como esse de suspeitos, por estarem a mais de 2
desvios da média aritmética. Se acontecer de um dado estar a mais de 3 desvios
padrão da média (para cima ou para baixo), esse dado é conhecidíssimo como
discrepante (outlier).
Aviso importante do autor deste texto: dependendo do contexto da
situação específica (análise de item da produção, exame de qualidade, previsão de
certo índice etc), da variável em questão e da forma como a empresa pode
administrar certas questões, dados além de 2 desvios geralmente são considerados
especiais, dignos de análise ou preocupação mais profunda.

2.5 Dados discrepantes e o valor Z

Estudaremos ainda muitas distribuições que se apresentarão de forma


razoavelmente simétrica, e veremos mais adiante o porquê desse estudo intensivo.
Os estatísticos, para estas situações características, entendem que um dado que
fica fora do terceiro intervalo da regra empírica é considerado discrepante.
Quando eles ocorrem, eles podem ser visualizados nas “caudas” do histograma,
pois são valores mais afastados do centro da distribuição.
Portanto, usando os valores de média e desvio padrão, são considerados
[ ]
discrepantes os dados que ficam fora do intervalo X 3.S , X + 3.S da regra
empírica. Há uma forma de extrema importância para que possamos identificar
facilmente um dado discrepante, além de facilitar outras análises que ainda estão
por vir.
Muitas vezes a análise ocorre sobre um valor específico do conjunto de
dados, após uma análise mais global do conjunto todo. Por exemplo, podemos
discutir se os valores mínimo e máximo obtidos no resumo são valores normais ou
estão muito distantes da média. O valor máximo R$ 2.695,00, por exemplo, não é
tão alto em relação aos demais dados, uma vez que situa-se a 1,7 desvio padrão
acima da média. O valor mínimo R$ 1.807,00, por exemplo, já está mais afastado
da média, estando a 2,1 desvios padrão da mesma (dizemos que está a –2,1
desvios da média). Note que tais dados podem ser submetidos a análises de suas
possíveis causas, nas respectivas semanas em que ocorreram.
Mas, que valores são esses? Como calculá-los? Podemos padronizar a forma
de pensarmos sobre a posição de qualquer valor da variável X em termos de
números de desvio padrão.
Valor Z de um dado numérico é sua padronização em termos de desvios da
média; tomando esta como zero. Assim, nessa escala construída em termos de

22
desvios padrão, cada dado tem um valor equivalente em outra escala, e esse valor
é chamado de valor Z. Veja como calculá-lo:
Definição: O valor Z de uma variável numérica X de um conjunto de
dados cujo desvio padrão é S é dado por:

X X
Z=
S

na qual X é o dado a ser padronizado, X é a média e S é o desvio padrão.


Um valor negativo para Z indica que o dado é menor que a média (está à
esquerda da média), enquanto que um dado maior que a média leva a um valor
positivo de Z (ou seja, um valor à direita da média).
Faça os cálculos com os valores que descrevemos nos parágrafos anteriores
e verifique a facilidade de se usar essa “fórmula”.

Dado bruto Valor


padronizado
1.807 -2,11
2.695 1,73
2.294 0,00
2.083 -0,91
2.584 1,24

Com essa padronização, podemos definir que um dado é considerado


discrepante se o seu valor Z é maior que 3 ou menor que – 3. Tal
consideração é usada em distribuições razoavelmente simétricas; em distribuições
de assimetria muito acentuada, valores Z maiores que 1 (ou menores que -1)
podem ser considerados discrepantes; é necessária uma análise cuidadosa nesses
casos especiais.
Nos exercícios que faremos vamos encontrar exemplos de dados
discrepantes. O que inferir a respeito de um dado discrepante? Vários motivos
podem se referir a um dado discrepante; ele pode:
a) Ter sido computado incorretamente;
b) Advir de uma população diferente;
c) Estar correto, mas refere-se a um evento raro. Neste caso, muitas vezes
gera preocupação para determinado setor da empresa; outras vezes, pode
se referir a uma agradável surpresa (um valor inesperado de lucro, por
exemplo); no ambiente empresarial, oscilações de mercado podem provocar
o aparecimento de tais dados. No caso de análise de algum processo, um
dado como esse pode revelar alguma situação que está fora dos padrões
normais e merece uma interferência no processo.

23
O valor Z também serve para posicionar um dado ao longo da seqüência.
Veja o exemplo a seguir.

Um exemplo intuitivo
Suponha que você participou de um concurso público, no qual houve 100
participantes. Sabendo que a média das notas (as quais podem variar de 0 a 10)
foi 5.5 e que você tirou 7.0, pergunta-se: podemos afirmar que você foi bem
colocado na classificação geral?
Bem, você deve estar sentindo falta de mais dados para responder a essa
pergunta, não é verdade? Como não sabemos como foram todas notas, e muito
menos como elas se distribuíram em relação à média, necessitamos conhecer o
desvio padrão das mesmas para ter condições de opinar. Veja os casos a seguir.
a) Desvio padrão 2.0: sua posição não é de grande destaque... façamos
os cálculos para padronizar sua posição em relação aos demais dados
(que são desconhecidos): z = (7.0 – 5.5)/2.0 = 0,75; isso indica que
sua nota está próxima da média, juntamente com a maioria dos dados,
inseridos no primeiro intervalo da regra empírica.
b) Desvio padrão 0.7: sua posição é de grande destaque! façamos os
cálculos para padronizar sua posição em relação aos demais dados
(que são desconhecidos): z = (7.0 – 5.5)/0.7 = 2.14; isso indica que
sua nota está longe da média, mais de dois desvios padrão! Veja como
os números fazem sentido: desvio padrão menor, significa dados mais
concentrados em torno da média; sua nota 7 está, neste caso,
afastada da média, o que indica que sua nota é alta em relação à
maioria das notas.

Um comentário sobre distribuições muito assimétricas.


Há conjuntos de dados que possuem assimetrias consideráveis; para
distribuições bastante assimétricas, a regra empírica apresentada para a
concentração dos dados pode não ser válida. O Teorema de Tchebysheff
aponta que, para qualquer distribuição com média X e desvio padrão S, as
proporções do número total de valores da variável X situam-se nos intervalos
abaixo, da seguinte forma:
• X ± 2S No mínimo 75% dos valores;
• X ± 3S Pelo menos 89% dos valores.

Para encerrar, mais uma observação: há situações em que a média


pode ser um valor interessante, porém a variabilidade dos dados pode
ser muito alta, gerando certa insegurança. Há situações em que a média
não é a desejada, porém, se o desvio padrão é pequeno, então o risco de
se afastar dessa média é menor. O primeiro exercício visa a verificação prática
dessa observação.

24
2.6 Exercícios

1. Um exercício para treinar a intuição e a observação: no texto anterior, através


do conjunto de dados intitulado Peça e Contrapeça1.xls, estudamos o
comportamento de uma amostra significativa de valores referentes ao diâmetro
interno de tampinhas de caneta, as quais devem ter uma medida que se
encaixe na caneta. Retomando os gráficos e as discussões que você deve ter
trabalhado nesse problema, resolva as questões a seguir: Observe as
afirmações:

I) “é possível ter-se uma idéia de um pequeno intervalo no qual se situa a


média aritmética desses valores mesmo sem, efetivamente, calcular o
valor dessa média”;
II) “A média, embora aceitável, não é um valor bom, mas o desvio padrão é
bom”.
Classifique cada uma dessas orações em verdadeira ou falsa, justificando o
porquê de cada escolha.

2. O Índice Geral de Preços do Mercado é uma importante informação percentual


muito usada em contratos realizados no mercado financeiro (como compra de
imóveis, por exemplo). Observe a definição disponível em
www.estadao.com.br/ext/economia/: “IGP-M - Índice Geral dos Preços do
Mercado, calculado pela Fundação Getúlio Vargas. A coleta de preços é feita
entre os dias 21 do mês anterior e 20 do mês corrente, com divulgação no dia
30. É composto por três índices: Índice de Preços no Atacado (IPA), Índice de
Preços ao Consumidor (IPC) e Índice Nacional do Custo da Construção (INCC),
que representam 60%, 30% e 10%, respectivamente, do IGP-M”. No arquivo
IGP-M.xls você encontra os índices de 37 meses (Jan/2004 a Jan/07).
(a) Usando média e desvio padrão, pode-se dizer que o índice mais alto
e o mais baixo desse conjunto são dados discrepantes? Justifique.
(b) A média e o desvio padrão de todo o conjunto de dados podem não
ser boas estimativas (previsões) do próximo mês a ser observado.
Algum gráfico pode justificar esse fato? Por quê?
(c) Continuando a análise feita no item (b), como as previsões para o
próximo mês podem ser melhoradas?

3. Num artigo intitulado “Índices Técnicos e Rentabilidade da Pecuária Leiteira”


(Oliveira et al.) os autores (administradores de empresas e engenheiros)
discutem os problemas que certas fazendas mineiras estavam encontrando
para obterem retornos melhores de suas respectivas produções. De maneira
simplificada, entendamos “retorno” como “ganhos ou prejuízos obtidos como
conseqüência de um investimento durante determinado período de tempo”. No
conjunto de dados T.R.Leite.xls constam taxas de retorno (porcentagens que

25
possuem regras próprias para cálculo) que, de maneira geral, parecem não
agradar boa parte dos proprietários das 22 propriedades rurais participantes da
pesquisa. Nos critérios da regra empírica para distribuição de dados, é possível
dizer que as taxas de retorno das propriedades 1 e 15 são discrepantes em
relação às demais propriedades? Justifique.

4. Certo funcionário realizou amostragens do tempo de produção, em minutos, de


determinada peça, de maneira que cada peça era produzida ora pela máquina
A, ora pela máquina B, teoricamente aparelhos com iguais características.
Porém, de forma descuidada, esse funcionário não anotou, em cada tempo, a
referida máquina da qual ela era proveniente. A seqüência a seguir foi então
apresentada por esse funcionário.

15 16 15 18 20 19 2 3
1 18 4 5 5 2 1 1
20 4 1 15 16 3 2 17
2 19 4 18 6 5 17 6
17 10 16 3 20 16 1 19
19 8 20 19 15 8 20 10
Suponha que você é o gerente responsável pela qualidade de diversos
processos que ocorrem na fictícia empresa deste exercício. Com esses dados
em mãos (planilha Tempo Máquinas.xls), você deseja fazer uma análise
estatística (média, desvio padrão etc.). Na hipótese de não conseguir entrar em
contato com o funcionário que colheu os dados, quais características principais
desse conjunto de dados você apontaria? Há decisões a serem tomadas?
Explique.

5. Contou-se o número de erros de impressão das 3 primeiras páginas de um


jornal durante 50 dias, e um software específico registrou esses dados na
forma de diagrama ramo-e-folhas.
0|4
0 | 555556666777788899
1 | 000001111222222222234444444
1 | 569
2|2

Média: 10,4 erros


Mediana: 11 erros
Desvio Padrão: 3,83 erros

(a) O valor 13 ocorreu apenas uma vez. A probabilidade de que ele ocorra
novamente é alta ou baixa? Justifique sua resposta.
(b) Faça a mesma análise para o dado 22.

26
(c) Suponha que o dado 22 ocorreu em certo dia em que houve muitos
problemas no processo de impressão desse jornal. Exclua esse dado do
conjunto todo, e recalcule a média aritmética.
(d) Se você somou todos os valores constantes no diagrama anterior para
responder à questão (c), então refaça esse exercício, ou seja, recalcule a
média sem o dado 22, supondo que você não conhece os dados, mas
apenas a média de 10,4.

6. Uma pequena estamparia comprou uma nova máquina para efetuar cortes
automáticos de peças de tecido com comprimentos padronizados. Porém,
devido às diferentes características dos tecidos empregados, a máquina não faz
um corte exato da medida “pedida”, provocando uma variação no tamanho das
peças cortadas. A tabela abaixo ilustra a freqüência absoluta de cortes, ao
longo de um dia, que a máquina fez quando esteve ajustada para produzir
peças entre 140 cm e 160 cm. DESAFIO: com os dados que dispõe, procure
calcular um valor para a média aritmética desse conjunto de dados.

Intervalo das medidas obtidas Freqüência


100-109 8
110-119 17
120-129 20
130-139 32
140-149 42
150-159 24
160-169 11
170-179 4

2.7 Respostas dos exercícios

1. As duas afirmações são verdadeiras; analisando o gráfico de controle desse conjunto de


dados, fica mais fácil realizar essa observação:
(I) Há muitos pontos que estão na faixa de 130mm a 150mm, aproximadamente, o que
nos leva a imaginar que a média está nesse intervalo;
(II) “O desvio padrão é bom” porque a variabilidade está previsível; a “média” não é boa
porque está numa faixa mais próxima do limite inferior aceitável.

2.
(a) Arredondando, temos X = 0,47 e S=0,55. Vamos calcular os respectivos valores Z:
1,38 0,47
• Para o máximo 1,38, temos: Z= = 1,65 ; não é discrepante pois z<3.
0,55
0,65 0,47
• Para o mínimo –0,65, temos Z = = 2,04 ; não é considerado discrepante
0,55
na literatura estatística, pois seu valor z é maior que -3, mas como atinge 2 desvios padrão
da média, pode ser considerado um valor muito baixo.

27
(b) O gráfico de controle pois, como os dados estão em seqüência no tempo, pode-se ver que
o padrão dos últimos meses não é o mesmo dos primeiros meses da análise (houve muitos
altos e baixos, bem diferentes do final do desenho)
(c) Calculando-se a média e o desvio padrão de um período mais recente, e não de todo o
período coletado.

3. Basta calcular o valor Z de cada índice; na propriedade 1 temos


1,23 ( 0,01)
Z= = 2,70 , o que sugere um dado bastante afastado da média, não é
0,46
discrepante, mas quase... é considerado suspeito. Para a propriedade 15, temos
1,12 ( 0,01)
Z= = 2,41, o que nos sugere a mesma explicação.
0,46

4. Pode-se notar que, nesse conjunto, as duas máquinas estão trabalhando de modo muito
diferente. A média de todos os valores não é um valor útil, nem confiável; observando o
histograma, vemos um conjunto de valores concentrados em medidas mais altas, e outro
grupo em medidas bem menores. É necessária outra amostragem, separando-se as
medidas das duas máquinas.

5.

(a) O valor Z para esse dado é 0.679218, ou seja, está no primeiro intervalo da regra
empírica, o qual concentra a maior parte dos dados. Logo, não é difícil a ocorrência do
dado 13 novamente.
(b) O dado 22 é discrepante (valor Z = 3.030357), ou seja, é uma ocorrência anormal. Isso
nos leva a concluir que é bastante provável que as condições desse dia (o dia em que
ocorreram 22 erros) não eram as mesmas que a maioria dos outros dias (funcionários
podem ter faltado, máquinas podem ter quebrado, o prazo para a execução do serviço foi
pequeno etc).
(c) 10,16 erros
(d) 10,16 erros (monte uma equação do 1º grau)

6. Pode-se usar o meio de cada intervalo, e multiplicá-lo pela freqüência respectiva. Ao final,
divide-se pela soma das freqüências (ou seja, a famosa média aritmética ponderada):
8.104,5 + 17.114,5 + 20.124,5 + 32.134,5 + 42.144,5 + 24.154,5 + 11.164,5 + 4.174,5
X =
8 + 17 + 20 + 32 + 42 + 24 + 11 + 4

21861
X = X = 138,36
158

2.8 Atividade Extra

Pesquisa salarial para diretores e gerentes feita no site


http://carreiras.empregos.com.br/carreira/administracao/pesquisa_salarial/
informa que tais dados são da Folha de São Paulo, atualizados em setembro de
2006. Não olhe ainda a tabela! Faça o seguinte exercício individual:
1º) Se você já é gerente ou diretor em alguma empresa, parabéns! Se você
não é, faça de conta que é, e imagine o salário que você acha justo para o seu

28
trabalho (por favor, não exagere... cuidado com o desvio padrão!!!). Mas faça
isso antes de olhar a tabela!
2º) Selecione a coluna das médias salariais de gerentes e calcule média e
desvio padrão (conjunto de dados).
3º) Tome o salário que você ganha (se já é gerente) ou aquele que você
gostaria de ganhar (um dia você chega lá!!!), e calcule o valor Z dele.
4º) Você ficou satisfeito(a) com a sua ambição (ou realidade)? Se sim, ótimo!
Muitas felicidades e sucesso para você! Se não, vá ao 5º passo.
5º) Faça o exercício de novo, mas desta vez com a coluna “menor salário” ou
com a coluna “maior salário”. Espero que você se sinta melhor... e também te
desejo muitas felicidades e muito sucesso!

DIRETORES E GERENTES (Em Reais – R$)


OCUPAÇÃO MENOR MAIOR MÉDIA

Diretores
- Adm. E financeiro. . . . . . . . . . . . . . . . . . . . . . 4.826 39.510 16.671
- Administrativo. . . . . . . . . . . . . . . . . . . . . . . . 7.055 33.830 16.418
- Comercial . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.141 51.238 19.293
- Financeiro . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.015 29.997 17.932
- Industrial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.083 20.356 14.811
- Informática. . . . . . . . . . . . . . . . . . . . . . . . . . 9.878 28.367 19.644
- Jurídico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.650 24.445 20.040
- Marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.575 33.582 17.278
- Presidente. . . . . . . . . . . . . . . . . . . . . . . . . . . 9.625 46.016 28.615
- Rh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.214 37.511 19.309
- Suprimentos . . . . . . . . . . . . . . . . . . . . . . . . . 13.371 20.277 16.840
- Vendas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.508 29.971 16.988
- Vice-presidente. . . . . . . . . . . . . . . . . . . . . . . 8.045 45.545 26.481
Gerentes
- Adjunto de operações. . . . . . . . . . . . . . . . . . . 9.502 25.531 10.674
- Adm. de vendas. . . . . . . . . . . . . . . . . . . . . . . 4.447 9.669 7.015
- Adm.de pessoal. . . . . . . . . . . . . . . . . . . . . . . 4.691 18.677 8.655
- Adm.e financeiro. . . . . . . . . . . . . . . . . . . . . . 4.440 14.727 8.589
- Administrativo. . . . . . . . . . . . . . . . . . . . . . . . 2.648 18.114 8.151
- Assistência técnica . . . . . . . . . . . . . . . . . . . . 5.480 12.931 8.662
- Auditoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.918 13.137 7.664
- Comercial . . . . . . . . . . . . . . . . . . . . . . . . . . 3.110 19.233 7.393
- Compras . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.140 17.809 9.755
- Contabilidade de custos . . . . . . . . . . . . . . . . 5.471 15.110 9.983
- Contabilidade geral. . . . . . . . . . . . . . . . . . . . 3.211 16.798 8.168
- Contas a pagar . . . . . . . . . . . . . . . . . . . . . . . 6.967 8.606 7.625
- Controladoria . . . . . . . . . . . . . . . . . . . . . . . . 3.602 15.735 9.559
- Controle de qualidade. . . . . . . . . . . . . . . . . . 4.790 14.620 8.093
- Crédito e cobrança . . . . . . . . . . . . . . . . . . . . 4.378 18.805 9.048
- Desenv. Rh . . . . . . . . . . . . . . . . . . . . . . . . . 3.710 12.057 8.335
- Desenv. sistemas . . . . . . . . . . . . . . . . . . . . . 7.400 11.907 9.611
- Desenv. novos produtos . . . . . . . . . . . . . . . . 6.640 13.667 9.617
- Distr. E transportes . . . . . . . . . . . . . . . . . . . . 2.565 12.529 7.604
- Engenharia e projetos . . . . . . . . . . . . . . . . . . 7.950 14.307 9.836
- Fabricação . . . . . . . . . . . . . . . . . . . . . . . . . . 3.663 15.066 9.917
- Filial de vendas . . . . . . . . . . . . . . . . . . . . . . 2.083 13.687 4.282
- Financeiro . . . . . . . . . . . . . . . . . . . . . . . . . . 2.648 19.095 8.679

29
- Grupo de produtos . . . . . . . . . . . . . . . . . . . . 5.444 9.714 6.724
- Industrial . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.303 19.095 11.476
- Informática. . . . . . . . . . . . . . . . . . . . . . . . . . 2.750 20.114 9.208
- Jurídico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.254 19.095 11.476
- Loja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.874 11.343 2.897
- Manutenção geral . . . . . . . . . . . . . . . . . . . . . 4.230 13.124 8.318
- Marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.637 17.926 9.15
- Nacional de vendas . . . . . . . . . . . . . . . . . . . . 4.548 20.240 10.166
- Pesquisa de mercado . . . . . . . . . . . . . . . . . . 8.221 14.428 10.336
- Pesquisa e desenv. . . . . . . . . . . . . . . . . . . . . 7.495 12.158 9.352
- Planej. contr. produção . . . . . . . . . . . . . . . . . 2.956 17.556 11.295
- Planej. financ. Orçament. . . . . . . . . . . . . . . . . 6.731 15.216 9.283
- Processamento de dados . . . . . . . . . . . . . . . . 5.133 8.607 7.378
- Produção . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.045 11.761 7.779
- Produto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.634 24.424 9.464
- Projetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.102 9.425 8.333
- Prop. E prom. vendas . . . . . . . . . . . . . . . . . . . 7.736 12.537 9.471
- Recursos humanos . . . . . . . . . . . . . . . . . . . . . 1.893 16.243 7.533
- Regional de vendas . . . . . . . . . . . . . . . . . . . . 3.239 13.217 8.657
- Relações industriais . . . . . . . . . . . . . . . . . . . . 4.034 7.950 6.921
- Remun. e benefícios . . . . . . . . . . . . . . . . . . . . 4.512 14.270 9.425
- Serviços gerais . . . . . . . . . . . . . . . . . . . . . . . 2.495 9.945 5.954
- Suprimentos . . . . . . . . . . . . . . . . . . . . . . . . . 3.872 15.928 8.918
- Técnico de obras . . . . . . . . . . . . . . . . . . . . . . 8.034 12.960 9.756
- Tesouraria . . . . . . . . . . . . . . . . . . . . . . . . . . 6.091 17.996 9.917
- Treinamento e desenv. . . . . . . . . . . . . . . . . . 4.512 12.537 9.411

COMENTÁRIO DO AUTOR PARA ESTA ATIVIDADE.

Aqui a resposta é individual, mas mesmo assim te faço um desafio: eu, o autor deste texto,
imaginei um salário normal para mim, já que encontrei o valor Z igual a – 1,20 (desprezei os
centavos). Qual salário imaginei, usando como média a coluna das médias salariais?

30
CAPÍTULO III

Medidas Estatísticas de Posição


• Quais são as medidas de posição mais significativas?
• Como interpretar rápida e corretamente um boxplot?
• Como inserir dados e encontrar medidas e desenhar um boxplot
com o software R.

3.1 Percentil
Na verdade, já temos uma medida de posição estudada, que é a mediana.
Vimos que a mediana é o dado que divide o conjunto ordenado em duas partes
iguais, com 50% acima e 50% abaixo dela. E se quisermos encontrar a
porcentagem de dados que se encontra acima e abaixo de um dado qualquer? E se
quisermos encontrar o dado que divide o conjunto de dados em 20% e 80% do
total de valores?
De forma geral, nota-se que a porcentagem de valores que estão antes
ou depois de determinado dado é uma forma de analisar tais questões e analisar
diversos problemas. Já vimos que a mediana divide a seqüência em duas partes
que possuem 50% dos dados, mas agora vamos definir valores que podem
apresentar quaisquer posições num conjunto ordenado de dados.
Definição: Sejam X1, X2,...,Xn valores de uma amostra ou população de
uma variável X, dispostos em ordem crescente (ou decrescente). O p-ésimo
percentil é o valor X que divide essa seqüência em duas partes, tal que p% das
medidas são menores que esse valor, e (100-p)% dos valores da variável são
maiores que esse valor.
Estamos na seguinte questão: dado um valor, encontrar sua posição relativa
na seqüência ordenada dos dados. Numa espécie de “regra de três", ao
desejarmos encontrar a posição de um elemento X dentre os n valores que essa
variável assume, esse percentil p é dado por:
n 1 X 1
=
100% p%

Porém, não gastaremos tempo e neurônios com esses cálculos, pois vamos
usar a tecnologia para responder por tais cálculos, bastando, para isso, que
saibamos fazer a pergunta certa.
O conjunto de dados Receitas1.xls contém uma simulação de receitas
semanais, em reais, oriundos das vendas do refrigerante QuiPutz, da empresa Gole
da Goela S/C Ltda.

31
Se quisermos, no Excel, descobrirmos qual valor é o mediano, basta inserir
a função =MED(...). No intervalo de dados, selecione a coluna B2:B61,
encontrando o valor R$ 543,50.
Usar o percentil é muito fácil: se quiseres encontrar o termo que ocupa a
posição 20%, ou seja, 20% dos dados antes dele (consequentemente 80% depois
dele, desconsiderando minúcias matemáticas), basta usar o comando
=PERCENTIL(B2:B61;0,2). O valor R$ 477,60 fornece a idéia desse valor. O
comando =PERCENTIL(B2:B61;0,85), que retorna o valor R$ 702,90, fornece o
percentil 85%, ou seja, 85% dos dados abaixo dele.

3.2 Percentis mais famosos: os Quartis


Porém, os percentis mais famosos e usados em análises mais imediatas são,
respectivamente: o de 25%, chamado 1º Quartil; o de 50%, chamado 2º Quartil,
porém mais famoso como mediana; e o de 75%, chamado 3º Quartil.
Note que esses nomes são sugestivos, pois dividem todo o conjunto de
dados em quatro partes iguais. Vejamos as definições formais desses três valores:
Definição: O primeiro quartil, notado por Q1 é o valor para o qual 25%
dos dados são menores que ele.
Definição: O segundo quartil, que pode ser notado por Q2, é a
mediana; é o valor central, para o qual há 50% dos dados antes e depois dele.
Definição: O terceiro quartil, notado por Q3, é o valor para o qual 75%
dos dados são menores que ele.
Retomemos o conjunto de dados das 60 receitas semanais observando,
além desses três valores, o máximo e o mínimo desse conjunto de dados, obtidos
no excel com a função =QUARTIL(...).

Mínimo 250,00

1o Quartil 480,00

Mediana 543,50

3o Quartil 625,50

Máximo 920,00
Para essa função, veja como o Excel pede a informação de qual Quartil você
precisa:

32
Note que há 5 possibilidades, que gerarão uma seqüência muito falada em
livros de Estatística: seqüência ou diagrama dos 5 números. Esses 5 números
são: Mínimo (extremo inferior), 1º Quartil, Mediana, 3º Quartil e Máximo (extremo
superior).
Uma propriedade interessante dos quartis é o fato de que 50% dos dados
se encontram entre os quartis Q1 e Q3; em nosso exemplo, 50% dos dados estão
entre R$ 480,00 e R$ 625,50. Dessa forma, o valor R$ 550,00 está situado entre a
mediana R$ 543,50 e o quartil Q3, o que nos faz concluir que ele não é um valor
de considerável afastamento da mediana e da média, já que este conjunto de
dados não é tão assimétrico (a média é R$ 562,07). O tamanho desse segmento,
ou seja, 625,50 – 480,00 = 145,50 é chamado distância ou amplitude
interquartil.
Atenção: os próximos 4 parágrafos são explicações técnicas e matemáticas
para certos cálculos; são detalhamentos que não interferem nas análises que
necessitamos para nosso curso. Portanto, você pode pular esse detalhamento e ir
direto ao item 3.3, referentes ao interessante diagrama Boxplot.
Definição: Amplitude interquartil, que denotaremos por IQR
(interquartile range), é a medida da distância entre o menor e o maior quartil, ou
seja, Q3 - Q1.
Há fórmulas que podem ser usadas para se achar as posições dos termos
correspondentes aos quartis (a mediana já foi detalhada no texto 2):
n +1
Q1 = valor correspondente à posição .
4
3(n + 1)
Q3 = valor correspondente à posição .
4
Porém, há autores que definem de forma diferente tais cálculos (e
softwares também!), mas isso não atrapalha a essência de tais valores: pequenas
diferenças não alteram as análises dos conjuntos de dados.

33
Por exemplo, o software estatístico R, do qual falaremos um pouco mais à
frente, realiza o que em Matemática chamamos de interpolação: uma espécie de
“regra de três” que relaciona, geometricamente, a posição de determinado valor X
de uma variável e sua posição n. No caso do primeiro quartil, cujo percentil é
n 1 X 1
25%, vale a relação = . Omitiremos maiores detalhes dessa relação,
100% p%
uma vez que tal procedimento foge aos objetivos deste texto, o qual prevê o uso
do software R ou do Excel para o cálculo de tais valores, aproveitando nosso
tempo não para fazer esses cálculos, mas sim interpretá-los.

3.3 O diagrama Boxplot (ou “diagrama de caixas”)

Dentro desse “espírito” de análise de dados, apresentaremos uma forma de


se representar graficamente os valores posicionais dos quais estamos trabalhando
nesta seção: o boxplot. Em português, alguns autores o chamam de “diagramas
de caixas”; manteremos a expressão no inglês por ser consagrada na literatura,
além de facilitar-lhe o uso desta opção no software R, do qual conversaremos mais
adiante. É um esquema gráfico que informa, de maneira rápida, os valores
posicionais importantes de um conjunto de dados, ou seja, os cinco números
principais dos quais falávamos: Mínimo, 1º Quartil, Mediana, 3º Quartil e
Máximo; note que a média aritmética não está inclusa nessa seqüência.
Em relação ao conjunto das receitas semanais que estávamos
exemplificando, esses cinco valores podem, assim, ser visualizados nesse
diagrama. Retomemos os 5 valores, e localize-os no desenho a seguir:

Mínimo 250,00

1o Quartil 480,00

Mediana 543,50

3o Quartil 625,50

Máximo 920,00

34
Interpretando o boxplot: O retângulo da figura anterior, representa três
valores: o segmento situado no interior do retângulo aponta o valor da mediana
(R$ 543,50), enquanto que os segmentos paralelos a esse, que são lados do
retângulo, representam os valores dos quartis Q1 (R$ 480,00) e Q3 (R$ 625,50).
Note que a distância entre esses segmentos, ou seja, o comprimento do retângulo,
é a medida da amplitude interquartil (IQR).
Os segmentos que se encontram nos extremos da linha pontilhada,
perpendicular ao retângulo, “costumam” indicar os valores extremos. Como assim,
“costumam”? Se os extremos não estiverem a 1,5×IQR para cima ou para baixo
dos quartis, então se considera que não há dados discrepantes, e tais segmentos
representam os extremos.
Porém, há dados bem distantes da mediana nesse conjunto de dados, e o
boxplot indica isso através das “bolinhas”: os valores R$ 250,00 e R$ 920,00 estão
a “mais de uma caixa e meia distantes da caixa”, para falar em linguagem para lá
de informal. Quando esses dados não são tão distantes, o boxplot não apresenta
tais bolinhas, como no desenho a seguir (veja que esse diagrama pode ser
desenhado tanto na vertical quanto na horizontal).
5 10 15

Portanto, o critério para se chamar de “discrepante” um dado extremo é


diferente quando se usa o par média & desvio padrão ou o par mediana &
IQR. Ou seja, valores discrepantes nesse diagrama são aqueles que se situam
além de 1.5 IQR, para cima ou para baixo. Em nosso curso, valorizaremos o
primeiro par, uma vez que é a associação de medidas mais largamente usada em
diversos contextos em que a Estatística está presente.
Em termos de tecnologia, o Excel se torna um pouco trabalhoso para se
fazer a simulação de um boxplot. Aproveitando este momento, apresentarei a você
um software estatístico gratuito, chamado R, que também pode ser usado para se
resolver inúmeros problemas de ordem matemática. Seu uso não será exigido em
nosso curso, mas vale a pena conhecê-lo, e incluí-lo em seu rol de informações
“informáticas”...

3.4 O software R

Agora introduziremos alguns comandos desse software, que não possui o


“design” de uma planilha, e a forma de se introduzir dados é por meio de digitação

35
numa mesma linha. Para inserir uma seqüência qualquer de números reais,
escolhemos um nome para a mesma (por exemplo, valores), seguida da
seqüência entre parênteses, precedida da letra c. Por exemplo, o conjunto de
dados 1, 2, 3, 4, 5, 6, 7 será digitado assim:

> notas = c(1, 2, 3, 4, 5, 6, 7)

Em caso de valores com decimais, use ponto ao invés de virgulas, uma vez
que as vírgulas são usadas como separadores de valores. No caso do conjunto de
dados usado para este capítulo, a seqüência ficou assim (o nome usado foi o
mesmo - receitas):

receitas=c(620,350,450,334,765,732,546,852,431,541,600,854,750,340,520
,650,610,668,920,250,380,400,580,510,650,660,480,708,606,418,489,702,610,62
0,503,590,558,642,890,768,509,540,568,480,476,490,506,400,368,525,498,
609,521,480,568,550, 478,511,540,560)

Após digitar a seqüência, basta pressionar enter para que o software


“grave” tal conjunto de dados. Para os dados quantitativos, podemos gerar um
histograma com intervalos gerados pelo próprio R (automaticamente), ou então
definirmos um intervalo a partir de valores extremos. Veja estas duas opções nos
comandos abaixo, as quais, no caso fornecem o mesmo histograma (dependendo
do intervalo que você queira ele pode se modificar):

> hist(receitas)
> hist(receitas,xlim=c(200,1000))

36
Abaixo você terá comandos para as medidas e representações que já
estudamos:

> stem(receitas)

2|5
3 | 34578
4 | 002358888899
5 | 00111122344455667789
6 | 011112245567
7 | 013577
8 | 559
9|2

> mean(receitas)
[1] 562.0667

> median(receitas)
[1] 543.5

> sd(receitas)
[1] 139.1622

> boxplot(receitas)

Veja que “sd” é o desvio padrão (de “standard deviation” ), e o comando


“boxplot” forneceu o desenho que consta na página 4 deste texto.
Porém, bastante interessante é o comando summary, que fornece um
resumo das medidas de posição que aqui desenvolvemos, juntamente com a
média aritmética:

> summary(receitas)
Min. 1st Qu. Median Mean 3rd Qu. Max.
250.0 480.0 543.5 562.1 625.5 920.0

Para sair do programa e deixar salvos os arquivos e toda a sessão de


cálculos e desenhos que você realizou, digite q() . Um site possível para você fazer
o download desse programa é http://www.r-project.org/

3.5 Exercício

Para se estudar o desempenho de duas corretoras de ações, selecionou-se de cada


uma delas amostras aleatórias de várias ações negociadas (o mesmo nº de ações

37
para cada corretora). Para cada ação selecionada, computou-se a porcentagem de
lucro apresentada durante um período fixado de tempo.
CORRETORA A CORRETORA B
Mínimo 38,00% 50,00%
1o Quartil 54,25% 53,50%
Mediana 55,50% 56,50%
3o Quartil 60,00% 58,00%
Máximo 70,00% 61,00%

(a) Com base nas informações dadas pelo Excel, faça um esboço dos possíveis
diagramas do tipo boxplot de ambas corretoras.
(b) Discorra sobre as vantagens/desvantagens de se escolher a corretora A ou
a corretora B.
(c) Observando as informações adicionais a seguir, calcule o valor Z para os
dados 50 e 59 da corretora B.
CORRETORA A CORRETORA B
Média 56,28% 55,78 %
Desvio Padrão 7,44% 3,14%

(d) Verifique se há dados discrepantes em algum dos conjuntos de dados,


utilizando o critério do valor Z.

3.6 Resposta do exercício

(a) Seus boxplots não precisavam ficar exatamente como os reais, abaixo indicados, porém, há
informações relevantes que devem existir na comparação entre ambos: as posições das
medianas, dos quartis e dos extremos. Se você não colocou as bolinhas no primeiro
boxplot, não há problema, pois em nosso curso utilizaremos média e desvio padrão para
dizer se um dado é discrepante ou não.

38
70
65
60
55
50
45
40

1 2
(b) Vantagens da corretora A: atingiu o maior valor de porcentagem (70%), e tem 25% de
dados entre 60% e 70%. Desvantagens da corretora A: possui também o menor valor
(38%), ou seja, tem a uma amplitude (dispersão) maior dos dados; os 25% dos dados
menores estão no intervalo [38%,54.25%]. Vantagens da corretora B: os dados são
mais concentrados, já que todos eles estão no intervalo [50%,61%]. A amplitude menor
(11%) em relação à corretora A (32%) é vantagem no caso de não se desejar altos riscos.
Desvantagens da corretora B: pouca expectativa de um rendimento maior que 60%, ao
contrário de B, que tem 25% dos dados acima desse valor.
(c) Para 50: Z = -1.84; para 59: Z = 1.03 (valores arredondados).
(d) Não há dados discrepantes, pois os valores Z dos máximos e dos mínimos dos dois
conjuntos de dados não são inferiores a – 3 nem superiores a 3 (calcule-os!).

39
CAPÍTULO IV

Probabilidades
• O que é “matematizar” a chance de algo ocorrer?
• Quais as principais leis de Probabilidades?

4.1 Conceitos e definições iniciais na teoria das probabilidades.

• Experimentos aleatórios: experimentos nos quais é possível listar todas as


possibilidades.
Exemplo:
a) lançamento de um dado cúbico (os resultados possíveis são
1, 2, 3, 4, 5 e 6)
b) lançamento de uma moeda (cara, coroa)
c) retirada de uma peça de um lote para verificar seu estado
(com defeito, sem defeito)
d) após certo período, analisar o comportamento de
determinada ação no mercado financeiro (aumentou,
diminuiu ou manteve seu valor)

• Eventos simples: são todos os eventos mais básicos de um experimento.


Ex.: {face 3} no exemplo (a); {coroa} no exemplo (b); {peça com defeito} no
exemplo (c); {aumentou seu valor} no exemplo (d).

• Definição: Probabilidade de um evento A, denotada por P(A), é um número de


0 a 1 que mede a chance de A ocorrer. P(A) pode ser entendida como a
proporção de vezes que A ocorre se o experimento for realizado inúmeras
vezes.
1ª lei de Probabilidades: para qualquer evento A, tem-se:

0 P ( A) 1 ou 0% P ( A) 100%

• Eventos mutuamente exclusivos: quanto um ocorre, o outro não pode


ocorrer.
Ex.: no lançamento de um dado, os eventos A={face par} e B={face ímpar} são
mutuamente exclusivos.
Ex.: ao se escolher uma carta de um baralho, os eventos C={carta de paus} e
D={carta de copas} são mutuamente exclusivos, mas os eventos C={carta de

40
paus} e E={carta com número 7} não são mutuamente exclusivos, pois há carta
que satisfaz ambas características.
Ex.: de um período para outro, uma ação no mercado financeiro pode aumentar
seu valor, manter seu valor ou diminuir seu valor; são três eventos mutuamente
exclusivos.

2ª lei de Probabilidades: Se A e B são eventos mutuamente


exclusivos, então:

P(A ou B) = P(A) + P(B)

No exemplo das cartas, P(A ou B) = P(A) + P(B) = 13/52 +13/52


Observação: se os eventos A e B não forem mutuamente exclusivos,
devemos fazer:
P(A ou B) = P(A) + P(B) - P(A e B)

Por exemplo: retirar uma carta de um baralho comum e calcular a


probabilidade de sair uma carta vermelha ou uma dama. Temos:
P(V ou D) = 26/52 + 4/52 – 2/52 = 28/52

• Evento Complementar de A, chamado de A , é o “contrário” de A. A


probabilidade de não ocorrer A, denotada por P( A ), é:

P( A ) = 1 – P(A)

Note que P(A) + P( A ) = 1, que significa que, ao somarmos as probabilidades de


ocorrer um evento e de ele não ocorrer é 1 (100%)
Se um instituto de meteorologia afirma que hoje há 30% de chances de
chover, podemos concluir que hoje há 70% de chances de não chover, pois
efetuamos a subtração 100% – 30% = 70%

• Probabilidade Condicional

Exemplo: Pedro joga um dado cúbico equilibrado, mas João não consegue
ver a face que caiu. Pedro então lhe diz que a face voltada para cima é par. Qual a
probabilidade de João acertar a face que caiu?
Veja que a resposta pode ser formulada intuitivamente: 1/3, já que João
escolherá uma das faces 2, 4 ou 6 (a não ser que ele não saiba o que é um
número par).
Vamos refazer este problema, a fim de introduzirmos uma nova notação e
uma nova fórmula: qual a probabilidade de ter saído face 4, sabendo que ocorreu
face par? Veja que há dois eventos em questão: A = sair face 4 e B = ocorrer face
par. Em símbolos:

41
A = {4} e B = {2, 4, 6}
O que se deseja é: calcular a probabilidade de ocorrer face 4, sabendo que
ocorreu face par. Há uma notação específica para esta pergunta: a probabilidade
de ocorrer o evento A sabendo que ocorreu B é representada por P ( A | B ) , que
se lê: “probabilidade de A, dado B”. Esclarecida esta notação, podemos então
enunciar a 3ª lei de probabilidades:

3ª lei de Probabilidades: Se A e B são dois eventos, então:


P( A e B)
P( A | B) =
P( B)
ou, de maneira equivalente:
P( A e B) = P( A | B) × P( B)

No exemplo, perceba que o valor 1/3 obtido intuitivamente também pode


ser obtido a partir dessa expressão:
P( A e B) 1 / 6 1
P( A | B) = = =
P( B) 3/ 6 3

• Eventos Independentes: a ocorrência de um não interfere na probabilidade


de ocorrência do outro; em outras palavras, ao se saber que B ocorreu, isso
não influenciará na probabilidade de ocorrência de A. Nesse caso, é correto
afirmar que P ( A | B ) = P ( A) , e então temos a conhecida “regra da
multiplicação” entre probabilidades, a qual é derivada da terceira lei de
probabilidades:

P( A e B) = P( A | B) × P( B)

fica equivalente a

P ( A e B ) = P ( A) × P ( B )

Exemplo: Uma marca de salgadinhos fez uma promoção do tipo “raspadinha”. Em


cada embalagem vem uma cartela (ver figura), com a qual você participa de um
jogo e concorre a brindes. Na cartela existem vários espaços (círculos) cobertos
por uma tinta cinzenta, os quais, após serem raspados, revelam uma figura
impressa: uma bola de futebol, ou um X. A cartela simula um campo de futebol,
sendo uma das traves o início do jogo e a outra o gol que contém o prêmio. O
objetivo do jogo é atravessar esse campo pela trilha de bolas. Se ao raspar o

42
primeiro círculo você encontrar uma bola, vá para a próxima faixa e repita o
processo. Caso contrário, se você encontrar um X, perdeu o jogo. Em cada faixa
há apenas um círculo que contém uma bola escondida. Os outros são todos X .
Tente chegar ao gol do prêmio, raspando apenas nas bolas, sem nunca encontrar
um X. A probabilidade de ganhar o prêmio numa cartela como a da figura a
seguir, é: (1/3)×(1/4)×(1/3)×(1/4) = 1/144

prêmio

4a faixa

3a faixa

2a faixa

1a faixa

início

4.2 Tabelas de contingência.

São tabelas que possuem dados classificados em mais de uma categoria ou


tipo de análise. Utilizemos um exemplo para que o uso de tais tabelas seja
praticado.
Suponha que 100 gerentes de diversos setores de grandes empresas de
certa cidade foram consultados em relação a seus respectivos salários. Abaixo as
classificações dos entrevistados em relação ao sexo (masculino ou feminino) e à
faixa salarial (faixa A de salários mais altos, a partir de R$ 5.000,00, e faixa
B de salários inferiores a R$ 5.000,00)
Homens Mulheres Totais
Faixa A 25 15 40
Faixa B 45 15 60
Totais 70 30 100
Se realizarmos o experimento “escolher um(a) gerente aleatoriamente
dentre os 100 que participaram da pesquisa”, podemos reconstruir a tabela com as
devidas proporções, as quais se tornam probabilidades:
Homens Mulheres Totais
Faixa A 0,25 0,15 0,40
Faixa B 0,45 0,15 0,60
Totais 0,70 0,30 1,00

43
Questões possíveis: escolhendo-se uma pessoa ao acaso, calcular a
probabilidade de:
(a) Ser do sexo feminino;
(b) Ser do sexo masculino;
(c) Ser da faixa A;
(d) Ser da faixa B;
(e) Ser do sexo feminino e ser da faixa A;
(f) Ser do sexo masculino e ser da faixa B;
(g) Ser do sexo feminino, sabendo que é da faixa A;
(h) Ser da faixa A, sabendo que é do sexo feminino.

4.3 Exercícios

1. Quatro estudantes de um mesmo curso de uma faculdade costumam vir num


mesmo carro para as aulas. Não se sentindo preparados para a prova de
Estatística, os estudantes resolveram faltar no dia da prova, tentando
enganar o professor ao dizerem que o pneu do carro havia furado, a fim de
que o professor não ficasse furioso. Ao relatarem tal fato na semana seguinte
à prova, o professor pediu para que cada um dos quatro estudantes
escrevesse num pequeno pedaço de papel qual dos quatro pneus havia
furado (dianteiro direito, dianteiro esquerdo, posterior direito ou posterior
esquerdo). Se cada um dos estudantes escolher aleatoriamente um dos
pneus para escrever no papel, qual a probabilidade de que consigam enganar
o professor?

2. Suponha que certa aplicação A tem 80% de chances de ter um rendimento


superior a 1% ao mês, enquanto que a aplicação B tem 60% de chances de
render mais que 1% após um mês. O que pode tornar a aplicação B mais
atraente a um investidor é o fato de que, em seu histórico oscilante, há
meses em que seu rendimento foi consideravelmente superior a 1%. Agripino
aplicará, em determinado mês, uma quantia na aplicação A e outra quantia
na aplicação B. Admitindo que A e B são aplicações cujos índices são
independentes, calcule a probabilidade de que:
a) ambas aplicações rendam mais que 1% nesse mês;
b) apenas uma das aplicações renda mais que 1% nesse mês;
c) nenhuma aplicação renda mais que 1% nesse mês.

3. Suponha agora outro cenário para o problema anterior: Agripino aplicará toda
a quantia financeira em apenas uma das aplicações. Agripino escolherá a
aplicação lançando uma moeda, decidindo pela aplicação A se o resultado for
“cara”, e decidindo pela aplicação B se o resultado for “coroa”. Calcule a
probabilidade de que a aplicação que Agripino fizer lhe dê um rendimento

44
maior que 1%. (Sugestão: caso não esteja conseguindo resolver este
problema, monte um “diagrama de árvore”)

4. Um processo de manufatura produz microprocessadores usando uma nova


tecnologia. Dados históricos mostram que 30% do total fabricado apresentam
algum tipo de defeito e, dessa forma, gera algum tipo de “retrabalho”. A
fábrica possui uma forma de testar um produto ao seu final, de maneira que
ele acerta 80% das vezes em que o produto está realmente com defeito,
enquanto nas ocorrências em que o produto não tem defeito, em 10% dos
casos o teste aponta algum tipo de defeito. O gerente de produção acredita
que a empresa deve investir em um novo tipo de teste para melhor averiguar
os produtos finais, afirmando que esse teste está errando em torno de 30%
das vezes. Você concorda com esse gerente? Justifique sua conclusão através
de cálculos de probabilidades.

5. Uma companhia de petróleo efetuará perfurações em três lugares diferentes,


nos quais foram realizados estudos prévios. Estes estudos foram testes
geológicos que apontaram as seguintes probabilidades de se encontrar
petróleo: 0.70, 0.85 e 0.80 em cada um dos lugares, respectivamente.
Presume-se que a presença de petróleo em qualquer das regiões independe
da presença de petróleo nos outros dois locais.
(a) Qual a probabilidade de se encontrar petróleo nos três lugares?
(b) Qual a probabilidade de não se encontrar petróleo em qualquer dos três
lugares?
(c) Qual a probabilidade de se encontrar petróleo em apenas um dos lugares?

6. 100 investimentos considerados “de risco” foram avaliados de acordo com


dois itens: sua lucratividade e o tempo em que permaneceram aplicados no
mercado financeiro. Os resultados estão dispostos na tabela a seguir (esse
tipo de tabela é conhecido como “tabela de contingência”).

Menos de 2 2 a 5 meses Mais que 5 Totais


meses meses
Lucrativo 2 8 14 24
Não lucrativo 16 35 25 76
Totais 18 43 39 100
Escolhendo ao acaso um desses investimentos, calcule a probabilidade de
que essa aplicação:
(a) Tenha sido lucrativa e tenha durado mais que 5 meses.
(b) Tenha sido lucrativa ou tenha durado mais que 5 meses.
(c) Tenha sido lucrativa, sabendo que durou mais que 5 meses.
(d) Não tenha sido lucrativa.

45
4.4 Respostas dos exercícios

1. aprox. 0,0156 ou 1,56%


2. (a)48% (b)44% (c)8%
3. 0,7
4. A afirmação do gerente não é verdadeira; fazendo o diagrama de árvore, chegamos à
conclusão que o teste tem probabilidade de 87% de acerto.
5. (a) 0,476 (b) 0,009 (c) 0,108
6. (a)14% (b)49% (c)35,9% (d)76%

46
CAPÍTULO V

Probabilidades: Distribuições Binomiais

5.1 Variável aleatória


Segundo Barbetta (2003), variável aleatória é uma “característica
numérica associada aos resultados de um experimento”. Mais formalmente, é uma
“função que associa resultados do espaço amostral ao conjunto dos números
reais”.
Exemplos:
a) número x de caras em 5 lançamentos de uma moeda;
b) número x de pontos obtidos no lançamento de um dado;
c) selecionando 10 de um grande lote de peças, verificar o n° x de peças
defeituosas;
d) observando o comportamento de uma ação no mercado durante 20 dias
úteis seguidos, verificar o número x de vezes que a mesma aumentou seu
valor;
e) efetuar 20 medições de um forno industrial ao longo de um dia, e verificar
quantas delas que ficaram no intervalo [95º,105°];
f) efetuar 20 medições da massa de um produto (cuja embalagem apresenta a
informação “500g”), e verificar quantas delas que ficaram no intervalo
[480g,520g];

• variável aleatória discreta: geralmente originada através de contagem


(em matemática, podemos associá-la aos números inteiros); é o caso dos
pontos no dado, nº de caras, nº de peças com defeito, nº de vezes que a
ação subiu etc.
• variável aleatória contínua: (em matemática, podemos associá-la aos
números reais) geralmente originada através de medição; é o caso de
temperatura, tempo, peso, altura, valores em reais etc.

5.2 O modelo binomial


Condições para que um modelo probabilístico se caracterize como
binomial:
1ª) Um experimento é realizado n vezes, procurando-se analisar a
ocorrência de determinado evento x vezes;
2ª) Cada observação, de um total de n observações, pode ser
classificada somente em uma de duas possibilidades
(sucesso/fracasso, sim/não, verdadeiro/falso, cara/coroa etc.); Na

47
literatura estatística é comum o uso das expressões "Sucesso" e
"Fracasso", que não devem ser entendidas em seu senso comum,
mas sim como "ocorre o evento analisado" e "não ocorre o evento
analisado", respectivamente†.
3ª) A probabilidade de sucesso, em cada observação, vale p, o que nos
leva à conclusão de que a probabilidade de fracasso é 1-p;
4ª) As n observações são independentes entre si, ou seja, o resultado da
primeira observação não interfere no resultado da segunda
observação, e assim por diante (em problemas como “retiradas
sucessivas de uma bola em urna”, deve-se considerar que cada bola
retirada é reposta antes da retirada seguinte).

Observação: As observações possíveis podem ser obtidas através de


dois métodos diferentes de amostragem. Cada observação pode ser
considerada como se tivesse sido selecionada a partir de uma população
infinita sem reposição ou a partir de uma população finita com
reposição.

5.3 Exemplos de distribuições binomiais:

(a) Cremilda quer ter 3 filhos(as). Admitindo que a probabilidade de nascer


menino ou menina é de 50% para cada sexo, Cremilda quer calcular a
probabilidade de nascerem 2 meninas e 1 menino.
(b) Suponha a que uma roleta de cassino tenha metade de suas casas
(numeradas) na cor preta e a outra metade na cor vermelha. Qual a
probabilidade de, em 10 jogadas, a bolinha cair exatamente 7 vezes numa
casa vermelha? E cair até 7 vezes numa casa vermelha (ou seja, no máximo
7 vezes)? E a bolinha cair mais que 7 vezes numa casa vermelha?
(c) Qual a probabilidade de que, numa amostra de 20 pneus do mesmo tipo,
nenhum será defeituoso, sabendo que 8% de todos os pneus produzidos
por uma determinada fábrica são defeituosos? Nesse mesmo problema,
qual a probabilidade de serem escolhidos até 2 pneus defeituosos?
(d) Você prestará um concurso para ser admitido por uma empresa. Uma das
provas é composta de 10 questões tipo “teste”, com 5 alternativas cada. Se
você “chutar” todas as respostas, qual a probabilidade de você acertar
exatamente 5 questões?
(e) Qual a probabilidade de uma determinada ação apresentar elevação no seu
preço de fechamento (numa base diária) nas próximas 10 sessões de
negociação, considerando que as mudanças no preço de mercado são
aleatórias e que, a cada dia, há 70% de chance dessa ação subir?

• † Exemplo: Jogar um dado e calcular a probabilidade de ocorrer face 5; nesse caso, a


probabilidade do sucesso é 1/6 e do fracasso é 5/6, pois sucesso significa ocorrer face 5 e
fracasso significa não ocorrer face 5.

48
5.4 O Cálculo da probabilidade

Para calcular a probabilidade de ocorrer determinado resultado x vezes,


num universo de n realizações de determinado experimento, temos a expressão:
n!
P ( x) = . p x .(1 p) n x
x! (n x)!
Por exemplo: a probabilidade de ocorrer x vezes (0qxq5) a face cara em
5 lançamentos de uma moeda honesta é dada por:
5!
P( x) = .(0,5) x .(0,5) 5 x
x! (5 x)!
A expressão anterior assume o formato a seguir se quisermos calcular a
probabilidade de ocorrer face cara três vezes (em cinco lançamentos):
5!
P(3) = .(0,5) 3 .(0,5) 2
3! (5 3)!
Outro exemplo: a probabilidade de ocorrer x vezes (0qxq5) a face "três"
em 5 lançamentos de um dado honesto é dado por:
5! 5
P ( x) = .(1 / 6) x .(5 / 6) 5 x
x! (5 x)! x

5.5 Comentário para quem estiver interessado nos fundamentos


matemáticos das expressões anteriores: o significado do cálculo
n!
x! (n x)!
Lembra-se da operação “fatorial”? Veja os exemplos:
3!=3.2.1=6
5!=5.4.3.2.1=120
9!=9.8.7.6.5.4.3.2.1=362880
Em relação à parte da fórmula que calcula probabilidades binomiais, tão ou
mais importante do que seu cálculo, é necessário que você entenda o que tal
número significa; o resultado desse cálculo indica o número de maneiras
diferentes de se escolher x coisas dentre um total de n coisas.
5! 5.4.3.2.1
Exemplo: = = 10 ; veja que isso representa o seguinte: há
2! (5 2)! 2.1.3.2.1
10 maneiras diferentes de se escolher 2 coisas dentre 5. Não acredita?
Então faça o teste: vamos escrever 5 letras, A, B, C, D e E. Faça todas as escolhas
possíveis de duas dessas letras; teremos: AB, AC, AD, AE, BC, BD, BE, CD, CE, DE.
Viu só? São 10 combinações possíveis!

5.6 Calculando P(x) com Excel.

Ao mesmo tempo em que vamos mostrar a você o comando que fornece


diretamente o cálculo da distribuição binomial com Excel, vamos resolver um

49
problema que mostre a aplicação das fórmulas acima, e sua conseqüente entrada
de dados nesse software.
Problema: suponha que uma determinada ação tem 50% de chances de
ter seu valor aumentado em cada dia útil e, conseqüentemente, 50% de chances
de manter ou diminuir seu valor. Em três dias seguidos de observação, qual a
probabilidade dessa ação aumentar exatamente 2 vezes o seu valor?
Probabilidade de ocorrer sucesso (aumentar o valor da ação): p = 0,5.
Probabilidade de ocorrer fracasso (diminuir o valor): 1–p=1–0,5=0,5.
Número de eventos: n = 3.
Número de sucessos: x = 2.
Número de fracassos: n – x = 3 – 2 = 1
Probabilidade de ocorrer exatamente 2 sucessos (2 vezes aumento no valor
3!
da ação): P(2) = .(0,5) 2 .(0,5)1
2!.(3 2)!
O resultado é: P(2) = 3.0,25.0,5 , ou seja, P(2) = 0,375 = 37,5%
Para este exemplo, o Excel calculará da seguinte maneira:

=DISTRBINOM(2; 3; 0,5; FALSO)

Para usar o comando DISTRBINOM você também pode procurá-lo junto à


lista de funções (INSERIR FUNÇÃO opção ESTATÍSTICA DISTRBINOM); o
próprio excel irá te ajudar com a explicação do comando, semelhante à seguinte:

DISTRBINOM
(núm;tentativas;probabilidade;cumulativo)
Núm é o número de sucessos.
Tentativas valor de n (total de eventos)
Probabilidade probabilidade de sucesso em cada
tentativa.
Cumulativo FALSO para probabilidade exata,
VERDADEIRO para probabilidade acumulada até o valor “Núm”.

Veja que, no exemplo, temos:


Núm 2
Tentativas 3
Probabilidade 0,5
Cumulativo FALSO

A opção VERDADEIRO, para o item cumulativo, ocorre no caso de se


desejar a somatória de probabilidades menores ou iguais à desejada. No exemplo
anterior, se a pergunta fosse “Em três dias seguidos de observação, qual a
probabilidade dessa ação aumentar até (ou no máximo) 2 vezes o seu valor”,
teríamos que calcular P(0) + P(1) + P(2), ou seja, P(X 2), pois da pergunta se

50
deduz que a ação pode não subir, subir uma vez ou subir duas vezes. No Excel,
basta efetuar o seguinte comando: DISTRBINOM(2; 3; 0,5; VERDADEIRO).
Compare ambas as respostas:
DISTRBINOM(2; 3; 0,5; FALSO) = 0,375
DISTRBINOM(2; 3; 0,5; VERDADEIRO) = 0,875
Em símbolos, no primeiro caso temos P(2) e, no segundo, P(X 2).
Vamos então ampliar o problema com outros números: em 10 dias úteis
seguidos e estimando-se que essa ação tem 70% de chances de ter seu valor
aumentado em determinado dia, calcule a probabilidade de que essa ação
aumente:
(a) exatamente 6 dias: DISTRBINOM(6; 10; 0,7; FALSO)
(b) exatamente 2 dias: DISTRBINOM(2; 10; 0,7; FALSO)
(c) no máximo 3 dias: DISTRBINOM(3; 10; 0,7; VERDADEIRO)
(d) no mínimo 4 dias: 1 – DISTRBINOM(3; 10; 0,7; VERDADEIRO)

5.7 Exercícios

1) Em 5 lançamentos de uma moeda comum, calcule a probabilidade de:


(a) serem obtidas exatamente 2 caras;
(b) serem obtidas até 2 caras;
(c) serem obtidas no mínimo uma cara.

2) Uma urna tem 12 bolas, das quais 9 são verdes, 2 são brancas e uma é
azul. Sorteia-se aleatoriamente uma bola dessa urna, verifica-se sua cor
e devolve-se essa bola na urna. Fazendo-se esse processo três vezes
seguidas, ou seja, retirando-se três vezes com reposição uma bola
dessa urna, calcule a probabilidade de que ocorra:
(a) bola verde nos três sorteios;
(b) não ocorrer bola verde em qualquer dos três sorteios.

3) Suponha que uma determinada ação tem 80% de chances de ter seu
valor aumentado em cada dia útil e, conseqüentemente, 20% de
chances de diminuir seu valor. Em quatro dias seguidos de observação,
qual a probabilidade dessa ação aumentar:
(a) Exatamente 3 vezes o seu valor?
(b) Exatamente 4 vezes o seu valor?
(c) Pelo menos 3 vezes o seu valor?
(d) Pelo menos duas vezes seu valor?

4) Um certo processo industrial produz, no máximo, 10% de itens


defeituosos. Assumindo esse valor como a probabilidade de cada item,
em particular, ser produzido com defeito, calcule a probabilidade de
ocorrerem, numa amostra de 10 itens, três ou mais itens defeituosos.

51
5) Sabe-se que numa linha de produção 10% das peças são defeituosas, e
as peças são acondicionadas em caixas com 5 unidades. Seja x a
variável aleatória igual ao número de peças defeituosas encontradas
numa caixa (observe que x assume valor de 0 a 5). Calcule a
probabilidade de uma caixa qualquer conter:
(a) exatamente 3 peças defeituosas;
(b) duas ou mais peças defeituosas;

6) Qual a probabilidade de que, numa amostra de 20 pneus do mesmo


tipo, nenhum será defeituoso, sabendo que 8% de todos os pneus
produzidos por uma determinada fábrica são defeituosos?

7) No mesmo contexto do exercício anterior, qual a probabilidade de serem


escolhidos até 2 pneus defeituosos? E mais que 5 pneus defeituosos?

8) No transporte de carros novos entre o pátio da montadora e a


concessionária, 3% dos carros transportados sofrem algum tipo de
avaria em sua pintura. Se uma concessionária recebe 50 carros em certo
período, calcule a probabilidade de:
(a) Nenhum dos carros transportados sofrer avarias na pintura;
(b) Dois ou mais carros sofrerem avarias na pintura

9) A companhia Telektronic compra grandes carregamentos de lâmpadas


fluorescentes e usa este plano de amostragem de aceitação: seleciona
aleatoriamente e testa 24 lâmpadas, e aceita o lote todo se há apenas
uma ou nenhuma lâmpada que não funcione. Se um carregamento
particular de milhares de lâmpadas tem uma taxa de 4% de defeituosas,
qual é a probabilidade de que o carregamento todo seja aceito?

5.8 Respostas dos exercícios

1. (a) 31,25% (b) 50% (c) 96,88%


2. (a) 42,19% (b) 1,56%
3. (a) 40,96% (b) 40,96% (c) 81,92% (d) 97,28%
4. 7,02%
5. (a)0,81% (b)8,15%
6. 18,87%
7. 78,79%; 0,38%
8. (a) 21,81% (b) 44,47%
9. 75,08%

52
CAPÍTULO VI

Distribuições de Probabilidades:
Histogramas e Medidas

6.1 Distribuição de Probabilidade; Histogramas de probabilidades.

Recordando, sabemos que uma variável aleatória, geralmente representada


por x, é um valor numérico associado a cada resultado de um experimento.
Exemplos:
a) número x de caras em 5 lançamentos de uma moeda (x vale O, 1, 2, 3, 4
ou 5);
b) selecionando 3 peças de um lote com 10 peças, verificar o n° x de peças
defeituosas (x pode ser 0, 1, 2 ou 3);
c) medir a temperatura de um forno industrial (x pode ser um número real que
varia no intervalo de 25º a 105°.
Estamos ainda no estudo de problemas como os dos itens (a) e (b), que se
tratam de variáveis aleatórias inteiras (“discretas”): geralmente originada através
de contagem (lembre-se do que são números inteiros, em Matemática!). O
exemplo (c), que é um exemplo de variável aleatória real (contínua), será
estudado mais adiante.
Uma distribuição de probabilidades “é um gráfico, uma tabela ou uma
fórmula que dá a probabilidade para cada valor da variável aleatória”.
Exemplo 1: Veja a distribuição de probabilidades para resultados do
experimento “lançamento de um dado” (Triola, p.).

Resultado Probabilidade Resultado Probabilidade


1 1/6 1 0,16667
2 1/6 2 0,16667
3 1/6 3 0,16667
4 1/6 4 0,16667
5 1/6 5 0,16667
6 1/6 6 0,16667

Exemplo 2: Seja o experimento “lançamento de uma moeda 10 vezes”, e


seja a variável aleatória x = número de caras obtido. Veja a tabela de distribuição
de freqüências para esse evento.

53
Número de caras Probabilidades
0 0,0010
1 0,0098
2 0,0439
3 0,1172
4 0,2051
5 0,2461
6 0,2051
7 0,1172
8 0,0439
9 0,0098
10 0,0010

Exemplo 3: A empresa WW calcula continuamente o valor total de suas


vendas semanais. De acordo com os resultados, calculados com valores
aproximados e arredondados, foram obtidas as seguintes probabilidades:
Vendas (em milhares de Probabilidade
R$)
3 0,05
4 0,20
5 0,35
6 0,30
7 0,10
Exemplo 4: A empresa ZZ também calcula continuamente o valor total de
suas vendas semanais. De acordo com os resultados, calculados com valores
aproximados, foram obtidas as seguintes probabilidades:
Vendas (em milhares de Probabilidade
R$)
2 0,05
3 0,10
4 0,15
5 0,20
6 0,30
7 0,10
8 0,05
9 0,05

Note que tais distribuições podem também ser representadas graficamente,


através dos histogramas:

54
Lançamento de um dado

0,2

probabilidades
0,15

0,1

0,05

0
1 2 3 4 5 6
resultados

Lançamento de moeda 10 vezes


Probabilidades

0,3000
0,2000
0,1000
0,0000
0 1 2 3 4 5 6 7 8 9 10
Número de caras

Vendas de WW

0,4
0,35
P ro b ab ilid ad es

0,3
0,25
0,2
0,15
0,1
0,05
0
3 4 5 6 7
Milhares de reais

55
Vendas de ZZ

0,35
0,3

Probabilidades
0,25
0,2
0,15
0,1
0,05
0
1 2 3 4 5 6 7 8
Milhares de reais

Uma observação importante que devemos fazer, ao observar esses


histogramas, é que a região composta por retângulos de maior área, são regiões
onde se tem a maior probabilidade de ocorrência do evento em questão. Ou seja,
o valor que se espera obter nesse experimento geralmente é um valor do eixo x
que se situa nessa região.

6.2 Valor esperado (Média aritmética) de uma variável aleatória.

Imagine a seguinte situação: você irá jogar um dado inúmeras vezes.


Imagine também que a cada resultado está associado o respectivo valor em reais
(face 1 R$ 1,00, face 2 R$ 2,00, e assim por diante, até face 6 R$ 6,00).
Suponha que você vai receber a quantia referente à média de todos os resultados
obtidos. Quanto será que você vai receber? Melhorando a forma de perguntar,
qual será o provável valor que irá receber?
A primeira forma de você desconfiar da resposta é jogando, efetivamente,
um dado por muitas vezes e fazer o cálculo. O autor deste texto fez quatro
simulações com 100 elementos, usando o Excel, de maneira a imitar o lançamento
de um dado 100 vezes; faça você mesmo usando a função
=ALEATÓRIOENTRE(1;6). Realizando 4 simulações dessa forma, a média dos
pontos obtidos em cada uma delas foram as seguintes: 3.6, 3.31, 3.54 e 3.55.
Percebe em torno de qual valor esses quatro resultados se aproximam? Mais uma
dica: a média desses quatro valores é 3.498864...
Ou seja, é possível perceber que a média esperada ao se lançar um dado
inúmeras vezes é 3,5; dizendo de outro modo, falamos que 3,5 é o valor esperado
no lançamento de um dado. Veja que o valor da média não é necessariamente um
valor da variável x (que pode ser 1, 2, 3, 4, 5 ou 6), mas isso não atrapalha o

56
modelo matemático que estamos construindo, uma vez que estamos trabalhando,
em todos os exemplos que seguem, por meio de uma sucessão de determinado
experimento realizada várias vezes (assim como o dado foi lançado inúmeras
vezes, os valores de vendas dos exemplos 3 e 4 também foram coletados a partir
de várias semanas).
Mas qual o cálculo que pode ilustrar o valor 3,5 previamente, sem termos
que lançar um dado inúmeras vezes ou mesmo simular esse procedimento com o
Excel?
O raciocínio é similar ao cálculo de uma média aritmética ponderada; se
lançarmos um dado 600 vezes, o que se espera é que ocorra um valor muito
próximo de 100 vezes a face 1, 100 vezes a face 2, 100 vezes a face 3, 100 vezes
a face 4, 100 vezes a face 5 e 100 vezes a face 6. Veja como seria o cálculo da
média.
100 × 1 + 100 × 2 + 100 × 3 + 100 × 4 + 100 × 5 + 100 × 6
média =
600
Esse cálculo resulta em 3.5, conforme já havíamos imaginado, porém veja
como isso pode ser explicado por meio de probabilidades:
100 × 1 + 100 × 2 + 100 × 3 + 100 × 4 + 100 × 5 + 100 × 6
=
600
100 × 1 100 × 2 100 × 3 100 × 4 100 × 5 100 × 6
+ + + + + =
600 600 600 600 600 600
1× 1 1× 2 1× 3 1× 4 1× 5 1× 6
+ + + + + =
6 6 6 6 6 6
1 1 1 1 1 1
× 1 + × 2 + × 3 + × 4 + × 5 + × 6 = 3,5
6 6 6 6 6 6
Sabemos que 1/6 é a probabilidade de cada resultado em particular.
Formalizando a idéia: cada resultado possível é multiplicado pela sua
probabilidade, e a média (valor esperado) resulta da soma desses
cálculos.
No exemplo 3, o gerente da empresa WW tem uma forte intuição de que as
vendas da próxima semana ficarão em torno de 4 a 6 mil reais; qual será a média
semanal esperada para essa empresa? Basta realizar o cálculo semelhante ao
exemplo anterior do dado, multiplicando cada resultado possível pela sua
probabilidade.

Vendas (em milhares de Probabilidade


R$)
3 0,05
4 0,20
5 0,35
6 0,30
7 0,10

57
µ = 0,05 × 3 + 0,20 × 4 + 0,35 × 5 + 0,30 × 6 + 0,10 × 7
µ = 5,2
Isso significa que 5,2 milhares de reais é o valor esperado das vendas na
próxima semana. Dessa forma, analise a oração anteriormente descrita para
resumir a forma de se efetuar o cálculo: cada resultado possível é
multiplicado pela sua probabilidade, e a média (valor esperado) resulta
da soma desses cálculos. Formalizando, temos:
Sejam x1, x2, ... , xn os resultados possíveis de uma variável aleatória, e
sejam p1, p2, ... , pn as respectivas probabilidades desses resultados. Chamamos
de média ou valor esperado da variável x ao valor µ tal que:
µ = p1 × x1 + p 2 × x 2 + ... + p n × x n
Um resumo para essa fórmula é dado por: µ= pi × xi , ou, para
n

quem é mais exigente na notação matemática: µ= pi × xi


i =1

6.3 Variância e Desvio Padrão

Utilizemos o exemplo 3, das vendas da empresa WW, a fim de retomarmos


a noção de variância e de desvio padrão. Sabendo que sua média (valor
esperado) é 5.2, mas supondo que não conhecemos o restante da distribuição,
pergunta-se: a probabilidade de ocorrer o valor 6.3 para as vendas é alta, média
ou baixa?
Note que, sem conhecer o formato da distribuição, fica difícil arriscar um
palpite. Isso porque não sabemos o quão espalhadas são as possibilidades em
torno da média. Se tivermos um histograma mais concentrado (barras mais altas e
próximas), boa parte dos resultados possíveis fica mais próxima da média,
enquanto um histograma com probabilidades mais diluídas em vários retângulos
afastados da média, faz com que imaginemos uma variação maior das
possibilidades.
Ou seja, concluímos que é necessário continuarmos com a idéia de desvio
padrão para medir o espalhamento dos possíveis resultados de nossa distribuição.
Assim como estudamos na Estatística Descritiva, a Variância, denotada por 2 , é
o quadrado do desvio padrão. Usaremos, a partir desta lição, as letras gregas ,
para o desvio padrão da população, e µ para a média da população (em
contraposição a S e X , que são usadas em amostras). Valem as seguintes
fórmulas:

VARIÂNCIA:
2
= (p
i ( xi µ )2 )

DESVIO PADRÃO: = pi ( xi µ )2
58
Não abordaremos aqui a explicação matemática dessa formulação, porém
vamos intensificar a forma de usar e entender esse resultado; lembre-se que a
primeira idéia de desvio padrão que deve vir ao seu pensamento ao lhe ser
solicitado um significado é: “medida de espalhamento”. É uma espécie de “média”
dos desvios de cada valor em relação à média. Quanto maior o desvio padrão,
mais afastados da média estão os valores; reciprocamente, quanto menor o desvio
padrão, mais concentrados em torno da média estão os dados.

6.4 Média e Desvio Padrão para Distribuições Binomiais


No caso de distribuições binomiais, as fórmulas, decorrentes das anteriores,
são bastante simples:

µ = n. p
= n. p.(1 p )
Nessa fórmula, n é o número de eventos, e p é a probabilidade de sucesso.
No exemplo do lançamento de 10 moedas, em relação ao número de caras, temos:
1
µ = n.p = 10. = 5 ; e 5 não é realmente o resultado mais provável?
2
Para o desvio padrão, temos:
E = n.p.(1 - p) = 10.0,5.(1 - 0,5) 1,58

6.5 Exercícios

1. O lucro líquido da empresa para o ano que vem foi estimado de acordo com
as seguintes probabilidades:
Cenário Lucro (em Probabilidade
milhões de u. m.)
Excelente 10 20%
Bom 5 40%
Sofrível 1 25%
Ruim -4 15%
Calcule o valor esperado de lucro dessa empresa. Calcule também o desvio
padrão.

59
2. Um analista de mercado estimou que os preços da ação GHTW para os
próximos doze meses é a variável aleatória registrada na tabela seguinte.
(a) Calcular o valor esperado e o desvio padrão.
(b) Determine o primeiro intervalo da regra empírica para o desvio padrão.

Preço Probabilidade
$ 10 10%
$ 14 25%
$ 19 35%
$ 24 20%
$ 30 10%

3. Suponha que você tem em mãos uma moeda viciada, ou seja, uma moeda
na qual as probabilidades para cada resultado não são iguais (ou seja, não
são de 50% para cada face). Sabendo que esta moeda tem 25% de
chances de sair cara:
(e) Calcule a probabilidade de, em 10 lançamentos, ocorrer exatamente
2 caras.
(f) Calcule a média (valor esperado) para a variável “o número de caras
a serem obtidos em 10 lançamentos”.
(g) Calcule o desvio padrão para a variável do ex. (b).
(h) “É improvável que ocorram exatamente 8 caras em 10 lançamentos
dessa moeda”. Mostre como o item (c) pode ser utilizado para
explicar a essa afirmação.

4. Dados anteriores mostram que 10% dos pacotes de frango congelados


comercializados pela empresa NNN passam do prazo de validade ainda nas
prateleiras de supermercados ou lojas do ramo (localizados numa grande
cidade). Escolhe-se 15 pacotes aleatoriamente nesses estabelecimentos de
comércio, a fim de se fazer uma análise do número de pacotes com data
vencida. Utilize o conceito de média (valor esperado) e de desvio padrão de
uma distribuição binomial para avaliar se é provável, pouco provável ou
improvável que ocorra:
(a) Exatamente 6 pacotes vencidos;
(b) Exatamente 4 pacotes vencidos;
(c) Exatamente 2 pacotes vencidos;
(d) Exatamente 1 pacote vencido;
(e) Nenhum pacote vencido.

60
6.6 Respostas dos exercícios

1. A média é 3,65 milhões u.m.; o desvio padrão é de 4,396 milhões u.m.


2. (a) µ = $18,95 e = $5,61 (b) [$13,34; $24,56]
3. (a) 28% (aprox.) (b) 2,5 caras (c) 1,37 caras (d) o resultado 8 para a variável
aleatória em questão ultrapassa o 3º intervalo da regra empírica, ou seja, está além de 3
desvios padrão da média (cujo valor é 6,61); portanto, é um dado discrepante, de pequena
probabilidade de ocorrência.
4. Calculando primeiramente a média e o desvio padrão, temos µ = 1,5 e = 1,16 ;
(a) Improvável, pois 6 é um resultado que está além de 3 desvios, já que 1,5+3.1,16 = 4,98
(b) pouco provável, pois está além de 2 desvios, embora menos de 3 desvios (se ocorrer, será
considerado suspeito)
(c) resultado normal, está próximo da média, a menos de um desvio da mesma.
(d) idem anterior
(e) não é difícil ocorrer; embora esteja no segundo intervalo da regra empírica, o valor zero
está um pouco além de um desvio padrão da média, já que 1,5 – 1,16 = 0,34.

61
CAPÍTULO VII

Distribuições Normais Probabilidades:


A famosa Curva de Gauss

7.1 Introdução: histograma de probabilidades

Retomemos a distribuição de probabilidades discretas, a partir do seguinte


exemplo: jogar uma moeda dez vezes, e observar a distribuição de probabilidades
da variável X = número de caras obtidas.
Note que o número de caras é um valor que vai de 0 a 10, porém a
probabilidade de ocorrerem 10 caras não é a mesma de ocorrerem 7 caras. Veja o
porquê disso.
10
Nenhuma cara: P(0) = .(0,5) 0 .(0,5)10 = 0.0009765625 0,098% .
0
10
7 caras: P(7) = .(0,5) 7 .(0,5) 3 = 0.1171875 11,72%
7
Veja que os cálculos específicos de probabilidades resultam em (0.5)10, mas
P(7) é maior porque há muitas maneiras de ocorrerem 7 caras e 3 coroas, ao
contrário de nenhuma cara; só há uma maneira de ocorrer nenhuma cara (ou seja,
10 coroas): cccccccccc. Porém, há 120 maneiras de ocorrerem 7 caras e 3 coroas
(o binomial (10,7) indica isso!). Veja alguns exemplos: kkkkkkkccc,
kkcckkkkcK, kkckkckkck, ckkkkkkkcc. Estas são 4 das 120 possibilidades de
ocorrerem 7 caras e 3 coroas, por isso sua probabilidade é maior.
Qual é o resultado mais provável? Seguindo a intuição que nos leva a crer
em 50% das possibilidades para cada face da moeda, inclusive em termos de
vários lançamentos, temos que 5 caras e 5 coroas seria o resultado com maior
probabilidade de ocorrer.
10
P(5) = .(0,5) 5 .(0,5) 5 = 0.2460938 24,61%
5
Como observar todas as probabilidades? Uma forma é, sem dúvida, fazer
todos os cálculos; porém, a forma mais prática é observarmos o histograma com
todas essas probabilidades (ver figura na próxima página).
Perceba que a coluna mais alta está na região em torno de X=5, e sua
altura é a respectiva probabilidade aproximadamente igual a 0,24. Verifique
também as probabilidades mostradas neste texto, ou seja, P(0) e P(7).
Observação importante: perceba que a área correspondente a todo o
histograma tem valor 1 (ou seja, 100%). Isso é exclusividade deste exemplo? É

62
claro que não! Todo histograma de probabilidades terá essa característica, ou seja,
delimitar uma região que possui área igual a 1.

Lançamento de moeda 10 vezes


Probabilidades

0,3000
0,2000
0,1000
0,0000
0 1 2 3 4 5 6 7 8 9 10
Número de caras

7.2 Variáveis aleatórias contínuas

Comparando com um pouco mais de profundidade as variáveis discretas e


contínuas, podemos observar o seguinte:
- variáveis discretas (valores inteiros) geralmente têm origem em
processos de contagem: nº de pontos no dado, nº de peças com defeito, nº de
vezes que uma ação subiu, nº de caras em vários lançamentos de moeda etc.
- variáveis contínuas (valores reais) geralmente têm origem em
processos de medição; alguns exemplos: tempo para descarregamento de um lote
varia de 14min a 33min; a largura de placas de aço produzidas em determinado
processo de temperatura variável varia de 52,2 mm a 65,8 mm; na produção
agrícola, interessa saber a variação pluviométrica de determinada região, em
determinada época do ano; temperatura de certo forno industrial pode variar de
500ºC a 900ºC; volume de combustível (gás, óleo, gasolina) gasto em processos
de queima (de cimento, de cerâmicas) ou de aquecimento (produção alimentícia);
volume contido em embalagens de certo produto vendidos no atacado podem ser
avaliados por uma entidade de defesa do consumidor; tempo de vida útil de
determinado sistema hidráulico.
Alturas, pesos, tempos, temperaturas, volumes... aqui, a probabilidade faz
sentido para intervalos, pois a probabilidade específica de um determinado valor é
definida como zero. Procure não estranhar tanto esse fato, através desse exemplo:
numa população de 1000 pessoas, qual a probabilidade de escolhermos uma
aleatoriamente que tenha altura 1,756 m de altura?

63
Nesse tipo de cálculo de probabilidades, fará sentido calcularmos, por
exemplo, uma probabilidade de encontrarmos uma pessoa que tenha entre 1,73 e
1,76m de altura.

7.3 A Distribuição Normal

Depois de analisarmos vários histogramas parecidos com aquele


apresentado nesta página, já possuímos uma visão mais ampla do que esse
desenho representa: uma distribuição (de dados ou probabilidades) que possui sua
concentração em torno da média aritmética, a qual situa-se, de maneira geral,
no centro desse desenho.
Intitulada como função de densidade de probabilidade normal, ou
curva de Gauss, o gráfico a seguir ilustra inúmeros fenômenos que são muito
importantes e são diariamente estudados em engenharia, finanças, ciências sociais

-3 -2 -1 0 1 2 3

e processos diversos que fazem parte do cotidiano de muitos administradores de


empresas.
Tomemos mais alguns exemplos simples:
a) Suponhamos que as alturas de 500 pessoas que estudam numa
faculdade possuem uma média de 1,70m, e desvio padrão de 0,10m.
Não é difícil imaginar que há muitas alturas que estão próximas desse
valor (o que nos leva novamente à concentração em torno da média), e
poucos valores afastados dela (pessoas com 1,40m ou 2,00m são
minoria).
b) Supondo que seu horário de trabalho é fixo e que entra todo dia às 8h
da manhã, qual é, em média, o horário em que você chega para

64
trabalhar? Geralmente às 7h50, mas às vezes um pouco antes, um
pouco depois, raramente às 8h10 ou 7h30...
c) O peso um pacote de salgadinhos deve ser 200g. Registros indicam que,
em inúmeras pesagens, verificou-se que o peso médio verificado
realmente é 200g, mas há inúmeras medidas observadas: 198.2, 200.6,
200.2, 199.5, 198.6, 199.4, e assim por diante.

7.4 Principais propriedades da Distribuição Normal

a) É simétrica e tem o formato de um sino;


b) A área sob a curva vale 1;
c) Comparando curvas: na figura à esquerda, é possível identificar curvas com
médias diferentes, mas mesmo desvio padrão; já na figura à direita, curvas
com mesma média, mas desvios padrão diferentes (a curva mais alta tem
dados mais concentrados, ou seja, desvio padrão menor).

d) O eixo horizontal possui infinitos valores, porém, na prática, seu estudo se


concentra no intervalo de –3 a +3. Mas, que valores são esses?
São os valores Z, padronizados para quaisquer distribuições com a fórmula
a seguir:
X µ
Z=

65
Nessa fórmula, usávamos X como média da amostra, mas os livros de
estatística costumam representar por µ a média esperada da população. A mesma
mudança ocorre para o desvio padrão: ao invés de usarmos S, que era o desvio
padrão da amostra, usaremos a letra que representa o desvio padrão da
população. No exemplo (a) das alturas temos o eixo Z padronizado da seguinte
forma:

-3 -2 -1 0 1 2 3
1,40 1,50 1,60 1,70 1,80 1,90 2,00

Escolhendo-se uma pessoa ao acaso, qual a probabilidade de ela ter:


a) mais que 1,70m?
b) mais que 1,80m?
c) entre 1,60m e 1,80m?
Note que para se responder o item (a), não é necessário muito esforço:
50% é a resposta, já que a região a que se refere a pergunta é metade da região
completa, uma vez que 1,70 é a média.
A resposta do item (b) é o valor da área sob a curva representada pela
região situada a partir do valor 1,80m ou, em termos de valor padronizado Z, na
região referente a Z>1 (pois 1,80 está a um desvio padrão da média).
A resposta do item (c) é o valor da área sob a curva representada pela
região situada entre –1 e 1 (ou seja, para 1,60<X<1,80) ou, em termos de valor
padronizado Z, na região referente a –1<Z<1 (veja que 1,60 está a um desvio
padrão abaixo da média: Z=(1,60–1,70)/10).

66
Veja a seguir os desenhos referentes a essas probabilidades.

-3 -2 -1 0 1 2 3
Probabilidade para Z > 1

-3 -2 -1 0 1 2 3

Probabilidade para –1 < Z < 1

Como calcular tais probabilidades? É o que veremos em nosso último item


(antes dos exercícios, é claro).

67
7.5 Como calcular a probabilidade de um intervalo a partir do(s)
valor(es) Z de seu(s) extremo(s).

1ª FORMA: Excel
Tomemos como exemplo a questão (b), que pede a probabilidade de
escolher uma pessoa com mais de 1.80m. Veja o comando a seguir, e seu
respectivo resultado:
DIST.NORM(1,80;1,70;0,10;VERDADEIRO)
Resposta: 0,8413447
Através desse comando, você não precisa calcular o valor Z. Veja a ajuda
do Excel para uma explicação detalhada:

DIST.NORM(x;média;desv_padrão;cumulativo)

X : é o valor cuja distribuição você deseja obter.

Média : é a média aritmética da distribuição.

Desv_padrão : é o desvio padrão da distribuição.

Cumulativo : é um valor lógico que determina a forma da função. Se cumulativo


for VERDADEIRO, DIST.NORM retornará a função cumulativa de distribuição;
se for FALSO, ele retornará a função massa de probabilidade.

1,80 1,70
Porém, sabendo o valor Z, ou seja, executando o cálculo Z = z
0,10
= 1, você terá o comando simplificado: Com isso, basta digitar:
DIST.NORMP (1)
Resposta: 0.8413447
Voltemos ao exemplo: é claro que tal probabilidade não deve ser de
84,13%. O que o programa fez foi calcular a área que se situa antes do valor
1.80m. Logo, o usuário do software deve subtrair de 1 esse valor. Isso pode ser
feito diretamente no software, digitando:
1 – DIST.NORMP (1)
Resposta: 0.1586553
Ou seja, a área à frente do valor Z=1 vale 0,1586553, o que dá a
probabilidade aproximada de 15,87.
Veja que se perguntássemos a probabilidade de uma pessoa ter menos que
1.80m de altura, a resposta seria aquela primeiramente obtida, ou seja:
DIST.NORMP (1)
Resposta: 0.8413447
Mais uma observação: devido à simetria da curva gaussiana, a
probabilidade da medida ser menor que 1.60m é a mesma que ser maior que

68
1.80m (as regiões são iguais!). Como 1.60m tem seu valor z= –1, entendemos que
a probabilidade para z > 1 é igual a probabilidade para z < -1:
DIST.NORMP (-1)
Resposta: 0.1586553
Para calcular o valor da probabilidade do exemplo (c), ou seja, para –1 < Z
< 1, temos as seguintes formas:
> 1-2*DIST.NORMP(-1)
Resposta: 0.6826895

> DIST.NORMP(1) – DIST.NORMP(–1)


Resposta: 0.6826895

2ª FORMA: TABELA DE VALORES (não será usado em aula)

Calcula-se o valor Z através da fórmula anteriormente revista, e busca-se o


valor da respectiva área através da tabela que consta na página seguinte. Na
primeira coluna está o valor inteiro de Z juntamente com sua primeira casa
decimal. A primeira linha tem os valores da segunda casa decimal de Z; fazendo o
cruzamento de linha com coluna, obtém-se a área desejada, que vem desde e
vai até o valor Z em questão.
Exemplo: para z=1,25, toma-se o valor 1,2 da primeira coluna e a decimal
0,05 na primeira linha. A área correspondente está no cruzamento desses dois
valores: 0,8944, ou seja, a área (probabilidade) vale 89,44%. Note que essa área
se refere a toda região anterior ao valor 1,25.
E se você quiser saber a região situada entre a média 0 e o valor 1,25?
Basta subtrair 0,5, que é a metade da região determinada pela gaussiana, ou seja,
0,8944 – 0,5 = 0,3944.
E se você quiser saber a área menor que – 1,25? Basta fazer 1 – 0,8944 =
0,1056. Recomendação: vale a pena esboçar um desenho simples da curva de
Gauss para poder responder com segurança a essas perguntas. Dessa forma, você
usará a simetria dos valores e do desenho de forma simultânea, diminuindo (e
muito) a probabilidade de erro.

69
Segunda decimal de Z
Z

7.6 Exercícios

1. Suponha que as notas de uma prova para concurso público tenham


distribuição normal com média 60 pontos e desvio padrão 15 pontos.
a) se você realizou essa prova e obteve nota 80 pontos, qual é a sua posição
relativa, em unidades de desvios padrão, com relação à média das notas?
b) Se foram considerados aprovados os candidatos que obtiveram nota mínima
correspondente a 1 (um) desvio padrão acima da média, qual é a nota
mínima de aprovação na escala original?

2. Admitamos que a altura X de estudantes da Faculdade tenha distribuição


normal com 170cm de média e desvio padrão 10cm (exemplo feito em
sala). Calcule as seguintes probabilidades:
a) P(x>190)

70
b) P(150<x<190)
c) P(150<x<180)

3. Suponha que o tempo de resposta na execução de um algoritmo é uma


variável aleatória com distribuição normal de média 23 segundos e desvio
padrão de 4 segundos. Para uma nova execução desse algoritmo, calcule:
a) a probabilidade de o tempo de resposta ser menor do que 25 segundos;
b) a probabilidade de o tempo de resposta ficar entre 20 e 30 segundos.

4. As despesas mensais com alimentação em uma família de quatro pessoas


numa cidade grande giram em torno de $ 420,00 u.m. (unidades
monetárias), com desvio padrão de $ 80,00 u.m. e com a suposição de que
essas despesas sejam distribuídas de modo normal. Dentre todas as famílias
que se encontram nas condições relatadas, qual a porcentagem esperada
dessas famílias cujas despesas:
a) são menores que $ 350,00 u.m.?
b) estão entre $ 250,00 u.m.e 350,00 u.m.?
c) são menores que $ 250,00 u.m.ou são maiores que 450,00 u.m.?
d) uma pergunta invertida: há um valor (em unidades monetárias) para o qual
existem 67% dos dados menores que ele; determine esse valor.

5. Uma análise estatística de 1000 chamadas telefônicas de longa distância


feita nos escritórios de uma grande empresa indicou que a duração dessas
ligações se distribui normalmente com média 240 segundos e desvio padrão
40 segundos.
a) que porcentagem dessas chamadas durou menos de 180 segundos?
b) qual é a probabilidade de que uma determinada chamada tenha durado
entre 180 e 300 segundos?
c) qual é a probabilidade de que uma determinada chamada tenha durado
entre 110 e 180 segundos?
d) Qual é a duração de determinada chamada se somente 1% de todas as
chamadas foi menor que ela?

6. Num lote de 600 peças, as massas dessas peças têm distribuição normal,
com média de 65,3g e desvio padrão de 5,5g. Encontre o número esperado
de peças com massas:
d) entre 60,0 e 70,0g;
e) superiores a 63,2g.
f) há um valor, em gramas, para o qual espera-se que apenas 10% das
peças tenham massa menor que ele. Determine esse valor.

7. Uma máquina automática para encher garrafas está regulada para que o
volume médio de refrigerante em cada garrafa seja de 2 litros e o desvio

71
padrão de 20ml. Pode-se admitir que o volume de refrigerante nas garrafas
tenha distribuição normal.
a) qual a porcentagem de garrafas em que o volume de refrigerante é
inferior a 1965 ml?
b) Se as garrafas são embaladas em pacotes com 6 unidades cada um,
qual a probabilidade de que um pacote, escolhido aleatoriamente,
contenha pelo menos uma garrafa com volume de refrigerante
inferior a 1965 ml?
c) Sabendo-se que um supermercado vende em média por semana
2500 dessas garrafas de refrigerante, com desvio padrão de 80
garrafas e distribuição normal, de quantas garrafas deve ser o seu
estoque semanal para que a probabilidade de que falte esse tipo de
refrigerante numa determinada semana seja de apenas 3%?

7.7 Respostas dos exercícios

1.
(a) 1,33 desvio acima da média (b) 75

2.
a) P(x>190) = 0.02275013 (aprox. 2,28%)
b) P(150<x<190) = 0.9544997 (aprox. 95,45%)
c) P(150<x<180) = 0.8185946 (aprox. 81,86%)

3.
a) P(x<25) = 0.6914625 (aprox. 69,15%)
b) P(20<x<30) = 0.7333135 (aprox. 73,33%)

4.
a) Aqui há diferenças possíveis entre as resoluções. Veja:
Com o Excel: DIST.NORMP(-0.875) = 0.1907870
Com a tabela: 18,94% (arredondamento “para cima”, na tabela. Por exemplo: 0,875
arredondei para 0,88).
b) Com o Excel (veja que fácil!):
DIST.NORMP(- 0.875) - DIST.NORMP(-2.125) = 0.1739936 (aprox. 17,40%)
Com a tabela:
P(250<x<350) = (b)17,28% (arredondamento feito da mesma forma que em (a))
c) P(X<250 ou X> 450,00)
Com o Excel (veja que fácil!): DIST.NORMP(-2.125)+(1- DIST.NORMP(0.375)) = 0.3706235
(aprox. 37,06%)
Com a tabela:
P(X<250 ou X> 450,00) = 36,86% (idem)

d) Este item é mais fácil de ser feito com a tabela (com o Excel também é possível, porém são
necessárias algumas tentativas): a resposta é 455,20 u.m.

5.
a) P(X<180)=0.0668072 (aprox. 6,68%)
b) P(180<X<300)= 0.8663856 (aprox. 86,64%)
c) Com tabela: P(110<X<180)= aprox. 6,66%

72
Veja com é fácil no Excel: DIST.NORMP(-1,5) - DIST.NORMP(-3.25) = 0.06623018
d) Isso significa que a área correspondente é 0,01. Procuremos na tabela (ou no R) o valor Z
para o qual a área vale 0,99 (que é o complementar). O valor mais adequado da tabela é
0,9901, cujo valor Z é 2,33. Entendendo o que isso significa: 99% dos possíveis tem valor
Z menor que 2,33. Por simetria (faça o desenho!), 1% dos dados têm valor Z menor que -
2,33. Resolvendo uma equação com a fórmula do valor Z, chegamos a X=146,8, ou seja,
147 segundos.

6.
a) 380
b) 389
c) A forma de resolução é idêntica à do item (d) do ex. anterior. Observe que o valor
Z, procurado na tabela, que melhor o auxilia a responder a pergunta é Z= 1,28, o
qual deverá ser usado em seu valor negativo (no Excel você pode usar diretamente
o valor -1,28). A resposta é: 58,26g

7.
a) 4%
b) 0,2172
c) 2650

73
CAPÍTULO VIII

Distribuições Amostrais
8.1 Distribuições Amostrais para Média Aritmética

Neste item trabalharemos com uma técnica estatística bastante útil para
processos em administração: distribuições de probabilidades geradas por meio de
várias amostras. Observe que a técnica de amostragem é extremamente usada em
diversas situações: ao experimentar uma pequena porção de arroz, enquanto está
ainda na panela, você tem idéia se acertou ou não na quantidade de sal e
tempero, sem precisar comer todo o conteúdo da panela. Outro exemplo: não é
necessário (talvez nem possível) que todos os pneus (parafusos, livros, cd’s,
lapiseiras, pacotes de bolacha etc) de uma linha de fabricação sejam coletados, a
fim de se observar a presença ou não de um determinado tipo de defeito; alguns
são escolhidos aleatoriamente a fim de verificar qual é a proporção de defeitos.
Iniciemos realçando duas nomenclaturas: parâmetro é uma medida
numérica (média, mediana, desvio padrão etc) que descreve uma população;
estatística é uma medida numérica que descreve uma amostra. Continuaremos a
usar a letra grega µ para indicar a média da população (que é um parâmetro), e
passaremos a usar a notação X para a estatística de uma amostra.
Para que você entenda o processo de se fazer uma distribuição de
probabilidades por meio de amostras, iniciaremos, assim como já o fizemos outras
vezes, com um exemplo simples de um dado; mais adiante expandiremos o
raciocínio construído para problemas contextualizados.

Exemplo 1:
Suponha que um jogo de apostas consiste no seguinte procedimento: uma
pessoa joga um dado por quatro vezes seguidas e, em seguida, é calculada a
média aritmética dos pontos que obteve nas faces voltadas para cima. Cada ponto
vale R$ 1,00. Qual é o valor mais provável que uma pessoa pode receber?
Antes de resolver esse problema, vamos retomar um conceito trabalhado
em Estatística I, conhecido como esperança matemática; na ocasião, usamos o
título “valor esperado de uma variável aleatória discreta”. Se pensarmos
apenas no lançamento de um dado, multiplicamos cada valor possível, em reais,
pela respectiva probabilidade de ocorrência desse valor:
1 1 1 1 1 1
E = ×1 + × 2 + × 3 + × 4 + × 5 + × 6 E = 3,5
6 6 6 6 6 6

74
Em símbolos, a definição de valor esperado‡ ficou: E= (x i .P(x i ))
Ou seja, o mais provável de acontecer é você receber um valor próximo a
R$ 3,50. Hei !!! Mas não há face 3,5 no dado!!!
É verdade que não há face 3,5 no dado, mas também é verdade que não se
costuma fazer amostragem retirando-se apenas um elemento de uma população.
Voltemos então ao problema original, com uma situação mais ampla: dez pessoas
vão participar do jogo, ou seja, cada uma das dez pessoas irá lançar um dado 4
vezes para, em seguida, calcular a média aritmética dos quatro lançamentos, para
cada pessoa.
Através de um software estatístico (com o Excel isso também é possível)
foram realizadas algumas simulações para quatro lançamentos de um dado. Veja
os resultados, e respectivas médias:

Valores médias
2442 3
2613 3
6353 4,25
5115 3
4153 3,25
5242 3,25
1644 3,75
1453 3,25
6436 4,75
3644 4,25

Observe as médias obtidas em cada simulação de lançamento de 4 dados,


de forma similar à apresentada anteriormente; em seguida, veja a média geral
obtida a partir das médias de cada amostra:
3 + 3 + 4,25 + 3 + 3,25 + 3,25 + 3,75 + 3,25 + 4,75 + 4,25
X =
10

X = 3,575
Portanto, veja que os valores apresentados pelas médias amostrais nos
indicam que a tendência, ou seja, o resultado provável (valor esperado, ou
esperança matemática) situa-se nas proximidades de R$ 3,50.
Assim, com as médias das amostras construímos a distribuição de
freqüências das mesmas, conhecida como distribuição amostral, que tem,
teoricamente, média amostral igual à média da população, embora o desvio


No exemplo do dado, temos E= (x i .P(x i )) = x 1 .P(x1 ) + x 2 .P(x 2 ) + ... + x 6 .P(x 6 ) .

75
padrão seja diferente: chamaremos de erro padrão o desvio padrão da
distribuição amostral, que é calculado com a seguinte fórmula:

X
=
n
Nessa expressão, entenda-se que é o desvio padrão da população (note
que estamos assumindo como conhecidas a média e o desvio padrão da
população); a notação X , conhecida como erro padrão, é o desvio padrão das
amostras selecionadas, enquanto que n é o tamanho de cada amostra (cuidado
para não confundir com o número de amostras; este, por sua vez, deve ser
grande, quanto mais amostras, melhor confiabilidade na média amostral e no erro
padrão).
Para trabalhar com o cálculo de probabilidades (com ou sem o Excel), a
fórmula para achar o valor Z da média da amostra ficará assim:
X µ X µ
Z= , ou seja,
Z=
X
n

Retome o exemplo das amostragens feitas com os dados: perceba que se


forem feitas inúmeras amostras de dez dados, por exemplo, haverá um
comportamento semelhante acontecendo com a média aritmética, já que teremos
inúmeros valores bastante próximos a ela. O que concluímos com esse fato é de
extrema importância: a forma como essas médias se distribuem se
comporta conforme o modelo normal. Esse processo de amostragem,
oriundo de uma distribuição uniforme (como o exemplo de um dado) ou
de uma distribuição que tende à normal, como apresentado aqui e em
aula, nos leva a utilizar o modelo normal para a realização de cálculos e
previsões.

Exemplo 2: A ser resolvido em aula.


Os registros históricos de produção de frascos com detergente mostram
que o volume de enchimento realizado pela máquina automática é normalmente
distribuído com média 150cm³ e desvio padrão 0,50cm³. Se for retirada uma
amostra de tamanho n=9, qual a probabilidade da média desta amostra ser menor
ou igual a 149,75cm³?

8.2 Teorema do Limite Central

Você percebeu que, no exemplo 1, a distribuição amostral se referia a uma


curva normal, correto? Mas, se fôssemos lançar um dado inúmeras vezes, a
distribuição de freqüências das faces não obedeceria a uma curva normal, mas

76
seria um gráfico com o formato de uma distribuição uniforme, já que as
chances de ocorrer cada uma das faces são iguais.
Para “piorar” essa situação, perceba que podemos fazer amostras a partir
de dados que não tenham sua variável se comportando de maneira normal
(gaussiana); a palavra “piorar” está entre aspas pelo seguinte fato:

Teorema do Limite Central§

À medida que o tamanho da amostra (nº de observações em


cada amostra) se torna suficientemente grande, a distribuição
de amostragem da média aritmética pode ser aproximada pela
distribuição normal. Isto é verdadeiro, independentemente do
formato da distribuição dos valores individuais na população.

Ou seja, mesmo que a população tenha seu parâmetro não se comportando


dentro do modelo normal, fazendo-se várias amostras de tamanho n
suficientemente grande (os estatísticos sugerem n>30), essa distribuição amostral
é tomada como normal.

8.3 Exercícios

1. O gerente de uma agência bancária verificou que, em determinado período


considerado crítico por economistas, o saldo médio das contas correntes era
de R$325,00 e o desvio padrão R$114,00. Retirando-se uma amostra
aleatória de 100 contas correntes:
g) qual a probabilidade da média dos saldos ser menor ou igual a
R$330,00?
h) qual a probabilidade da média dos saldos médios ser maior ou igual a
R$ 350,00?

2. O fabricante de pneus assegura que a duração do pneu mais vendido tem


média 60.000 km com desvio padrão 5.000 km. Como os distribuidores não
estão convencidos, o fabricante ofereceu aos revendedores a oportunidade
de separar, aleatoriamente, 40 pneus para verificar os resultados afirmados
pelo fabricante.
a) se afirmação do fabricante é verdadeira, qual a porcentagem de
pneus, do total fabricado, têm duração entre 55.000 km e 65.000
km?
b) se afirmação do fabricante é verdadeira, qual é a probabilidade de
que a amostra de 40 pneus tenha duração média entre 55.000 km
e 65.000 km? Analise o resultado.

§
Texto do teorema extraído de Levine et al (2000)

77
c) se afirmação do fabricante é verdadeira, qual é a probabilidade de
que a amostra de 40 pneus tenha duração média entre inferior a
57.500 km? Analise o resultado.

3. Uma montadora de carros afirma que a média de consumo do seu novo


modelo tem distribuição normal com média de 15,9 km por litro e desvio
padrão de 0,8 km por litro.
a) Calcular a probabilidade da média de uma amostra de tamanho 25
ser menor ou igual a 15,5 km/litro.
b) Suponha que uma amostra aleatória de 25 carros fabricados na
mesma época apresentou média amostral de 15km/litro. Você
acredita que a declaração da montadora deva ser aceita?

8.4 Respostas dos Exercícios


1. (a) 67% (b)1,43%
2. (a) 68,26% (b) 100% (c) 0,08%
3. (a) 0,62% (b) A média da amostra é possível, porém pouco provável; talvez seja mais
razoável acreditar que os parâmetros da população mudaram ou então que há algum erro
na afirmação ou nos resultados divulgados.

78
CAPÍTULO IX

Intervalos de Confiança para a Média:


desvio padrão conhecido

9.1 Inferência estatística

“O objetivo da inferência estatística é a obtenção de informações sobre


aspectos de uma população de interesse (parâmetros) por meio de resultados
obtidos na observação de uma ou mais amostras extraídas dessa população” (Ara
et al, p. 55).
Lembrando que parâmetro é uma medida que descreve uma população e
que estatística é uma medida que descreve uma amostra, interessa-nos, a partir
de valores obtidos numa amostra, estimar, com considerável nível de confiança,
um intervalo de valores extremos para os quais é razoável supor que as medidas
da população nele se encontram.

9.2 Uma expressão para o Intervalo de Confiança

Um exemplo típico: deseja-se estimar a largura média de um tipo de peça.


Para isso considerou-se uma amostra de 25 peças e obteve-se uma largura média
igual a 5,2cm. Sabendo-se que para a variável “largura” o desvio padrão é de
0,5cm e que esses dados são distribuídos normalmente, construa um intervalo de
valores que contenha a verdadeira média, com 95% de confiança.
A expressão “95% de confiança” indica aquilo que chamamos de nível de
confiança, o que pode ser entendido como o intervalo de valores da distribuição
amostral que tem 95% de probabilidade de conter o verdadeiro parâmetro da
população. A literatura em Estatística também usa a expressão “nível de
significância”, simbolizado por , que é a probabilidade complementar à de
confiança, ou seja, a probabilidade de erro. Ou seja, “construir um intervalo de
valores com 95% de confiança” ou “construir um intervalo de valores com =5%
como nível de significância” são expressões com mesmo significado.
Para chegarmos ao intervalo pedido, é necessário, primeiramente, encontrar
os valores Z para os quais a área 0,95 está compreendida, conforme ilustra a
figura a seguir.

79
Isso é feito através da tabela, de maneira invertida ao que costumeiramente
fizemos nos textos anteriores: como se pede 95% de confiança, a área restante,
situada nas duas caudas, é de 5%, cujo valor é dividido em duas partes de 2,5%
cada. Na tabela, procuramos o valor Z referente à área 0,025 através do valor
complementar, ou seja, 1 – 0,025 = 0,975.
Por meio dessa área, encontramos Z=1,96. Porém, note que o intervalo tem
um extremo maior (que será obtido por meio de 1,96), mas tem também um
extremo menor; este deverá ser obtido através de Z=– 1,96.
No texto anterior trabalhamos com a expressão:
X µ
Z=

Fazendo as transformações necessárias (como numa equação de 1º grau


qualquer), ficamos com os valores extremos (também chamados de valores
críticos) do intervalo procurado:

µ = X ± Z '.
n
Chamamos o valor Z de Z’ na expressão acima para que você se lembre de
fazer as passagens anteriormente descritas (dividir a porcentagem destinada às
caudas por 2), embora boa parte dos problemas use algumas porcentagens
padrão: usa-se muito o nível de confiança 95% (que nos levou a Z=±1,96), 90%
(que leva a Z=±1,65) e 99% (que leva a Z=±2,58).
Assim, no exemplo proposto, teremos a seguinte estimativa para a média:
0,5
µ = X ± 1,96. µ = 5,2 ± 1,96. µ = 5,2 ± 0,196
n 25

80
[ ]
Assim, o intervalo previsto para a média é 5.004;5.396 . O que isso
significa?
• Se várias amostras de 25 elementos forem selecionadas
aleatoriamente (o que, na prática, dificilmente é feito), 95% delas
terão, provavelmente, a média aritmética situada entre 5,004cm e
5,396cm.
• Significado principal: Há 95% de chances de que a média de toda a
população de peças do exemplo considerado esteja numa medida
entre 5,004cm e 5,396cm.
E se não se dispuser do valor do desvio padrão da população? Nesse caso,
é necessário utilizar-se do Teorema do Limite Central, adotando o desvio padrão
da amostra como referência, desde que a amostra seja suficientemente grande,
conforme enunciado do Teorema, trabalhado no texto anterior. Para amostras
pequenas (n < 30), teremos um tratamento especial, a ser estudado no próximo
texto.

9.3 Intervalo de confiança no Excel


O Excel possui um comando para efetuar o cálculo de uma parte da fórmula
do intervalo de confiança, definida anteriormente. Na expressão

µ = X ± Z '. , note que à média da amostra é somado e subtraído um mesmo


n

valor ( Z '. ), que é conhecido como “erro de estimativa”. Esse erro pode ser
n
calculado no Excel pela função =INT.CONFIANÇA. São necessárias as inserções de
três informações (conforme se pode notar pela figura a seguir): o erro tolerável
(100% - nível de confiança), o desvio padrão e o tamanho da amostra.
Atente para o seguinte fato: na primeira informação, você deve inserir o
complementar da porcentagem que indica o nível de confiança adotado. Vejamos
os níveis de confiança mais usados:
Nível de 90% digite 10% ou 0,1
Nível de 95% digite 5% ou 0,05
Nível de 99% digite 1% ou 0,01

81
Os dados da figura se referem ao exemplo deste texto. Note que, mesmo
antes de pressionar enter, a “janela” acima já indica, na parte inferior, o valor a
ser somado com a média 5,2, ou seja, 0,195996..., o qual no texto aparece
arredondado para 0,196.

9.4 Exercícios

1. A resistência à tração de 20 corpos de prova de certo material é dada


abaixo:
131 144 145 132 146 134 135 147 135 148
138 150 149 138 140 139 139 144 143 142
Inserindo esses dados no Excel, calculou-se a média (por meio da função
MÉDIA) 140,95 e desvio padrão (com o comando DESVPAD) 5,73. Use este
desvio padrão, no lugar do desvio padrão da população (outro procedimento
será estudado mais adiante), para estimar o valor da resistência média à tração
para esse tipo de material:
a) através de um intervalo de 95% de confiança;
b) através de um intervalo de 90% de confiança;
c) procure apresentar uma explicação estatística intuitiva para que o
intervalo do item (b) seja menor que o intervalo do item (a)

2. No processo de engorda de porcos, observou-se uma amostra aleatória de


100 animais, a fim de verificar a eficácia de determinado alimento a eles
fornecido, analisando-se o ganho médio de peso ao longo de certo período.
Esse ganho médio foi de 6,0 kg. Sabendo que o desvio padrão estimado
para toda a população de porcos é 2,0 kg, determine o intervalo de 95% de
confiança para o ganho médio da população toda de porcos.

82
3. Um novo produto comestível será lançado no mercado, e a empresa fez um
teste com 64 pessoas antes de distribuir esse produto no mercado,
procurando avaliar vários itens do produto. No quesito “sabor”, os
respondentes atribuíram notas que variavam de 20 a 70 pontos, mas a
média obtida nessa amostra foi de 50 pontos. Utilizando como desvio
padrão populacional o valor 16 pontos, determine um intervalo com 95% de
confiança para a média esperada de pontuação para o caso desse produto
ser consumido por uma população bem mais abrangente que apenas esses
64 consumidores.

4. Uma instituição financeira administra muitas carteiras de investimentos de


pessoas físicas consideradas como médios investidores. Dessa população,
cujo desvio padrão é 2,45%, foi retirada uma amostra aleatória de trinta
carteiras cujos retornos, em porcentagem, tiveram média 10,47%.
Considerando que a distribuição da população seja normal, estime a média
dessa população através de um intervalo de confiança de 95%.

5. O desvio padrão de uma população de pacotes de certo produto é 12g. Uma


amostra aleatória de 100 pacotes foi retirada, verificando-se média igual a
81g. Construir os intervalos de confiança da média da população para os
seguintes níveis de confiança:
(a) 90% (b) 95% (c) 99%

9.5 Respostas dos exercícios

[ ] [ ]
1. (a) 138.44; 143.46 (b) 138.84; 143.06 (c) quanto maior for a exigência na
confiabilidade, ou seja, porcentagem maior, mais extenso será o intervalo, a fim de que o
mesmo apresente segurança para que contenha a média da população; ao reduzirmos o
intervalo, também reduzimos o intervalo de confiança, ou seja, ampliamos a porcentagem
de erro.
2. [5.608;6.392]
3. [46.08;53.92]
4. [9.59%;11.35%]
5. (a) [79 .03;82 .97 ] (b) [78 .65;83 .35] (c) [77 .91;84 .09 ]

83
CAPÍTULO X

Intervalos de Confiança para Média –


desvio padrão desconhecido: a
Distribuição T de Student

10.1 Características básicas para seu uso.

• A distribuição provém de uma amostra aleatória simples.


• O desvio padrão da população é desconhecido; pode-se usar a distribuição
para amostras pequenas, ou seja, para n<30, desde que os dados se
apresentem numa distribuição semelhante à normal.
• caso os dados não estejam caracterizados como normalmente distribuídos,
então deve-se usar um número de elementos na amostra n tal que n 30.
• O esboço de sua representação gráfica é semelhante ao da normal, mas
geralmente as “caudas” possuem uma área maior (dependendo dos graus
de liberdade, derivados do número de elementos da amostra menos 1)

10.2 Intervalo de confiança para média, por meio de uma amostra


pequena ou de uma amostra cuja população tem desconhecido.

O intervalo de confiança para estimar a média de uma população, da qual é


retirada uma amostra considerada pequena, é dado por:

84
µ = X ± t. A

Nessa expressão, X é a média da amostra, A é o desvio padrão da


própria amostra, n é o número de elementos da amostra e o valor t é um valor
utilizado por meio de uma distribuição conhecida como t de Student, em
substituição à distribuição de valores Z.
Como encontrar o valor t? Utilizemos um exemplo para que seu uso fique
mais fácil de entender.
Problema: o gerente de custos de uma grande empresa quer calcular o
consumo médio mensal de combustível proporcionado pelos seus vendedores
externos. Uma amostra de 36 vendedores apresentou média de 1.122,7 litros e
desvio padrão 295,72. O gerente quer, com 95% de confiança, estimar um I.C.
que contém o gasto médio de toda a frota automotiva de vendedores.
295,72
Com 95% de probabilidade, a média está no intervalo µ = 1122,7 ± t. .
36
Falta apenas obter o valor de t, e faremos isso da seguinte maneira:
1. No Excel, usar a função =INVT()
2. Na opção “probabilidade”, escreva o complementar do nível de confiança
adotado. Veja os exemplos:
Para o nível de confiança... Digite...
90% 10% ou 0,1
95% 5% ou 0,05
99% 1% ou 0,01

3. Na opção “graus de liberdade”, você deve digitar o número (n – 1), ou seja,


uma unidade a menos que o número de elementos da amostra considerada.
Em nosso exemplo, n – 1 = 36 – 1 = 35. Veja a figura a seguir:

85
Dessa forma, a expressão para o intervalo de confiança fica assim:
295,72
µ = 1122,7 ± 2,03. . Realizando os cálculos, chegamos ao intervalo pedido,
36
que é [1.022,65 ; 1.222,75].

10.3 Um resumo para escolha da distribuição adequada

Um interessante resumo (TRIOLA, p.260, 2005) pode ser usado para decidir
se devemos usar a distribuição Z, a distribuição T ou algum método avançado.
Veja a tabela a seguir (com os respectivos comandos utilizados por nós junto ao
Excel):
Método Condições
Use a distribuição normal Z conhecido e população
(DIST.NORMP) normalmente distribuída
OU
conhecido e n > 30
Use a distribuição T (INVT) desconhecido e população
normalmente distribuída
OU
desconhecido e n > 30
Métodos avançados (não-paramétricos População não é normalmente
ou bootstrap) distribuída e n q 30

Observações finais:
(a) Critérios para decidir se a população é ou não normalmente
distribuída: a população não precisa ser exatamente normal, mas deve

86
parecer simétrica de alguma forma, com uma única moda e sem dados
discrepantes (outliers).

(b) Tamanho amostral n > 30: é uma diretriz comumente usada, mas
tamanhos amostrais de 15 a 30 são adequados se a população parece ter
uma distribuição que não se afasta muito da normal e se não há outliers.
Para algumas distribuições populacionais que se afastam extremamente da
normal, o tamanho amostral pode precisar ser maior do que 50, ou mesmo
100.

10.4 Exercícios

1. Um fabricante trabalha com máquinas que produzem certo tipo de peça


bastante elaborada. Ele pretende diminuir o tempo que cada máquina gasta
na produção da peça alterando um dispositivo contido nessas máquinas.
Dessa forma, separa 8 delas e anota o tempo gasto na produção da referida
peça; em seguida, troca o dispositivo dessas máquinas e anota novamente
o tempo gasto na produção da peça, conforme a tabela a seguir.

Máquina A B C D E F G H
Sem 10,5 8,7 9,2 10,0 9,5 8,9 11,2 12,0 horas
alteração
Com 9,0 8,9 7,8 7,3 8,0 8,0 9,5 10,0 horas
alteração
Construa dois intervalos de 95% confiança para médias de tempos de toda a
população de máquinas: um com a amostra sem a alteração, e outro para a
amostra com os novos dispositivos, admitindo que os dois conjuntos de dados
possuem certa semelhança com uma distribuição normal.

2. Para verificar a eficácia de um programa de prevenção de acidentes de


trabalho, fez-se um estudo experimental, implementando este programa em
dez empresas da construção civil, escolhidas ao acaso, numa certa região.
Os dados abaixo referem-se aos percentuais de redução de acidentes de
trabalho nas 10 empresas observadas.
Amostra: 20, 15, 23, 11, 29, 5, 20, 22, 18, 17
Usando 95% de confiança, construa um intervalo para o qual provavelmente se
situa a média percentual de redução de acidentes de trabalho para todas as
empresas submetidas ao referido programa.

3. Deseja-se estimar a nota média em um exame aplicado em uma escola.


Para isso considerou-se uma amostra de 16 alunos submetidos a esse
exame e obteve-se uma nota média de 7,3 e um desvio padrão de 0,4.
Construa o IC com 95% de confiança para a verdadeira média.

87
4. Refaça o exercício anterior, usando 90% para nível de confiança, porém,
antes de fazer os cálculos, responda: espera-se um intervalo menor ou
maior que o obtido nesse exercício?

5. Uma amostra representativa de 20 peças cilíndricas apontou seus


respectivos diâmetros com média 21,5 mm e desvio padrão 1,1mm. A
população original a partir da qual se extraiu essa amostra é normalmente
distribuída, e o estatístico da empresa fabricante estimou um intervalo de
confiança para a média populacional que tem como máximo 22,20 mm e
um mínimo de 20,80 mm. Qual foi o nível de confiança usado pelo
estatístico?

6. Um lote de 100 ações teve uma variação média mensal de 1,02% no último
período, com desvio padrão 0,09%. Sabendo que essas ações fazem parte
de um conjunto de 2.412 ações de uma empresa, pergunta-se:
(a) Para determinar, com 95% de confiança, um intervalo que
contenha a média percentual de rendimentos de todas as
ações dessa empresa, você utilizaria valores z (da distribuição
normal padronizada) ou valores t (da distribuição t de
Student)? Justifique sua resposta.
(b) Determine esse I.C. usando essas duas opções, e comente os
resultados obtidos.

10.5 Respostas dos exercícios

1. [9,.03; 10.97] sem os novos dispositivos, e [7.78; 9.34] com os novos dispositivos; note
que a unidade para todos os dados numéricos é “horas”
2. [13.24; 22.76] note que a unidade para os dados numéricos é “pontos percentuais”
3. [7,086 ; 7,513]
4. Menor, pois é possível aumentar a precisão do intervalo somente se aumentarmos o risco,
ou seja, diminuirmos o nível de confiança. Geometricamente é possível observar que, ao se
desenhar uma área menor na curva, teremos conseqüentemente um intervalo menor. O IC
obtido é [7,1247 ; 7,4753]
5. 99%
6. Não olhe a resposta antes de ter pensando nessa pergunta!
(a) valores t, uma vez que não é conhecido o desvio padrão da população toda das 2.412
ações, mas somente o desvio padrão amostral (note que na expressão do I.C. com valores
z o desvio padrão é da população ( ), enquanto na expressão com valores t o desvio
padrão é da amostra ( A ); além disso, não foi afirmado se a população é normalmente
distribuída; como o número de elementos da amostra n é maior que 30, tal situação se
enquadra nas condições do uso do valor t.
(b) Com valor t: [1,002%; 1,038%] e com valor z [1,002%; 1,038%]; as respostas, apesar de
estarem iguais, não são exatamente as mesmas, em termos de precisão matemática, já
que tais valores estão aproximados com 3 casas decimais. Porém estatisticamente isso
mostra que quanto maior o número de elementos de uma mostra, mais a distribuição t se
torna próxima da distribuição z. Isso pode ser aceito, apesar de não se ter , porque o
desvio padrão para n razoavelmente grande tende a se tornar mais próximo do desvio
padrão da população.

88
CAPÍTULO XI

Distribuições Amostrais e Intervalos de


Confiança para uma Proporção
11.1 Aproximação da Binomial à Normal.

Continuando o trabalho de se utilizar amostras (por meio de suas


“estatísticas”) para que se conheça valores similares aos “parâmetros” da
população, neste texto analisaremos situações correspondentes àquelas estudadas
nas distribuições binomiais, onde a variável em questão tem ou não tem
determinado atributo. Exemplos:
(a) proporção de pessoas que aprova (ou reprova) o governo atual;
(b) proporção de pessoas que usa (ou não) certo produto;
(c) proporção de pessoas que aprova (ou reprova) o novo sabor de
determinado produto;
(d) proporção de peças fabricadas que possuem certo defeito (ou não o
possuem);
Em Estatística I a propriedade de “possuir certo atributo” e a de “não
possuir certo atributo” foram chamadas, respectivamente, de sucesso e
fracasso.
No entanto, situações binomiais podem ser aproximadas para o enfoque
normal quando se tratar de um valor de n suficientemente grande, desde
que a proporção p não esteja muito próxima de zero**. Nesses casos, pode-se
calcular a média aritmética e o desvio padrão da seguinte forma:
µ =n p e = n p (1 p)
Exemplo: Suponha que 40% dos funcionários de uma grande empresa faz
hora extra com determinada freqüência (mínimo de 2 vezes por mês, por
exemplo). Se forem selecionados aleatoriamente 50 funcionários dessa empresa,
teremos um valor de n grande e, como p=0,40 não é próximo de 0 ou 1, então
teremos a média µ = n p = 50 0,4 = 20 e o desvio padrão
= n p (1 p ) = 50 0,40 (1 0,40) = 3,464 .
Quais são os significados desses valores? Tais valores têm significado
quando queremos calcular probabilidades como, por exemplo, a seguinte: nessa
amostra, qual a probabilidade de que 25 funcionários ou mais façam hora extra
(nas condições apresentadas)?
Com esses valores de µ e de calculamos a respectiva probabilidade,
encontrando o valor Z e utilizando a tabela ou o Excel.
**
Estatísticos apontam as seguintes condições: n p 5 e n (1 p) 5.

89
11.2 Continuando a Inferência Estatística: Distribuição de
Amostragem de Proporções
Numa amostra de n elementos, sobre os quais é avaliada a presença ou
não de certo atributo, vamos chamar de pa a proporção deles que possui a
característica que está sendo estudada. Veja a fórmula a seguir.
X número de sucessos
pa = =
n tamanho da amostra
A proporção da amostra pa é um número entre 0 e 1 (é uma
porcentagem!); enquanto a média aritmética da amostra X é um meio de calcular
a média aritmética da população µ , a estatística pa é um meio de calcular a
proporção da população p. Por analogia à distribuição de amostragem da média
aritmética, o erro padrão dessa proporção satisfaz a seguinte expressão (o qual
também tem a “participação do Teorema do Limite Central”):
p (1 p )
pa =
n
Dessa forma, para se calcular probabilidades específicas em determinados
intervalos, podemos inserir esses valores na fórmula do valor Z, obviamente,
X µ pa p
dentro das condições apresentadas até aqui:
Z= Z= , de

n n
onde se chega à fórmula

pa p
Z=
p (1 p )
n
Exercício: O gerente de determinado setor de uma grande agência bancária
afirmou que 40% dos depositantes aplicam na modalidade W de aplicação. Ao se
escolher uma amostra aleatória de 200 clientes, qual a probabilidade de que a
proporção da amostra seja:
(a) menor que 43%
(b) entre 40 e 43%

Resolução:
0,43 0,40 0,03
(a) Z = Z= Z = 0,87
0,40 (1 0,40) 0,24
200 200

90
Usando o comando =DIST.NORMP(0,87), encontramos o valor 0,8078, ou
seja, 80,78% é a probabilidade da amostra apresentar uma proporção menor que
43% de clientes que aplicam na modalidade W.
(b) para a proporção entre 40% e 43%, basta fazer 0,8078 – 0,5000 =
0,3078, já que 40% é a média esperada (faça um desenho!). Explicitando o
resultado, entendemos que 30,78% é a probabilidade de que a amostra apresente
uma proporção entre 40% e 43% de clientes que aplicam em W.

11.3 Uma expressão para o Intervalo de Confiança


De forma análoga ao que trabalhamos com a média aritmética, é possível
construir um intervalo de confiança para uma proporção. Basta-nos, neste
momento, retomar conceitos já trabalhados e construir uma expressão para esse
intervalo.
Primeiramente, lembremos que a expressão “95% de confiança” indica
aquilo que chamamos de nível de confiança, que pode ser entendido como o
intervalo de valores da distribuição amostral que tem 95% de probabilidade de
conter o verdadeiro parâmetro da população. Essa porcentagem pode ser outra,
como 90%, 98% ou 99%, mas geralmente o que se exige não foge desses
valores. Por meio desse valor, buscamos o valor de Z para que possamos usá-lo na
expressão do Intervalo de Confiança.
No texto 3 mostramos que o desvio padrão para uma proporção é calculado
p (1 p )
por meio da expressão p = , o que nos levou à expressão
n
pa p
Z= para o cálculo do valor Z de uma amostra, e assim obter as
p (1 p )
n
probabilidades necessárias.
Fazendo os mesmos cálculos que desenvolvemos para a média aritmética,
chegaremos à seguinte expressão para um Intervalo de Confiança de uma
proporção p (da população), a partir de uma (ou mais) amostra(s) que
apresentem a proporção pa:

pa (1 pa )
p = pa ± Z .
n

Exemplo: Uma amostra de 400 peças retiradas de um lote produzido


apresentou 6 peças com defeito. Estime um intervalo para a verdadeira proporção
de peças defeituosas nesse lote através de um intervalo com 90% de confiança.
6
Veja que a proporção pa é: p a = = 0,015 valor z = 1,65 (não se
400
esqueça de que 90% de área é dividida em duas de 45%, o que determina 5% de
área em cada cauda). O intervalo é assim calculado:

91
p a (1 p a ) 0,015 (1 0,015)
p = pa ± Z. p = 0,015 ± 1,65.
n 400
Realizando os cálculos e os arredondamentos aceitáveis, temos o intervalo
previsto para a proporção: [ ] [
0.005;0.025 = 0.5%;2.5% ] O que isso
significa?
As condições para que o raciocínio presente neste exemplo e neste texto
sejam aplicáveis são as mesmas apresentadas no texto 3: a amostra deve ser
grande, o que estatísticos aprovam mediante as seguintes condições: n p 5 e
n (1 p) 5 .

11.4 Exercícios

1. Historicamente, 10% de uma grande remessa de peças de máquinas são


defeituosas.
(a) Qual a probabilidade de que uma amostra aleatória de 400 peças
tenha entre 9% e 10% de peças defeituosas?
(b) Qual a probabilidade de que uma amostra aleatória de 400 peças
tenha menos que 8% de peças defeituosas?
(c) Se um tamanho de amostra de somente 100 peças fosse
selecionado, quais teriam sido suas respostas em (a) e (b)?
(d) O que é mais provável ocorrer: um percentual de defeitos acima
de 13% em uma amostra de 100 peças ou um percentual de
defeitos acima de 10,5% numa amostra de 400 peças? Explique.

2. Com base em dados anteriores, 30% das compras em uma grande loja de
departamentos são realizadas para quantias acima de R$ 100,00. Se forem
tomadas amostras aleatórias de 100 compras:
a) Qual a proporção de amostras é esperada para ter mais de 20% das
compras acima de R$ 100,00?
b) Qual a proporção de amostras é esperada para ter entre 20% e 30% das
compras acima de R$ 100,00?
c) Entre quais limites simétricos de percentagem da população estariam 95%
das percentagens?

3. Em uma pesquisa de mercado sobre a preferência dos consumidores em


relação a um novo produto, 155 de uma amostra de 250 consumidores
preferiram o novo produto. Determine um intervalo de 90% de confiança
para a proporção de consumidores que prefiram esse produto, no contexto
da população da qual foi retirada essa amostra.

92
4. Uma máquina produz certo tipo de peça, sendo 4% a proporção de peças
defeituosas. Qual o número mínimo de peças defeituosas que se espera
encontrar em um lote de 250 peças produzidas por essa máquina, com 98%
de confiança?

5. O gerente de um banco de certa cidade gostaria de determinar a proporção


de seus correntistas que recebem salários via banco. Uma amostra aleatória
de 100 correntistas foi selecionada, e 30 deles recebem seus respectivos
salários via banco. Desenvolva uma estimativa da proporção de correntistas
desse banco que têm seus salários recebidos via banco, com 90% de
confiança.

6. Uma grande concessionária de automóveis quer calcular a proporção de


consumidores que ainda possuem o carro que lá compraram, no período
que corresponde ao tempo de 2 a 5 anos de compra. Numa amostra
aleatória de 200 consumidores, selecionados a partir dos inúmeros registros
da concessionária, 82 deles ainda possuem o carro que lá compraram.
Desenvolva uma estimativa, com intervalo de confiança de 95%, da
proporção da população de consumidores dessa empresa que possuem
ainda o carro que lá compraram, nas condições anteriormente descritas.

11.5 Respostas dos Exercícios

1. (a) 0,2486 (b) 0,0918 (c) 0,1293 e 0,2514 (d) Um percentual de defeitos acima de 10,5%
é mais provável de ocorrer, um uma vez que está apenas 0,33 desvio padrão acima do
valor de 10%. (você também pode justificar este item calculando os respectivos valores de
probabilidades).
2. (a) 98,54% (b) 48,54% (c) entre 21% e 39% (o valor 0,389818... foi arredondado
para 39%)
3. [56.93%; 67.07%]
4. 17
5. [22.46%;37.54%]
6. [0.342;0.478]

93
CAPÍTULO XII

Correlação entre Variáveis


Regressão Linear
Outros tipos de Regressão
12.1 A relação entre duas variáveis

Em diversos processos envolvendo diferentes contextos do mundo


empresarial (e outros “mundos” também) é possível identificar a relação entre
duas variáveis. De modo geral, a variável da qual se deseja ter uma predição é
chamada de variável dependente, a qual é costumeiramente “batizada” de y em
aulas de Matemática. A variável independente (usualmente chamada de x) é
aquela que costuma ser inserida em alguma lei (“fórmula”, no popular) a fim de se
determinar y.
Exemplos de variáveis que podem se relacionar:

Variável Independente x Variável Dependente y


Unidades produzidas ao mês por uma Custo mensal total
empresa
Reais (R$) mensais investidos em Vendas mensais
publicidade
Preço de venda de um produto Demanda pelo produto
Área de vários terrenos Valores de venda
Número de clientes de diversas Valores de receita
empresas do mesmo ramo
Temperatura do forno industrial Grau de tenacidade dos azulejos
fabricados

Em tais exemplos, é possível estabelecer uma relação formal entre as duas


variáveis, ou seja, uma lei algébrica (popularmente chamada de “fórmula”) que
estabeleça a relação numérica aproximada entre as variáveis x e y. Leis podem
ter diferentes comportamentos: uma relação linear pode ser representada por uma
expressão do tipo y = a.x + b; relações exponenciais podem ser da forma
y = a.b c . x , e assim por diante. Boa parte deste texto será dedicada às relações
lineares (funções do 1º grau, representadas graficamente por linhas retas), mas ao
final comentaremos outros tipos de regressão.

94
12.2 Como medir o grau de correlação entre duas variáveis. Como achar
uma lei algébrica que melhor associa duas variáveis correlacionadas.

Para delinear os itens teóricos deste texto, utilizaremos um exemplo


constante no livro “Microsoft Excel Data Analysis and Business Modeling ”; nesse
exemplo constam os valores, em 14 meses seguidos, dos custos totais (em
dólares) gerados na fabricação de determinado produto, em função do número de
unidades produzidas nos respectivos meses. Retomando as nomenclaturas, o
número de unidades produzidas será representado por x e os valores de custo
serão os valores de y que iremos inserir no Excel. Veja os valores a seguir:

Mês Unidades produzidas Custo (US$)


1 1.260 123.118,00
2 1.007 99.601,00
3 1.296 132.000,00
4 873 80.000,00
5 532 52.000,00
6 476 58.625,00
7 482 74.624,00
8 1.273 110.000,00
9 692 81.000,00
10 690 73.507,00
11 564 95.024,00
12 470 88.004,00
13 675 70.000,00
14 870 110.253,00

Para obtermos uma visão gráfica da relação entre o número de unidades


produzidas (x) e o custo (y) que essa empresa teve em cada mês, vamos utilizar
um sistema de dispersão, na mesma opção que utilizamos para construir gráficos
de controle (textos 1 e 2). Selecione as duas colunas de dados e, através do
assistente de gráfico, use a opção “dispersão”.

95
Uma vez disponibilizado o gráfico, o menu “GRÁFICO” permanece
disponibilizado quando você simplesmente “clica” sobre a área do mesmo. Nesse
menu, vá na opção “adicionar linha de tendência” (veja a próxima figura). Nessa
opção, você perceberá que possui várias maneiras de modelar esses dados. Você
tem a possibilidade de modelá-los segundo função do 1º grau (“linear”),
exponencial, logarítmica, potência etc.

Usaremos, para este exemplo, a opção “Linear”, procurando fazer uma


aproximação dos dados a uma reta que melhor represente esse conjunto de
dados.

Na aba “opções”, selecione as opções que estão indicadas na figura a


seguir, ou seja, “exibir equação no gráfico” e “exibir valor de R quadrado”

96
O software oferecerá, dessa forma, a seguinte figura:

140.000,00
y = 64,269x + 37894
120.000,00 R2 = 0,6882

100.000,00

80.000,00

60.000,00

40.000,00

20.000,00

- Série1
- 200 400 600 800 1.000 1.200 1.400 Linear (Série1)

Vamos à interpretação de tais resultados:


1º) a equação Y = 64,269x + 37894, chamada de equação de
regressão e representada no gráfico anterior, representa a reta que melhor
representa esse conjunto de dados ou, dito de outra forma, é a reta que melhor se
aproxima da totalidade dos dados. Para que serve? Sua maior potencialidade é
fornecer previsões para outros valores de x††.
Admitindo-se como razoável a associação entre essas variáveis, pode-se
fazer a seguinte pergunta: se no mês 15 a empresa deseja produzir 1.000
unidades do produto em questão, qual o custo estimado para essa situação?

††
Não apresentarei, neste texto, explicações que levam às fórmulas que fornecem os valores de a e de b,
melhores aproximações para coeficientes da reta que melhor representa esse conjunto de dados. Idem para o
valor de R².

97
Basta fazer x = 1.000 na equação de regressão e obter a estimativa
correspondente para y: Y = 64,269 . 1000 + 37894, o que nos fornecerá Y =
102163, ou seja, aproximadamente R$ 102.163,00 é o valor previsto para o custo
mensal dessa empresa, caso sejam produzidas 1.000 unidades do procuto.

2º) o valor R² = 0,6882: medida utilizada para se dizer se a correlação


entre os dados é forte, média ou fraca. Quanto mais próximo de 1 esse cálculo
resultar, mais forte será a relação entre as variáveis. Quanto mais próximo de 0
(zero) resultar esse valor, mais fraca será a correlação entre tais variáveis.
Nesse caso, 0,6882 indica uma correlação moderada entre os dados. Isso
indica que há mais fatores que estão influenciando fortemente para os resultados
de custo apresentados. De modo geral, podemos assumir as seguintes condições
de referência, para o caso de uma relação linear entre as variáveis:

Valor de R² Correlação Aspecto gráfico


Próximo a 1 Forte Os pontos estão próximos
de se constituírem em
uma reta
Próximo a 0,5 Média Os pontos estão
razoavelmente
espalhados, porém nota-
se uma direção linear
para a nuvem de pontos.
Próximo a zero Fraca Pontos espalhados sem
indicação de uma
tendência linear.

Essa é uma diretriz bastante geral, que é modificada, reestruturada ou


detalhada de acordo com o contexto com o qual cada problema está inserido.
Além disso, o R² também se aplica a outros modelos de regressão, com a mesma
diretriz.

12.3 Outros tipos de regressão

Mas, e se outro modelo matemático se adaptar melhor a esse conjunto de


pontos? O usuário do Excel tem a possibilidade de analisar, dentre as opções desse
software, a lei algébrica da função que melhor se adapta a esses dados. Suponha
que você acredita que os pontos do exemplo usado neste texto têm uma
característica exponencial.
Na opção “adicionar linha de tendência”, opte por “exponencial”

98
O Excel apontará as seguintes informações: y = 49076e0,0007x e R²=
0,6303. Note que esse formato de equação coloca o x no expoente. O número e
pode ser arredondado para 2,72, para efeito de cálculos.
Qual o modelo melhor? Dentre os dois, o modelo linear, pois possui o R²
com maior valor. Ou seja, na busca por um modelo que melhor explica
determinado fenômeno é aquele que apresenta maior valor de R².

12.4 Exercícios

Se necessário, faça e = 2,72

1. A direção de uma empresa de embalagens plásticas, preocupada com a


demanda y de seu produto (número de unidades), resolveu elaborar um
estudo sobre as variações dessas demandas em função dos preços de
venda x. Após esse estudo e levantamento de dados, obteve-se as
informações condensadas na tabela a seguir, estabelecidas nos últimos
trimestres:
Meses 1º tri - 2º tri - 3º tri - 4º tri - 1º tri - 2º tri - 3º tri - 4º tri - 1º tri -
2005 2005 2005 2005 2006 2006 2006 2006 2007
Preço de 16 18 20 23 26 28 30 33 35
venda
(x)
Demanda 1.000 1.050 970 940 950 800 750 675 670
(y)
A partir dessas informações, responda às seguintes questões:
(a) Qual modelo matemático melhor ilustra esse conjunto de dados: a função
do 1º grau, a função exponencial ou a função potência? Justifique sua
resposta.
(b) Através do Excel, escreva a lei algébrica que melhor representa esse
conjunto de pontos.

99
(c) Se a empresa planejar o preço de R$ 38,00 no próximo trimestre, qual será
a expectativa de demanda?
(d) Determine as expectativas de demanda que esse modelo prevê para o 2º
trimestre de 2007, supondo que a empresa deseja manter o mesmo preço
aplicado no 1º trimestre de 2007.

2. Um índice econômico está evoluindo de acordo com sua variação anual.


Esses dados levantados estão expressos na tabela a seguir
Anos(x) 1 2 3 4 5 6 7
Índice 100 120 150 318 622 870 1450

De acordo com os dados apresentados, construa um diagrama de dispersão no


Excel. Em seguida, responda:
(a) Qual modelo matemático melhor ilustra esse conjunto de dados: a função
do 1º grau, a função exponencial ou a função potência? Justifique sua
resposta.
(b) Através do Excel, escreva a lei algébrica que melhor representa esse
conjunto de pontos.
(c) Determine as expectativas que esse modelo prevê para os anos 8 e 9.

12.5 Respostas dos exercícios


1.
a) O modelo linear, já que seu R² = 0,9032 é o maior dentre as três opções (a
exponencial tem R² = 0,8972 e a função potência tem R² = 0,8438).
b) y = -20,63x + 1392,1
c) 608 unidades, aproximadamente.
d) 670 unidades, aproximadamente.

2.
a) O modelo exponencial, pois tem o maior valor de R² dentre as três possibilidades
(R² = 0,972, contra os valores de 0,8417 e 0,8566 das outras duas opções).
b) y = 48,976e 0,4788x
c) Para x = 8 têm-se índice aprox. igual a 2.262,33; para x = 9 a previsão é de
3652,81.

100

Você também pode gostar