Escolar Documentos
Profissional Documentos
Cultura Documentos
com Excel
1
CAPÍTULO I – Estatística Descritiva:
Definições, Tabelas e Gráficos
CAPÍTULO IV – Probabilidades
2
CAPÍTULO I
Estatística Descritiva:
Definições, Tabelas e Gráficos
• Como usar Excel para construir gráficos (a fim de praticar a famosa
expressão: “muitas vezes, uma figura fala mais do que mil
palavras”);
• Como saber qual tipo de gráfico usar (gráfico de barras ou
histogramas?);
3
4.3 Tipos de variável
4
A tabela de distribuição de freqüências, feita com auxílio de lápis-e-papel e
calculadora simples, pode ser assim apresentada:
5
Na célula B2 (veja a figura anterior) digitamos =CONT.SE (intervalo dos
dados, expressão que se deseja contar). O intervalo dos dados neste
exemplo é a coluna já indicada (“formas de pagamento”); veja que ela está na
planilha um do arquivo super1.xls, mas estamos usando a planilha 2 para construir
a tabela. A expressão que se deseja contar é o valor da variável em questão,
no caso, “dinheiro” (escreva entre aspas, exatamente como está no conjunto de
dados).
Em seguida, proceda de modo análogo com as células B3, B4, B5 e B6. O
total de dados pode ser obtido com a função =SOMA, conforme ilustra a próxima
figura.
6
(X) selecione a coluna das variáveis qualitativas, ou seja, a coluna das
formas de pagamento, e pressione avançar.
3º) Você pode, ao avançar as próximas etapas, optar por inserir mais
nomes ou informações no gráfico. Verifique as possibilidades; eu,
Francisco, resolvi deixá-lo assim:
Formas de Pagamento
50,00%
44,70%
45,00%
40,00%
35,00% 31,44%
30,00%
25,00%
20,00% 16,29%
15,00%
10,00% 7,58%
5,00% 0,00%
0,00%
Dinheiro Cheque Cartão de crédito Cartão de débito Tíquete
Fica como exercício para você a realização do gráfico tipo “pizza” para esse
mesmo exemplo. Uma possibilidade é a apresentada abaixo.
Formas de Pagamento
0,00%
31,44%
Dinheiro
44,70% Cheque
Cartão de crédito
Cartão de débito
Tíquete
7,58%
16,29%
7
4.5 Apresentação de dados quantitativos – HISTOGRAMAS
Para iniciar as análises do tipo de dados que mais trabalharemos (ou seja,
dados numéricos), vale a pena observarmos uma classificação dos mesmos:
Variável inteira (ou discreta) é aquela que pode assumir somente um
número “contável” de valores. Ex.: nº de funcionários de uma empresa, nº de
erros de impressão num exemplar de jornal, nº de filhos de um casal.
Variável real (ou contínua) pode assumir qualquer valor em um ou mais
intervalos sobre a reta real. Ex.: medidas de comprimento de uma peça fabricada,
áreas ou volumes de certos produtos, valores do dólar ao longo de um ano, índices
percentuais da inflação nos últimos 12 meses.
O que é um histograma?
É o tipo de gráfico usado para se resumir um conjunto que possua muitos
dados numéricos (inteiros ou reais), agrupando-os em intervalos. Veja o exemplo
de 81 alturas de alunos de uma turma de Administração de Empresas; os dados
brutos são:
1.84,1.82,1.75,1.83,1.63,1.74,1.85,1.62,1.69,1.60,1.70,1.71,1.72,1.71,1.70,1.68,1.58,1.58,
1.76,1.74,1.65,1.75,1.74,1.61,1.63,1.79,1.60,1.67,1.70,1.83,1.70,1.57,1.70,1.70,1.84,1.68,
1.63,1.62,1.56,1.65,1.78,1.82,1.77,1.85,1.70,1.70,1.76,1.55,1.60,1.52,1.78,1.63,1.70,1.60,
1.73,1.60,1.63,1.76,1.67,1.77,1.75,1.80,1.73,1.78,1.73,1.72,1.64,1.63,1.63,1.78,1.49,1.62,
1.73,1.56,1.74,1.60,1.60,1.57,1.57
Histograma Histograma
30 28 28 20
16
25 14 14 14
Freqüência
15 12
Freqüência
20 16
10 8
15
10 8 5
1 2
5 0 0 0 0 0 0
0 1 0 0 0
0
Mais
1,40
1,45
1,50
1,55
1,60
1,65
1,70
1,75
1,80
1,85
1,90
1,95
2,00
8
1º) Ferramentas Análise de Dados* Histograma
2º) No intervalo de entrada, introduza a coluna dos dados (ver próxima
figura); no intervalo de bloco, é necessário introduzir uma coluna previamente
construída (fazê-la na mesma planilha facilita), a qual conterá os limites dos
intervalos escolhidos para o histograma. Na figura seguinte você poderá perceber
os dois intervalos por mim escolhidos para construir o histograma**.
3º) Selecione a opção “Resultado do gráfico” e pressione OK.
*
Se a opção “Análise de dados” não estiver disponível, siga os seguintes passos para disponibilizá-la:
Ferramentas Suplementos Selecione “Ferramentas de Análise” e “Ferramentas de Análise VBA”
**
Vários autores sugerem um mínimo de 5 e um máximo de 20 classes; existe, ainda, uma regra empírica:
n classes, onde n é a quantidade de valores (embora acredite que, se n for muito grande, n pode não ser
interessante, como no caso de n=10.000...).
9
Último comentário neste item: se você não inserir um intervalo de bloco ao
construir um histograma, o Excel o fará automaticamente, seguindo algumas
regras matemáticas (as quais podem ser observadas na Ajuda desse programa);
porém, alguns pequenos problemas podem ocorrer ao se comparar histogramas
com intervalos de valores diferentes (esse problema será abordado no exercício 2).
2,19
2,18
2,17
2,16
2,15
2,14
2,13
2,12
0 10 20 30 40 50 60
10
Para obter esse gráfico, basta usar o assistente de gráfico do Excel, optar
pelo tipo “Dispersão (XY)” e, na etapa seguinte, inserir a coluna dos valores do
dólar na caixa “Intervalo de Dados”, escolhendo as séries em “Colunas”. Os
próximos passos são triviais.
Muitas pessoas que trabalham com esse diagrama, conforme poderemos
perceber através de alguns casos que estudaremos, costumam ligar os pontos do
gráfico através de segmentos. Caso deseje, você poderá fazê-lo com a seguinte
seqüência: duplo click em qualquer ponto do gráfico já obtido, e na aba “padrões”
“linha” use a opção “automática” ou “personalizada”.
Dólar Comercial
2,19
2,18
2,17
2,16
2,15
2,14
2,13
2,12
0 10 20 30 40 50 60
14 | 9
15 | 256677788
16 | 00000001222333333345577889
17 | 0000000001122333344445556667788889
18 | 022334455
11
Para construirmos um diagrama ramo-e-folhas no papel, você pode seguir
as seguintes dicas: (a) primeiramente, decidir quais serão os ramos; note que este
passo querer de você a intuição e o bom senso. Nesse exemplo os ramos foram
compostos de 2 algarismos, mas a natureza dos dados podem levá-lo a outras
opções; (b) na primeira coluna, liste os ramos em ordem crescente (nada impede
que seja decrescente, mas use seu bom gosto!) (c) nas linhas de cada ramo,
escreva as folhas.
4.8 Exercícios
2. Em outra situação real, faremos uma análise de dados obtidos numa grande
empresa do setor de celulose e papel. No arquivo Umidade em madeira1.xls
constam médias percentuais diárias de umidade, obtidas a partir de
amostras de “punhados” de madeira coletados para controle do teor de
umidade na madeira, que é a matéria-prima para a produção de celulose e
posteriormente o papel; a forma como tais amostragens são realizadas
serão discutidas bem mais adiante em nosso curso, mas se você deseja já
ter uma idéia de como ela é realizada, veja a explicação fornecida pelo
responsável por tais amostragens no quadro abaixo. Se desejar responder
às perguntas diretamente, “pule” esse quadro.
“Pegamos 6 amostras por dia de aproximadamente 80 g de madeira picada (que chamamos de “cavaco”),
pesamos a amostra, colocamos na estufa por um determinado tempo, e pesamos novamente. A diferença
de peso entre o inicial e o final é considerada como umidade que evaporou. As medidas de peso antes e
depois estão ocultas, sendo que a tabela já mostra o valor percentual de umidade, que é o dado de
controle para o processo.
12
(a) No item (b) desta questão será pedido você que construa
histogramas para os três meses que constam no arquivo anexo.
Antes de fazê-lo, porém, vamos resolver uma dúvida “informática”:
é preferível construir os três histogramas usando um mesmo bloco
para intervalo de dados ou não há problemas em construir os três
histogramas com blocos automáticos do Excel? Justifique.
(b) Construa os histogramas referente aos três meses apresentados
nesse arquivo, e descreva diferenças entre eles. Diante do contexto
deste caso, justifique o porquê das diferenças entre esses
histogramas.
(c) A meta que a empresa deseja para as médias percentuais é de
27,5%. Pode-se ver que essa meta não foi alcançada em nenhum
dos três meses. Pergunta: esse fato significa que o processo de
controle de umidade está completamente descontrolado? Justifique.
2.
(a) É preferível construir os três histogramas usando um mesmo bloco para intervalo de dados,
uma vez que, com blocos automáticos, teremos que nos esforçar mais para comparar os
valores dos eixos horizontais dos três histogramas, já que os intervalos de cada um dos
três meses são diferentes. Compare as duas situações no arquivo Umidade em
madeira2.xls.
(b) No mês de Novembro, as porcentagens de umidade foram mais baixas (concentração de
dados no “começo” do histograma) e no mês de Janeiro foram mais altas (concentração de
dados no “fim” do histograma); em Dezembro há uma relativa simetria. O fator
extremamente provável dessas diferenças é o período chuvoso mais intenso em Dezembro
e Janeiro.
(c) Não, pois a variabilidade dos dados não é grande. Assim como o caso do exercício 1, os
dados têm um comportamento regular, não possuindo grandes oscilações, apesar do fato
de estarem acima do desejado (faça gráficos de controle para visualizar isso).
13
CAPÍTULO II
Medidas Estatísticas:
Medidas de Tendência Central
Medidas de Dispersão
14
Coluna1
Média 2294,941176
Erro padrão 32,4390398
Mediana 2303
Modo 2144
Desvio padrão 231,661081
Variância da
amostra 53666,85647
Curtose -0,81417258
Assimetria -0,13156425
Intervalo 888
Mínimo 1807
Máximo 2695
Soma 117042
Contagem 51
15
2.2 Medidas de Tendência Central:
• Média
Para uma variável quantitativa* X, chamaremos a média de uma amostra de
X , e a média de uma população de µ , que é a letra grega “mi” usada pela
maioria dos textos em Estatística. A média aritmética é a divisão de todos os
valores de X, pela quantidade deles, que chamaremos de n. Matematicamente, ela
é assim definida:
Xi x1 + x 2 + x 3 + x 4 +...+ x n
X= ou X=
n n
• Mediana
Uma definição informal: ao ordenarmos os dados (crescente ou
decrescentemente), o termo que ocupa a posição absolutamente central na
seqüência de dados (ou seja, 50% dos dados estão antes dele e 50% depois).
Em nosso exemplo, se observarmos todas as receitas semanais numa
ordem crescente (ou decrescente – há uma opção fácil no excel para fazê-lo), o
valor R$ 2.303,00 ocupará a posição central. Na verdade, há um detalhe: se há um
número ímpar de elementos, há o termo central. Se há um número par de
elementos, a mediana é definida com a média entre os dois termos centrais. No
caso, como são 51 elementos, o central é o 26º; se houvesse 50 termos, os
centrais seriam o 25º e o 26º).
A explicação teórica destes detalhes está no rodapé desta página. Leia
somente se estiver com muita curiosidade matemática; caso contrário, gaste sua
energia no próximo item*. No Excel, a mediana também pode ser obtida com a
função =MED(...).
• Moda
*
lembre-se: X é variável, ou seja, assume vários valores!
*
Definição: a Mediana de uma amostra de n observações x1, x2,...., xn é o valor que ocupa a posição:
(a) (n+1)/2, que é o termo central, se n for ímpar; (b) a média aritmética entre os dois termos centrais, cujas
posições são n/2 e n/2+1, no caso de n ser par.
16
Pouco usada, é uma medida de uso bastante restrito. Numa definição
também informal, é o dado que ocorre mais vezes (tem maior freqüência). Basta
ver que, no exemplo, o fato de que o valor R$ 2.144,00 ter se repetido não traz
tanta importância para a análise do conjunto todo. Dados financeiros como esses,
geralmente, fazem com que o Excel não disponibilize esse valor, uma vez que é
fácil verificar conjuntos de dados em que nenhum valor se repete. Assim como se
pode ter um conjunto que não possui Moda, pode-se também haver mais de uma
moda (por exemplo, no conjunto 1,1,1,2,2,2,3,4,5).
É provável que, mesmo intuitivamente, o controlador de estoque de uma
loja de pneus, sapatos ou roupas use a Moda para manter seu estoque atualizado
para a loja e para os consumidores (o número de pessoas do sexo masculino que
calça sapato 40 é maior que o número de homens que calça 48).
No caso do exemplo, podemos chamar de classe modal ao intervalo para
o qual há mais dados, ou seja, o intervalo para o qual o retângulo do histograma é
mais alto. No histograma apresentado a seguir, veja que o intervalo [2.400;2.500]
é uma classe modal. Claro que, se definirmos outros intervalos para o bloco, no
Excel, teremos outra classe modal (e não há nenhum problema quanto a isso).
Histograma
12
10
Freqüência
8
6 Freqüência
4
2
0
Mais
1800
1900
2000
2100
2200
2300
2400
2500
2600
2700
Bloco
17
Detalhes da mediana: divide o histograma ao meio (duas áreas de 50%), e
não é afetada pelos extremos, ao contrário da média aritmética. Nos dados
(1,1,1,1,2,2,2,3,4,5,15), a mediana vale 2, e não é afetada pelo dado 15,
consideravelmente diferente dos demais. No exercício 2 do capítulo anterior,
referente a percentuais de umidade em madeira (matéria prima para papel e
celulose), pudemos observar inclinações diferentes para três meses consecutivos
(reveja os histogramas que você construiu).
Veja como é a relação entre histogramas e medidas, através de exemplos
extraídos de arquivos disponíveis do livro Complete Business Statistics:
Simétrico
18
Assimetria, cuja medida está no resumo estatístico, indica o quão afastado
de uma simetria perfeita o histograma está. Quando afirmei que o conjunto de
dados Receitas XYZ.xls era razoavelmente simétrico, não o fiz apenas no
“olhômetro” do histograma, mas também com os olhos na medida da assimetria,
no caso, -0,13. A teoria estatística diz que se esse valor está entre -1 e 1, o
conjunto pode ser considerado relativamente simétrico*.
A assimetria pode servir para responder a uma questão tradicional em
Estatística: quem é melhor para descrever o conjunto de dados: a média ou a
mediana? “Essencialmente, usamos a média como a melhor medida de localização
central se o conjunto de dados não exibe uma inclinação (assimetria) excessiva.
Caso contrário, usamos a mediana como medida de localização central”
(WINSTON, p. 273). É o caso de um pequeno exemplo citado anteriormente, o
conjunto 1,1,1,1,2,2,2,3,4,5,15; nele a média vale 3,36, razoavelmente superior a
boa parte dos dados. A mediana vale 2, e é uma medida que ilustra melhor esse
conjunto de dados, no caso de se necessitar uma informação rápida usando
apenas essas medidas. E isso faz sentido também matematicamente, já que a
assimetria é desses dados é 2,73.
Porém, um conjunto pode ser simétrico e apresentar problemas tanto no
uso da média quanto no uso da mediana. Isso será explorado através de um
exercício.
• Amplitude
É a diferença entre o maior e o menor dado: Amplitude = Xmaior – Xmenor
Está disponível no resumo estatístico, em nosso exemplo do capítulo, com o
título de Intervalo (veja o resumo do exemplo das receitas mensais do produto
XYZ). É uma medida mais intuitiva, apenas para dar uma noção de que intervalo
os dados variam. Veja que é uma medida limitada, já que não se sabe o que
ocorre com dois conjuntos de dados que tenham a mesma amplitude:
provavelmente um conjunto terá os dados mais espalhados que o outro, apesar de
terem mesma amplitude.
19
representativo para 4 e 6 do que para 1 e 9. Por quê? Porque 1 e 9 estão mais
dispersos em relação à média!
Como estabelecer uma medida para esse “espalhamento” dos dados?
O desvio padrão é a medida mais famosa e mais usada com sucesso para
estabelecer essa medida, a qual vale R$ 231,66 (com arredondamento) em nosso
exemplo base. Numa oração razoavelmente informal, porém suficiente para se
buscar uma clareza em termos de significado, esse valor significa que “os dados
estão espalhados, em média, 231,66 reais unidades da média aritmética R$
2.294,94”.
Como calculá-lo? Bem, sugiro fortemente que você se contente em usar o
Excel, seja com o resumo estatístico já apresentado, seja com a função
=DESVPAD(...). Mas, se sua curiosidade matemática é muito grande, veja como é
a fórmula:
( x1 x) 2 + ( x 2 x) 2 + .... + ( x n x) 2
S=
n 1
De modo geral, usamos S para o desvio padrão de uma amostra, e
(sigma) para o desvio padrão de uma população*. A letra n é o número de
elementos da amostra (número de dados), e há considerações que se pode fazer
para o uso de n ou de n – 1 no denominador, porém essa discussão não será aqui
abordada, uma vez que ela não é relevante ao nosso estudo.
A primeira instrução que você deve construir em seu pensamento
para entender o que significa o desvio padrão é a seguinte: quanto maior
o desvio padrão, mais afastados da média estão os dados.
Reciprocamente, quanto menor o desvio padrão, menos afastados da
média estão os dados. Essa instrução é importante principalmente quando se
comparam amostras de mesmo tamanho retiradas de uma mesma população,
conforme veremos em capítulos mais à frente.
• Variância
É o quadrado do desvio padrão. Sua importância específica também
aparecerá em aulas mais a frente, porém perceba que o desvio padrão é mais
prático, já que tem a mesma unidade dos dados.
( x1 x ) 2 + ( x2 x) 2 + .... + ( xn x) 2
S =
2
n 1
2 2
Xi n. X
*
Há também a fórmula S=
n 1
20
2.4 Aprofundando o estudo sobre desvio padrão: por que, em inúmeras
situações, o desvio padrão e a média devem ser usados juntos?
REGRA EMPÍRICA
[X ]
S , X + S : geralmente entre 60% e 80% dos dados, podendo chegar a
90% no caso de distribuições cujo pico e proximidades são consideravelmente
altos;
[ ]
X 2.S , X + 2.S : aproximadamente 95% para distribuições simétricas;
torna-se próxima de 100% para distribuições bastante concentradas em torno da
média;
[ ]
X 3.S , X + 3.S : praticamente 100%.
21
Veja, através das duas tabelas acima, que os intervalos encontrados
satisfazem tal regra. Porém, há algumas considerações que devemos fazer em
relação ao único dado que está além do 2º intervalo: na teoria estatística,
costuma-se chamar dados como esse de suspeitos, por estarem a mais de 2
desvios da média aritmética. Se acontecer de um dado estar a mais de 3 desvios
padrão da média (para cima ou para baixo), esse dado é conhecidíssimo como
discrepante (outlier).
Aviso importante do autor deste texto: dependendo do contexto da
situação específica (análise de item da produção, exame de qualidade, previsão de
certo índice etc), da variável em questão e da forma como a empresa pode
administrar certas questões, dados além de 2 desvios geralmente são considerados
especiais, dignos de análise ou preocupação mais profunda.
22
desvios padrão, cada dado tem um valor equivalente em outra escala, e esse valor
é chamado de valor Z. Veja como calculá-lo:
Definição: O valor Z de uma variável numérica X de um conjunto de
dados cujo desvio padrão é S é dado por:
X X
Z=
S
23
O valor Z também serve para posicionar um dado ao longo da seqüência.
Veja o exemplo a seguir.
Um exemplo intuitivo
Suponha que você participou de um concurso público, no qual houve 100
participantes. Sabendo que a média das notas (as quais podem variar de 0 a 10)
foi 5.5 e que você tirou 7.0, pergunta-se: podemos afirmar que você foi bem
colocado na classificação geral?
Bem, você deve estar sentindo falta de mais dados para responder a essa
pergunta, não é verdade? Como não sabemos como foram todas notas, e muito
menos como elas se distribuíram em relação à média, necessitamos conhecer o
desvio padrão das mesmas para ter condições de opinar. Veja os casos a seguir.
a) Desvio padrão 2.0: sua posição não é de grande destaque... façamos
os cálculos para padronizar sua posição em relação aos demais dados
(que são desconhecidos): z = (7.0 – 5.5)/2.0 = 0,75; isso indica que
sua nota está próxima da média, juntamente com a maioria dos dados,
inseridos no primeiro intervalo da regra empírica.
b) Desvio padrão 0.7: sua posição é de grande destaque! façamos os
cálculos para padronizar sua posição em relação aos demais dados
(que são desconhecidos): z = (7.0 – 5.5)/0.7 = 2.14; isso indica que
sua nota está longe da média, mais de dois desvios padrão! Veja como
os números fazem sentido: desvio padrão menor, significa dados mais
concentrados em torno da média; sua nota 7 está, neste caso,
afastada da média, o que indica que sua nota é alta em relação à
maioria das notas.
24
2.6 Exercícios
25
possuem regras próprias para cálculo) que, de maneira geral, parecem não
agradar boa parte dos proprietários das 22 propriedades rurais participantes da
pesquisa. Nos critérios da regra empírica para distribuição de dados, é possível
dizer que as taxas de retorno das propriedades 1 e 15 são discrepantes em
relação às demais propriedades? Justifique.
15 16 15 18 20 19 2 3
1 18 4 5 5 2 1 1
20 4 1 15 16 3 2 17
2 19 4 18 6 5 17 6
17 10 16 3 20 16 1 19
19 8 20 19 15 8 20 10
Suponha que você é o gerente responsável pela qualidade de diversos
processos que ocorrem na fictícia empresa deste exercício. Com esses dados
em mãos (planilha Tempo Máquinas.xls), você deseja fazer uma análise
estatística (média, desvio padrão etc.). Na hipótese de não conseguir entrar em
contato com o funcionário que colheu os dados, quais características principais
desse conjunto de dados você apontaria? Há decisões a serem tomadas?
Explique.
(a) O valor 13 ocorreu apenas uma vez. A probabilidade de que ele ocorra
novamente é alta ou baixa? Justifique sua resposta.
(b) Faça a mesma análise para o dado 22.
26
(c) Suponha que o dado 22 ocorreu em certo dia em que houve muitos
problemas no processo de impressão desse jornal. Exclua esse dado do
conjunto todo, e recalcule a média aritmética.
(d) Se você somou todos os valores constantes no diagrama anterior para
responder à questão (c), então refaça esse exercício, ou seja, recalcule a
média sem o dado 22, supondo que você não conhece os dados, mas
apenas a média de 10,4.
6. Uma pequena estamparia comprou uma nova máquina para efetuar cortes
automáticos de peças de tecido com comprimentos padronizados. Porém,
devido às diferentes características dos tecidos empregados, a máquina não faz
um corte exato da medida “pedida”, provocando uma variação no tamanho das
peças cortadas. A tabela abaixo ilustra a freqüência absoluta de cortes, ao
longo de um dia, que a máquina fez quando esteve ajustada para produzir
peças entre 140 cm e 160 cm. DESAFIO: com os dados que dispõe, procure
calcular um valor para a média aritmética desse conjunto de dados.
2.
(a) Arredondando, temos X = 0,47 e S=0,55. Vamos calcular os respectivos valores Z:
1,38 0,47
• Para o máximo 1,38, temos: Z= = 1,65 ; não é discrepante pois z<3.
0,55
0,65 0,47
• Para o mínimo –0,65, temos Z = = 2,04 ; não é considerado discrepante
0,55
na literatura estatística, pois seu valor z é maior que -3, mas como atinge 2 desvios padrão
da média, pode ser considerado um valor muito baixo.
27
(b) O gráfico de controle pois, como os dados estão em seqüência no tempo, pode-se ver que
o padrão dos últimos meses não é o mesmo dos primeiros meses da análise (houve muitos
altos e baixos, bem diferentes do final do desenho)
(c) Calculando-se a média e o desvio padrão de um período mais recente, e não de todo o
período coletado.
4. Pode-se notar que, nesse conjunto, as duas máquinas estão trabalhando de modo muito
diferente. A média de todos os valores não é um valor útil, nem confiável; observando o
histograma, vemos um conjunto de valores concentrados em medidas mais altas, e outro
grupo em medidas bem menores. É necessária outra amostragem, separando-se as
medidas das duas máquinas.
5.
(a) O valor Z para esse dado é 0.679218, ou seja, está no primeiro intervalo da regra
empírica, o qual concentra a maior parte dos dados. Logo, não é difícil a ocorrência do
dado 13 novamente.
(b) O dado 22 é discrepante (valor Z = 3.030357), ou seja, é uma ocorrência anormal. Isso
nos leva a concluir que é bastante provável que as condições desse dia (o dia em que
ocorreram 22 erros) não eram as mesmas que a maioria dos outros dias (funcionários
podem ter faltado, máquinas podem ter quebrado, o prazo para a execução do serviço foi
pequeno etc).
(c) 10,16 erros
(d) 10,16 erros (monte uma equação do 1º grau)
6. Pode-se usar o meio de cada intervalo, e multiplicá-lo pela freqüência respectiva. Ao final,
divide-se pela soma das freqüências (ou seja, a famosa média aritmética ponderada):
8.104,5 + 17.114,5 + 20.124,5 + 32.134,5 + 42.144,5 + 24.154,5 + 11.164,5 + 4.174,5
X =
8 + 17 + 20 + 32 + 42 + 24 + 11 + 4
21861
X = X = 138,36
158
28
trabalho (por favor, não exagere... cuidado com o desvio padrão!!!). Mas faça
isso antes de olhar a tabela!
2º) Selecione a coluna das médias salariais de gerentes e calcule média e
desvio padrão (conjunto de dados).
3º) Tome o salário que você ganha (se já é gerente) ou aquele que você
gostaria de ganhar (um dia você chega lá!!!), e calcule o valor Z dele.
4º) Você ficou satisfeito(a) com a sua ambição (ou realidade)? Se sim, ótimo!
Muitas felicidades e sucesso para você! Se não, vá ao 5º passo.
5º) Faça o exercício de novo, mas desta vez com a coluna “menor salário” ou
com a coluna “maior salário”. Espero que você se sinta melhor... e também te
desejo muitas felicidades e muito sucesso!
Diretores
- Adm. E financeiro. . . . . . . . . . . . . . . . . . . . . . 4.826 39.510 16.671
- Administrativo. . . . . . . . . . . . . . . . . . . . . . . . 7.055 33.830 16.418
- Comercial . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.141 51.238 19.293
- Financeiro . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.015 29.997 17.932
- Industrial. . . . . . . . . . . . . . . . . . . . . . . . . . . . 13.083 20.356 14.811
- Informática. . . . . . . . . . . . . . . . . . . . . . . . . . 9.878 28.367 19.644
- Jurídico. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15.650 24.445 20.040
- Marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . 10.575 33.582 17.278
- Presidente. . . . . . . . . . . . . . . . . . . . . . . . . . . 9.625 46.016 28.615
- Rh . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6.214 37.511 19.309
- Suprimentos . . . . . . . . . . . . . . . . . . . . . . . . . 13.371 20.277 16.840
- Vendas. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.508 29.971 16.988
- Vice-presidente. . . . . . . . . . . . . . . . . . . . . . . 8.045 45.545 26.481
Gerentes
- Adjunto de operações. . . . . . . . . . . . . . . . . . . 9.502 25.531 10.674
- Adm. de vendas. . . . . . . . . . . . . . . . . . . . . . . 4.447 9.669 7.015
- Adm.de pessoal. . . . . . . . . . . . . . . . . . . . . . . 4.691 18.677 8.655
- Adm.e financeiro. . . . . . . . . . . . . . . . . . . . . . 4.440 14.727 8.589
- Administrativo. . . . . . . . . . . . . . . . . . . . . . . . 2.648 18.114 8.151
- Assistência técnica . . . . . . . . . . . . . . . . . . . . 5.480 12.931 8.662
- Auditoria. . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.918 13.137 7.664
- Comercial . . . . . . . . . . . . . . . . . . . . . . . . . . 3.110 19.233 7.393
- Compras . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.140 17.809 9.755
- Contabilidade de custos . . . . . . . . . . . . . . . . 5.471 15.110 9.983
- Contabilidade geral. . . . . . . . . . . . . . . . . . . . 3.211 16.798 8.168
- Contas a pagar . . . . . . . . . . . . . . . . . . . . . . . 6.967 8.606 7.625
- Controladoria . . . . . . . . . . . . . . . . . . . . . . . . 3.602 15.735 9.559
- Controle de qualidade. . . . . . . . . . . . . . . . . . 4.790 14.620 8.093
- Crédito e cobrança . . . . . . . . . . . . . . . . . . . . 4.378 18.805 9.048
- Desenv. Rh . . . . . . . . . . . . . . . . . . . . . . . . . 3.710 12.057 8.335
- Desenv. sistemas . . . . . . . . . . . . . . . . . . . . . 7.400 11.907 9.611
- Desenv. novos produtos . . . . . . . . . . . . . . . . 6.640 13.667 9.617
- Distr. E transportes . . . . . . . . . . . . . . . . . . . . 2.565 12.529 7.604
- Engenharia e projetos . . . . . . . . . . . . . . . . . . 7.950 14.307 9.836
- Fabricação . . . . . . . . . . . . . . . . . . . . . . . . . . 3.663 15.066 9.917
- Filial de vendas . . . . . . . . . . . . . . . . . . . . . . 2.083 13.687 4.282
- Financeiro . . . . . . . . . . . . . . . . . . . . . . . . . . 2.648 19.095 8.679
29
- Grupo de produtos . . . . . . . . . . . . . . . . . . . . 5.444 9.714 6.724
- Industrial . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.303 19.095 11.476
- Informática. . . . . . . . . . . . . . . . . . . . . . . . . . 2.750 20.114 9.208
- Jurídico . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.254 19.095 11.476
- Loja . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.874 11.343 2.897
- Manutenção geral . . . . . . . . . . . . . . . . . . . . . 4.230 13.124 8.318
- Marketing . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.637 17.926 9.15
- Nacional de vendas . . . . . . . . . . . . . . . . . . . . 4.548 20.240 10.166
- Pesquisa de mercado . . . . . . . . . . . . . . . . . . 8.221 14.428 10.336
- Pesquisa e desenv. . . . . . . . . . . . . . . . . . . . . 7.495 12.158 9.352
- Planej. contr. produção . . . . . . . . . . . . . . . . . 2.956 17.556 11.295
- Planej. financ. Orçament. . . . . . . . . . . . . . . . . 6.731 15.216 9.283
- Processamento de dados . . . . . . . . . . . . . . . . 5.133 8.607 7.378
- Produção . . . . . . . . . . . . . . . . . . . . . . . . . . . 3.045 11.761 7.779
- Produto . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.634 24.424 9.464
- Projetos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.102 9.425 8.333
- Prop. E prom. vendas . . . . . . . . . . . . . . . . . . . 7.736 12.537 9.471
- Recursos humanos . . . . . . . . . . . . . . . . . . . . . 1.893 16.243 7.533
- Regional de vendas . . . . . . . . . . . . . . . . . . . . 3.239 13.217 8.657
- Relações industriais . . . . . . . . . . . . . . . . . . . . 4.034 7.950 6.921
- Remun. e benefícios . . . . . . . . . . . . . . . . . . . . 4.512 14.270 9.425
- Serviços gerais . . . . . . . . . . . . . . . . . . . . . . . 2.495 9.945 5.954
- Suprimentos . . . . . . . . . . . . . . . . . . . . . . . . . 3.872 15.928 8.918
- Técnico de obras . . . . . . . . . . . . . . . . . . . . . . 8.034 12.960 9.756
- Tesouraria . . . . . . . . . . . . . . . . . . . . . . . . . . 6.091 17.996 9.917
- Treinamento e desenv. . . . . . . . . . . . . . . . . . 4.512 12.537 9.411
Aqui a resposta é individual, mas mesmo assim te faço um desafio: eu, o autor deste texto,
imaginei um salário normal para mim, já que encontrei o valor Z igual a – 1,20 (desprezei os
centavos). Qual salário imaginei, usando como média a coluna das médias salariais?
30
CAPÍTULO III
3.1 Percentil
Na verdade, já temos uma medida de posição estudada, que é a mediana.
Vimos que a mediana é o dado que divide o conjunto ordenado em duas partes
iguais, com 50% acima e 50% abaixo dela. E se quisermos encontrar a
porcentagem de dados que se encontra acima e abaixo de um dado qualquer? E se
quisermos encontrar o dado que divide o conjunto de dados em 20% e 80% do
total de valores?
De forma geral, nota-se que a porcentagem de valores que estão antes
ou depois de determinado dado é uma forma de analisar tais questões e analisar
diversos problemas. Já vimos que a mediana divide a seqüência em duas partes
que possuem 50% dos dados, mas agora vamos definir valores que podem
apresentar quaisquer posições num conjunto ordenado de dados.
Definição: Sejam X1, X2,...,Xn valores de uma amostra ou população de
uma variável X, dispostos em ordem crescente (ou decrescente). O p-ésimo
percentil é o valor X que divide essa seqüência em duas partes, tal que p% das
medidas são menores que esse valor, e (100-p)% dos valores da variável são
maiores que esse valor.
Estamos na seguinte questão: dado um valor, encontrar sua posição relativa
na seqüência ordenada dos dados. Numa espécie de “regra de três", ao
desejarmos encontrar a posição de um elemento X dentre os n valores que essa
variável assume, esse percentil p é dado por:
n 1 X 1
=
100% p%
Porém, não gastaremos tempo e neurônios com esses cálculos, pois vamos
usar a tecnologia para responder por tais cálculos, bastando, para isso, que
saibamos fazer a pergunta certa.
O conjunto de dados Receitas1.xls contém uma simulação de receitas
semanais, em reais, oriundos das vendas do refrigerante QuiPutz, da empresa Gole
da Goela S/C Ltda.
31
Se quisermos, no Excel, descobrirmos qual valor é o mediano, basta inserir
a função =MED(...). No intervalo de dados, selecione a coluna B2:B61,
encontrando o valor R$ 543,50.
Usar o percentil é muito fácil: se quiseres encontrar o termo que ocupa a
posição 20%, ou seja, 20% dos dados antes dele (consequentemente 80% depois
dele, desconsiderando minúcias matemáticas), basta usar o comando
=PERCENTIL(B2:B61;0,2). O valor R$ 477,60 fornece a idéia desse valor. O
comando =PERCENTIL(B2:B61;0,85), que retorna o valor R$ 702,90, fornece o
percentil 85%, ou seja, 85% dos dados abaixo dele.
Mínimo 250,00
1o Quartil 480,00
Mediana 543,50
3o Quartil 625,50
Máximo 920,00
Para essa função, veja como o Excel pede a informação de qual Quartil você
precisa:
32
Note que há 5 possibilidades, que gerarão uma seqüência muito falada em
livros de Estatística: seqüência ou diagrama dos 5 números. Esses 5 números
são: Mínimo (extremo inferior), 1º Quartil, Mediana, 3º Quartil e Máximo (extremo
superior).
Uma propriedade interessante dos quartis é o fato de que 50% dos dados
se encontram entre os quartis Q1 e Q3; em nosso exemplo, 50% dos dados estão
entre R$ 480,00 e R$ 625,50. Dessa forma, o valor R$ 550,00 está situado entre a
mediana R$ 543,50 e o quartil Q3, o que nos faz concluir que ele não é um valor
de considerável afastamento da mediana e da média, já que este conjunto de
dados não é tão assimétrico (a média é R$ 562,07). O tamanho desse segmento,
ou seja, 625,50 – 480,00 = 145,50 é chamado distância ou amplitude
interquartil.
Atenção: os próximos 4 parágrafos são explicações técnicas e matemáticas
para certos cálculos; são detalhamentos que não interferem nas análises que
necessitamos para nosso curso. Portanto, você pode pular esse detalhamento e ir
direto ao item 3.3, referentes ao interessante diagrama Boxplot.
Definição: Amplitude interquartil, que denotaremos por IQR
(interquartile range), é a medida da distância entre o menor e o maior quartil, ou
seja, Q3 - Q1.
Há fórmulas que podem ser usadas para se achar as posições dos termos
correspondentes aos quartis (a mediana já foi detalhada no texto 2):
n +1
Q1 = valor correspondente à posição .
4
3(n + 1)
Q3 = valor correspondente à posição .
4
Porém, há autores que definem de forma diferente tais cálculos (e
softwares também!), mas isso não atrapalha a essência de tais valores: pequenas
diferenças não alteram as análises dos conjuntos de dados.
33
Por exemplo, o software estatístico R, do qual falaremos um pouco mais à
frente, realiza o que em Matemática chamamos de interpolação: uma espécie de
“regra de três” que relaciona, geometricamente, a posição de determinado valor X
de uma variável e sua posição n. No caso do primeiro quartil, cujo percentil é
n 1 X 1
25%, vale a relação = . Omitiremos maiores detalhes dessa relação,
100% p%
uma vez que tal procedimento foge aos objetivos deste texto, o qual prevê o uso
do software R ou do Excel para o cálculo de tais valores, aproveitando nosso
tempo não para fazer esses cálculos, mas sim interpretá-los.
Mínimo 250,00
1o Quartil 480,00
Mediana 543,50
3o Quartil 625,50
Máximo 920,00
34
Interpretando o boxplot: O retângulo da figura anterior, representa três
valores: o segmento situado no interior do retângulo aponta o valor da mediana
(R$ 543,50), enquanto que os segmentos paralelos a esse, que são lados do
retângulo, representam os valores dos quartis Q1 (R$ 480,00) e Q3 (R$ 625,50).
Note que a distância entre esses segmentos, ou seja, o comprimento do retângulo,
é a medida da amplitude interquartil (IQR).
Os segmentos que se encontram nos extremos da linha pontilhada,
perpendicular ao retângulo, “costumam” indicar os valores extremos. Como assim,
“costumam”? Se os extremos não estiverem a 1,5×IQR para cima ou para baixo
dos quartis, então se considera que não há dados discrepantes, e tais segmentos
representam os extremos.
Porém, há dados bem distantes da mediana nesse conjunto de dados, e o
boxplot indica isso através das “bolinhas”: os valores R$ 250,00 e R$ 920,00 estão
a “mais de uma caixa e meia distantes da caixa”, para falar em linguagem para lá
de informal. Quando esses dados não são tão distantes, o boxplot não apresenta
tais bolinhas, como no desenho a seguir (veja que esse diagrama pode ser
desenhado tanto na vertical quanto na horizontal).
5 10 15
3.4 O software R
35
numa mesma linha. Para inserir uma seqüência qualquer de números reais,
escolhemos um nome para a mesma (por exemplo, valores), seguida da
seqüência entre parênteses, precedida da letra c. Por exemplo, o conjunto de
dados 1, 2, 3, 4, 5, 6, 7 será digitado assim:
Em caso de valores com decimais, use ponto ao invés de virgulas, uma vez
que as vírgulas são usadas como separadores de valores. No caso do conjunto de
dados usado para este capítulo, a seqüência ficou assim (o nome usado foi o
mesmo - receitas):
receitas=c(620,350,450,334,765,732,546,852,431,541,600,854,750,340,520
,650,610,668,920,250,380,400,580,510,650,660,480,708,606,418,489,702,610,62
0,503,590,558,642,890,768,509,540,568,480,476,490,506,400,368,525,498,
609,521,480,568,550, 478,511,540,560)
> hist(receitas)
> hist(receitas,xlim=c(200,1000))
36
Abaixo você terá comandos para as medidas e representações que já
estudamos:
> stem(receitas)
2|5
3 | 34578
4 | 002358888899
5 | 00111122344455667789
6 | 011112245567
7 | 013577
8 | 559
9|2
> mean(receitas)
[1] 562.0667
> median(receitas)
[1] 543.5
> sd(receitas)
[1] 139.1622
> boxplot(receitas)
> summary(receitas)
Min. 1st Qu. Median Mean 3rd Qu. Max.
250.0 480.0 543.5 562.1 625.5 920.0
3.5 Exercício
37
para cada corretora). Para cada ação selecionada, computou-se a porcentagem de
lucro apresentada durante um período fixado de tempo.
CORRETORA A CORRETORA B
Mínimo 38,00% 50,00%
1o Quartil 54,25% 53,50%
Mediana 55,50% 56,50%
3o Quartil 60,00% 58,00%
Máximo 70,00% 61,00%
(a) Com base nas informações dadas pelo Excel, faça um esboço dos possíveis
diagramas do tipo boxplot de ambas corretoras.
(b) Discorra sobre as vantagens/desvantagens de se escolher a corretora A ou
a corretora B.
(c) Observando as informações adicionais a seguir, calcule o valor Z para os
dados 50 e 59 da corretora B.
CORRETORA A CORRETORA B
Média 56,28% 55,78 %
Desvio Padrão 7,44% 3,14%
(a) Seus boxplots não precisavam ficar exatamente como os reais, abaixo indicados, porém, há
informações relevantes que devem existir na comparação entre ambos: as posições das
medianas, dos quartis e dos extremos. Se você não colocou as bolinhas no primeiro
boxplot, não há problema, pois em nosso curso utilizaremos média e desvio padrão para
dizer se um dado é discrepante ou não.
38
70
65
60
55
50
45
40
1 2
(b) Vantagens da corretora A: atingiu o maior valor de porcentagem (70%), e tem 25% de
dados entre 60% e 70%. Desvantagens da corretora A: possui também o menor valor
(38%), ou seja, tem a uma amplitude (dispersão) maior dos dados; os 25% dos dados
menores estão no intervalo [38%,54.25%]. Vantagens da corretora B: os dados são
mais concentrados, já que todos eles estão no intervalo [50%,61%]. A amplitude menor
(11%) em relação à corretora A (32%) é vantagem no caso de não se desejar altos riscos.
Desvantagens da corretora B: pouca expectativa de um rendimento maior que 60%, ao
contrário de B, que tem 25% dos dados acima desse valor.
(c) Para 50: Z = -1.84; para 59: Z = 1.03 (valores arredondados).
(d) Não há dados discrepantes, pois os valores Z dos máximos e dos mínimos dos dois
conjuntos de dados não são inferiores a – 3 nem superiores a 3 (calcule-os!).
39
CAPÍTULO IV
Probabilidades
• O que é “matematizar” a chance de algo ocorrer?
• Quais as principais leis de Probabilidades?
0 P ( A) 1 ou 0% P ( A) 100%
40
paus} e E={carta com número 7} não são mutuamente exclusivos, pois há carta
que satisfaz ambas características.
Ex.: de um período para outro, uma ação no mercado financeiro pode aumentar
seu valor, manter seu valor ou diminuir seu valor; são três eventos mutuamente
exclusivos.
P( A ) = 1 – P(A)
• Probabilidade Condicional
Exemplo: Pedro joga um dado cúbico equilibrado, mas João não consegue
ver a face que caiu. Pedro então lhe diz que a face voltada para cima é par. Qual a
probabilidade de João acertar a face que caiu?
Veja que a resposta pode ser formulada intuitivamente: 1/3, já que João
escolherá uma das faces 2, 4 ou 6 (a não ser que ele não saiba o que é um
número par).
Vamos refazer este problema, a fim de introduzirmos uma nova notação e
uma nova fórmula: qual a probabilidade de ter saído face 4, sabendo que ocorreu
face par? Veja que há dois eventos em questão: A = sair face 4 e B = ocorrer face
par. Em símbolos:
41
A = {4} e B = {2, 4, 6}
O que se deseja é: calcular a probabilidade de ocorrer face 4, sabendo que
ocorreu face par. Há uma notação específica para esta pergunta: a probabilidade
de ocorrer o evento A sabendo que ocorreu B é representada por P ( A | B ) , que
se lê: “probabilidade de A, dado B”. Esclarecida esta notação, podemos então
enunciar a 3ª lei de probabilidades:
P( A e B) = P( A | B) × P( B)
fica equivalente a
P ( A e B ) = P ( A) × P ( B )
42
primeiro círculo você encontrar uma bola, vá para a próxima faixa e repita o
processo. Caso contrário, se você encontrar um X, perdeu o jogo. Em cada faixa
há apenas um círculo que contém uma bola escondida. Os outros são todos X .
Tente chegar ao gol do prêmio, raspando apenas nas bolas, sem nunca encontrar
um X. A probabilidade de ganhar o prêmio numa cartela como a da figura a
seguir, é: (1/3)×(1/4)×(1/3)×(1/4) = 1/144
prêmio
4a faixa
3a faixa
2a faixa
1a faixa
início
43
Questões possíveis: escolhendo-se uma pessoa ao acaso, calcular a
probabilidade de:
(a) Ser do sexo feminino;
(b) Ser do sexo masculino;
(c) Ser da faixa A;
(d) Ser da faixa B;
(e) Ser do sexo feminino e ser da faixa A;
(f) Ser do sexo masculino e ser da faixa B;
(g) Ser do sexo feminino, sabendo que é da faixa A;
(h) Ser da faixa A, sabendo que é do sexo feminino.
4.3 Exercícios
3. Suponha agora outro cenário para o problema anterior: Agripino aplicará toda
a quantia financeira em apenas uma das aplicações. Agripino escolherá a
aplicação lançando uma moeda, decidindo pela aplicação A se o resultado for
“cara”, e decidindo pela aplicação B se o resultado for “coroa”. Calcule a
probabilidade de que a aplicação que Agripino fizer lhe dê um rendimento
44
maior que 1%. (Sugestão: caso não esteja conseguindo resolver este
problema, monte um “diagrama de árvore”)
45
4.4 Respostas dos exercícios
46
CAPÍTULO V
47
literatura estatística é comum o uso das expressões "Sucesso" e
"Fracasso", que não devem ser entendidas em seu senso comum,
mas sim como "ocorre o evento analisado" e "não ocorre o evento
analisado", respectivamente†.
3ª) A probabilidade de sucesso, em cada observação, vale p, o que nos
leva à conclusão de que a probabilidade de fracasso é 1-p;
4ª) As n observações são independentes entre si, ou seja, o resultado da
primeira observação não interfere no resultado da segunda
observação, e assim por diante (em problemas como “retiradas
sucessivas de uma bola em urna”, deve-se considerar que cada bola
retirada é reposta antes da retirada seguinte).
48
5.4 O Cálculo da probabilidade
49
problema que mostre a aplicação das fórmulas acima, e sua conseqüente entrada
de dados nesse software.
Problema: suponha que uma determinada ação tem 50% de chances de
ter seu valor aumentado em cada dia útil e, conseqüentemente, 50% de chances
de manter ou diminuir seu valor. Em três dias seguidos de observação, qual a
probabilidade dessa ação aumentar exatamente 2 vezes o seu valor?
Probabilidade de ocorrer sucesso (aumentar o valor da ação): p = 0,5.
Probabilidade de ocorrer fracasso (diminuir o valor): 1–p=1–0,5=0,5.
Número de eventos: n = 3.
Número de sucessos: x = 2.
Número de fracassos: n – x = 3 – 2 = 1
Probabilidade de ocorrer exatamente 2 sucessos (2 vezes aumento no valor
3!
da ação): P(2) = .(0,5) 2 .(0,5)1
2!.(3 2)!
O resultado é: P(2) = 3.0,25.0,5 , ou seja, P(2) = 0,375 = 37,5%
Para este exemplo, o Excel calculará da seguinte maneira:
DISTRBINOM
(núm;tentativas;probabilidade;cumulativo)
Núm é o número de sucessos.
Tentativas valor de n (total de eventos)
Probabilidade probabilidade de sucesso em cada
tentativa.
Cumulativo FALSO para probabilidade exata,
VERDADEIRO para probabilidade acumulada até o valor “Núm”.
50
deduz que a ação pode não subir, subir uma vez ou subir duas vezes. No Excel,
basta efetuar o seguinte comando: DISTRBINOM(2; 3; 0,5; VERDADEIRO).
Compare ambas as respostas:
DISTRBINOM(2; 3; 0,5; FALSO) = 0,375
DISTRBINOM(2; 3; 0,5; VERDADEIRO) = 0,875
Em símbolos, no primeiro caso temos P(2) e, no segundo, P(X 2).
Vamos então ampliar o problema com outros números: em 10 dias úteis
seguidos e estimando-se que essa ação tem 70% de chances de ter seu valor
aumentado em determinado dia, calcule a probabilidade de que essa ação
aumente:
(a) exatamente 6 dias: DISTRBINOM(6; 10; 0,7; FALSO)
(b) exatamente 2 dias: DISTRBINOM(2; 10; 0,7; FALSO)
(c) no máximo 3 dias: DISTRBINOM(3; 10; 0,7; VERDADEIRO)
(d) no mínimo 4 dias: 1 – DISTRBINOM(3; 10; 0,7; VERDADEIRO)
5.7 Exercícios
2) Uma urna tem 12 bolas, das quais 9 são verdes, 2 são brancas e uma é
azul. Sorteia-se aleatoriamente uma bola dessa urna, verifica-se sua cor
e devolve-se essa bola na urna. Fazendo-se esse processo três vezes
seguidas, ou seja, retirando-se três vezes com reposição uma bola
dessa urna, calcule a probabilidade de que ocorra:
(a) bola verde nos três sorteios;
(b) não ocorrer bola verde em qualquer dos três sorteios.
3) Suponha que uma determinada ação tem 80% de chances de ter seu
valor aumentado em cada dia útil e, conseqüentemente, 20% de
chances de diminuir seu valor. Em quatro dias seguidos de observação,
qual a probabilidade dessa ação aumentar:
(a) Exatamente 3 vezes o seu valor?
(b) Exatamente 4 vezes o seu valor?
(c) Pelo menos 3 vezes o seu valor?
(d) Pelo menos duas vezes seu valor?
51
5) Sabe-se que numa linha de produção 10% das peças são defeituosas, e
as peças são acondicionadas em caixas com 5 unidades. Seja x a
variável aleatória igual ao número de peças defeituosas encontradas
numa caixa (observe que x assume valor de 0 a 5). Calcule a
probabilidade de uma caixa qualquer conter:
(a) exatamente 3 peças defeituosas;
(b) duas ou mais peças defeituosas;
52
CAPÍTULO VI
Distribuições de Probabilidades:
Histogramas e Medidas
53
Número de caras Probabilidades
0 0,0010
1 0,0098
2 0,0439
3 0,1172
4 0,2051
5 0,2461
6 0,2051
7 0,1172
8 0,0439
9 0,0098
10 0,0010
54
Lançamento de um dado
0,2
probabilidades
0,15
0,1
0,05
0
1 2 3 4 5 6
resultados
0,3000
0,2000
0,1000
0,0000
0 1 2 3 4 5 6 7 8 9 10
Número de caras
Vendas de WW
0,4
0,35
P ro b ab ilid ad es
0,3
0,25
0,2
0,15
0,1
0,05
0
3 4 5 6 7
Milhares de reais
55
Vendas de ZZ
0,35
0,3
Probabilidades
0,25
0,2
0,15
0,1
0,05
0
1 2 3 4 5 6 7 8
Milhares de reais
56
modelo matemático que estamos construindo, uma vez que estamos trabalhando,
em todos os exemplos que seguem, por meio de uma sucessão de determinado
experimento realizada várias vezes (assim como o dado foi lançado inúmeras
vezes, os valores de vendas dos exemplos 3 e 4 também foram coletados a partir
de várias semanas).
Mas qual o cálculo que pode ilustrar o valor 3,5 previamente, sem termos
que lançar um dado inúmeras vezes ou mesmo simular esse procedimento com o
Excel?
O raciocínio é similar ao cálculo de uma média aritmética ponderada; se
lançarmos um dado 600 vezes, o que se espera é que ocorra um valor muito
próximo de 100 vezes a face 1, 100 vezes a face 2, 100 vezes a face 3, 100 vezes
a face 4, 100 vezes a face 5 e 100 vezes a face 6. Veja como seria o cálculo da
média.
100 × 1 + 100 × 2 + 100 × 3 + 100 × 4 + 100 × 5 + 100 × 6
média =
600
Esse cálculo resulta em 3.5, conforme já havíamos imaginado, porém veja
como isso pode ser explicado por meio de probabilidades:
100 × 1 + 100 × 2 + 100 × 3 + 100 × 4 + 100 × 5 + 100 × 6
=
600
100 × 1 100 × 2 100 × 3 100 × 4 100 × 5 100 × 6
+ + + + + =
600 600 600 600 600 600
1× 1 1× 2 1× 3 1× 4 1× 5 1× 6
+ + + + + =
6 6 6 6 6 6
1 1 1 1 1 1
× 1 + × 2 + × 3 + × 4 + × 5 + × 6 = 3,5
6 6 6 6 6 6
Sabemos que 1/6 é a probabilidade de cada resultado em particular.
Formalizando a idéia: cada resultado possível é multiplicado pela sua
probabilidade, e a média (valor esperado) resulta da soma desses
cálculos.
No exemplo 3, o gerente da empresa WW tem uma forte intuição de que as
vendas da próxima semana ficarão em torno de 4 a 6 mil reais; qual será a média
semanal esperada para essa empresa? Basta realizar o cálculo semelhante ao
exemplo anterior do dado, multiplicando cada resultado possível pela sua
probabilidade.
57
µ = 0,05 × 3 + 0,20 × 4 + 0,35 × 5 + 0,30 × 6 + 0,10 × 7
µ = 5,2
Isso significa que 5,2 milhares de reais é o valor esperado das vendas na
próxima semana. Dessa forma, analise a oração anteriormente descrita para
resumir a forma de se efetuar o cálculo: cada resultado possível é
multiplicado pela sua probabilidade, e a média (valor esperado) resulta
da soma desses cálculos. Formalizando, temos:
Sejam x1, x2, ... , xn os resultados possíveis de uma variável aleatória, e
sejam p1, p2, ... , pn as respectivas probabilidades desses resultados. Chamamos
de média ou valor esperado da variável x ao valor µ tal que:
µ = p1 × x1 + p 2 × x 2 + ... + p n × x n
Um resumo para essa fórmula é dado por: µ= pi × xi , ou, para
n
VARIÂNCIA:
2
= (p
i ( xi µ )2 )
DESVIO PADRÃO: = pi ( xi µ )2
58
Não abordaremos aqui a explicação matemática dessa formulação, porém
vamos intensificar a forma de usar e entender esse resultado; lembre-se que a
primeira idéia de desvio padrão que deve vir ao seu pensamento ao lhe ser
solicitado um significado é: “medida de espalhamento”. É uma espécie de “média”
dos desvios de cada valor em relação à média. Quanto maior o desvio padrão,
mais afastados da média estão os valores; reciprocamente, quanto menor o desvio
padrão, mais concentrados em torno da média estão os dados.
µ = n. p
= n. p.(1 p )
Nessa fórmula, n é o número de eventos, e p é a probabilidade de sucesso.
No exemplo do lançamento de 10 moedas, em relação ao número de caras, temos:
1
µ = n.p = 10. = 5 ; e 5 não é realmente o resultado mais provável?
2
Para o desvio padrão, temos:
E = n.p.(1 - p) = 10.0,5.(1 - 0,5) 1,58
6.5 Exercícios
1. O lucro líquido da empresa para o ano que vem foi estimado de acordo com
as seguintes probabilidades:
Cenário Lucro (em Probabilidade
milhões de u. m.)
Excelente 10 20%
Bom 5 40%
Sofrível 1 25%
Ruim -4 15%
Calcule o valor esperado de lucro dessa empresa. Calcule também o desvio
padrão.
59
2. Um analista de mercado estimou que os preços da ação GHTW para os
próximos doze meses é a variável aleatória registrada na tabela seguinte.
(a) Calcular o valor esperado e o desvio padrão.
(b) Determine o primeiro intervalo da regra empírica para o desvio padrão.
Preço Probabilidade
$ 10 10%
$ 14 25%
$ 19 35%
$ 24 20%
$ 30 10%
3. Suponha que você tem em mãos uma moeda viciada, ou seja, uma moeda
na qual as probabilidades para cada resultado não são iguais (ou seja, não
são de 50% para cada face). Sabendo que esta moeda tem 25% de
chances de sair cara:
(e) Calcule a probabilidade de, em 10 lançamentos, ocorrer exatamente
2 caras.
(f) Calcule a média (valor esperado) para a variável “o número de caras
a serem obtidos em 10 lançamentos”.
(g) Calcule o desvio padrão para a variável do ex. (b).
(h) “É improvável que ocorram exatamente 8 caras em 10 lançamentos
dessa moeda”. Mostre como o item (c) pode ser utilizado para
explicar a essa afirmação.
60
6.6 Respostas dos exercícios
61
CAPÍTULO VII
62
claro que não! Todo histograma de probabilidades terá essa característica, ou seja,
delimitar uma região que possui área igual a 1.
0,3000
0,2000
0,1000
0,0000
0 1 2 3 4 5 6 7 8 9 10
Número de caras
63
Nesse tipo de cálculo de probabilidades, fará sentido calcularmos, por
exemplo, uma probabilidade de encontrarmos uma pessoa que tenha entre 1,73 e
1,76m de altura.
-3 -2 -1 0 1 2 3
64
trabalhar? Geralmente às 7h50, mas às vezes um pouco antes, um
pouco depois, raramente às 8h10 ou 7h30...
c) O peso um pacote de salgadinhos deve ser 200g. Registros indicam que,
em inúmeras pesagens, verificou-se que o peso médio verificado
realmente é 200g, mas há inúmeras medidas observadas: 198.2, 200.6,
200.2, 199.5, 198.6, 199.4, e assim por diante.
65
Nessa fórmula, usávamos X como média da amostra, mas os livros de
estatística costumam representar por µ a média esperada da população. A mesma
mudança ocorre para o desvio padrão: ao invés de usarmos S, que era o desvio
padrão da amostra, usaremos a letra que representa o desvio padrão da
população. No exemplo (a) das alturas temos o eixo Z padronizado da seguinte
forma:
-3 -2 -1 0 1 2 3
1,40 1,50 1,60 1,70 1,80 1,90 2,00
66
Veja a seguir os desenhos referentes a essas probabilidades.
-3 -2 -1 0 1 2 3
Probabilidade para Z > 1
-3 -2 -1 0 1 2 3
67
7.5 Como calcular a probabilidade de um intervalo a partir do(s)
valor(es) Z de seu(s) extremo(s).
1ª FORMA: Excel
Tomemos como exemplo a questão (b), que pede a probabilidade de
escolher uma pessoa com mais de 1.80m. Veja o comando a seguir, e seu
respectivo resultado:
DIST.NORM(1,80;1,70;0,10;VERDADEIRO)
Resposta: 0,8413447
Através desse comando, você não precisa calcular o valor Z. Veja a ajuda
do Excel para uma explicação detalhada:
DIST.NORM(x;média;desv_padrão;cumulativo)
1,80 1,70
Porém, sabendo o valor Z, ou seja, executando o cálculo Z = z
0,10
= 1, você terá o comando simplificado: Com isso, basta digitar:
DIST.NORMP (1)
Resposta: 0.8413447
Voltemos ao exemplo: é claro que tal probabilidade não deve ser de
84,13%. O que o programa fez foi calcular a área que se situa antes do valor
1.80m. Logo, o usuário do software deve subtrair de 1 esse valor. Isso pode ser
feito diretamente no software, digitando:
1 – DIST.NORMP (1)
Resposta: 0.1586553
Ou seja, a área à frente do valor Z=1 vale 0,1586553, o que dá a
probabilidade aproximada de 15,87.
Veja que se perguntássemos a probabilidade de uma pessoa ter menos que
1.80m de altura, a resposta seria aquela primeiramente obtida, ou seja:
DIST.NORMP (1)
Resposta: 0.8413447
Mais uma observação: devido à simetria da curva gaussiana, a
probabilidade da medida ser menor que 1.60m é a mesma que ser maior que
68
1.80m (as regiões são iguais!). Como 1.60m tem seu valor z= –1, entendemos que
a probabilidade para z > 1 é igual a probabilidade para z < -1:
DIST.NORMP (-1)
Resposta: 0.1586553
Para calcular o valor da probabilidade do exemplo (c), ou seja, para –1 < Z
< 1, temos as seguintes formas:
> 1-2*DIST.NORMP(-1)
Resposta: 0.6826895
69
Segunda decimal de Z
Z
7.6 Exercícios
70
b) P(150<x<190)
c) P(150<x<180)
6. Num lote de 600 peças, as massas dessas peças têm distribuição normal,
com média de 65,3g e desvio padrão de 5,5g. Encontre o número esperado
de peças com massas:
d) entre 60,0 e 70,0g;
e) superiores a 63,2g.
f) há um valor, em gramas, para o qual espera-se que apenas 10% das
peças tenham massa menor que ele. Determine esse valor.
7. Uma máquina automática para encher garrafas está regulada para que o
volume médio de refrigerante em cada garrafa seja de 2 litros e o desvio
71
padrão de 20ml. Pode-se admitir que o volume de refrigerante nas garrafas
tenha distribuição normal.
a) qual a porcentagem de garrafas em que o volume de refrigerante é
inferior a 1965 ml?
b) Se as garrafas são embaladas em pacotes com 6 unidades cada um,
qual a probabilidade de que um pacote, escolhido aleatoriamente,
contenha pelo menos uma garrafa com volume de refrigerante
inferior a 1965 ml?
c) Sabendo-se que um supermercado vende em média por semana
2500 dessas garrafas de refrigerante, com desvio padrão de 80
garrafas e distribuição normal, de quantas garrafas deve ser o seu
estoque semanal para que a probabilidade de que falte esse tipo de
refrigerante numa determinada semana seja de apenas 3%?
1.
(a) 1,33 desvio acima da média (b) 75
2.
a) P(x>190) = 0.02275013 (aprox. 2,28%)
b) P(150<x<190) = 0.9544997 (aprox. 95,45%)
c) P(150<x<180) = 0.8185946 (aprox. 81,86%)
3.
a) P(x<25) = 0.6914625 (aprox. 69,15%)
b) P(20<x<30) = 0.7333135 (aprox. 73,33%)
4.
a) Aqui há diferenças possíveis entre as resoluções. Veja:
Com o Excel: DIST.NORMP(-0.875) = 0.1907870
Com a tabela: 18,94% (arredondamento “para cima”, na tabela. Por exemplo: 0,875
arredondei para 0,88).
b) Com o Excel (veja que fácil!):
DIST.NORMP(- 0.875) - DIST.NORMP(-2.125) = 0.1739936 (aprox. 17,40%)
Com a tabela:
P(250<x<350) = (b)17,28% (arredondamento feito da mesma forma que em (a))
c) P(X<250 ou X> 450,00)
Com o Excel (veja que fácil!): DIST.NORMP(-2.125)+(1- DIST.NORMP(0.375)) = 0.3706235
(aprox. 37,06%)
Com a tabela:
P(X<250 ou X> 450,00) = 36,86% (idem)
d) Este item é mais fácil de ser feito com a tabela (com o Excel também é possível, porém são
necessárias algumas tentativas): a resposta é 455,20 u.m.
5.
a) P(X<180)=0.0668072 (aprox. 6,68%)
b) P(180<X<300)= 0.8663856 (aprox. 86,64%)
c) Com tabela: P(110<X<180)= aprox. 6,66%
72
Veja com é fácil no Excel: DIST.NORMP(-1,5) - DIST.NORMP(-3.25) = 0.06623018
d) Isso significa que a área correspondente é 0,01. Procuremos na tabela (ou no R) o valor Z
para o qual a área vale 0,99 (que é o complementar). O valor mais adequado da tabela é
0,9901, cujo valor Z é 2,33. Entendendo o que isso significa: 99% dos possíveis tem valor
Z menor que 2,33. Por simetria (faça o desenho!), 1% dos dados têm valor Z menor que -
2,33. Resolvendo uma equação com a fórmula do valor Z, chegamos a X=146,8, ou seja,
147 segundos.
6.
a) 380
b) 389
c) A forma de resolução é idêntica à do item (d) do ex. anterior. Observe que o valor
Z, procurado na tabela, que melhor o auxilia a responder a pergunta é Z= 1,28, o
qual deverá ser usado em seu valor negativo (no Excel você pode usar diretamente
o valor -1,28). A resposta é: 58,26g
7.
a) 4%
b) 0,2172
c) 2650
73
CAPÍTULO VIII
Distribuições Amostrais
8.1 Distribuições Amostrais para Média Aritmética
Neste item trabalharemos com uma técnica estatística bastante útil para
processos em administração: distribuições de probabilidades geradas por meio de
várias amostras. Observe que a técnica de amostragem é extremamente usada em
diversas situações: ao experimentar uma pequena porção de arroz, enquanto está
ainda na panela, você tem idéia se acertou ou não na quantidade de sal e
tempero, sem precisar comer todo o conteúdo da panela. Outro exemplo: não é
necessário (talvez nem possível) que todos os pneus (parafusos, livros, cd’s,
lapiseiras, pacotes de bolacha etc) de uma linha de fabricação sejam coletados, a
fim de se observar a presença ou não de um determinado tipo de defeito; alguns
são escolhidos aleatoriamente a fim de verificar qual é a proporção de defeitos.
Iniciemos realçando duas nomenclaturas: parâmetro é uma medida
numérica (média, mediana, desvio padrão etc) que descreve uma população;
estatística é uma medida numérica que descreve uma amostra. Continuaremos a
usar a letra grega µ para indicar a média da população (que é um parâmetro), e
passaremos a usar a notação X para a estatística de uma amostra.
Para que você entenda o processo de se fazer uma distribuição de
probabilidades por meio de amostras, iniciaremos, assim como já o fizemos outras
vezes, com um exemplo simples de um dado; mais adiante expandiremos o
raciocínio construído para problemas contextualizados.
Exemplo 1:
Suponha que um jogo de apostas consiste no seguinte procedimento: uma
pessoa joga um dado por quatro vezes seguidas e, em seguida, é calculada a
média aritmética dos pontos que obteve nas faces voltadas para cima. Cada ponto
vale R$ 1,00. Qual é o valor mais provável que uma pessoa pode receber?
Antes de resolver esse problema, vamos retomar um conceito trabalhado
em Estatística I, conhecido como esperança matemática; na ocasião, usamos o
título “valor esperado de uma variável aleatória discreta”. Se pensarmos
apenas no lançamento de um dado, multiplicamos cada valor possível, em reais,
pela respectiva probabilidade de ocorrência desse valor:
1 1 1 1 1 1
E = ×1 + × 2 + × 3 + × 4 + × 5 + × 6 E = 3,5
6 6 6 6 6 6
74
Em símbolos, a definição de valor esperado‡ ficou: E= (x i .P(x i ))
Ou seja, o mais provável de acontecer é você receber um valor próximo a
R$ 3,50. Hei !!! Mas não há face 3,5 no dado!!!
É verdade que não há face 3,5 no dado, mas também é verdade que não se
costuma fazer amostragem retirando-se apenas um elemento de uma população.
Voltemos então ao problema original, com uma situação mais ampla: dez pessoas
vão participar do jogo, ou seja, cada uma das dez pessoas irá lançar um dado 4
vezes para, em seguida, calcular a média aritmética dos quatro lançamentos, para
cada pessoa.
Através de um software estatístico (com o Excel isso também é possível)
foram realizadas algumas simulações para quatro lançamentos de um dado. Veja
os resultados, e respectivas médias:
Valores médias
2442 3
2613 3
6353 4,25
5115 3
4153 3,25
5242 3,25
1644 3,75
1453 3,25
6436 4,75
3644 4,25
X = 3,575
Portanto, veja que os valores apresentados pelas médias amostrais nos
indicam que a tendência, ou seja, o resultado provável (valor esperado, ou
esperança matemática) situa-se nas proximidades de R$ 3,50.
Assim, com as médias das amostras construímos a distribuição de
freqüências das mesmas, conhecida como distribuição amostral, que tem,
teoricamente, média amostral igual à média da população, embora o desvio
‡
No exemplo do dado, temos E= (x i .P(x i )) = x 1 .P(x1 ) + x 2 .P(x 2 ) + ... + x 6 .P(x 6 ) .
75
padrão seja diferente: chamaremos de erro padrão o desvio padrão da
distribuição amostral, que é calculado com a seguinte fórmula:
X
=
n
Nessa expressão, entenda-se que é o desvio padrão da população (note
que estamos assumindo como conhecidas a média e o desvio padrão da
população); a notação X , conhecida como erro padrão, é o desvio padrão das
amostras selecionadas, enquanto que n é o tamanho de cada amostra (cuidado
para não confundir com o número de amostras; este, por sua vez, deve ser
grande, quanto mais amostras, melhor confiabilidade na média amostral e no erro
padrão).
Para trabalhar com o cálculo de probabilidades (com ou sem o Excel), a
fórmula para achar o valor Z da média da amostra ficará assim:
X µ X µ
Z= , ou seja,
Z=
X
n
76
seria um gráfico com o formato de uma distribuição uniforme, já que as
chances de ocorrer cada uma das faces são iguais.
Para “piorar” essa situação, perceba que podemos fazer amostras a partir
de dados que não tenham sua variável se comportando de maneira normal
(gaussiana); a palavra “piorar” está entre aspas pelo seguinte fato:
8.3 Exercícios
§
Texto do teorema extraído de Levine et al (2000)
77
c) se afirmação do fabricante é verdadeira, qual é a probabilidade de
que a amostra de 40 pneus tenha duração média entre inferior a
57.500 km? Analise o resultado.
78
CAPÍTULO IX
79
Isso é feito através da tabela, de maneira invertida ao que costumeiramente
fizemos nos textos anteriores: como se pede 95% de confiança, a área restante,
situada nas duas caudas, é de 5%, cujo valor é dividido em duas partes de 2,5%
cada. Na tabela, procuramos o valor Z referente à área 0,025 através do valor
complementar, ou seja, 1 – 0,025 = 0,975.
Por meio dessa área, encontramos Z=1,96. Porém, note que o intervalo tem
um extremo maior (que será obtido por meio de 1,96), mas tem também um
extremo menor; este deverá ser obtido através de Z=– 1,96.
No texto anterior trabalhamos com a expressão:
X µ
Z=
µ = X ± Z '.
n
Chamamos o valor Z de Z’ na expressão acima para que você se lembre de
fazer as passagens anteriormente descritas (dividir a porcentagem destinada às
caudas por 2), embora boa parte dos problemas use algumas porcentagens
padrão: usa-se muito o nível de confiança 95% (que nos levou a Z=±1,96), 90%
(que leva a Z=±1,65) e 99% (que leva a Z=±2,58).
Assim, no exemplo proposto, teremos a seguinte estimativa para a média:
0,5
µ = X ± 1,96. µ = 5,2 ± 1,96. µ = 5,2 ± 0,196
n 25
80
[ ]
Assim, o intervalo previsto para a média é 5.004;5.396 . O que isso
significa?
• Se várias amostras de 25 elementos forem selecionadas
aleatoriamente (o que, na prática, dificilmente é feito), 95% delas
terão, provavelmente, a média aritmética situada entre 5,004cm e
5,396cm.
• Significado principal: Há 95% de chances de que a média de toda a
população de peças do exemplo considerado esteja numa medida
entre 5,004cm e 5,396cm.
E se não se dispuser do valor do desvio padrão da população? Nesse caso,
é necessário utilizar-se do Teorema do Limite Central, adotando o desvio padrão
da amostra como referência, desde que a amostra seja suficientemente grande,
conforme enunciado do Teorema, trabalhado no texto anterior. Para amostras
pequenas (n < 30), teremos um tratamento especial, a ser estudado no próximo
texto.
valor ( Z '. ), que é conhecido como “erro de estimativa”. Esse erro pode ser
n
calculado no Excel pela função =INT.CONFIANÇA. São necessárias as inserções de
três informações (conforme se pode notar pela figura a seguir): o erro tolerável
(100% - nível de confiança), o desvio padrão e o tamanho da amostra.
Atente para o seguinte fato: na primeira informação, você deve inserir o
complementar da porcentagem que indica o nível de confiança adotado. Vejamos
os níveis de confiança mais usados:
Nível de 90% digite 10% ou 0,1
Nível de 95% digite 5% ou 0,05
Nível de 99% digite 1% ou 0,01
81
Os dados da figura se referem ao exemplo deste texto. Note que, mesmo
antes de pressionar enter, a “janela” acima já indica, na parte inferior, o valor a
ser somado com a média 5,2, ou seja, 0,195996..., o qual no texto aparece
arredondado para 0,196.
9.4 Exercícios
82
3. Um novo produto comestível será lançado no mercado, e a empresa fez um
teste com 64 pessoas antes de distribuir esse produto no mercado,
procurando avaliar vários itens do produto. No quesito “sabor”, os
respondentes atribuíram notas que variavam de 20 a 70 pontos, mas a
média obtida nessa amostra foi de 50 pontos. Utilizando como desvio
padrão populacional o valor 16 pontos, determine um intervalo com 95% de
confiança para a média esperada de pontuação para o caso desse produto
ser consumido por uma população bem mais abrangente que apenas esses
64 consumidores.
[ ] [ ]
1. (a) 138.44; 143.46 (b) 138.84; 143.06 (c) quanto maior for a exigência na
confiabilidade, ou seja, porcentagem maior, mais extenso será o intervalo, a fim de que o
mesmo apresente segurança para que contenha a média da população; ao reduzirmos o
intervalo, também reduzimos o intervalo de confiança, ou seja, ampliamos a porcentagem
de erro.
2. [5.608;6.392]
3. [46.08;53.92]
4. [9.59%;11.35%]
5. (a) [79 .03;82 .97 ] (b) [78 .65;83 .35] (c) [77 .91;84 .09 ]
83
CAPÍTULO X
84
µ = X ± t. A
85
Dessa forma, a expressão para o intervalo de confiança fica assim:
295,72
µ = 1122,7 ± 2,03. . Realizando os cálculos, chegamos ao intervalo pedido,
36
que é [1.022,65 ; 1.222,75].
Um interessante resumo (TRIOLA, p.260, 2005) pode ser usado para decidir
se devemos usar a distribuição Z, a distribuição T ou algum método avançado.
Veja a tabela a seguir (com os respectivos comandos utilizados por nós junto ao
Excel):
Método Condições
Use a distribuição normal Z conhecido e população
(DIST.NORMP) normalmente distribuída
OU
conhecido e n > 30
Use a distribuição T (INVT) desconhecido e população
normalmente distribuída
OU
desconhecido e n > 30
Métodos avançados (não-paramétricos População não é normalmente
ou bootstrap) distribuída e n q 30
Observações finais:
(a) Critérios para decidir se a população é ou não normalmente
distribuída: a população não precisa ser exatamente normal, mas deve
86
parecer simétrica de alguma forma, com uma única moda e sem dados
discrepantes (outliers).
(b) Tamanho amostral n > 30: é uma diretriz comumente usada, mas
tamanhos amostrais de 15 a 30 são adequados se a população parece ter
uma distribuição que não se afasta muito da normal e se não há outliers.
Para algumas distribuições populacionais que se afastam extremamente da
normal, o tamanho amostral pode precisar ser maior do que 50, ou mesmo
100.
10.4 Exercícios
Máquina A B C D E F G H
Sem 10,5 8,7 9,2 10,0 9,5 8,9 11,2 12,0 horas
alteração
Com 9,0 8,9 7,8 7,3 8,0 8,0 9,5 10,0 horas
alteração
Construa dois intervalos de 95% confiança para médias de tempos de toda a
população de máquinas: um com a amostra sem a alteração, e outro para a
amostra com os novos dispositivos, admitindo que os dois conjuntos de dados
possuem certa semelhança com uma distribuição normal.
87
4. Refaça o exercício anterior, usando 90% para nível de confiança, porém,
antes de fazer os cálculos, responda: espera-se um intervalo menor ou
maior que o obtido nesse exercício?
6. Um lote de 100 ações teve uma variação média mensal de 1,02% no último
período, com desvio padrão 0,09%. Sabendo que essas ações fazem parte
de um conjunto de 2.412 ações de uma empresa, pergunta-se:
(a) Para determinar, com 95% de confiança, um intervalo que
contenha a média percentual de rendimentos de todas as
ações dessa empresa, você utilizaria valores z (da distribuição
normal padronizada) ou valores t (da distribuição t de
Student)? Justifique sua resposta.
(b) Determine esse I.C. usando essas duas opções, e comente os
resultados obtidos.
1. [9,.03; 10.97] sem os novos dispositivos, e [7.78; 9.34] com os novos dispositivos; note
que a unidade para todos os dados numéricos é “horas”
2. [13.24; 22.76] note que a unidade para os dados numéricos é “pontos percentuais”
3. [7,086 ; 7,513]
4. Menor, pois é possível aumentar a precisão do intervalo somente se aumentarmos o risco,
ou seja, diminuirmos o nível de confiança. Geometricamente é possível observar que, ao se
desenhar uma área menor na curva, teremos conseqüentemente um intervalo menor. O IC
obtido é [7,1247 ; 7,4753]
5. 99%
6. Não olhe a resposta antes de ter pensando nessa pergunta!
(a) valores t, uma vez que não é conhecido o desvio padrão da população toda das 2.412
ações, mas somente o desvio padrão amostral (note que na expressão do I.C. com valores
z o desvio padrão é da população ( ), enquanto na expressão com valores t o desvio
padrão é da amostra ( A ); além disso, não foi afirmado se a população é normalmente
distribuída; como o número de elementos da amostra n é maior que 30, tal situação se
enquadra nas condições do uso do valor t.
(b) Com valor t: [1,002%; 1,038%] e com valor z [1,002%; 1,038%]; as respostas, apesar de
estarem iguais, não são exatamente as mesmas, em termos de precisão matemática, já
que tais valores estão aproximados com 3 casas decimais. Porém estatisticamente isso
mostra que quanto maior o número de elementos de uma mostra, mais a distribuição t se
torna próxima da distribuição z. Isso pode ser aceito, apesar de não se ter , porque o
desvio padrão para n razoavelmente grande tende a se tornar mais próximo do desvio
padrão da população.
88
CAPÍTULO XI
89
11.2 Continuando a Inferência Estatística: Distribuição de
Amostragem de Proporções
Numa amostra de n elementos, sobre os quais é avaliada a presença ou
não de certo atributo, vamos chamar de pa a proporção deles que possui a
característica que está sendo estudada. Veja a fórmula a seguir.
X número de sucessos
pa = =
n tamanho da amostra
A proporção da amostra pa é um número entre 0 e 1 (é uma
porcentagem!); enquanto a média aritmética da amostra X é um meio de calcular
a média aritmética da população µ , a estatística pa é um meio de calcular a
proporção da população p. Por analogia à distribuição de amostragem da média
aritmética, o erro padrão dessa proporção satisfaz a seguinte expressão (o qual
também tem a “participação do Teorema do Limite Central”):
p (1 p )
pa =
n
Dessa forma, para se calcular probabilidades específicas em determinados
intervalos, podemos inserir esses valores na fórmula do valor Z, obviamente,
X µ pa p
dentro das condições apresentadas até aqui:
Z= Z= , de
n n
onde se chega à fórmula
pa p
Z=
p (1 p )
n
Exercício: O gerente de determinado setor de uma grande agência bancária
afirmou que 40% dos depositantes aplicam na modalidade W de aplicação. Ao se
escolher uma amostra aleatória de 200 clientes, qual a probabilidade de que a
proporção da amostra seja:
(a) menor que 43%
(b) entre 40 e 43%
Resolução:
0,43 0,40 0,03
(a) Z = Z= Z = 0,87
0,40 (1 0,40) 0,24
200 200
90
Usando o comando =DIST.NORMP(0,87), encontramos o valor 0,8078, ou
seja, 80,78% é a probabilidade da amostra apresentar uma proporção menor que
43% de clientes que aplicam na modalidade W.
(b) para a proporção entre 40% e 43%, basta fazer 0,8078 – 0,5000 =
0,3078, já que 40% é a média esperada (faça um desenho!). Explicitando o
resultado, entendemos que 30,78% é a probabilidade de que a amostra apresente
uma proporção entre 40% e 43% de clientes que aplicam em W.
pa (1 pa )
p = pa ± Z .
n
91
p a (1 p a ) 0,015 (1 0,015)
p = pa ± Z. p = 0,015 ± 1,65.
n 400
Realizando os cálculos e os arredondamentos aceitáveis, temos o intervalo
previsto para a proporção: [ ] [
0.005;0.025 = 0.5%;2.5% ] O que isso
significa?
As condições para que o raciocínio presente neste exemplo e neste texto
sejam aplicáveis são as mesmas apresentadas no texto 3: a amostra deve ser
grande, o que estatísticos aprovam mediante as seguintes condições: n p 5 e
n (1 p) 5 .
11.4 Exercícios
2. Com base em dados anteriores, 30% das compras em uma grande loja de
departamentos são realizadas para quantias acima de R$ 100,00. Se forem
tomadas amostras aleatórias de 100 compras:
a) Qual a proporção de amostras é esperada para ter mais de 20% das
compras acima de R$ 100,00?
b) Qual a proporção de amostras é esperada para ter entre 20% e 30% das
compras acima de R$ 100,00?
c) Entre quais limites simétricos de percentagem da população estariam 95%
das percentagens?
92
4. Uma máquina produz certo tipo de peça, sendo 4% a proporção de peças
defeituosas. Qual o número mínimo de peças defeituosas que se espera
encontrar em um lote de 250 peças produzidas por essa máquina, com 98%
de confiança?
1. (a) 0,2486 (b) 0,0918 (c) 0,1293 e 0,2514 (d) Um percentual de defeitos acima de 10,5%
é mais provável de ocorrer, um uma vez que está apenas 0,33 desvio padrão acima do
valor de 10%. (você também pode justificar este item calculando os respectivos valores de
probabilidades).
2. (a) 98,54% (b) 48,54% (c) entre 21% e 39% (o valor 0,389818... foi arredondado
para 39%)
3. [56.93%; 67.07%]
4. 17
5. [22.46%;37.54%]
6. [0.342;0.478]
93
CAPÍTULO XII
94
12.2 Como medir o grau de correlação entre duas variáveis. Como achar
uma lei algébrica que melhor associa duas variáveis correlacionadas.
95
Uma vez disponibilizado o gráfico, o menu “GRÁFICO” permanece
disponibilizado quando você simplesmente “clica” sobre a área do mesmo. Nesse
menu, vá na opção “adicionar linha de tendência” (veja a próxima figura). Nessa
opção, você perceberá que possui várias maneiras de modelar esses dados. Você
tem a possibilidade de modelá-los segundo função do 1º grau (“linear”),
exponencial, logarítmica, potência etc.
96
O software oferecerá, dessa forma, a seguinte figura:
140.000,00
y = 64,269x + 37894
120.000,00 R2 = 0,6882
100.000,00
80.000,00
60.000,00
40.000,00
20.000,00
- Série1
- 200 400 600 800 1.000 1.200 1.400 Linear (Série1)
††
Não apresentarei, neste texto, explicações que levam às fórmulas que fornecem os valores de a e de b,
melhores aproximações para coeficientes da reta que melhor representa esse conjunto de dados. Idem para o
valor de R².
97
Basta fazer x = 1.000 na equação de regressão e obter a estimativa
correspondente para y: Y = 64,269 . 1000 + 37894, o que nos fornecerá Y =
102163, ou seja, aproximadamente R$ 102.163,00 é o valor previsto para o custo
mensal dessa empresa, caso sejam produzidas 1.000 unidades do procuto.
98
O Excel apontará as seguintes informações: y = 49076e0,0007x e R²=
0,6303. Note que esse formato de equação coloca o x no expoente. O número e
pode ser arredondado para 2,72, para efeito de cálculos.
Qual o modelo melhor? Dentre os dois, o modelo linear, pois possui o R²
com maior valor. Ou seja, na busca por um modelo que melhor explica
determinado fenômeno é aquele que apresenta maior valor de R².
12.4 Exercícios
99
(c) Se a empresa planejar o preço de R$ 38,00 no próximo trimestre, qual será
a expectativa de demanda?
(d) Determine as expectativas de demanda que esse modelo prevê para o 2º
trimestre de 2007, supondo que a empresa deseja manter o mesmo preço
aplicado no 1º trimestre de 2007.
2.
a) O modelo exponencial, pois tem o maior valor de R² dentre as três possibilidades
(R² = 0,972, contra os valores de 0,8417 e 0,8566 das outras duas opções).
b) y = 48,976e 0,4788x
c) Para x = 8 têm-se índice aprox. igual a 2.262,33; para x = 9 a previsão é de
3652,81.
100