Escolar Documentos
Profissional Documentos
Cultura Documentos
Paulo Afonso Lopes - Probabilidade e Estatística PDF
Paulo Afonso Lopes - Probabilidade e Estatística PDF
Lopes
PROBABiLioADES
EStAtfsticA
Conceitos ModeLos
ApLica~oes
em ExceL©
www.estatistica.eng.br
!ntrodu~ao
o inicio
de tudo: determinando
Avaliando numericamente as unidades de observar;iio, com a ajuda de escatas de medidas, 3 Comer;ando a estudar, na prdtica, uma popular;iio: censo e amostragem, Retirando uma amostra da populacdo, 7 6
o que
Como realizar os catcutos a partir de valores anotados, Gerando digitos pseudo-ateatortm, Erros na amostragem, 16 12
intormacoes adieiona;s, 16
Termos-ehave,
Resumo, 17 11
Exercicios propostos,
18 19
Capitulo
1 Z Inrroducao
,~
i
i
I ~ I!
I
I
studa-se Estatistica para aplicar seus conceitos como auxflio nas tornadas de decisao diante de incertezas, justificando cientificamente as decisoes, Os principios estatfsticos sao utilizados em uma grande variedade de siruacoes - no governo, nos negocios e na industria, bern como no ambito das ciencias socials, biol6gicas e ffsicas, A Estatistica presta-se a aplicacoes operacionais e de pesquisas, sendo efetiva nao so em experimentos de Iaboratorio, mas tambern em estudos fora dele. A Estatfstica compreende 0 planejamento e a execucao de pesquisas, a descricao e a analise dos resultados e a formulacao de predicoes com base nesses resultados.
"A Estutistica nada mais If do que 0 bom senso express" em numeros. "I "Ninguem que mexe com isso t! normal ... 2 "Antes, fazia-se a estattstica dos moradores. Agora, faz-se ados desempregados. aumenta 0 numero destes, mais empregos haverd para as estattsticos. ,,)
Quanto mais
--------------------------
o inicio
de tudo: determinando
---
e urn processo para se obter, apresentar e analisar caracterfsticas ou valores numericos para urna melhor tomada de decisao em situacoes de incerteza. Os passes da metodologia estatfstica sao os seguintes: • definicao cuidadosa do problema; formulacao de urn plano para a coleta das unidades de observacao; • coleta, resume e apresentacao das unidades de observacao ou de seus valores numericos; • analise dos resultados; • divulgacao de relat6rio com as conclusoes, de tal modo que estas sejam facilmente entendidas por quem as for usar na tomada de decisoes.
Metoda estatistico
A Agenda Nacional de Telecomunicacoes (Anatel) realizou. em 12 de janeiro de 1999,4 uma Audiencia Publica para discutir as condiciies gerais do edital de licitacdo para contratacdo de instituiciio que desenvolverd a metodologla destinada a aferir 0 grau de satisfaciio da sociedade com a Service Telejonico Fixo Comutado. Na Audiencia Publica.foram abordados os seguintes topicos: • processo de identificaciio do grau de satlsfaciio; • linhas gerais do plano amostral das pesquisas; • procedimentos para coleta de dodos em todo a territorio nacional; procedimento de codiflcaciio e tabulacdo de dados; • andlises a serem. realizadas; • ideniificacao e priorizaciio de atributos valorizados pela sociedade e pela Anatel; • apresentaciio dos resultados.
Entre as caracterfsticas do rnetodo estatfstico, citam-se: • e 0 iinico modo de lidar com uma grande quantidade de observacoes au de valores; • aplica-se sornente a observacoes redutfveis a uma forma quantitativa; • e 0 mesrno tanto para as ciencias humanas e sociais como para as ciencias tecnologicas; • e objetivo; entretanto, os resultados sao influenciados (embora nao devessem) pela necessaria interpretacao subjetiva,
Pesquisa t![ria, di; secretaria. a assessor parlamentar da Secretaria de Estado da Seguranca Publica (... ) disse que a pesquisa realizada pelo lser (Instituto Superior de Estudos da Religiiio) "e fria ", pais as analise" foram feitas "longe do momenta ardente do" confrontos ". 5 "Este eo pior numero do governo. ,,0 popuklfiio
A Estatfstica nao interessa concJuir a respeito de unidades individuais de observacao, mas sim de grupos, conjuntos ou agregados, porque seu objetivo e 0 estudo da chamada popularao: a qual pode ser finita ou infinita. Populacao finita e aqueJa em que 0 mimero de unidades de observacao pode ser contado e e limitado.
~ Tarnbem chamada tie universo; ncste livro, nao hi distincao entre as dois terrnos
. 1. -
-...
Capitulo 1 I Introducdo
3 o
Exemplos de popularQo finita
• • • • alunos matriculados nas escolas todas as declaracoes de Imposto todas as pessoas que com pram todos os cri mes relatados pel as pilblicas estaduais; de Renda recebidas pela Receita Federal; telefone celular; Secretari as de Seguranca Publica.
Uma populacao e infinita se a quantidade de unidades de observacao posicao e tal que as unidades da populacao nao podem ser contadas.
Exemplos
de popu/QfQO infinita
• conjunto de medidas de determinado comprimento, porque nao h3 limite para 0 rnimero de vezes em que se pode medir esse cornprirnento. • gases, Ifquidos e alguns solidos, como 0 talco. porque as unidades nao podem ser identificadas e contadas.
o mirnero de unidades de observacao na populacao denomina-se tamanho e, no caso finito, mimero dessas unidades e designado pela letra N.
"No enranto. a rede estadual registra, em 1998, urn total de 6.024.166 alunos.
,,7
Em uma populacao, realiza-se uma pesquisa estatfstica observando-se todas as suas unidades e uma ou mais caracterfsticas passfveis de estudo; tambem se identiflca a area de abrangencia, aquela que, fisieamente, limita as unidades de observacao que se deseja estudar.
Ao se descrever uma populacao estatistica, deve-se diferenciar unidades de observariio das caracteristicas dessa populacao. Uma unidade de observacao e urn objeto (ou grupo de objetos) do qual se coletam dados, e que pode ter muitas caracterfsticas, ernbora 0 interesse costumeiramente recai sobre apenas uma ou poueas dessas caracterfsticas, cujos valores se anotam e cujos principios estatisticos se aplicam.
Avaliando numericamente
• aqueles obtidos de uma populacao qualitativa; • aqueles obtidos de uma populacao quantitativa.
de varlaveis
Tipos
Em Estatistica, variavel e uma atribuicao de um mimero a cada caracterfstica da unidade de observacao, ou seja, e uma funcao matematica definida na populacao, Quando uma caractenstica ou variavel e nao-numerica, denomina-se varidvel qualitativa ou atributo .
e expressa
em categorias.
Capitulo i I Introduciio
Quando os dados sao qualitativos, 0 interesse encontra-se, normal mente, na quantidade au na proporcao de cada categoria em relacao a populacao,
"Colegios Militares tem 42% de alunas.
,,0
Quando pode ser expressa numericarnente, a variavel estudada denomina-se varidvel quantitativa.
varidveisdiscretas
podem assurnir apenas determinados valores, e resultam
As variaveis quantitativas podern ser discretas ou continuas. Variaveis discretas podem assumir apenas determinados valores," e resultam de uma contagem.
de unUl contagem
varuiveis condnuas
podem assumir
qualquer
mediqdo
Navegando na Internet
"Os sistemas de 75 rnilhocs de cornputadores na Eurolfindia tiveram de scr atualizados. Afinal, onde se escondeu 0 sfmbolo no teclado? E como imprimi-lo? A Microsoft esta distribuindo 11m mlniprograma especial para 0 euro em hupi//www: microsoft. com/windows/euro.asp," 11
• quantidade de sabores de refresco "Em oito deliciosos sabores: tangerina, macii verde e pamela rosado. ,,12
laranja,
maracujd.
lima-limdo,
carambola,
abacaxi,
Observe-se que nao pode haver S,4 valores de notas, nern 3,8 sabores de refrescos. foram obtidos a partir de urna contagcm,
Os ruimeros
"... as exiguos 110 ml da sala de gindstica localizada do Academia ABC sao tom ados par cerea de 60 meninas, a que dd ... 0.545454 ... garotas por cada (sic) m" de sala. Isto dir a matemdtica. No prdtica if diferenie. Ali niio hd mulher pela metade e nem qualquer dizima periodica sobrando ate 0 infinito," 13
Por outro lado, variaveis continuas sao aquelas cujoconjunto de val ores possfveis e urn interva10 de mimeros reais, resultado de uma mediciio em qualquer grau de precisao. Na pratica, entretanto, os rnecanismos de medicao tern precisao limitada, tal que os dados coletados de variaveis contfnuas sao necessariamente discretos. Isto e, ha somente urn conjunto finito (mas talvez muito grande) de valores possiveis que realmente podem ser medidos.
Exemplos
• valor do patrim6nio do cidadao brasileiro: R$IS.OOO,OO; R$147.000,OO; R$4675.778,95 "A partir de 1999. as declaracnesde lmposto de Renda do s contribuintes com patrimonio de ate R$ 20 mil poderiio ser feitas pelo telefone. ,,14 • para a duracao de uma bateria de telefone celular: 60h, 46h37minl2s ou 34hl3min (dependendo do tipo da bateria ou da sua utilizacao) "Bateria vibrato ria com 3h15min de conversacdo e 200h de espera", "Bateria Ih30mjll de conversactio e 24h de espera ". "Bateria 2h de conversaciio e 38h de espera ", "Bate ria 3h de conversaciio e 57h de espera", "Bateria de 2h30min de conversaciio e 47h de espera" e "ate 5h e 10 min de conversaciio. ,,15
Navegando
na Internet
Um ponto vital na analise estatfstica e na interpretacao dos resultados e 0 valor do dado utilizado. No Brasil, varies orgaos governamentais exercem papel irnportante na producao de dados em divers as areas. Neste paragrafo; vai-se a urn importante portal (site) brasileiro na Internet, 0 do Institute Brasileiro de Geografia e Estatistica (IBGE). 0 objetivo tornar conhecido 0 primeiro local onde os dados oflciais do Brasil sao publicados e aprender a respeito da variedade de diferentes dados que cada uma das fontes coloca a disposicao do grande publico. No processo de visitacao, havera ligacoes (links) para locals onde podem ser encontrados outros dados; a visita a estes sites jamais dara uma visao cornpleta de todos os recursos ou dados existentes, mas fornecera uma introducao estruturada aos vastos recursos disponlveis.
~--.---.---• Ou.seja, silo aquelas variiiveis cujo conjunto de val ores possiveis
e finito
ou infinito enumeravel,
Capitulo
J I lntroduciio
DISCRETAS
Exemplos: 1) quantidade de estudantes em uma disciplina 11 quanlidade de comoaos em uma residencia
11 "JI
CONTiNUAS
ExempJos: tempo de voo entre duas cldades duragBo de beteti« de telefone ce/uler
o IBGE tern os enderecos http://www.ibge.gov.br e http://ibge.org.br, colocando a disposi~ao dos usuaries dados territoriais, indicadores conjunturais, estatfsticas basicas de natureza demografica, social e economica e resultados dos censos, incluindo dados sobre os estudos e pesquisas realizados. Possibilita ainda a transferencia de arquivos de dados, gravados em formatos diversos, mapas e textos.
• Exercicio-exemplo 1.1
Va ao
a. b. c. II.
t·
e. f. g. h.
site httpt/rwww.ibge.gov.br e faca 0 seguinte: anote os tipos de variaveis (qualitative e quantitativa) disponiveis para consulta; identifique 0 formato dos dados (HTML,.DOC,.XLS, etc.); verifique como podem ser baixados (download) arquivos de dados para 0 seu computador; verifique sc existem restricoes de acesso a obtencao dos dados (pagamentos a serern feitos ao administrador do site ou impedimento de acesso ao publico em geral); caso positivo, anote-os; escreva 0 URL' de Iigacoes interessantes; relacione cinco tipos de dados disponfveis no IBGE; lisle alguns locais para os quais 0 18GB proporciona ligacoes: identifique como 0 IBGE facilita 0 atendimento aos seus usuaries.
Quatro escalas de medidas podem ser usadas para caracterizar as unidades de uma populacao, Sao elas: nominal, ordinal, intervalar e proporcional.
Escala nominal
Na escala nominal, as caracterfsticas classificam-se em varias categorias, nas quais urn valor numerico associado com a caracteristica nao tern significado real.
Exemplo
A variavel sexo tern as categorias masculine e [eminino, as quais podern ser classificadas ricamente pela atnbuicao do nurnero 1 para 0 sexo feminine e do 2 para 0 masculine.
"Tabela de codigos da declaracao de bens e direitos de imoveis: J 1- Apartamentos; 12- Casas; 13 - Terrenos; 14 - Terra nua; 15 - Salas au iojas; 16 =Construciio; 17 - Benfeitorias: 19 _ Outros ... 16
Escala ordinal
As caracteristicas sao ordenadas (de maneira crescente ou decrescente) em situacoes para as quais a posicao associada e importante .
• URL = universal resnurc. locator, 0 endereco de urn portal. geralmente iniciado por http://www.
~~
~-----------------==~----------~~
6
o
Exemplo de escala ordinal
Capitulo
1 / Introducao
Ao se verificar 0 desempenho de uma pessoa ou de uma atividade, para 0 qual h;l cinco categorias, para facilidade de codificacao associa-se urn mimero a cada desempenho: (5) otimo, (4) born, (3) regular, (2) ruim e (1) pessimo. Urn 4 indica melhor desempenho do que urn 3, mas nao implica, necessariamente, que se tenha desernpenho duas vezes melhor que 0 2. "A avaliacdo do Plano Real. Resposta estimulada e unica, em %, nos dias 10 e 11 de derembro de 1998: otimo/bom. 61; regular, 28; ruim/pessimo, 10; ruio sa be, 1... 17
Escala intervalar
As caracterfsticas tern atribuido a clas valores que permitem comparar nao so a ordem como tambem a variacao numerica entre as caracterfsticas.
"0 ano 2000 ... sera 2004 de acordo com a data real de nascimento de Cristo em 4 a.c., 2753 segundo () calenddrio romano, 2749 segundo os babilonios, 6236 de acordo com 0 primeiro calenddrio do Egito, 5760 no calenddrio judaico, 1420 no calenddrio muculmano, 2544 segundo os budistas, 5/19 no calenddrio maio e 208 de acordo com a calendririo do Revoluraa Francesa. ,,18
Escala proporcional
As caracterfsticas sao ordenadas e a variacao entre elas pode ser comparada, havendo urn zero natural para a esc ala de rnedicao.
Exercicio-exemplo 1.2
A avaliacao dos cursos superiores no Brasil e feita a partir do chamado Provdo. Em 1996, foram avaliados estudantes de administracao, direito e engenharia civil; em 1997, os mesmos do ano anterior mais engenharia qufrnica, medicina veterinaria e odontologia; em 1998, os cursos anteriores, mais engenharia eletrica, jornalismo, letras e matematica. Em 1999, alern dos anteriores, estreiarn economia, engenhariu mecanica e medicina. A classificacao e feita por conceitos de A ate E. Identifique a tipo da escala adotada,
Exercicio-exemplo 1.3
Em 28 de dezembro de 1998, a Folha de S, Paulo publicou a classificacao dos prefeitos de nove capitais brasileiras. As notas, em uma escala de 0 a 10, forarn as seguintes: Curitiba, 6,7; Recife, 6.5; Porto Alegre, 6,4; Florianopolis, 6,4; Salvador, 6,3; Fortaleza, 5,5; Belo Horizonte, 5,4; Rio de Janeiro. 5,4 e Sao Paulo, 3,4. ldentifique 0 tipo de escala utilizada, justificando sua respostu,
fato de uma variavel ser expressa por rnimeros nao significa que ela seja necessariamente quantitativa, porque a classificacao da variavel depende de como foi medida, e nao do modo como se manifesta. Por exempIo, para a variavel peso de urn lutador de boxe, se for anotado 0 peso marcado na balanca, a variavel e quantitativa continua; por outro lado, se esse peso for cIassificado segundo as categorias do boxe, a variavel e qualitativa ordinal.
Se a populacao
e pequena, e razoavel
"as dados
iniciais do CensoDemogrdfico
ano.. ~~19
Todavia, examinar a populacao inteira nem sempre e viavel; na maioria das vezes, ha escassez de tempo e de recursos (humanos ou financeiros, por exemplo) ou impraticabilidade do censo. E possfvel entrevistar e anotar 0 que pensarn 44 pessoas que estejam em uma reuniao, mas nilo ouvir e registrar, em tempo razoavel, a opiniao de todos os torcedores da partida final de urn campeonato de futebol em urn grande estadio, Alem disso, 0 mundo esta em constante mudanca e, por esta causa, nunca as observacoes refletirao, de maneira completamente precisa, as condi<;;oes reais e atuais de todas as unidades de observacao,
---
.~
Capitulo I I lntroduciio
"Para o Censo, par exemplo, sua rcalizaciio mais importante, a IBGE pediu R$600 milhoes, dez vezes menos do que os EUA viio gastar para a mesmo trabalho ... A coleta dos dados do Censo se dard entre agosto e outubro de 2000 e serd feita par 120mil recenseadores. 0 pais sera dividido em 170 mil setores censitdrios ... 20
Por esses motivos, 0 estudo estatfstico inicia-se com a coleta de parte de uma populacao, denominada amostra, constitufda pm n unidades de observacao e que deve ter as mesmas caracterfsticas da populacao, Essa coleta recebe 0 nome de amostragem, que envolve pelo menos dois passos: escolha das unidades e registro das observacoes, 0 tamanho da amostra a ser retirada da populacao aquele que minimiza as custos da amostragem, podendo ser ate de tamanho 1.
processo
UHa 106 milhiies de eleitores no Brasil. 0 ... nao tern como ouvir todos. Assim. utiliza metodos estatisticos para aferir a intenciio de VOIO de modo que os entrevistado. represeruem 0 con~ junto do eleitorado. ,,21
de unidades da populaqiia
A amostragem pode ser sem reposicao e com reposicao: na amostragem sem reposicao, usualmente utilizada nos trabalhos estatfsticos, as unidades sao selecionadas apenas uma vez; na amostragem com reposicao, sclecionam-se as unidades mais de uma vez.
o
A amostragem importante
Exemplo
de amostragem
sem reposiciio
Em uma pesquisa eleitoral, pou CO anterior a uma eleicao, para que se conheca a intencao de voto das pessoas entrevistadas, estas devern ser ouvidas apenas uma vez; porque, em uma eleicao, 0 voto e indi vidual.
Exemplo
de amostragem
com reposiciio
Quando se deseja saber quanto tempo uma pcssoa fica em uma fila de banco, a mesma pessoa pode SeT observada duas ou mais vezes, a cada vez que retorna ao banco.
Justifica-se 0 usa da amostragern porque, comumente, e inviavel observar cada caracterfstica de todas as unidades de observacao da populacao. Alern da escassez de tempo e de recursos, pode-se citar: • no caso de exame de doencas contagiosas, 0 pesquisador poderia infectar-se e come~ar a transmitir a doenca a todos os entrevistados; com relacao aos testes destrutivos, ao final deles nao haveria unidade de observacao disponfvel; • no caso de exames medicos, impossibilidadc de se estudar a totalidade do sangue de uma pessoa sem causar-lhe a morte; • se 0 trabalho despendido para obter os dados de cada unidade for excessivo, pode haver anotacoes erradas, rnotivadas pelo cansaco do observador, apos examinar as iiltimas unidades de uma extensa populacao, Decidido
a coleta de dados pode ser realizada por dois metodos: de observacao da populacao sao obtidas pelo proprio analista ou, entao, automaticarriente, por um instrumento. observacdo indireta: as unidades de observacao sao anotadas por outras pessoas e nao pelo analista,
0
emprego
da amostragem,
Quanto aos fatores que a influenciam, a amostragem pode ser: • observacional, na qual nfio ha controle sobre os fatores em estudo pelo analista
a intencao
e modificada
"... e sabiam que seriam acordados as 6h em um dia e as 9/t nos outros dais dias em que 0 estudo [oi conduzido. Em um dos dias da experiencia, em vez de acordar os voluntdrios as 9h. como haviam dito, as cientistas os acordaram as 6h. para testar como 0 organismo dessas pessoas reagiria ii surpreS(1 de despertar antes do previsto ... 22
8
unidade amostral
Capitulo J I Introdueao
unidade individual
de obseroa,Go
nao-cotncuieiues,
: .1
rettradas da
Jl,,/)uia,lia
Unidade amostral e uma unidade individual de observacao ou uma colecao de unidades naocoincidentes, retiradas da populacao. Base amostral e uma listagem de todas as unidades amostrais. Por exemplo, para urn conjunto de pecas produzidas por uma empresa em determinado mes, a unidade amostral e uma peca individual e a base amostral ISa listagem de todas as pecas produzidas. o principal objetivo de qualquer plano de amostragem e selecionar a amostra de tal maneira que ela retrate fielmente a populacao, isto e, seja representativa da populacao, 0 que nem sernpre ocorre.
"0 IBGE define como precdria a residencia construida com material de construciio improprio ~ lata, sucata, madeira niio-tratada etc. ~, 0 que desconsidera casas de alvenaria em fuvelas,
par exemplo.
!123
Amostragem sistematica Ha diferentes maneiras pelas quais as amostras podem ser selecionadas, cada qual com vantagens e desvantagens, e urn dos problemas associados ii amostragern e a definicao do tamanho da amostra a ser retirada da populacao. 0 tamanho deve minimizar os custos da amostragem, podendo-se ter amostra ate de tarnanho 1. Uma amostragern e sistematica quando a retirada das unidades de observacao e feita periodicamente, sendo 0 intervalo de seleciio calculado, para uma populacao finita, por meio da divisao do tamanho da populacao pelo tamanho da amostra a ser selecionada.
de uma populacao de tamanho N '" 874. 0 intervalo de selecao e, entiio, 874/10 '" 87,4 '" 87 (aproxima-se para rnenos, senao se ultrapassara a ordem da ultima unidade), Desse modo, vao-se contando as unidades de observa<;1\0 e escolhem-se aquelas que estiverem nas seguintes posicoes: 87, 174,261,348,435,522, 609, 696, 783 e 870.
Amostragem
amostragem a[eatoria simple.
o processo
aleatoria simples
UI'iUJ
qual
de retirada de uma amostra de uma populacao na qual cada unidade tern a mesma chance (ou oportunidade) de ser retirada denomina-se amostragem aleat6ria simples; a amostra assim obtida e chamada de amostra aleatoria. o processo da amostragem aleat6ria simples exige que se atribuarn mimeros consecutivos as unidades da populacao e proceda-se a urn sorteio, colocando-se todos os mimeros em urn recipiente, por exemplo, e retirando urn mimero. situacao na qual cada unidade de observacao tern a mesma chance de ser selecionada. Entretanto, tal procedimento nao e pratico para uma popula9ao muito grande; busca-se, entao, simular tal sorteio, 0 que e feito pelo uso de uma tabela de digitos pseudo-aleatorios (Tabe1a 1_1)_ Esta tabela, usualmente conhecida como tabela de numeros aleatorios, e composta por uma relacao de digitos de 0 ate 9 e tern duas caracteristicas que a tomam particularmente adequada a amostragem aleatoria simples: primeiro, os digitos estao dispostos de tal maneira que a chance de qualquer umdeles aparecer em determinada sequencia e igual a chance do aparecimento em qualquer outra posicao; segundo, cada uma de todas as combinacoes de dois algarismos tern a mesma chance de ocorrencia, como tambern todas as combinacces de tres algarismos, e assim por diante.
Quando se quer selecionar, aleatoriamente, dez unidades de uma populacao de tamanho N = 874 unidades, pode-se lista-Ias atribuindo-Ihes consecutivamente os ruimeros 001 a 874, da primeira a ultima. Como a identificacao teve mimeros de tres algarismos, sera necessario ler urn conjunto de tres digitos em uma tabela de dtgitos pseudo-aleatorios, para assegurar correspondencia entre os digitos pseudo-alcatorios e as unidades da populacao. Seleciona-se uma combinacao de digitos pseudo-aleatorios, retirando-se a unidade correspondente ao ruimero lido; se houver repeticao au se surgir um mimero maior que 0 tamanho da populacao, este deve ser ignorado e escolhida outra combinacao de dlgitos. Este procedirnento e repetido ate a amostra de tarnanho n '" 10 ser escolhida.
Exerelcio-exemplo
1.4
Deseja-se uma arnostra de tarnanho I () de uma populacao de tarnanho 874; numeram-sc as unidades de observacao da populacao de 001 a 874. Os digitos pscudo-aleat6rios podem ser lidos isoladamente ou em grupo, ern qualquer ordem, par colunas au por linhas, da esquerda para a direita ou da direita para a esquerda, diagonal mente da esquerda para a direita etc.; a regra de leitura pode ser qualquer urna, desde que naO seja alterada ate 0 final da amostragem.
Capitulo 1 / lntroducao
9
87404 85585 42231 25702 70634 36277 43498
13842
10 cbv',f\.A.,,>
liD
lL..N'Jlr._,o
':)
77510 44325 79643 74599 96184 2974, 38743 36372 36390 li253B 09274 24265
86934
04947 HUDS 12631 5287Q 39713 5709b 34275 82952_ 19651 32471 181\59 07260 01465 41218 10199 05310 63460 12601 93837 01535 21540 25712 17322 28199 57743 28583
50825 61964 24451 19681 60103 34379 40849 72783 74590 95406 87676 96346 21042 72197 44554 60673 55088, 39619 741174 26941 10047 72209 01877 S0412 08273 58632 59227
18607 04108 65693 72533 92201\ 10758 40705 60307 ()4895 98491 71907 R1404 29551 10529
67845
96209
03241 22226
859&8
95922 82735
55003 33213
53328
S()6()2 43162 91527 16095 65401 60597 41489 33982 97417 12732 01544
8432R
20325
52223
64384 77571
9225()
55705 38532 3~923 23697 42729 83748 38697 41435 68834 43519 99465 3348, 29185 67430 91573
3g725
43229 27106
77R09
31965 30982 46443 45957 20392 4%47 42674 535~3 29066 46696 60542 50541 70210 83693 31995 87059 54203 80440 31098 22403 55601 OIGII 46272 3770& 91640 19910 65074 61400 13263 97695 71464 07059 08634 81127 55564 23835
71345 94362 47578 16855 79698 12168 68358 29590 53001 95159 09500 78111 01856 00534 28660 55781 54887 51289 69671> 41480 60704 66279 45790 60936 52354 52790 85344 10526 74272 61635 39979 43635 71739 04721 55348 194fl5
40717 83617 94890 94976 27927 32484 16181 77541 26249 76482 46446 00659 32508 16086 706~8 90155 1140B 17804 76402 82634 9H09 52058 56996 13678 81474 43577 27900 ]U445 79360 34293 55033 07837 20362 58732 95839
80724
62584 42185 92284 57576 85854 94353 99120 88362 29717 86730 43815 65971 0820(, OB61
94085
87010 67149
06738
non
63722 52150 15473 68147 52879 60069 92672 95983 44831 92427 98699 33445 53773 48356 85912
03079 16730 29023 26310 9<748 66984 62123 75038 33119 57191 66765 42362 81017 72700 79216 36985 39747 99556 47087 27860 91744 71764 17115 97738 42198 31U55 36060 09146 75810 99163 62593 82955 25922 62562 93694 89330 56169
17264 8730~ 20075 85741 97115 67265 39948 72603 30704 20475 06647 95748 75795 52623 74101 48487 04855 74049 50990 95394 00772 73570 77699 77358 ISO,t>
54808
65764 79195 88460 35023 99834 59694 34397 06439 02109 44212 84398 60072 59318 79759
Considere que voce comecou a leirura de cima para baixo, a partir da primeira col una, apenas dos Ires primeiros dfgitos. Assim sendo, a primeira unidade sorteudu sera a 874.', a segunda unidade, a 855." e assim sucessivamente: 422. 257, 706, 362,434, 338, 365, 922 (que deve ser descurtada, por ser maior que 874) e 767. Qualquer sequencia de Ires algarismos lida em uma tabela de digitos pseudo-aleatorios serve para identificar as unidades a serem retiradas, e 0 processo continua ate que voce tenha lido dez nurneros diferentes (0 que equivale 11 arnostragem sem reposicao, usualmente utilizada), os quais van corresponder as unidades a serem estudadas na populacao. hERF.8IA
lh-9
R[
0
0 usa da expressao tabela de numeros aleatorios, porem 0 mais correto e falar em tabela de digitos pseudo-aleatorios, porque eles sao gerados a partir de urna expressao matematica e de urn conjunto inicial de digitos; se esse conjunto for gerado novamente, os dlgitos subseqlientes poderao ser previstos e, entao, a tabela nao sera rnais aleat6ria. Como 0 conjunto de digitos se assemelha a urn mimcro porque as tabelas publicadas inserem espa90s entre os digitos (geralmente urn espaco a cada cinco dfgitos) para facilidade de leitura, induz-se, erradamente, a que se esteja tendo mimeros, e nao digitos. Para usar uma tabela de dfgitos pseudo-aleatorios devem-se seguir os seguintes passos: • passo 1: listar as unidades da populacao; • passo 2: numerar consccutivamente as unidades, a cornecar do I;' • passo 3: ler numcros na tabela de digitos pseudo-aleatorios de modo que 0 total de algaris-rnos em cada urn deles seja igual ao total de algarismos do ultimo ruirnero da listagem: se 0 ultimo mirnero for 56, par exemplo, devern ser lidos numerus de dois algarismos; casu 0 ultimo mimero seja 465, devem ser lidos mirneros de tres algarismos, e assirn par diante, eliminando todo mimero lido que nao esteja na listagern ou que seja repetido e continuando 0 processo ate ter 0 rnirnero desejado de observacoes; • passo 4: usar os ruimeros escolhidos para idcntificar as unidades a serern inclufdas na amostra. Todavia, nern sempre se pode dispor de uma listagem cornpleta da populacao, como, por exemplo, a lista de todos os habitantes do Brasil, e nesse casu usarn-se outros pIanos de arnostragem.
E comum
* Podcr -se-Ia cornecar de O~00 ou 000 etc., mas, costumeiramente, cornputador nao incluem 0 valor 0_
eletronicas
e pelo
10
Amostragem estratificada
Capitulo 1 I Introducdo
As vezes, a populacao e heterogenea e a amostragem aleatoria simples nao refletiria essa heterogeneidade. Nesses casos, utiliza-se uma amostragem denominada estratificada, obtida pela separacao das unidades da populacao em grupos distintos (chamados estratos); em seguida, seleciona-se uma amostra aleat6ria simples a partir de cada estrato. A amostra completa comp6e-se da agregacao das amostras de cada estrato e, geralmente, a proporcionalidade do tamanho de cada estrato na populacao e mantida na amostra. Por exemplo, ao estudar uma sociedade, pode-se estratificar a populacao por escolaridade, faixa etdria ou por renda mensal, devendo escolher estratos homogeneos com respeito a caracteristica que se esta observando,
"Antes de fazer uma pesquisa, 0 ... colhe informacoes nos TRE dos Estados para saber; no con junto dos eleitores, quantos sao homens, quantos sao mulheres, quantos estiio em cada [aixa de idade pesquisada, quantos moram na capital e quantos moram no interior, ... para que a conjuruo do eleitorado seja representado de forma proporcional. ,,25
,
de
o
o
Navegando
na Internet em-
Va ao site http://www.cwaynet_com.brlaraf/pesquisa.html e navegue pela lista de insututcs, presas e organizacoes ligadas a pesquisa de mercado, opiniao publica e midia.
o que fazer
com os valores das caracteristicas das unidades da amostra: uma visiio sistemica da Estatfstica
A partir dos valores obtidos na arnostra, corneca-se a descreve-la para se poder pensar em caracterizar a populacao como urn todo, generalizando para a populacao 0 dado proveniente da amostra. As atividades exploratorias das informacoes obtidas caracterizam a chamada estatistica descritiva, a qual se oeupa da descricao, da organizacao e do resumo das observacoes obtidas, para proporcionar discemimento entre 0 comportamento de uma populacao e 0 comportamento de uma amostra. Generalizar para a populacao aquilo que se observou na amostra caracteriza a inferencia estatistica .
"Milhiie» de aplicativos de software nos EVA sao capazes de entender apenas codigos de area de tres algarismos e numeros de telefone de sete algarismos. Atualizar todos esses aplicativos seria trabaihoso e caro. A estimativa e precisar adaptar cerca de 25 milhiies de soft" ... 27 "0 objetivo e que a amostra seja representativa do total de eleitores. Dessaforma, os resultados obtidos na pesquisa podem ser estatisticamente, ampliados para os milhiies de eleitores no Brasil (au, no caso desta pesquisa, as eleitore. de cada Estado pesquisado} ." 28
estatistica descritiva
importantes
in/eritncia estattstica
parte da Estatisticu
que
W.Q
uma
A palavra inferencia ISutilizada em Estatfstica com dois significados: • conclusoes tiradas a partir de valores ou de evidencias; • processo utilizado para se chegar a essas conclusoes,
• Exercicio-exemplo I.S
"0 Institute ... entrevistou uma arnostra de 8.548 pessoas para verificar qual a primeira rnarca de produto que vern it cabcca do consumidor, Dessa arnostra, 683 disseram ser a do sabao em po
ABC."29
a. Diga como 0 jornal poderia apresentar a notfcia sobre a lembranca da rnarca do sabao em po ABC pelos consumidores, da maneira mais clara para os leitores, b. Identifique sc este e urn exernplo de estanstica descritiva au de inferencia estatfstica. Explique. Primeira inferiincia realizada no Brasil "Esta term. Senhor; parece-me que, da ponta que muis contra 0 sul vimos, ali a outra ponta que CQntra 0 norte vern, de que nos deste porto houvemos vista. sera tamanha que haverd nela bem vinte au vinte e cinco leguas de costa ... De ponta a ponta i toda praia ... Pelo sertiio nos pareceu. vista do mar, multo grande; porque a estender olhos, niio podiamos ver seniio terra e arvoredos - terra que nos parecia muito extensa. Ate agora niio pudemos saber se hd ouro OU prata nela, au outra coisa de metal, ouferro; nem lha llimos ... Aguas sao muitas; infinilas. Em tal maneira e graciosa que, querendo-a aproveitar; dar-se-d nela tudo; par causa das dguas que [em! ... E desta maneira dou aqui a Yassa Alteza conta do que nesta Vossa terra vi. " 30
Capitulo 1 I Introduciio
11
Como as informacoes provem de urn conjunto menor que a populacao, cometcm-se CITOSao se fazer uma inferencia. Esses eITOS sao quantificados por urn valor numerico, denominado probabilidade, 0 qual, alern de Iidar com situacoes influenciadas por fatores nao controlados pelo analista, proporciona urn modele racional para lidar com a variabilidade inerente natureza, bern como com situacoes relacionadas com 0 acaso. 0 conhecimento das probabilidades associadas a uma situacao fornece a base para 0 desenvolvimento das tecnicas da tornada de decisao, explica a funcionamento dessas tecnicas e indica de que modo as conclusoes podem ser apresentadas e interpretadas corretamente,
pmbabilidade
ntimero
qUI!
(possibilidade)
situar;ao acoruecer
E importante
enfatizar que a estatfstica descritiva e as probabilidades sao [erramentas para a inferencia estatistica, a qual interpreta de duas maneiras os resultados obtidos a partir das amostras retiradas de uma populacao: ou fazendo uma estimacao a respeito de uma caracterfstica da populacao cujo valor se desconhece, ou realizando urn teste sobre essa caracterfstica, da qual se afirma ter urn determinado valor. nome Estatistica tern varios significados; neste livro, porern, a Estatfstica pode ser entendida como sendo constitufda das tres seguintes areas: a estatistica descritiva, 0 cdlculo das probabilidades e a inferencia estatistica. Uma visao sistemica do que se estuda naquilo que se conheee por Estatistiea esta na Figura 1.2.
\.
'\
1":';~
j_, (ERR9)
-,
° °
ESTATfsTICA DESCRITIVA
~PROBABiLiDADES ij
Exercicio-exemplo 1.6
"0 Termtsmetro Empresarial, pesquisa cujos resultados serao divulgados hoje pela .... ouviu as 500 maiores empresas do pais e constatou que 76% consideram pacote fiscal recessive, cmbora necessario.":" A partir desta noticia, pode-se afirmar que 0 tamanho da amostra e grande e que 76% (mais de 50%) das empresas consideram recessivo pacote fiscal; conclui-se, entao, que a maioria das empresas brasileiras considera recessive 0 pacote fiscal. Esta atirmativa e verdadeira ou falsa? "As explicacoes tecnicas sabre a metodologia das pesquisas, quando aparecem junto com a divulgaciio de resultados, vern no pi da. materias, em corpo menor e em linguagem ininteligivel para a leigo, Por outre [ado, nas manchetes tudo e cnnclusiva e chela de certezas ... J3
Achar que qualquer informacdo publicada amostra com base em urna vale para toda a populaciio.
12
Capitulo 1 / lntroduciio
fornecern
in/orma'f'oes
ernpresas desenvolvem produtos ligados diretamente ao mercado escolar e e crescente 0 mimero de alunos e professores que fazcm uso de calculadoras eletronicas. Esse interesse devese ao reconhecimento da acessibilidade da tecnologia, fator-chave na resposta as mudancas tecnolcgicas. Convern ressaItar que a tecnologia rnudou radicalmente a maneira de ensinar e de aprender Estatfstica, bern como a forma de resolver problemas. Em razao disso, embora este livro tenha varios exemplos e exercfcios elaborados em linguagem natural, muitos outros estao baseados nas calculadoras ciennficas HP 48G, Casio CFX-9850G/9950G e Texas TI-83, e na planilha Microsoft Excel. Caso voce nfio tenha experiencia nesses recursos eletronicos e queira familiarizar-se com eles, recorra ao Apendice 2, Principios do Usa de Calculadoras Cientificas, e ao Apendice 3, Introduciio ao Microsoft Excel.
A selecao de unidades para compor uma amostra foi feita pelo uso da tabela de digitos pseudoaleat6rios que existe usualmente nos livros de Estatfstica. Entretanto, tal selecao pode ser feita rnais rapidamente com 0 usa das calculadoras cientfficas. Nas calculadoras, gera-se uma cornbinacao de digitos pseudo-aleatorios na faixa entre 0 e usando-se uma semente aleatoria.
• Usando a calculadora eletrimica HP 48G
• passo 1: Iigue a maquina; • passo 2: se a tela nao for a inicial, aperte a tecJa roxa com seta a esquerda e depois a teela [DEL] (terceira tecla a direita do [ENTER]), 0 que equivale a funcao CLEAR; • passo 3: a partir da tela inicial, aperte, na ordern, as teclas [MTHJ (primeira tecla da segunda fileira), [NXTJ (ultima da segunda fileira) e a primeira tecla, totalmente branca, na primeira fileira de teclas (identificada pela Ietra A) para entrar na tela PROB; observe que ha uma relacao entre as teclas brancas e as acoes que aparecem na ultima linha da tela: no caso da primeira tecla branca, A, na nova tela corresponde a COMB, enquanto que na anterior correspondia a PROB_ Na ultima linha da tela surge uma serie de OP90es e, para que seja retomado urn nurnero real, entre 0, inclusive, e I, exclusive, de uma sequencia de numeros pseudo-aleatorios, aperte agora a quarta tecla branca, D_ Aparece urn rnimero pseudo-aleatoric, que se converte na semente do numero seguinte, Para gerar outros mimeros, continue apertando a tecla branca D; se surgir urn mimero aparentemente maior que 1, observe que termina por £-2 ou por E-3, significando que 0 valor apresentado deve ser dividido por 100 ou por 1.000.
+ Usando a calculadora
Para gerar urn mimero pseudo-aleat6rio entre 0, inclusive, e 1, exclusive, os passos sao os seguintes: • passo 1: ap6s ligar a maquina, selecione, no MAIN MENU (menu principal), a opcao RUN (comumente ja destacada), com a tecJa de seta a esquerda [(-) do conjunto de setas [(-]
[J_];. • passo 2: tecle [EXE], no extremo inferior direito; aparece uma tela em branco; • passo 3: aperte a tecla [SHIFT] (tecla amarela) e depois a tecla cinza [MENU], terceira tecla direita de [SHIFT] e que ativa a opcao SETUP_ Aparecem, na ultima Iinha da tela, cinco opcoes, a primeira das quais e Comp, equivalente a tecla azul [F1] (primeira teela da pri-
[~] rn
meira linha de teclas); 4: aperte fF1] e tecle [EXE]; surge uma tela em branco; • passo 5: aperte a tecla [OPTN], a direita da tecla amarela [SHIFT], surgindo na parte inferior da tela seis 0P90es; • passo 6: aperte a tec1a azul [F6], na primeira Iinha de teclas, e surgem mais opcoes na Iinha inferior; aperte agora a tec1a [F3] (selecionando PROB), e depois CF4] (selecionando Ran#), quando aparece, na tela, Ran#. Ao apertar a tecla [EXEj, surge 0 mimero pseudo-aleatoric. Para gerar outros mimeros pseudo-aleatorios, basta apertar, seguidarnente, [F4] e [EXE].
• passo • Usando a calculadora eletrimica TEXAS TI-83
Antes de efetuar uma operacao, eoloque a calculadora sem qualquer inforrnacao anterior, apertando, ap6s Iiga-la, a tecIa [CLEAR], ultima tecla da linha de teclas que comeca com [MATH]_ Para a geracao de rnimeros pseudo-aleatorios, entre 0, exclusive e 1, inclusive, os passes sao os seguintes, apos a maquina ser ligada: • passo 1: aperte a tecla [MATH], situada na primeira coJuna de teclas, a quarta tecla. Observe que, na tela da calculadora, aparecem, na primeira linha, MATH (destacada), NUM, CPX e
PRB;
Capttulo
/ / Introduciio
13,
• passo 2: aperte a tccla azul (do conjunto de teelas azuis com setas para a esquerda, direita, acima e abaixo, direita da calculadora, l~] [~] [i] Lt.] ) relativa a seta para a direita, [-+], tres vezes, ate destacarem-se, na primeira linha da tela, as letras PRE, quando apare-
cem as seguintes opcoes: f: rand 5: rand!nt ( 2: nPr 6: randNorm ( 7: randBin ( 3: nCr 4: ! • passo 3: aperte a tecla [ENTER], situada no extremo inferior direito, para executar 0 programa; aparece 0 cursor piscante a direita da palavra rand. Aperte novamente a tecla [ENTER], quando surgira 0 resultado. Para gerar outros ruimeros pseudo-aleatorios, basta continuar pressionando a tecla [ENTER]. A TI-83 tambern gera um ruirnero pseudo-aleatoric inteiro dentro de uma faixa especificada por urn limite inferior e um limite superior. Os passos sao os seguintes: • pas so 4: aperte a tecla [MATH], situada na prirneira coluna de teclas, a quarta tecla. Observe que, na tela da calculadora, aparecern, na primeira linha, MATH (destacada), NUM, CPX e
PRB; • passo 5: aperte a tecla azul (do conjunto de teclas azuis com setas para a esquerda, direita, acima e abaixo, direita da ca1culadora, [f-] [-+ J [i] U] ) re1ativa a seta para a direita, [-+], tres vezes, ate destacarem-se, na primeira linha da tela, as tetras PRB, quando
aparecem as seguintes opcoes: 5: randlnt ( 1: rand (ressaltada) 6: randNorm ( 2: nPr 7: randBin ( 3: n Cr 4: • passo 6: aperte a tecla azul relativa a seta para baixo 4 vezes, ate destacar-se, 5:randlnt; • passo 7: tecle [ENTER] e aparecera randlnt(; para especificar um limite inferior, urn limite superior e a quantidade desejada de mimeros pseudo-aleatorios, digite 0 limite inferior, 0 limite superior e 0 mimero desejado de val ores a serern gerados, separados por vfrgula (tecla acima da tecla com 0 mimero 7) e terminando com um fecha parenteses (tecla acirna da tecla com 0 mirnero 9); • passo 8: aperte a tecla [ENTER], e surgira 0 resultado, Para gerar a mesma quantidade de ruirneros inteiros pseudo-aleatorios no mesmo intervalo, basta continuar pressionando a tecla [ENTER].
comando
e rand/n/(2./5.6).
Quando se
Usando
Excel
Afunt;iio A LEA TORlOENTRE • passo 1: vii, na Barra de Ferramentas, ao leone fx (no Excel 97, ao ser posicionada a seta do mouse em cima desse Icone aparece a identificacao Colar tuncao); • passo 2: clique duas vezes sobre 0 [cone, para que surja a tela Colar funlfao; • passo 3: na coluna da esquerda, Categoria da funeiio, clique em cima da categoria Maternatlca e triqonomstnca, que ficara destacada; • passo 4: clique, na coluna da direita, Nome da tuncao., a funcao ALEATORIOENTRE (Figura 1.3);
Figura 1.3
Funcdo
ALEAT6RIOENTRE.
~~tegoriede funt§o~
Mati recentemenle useda Ioda s . Rnancei'~ ,. Data e here Esto,tfstica Procure e (eFerencia Banco de dedos
Texto
.:J'.. A~H
ASI:N
OK
I.: C.neolar ·1
'{.
=--
14
Capitulo
J / lmroduciio
• passo 5: clique OK na parte inferior da tela, surgindo a tela da Figura 1.4; • passo 6: 0 nurnero pseudo-aleatoric desejado surge ao se preencher os valores Inferior e Superior com 0 primeiro e 0 ultimo dos indices, respectivamente, das unidades de observacao da populacao. Figura 1.4 Funciio ALEAT6RIOENTRE.
, .....
,AlEATORIOENTRE'
Reterne
Url1 ru:lnero
a[eat6rro dentre'
I)S ndmeros
espeoftcedos. t"etomara.
i~
o
Res>.Jtado d~
fOrmulii
Para gerar mais ruimeros pseudo-aleat6rios com a mesma funcao, deve-se tomar ativa a celula com 0 numero gerado e levar 0 mouse ate 0 extremo inferior direito da celula; quando a seta quadrilateral branca do mouse transformar-se em uma cruz simples, aperta-se 0 botao esquerdo do mouse e, sem deixar de pressiona-lo, arrasta-se para baixo ate onde se desejar; diversos mimeros pseudo-aleat6rios surgem quando se solta 0 hotao do mouse. Aferramenta de analise Geraeiio de ntimero aleatorio • passo 1: va ao menu Ferramentas e eseolha Analise de dados; surge a respectiva tela (Figura 1.6); Figura 1.6 Analise de dados.
A""lise de dodos
-::11<.:::"
r:E.or~r~·"::-:·7oi::;:,··:-:d... -::~;:,'
-===:;:-
iIEi --;;y,
t!,·' ..··'·ti'K"'~ ·':1 "'
:C~·~~~i~_~]
;0.;d~1
• passo 2: por meio da barra de rolagem da direita, procure, entre as Ferramemas de analise, Geraciio de numero aleatoric (Figura 1.6); • passo 3: clique OK no extrema superior direito do quadro, surgindo a tela Geracao de nurnero aleatoric (Fig 1.7); • passo 4: nessa tela (Figura 1.7), em Num.ero de variaveis, digite a quantidade de colunas de valores que deseja na tabela de safda, usualmente 1 (para gerar urna coluna). Em Numero de nurneros aleatortos, digite 0 total de mimeros pseudo-aleat6rios desejados; cada valor gerado aparecera em urna linha da planilha de saida. Em Distrlbulcao, selecione 0 modelo que deseja; no caso da amostragem aleat6ria simples, e a Uniforme, eujo nome e visto clicando-se na seta it direita da palavra Discreta; nessa ocasiao, aparece uma lista de opcoes;
Capitulo J I lntroduciio
15
Gel a.;ao ae mirnefO memOllG
61i3
Ao se escolhcr a palavra Uniforme a tela muda, surgindo a da Figura 1.8. Figura 1.8
Tela para gerar numeros
G~I
a"no de
munero
1)jeator 10
iii
f !;i3esdl!.:
p
sa[do!!-:
--
'I' E'No<i.a?loniha:
I 0 !nterv.1<> de ~aid.:
'",L~~~~_...J I
15.1'1', r
,_._ "",
Na tela correspondente a Figura 1.8 devem.ser preenchidos respectivamente os valores inicial, 001, e final, 874, com 0 primeiro e 0 ultimo indices das unidades da populacao, bern como a semente aleatoria - neste exemplo, 1999. Se varias pessoas usarem essa mesma semente no Excel, mas em computadores diferentes, serao gerados os mesmos digitos, presumivelmente aleatorios, A explicacao e que, no Excel, ha uma regra para a geracao desses digitos, a qual, sendo a mesma para todas as maquinas, produz os mesmos valores. Por isso, deve-se sempre iniciar com uma semente aleatoria diferente para cada maquina, 0 aspecto eo da Figura 1.9. Figura 1.9 Tela preenchida para gerar 100 numeros pseudo-aleatorios com 0 modelo Uniforme entre 1 e 874.
GC'Ia~iio de nurnore
aleatono
H
Nu~odo
,_,ej.,
ti!Jmero:
OIst~.o:
::tros
lo~~~~--l::-~----~ --1
nd
II
=_"'--~~,,:,,--::=
5emento aleat6ria:
OK
16
•
Em amostragem, aleatorios pensar que s6
1 I Introducdo
Digite, no Excel, a partir da tela da Figura 1.8. os valores 001 e 874 nos espacos Entre.: eom a sernente aleatoria 1999, observe 0 numero gerado.
lfi..,. e,
existe a gerarao de digitos pseudona qual cada um deles esquecendo que lui tern a mesma chance de ser escolhido, dtversos modelos matemdticos para
Cada cornbinacao de resultados de dfgitos pseudo-aleatorios torna-se a semente para 0 proximo; deve-se tomar cuidado porque, se a semente for a mesma, repete-se a sequencia dos digitos pseudo-aleatorios, 0 que descaracteriza a aleatoriedade. Garante-se, na pratica, a aleatoriedade dos dlgitos gerados utilizando-se uma funcao maternatica, denominada g erador de digitos pseudo-aleatorios, de tal maneira que 0 momenta da repeticao da semente aleatoria oeorra apos tanto tempo que, no intervalo entre urn dfgito (ou urn conjunto deles) e a sua repeticao, os dfgitos gerados podem ser considerados aleat6rios.
Erros na amostragem
Geralmente, as causas de erros nas amostragens sao as seguintes: • falta de aleatoriedade na escolha das unidades da populacao em uma amostragem simples; • falta de representatividade da populacao;
"Estattstices't Ah! Estd em alguns jornais a estattsiica sobre 0 numero de crentes em lodo 0 mundo ... verificaram. com menos precisiio xiii-een-tiiii-fica, quem acredita em pau, pedra au girino, E a midia ~ ah, a mtdia ~ repete isso sem a menor nota critica. Revelo uma coisa: a mim ninguem veio consultar. Consultaram voce, lei tor amigo ? .. E depois, diga-me at, todo 0 mundo e 'enquadrado' religiosamente? Ndo tem neutro? Niio tern ninguem mais ou menos, assim-ussim? Cristiio If cristdo 24 horas por dia? De VeZ em quando ell' niio fa; uma jezinha numa macumbai 'F"
"Misterio. Os tecnicos do IBGE tiveram algumas surpresas durante a elaboraciio do Banco de Informaciies Municipais, Uma delas foi I'm certo tipo de obito, a 'morte par olho e afins'. 0 problema, restrito a cidade de Sao Paulo.fez seis vitimas. De que se trata esse mal, ninguem tern a mais pdlida ideia . .,.15
as diversas
amostragens;
"Em lugares como Rio Grande do Sui e Brastlia, multo poluizados, essas viradas jd sao tradicionais ... 36 "Hoje, a proporcao de mulheres analfabetas so If maior que a de homens entre as pessoas com mais de 40 an os que passaram pela escola hd pelo menos 20 anos. A maior diferenca estd entre as pessoas com mais de 50 anos. Nessa [uixa etdria, 28% dos homens e 34% das mulheres siio analfabetos, segundo dados do 18GE. ,,37 "Jti na segunda-feira, quando a contagem das urnus de lana mal se iniciara, 0 PT divulgou am documento lis lando uma dezena de diferencas entre os vola" reais e as pesquisas ... e sugeriu a criaciio de uma CPl. ,>3, "Ndo convidem para a mesma urna Luiza Erundina e os institutos de pesquisu. Em 1988. ao eleger-se prefeita de Sao Paulo, eta provou que pesquisa nao If profecia. Nesta campanha, avisou que niio votaria em Francisco Rossi quando a candidato liderava as pesquisas. Erundina If a verdadeira boca de urna ... 39 "Essa confustio se traduz nos numeros de uma pesquisa exclusiva encomendada par." ao Instituto ... e feita em cinco capita is do pats. ..41)
Informaciies
adicionais
Urn trabalho deequipe
A maioria dos problemas nao e resolvida apenas pelo estatistico, mas por urn grupo de pessoas que os conhecem em detalhes; ao estatfstico eabe selecionar as ferramentas estatfsticas para ajudar a resolve-los, Deve-se enfatizar que 0 sentimento de equipe e fundamental em qualquer estudo; desse modo, cada pessoa envolvida em uma pesquisa estatfstica tern importancia, porque, a primeira vista, rnuitos problemas podem pareeer vagos e de definicao complexa, Todos devem reunir-se para discutir detalhadamente a natureza do problema, as possiveis opcoes de solucao e as consequencias de cada uma das possfveis decis6es. Ao final, resulta urn discernimento em relacao ao problema e a percepcao dos detalhes, cabendo a equipe decidir se 6 problema e de fato estatistico: em casu positive, parte-se para decidir 0 melhor modelo a ser adotado, A quantidade de informacoes estatfsticas que vern a publico e tarnanha, que se pode querer distinguir entre as boas e as mas estatfsticas, Alern disso, a ernissao de conclusoes erradas a partir de observacdes e val ores absolutamente corretos constitui urn problema. Mais ainda, as vezes ocorre que, com os mesmos valores, sao estirnuladas decisoes conflitantes. Convem esclarecer que 0 adequado tratamento estatfstico de urn problema consiste em fazer uma serie
A Estattstica
prova
qualquer teoria.
Urnapalavra de advertencla
Capitulo 1 / lntroduciio
17
de observacoes, realizar alguns calculos e chegar a uma conclusao, Todavia, e de fundamental irnportancia perguntar, primeiro, como se planejou a pesquisa e como se anotararn as observa~6es. Como ocorre em qualquer campo do conhecimento, nuda se consegue em Estatfstica se nao se tern cuidado no estudo correto em todas as fases da pesquisa, desde 0 conceito e 0 enunciado do problema, passando pelo planejamento do projeto, pelas etapas de coleta das observacoes e pela analise e interpretacao dos resultados ate se chegar a uma conclusao valida, De modo geral, nao ha calculo matematico au manipulacao estatfstica que possa dar resultados confiaveis a partir de observacoes malfeitas ou amostragens malplanejadas.
as regras
esttuisticas.
Termos-chave
Metodo estatistico Populacao Tamanho da populacao Area de abragencia Unidade de observaeao Caracterfstica da unidade de observacao Variavel discreta
Infercncia estattstica
Probabilidades
Variavel
Variavel qualltativa Variavel quantitativa
Amostra
Amostragem Unidade amostral
Semente aleatoria
Resumo
1. Estuda-se Estatfstica para aplicar seus conceitos como auxflio as tornadas de decisao diante de incertezas.justificando cientificamente as deci soes, 2. 0 metoda estatistico e urn processo utilizado para obter, apresentar e analisar caracteristicas au val ores numericos para uma melhor tomada de decisao em situacoes de incerteza. 3. 0 objetivo da Estatistica e 0 estudo da ehamada popuia(_(iio, que consiste na totalidade de unidades de observacao (usualrnente pessoas, objetos ou eventos) a partir das quais se deseja tomar uma decisao, 4. Ao se descrever uma populacao estatfstica, deve-se diferenciar unidades de observaciio das caracteristicas dessa populacao. Uma unidade de observacao e urn objeto (au grupo de objetos) do qual se coletam dados, e que pode ter muitas caracterfsticas, embora 0 interesse geralmente recaia sobre apenas uma ou poucas dessus caracterfsticas. 5. Em Estatfstica, variavel e uma atribuicao de urn mimero a cada caracterfstica da unidade de observacao, ou seja, 6 uma funyao rnaternatica definida na populacao, A variavel pode ser qualitativa ou quantitativa, e esta ultima pode ser discreta ou continua. 6. Quatro escalas de medidas podem ser usadas para caracterizar as unidades de uma populacao: nominal, ordinal, intervalar e proporcional. 0 fato de uma variavel ser expressa por numeros nao significa que ela seja necessariamente quantitativa, porque a classificacao da variavel depende de como foi medida, e nao da maneira como se manifesta. 7.0 estudo estatistico inicia-se com a coleta de parte de uma popula9ao, denominada amostra, constituida par n unidades de observa9ao e que deve ter as rnesrnas caracterfsticas da populacao, Essa coleta recebe 0 nome de amostragem. 8.0 principal objetivo de qualquer plano de amostragem 6 selecionar a arnostra de tal maneira que ela retrate fielmente a populacao, isto e, seja representativa da populacao. 9. Entre os varies tipos de amostragern, destacam-se tres: sistematica, aleatoria simples e estratificada. 10.0 processo da amostragem aleat6ria simples exige uma simulacao de sorteio, 0 que e feito pelo usa de uma tabela de digitos pseudoaleatorios. 11. Generalizar para a populacao aquilo que se obscrvou na amostra caracteriza a inferiincia estatistica, parte da Estarfstica que usa uma amostra para fazer generalizacnes a respeito de aspectos irnportantes de uma populacao. 12. Como as informacocs provern de urn conjunto menorque a popula9ao, cometern-se eITOSao se fazer uma inferencia. Esses erros sao quantificados pelaprobabi/idade, a qual, alem de lidar com situa<;oes influenciadas por fatores nao-controlados pelo analista, proporciona urn modelo racional para lidar com a vari abilidade inerente a natureza, bern como com situacoes relacionadas com 0 acaso. 13. Com 0 surgimento das calculadoras eletronicas e dos cornputadores, 0 trabalho estatfstico ficou mais facil porque se eliminam os calculos cansativos e economiza-se tempo para a modclagem dos problemas, para a coleta de valores precisos e rclevantes e para a analise dOBresultados. 14. A tecnologia mudou radicalmente a rnaneira de se ensinar e aprender Estatlstica, bern como a maneira de resolver problemas. 15. Geralmente, as causas de erros nas amostragens sao a falta de aleatoriedade na escolha das unidades da populaciio em uma amostragem simples, ausencia de representatividade da popufar;ao e especificaciio erronea de uma populaciio e variac/in aleatoria. 16. A rnaioria dos problemas nao e resolvida apenas pelo estatfstico, mas par urn grupo de pessoas que 0 conhece em detalhes; ao estatfstico cabe seIecionar as ferramentas estatisticas para ajudar a resolve-los; 0 sentimento de equipe e fundamental em qualquer estudo. 17. A quantidade de informacoes estatisticas que vern a publico e tao grande que se pode querer distinguir entre as haas e as mas estatfsticas, Outro problema e emitir conclusoes erradas a partir de observacoes e val ores absolutamente corretos, Mais ainda, as vezes OCOITe que, com os mesmos valores, sao estimuladas decisoes conflitantes. Todavia, e fundamental perguntar, primeiro, como se planejou a pesquisa e como se anotaram as observacoes,
18
Capttulo 1 / lntroduciio
Exercfcios propostos
Tabela 1.2 relaciona as 30 maiores empresas privadas do Brasil em vendas, e os pafses gue tern a maioria das acoes delas (revista Exame, Maiores e Melhores.julho de 1998). a. Utilize a tabela de digitos pseudo-aleatorios (Tabela 1.1 pag, 9) para selecionar oito das empresas para serem entrevistadas em detalhes a respeito de suas estrategias de crescimento. Come-
o;ando com 0 extremo superior direito e movendo-se para baixo nas duas tilti mas colunas da direita, observe que os primeiros mimeros de dois dlgitos obtidos sao 64, 06 e 75; determine as empresas restantes, segundo a mesma regra; b. identifique 0 tipo de escala do controle acionario dessas empresas.
Controle
actonarto
Empresa Vale do Rio Doce Cotia Mercedes-Benz CSN IBM Light Casas Bahia Usirninas Lojas Americanas Multibras Ceval Copersucar Cargill Credicard CPFL
Controle Brasil
acioml.rio
Alemanha Estados Unidos Italia Inglaterra/Holanda Inglaterra Fran,.a Brasil Estados Unidos Brasil Sui~a Inglaterra/Holanda Estados Unidos Estados Unidos Brasil Brasil
de 1998.
Brasil
Alemanha Brasil Estados Unidos Franca/Estados Unidos Brasil Brasil Brasil Brasil Bermudas Brasil Estados Unidos Brasil Brasil
revistaExame,
Maiore s e Melhores.julho
(i)os resultados do SAEB (Sistema de Avaliacao da Educacao Basica) de 1997 basearam-se em uma amostra de 167.196 estudantes das 27 unidades da federacao, de escolas publicas e particulares do Brasil. Esses resultados geraram polemica, porque enquanto aqueIes estados que tiveram born desempenho na avaliacao comemorayam as resultados. a secretaria de Educacao de urn estado afirmava gue 0 seu estado tinha sido prejudicado porque a avaliacao excluiu alunos das escolas tecnicas estaduais, que "tern urn desempenho melhor".41 a. Identifique 0 tipo de escala utilizada na frase "tern urn desempenhomelhor". b. Justifique a sua concordancia 011 discordancia quanta 11 afirmativa des sa secretaria de Educacao, ~a Engenharia de Avaliacoes, diversas caracterfsticas de urn imovel sao consideradas para 0 calculo dos pre90s de venda e de aluguel de imoveis comerciais e residenciais. a. Identifique 0 tipo de escala a ser utilizada para as seguintes caracterfsticas: area global, idade e localizal(ao.42 b. Explique como guantificar a existencia au inexistencia de garagem no predio, 4. Urn artigo da revista Professor de Matemdtica, n.? 3, do segundo semestre de 1983, explica como urn genio pode ser reprovado em urn teste de inteligencia, porque a maioria dos testes exige intuicao e nao deducao, palpites em vez de raciocfnio 16gico. Com os conhecimentos que voce ja tern de Estatfstica, responda it seguinte questao: que mimero esta faltando na seqilencia 1, 2, 4. 5? 5. Identifique os tipos de escalas utilizadas para cada uma das seguintes caracterfsticas das unidades de observacao, retiradas de uma tabela do Guia do Usuario do aplicativo Microsoft Excel: mes, tipo de produto, vendedor, regiao do pafs, unidades vendidas e total de vendas.
@dentifigue 0 tipo de amostragem realizada nesta pesquisa: "A pesquisa ouviu mulheres de todas as classes sociais, com idades que variam de 25 a 70 anos. Nesse universo, 66% nao acreditam gue 0 Viagra possa melhorar 0 desempenho sexual do parceiro. ,,43 7. No livro Boas prdticas de laboratories clinicos e listas de verijicQ(;:aQ,44 utilizado no Brasil, consta que 0 cadastro do paciente deve canter, entre outras, as seguintes informacoes: a.nome; b.Idade; c. sexo; d. procedencia ou origem (p. ex., posto de coleta, convenio etc.); e. data do atendimento; f. rnimero do registro; g. telefone do paciente ou do solicitante (nao havendo, e obrigat6rio o endereco); h. nome do responsavel pelo paciente (quando for 0 caso); i telefone do responsavel (nao havendo, e obrigat6rio 0 endereco), Com base nessas informacoes, monte uma tabela em que todas as caracterfsticas possam ser preenchidas. 8. Urn articulista afirma que "cerca de 33% da populacao brasileira reclama de uma au duas noites maldormidas na semana, 0 que altera a qualidade de vida da pessoa".45 Discuta essa afinnacao. 9. Segundo a edicflo especial da revista Veja 30 anos, de 1998, "cada exemplar elida por quatro pessoas. Sao 4,5 milhoes de leitores por semana". Comente como a revista chegou a esses resultados. 10. "As lojas, ern Sao Paulo e Rio de Janeiro, pretendem reforcar no consumidor - em especial 0 jovem de 15 a 29 anos que gosta de esportes como surfe e skate - a ideia de que essas linhas sao a cara de seu estilo de vida.,,46 Identifique 0 tipo de amostragem realizada,
Capitulo 1 / Introduciio 11. "E mais: os leitores pediram e n6s atendemos." Esta frase do publisher da revista Iraemetworid; de dezembro de 1998, exprime uma decisao tomada com base em informacoes recebidas, Discuta como poderiam ter side coletadas as opinioes dos leitores, indicando pontos de possfveis falhas na amostragem. 12. Para a revista lntemetbusiness de dezembro de 1998, os grandes hospitais rnontam redes de atendimento aos pacientes e trocas de informacoes baseadas na Web. Todavia, segundo urn medico, "a Web ainda nfio esta pronta para transmitir grandes volumes de informacac em pouco tempo". Identifique, nesse trecho do artigo "Saiide a distancia", a populacao em foco e a tendencia do usa de amostras a rnedida que 0 tempo de arquivamento de informacoes torna-se maior. 13. Considere a seguinte notfcia: "Britanico troca namorada por TV Uma pesquisa realizada com britanicos entre 18 anos e 30 anos de idade mostrou que 24% deixariarn a namorada se fossem obrigados a escolher entre elas e a televisao. ,047 Indique a importancia da Estatfsr..:'ltica na interpretacao de afirmacoes divulgadas pela midia. VAp6s uma pesquisa, ha uma crftica inicial das observacoes para verificar a exatidao de cada resposta. Q objetivo 05, e necessario, repetir s alguma entre vista. retificar os valores duvidosos e preparar 0 material para ser colocado em uma escala numerica, a. Justifique a necessidade dessa crftica. b. Discuta a necessidade de se investir no treinamento dos entrevistadores para evitar esse trabalho de depuracao. 15. A criacao de estereotipos com relacao aos povos do mundo baseiase em opinioes de poucas pessoas que acabarn se disseminando. Em uma reportagem sobre estereotipos.Y' publicou-se que "ha ainda 0 personagem humorfstico Gardel6n, de ]{}Soares, responsavel pelo bordao muy amigo", sem diivida 0 mais popular de todos esses. "Fiz baseado em urn ernpresario artistico argentino que eu conhecia", conta o humorista. Discuta, com base nos conceitos de amostragem, as Cf?ssfveis causas do surgimento de estere6tipos. ~m ex-ministro do Planejarnento do Brasil afirma em urn artig049 que "nos Estados Unidos, os censos demograficos me perguntavam se eu era caucasiano, mexicano, ariano, asiatico, mong6lico e muitas outras classificacoes cujo significado [eu] nao conhecia".
19
a. Identifique 0 tipo de escala utilizada para c1assificar a nacionalidade de uma pessoa. b. Discuta a precisao das informacoes obtidas em urn censo demografico. c. Indique as possfveis conscquencias do fato de urn entrevistado nao conhecer 0 significado de alguns termos contidos nas perguntas que lhe sao feitas. 17. Considere 0 artigo jomalfstico" que afirma, a respeito das pesquisas realizadas antes das eleicoes de 1998 no Brasil: a. "Ninguem duvida do poder de inducao das pesquisas eleitorais." Cornente essa afirmativa com relacao a sua abrangencia. b. "... seria fantasia suspeitar que as pesquisas sao manipuladas? Especiaimente se, abertas as umas, as divergencies entre os re-suItados reais e as previsoes sao significativas, 0 que se pode-pensar? Ou serao apenas erros inocentes dos institutos que alias nunca erram nas apuracoes de audiencias de TV. ou nas pesquisas de mere ado para lancarnento cornercial de produtos?" Discuta essas afirmacoes, 18. Amincio de empresa relefonica: "Pesquisa ... mostra que, sete meses ap6s entrar em operacao na cidade, celular da XYZ recebe nota 7,3 contra 6,4 do concorrente." Logo apos esta notfcia, 0 coment3rio: UNaavaliaeao do .... a XYZ tern 0 melbor service de telefonia celular: 63% de satisfa~ii.o."Sl Comente a respeito desses numeros. 19. Comente a seguinte noticia: "Segundo a pesquisa, realizada por telefone no final de semana passado, com uma amostra de 961 pessoas, 32% dos entrevistados disseram que ele deveria voltar para 0 Chile. Outros 17% afirmaram nao saber a resposta."S2 20. "Como foi feita a pesquisa: 0 trabalho foi feito POt meio de entrevistas pessoais e em grupo com mais de 500 miIion:irios e de pesquisas com mais de 11.000 pessoas de alta renda ou com alto patrimonio lfquido. Cada uma respondeu 249 questoes sobre os mais diversos t6picos ligados a dinheiro," Essa noticia foi publicada na revista Voce de dezembro de 1998, no artigo "0 milionario mora ao lado". Ocorre que os resultados referem-se aos Estados Unidos. Caso voce desejasse fazer a mesma pesquisa no Brasil, descreva sucintamente como a realizaria e quais as suas fontes de consulta e possfveis dificuldades.
valores sobre a selecao, sobre as pessoas que se dedicam a criar estatisticas sobre a selecao. Folha de S. Paulo, 24/1211995.
20
9. 10. II. 12. 13. 14. 15. 16. 17. 18. 19. 20. 21. 22 23. 24. 25. 26.
27.
Capitulo Falha de S. Paulo, 2/1/1999. Revista Epoca, ann I, 0.° 33, 4/111999. Revista Epoca, ann 1, 0.° 33, 4/111999. Anuncio de urn preparado solido artificial para refrcsco, Revistu Domingo, Jamal do Brasil, n." 1.185, 17/1/1999. Revista Epoca, ann I. n.. 33, 4/111999. Anuncios de aparelhos telefonicos celulares. Declaracao de Ajuste Anual, Instrucoes de Preenchimento, Imposto de Renda, Pessoa Ftsica, 1999. Folha de S. Paulo, 27112fl 998. Suplernento "Urn ano para 0 ano 2000", Folha de S. Paulo, 1."11/1999. Falha de S. Paulo, 41111999. Folha de S. Paulo, 41111999. Folha de S. Paulo, 18/10/1998. Falha de S. Paulo, 7/111999. Folha de S, Paulo, 10/12/1998. Folha de S. Paulo, 1811 0/1998. Failla de S. Paula, 18/10/1998. Folhade S, Paulo,SuplemcntoEspecial, 1.°/1211998. Folha de S Paulo. 61111999. Fa/hadeS. Paulo, 18/10/1998. Folha de S. Paulo, 1."/1211998, cademo especial Top of Mind Dcste Porto Seguro, da Vossa Jlha de Vera Cruz, hoje, sexta-feira, primeiro dia de maio de 1500, Pem Vaz de Caminha. 31. 32. 33. 34. 35. 36. 37.
38.
1 / Introductio
39.
40.
Jamal do Brasil, 22/1211998. Jamal do Brasil. Inforrne Econornico, 10/12/1998. Observa ..iio de urn leiter, Folha de S. Paulo. 27/1211998. MilI6r Fernandes no jomal 0 Dia, 17/111999. Fo/hadeS.Pau/o,13/12/1998. RevistaEpoca,anoT,n."21,12/1211998. Failla de S. Paulo, 13/11/1998. Revista Epoca, ano I, n." 21, 1211211998. Revista Epoca, ano I, n." 21, 12112/1998. Rcvista Epoca, ano J, n." 21, 12112/1998. Failla de S_ Paulo, 26/11/1998. Caderno Brasileiro de Avaliacoes e Pericias ano X, n." 111, seternbro de 1998. Revista Epoca, ano T, n." 21. 12112/1998. Inrnetro - Institute Naciona! de Metrologia, Normallzacao e Qualidade Industrial, TSBN 8573031735, Qualitymark Editora, 1997, Revista Boa Forma Homem, ano T,edicao 3, dezembro de 1997. Revista Isto t: Dinheiro, 2/9/1998. Folha de S. Paulo, 10/1211998. Failla de S. Paulo, 27/1111998. Failla de S. Paulo, 30/11/1998. Helio Amorim, "Arte de induzir", Jamal do Brasil, 13/11/1998. Folha de S. Paulo, 10112/1998. Fa/hadeS. Paulo, 2112/1998.
Analise
de dados
Descrevendo a amostra:
exploratoria
Estatistica Descritiva,
22
Comecando a orqanizar os valores das unidades amostrais, 22 Um numero para representor tendencia central, 24 a todos: as chamadas medidas de
de uma s6 vez, as medidas mais importantes, medias e desvios padroes: de valores em tabelas, 42 centra/ e de dispersao revisitadas, em comparacoes e
0
39
coeftciente
conjunto
Medidas de tendencia
45
Trazendo urn pouco de justica classificaciies, 47 Apresentando_yisualmente construlndoqraflcos, Crdflcosque erlgimam: Termos-chave,55 <Resume, SJi E;~YcfCiOS ~ropostos,
~-..."~.
56
=Sotucoes "dosexercicios-exempto,
58,
22
injomuIfoes
tornassem uteis
exploratoria de dados e a fase inicial do processo de estudo dos elementos coletados nas amostras/Nessa etapa de avaliacao, utilizam-se tecnicas que resu,'jllrt mem e classificam 0 conjunto de dados coletados para que se obtenham as informa~oes pertinentes que serao utilizadas na fase final do processo, a chamada inferencia estatistica (ver Capitulo 4, p_l03), tambcrn conhecida como analise confirmat6ria de dados. A exploracao au avaliacao anahtica dos dados da amostra e um enfoque (ou filosofia) para analise de dados que utiliza uma variedade de tecnicas graficas, com os seguintes objetivos: • ter 0 melhor discemimento possfvel sobre um conjunto de dados existentes em uma amostra; • descobrir estruturas basicas da organizacao da populacao; • identificar anornalias e dados dispersos; • desenvolver rnodelos matematicos adequados para uso no calculo das probabilidades e na inferencia estatfstica, Uma vez coletados os dados de todas as variaveis envolvidas em determinado estudo, 0 passo seguinte e descobrir 0 que os dados da amostra tern a direr a respeito do que esta sendo investigado. Olhar uma extensa listagem de dados nao permite praticamente qualquer conclusao; e preciso utilizar medidas, tabelas ou graficos que resumam e mostrem 0 comportamento das variaveis, permitindo interpretacoes praticas: Em outras palavras, devem-se utilizar tecnicas que mostrem as informacties contidas nas variaveis, Na vida diaria, vemos que jomais, revistas e artigos tecnicos publicam, freqiientemente, notfcias relativas a porcentagens, medias aritmeticas, tabelas e graficos, recursos destinados a complementar a apresentacao de urn fato ou justificar urn argumento.
"lilJ~~>f analise
i>::..4t1l
: <
Urn grdfico
do real" ilustra o
Navegando
Procure, no fndice de busca Cade (www.cade.com.brs, secoes que contem graficos estatfsticos.
rol da amostra
t______,__.._~
conjunto dispostos do s valores da amOSlTa. em ordem crescente au decrescente
(LIST) e
[D](SORT);
Ie]
Capitulo 2 I Analise exploratoria de dados Tabela 2.1 Quantidade de empregados nas 100 maiores empresas p rivadas do Brasil, classificadas por vendas.
Ordem original
1
23
Quantldade de empregados 30.775 21.411 24.045 1.763 7.840 1.932 13.038 5.242 12.097 9.378 1.303 1.047 17.812 10.865 198 11.360 10.995 11.522 19.896 8.949 14.020 987 2.666 5.588 6.700 5.132 7.926 2.788 11.439 18.093 8.237 950 8.177 3.996 11.484 2.415 4.208 5.817 7.820 11.028 Ordem original
48
Quantidade de empregados 4.700 10.465 2.147 4.500 2.141 7.092 5.254 9.443 3.622 2.356 1.082 1.020 746 3.354 4.973 4.859 3,326 1.688 5.840 383 3.616 3.500 6.084 5.543 3.581 9.564 4.621 3.073 6.468 1.754 6.025 2.616 2.237 3.014 154 4.019 5.113 4.087 1.873
2 3 4 5 7 8 9 10 11 12 13 15 16 17 18 19 22 24 25
50 51 52 53 54 55 57 58 59 60 61 62
64
26
27 29 30 31 32 33 34 35 36 38 39 40 41 42 43 44 45
4(l
65 66 67 6& 69 70 71 72 73 78 79 80 83 86 88 90 91 92 93 94 95 96
97
590
98
99
47
100
• Com a ealculadora Casio CFX-9850G19950G • passo 1: insira os dados em urna lista, por exernplo Lista 1; aparece 0 menu com SRT.A (ordenacao crescente), SRT.D (ordenacao decrescente), DEL (eliminacao de urn unico dado) DEL.A (eliminacao de todos os dados), INS (inserir urn dado novo); a cada urn des• passo
ses eomandos eorrespondem as teclas [F1], [F2], [F3], [F4] e [F5], respectivamente; 2: tecle [F1] (SRT.A) para fazer a ordenacao crescente, ou [F2] (SRT.D) para a ordena~ao decreseente. Surge a pergunta: How many lists? (quantas listas?); tec1e [1] [EXE]; aparece Select List (L); tec1e [1] e [EXE]e a lista aparece ordenada.
• Com a calculadora Texas TI·83 • passo 1: tecle [2nd] [STAT] (List). Aparece NAMES OPS MATH; • passo 2: com a tecla de seta direita, selecione OPS, 1: destacado, equivalente a Sort A
(ordem ascendente); • passo 3: tecle [ENTER][2nd] [1] (equivale a Lista 1) [)] [ENTER]; aparece Done e, para conferir 0 resultado, tecle [2nd] [1] [ENTER]para surgir a Lista I, agora ordenada.
• passo 1: digite os val ores na coluna A (poderia ser em qualquer outra), urn valor por linha; • passo 2: seleeione as celulas que contem os valores (clicando na primeira celula com 0
botao esquerdo do mouse e arrastando 0 ponteiro, sern soltar 0 botao do mouse, ate a ultima celula); todos os valores fiearn em fundo preto; • passo 3: na Barra de Menus, em Dados ..., 'escolha Classificar ... ; abre-se uma tela na qual se teela Crescente em Classificar por; clique OK; a coluna A, na qual os valores foram originalmente digitados, aparece com os mimeros ordenados.
• Exerctcio-exemplo 2.1
Construa no Excel 0 rol das medidas da amostra da Tabela 2.1. (Salve esta pLanilha: voce a usarti em outros exerctcios.t
24
A media de urn conjunto de mimeros e urn valor que, levando em conta a totalidade dos elementos do conjunto, pode substituir a todos, sern alterar determinada caracterfstica desse conjunto. Ha dais tipos mais comuns de media: • se a caracterfstica do conjunto e a soma dos seus elementos, tern-se a mais simples de tad as as medias, a media aritmetica; • se a caracterfstica do conjunto e 0 produto dos seus elementos, tem-se a media geometrica.
,I
natural
resultada
A media aritmetica de uma amostra e urn mimero que, levando em conta 0 total de elementos da amostra, pode representar a todos sem alterar a soma total desses elementos. Como a soma dos n elementos deve ser igual a n vezes a media aritmetica, para determinar a media aritmetica (simples) da amostra (au, apenas, media da amostra), caIculada a partir de urn conjunto de valores, somam-se todos os valores e divide-se essa soma pela quantidade total de valores. A media aritmetica da amostra pode nao pertencer ao conjunto original de valores, nem precisa ter significado real.
"As familias brasileiras estdo diminuindo. Em cinco (1Il0S (de 1992 para 1997), a numero media de pessoas em cada casa caiu de 3.8 para 3,5, segundo a Pesquisa Nacional par Amostra Domiciliar (PNAD). divulgada Glltem pelo IRGE ." 2 "A taxa de fecundidade 1997. ,,' ~ de 4,3 [llhos par mulher em 1980 para 2,5 JUhas par mulher em
Exercicio-exemplo 2.2
Determine a media aritmetica da amostra da Tabela 2.1.
• Com formulas
De maneira geral 0 valor e representado por uma letra, comumente 0 x, e cada valor e identificado par urn tndice, comumente a letra i subscrita, ou seja, cada valor e represent ado por Xi' Podem ser usadas outras tetras, tais como; Xl' Yi' z, etc. Assim sendo, representam-se as valores da Tabela 2.1 par Xl = 30.775, x2 = 21.411, X3 = 24.045, e assirn sucessivamente. A soma de uma serie de valores e representada pela letra grega maiiiscula ~ (pronuncia-se sigma), devendo-se identificar as parcelas (ou seja, os valores) inicial e final. No Exercfcioexemplo 2.2, a soma e de 80 mimeros, comecando no prirneiro (30.775 = Xl) e terminando no ultimo (1.873 = xso); esses indices sao colocados acima e abaixo do sfrnbolo ~, e a soma total dos val ores X, do 1.° ao 80.°, e representada par
valores,
xn'
e simbolizada por
X (le-se
Como a media aritmetica preserva a caractenstica da soma de todos os elementos e representa cada urn deles, tem-se que: Xl + x2 + X3 + ... + XII = M + M + ... + M (urn total de n valores iguais aM) = n x M. Desse modo, a media aritmetica e calculada pela expressao
ix,
n
Q
-'=l__""X.
• passo 1: aperte as teclas: verde de troca de funcao e [5](equivale a STAT).Aparece a tela com as seguintes OP90es:
de dados
25
Fit data ... Summary stats ...
• passo 2: aperte a ultima tecJa branca da primeira fileira de teclas, [F) (equivale ao OK das etiquetas de menu, na ultima linha da tela). Aparece a tela SINGLE- VARIABLE STATISTICS; • passo 3: introduza os dados em EDAT, apertando a primeira tecla branca [A]; apos digitar 0 ultimo mimero, tecle {ENTER]; • passo 4: ressalte com a tecla de seta a direita 0 campo COL: e digite a mimero da col una que contern os dados da variavel: • passo 5: com as setas do conjunto de teclas com as 4 setas [--7], [+-], [t] e LJJ, ressalte TYPE:, apcrte a tecla branca [B] (CHOOS), aparecendo as alternativas Sample (Arnostra) e Population (Populacao): escolha Sample e tecle [F]; • passo 6: ressalte MEAN (media aritmetica), na primeira linha abaixo de TYPE:, e aperte a terceira tecla branca, [O] (equivalente a ,/ CHK, check, que quer dizer verificary. 0 nome MEAN ficara com 0 sfrnbolo ,/ ao lado dele; • passo 7: aperte a ultima tecla branca [F]; aparecera 0 resultado da media aritmetica, Mean:
• Com a calculadora Cosio CFX-9850G19950G • passo J: introduza os dados em uma das listas; • passo 2: tecle [MENU] para ir tela principal; • passo 3: coloque 0 cursor na opcao RUN e tecle [EXE]; • passo 4: aperte, pela ordern, as tec1as [OPTN] (a direita da tecla amarela [SHIFT)), [F,] (LIST), [F6](seta para a direita)[F3](Mean)[F6], (seta para a direita), [F6) (seta para a direita) [F1] (List) [1] (se for a Lista 1) OJ (fecha parenteses) e [EXE]. Aparece na tela 0 valor da media da Lista 1, Mean(List t).
• Com a calculadora
Texas TI-83
• passo 1: introduza os dados em uma lista; • passo 2: tecle [2nd](STAT](LIST); escolha MATH e digite [3], aparecendo mean:; • passo 3: tecle [2nd]l1] [ENTER].
• Com
0
Excel
Para 0 calculo da media aritrnetica da amostra no Excel, utiliza-se 0 Colar Funyao com os seguintes passos: • passo 1: primeiramente, escolha uma celula (tomando-a ativa) na qual voce deseja colocar 0 resultado desejado; • passo 2: clique duas vezes no leone Colar Funcdo, abrindo-se a tela correspondente a da Figura 2.1; Figura 2.1 Colar Funcdo .
• passo 3: clique, no quadro a esquerda, na categoria Estattstica e, no quadro a direita, em MEDIA (a qual deve ser encontrada acionando-sc a barra de rolagem lateral) e, na parte inferior, em OK; surge a tela da Figura 2.2. Figura 2.2
Tela do Excel para a
IA_[
_
-"=___ -_.~_-"-jj~ ~ ~= _ _
~"::'"
---··--ii::~--+_~~~
~",;-"""""-~l'
l~
"
,
~
~L
_~
Reto.rna !!Ii media (erIb'!Ietk~).~Q~ i!ltQurnantas .que:poderp ser nUrner~ referenci.:l:i que ctll'item nUmer.os.
Nuni'1:
26
• passo 4: digite, no retangulo Numl (agora com urn traco vertical intermitente), as celulas inicial e final do conjunto de valores para os quais se deseja determinar a media aritmetica da amostra, separadas par dois pontos au, entao, selecione 0 conjunto de valores clicando na prirneira celula e arrastando 0 ponteiro do mouse (sem soltar 0 botao esquerdo) ate a ultima celula (nao se preocupe com a notacao inc1uindo 0 sinal $); neste ultimo caso, observe-se que em Numl aparecem as colunas inicial e final onde foram digitados os valores e, a direita, parte da listagem deles, e ap6s preenchido Numl (0 resultado da media aritmetica da amostra aparece na extremidade inferior esquerda, Resultado da formula;
Usando 0 Excel, determine a media aritrnetica da quantidade de empregados das empresas relacionadas na Tabela 2.1.
Deve-se multiplicar cada valor pelo mimero atribufdo a sua importancia no conjunto de dados (numero denominado peso), somar todos os produtos assim obtidos e dividir 0 total pela soma dos pesos.
"Prova discursiva e redacao tern peso dais. Queremos um aluno que salbu se expressar; por isso nossas provas dissertativas e de redaqao tem peso dais. ,,5 • Com formulas A media aritmetica ponderada de uma amostra com n valores, Xl' X2, X3, , •• , Xn, com pesos respectivamente iguais a PI' P2' ... , Pn, tambem 6 simbolizada por X, sendo calculada pela expressao
X == ...;./=-,1__
i>.x
I
1>,
1=1
Exercicio-exemplo 2.4 Na Tabela 2.2 esta relacionada a pontuacao dos 20 prirneiros colocados no ranking do futebol brasileiro - versao 1998, e a quantidade de campeonatos e vice-campeonatos conquistados em diversos tomeios por essas equlpes, A pontuacao de cada time levou em conta a Tabela 2.3. Com base nessas informacoes, confira a pontuacao dos colocados nos dais prirneiros Iugares,
Este procedimento usa duas listas: uma que contem as val ores e outra que contem a quantidade de ocorrencias de cada valor. A freqtiencia dos dados na celula 1 da primeira lista e indicada pelo valor na celula 1 da segunda lista etc. As duas listas devem canter a mesma quantidade de dados; caso contrario, aparece uma mensagem de erro. • passo 1: insira os dados em duas colunas em IDAT, a prime ira com os valores e a segunda com as frequencies dos valores, respectivamente; • passo 2: aperte as teclas verde e [5]; abre-se uma tela com opcoes: • passo 3: escolha Summary stats ... e tecle [F); • passo 4: marque LXY e aperte a tecla branca [F] (OK); aparece 0 resultado do somat6rio das multiplicacoes; • passo 5: digite 0 total de mimeros: tecle [-;.-] a media ponderada surge. e
• Com a calculadora Casio CFX-9850G19950G
Este procedimento usa duas listas: uma que contem os val ores e outra que contem a quantidade de ocorrencias de cada valor. A frequencia do dado da celula 1 na primeira lista e indicada pelo valor da celula 1 na segunda lista etc. As duas listas devem conter a mesma quanti dade de dados, caso contrario aparece uma mensagem de erro. .. • passo 1: insira os dados nas duas listas, a primeira com os valores e a segunda com as frequencias dos valores, respectivamente; • passo 2: tecle [MENU]para ir it tela principal;
Capitulo
2 I Analise
exploratoria
de dados
Tabela 2.2
t;i
8. ~
w&l
i§ -
'a: Z
.~
0
27
~ '" "~
~\6
~]
.~
.S ~
~~
ea..
"" c'"
~
0
a .e "
'" wooE
0
0
]
.g
I"l
~~
!
I 1
:8 ~
" u
0
.~
~
o e,
sPalrneiras Sao Paulo F1amengo Gremio Santos Vasco Cruzeiro Corinthians fluminense Atlelico-MG Internacinnal Botafogo Bahia Fortaleza Coritiba Ceara Sport N;iutico Vit6ria Goias
c c ... ~ oS ." .'" c "" "" ... a " " " " ~ ~~ ee ~~ ~~u~ ~ u ~u~ ~u u 21 18 31 15 21 29 22 28 36 33 17 41
22
17
!
4 I 5 2 4 2
2 3 2
.~
e
8 2 I 2
..1 ~~ ) 'J i) ~~
"'.c
"''"" ~
1t~
u
-
8.
~ ~u~
2 2 1 I I 2
u
I
8.
'" g. ~~
.c
~~
2 1
::;].5
§~
4 3 1 4 2
I I
5
I 3 I 2 2 3 2 I 1 2 I 2 1 I 2 3
2 1 I 2
24 29
22 9 18 27 19 20 29 18 13 6 19 17 17 6 15 14 10
548
548 531 519 503 500 434 430 406 365 280 279 271 270 181 169 152
1 5 I 3 I 1 2
S
J
2 I 3 2 I 1 3
2
I 2 I 2 2 I
2 I
1 I
1 J
1 2 2
I 1 1
29
29 30 31 18 16 16
I I I 1 I I
de 1999.
Campeiio
Competi.;iio Campeonato Estadual Sao Paulo e RIO Outros estados Campeonato Brasileiro (desde 71) Taca Brasil (de 59 a 68) Tomeio Roberto Gomes Pedrosa (de 67 a 70) Copa do Brasil (desde 891 Tomeio Rio-Sao-Paulo Conmebol (desde 92) Ta~a Libertadores (desde 60) SU)l_ercoparda Libertadores (de 88 a 97) Copa Mercosul (9l!l Recopa (de 88 a 97) Mundial Interclubes Fonte: Folha de S. Paulo. 3 de janeiro de 1999. (33, de 50 a 66, 93, 97 e 98)
Vice 7 3
I)
10 7 2S 15 15 15 10 15 35 10 10 5
10 10 10 5
IO
))
5 5
-
• passo 3: coloque 0 cursor na op~ao RUN e tecle [EXE); • passo 4: aperte, pel a ordern, as teclas [OPTN), [F1j (LIST), [F6} (seta para a direita) [F3](Mean)[F6],(seta para a direita), [F6] (seta para a direita) [F1] (List) [1) (se for a Lista 1), tecle [.] (localizada acima da tec1a [DEL], [F1] (List) [2] (se for a Lista 2) [)] (fecha parenteses) e [EXE); aparece na tela 0 valor da media ponderada dos valores da Lista t que tern os pesos da Lista 2.
• Com a calculadora Texas TI-83
• passo 1: erie duas Iistas, a primeira com os valores (Lista I) e a segunda (Lista 2) com os pesos; • passo 2: tecle [2nd][STAT)(LIST); escolha MATH e digite [3], aparecendo mean: • passo 3: tecle [2nd] [1] [,j [2nd] [2) [ENTER).
• Com o Excel
28
Capitulo
2 / Analise exploratoria
de dados
• passo 1: digite em uma col una os valores para os quais se deseja a media aritmetica ponderada, coluna A, por exemplo, de A I ate AS, e na coluna B os pesos respectivos, de B1 ate B5; • passo 2: escolha uma celula na qual voce queira colocar 0 resultado desejado, tomando-a ativa; • passo 3: clique duas vezes na celula ativa e digite
=SOMARPRODUTO(AI :A5;Bl :BS)lSOMA(Bl :B5);
no Excel.
:£~
Mt.ltiplk:~'-il~ ~
IJi"lXlltO:i.
comp&m
a',Jr')atm
(.Ir.J
"-~--.-.-.-.-->1'1
scrne destes
Ii;
<,
scmer cOOlJ)Onentes.,
voce
t~anho.
Determinando
media geomitrica do amostra
a media geometrica
da amostra
• Com a linguagem natural A media geometric a de uma amostra e urn numero que, levando em conta 0 total dos elementos da amostra, pode representar a todos, sem alterar 0 produto desses elementos. Assim sendo, a media geornetrica de uma amostra de tamanho n e igual 11raiz de ordem n do produto dos n valores. • Com formulas
A media geornetrica de uma amostracom n valores, XI'X2' Xv ""XII' nao tern sfmbolo especial. Como a media geometrica preserva a caracterfstica do produto de todos os elementos e representa cada urn deles, tern-se que: Xl x x2 X Xl X ... X x. = M x M x .,. x M (urn total de n valores iguais aM) = M' Desse modo, a media geometrica
vxxx~
I 2
e calculada
pela expressao
Diferentemente do que ocorre na media aritmetica, a media geornetrica de uma arnostra nida apenas para mimeros positivos.
• Com a calculadora HP 48G
[X], 0
e defiterceiro
• passo 1: digite 0 primeiro valor, [ENTER], digite 0 segundo valor, digite valor, [X] e assim sucessivamente, ate 0 ultimo valor e [X]; • passo 2: digite n e apertc as teclas verde e [.,GJ.
• Com a calculadora • passo I: digite Casio CFX-9850G/9950G
0
mimero n de val ores; • passo 2: digite [SHIFT],[A] (equivale a of), [(]. 0 primeiro valor, digite [X],digite 0 segundo valor, digite [X], 0 tcrceiro valor, [X] e assim sucessivamente, ate 0 ultimo valor, [Xl e [)]; • passo 3: aperte a tec1a [EXE].
29
Para • • • •
calcular a media genmetrica dos valores armazenados na Lista 1: passo l : digite 0 total de valores; passo 2: tecle [MATH].escolha MATH, digite [5], equivalente a passo 3: tecle [2nd] [STAT),escolha MATH. tecle [6], equivalente a :prod (; passo 4: tecle [2nd][1 ][ENTER].
V;
• Com
Excel
• passo 1: escolha, primeiro, uma celula na qual se queira colocar 0 resultado desejado, tornando-a ativa; • passo 2: clique duas vezes no Colar Funcdo, abrindo-se a tela da Figura 2.4;
Figura 2.4
• passo 3: clique, no quadro a esquerda, a categoria Estatistica e, no quadro it direita, MEDIA.GEOMETRICA (que deve ser procurada, agindo-se na barra de rolagem lateral); na parte inferior, clique OK, surgindo a Figura 2.5; Figura 2.5 Tela do Excel para a media geometrica da amostra. numero-s
HUm I: rumi,rrtlm2;.:,
..det" e 30 bunome$-, meuiies-oor.!'fe:retd.!i:5 qu~, cool;f!fJhern nU~ros cuta· rn~.dia vo.:;;e.d~ia calc.ular ,
• passo 4: digite, no retangulo Ndmf (agora com urn traco vertical interrnitente), as ceiulas inicial e final do conjunto de valores para os quais se deseja determinar a media geometrica da amostra, separadas par dois pontos ou, entao, selecione 0 conjunto de valores clicando e arrastando 0 ponteiro do mouse (sern soltar 0 botao); neste ultimo caso, observe que em Nrimf aparecem as colunas inicial e final onde foram digitados os valores e, it direita, parte da listagem deles; ap6s preenchido Numt, 0 resultado da media geornetrica da amostra aparece na extremidade inferior esquerda (Resultado da formula); • passo 5: clique em OK; feche a tela e 0 resultado aparece na celula torn ada ativa no pas so 1.
"A estimativa do IBGE para alavoura de arroz irrigado na safra gaucha 98/99 If de uma area de 895.088 hectares,' com producao de 4.629.361 toneladas .. e produtividade inicial de 5.172 quilos por hectare ." 7 • Exercicio-exemplo 2.5
a. As importacoes brasileiras durante 1998 foram as scguintes, em bilhoes de dolares: janeiro, 4.577; fevereiro, 3.799; marco, 5.038; abril, 4.779; maio. 4.913; junho, 4.844; julho, 5.329;
30
mediana
de uma amostra
em urna listagem em ordem crescente au decrescente grandeza amostra, ocupaim] de do. valores de uma e o valor (au a media dos valores} que central da listagem a posi,iio
ariimetica
Compreendendo 0 conceito de mediana A mediana da amostra 15aquele valor que ocupa a posicdo central da listagem, estando a amostra com seus valores em ordem crescente ou decrescente e com todos as valores repetidos tambem inclufdos, individualmente, na lista ordenada. A mediana da amostra divide 0 conjunto total em duas partes iguais, com rnetade dos valores acima da mediana da amostra e metade abaixo dela. A mediana da amostra pode nao pertencer ao conjunto original de valores, Quando a quantidade de valores e frnpar, a mediana da amostra e 0 valor que ocupa a posic;:ao central, posicao tinica. Quando a quanti dade de valores e par, ha duas posicoes centrais na lista ordenada; entao, a mediana da amostra e a media aritrnetica dos dais valores que ocupam as posicoes centrais, Determinando a mediana da amostra
natural • Com a linguagem
Faca 0 rol da amostra e verifique qual 0 valor que ocupa a posicao central; no caso de haver urn mimero par de valores, ha duas posicoes centrais e, nesse caso, a mediana da amostra e a media aritmetica dos que ocupam essas posicoes.
• Exercicio-exemplo 2.6
Determine a mediana do comportarnento da Bolsa de Val ores do Rio de Janeiro na primeira semana de janeiro de 1999. corn base em 0%: 2."-feira: + 1,4%; 3."-feira: + 2,4%; 4."-feira: + 2%; 5."-feira: -3,1% e 6."-feira: _1,2%.10
Exercicio-exemplo 2.7
Determine a mediana dos seguintes indices de reajuste de alugueis: IPCA. 1,76%; lOP, 1,41 %;
Faca 0 rol dos n val ores da amostra; se ha urn mimero Impar de valores, a median a da amostra o valor que ocupa a (n + 1)/2-esima posicao a partir do infcio da lista.
• Exercieio-exemplo 2.8
Determine a mediana do comportamento da Bolsa de Valores do Rio de Janeiro na primeira semana de janeiro de 1999, com base em 0%: 2."-feira: + 1,4%; 3."-feira: + 2,4%; 4."-feira: + 2%; 5.'-feira: -3,1% e 6."-feira: -1,2%.'2
Se ha urn mimero par de observacoes, (n + 1)/2 nao e urn mimero inteiro, mas urn mimero da forma [inteiro + 0,5]. A mediana da amostra e, entao, a media aritmetica dos valores que estao nas posicoes [inteiro] e [inteiro + I] a partir do infcio da lista.
• Exercicio-exemplo 2.9 indices de reajuste de alugueis: !peA, 1,76%; lOP, 1,41%; Determine a mediana dos seguintes {NPC, 2,64%; e lGP-M, 2,18%,13
• passo 1: digite os valores em uma coluna de matriz; • passo 2: na primeira linha da tela principal aparece {HOME EXAMPLES PROS}; tecle [VARJ e [CJ (Media); 0 resultado aparece.
• Com a calcutadora Casio CFX-9850G19950G • passo 1: insira os dados em uma das Iistas; • passo 2: tecle [MENU] para ir tela principal; • passo 3: coloque 0 cursor na opcso RUN e tecle [EXE]; • pas so 4: aperte, pela ordem, as teclas [OPTNJ. [F1] (LIST), [F6](seta para a direita)[F4](Med)[F6J, (seta para a direita), [F6] (seta para a direita) [F1] (List) [1J (se for a Lista I) [)] (fecha parenteses) e [EXEJ. Aparece na tela 0 valor da mediana da Lista I: Median(List 1).
• Com a calculadora
Texas Tl-83
• passo 1: armazene as val ores na Lista I; • passo 2: tecle [2nd] [STAT] (List) MATH 4:median; • passo 3: tecle ([2nd][1J(L1) [ENTER].
• Com
0
Excel
0
• passo 1: primeiramente, escolha uma celula na qual queira colocar tomando-a ativa;
resultado desejado,
31
• passo 2: clique duas vezes no Colar Funcdo e procure a funcao MED, surgindo uma tela como a da Figura 2.6; Figura 2.6
Mediana no Excel.
Cola.
tUllca~
ina
,~m~.p~f\.J~t::ao~
! ~otegoriadaf~;;o~
1 . ~- C!
1
I ~~jjj~~i!I~~mrdZ:iidii:~~~.:·",~,aiiiiiiiii" •
.. 1
..l
!
Il~~:~~;;~i~)CC~ .c".~l
Retom.;;,
r~.to
a direita,
Figura 2.7
Tela para a Mediana
da amostra.
NUml:
numljnUm2;., • de 1 a 30 nUmet'os au nornes, J'TI.atflzes au rereFencias que contern nUll'lero'ii rule med~l1a .... dese:tja obter, oce
• passo 4: digite, no retangulo Numl (agora com urn traco vertical intermitente), as celulas inicial e final do conjunto de valores para os quais se deseja determinar a mediana da amostra, separadas por "dois pontes" (no Exercfcio-exemplo 2.1, Al:A80) ou, entao, selccione 0 conjunto de valores clicando em Al e arrastando 0 ponteiro do mouse (sem soltar 0 botao esquerdo) ate a celula ASO (nao se preocupe com a notacao $A$I:$A$SO); neste ultimo caso, observe que em Num l aparecem as colunas inicial e final onde foram digitados os valores e, a direita, parte da listagem deles; • passo 5: ap6s preenchido Ntirn}, clique em OK, feche a tela e 0 resultado aparece na celula tomada ativa no passo 1.
A revista EXAME - Maiores e Melhores de julho de 1998 apresentou a rentabilidade das 10 melhores empresas no setor da eletroeletronica, em termos do retorno do investimento obtido no ano, em % lTabela 2.4).
Tabela 2.4
Rentabilidade das 10 melhores empresas do
Empresa
I
% do retorno do investimento
----
Brasil no setor da
eletroeletronica em termos de retorno de investimento, em %.
2
3 4
5
6 7
32
Capitulo
2 I Analise
exploratoria de dados
A mediana das 22 empresas e igual a 6,5, media aritrnetica dos retomos das empresas que se encontram nas posicoes 11 e 12 (e que nao estao na tabela). Observe que todos os retomos tabelados sao maiores que a mediana.
• Exerciclo-exemplo Determinar 2.W a medi an ados val ores da Tabela 2.1
surgirnento da Iinguagem JAVA como uma linguagem de programacao com aplicacao na Web, independentemente do sistema operacional utilizado, estirnulou 0 desenvolvimento de aplicativos para demonstracoes interativas via Internet. Vii ao site hllp:llwww.rujrice.edf//-lane/stat_siml index.html ou hrtp:llwww.rujrice.edul-lanelstat_sjrnldescriplivelil1dex.htmle veja urna serie de simulacoes, entre as quais Mean and Median, que demonstram as propriedades basicas da media aritmetica e da mediana. Instruciies. Urn botao Begin (iniciar) aparecera esquerda quando 0 applet acabar de ser carrcgado, 0 que leva aproximadamente dois minutos, a velocidade de 33.4 kBps. Se esse botao nao aparecer, provavelrnente 0 seu browser nao suporta a linguagem Java. E possfvel conectar-se a qualquer desses sites, independentemente do browser que voce usa, mas para que as demonstrat;oes funcionem e necessario que 0 browser tenha capacldade para executar os applets,
Navegando na Internet
moda
Compreendendo 0 conceito de moda A moda da arnostra e 0 valor que mais aparece na amostra, Quando ha apenas uma moda, a amostra denomina-se unimodal; duas modas, bimodal; tres, trimodal; e quatro ou mais modas, polimodal ou multimodal. Se todos os val ores ocorrern a mesma quanti dade de vezes, a amostra denomina-se amodal. A moda da amostra sempre pertence ao conjunto original de valores. Determinando a moda da amostra
natural
0
• Com a linguagem
Determine a moda das primeiras rnarcas que Ihe vem Bombril, Natura, Phillips e Avon, 1%.
a cabeca;"
5%;
Exercicio-exemplo 2.12
Determine a moda das rnarcas de terns mais lembradas Rainha, 14%; Nike, 14%; Adidas, 7% e Reebok, 4%. por voce, exceto a Olyrnpikus (15%);"
• Com formulas
Excel
o Excel
nao calcula corretamente a mod a de uma amostra, exceto se a amostra for unimodal; caso haja mais de uma moda na arnostra, 0 Excel so reconhece 0 valor que aparece listado primeiro, ignorando qualquer outra moda existente. Alern disso, no Colar Funriio, traduziu-se erradamente a palavra inglesa mode par modo, quando a mais correta e mais extensamente usada e moda. Embora nao se recomende calcular a moda de uma amostra no Excel, as passos sao os semelhantes aos do calculo da media aritmetica da amostra e da mediana da amostra, mas agora usando a funcao MODO, conforme a Figura 2.8.
ocorre com
Numl:
referendas
iQ!lJ
R.,uIt.do d. formu," ~
Capitulo
2 I Analise
exploratoria
33
a rnoda dos valures da Tabela 2.1
"Perfil. 0 turista brasileiro tern entre 30 e 40 anus, renda media de R$/.800 e segundo grau completo. Vi~;a duas vezes par ana e de ontbus. Seu objetivo principal e visitor parentes e amigos. A maioria - 70% - viaja durante a alta estaciio. As viagens duram, em media. 12 dias. Este e ()perfil. tracado pela Funduc/io Instituto de Pesquisas Economicas, da US?, do turista brasiteiro em 1998. Os dados constam da publicaciio Dados Estatfsticos de Turismo 1998.,,16
Navegando
na Internet
Visite 0 site da Embratur - Empresa Brasileira de Turismo (wwl1-:embralUr.gov.br) e atualize-se quanta aos dad us estatfsticos de turisrno no Brasil.
Urn mimerc para mostrar a variabilidade dos dados: as charnadas medidas de dispersiio
Verificou-se, ao longo da hist6ria da Estatfstica, que a melhor e a mais usada medida de tendencia central e a media aritmetica da amostra. Entretanto, a media aritmetica da amostra, sozinha, nao fomeee toda a inforrnacao necessaria para se descreverem adequadamente os val ores das unidades observadas, Considere, por exernplo, os valores, em quilomerros, de duas amostras, A e B; • amostra A: 30 km, 30 km, 30 km • amostra B: 20 km, 30 km, 40 km. Embora cada amostra tenha a mesma media aritmetica, 30 km, ve-se que ha maior variabilidade na amostra B do que na amostra A. Desse modo, para descrever adequadamente uma amostra e necessaria uma outra medida que, alem da informacao do valor reprcsentativo do eonjunto de valores da amostra (fornecido pela rnedida de tendencia central), exprima a variabilidade desses val ores em relacao a uma determinada referencia. Quanto maior for essa medida de variabilidade, maior a dispersao do conjunto de val ores da amostra. Deduzindo intuitivamente as medidas de variabilidade pelo uso da linguagem natural A maneira rnais natural e mais simples de se medir a dispersao de uma amostra e caJcular a diferenca entre 0 maior e 0 menor valor; essa diferenca denomina-se amplitude total da amostra. Continuando com 0 exemplo anterior, a amplitude total para a amostra A 6 0 km (30 km menos 30 km) e, para a amostra B, 20 km (40 Ian menos 20 krn), pelo que se conclui que a amostra B tern maior variabilidade, ou seja, 6 mais dispersa do que a amostra A. Quanta maior a amplitude total, maior a variabilidade entre os extremos dos valores ordenados. Essa primeira medida de dispersao seria iitil se nao tivesse a caracterfstica de considerar apenas os valores extremos, ignorando todos os outros valores, 0 que poderia levar a uma conclusao erronea a respeito do conjunto. Por esta razao, 0 raciocfnio natural imediato foi procurar outra medida que levasse em conta todos os valores, e nao somente os extremes, Estudos sistematicos ao longo do tempo provararn ser necessario urn valor de referencia, e a media aritmetica da amostra revelou ser esse 0 ponto de referencia adequado. Assim, a partir da media aritrnetica da arnostra calculam-se as medidas usuais de dispersao, Tendo-se, agora, urn ponto de referencia, a atitude mais natural de medir dispersao e calcular as diferencas de cada valor em relacao a esse ponto de referencia e somar todas essas diferencas para obter urn total geral. Ainda considerando as amostras A e B: para a arnostra A, (30 km - 30 km) + (30 km - 30 km) + (30 km - 30 km) = 0 km + 0 km + 0 km = 0 km e para a amostra B, (20 km - 30 km) + (30 km - 30 km) + (40 km - 30 krn) = -10 km + 0 km + 10 km = 0 km Embora seja urna medida intuitiva, essa soma de diferencas sera sempre igual a zero, porque 0 total das diferencas negativas e igual ao total das diferencas positivas, Por essa razflo, continuou-se a pesquisa de uma medida de dispersao que indicasse que a amostra B 6 mais dispersa que a arnostra A. Observando-se as parcelas, verifica-se que 0 sinal da diferenca entre cada valor e a media aritmetica da amostra e que toma a soma de todas as parcelas igual a zero. Sendo assirn, a segunda tentativa foi ignorar os sinais, ou seja, tamar 0 modulo' de cada parcela. Feito isto, obtem-se para a amostra A I 30 km - 30 km I + I 30 km - 30 km I + I 30 km - 30 km I = I 0 Ian I + I 0 km I + 10 Ian I = 0 km + 0 km + 0 km = 0 Ian
'Modulo de 11m numero e 0 sell valor absol uto, independente barras verticals. Por exemplo, 1- 5 1= 5 e 15 1=5. do sinal; rcpresenta-se
~---------diferenca entre
0
nltmeros da amostra
°modulo
de urn mlmerox
colocando-o
entre duas
34
varidncia amostral
medida de varlabilidade resultante da divistio pOT (n - J) da soma das diferencas aD quadrado entre cada valor da amostra e a media da amostra
e, para a amostra 8, I 20 km - 30 km I + I 30 km - 30 km I + I 40 Ian - 30 km I = = 1-10 km I + I Okm I + 110 km 1=10 km + 0 krn + 10 krn = 20 km, novamente caracterizando que a amostra B e mais dispersa que a amostra A. Ocorre que, em Matematica, efetuar operacoes com modules de funcoes costuma ser trabalhoso. A solucao de eliminar 0 sinal, tomando-se o modulo dos valores. e samar todas essas diferencas, agora positivas, embora indique qual amostra e mais dispersa em relacao a uma referencia, nao e pratica quando se passa a forrnulacao algebrica, sem valores numericos. Determinou-se uma medida adequada de variabilidade, mas surgiu um problema no desenvolvirnento algebrico, o pensamento seguinte foi ten tar eliminar 0 sinal de cada diferenca sem 0 usa do modulo; a solucao natural e elevar ao quadrado cada uma daquelas difercncas e soma-las, de modo semelhante ao ja feito. Entao, para a amostra A, (30 km - 30 km)2 + (30 km - 30 km/ + (30 km - 30 km)" = (0 km)" + (0 km)" + (0 km)" = 0 krrr', e, para a amostra B, (20 km - 30 kmf+ (30 km - 30 km)" + (40 km - 30 km)" = (- 10 km)2+ (0 km)2+ (10 krn)" = 100 km2 + 0 km2 + 100 km2 = 200 krn", comprovando-se, mais uma vez, que a amostra Be mais dispersa que a amostra A. Como a variabilidade deve ser express a par uma sfntese, deseja-se urn valor unico que, levando em conta todos os elementos da listagem, nao altere a sua caracteristica, que e a soma dessas diferencas ao quadrado. Conforme vimos, esse valor unico e a media aritmetica simples, porque a caracterfstica que a media nao altera e a soma. Todavia, observe tambem que estamos calculando 0 quadrado da diferenca entre cada valor e a media aritmetica desses mesmos valores, havendo uma redundancia; para compensar esta situacao, divide-se a soma final por n - 1 em vez de n. Este valor, resultante da divisao da soma das diferencas ao quadrado entre cada valor da amostra e a media da amostra por (n - 1), denomina-se varitincia amostral. Para a amostra A, Okm2 _ Okm2 -OkmZ variancia amostra1 = --- --3-1 2
:=
Vimos no Capitulo 1 que, habitualmente, deseja-se estudar uma determinada caracteristica numerica de urn conjunto de elementos de uma populacao, Por exemplo, em uma populacao de carros (na qual cada carro e um elemento da populacao), pode-se querer saber a quilometragem media por litro de combustfvel, Esta medida caracterfstica da populacao denomina-se pardmetro. Ao se retirar uma amostra des sa populacao, dos elementos da amostra obtern-se uma medida da caracteristica que esta sendo observada com 0 objetivo de se fazer uma inferencia a respeito da populacao da qual foi retirada a amostra. Qualquer operacao matematica realizada com essas medidas da amostra denomina-se estatistica, e 0 valor obtido para essa estatfstica denornina-se estimativa do parametro da populacao, Justifica-se a divisao por n - 1 porque, se ha poucos valores disponiveis, a estimativa da variancia da populacao, assim como da media, e de baixa precisao. Para a media da amostra, a precisao depende da quantidade de resultados utilizados no seu calculo, mas para a variancia amostral a precisao esta subordinada 11quanti dade de diferencas independentes entre os valores a partir dos quais a variancia amostral e calculada, Geralmente, as medidas sao feitas em uma amostra retirada de uma populacao da qual se desconhece a media e a variancia, Se uma medida e feita e se obtern X = 193, tern-se uma estimativa da media verdadeira X = 193, igual ao pr6pria valor X, mas nao se tern uma ideia da precisao dessa medida, Se 0 calculo da variancia fosse feito dividindo-se por n igual a l , a variancia seria
(193 - 193) = Q = 0 1 l'
2
35
0
o que ndo e verdade, porque ela IS indeterminada, ja que nao existem valores suficientes para calculo, Assim sendo, a variancia amostral deve ser calculada pela expressao
(193-193)2 1-1 0 0'
seu
o desvio
padriio
e uma
medida
uma indeterminacao, como realmente deve ser. Se e feita uma segunda medida, por exernplo 183, tern-se uma melhor estimativa da media, e tambem uma cornparacao ou diferenca em que se basear para uma estirnativa da variancia amostral, Observe que diferencas de cada uma das observacoes a partir da media nao sao independentes, desde que a media foi calculada a partir desses valores; como x = 188 e Xl = 193, entao X2 necessariamente e igual a 183; diz-se, entao, que a estimativa tern 1 grau de liberdade. o divisor (n - I) representa 0 que se denomina grau de liberdade, isto e, a quantidade de comparacoes independentes que podem ser feitas entre as n unidades da amostra. Se ha n unidades de observacao, h:i n valores (valor 1, valor 2, ..., valor n), representados por xl' x2' ... , xn' e podem ser feitas (n - 1) comparacoes independentes do tipo urn valor menos 0 outro, (x, - x), porque a media aritmetica da amostra, x, e calculada a partir das n observacoes; se x e (n - 1) dos valores sao fomecidos, 0 ultimo estara detenninado. Por exemplo, se a media amostral de 4 mimeros e 9 e sao conhecidos os valores 6, 8 e 12, 0 ultimo valor, necessariamente, deve ser 10. Outro exemplo: se 3 observacoes, ha somente duas comparacoes independentes, desde que, feitas duas comparacoes, como valor 1 men os valor 2, (Xl - x2), e valor I menos valor 3, (Xl x3), a terceira cornparacao torna-se conhecida, porque valor 2 menos valor 3 = (valor 1 rnenos valor 3) menos (valor 1 menos valor 2), ou seja, (Xl - X3) ;;;; (Xl - X} - (Xl - x2). Ocorre que, no calculo da variancia amostral, ao se elevar ao quadrado a diferenca entre cada valor e a media aritmetica da amostra, a unidade de medida dos valores originais e tambern elevada ao quadrado. Ou seja, resolveu-se urn problema de desenvolvimento algebrico nao se usando 0 m6dulo dos valores, mas se criou urn problema com as unidades das medidas, havendo uma para a tendencia central e outra para a dispersao, esta, agora, elevada ao quadrado. Para que as unidades retornem as suas dimensoes originais, torna-se necessario extrair a raiz quadrada da variancia amostral. Quando isto e realizado, define-se a mais importante medida de dispersao para uma amostra, denominada desvio padrdo amostral, raiz quadrada positiva da variancia amostral. Para a amostra A, tern-se que 0 desvio padrao amostral e igual a
JOkm2 =Okm,
e, para a amostra B, desvio padrao amo~tral = ..JlOOkm2 =lOkm. Determlnando as medidas de variabilidade por meio de formulas
Se 0 maior valor da amostra for denotado por xm•x e 0 menor valor por xmm' a amplitude total da amostra, AT, diferenca entre 0 maior valor e 0 menor valor, e dada por AT = x""'" - xmin'
Variancia amostral
S2,
S2
..:.,_=l:.._
n -1
Desvio padriio amostral
o desvio
s=
e simbolizado
.!.Ci="'l
n-l
36
Determinando
• Com a calculadora HP 48G Amplitude total da amostra • passo 1: determine 0 maximo e 0 minima dos dados em SINGLE-VARIABLE • passo 2: caIcule a amplitude total, subtraindo 0 rnfnirno do maximo. Variilflcia da amostra
STATISTICS;
• passos 1, 2, 3 e 4: iguais ao calculo da media aritmetica; • passo 5: ressalte Sample em TYPE:; • passo 6: em SINGLE-VARIABLE STATISTICS, ressalte VARIANCE (variancia), na primeira linha abaixo de TYPE:, e aperte a terceira tecla branca, [C] (equivalente a v'CHK, check, que quer dizer verificarv. 0 nome VARIANCE ficara com 0 sfrnbolo v'ao lado dele. • passo 7: aperte a ultima tecla branca, [F]; aparecera na pilha 0 resultado da variancia amostral, Variance: __ .
Desvio padriio amostral • passos 1, 2, 3 e 4: iguais ao calculo da media aritrnetica; • passo 5: ressalte Sample em TYPE:; • passo 6: em SINGLE-VARIABLE STATISTICS, ressalte STD DEV (standard deviation, desvio padrao), na primeira linha abaixo de TYPE:, e apertc a terceira tecla branca, [C] (equivalente a v'CHK, check, que quer dizer verificar). 0 nome STD DEV ficara com 0 sfmbolo v' ao lado dele. • passo 7: aperte a ultima tecla branca, [F); aparecera na pilha 0 resultado do desvio padrao,
Std Dev:_
• Com a calculadora Casio CFX·9850G19950G Amplitude total da amostra • passo 1: insira os dados em uma das listas; • passo 2: tecle [MENU] para ir tela principal; • passo 3: coloque 0 cursor na opcao STAT e tecle {EXE] [F2] e [F1]; • passo 4: em 1- VAR, tecle a seta para baixo e anote MinX e MaxX; • passo 5: caJcule a amplitude fazendo a diferenca entre MinX e MaxX. Variancia da amostra • passu 1: insira os dados em uma das Iistas; • passo 2: tecle [MENU] para ir a tela principal; • passo 3: coloque 0 cursor na 0PC;30 STAT e tecle [EXE]; • passo 4: tecle [F6] e [F2] (CALC - para calculos estatfsticos); • passo 5: tecle [F1] (1 - Var) e 0 desvio padrao Xn_1 amostral aparece; • passo 6: eleve 0 desvio padrao amostral ao quadrado para obter a variancia amostral. Desvio padriio amostral • passo I: insira os dados em uma das listas; • passo 2: teele [MENU] para ir tela principal; • passo 3: coloque 0 cursor na opcao STAT e tecle [EXE], [F6] e [F2]: CALC - para calculos
estatisticos: • passo 4: tecle [F6] e fF2] (CALC - para calculos estausticos); • passo 5: tecle [F1] (1 - Var) e 0 desvio padrao Xn-l amostral aparece.
• Com a calculadora Texas TI·83 Amplitude total da amostra • passo 1: eoloque os valores em uma lista, par exemplo Lista I; • passo 2: determine 0 maximo: [2nd] [STAT] MATH 2:max([2mJ][1] Lista I); • passo 3: determine 0 minima: [2n~ [STAT] MATH 1:min([2nd][1); • passo 4: subtraia 0 mfnimo do maximo. Varian-cia da amostra • passo 1: coloque os valores em uma lista, por exemplo Lista 1; • passo 2: tecle [2nd] [STAT] MATH Stvariance ([2nd) [1] [ENTER]. Desvio padrdo amostral • passo 1: coloque os valores em uma lista, par exemplo Lista 1; • passo 2: tecle [2nd] [STAT] MATH 7:stdDev([2nd] [1] [ENTER].
Determinando
Nao
as medidas de variabilidade
com 0 Colar Funcdo, calcular
e POSSIVe1,
37
Os dois primerros passes sao sernelhantes ao caloulo da media aritmetica da amostra e da mediana da amostra (p. 25), escolhendo-se agora a funcao VAR no passo 3 (Figura 2.9). Figura 2.9 Funqiio VAR para a variancia amostral.
i "-"
Estin'la .e var1ancia"
CD'!l
base em'umeamostre
=-
NUml:rruiill:Mm2:
que ccnesponoem a
Exercicio-exemplo Determine,
2.14
Os passos sao semelhantes aos do calculo da media aritmetica da amostra e da mediana da amostra, escolhendo-se agora a funcao DESVPAD, no passo 3 (Figura 2.10). Figura 2.10 Funciio DESVPAD para 0
desvio padrdo amostral.
cakele o desvo pa&..looll_p~rtir de 1Jl"Q.! amdstra
{igMre-
Qj
......
HUm 1: nUml ~~,. ,. -de _1" 3C1 que ccrrespondem pi;lpt.ila~iio~ poderrdd ser"n(i1'l"te1"OS referMc~~ que cantenh~m ou
numer:os,
a a.mostra
de UITI~
oomero:i.
Result.dGdo 16rlJ'uI~,a
".
OK
Exercicio-exemplo Determine.
2.15
0
no Excel,
Tanto urn como outro sao conhecidos simples mente como dados brutos e rol. Medidas de tendencia central a. Media aritmetica de uma populaciio finita de tamanho N: determina-se a media aritmetica somando-se todos os val ores da populacao e dividindo-se pelo tamanho N da rnesrna; representa-se a media aritmetica da populucao pela letra grega Jl (pronuncia-se mi; e, de sse modo,
Ii=~·
2>N
h. Media aritmetica ponderada de uma populacdo finita de tamanho N: determina-se a media aritmetica ponderada somando-se todas as parcelas determinadas pelo produto de cada valor pelo seu peso e dividindo-se 0 total pela soma dos pesos; representa-se a media aritmetica ponderada da amostra tambern peJa letra grega Ii e, desse modo,
.......
-----.
38
dados
o processo de calculo da media aritmetica e 0 mesmo tanto para uma amostra como para uma populacao finita, e ambas denominam-se, simplesmente, media aritmetica. c. Media geometrica de uma populaciio finita de tamanho N: detennina-se a media geometrica rnultiplicando-se todos os valores da populacao de tamanho N e extraindo-se a raiz N-esima da mesma e, assim sendo, a media geometrica e dada por
~x
1
.x
2.
.....
d. Mediana de uma populaciio finita de tamanho N: a determinacao da mediana e a mesma tanto para uma amostra como para uma populacao finita, e ambas denominam-se, simplesmente, mediana. e. Moda de uma populacdo finita de tamanho N: a determinacao da moda {:a mesma tanto para uma amostra como para uma populacao finita, e ambas denominarn-se, simplesmente, moda. Medidas de variabilidade a. Amplitude total de uma populacao finita de tamanho N: a determinacao da amplitude total e a mesma tanto para uma amostra como para uma populacao finita, e ambas denominam-se, simplesmente, amplitude total. h. Variiincia de uma populaciio finita de tamanho N: como agora se pode calcular a exata media aritmetica da populacao, a situacao passa a ser diferente daquela em que se estudava uma amostra. Por esta razao, para a variancia da populacao divide-se par N a soma das diferencas ao quadrado entre cada valor da amostra e a media amostral. A expressao da variancia da populacao, simbolizada por 02 (le-se sigma dois) e 02
L(X,
0"2 ..:.i~-,l
-)1/
_
As comparacoes feitas entre os valores, bern como a diferenca de cada valor da populacao e a media aritmetica da populacao, sao tais que a quantidade de graus de liberdade e igual ao total de valores. A variancia de uma populacao finita de tamanho N e conhecida como varidncia da populacdo. c. Desvio padriio de uma populacdo finita de tamanho N: a expressao do desvio pudrao da populacao finita, simbolizada por 0 (le-se sigma), e
0"=
finita de tamanho N e conhecido como desvio padriio da populaciio, Observe-se a notacao estatistica: os pardmetros da populacdo sao, geralmentc, representados por tetras gregas, e as estaiisticas amostrais, caIculadas a partir da amostra, por caracteres Latinos.
o desvio
Calculos
semelhantes
para as amostras, com excecao do calculo da variflncia da populacao e do desvio padrao amostral: selecione, com a tecla U-] do conjunto de teclas com as 4 setas [~], [<-], [tl e [.J,], Population em TYPE:, porque se esta desejando parametres da populacao (Population).
• Com a calculadora Casio CFX-9850G/9950G
Os passos sao semelhantes aos calculos para as arnostras, com eXCe9aOdo calculo da variancia da populacao e do desvio padrao da populacao, 0 desvio-padrao da populacao e dado diretamente por xan. Para a variancia da populacao, eleva-se ao quadrado 0 valor de xan.
• Com a calculadora Texas TI-83
as passos sao semelhantes aos calculos para as arnostras, com excecao do calculo da variancia da populacao e do desvio padrao da populacao. Para a variancia da populacao, multiplica-se a variancia da amostra por [en - 1)fn]. o des via padrao da populacao e calculado extraindo-se a raiz quadrada da variancia da populaCao, teclando-se [2nd] [ Jf ] e a variancia da populacao.
39
Excel
Com
Os passos sao semelhantes no Colar Funcdo ao calculo com amostras, com duas excecoes: - para a variancia da populacao, a funcao e VARP; - para 0 desvio padrao da populacao, a funcao e DESVPADP.
Alem de
mAT.
• passo 1: aperte a teela roxa, [5] (STAT), e a terceira teela branca, [C], equivalente a 1 VAR na
etiqueta de menu; • passo 2: aperte as seguintes teclas brancas: - a primeira, TOT, para obter a soma total - a segunda, MEAN, para a media aritmetica - a terceira, SDEV, para 0 desvio padrao da arnostra - a quarta, MAXL, 0 maximo dos vaIores - a quinta. MINL, 0 mfnimo dos valores Os resultados vao aparecendo na pilha correspondente.
• Com a calculadora Casio CFX·9850G/9950G
• passo 1: insira os dados em uma das listas; • passo 2: tecle [MENU] para ir a tela principal; • passo 3: coloque 0 cursor na opcao STAT e tecle [EXE]; • passo 4: tecle [F2] (CALC), surgindo a tela com a lista de dados; • passo 5: tecle [F11 (1 VAR) , surgindo os seguintes resultados: - x : media aritmetica; - LX: soma dos valores da lista - LX2; soma dos quadrados dos valores da lista - xan: desvio padrao da populacao - xon-I: desvio padrao da amostra - n: total de valores da lista • passo 6: aperte a tecla [J..J seis vezes, no conjunto de teclas com setas, surgindo os resultados: - minX: minimo dos valores na lista; - Ql; valor do primeiro quartil; - Med: valor da mediana; - Q3: valor do terceiro quartil: - x - xan: media menos 0 desvio padrao da populacao; + xan: media mais 0 desvio padrao da populacao; • passo 8: aperte a teela [t] duas vezes, no conjunto de teclas com setas, surgindo os resultados: - maxX: maximo dos valores na lista - Mod: moda (cujo resultado deve ser visto com cuidado, porque a ca1culadora apresenta, em uma listagem amodal, 0 maior valor como sendo a moda).
-x
• Com a calculadora Texas TI-83 • passo l: coloque os dados na Lista L; • passo 2: tecle [STAT], escolha CALC, teele [1], aparecendoJ - Var Stats ....
A tela deve
apresentar t: Var Stats eo cursor piscante depois dela; • passo 3: entre a listagem desejada apertando [2nd], e 1 para Ll , 2 para L2 etc.; • passo 4: teele [ENTER). Os seguintes resultados sao mostrados: - x , media dos valores; - :Ex, soma dos valores: • :Ex2, soma dos val ores ao quadrado; - Sx, desvio padrao amostral;
40
- ox, des via padrao da populacao: . n, quantidade de dados. A primeira tela tern uma seta a esquerda do ultimo resultado, indicando que a tela continua. Para ver 0 restante dos resultados, tecle a seta azul para baixo cinco vezes ate que todos as resultados sejam apresentados, - MinX, minima de x val ores; - QI, valor do primeiro quartil; - Med, mediana; - Q3, valor do terceiro quartil; - MaxX, maximo de x valores. • Com () Excel As medidas de tendencia central e de dispersao ca1culadas uma a uma com 0 Excel podem ser tarnbem conseguidas de uma so vez, mediante 0 usa da ferramenta Estatistica descritiva: • passo l : apos terem sido digitados os valores na planilha, va it Barra de Menus e selecione Eerramentas ... (Figura 2.11); Figura 2.11 Barra de menus. • passo 2: selecione, na ultima linha de Ferramentas, Analise de Dados ...; se, na ultima linha, estiver escrito Atualizar vinculos de suplementos ... , clique, no mesmo menu, :£uplementos ... ; abre-se outra tela, na qual voce deve clicar em cima dos quadrados referentes a Eerrameruas de Analise e a Ferramentas de Analise - VBA, e depois no botao OK; retome a Ferramentas e clique em Analise de Dados ... , agora na ultima linha (Figuras
2.12 e 2.13);
iD ~~rBIj.~i:jr~8~i~V""f;C"ort"!l'"tI.
f.., I" ... ......... .
I~
'-~~'--....__-'~=:--~~--~~---~-.~--~
m.AJ-Jt~~~O
~omper1il1'i1r' pest e
&toCor";~,<iio
F7
de trOOsIho
:Co,:ntro1er dterGljCJl!!:s
PenllI'18!iz_ar'
Qpl(6E;$ A:sststente
~~~lil;lr ... jnc~~~" ~~~~.~:, ..
J ~~ .. ~~.Ti'frtb~t~~~O·~~~I~'~~!i~~i~~~~····~~f;· rl
112"
. PiJ~a1
~;! J -:=T---',i
B . C ,~
j~:;;;:;~:"'-'-"'__"'"""'"----::'~;~"'·'~'''':·:·'·~O;-:::~·~::''':'':~'''C
c,oiriFmrtIlhtr'''P8:M8 ccrqrcer
~rote~e;r ~lIer~Oc~ de
D: ;AlJoSt.!'Iamento
_~QCQt't~.Q~
+J
tr~1ho.
t..MtfJjir0-'f1'1W{\oi:!!1_ti!-l:lJijlh~)
~up_rn,",.
Per6lJm1ligwr
~~"
'=isI~
AtualJ:%at lJir'rcukls: de. st.Jpl~menloa
41
• passo 3: apos aparecer 0 quadro Analise de Dados (com 0 subtitulo Eerramentas de Analise), clique nas palavras Estatistica descritiva, que ficarao selecionadas em cor diferente das demais opcces (Figura 2.14); Figura 2.14.
Analise de Dados/FerraAnalISe de
C;:~~~:;;di~i~:m
,ep.ti~Oo
Ano .... fetoa: -duplo sem rep12ti~eio Ajuste exponermal
dadOS
F\
!
Ff:~t~l
quando aparece
0
ID lEi
~~m~~~~:~m~Mlciamm~nI""II""II"""~)1 r~;;~~~~-~l
Teste-Ft dues emcstras Ana~i:>ede Fourier ,~rist~~~a pe-e ..,ar~an(taS.
• passo 4: clique no botao OK, (Figura 2.15). Figura 2.15 Tela da ferramenta Estatistica Descritiva.
(">hol\Jl1OS
a direita,
lo~1 !i~c.;;:.t;"f·cl
~::~~:i~.:-·Cl=:~=~l
('tNo.v.,s pasta de. ITo.'lbalho li
QLiol1"
r:c'8.iJ;l~·~'1
! ["iRgsumQ..e$l:O!Itlstleo
r::1Nivoi decor,fioildidodep/.rnedio,f9S:::JI%
'1i
ii ............1:·
........... ~= J:ccc..
A ferramenta Estatistica descritiva cria urn relat6rio para os valores colocados na planilha, fornecendo informacoes sobre a tendencia central e a variabilidade dos valores selecionados, gerando duas colunas de informacao: a da esquerda corn os titulos das estatisticas e a coluna da direita com os resultados. Para os conceitos estudados ate agora, a utilizacao dessa ferramenta e a seguinte: I) No bloco "Entrada" a. Intervalo de entrada. Digite as celulas onde se encontram os valores que voce deseja analisar, No caso do Exercicio-exemplo 2.1, Al:A80. b. Agrupado por: Selecione (clicando dentro do quadrado respective, quando aparecera urn "x") 0 botao de opcao "Linhas" ou "Colunas" para indicar se os valores no intervalo de entrada toram digitados por linhas ou por co1unas; no caso do Exercfcio-exernplo 2.1, como os valores estao na primeira coluna, seleciona-se "C.olunas". 2) No bloco "Opciies de saida". Escolha Noya planilha, para que os resultados aparecam em uma nova planilha na mesma pasta de trabalho da planilha atual; digite "Exernplo I" na caixa de texto para dar urn nome a essa nova planilha, 3) Clique na OP'Iao Resumo estanstico, para que 0 Excel produza, na planilha de resultados, as seguintes estatisticas: - media: media aritrnetica; - erro padriio (da media); - mediana; - modo: e a moda; - desvio padriio: desvio padrao arnostral: - variancia da amostra: - curtose; - assimetria; - intervalo: amplitude total: - minima: menor valor do conjunto de numeros; - maximo: maior valor do conjunto de mimeros; - soma: soma de todos os valores;
42
- contagem: quanti dade de valores; - maior (#); - menor (#); - ntvel de confianca: conceito a sec abordado no Capitulo 4. Os resultados de todas as estatfsticas relativas ao Exercfcio-exemplo 2.16. Figura 2.16 Estatisticas relativas ao Exercicio-exemplo 2.1.
#NID
··S468.2i(
646,7352573 , . 49161
I !i?(l~ .?7?9951 .•
33481319,44' ········3D621~ 1541
~~~:~~r aot
Comparando diferentes medias e desvios padriies:
0
coeficiente
de variaciio
coeficiente
de variaf"Q
Nao se deve comparar diretamente duas ou mais medidas de dispersao, Como se pode afirmar que uma variabilidade medida pelo desvio padrao de 3°e para uma temperatura, e maior que uma variabilidade, tarnbem medida pelo desvio padrao, de 6,5 m para urn determinado comprimento? E 6bvio que nao se pode comparar temperatura com cornprimento, e para tomar compreensivel uma comparacao entre essas grandezas com relacao a variabilidade e necessario convenelas para urn valor relativo. Karl Pearson, maternatico Ingles (1857-1936), que contribuiu significativamente para a ciencia estatistica, desenvolveu uma medida relativa, denominadacoeficiente de variadio • (CV), calculado pel a expressao
grandeza
relativa do desvio
ev =
desviopadrao media aritmetica X 11 coeficiente de variacao ~ expresso em forma de porcentagem; no caso de uma
=-
=- .
ruimero estd
x 100 e, de uma populacao, CV = ~ x 100. X 11 Ao se divulgar 11m coeficiente de variacao, e importante que se diga se ele esta expresso ou nao em porcentagem .• ,
• Exercicio-exemplo Determine
0
=~
Para utilizacao na Inferencia Estatfstica, 0 material ate aqui apresentado e suficiente, porque os conceitos mais importantes sao a media aritmetica da amostra eo desvio padrao amostral. Entretanto, rnuitas vezes torna-se necessario mostrar, de modo rapido, principalmente para uma grande quanti dade de pessoas, 0 comportamento das unidades de observacao da amostra - bern como, de maneira simples. fazer uma inferencia sobre a populacao. Isto se consegue pelo uso de tabelas e de graficos.
coeficiente
Resumindo
• Para alguns autores dc lfngua inglesa.tambern conhecido como RSD (relative standart deviation), desvio padrao relativo. 0 CY e razoavel somente quando 0 dcsvio padrao ISestritamente proporcional " media aritmetica. S. 0 desvio padrao e constante em urna faixa extensa dos niveis da propriedade que estii sendo obscrvada, 0 Cv e, nesse caso, ilusorio: outra desvantagem e que seu valor nao e muito uti] quando a media e prdxima do valor zero.
*.
43
au de um valor
quantidade categoria
00.
tabela defreqiiencias
classes au categorias,
Para nao haver perda de inforrnacao, listam-se todos os valores ou categorias da amostra ou da populacao, urn em cada linha, marcam-se as vezes em que eles aparecem, incluindo as repeticoes, e conta-se a quanti dade de ocorrencias de cada valor; esta quantidade recebe a denomina"ao freqiUncia absoluta. Por este motivo, tabelas que apresentam valores ou categorias e suas ocorrencias denominam-se tabelas de frequencias. Para construir manualmente ou no computador uma tabela de frequencies sem perda de informacae, os passos sao os seguintes: • passu 1: escreva, na parte superior da tabela, 0 titulo da situacao observada; • passo 2: trace uma linha horizontal com espessura dupla; • passu 3: escreva na primeira linha seguinte, e a esquerda, 0 nome valores (ou categorias); • passo 4: trace uma linha horizontal com espessura simples; • passu 5: escreva cada valor ou categoria em cada Iinha seguinte; • passu 6: trace uma linha vertical, a partir do nome, valor ou categoria, para criar uma segunda coluna; • passu 7: escreva, na primeira linha dessa segunda coluna, 0 nome contagem; • passo 8: anote, com algum sfrnbolo, nessa segunda coluna, cada vez que 0 valor ou categoria daquela linha aparece; • passo 9: trace outra linha vertical, a partir do nome contagem, para criar uma terceira coluna; • passo 10: escreva, na primeira linha dessa terceira coluna, [reqilencia absoluta; passo 11: conte, em cada Iinha, a quantidade de marcacoes e anote 0 seu total na terceira coluna; • passo 12: apos 0 ultimo valor ou categoria, trace uma linha horizontal simples; • pas so 13: apes a ultima Iinha, escreva, na primeira coluna, Total, em negrito, bern como, na terceira coluna, 0 total das freqtiencias absolutas, tambern em negrito; • passo 14: termine a tabela, tracando uma linha horizontal com espessura dupla e completando as linhas verticais; nao feche as laterais da tabela; • passo 15: coloque abaixo da ultima linha a palavra Fonte, seguida de dais pontos, escrevenda a referencia de onde foram retirados os dados. o aspecto inicial de uma tabela de freqilencia sem perda de informacao ISada Tabela 2.5. A coluna contagem e usada, em geral, apenas no infcio do processo de construcao da tabela: 0 resultado final e 0 da Tabela 2.6.
Valores Contagem Freqiiencia absoluta
Tabela 2.5. Aspecto inicial de uma tabela de frequencies sem perda de informacdo.
Total Fonte:
..
Tabela 2.6. Aspecto final de uma tabela de frequencias sem perda de informaciio.
Valores
Freqilenci ia absoluta
. ..
Totol Fonte:
Exercicio-exemplo
44
Tabela 2.7
Ordem I 2
Ordem 51 52
53 54
Controle ncionarfo
Sufca
3
4
Estados Unidos
Brasil It-ilia
5
6 7
Franca
Brasil
55 56
57
8 9 10 II
12
Estados Unidos
Brasil Sufga InglaterraIHolanda
58
59 61 62
ro
63
t4
13
14
15
16
Brasil
Bra,il
6.')
fIj
Alernanha
Italia Panama
17
18 19
Brasil
Alemanha Brasil
61 6S
fB 70 71
20
21
Estados Unidos
Fran<;a!Estados Brasil Brasil Brasil Brasil Bermudas Brasil U nidos
22 2,
24
72 73
74
Estados Unidos
Brasil
25 26 Z7 28
29 30 31 32
75
76
Brasil Franca
Brasil
Estados Unidos
Brasil Brasil
77 7R 79
Estados Unidos
Brasil Brasil Brasil
Estados Unidos
Bermudas Brasil Brasil Brasil Brasil Brasil Brasil Brasil Brasil Rolanda
so
81
82
33
34
&3 84
85
35 36 37 38 39
40 41 42 43
86
'157 8ll
Brasil
Hrasjl Brasil Chile Brasil Halia Brasil Alernanha Brasil Brasil Brasil Alemanha Brasil Bmsil Estados Unidos
so
91 92
89
Alemanha
Suecia Alemanha
44
45
Brasil
Estadus Brasil Unidos
93 94
95
46
47 48 49
% <J7
98 99
SO
100 e
Melhores,julho de
1998.
~---quantidade
COIljU"IO
Jrcqii€ncia
absoluta
de uma
de dados incluidos
tambem denominada
Quando existe uma grande quantidade de categorias ou valores individuais com extensa amplitude total, a tabela sem perda de inforrnacao podera ficar muito grande, sendo necessario urn resumo dos dados, para os quais 0 intervalo de possfveis valores e dividido em subintervalos, conhecidos como classes, com urn limite inferior e urn limite superior (denominados limite inferior de classe e limite superior de classe), 0 que resultara em perda de inforrnacao, porque os valores originais nao rnais aparecem individualrnente. Para cada classe, a quantidade de dados naquela classe e anotado; esta e afreqiiencia absoluta da classe. Urn requisito essencial para urna tabela de frequencia e que as classes sejarn mutuarnente excludentes e exaustivas. Ou seja, cada valor no conjunto de dados deve pertencer a uma, e apenas uma classe. Uma caracteristica desejavel, mas nao essencial, e que as classes tenham 0 mesmo intervalo de classe, Em uma tabela com k classes, a freqtiencia da i-6sima classe e denotada pori, para i = 1,2,3, ..., k. Uma vez que a propriedade das classes da tabela sao mutuamente exclusivas e exaustivas.j, + J; + 1; + ... +in = n. A construcao de uma tabela de frequencias com perda de inforrnacao requer as seguintes etapas: • passo 1: determine a amplitude total dos valores; • passo 2: escolha a quantidade de classes, geralmente entre 5 e 15 (0 numero exato de-
45
e • • • • •
pende da pessoa que esta fazendo a tabela e do problema em questao, de tal sorte que os valores nao fiquem compactados ou dispersos); passo 3: calcule a amplitude de cada classe (ou seja, 0 comprimento do intervalo de classe), dividindo-se a amplitude total pelo ruimero escolhido de classes (geralmente arredondando 0 resultado para um numero inteiro, au rmiltiplo de 10, para facilitar a interpretacao dos valores); pas so 4: estabeleca os limites de cada classe, a partir do primeiro valor (ou urn inteiro imediatamente inferior), somando a cada limite inferior de classe 0 valor da amplitude de classe: - primeira classe: limite inferior da I." classe e limite superior da I." c1asse = limite inferior da classe + amplitude do intervale de classe: - segundo classe: limite superior da I." classe e limite superior da 2.a classe = limite superior da I." classe + amplitude do intervale de classe; assim sucessivamente; passo 5: escreva, na parte superior da tabela, a titulo da situar,;ao observada; passo 6: trace uma linha horizontal com espessura dupla; passo 7: escreva na prirneira linha seguinte e a esquerda a nome classes; passo 8: trace uma linha horizontal com espessura simples; passo 9: escreva em cada linha, sucessivamente, 0 limite superior, 0 sfrnbolo 1- e 0 limite superior de cada classe (para evitar qualquer diivida quanta a possfvel inclusao de determinado valor em mais de uma classe, adota-se a seguinte notacao para os limites superior e inferior de cada classe: uma barra vertical seguida de uma barra horizontal, significando que aquela classe inclui 0 valor do limite inferior mas exclui 0 do limite superior); passo 10: trace uma linha vertical, a partir da primeira Iinha, para criar uma segunda colu-
na; • passo 11: escreva, na prirneira linha dessa segunda coluna, a nome contagem; • passo 12: anote, com algum sfmbolo, nessa segunda coluna, cada vez que 0 valor au cate-
goria daquela linha aparece; passo 13: trace outra vertical, a partir da primeira linha, para criar uma terceira coluna; passo 14: escreva, na primeira linha dessa terceira coluna, a nomefreqiiencia absoluta; passo 15: conte, em cada linha, as marcacoes e anote 0 seu total na terceira coluna; passo 16: ap6s a ultima classe, trace uma linha horizontal simples; passo 17: ap6s a ultima classe, escreva, na primeira coluna, Total, em negrito, bern como na terceira col una, 0 total das freqtiencias absolutas, tambern em negrito; • passo 18: termine a tabela, tracando uma linha horizontal, com espessura dupla; nao feche as laterais da tabela; • passo 19: coloque abaixo da ultima linha a palavra Fonte, seguida de dois pontos, escrevendo a referencia de onde foram retirados os dados. • • • • •
• Exercicio-exemplo 2.18 com perda de informacao para
OS
Se metodos apurenlemente
estranhos dew
naver alguma raziio hist6rica para iss". uma tradicao que deve ser
46
equipamento
que espa-
Se, mais tarde, urn macaco tentar subir a escada, os demais macacos vao procurar irnpedi-Io, mesmo se nenhuma agua for jogada neles, Agora, retire urn macaco dajaula, substituindo-o por urn outro rnacaco; este vi!; a banana e tenta subir na escada. Para surpresa dele, todos os rnacacos 0 atacarn; ap6s outra tentativa e outro ataque, ele aprendc que, se tentar subir a eseada, sera atacado, Em seguida, tire um outro maeaco dos iniciais e coloque urn novo, 0 qual !cntara subir a escada e sera atacado: 0 que foi colocado justo antes tomara parte na punicao com entusiasruo. Novarnente, substitua 0 terceiro macaw original pOTurn novo, 0 qual tenta subir na escada e e tambem atacado; dois dos quatro rnacacos que 0 atacaram nao tern a minima ideia de por que a eles nao se permitiu subir a escada, ou de por que estao participando na agressao ao novo integrante do grupo, Ap6s substituir 0 quarto e 0 quinto dos macacos originals, todos os rnacacos que tinham sido rnolhados com agua bastante gelada foram substituidos. Apesar disso, nenhum macaco aproxima-se novamente da escada, Par que niio? Porque as coisas tern side sernpre assirn por aqui. Moral da historia: a tradicdo ndo justifica, necessariamente, 0 modo atual de proceder:
Entretanto, pode haver situacoes em que nao se tern acesso aos valores originals e sim apenas as tabelas de frequencias, Sendo assim, a determinacao das medidas de tendencia central (e, subseqiientemente, das medidas de dispersao) pode ser feita do seguinte modo nas tabelas de frequencias com perda de informacao: Media aritmetica. Considere a ponto media de cada classe (limite inferior mais a limite superior, dividido par 2) como sendo 0 representante da c1asse; para cada uma das classes, multiplique 0 ponto media pel a frequencia da classe, some esses produtos e divida pelo total de valores. Os passos sao as seguintes: • passo 1: determine 0 ponto media de cada classe, dividindo par 2 a soma do limite inferior e do superior; • passo 2: multiplique cada urn dos pontos medias de cada classe pela frequencia absoluta da classe respectiva; • passo 3: some todas essas parcelas; • passo 4: divida a total obtido no passo 3 pelo total de valores,
• Exercicio-exemplo 2.19 2,17, obtida da Determine a media aritmctica para os valores da tabela final do Exercfcio-exemplo Tabela 2.1.
Mediana. Os passos para a calculo da mediana dos valores de uma tabela com perda de infor-
macae sao os seguintes: • passo J: determine a posicao central, dividindo 0 total de valores (au 0 total de val ores, mais 1) por 2; • passu 2: some a freqnencia absoluta da primeira classe com a da segunda classe, e assim sucessivarnente; quando esta soma acumulada superar a mimero ou os ruimeros das posi!foes centrais, pare. A mediana do conjunto de valores e 0 ponto medic dessa primeira classe cuja soma acumulada e imediatamente superior a metade do total de valores,
• Exerclcio-exemplo Determine 2.20 2,17, obtida da Tabela a mediuna para os valores da tabela final do Exercfcio-exemplo
2.1.
freqiiincia acumulada abalxo de
Neste ponto surge 0 conceito de frequencia acumulada de uma classe. Ao somar a cada frequencia de classe 0 total de elementos de todas as classes anteriores, voce esta determinando a frequencia acumulada dessa classe, tambem conhecida como freqii.encia acumulada abaixo de, Moda e 0 ponto medio da classe com maior frequencia,
• Exercicio-exemplo Determine 2.;U 2,17, obtida da Tabela 2, I.
0
Amplitude total e a diferenca entre a limite superior da ultima classe men as da primeira classe,
• Exercicio-exemplo 2.22 total para os valores da tabela final do Exercfcio-exemplo Determine a amplitude Tabela 2.1
limite inferior
2.17. obtida da
Varidncia: No calculo da variancia, cada valor e substitufdo pelo ponto medic da c1asse i, xM" e a diferenca em relacao a media, elevada ao quadrado, e multiplicada pela freqtlencia da classe i, f para cada uma das k classes. As f6rmulas sao: para a variancia amostral
47
Exercicio-exemplo 2.23
Determine 2.1. a variancia para os valores da tabela final do Exercfcio-exemplo 2,17, obtida da Tabela
em comparaciies e classificaciies
A maioria dos estudos fomece valores numericos que nao tern significado unico e ha poucas
medidas absolutas, se e que htl alguma, Entretanto, a media aritrnetica tomou-se urn classico ponto de referencia, e as diferencas entre os valores sao apresentadas com base nas unidades de uma escala a partir da media aritmetica. Entretanto, ocorrem situacoes com varias medias e desvios padroes, sendo essencial haver uma maneira de converter valores brutos, provenientes de varias populacoes e medidos em varias escalas, para alguma escala comum, padronizada. 0 Exercfcio-exernplo 2,24 ilustra a necessidade de haver uma escala unica para comparar resultados,
• Exerctclo-exemplo 2,24
Com base nos resultados de quatro avaliacoes, classifique as pessoas A e B conforme a Tabela 2,8,
A 60 40 70 30 200
B 40
60
30 70 200
Analisando-se as dados brutos, 0 total de pontes de A e 200 e 0 de B tambem 200, havendo um empate, Todavia, as escalas brutas sao arbitrarias e absolutas, e nao consideram a posicao relativa de cada valor em relacao ao conjunto ao qual pertence. Infelizmente, nao ha escalas comuns ideais para todas as situacoes com rnedidas que informem sobre os parametres da populacao, a qual pode ter media elevada e pequena dispersao, au entao media baixa e grande dispersao. A despeito dessas dificuldades, escalas padronizadas fornecem melhores resultados do que comparacoes feitas com base apenas em dados brutos. Uma dessas escalas bascia-se no dcsvio de cada um dos valores em relat;1ioa media aritmetica, expressando-se esse desvio em unidades de desvio padrao, Esta e a escala padronizada, denotada por z e denominada varidvel redurida, sendo uma quantidade abstrata (isto e, independe das unidades das rnedidas originais dos valores). Para 0 calculo da variavel reduzida z, correspondente a urn valor, subtrai-se desse valor a media aritmetica do conjunto e divide-se pelo desvio _ . . padrao do conjunto, au seJa: z
=
Considere que as medias e os desvios padroes de cada uma das provas sejam Tabela 2,9.
Tabela 2.9 Media aritmetica e
AvaIia~o
constante da
Media 60
Desvio padrlio
10
80
65
5U
20
5
Prova D
20
48
• Exercicio-exemplo 2.25
Com base nas Tabelas 2.8 e 2.9. classifique
as pessoas A e B.
Para que a escala reduzida nao apresente valores negatives, na maio ria das vezes pode-se fazer uma outra mudanca de escala, fixando-se, arbitrariarnente, uma media e urn desvio padrao. Por exemplo, escolha a media 1.000 e 0 desvio padrao 100 para transformar os valores relativos nos novos valores por interrnedio da expressao: novo valor = nova media + novo desvio padrao x (valor relativo), ou seja, X = 1.000 + 100z. Desse modo, os novos valores para a pessoa A, a partir de seus valores relativos, tornam-se: • na Prova A: X", 1.000 + 100(0) = 1.000; • na Prova B: X = 1.000 + 100(- 2) = 800; • na Prova C: X = 1.000 + 100(1) = 1.100; • na Prova D: X = 1.000 + 100(- 1) = 900. Realizando os mesmos calculos para a pessoa B, todos os resultados podem ser resumidos na Tabela 2.10. Tabela 2.10 Valores relativos das quatro avaliaciies, mudada a escala para media 1.000 e desvio padriio 100.
-_'0
Avaliao;;iio Prova A
~.,-
Pessoa A 1.000
.~
Pessoa B 800
900
Conclui-se mais uma vez que a pessoa A e a melhor, ja que tern, em termos de valores calculados com base nos valores relativos, uma vantagem de 700 pontos em relacao 11 pessoa B (pontos equivalentes a multiplicacao da diferenca relativa de 7 pontos, multiplicada pelo desvio padrao 100).
Apresentando
----------------------
Navegando na Internet
Va ao site http://www.math.yorku.ca/SCSIStatResource.htmJ.clique em Gallery{'- Gallery of Data Visualization - para ver algunsexemplos dos melhores e dos pi ores grafrcos estatisticos.
Urn deles e 0 grafico de Minard, referente as campanhas de Napoleao, 0 engenheiro frances Charles Minard ilustrou 0 desastre de Napoleao na Russia, e muitos consideram esse grafico 0 melhor grafico estatfstico ate hoje feito; apresenta 0 tamanho do exercito juntamente com 0 mapa da campanha no ataque e na retirada, enfatizando a largura do terreno disponfveJ para 0 exercito frances, juntamente com a temperatura registrada em urn grafico de linha na parte inferior. Aproveite para explorar outros graficos do site.
A representacao grafica de uma serie de dados permite, ao mesmo tempo, uma visao geral e alguma caracterizacao particular da populacao por meio de urna correspondencia entre as categorias ou valores e uma determinada figura geometric a, de tal modo que cada valor ou categoria e representado por uma figura proporcional.
• Exercicio-exemplo 2.26
Para os valores 5,15 e 25, considere corresponder que corresponderao aos valores 15 e 25. ao valor 5 a altura 2 em. Determine as alturas
Convem ressaltar que torna-se conveniente, por motivos esteticos, considerar, na elaboracao de graficos, os seguintes aspectos: - 0 grafico, em seu conjunto, deve enquadrar-se em urn retangulo de dimens6es que 0 tome agradavel a vista; - as figuras na~ devem ser nem muito largas, nem muito estreitas, devendo obedecer a urn sentido estetico; - finalmente,o grafico, por seu objetivo de simplificar, deve conter somente algumas divisoes da escala vertical; as linhas horizontais devem ser poucas, de modo a torna-lo agradavel em relacao a sua leitura e interpretacao.
49
Silo elementos complementares de urn grafico: - titulo geral, indicativo da situacao estudada, a epoca e 0 local; - as escalas e as respectivas unidades de rnedida; - a indicacao das convencoes adotadas (geralmente quando se representam os resultados das observacoes de uma mesma situacao em duas ou rnais regioes au em datas diversas); - a fonte de informacao de onde foram retirados os valores. A estetica e a correcao cientifica devern contribuir para a escolha de escalas, de tal modo que a aparencia do grafico seja adequada para se tirar conclusoes a respeito da siruacao que esteja sendo examinada. Geralmente os graficos devem ser apresentados com a escala das ordenadas partindo do zero, a tim de que a comparacao visual entre as sucessivas marcacoes no eixo vertical possam ser feitas corretamente. Entretanto, pode-se iniciar a escala em outro valor quando se deseja, rnais do que comparar a grandeza dos dados, ressaltar as variacoes entre eles, Ha uma enorme variedade de modos de apresentacao de val ores numericos, todos destinados a atrair a atencao para eles, Neste livro apresentaremos apenas as graficos que sao mais comumente usados,
de barras,
de colunas e
de
Urn grafico de barras ilustra cornparacoes entre categorias; estas sao organizadas vertical mente, enquanto os valores tern disposicao horizontal, para enfatizar a comparacao de valores e dar menos enfase ao tempo. No diagrama de barras (Figura 2.17), cada categoria e representada par urn retangulo de area proporcional ao seu valor (se os retangulos tiverem a mesma base, e suficiente considerar a proporcionalidade em relacao as alturas). Figura 2.17 Grdfico de barras.
BOlSAS: \laria~ao % sabre pregao anterior Argentina
3,14 Toqum
-0,72
-0,05
t.oncrcs Nova Yo rk
oJ.5
Fonte:
·2.5
·2
·1,5
-1
-0,5
•0
Neste grafico, e indiferente a ordem de apresentacao dos retangulos, par se tratar de uma serie ordenada segundo uma caracterfstica qualitativa. Nesses casas, nao hi, em geral, uma ordem unica, tecnica e logicamente admissfvel, podendo existir diversas ordens, correspondentes a diversos criterios, Uma variante desse tipo de grafico e 0 de barras justapostas (Figura 2.18), que apresenta a relacao entre as valores ou categorias individuais e 0 total. Figura 2.18
Grdfico de barras justapostas, 1998 1991
424
444
". 302.;
;j~ik;" .; ·.·.1
no
1996
366
J.
400
····..1
600
6G8
200
R$ milhoes
800
1000
50
Grdfico de colunas
Urn grafico de colunas mostra as alteracoes dos dados em urn intervalo de tempo ou ilustra comparacoes entre categorias, as quais sao organizadas de maneira horizontal e os valores de maneira vertical para enfatizar a variacao ao longo do tempo. No grafico de colunas (Figura 2,19), cada eategoria e representada por um retangulo de area proporeional ao seu valor (se os retangulos tiverem a me sma base, e suficiente eonsiderar a proporeionalidade em relacao as alturas), Figura 2.19
Grdfico de colunas.
1,92 1,90 1,88 ~ 1,86 1,84 1,82 1,80 1,9
No grafico de colunas, tambem e indiferente a ordern de apresentacao dos retangulos, par se tratar de uma serie ordenada segundo uma caraeterfstica qualitativa. Nesses casos, nao ha, em geral, uma ordem iinica, tecnica e logicamente admissfvel, podendo oeorrer diversas ordens, correspondentes a diversos criterios, Uma variante desse tipo de grafico e 0 de colunas justapostas, 0 qual apresenta a relacao entre os valores ou categorias individuais com 0 total. Figura 2.20 Grafico de colunas
justapostas,
Grdfico em setores"
Cada eategoria correspondera a uma divisao au a urn setor de urn cfrculo; daf 0 nome grafico de setores, geralmente utilizado quando se pretende comparar 0 total de cada categoria com 0 conjunto total. Quando 0 objetivo da representacao for a analise da participacao de cada categoria em relacao ao total, a representacao em setores e adequada porque permite estabelecer a comparacao entre os valores (parcelas) e 0 total (Figura 2.21).
Diferentemente da apresentacao dos dados qualitativos, os valores devem estar ordenados quando da construcao dos graficos quantitativos, e podem mostrar variabilidade ou relacionamento, Mostrando variabilidade Os graficos mais urilizados sao
Grdfico de pontos"
0
o grafico de pontos (Figura 2.22) e adequado para ilustrar 0 comportamento de valores individuais em relacao ao conjunto desses valores, Desenha-se uma linha horizontal com uma escala para a variavel quantitativa, enquanto 0 valor numerico de cada medida no eonjunto de dados e representado acima da escala horizontal por urn ponto; quando as valores se repetem, os pontos sao colocados urn acima do outro, formando uma pilha naquela localizacao particular, na qual se listam os valores da variavel de interesse.
* Impropriamente
chamado pizza ou torta. •• Em ingles, dot-plot,
51
DjE!trlbui~ao dos cat6licos no mundo - em milhoes
Australi!'l e 1%
OCean~
•
•
•
• • •
36
•
30 31 32
• •
33
• •
• •
38 39
•
34
•
35
•
37
40
Histograma
o histograma (Figura 2.23) e adequado para ilustrar 0 comportarnento de valores agrupados em classes, sendo, simplesmente, urn grafico de colunas cornposto de varies retangulos adjacentes, representando a tabela de frequencias com perda de inforrnacao de urn conjunto de valores. Na escala horizontal rnarcarn-se os intervalos de classe, e cada intervalo e a base de cada rerangulo; na escala vertical marcam-se as alturas dos retangulos, que sao as respectivas frequencias absolutas das classes.
Figura 2.23 Histograma.
FREQUENCIAS
CLASSES
Mostrando relacionamento
Diagrama de dispersiio
0 relacionamento entre duas variaveis quantitativas. A representacao grafica e feita no mesmo sistema de coordenadas, em que uma das variaveis e colocada no eixo horizontal (0 eixo dos x) e a outra no eixo vertical (0 eixo dos y). Quando os val ores
52
Capitulo
sao ordenados, os segmentos que representam os valores devem ser dispostos na ordem d08 sucessivos valores, com distancias proporcionais as diferencas entre esses valores. Nesse caso, o diagrama de dispersao confunde-se com a charnada representacao cartesiana das funcoes. a diagrama de dispersao e uma aplicacao do processo geral de representacao das funcces em um sistema de coordenadas cartesianas. Nesse sistema, os eixos coordenados sao duas retas do plano, as quais se cruzam perpendicularmente; seu ponto de encontro e a origem de uma escala de medida para cada uma das retas, sendo fixado a partir dessa origem urn sentido positivo e urn negativo. Em gera!, urna das retas e tomada horizontal mente (eixo das abscissas), com sentido positivo para a direita e negativo para a esquerda da origem; outra, vertical (eixo das ordenadas), com sentido positive para cima e negativo para baixo da origem. Todo ponto P e determinado de maneira unica pela medida dos segmentos perpendiculares aos dois eixos, tirados do ponto dado, sendo denominado abscissa de P, simbolizado pela letra x, 0 segmento perpendicular ao eixo das ordenadas (cujo comprimento e medido pela escala do eixo das abscissas); denomina-se ordenada de P, simbolizado por y, 0 segmento perpendicular ao eixo das abscissas (cujo comprimento c medido pela escala do eixo das ordenadas). A abscissa e a orden ada sao as coordenadas cartesianas de P. o grafico de dispersao e utilizado para interpretar 0 relacionamento entre duas variaveis, observando-se 0 padrao apresentado, 0 qual deve informar a respeito da direcao, a forma e a intensidade do relacionarnento. A direcao indica uma associacao positiva quando, a medida que a variavel colocada no eixo dos x aumenta, tambern aurnenta a variavel colocada no eixo dos y, enquanto a direcao indica uma associacao negativa quando, a proporcao que a variavel colocada no eixo dos x aurncnta, a variavel colocada no eixo dos y diminui; ha uma concentraeao de pontos comparada com urn padrao nao-uniforrne. Urn exemplo de diagrama de dispersao eo da Figura 2.24. Figura 2.24 Diagrama de dispersdo.
0; 1.05
,,07,-------------------...,
g, 1,05
1,02 1,01 1 0,99
'8. "
~
.* •
a
0,5 1 1,5 22,S
+--~~-~~~-~~~-~~~~~~--l
3 3,5 4 4,5 S 5,5 6 6,5 7
Inflaf;;o
acurnulada
em 12 meses
Quando uma das variaveis e 0 tempo, este e colocado no eixo horizontal, e persao denomina-se grafico sequencial ou em linha (Figura 2.25), Figura 2.25
Grdfico seqiiencial au em linha.
lnfla~ao (%) de
1,4 1.2
° diagrama
de dis-
outubro
de 1998
a fevereiro de
1999
.1,29
0.8
0,6 0.4 0.2
Ernbora nilo resuma qualquer informacao, 0 grafico fomece uma ideia da tendencia geral e do grau de variabilidade. Em gera! os intervalos de tempo sao cspacados igualmente; por exemplo, urn dia, ou urn ano, ou cinco anos, A Figura 2.26 mostra 0 grafico seqiiencial para as valores mostrados na Tabela 2.11.
53
Iodice de preco 1.91 0,48 0,69
0,44
------------------r-----Janeiro Fe.vereiro Marco Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro
~--------~
e
-e .]
... ..
1,5
..
u
0,5
·0,5
Construindo graflcos
A mao
Grdfico de barras
• passo 1: estabeleca uma ordem (geralmente arbitraria, entretanto de acordo com os ob-
jetivos do estudo; pode ser aconselhavel a ordem crescente ou decrescente dos valores) para colocaeao, no eixo vertical, das categorias; • passu 2: considerando 0 maior valor das categorias, escolha uma escala horizontal para a representacao dos valores correspondentes; • passo 3: no eixo vertical, para a primeira categoria, trace urn retangulo de base qualquer e altura proporcional ao valor da categoria; • passo 4: repita 0 procedimento do passo 3 para as demais categorias. Embora a base e a altura nao estejam interligadas, ao elaborar graficos e conveniente, por motivos esteticos, considerar os seguintes aspectos: - 0 grafico, em seu eonjunto, deve enquadrar-se em urn retangulo de dimens5es que 0 tOInem agradavel a vista; - a base do retangulo nao deve ser nem muito larga, nem muito estreita, com senso estetico: - como a finalidade do grafico e simplificar, ele deve conter somente algumas divisoes da escala vertical; as linhas horizontais devem ser poucas, e 0 conjunto deve permitir leitura e interpretacao agradaveis.
Grdfico em colunas • passo I: estabeleca uma ordem (geralmente arbitraria; entretanto, de acordo com os ob-
jetivos do estudo, pode ser aconselhavel a ordem crescente ou decrescente dos valores ou da ocorrencia ao longo do tempo) para colocacao, no eixo horizontal, das categorias: • passo 2: considerando 0 maior valor das categorias, escolha uma escala vertical para a representacao dos valores correspondentes; • passo 3: no eixo horizontal, para a primeira categoria, trace urn retangulo de base qualquer e altura proporcional ao valor da categoria; • passo 4: repita 0 procedimento do passo 3 para as demais categorias.
Grdfico em setores • passo 1: calcule, por regra de tres, os graus correspondentes
54
• passo 2: em urn cfrculo de raio arbitrdrio, a partir de determinado ponto, marque, com 0 auxilio de urn transferidor, 0 angulo correspondente a primeira categoria; • passo 3: a partir da rnarcacao final da categoria recem-marcada, repita 0 procedimento do passo 2 para as dernais categorias; • passo 4: repita 0 procedimento do pas so 3 para as demais categorias, marcando, sucessivamente, os demais iingulos. Ao contrario do grMico em barras, que pode ser feito com uma unica cor (ou urn unico tipo de hachura), 0 grafico de setores deve ter areas diferenciadas por cores, gradacoes de uma mesma cor ou, ainda, hachuras diversas. No caso de apresentacao, em urn mesmo grafico, de varies diagramas setoriais correspondentes a um mesmo fenorneno em datas diversas (ou outras formas equivalentes), deve-se rnodificar 0 raio de cada circulo de modo que fique resguardada a regra geral da proporcionalidade entre os valores que eles representam e as respectivas areas dos cfrculos.
Grdfico de pontos
• passo 1; trace urn eixo horizontal e nele marque os pontos inicial e final, de tal sorte que englobem todos os valores a serem colocados no grafico; • passo 2: marque cada valor proporcionalmente na escala; • passo 3: identifique esse valor por urn ponto acima do eixo horizontal e na direcao do valor; quando urn valor se repetir, coloque 0 outro ponto acima do primeiro, formando uma pilha de pontos naquela localizacao particular.
Histograma
• passo f: no eixo horizontal, marque, sucessivamente, os limites de cada classe; • passo 2; no eixo vertical, marque, em escala, os val ores relativos as frequencias absolutas das classes; • passo 3: para a primeira classe, construa urn retangulo cuja base e 0 intervalo de classe e a altura e a frequencia absoluta dessa classe; • passo 4: para a classe seguinte, construa urn retangulo adjacente ao primeiro, euja base tam bern e 0 intervalo de classe e a altura e a freqllencia absoluta dessa segunda c1asse; • passo 5: repita 0 procedimento para as outras classes.
Grdfico de dispersiio • passo 1: trace os eixos coordenados;
• passo 2: marque, no eixo horizontal, 0 primeiro valor da primeira variavel e trace uma reta paralela ao eixo vertical; • passo 3: marque, no eixo vertical, 0 segundo valor da primeira variavel e trace uma reta paralela ao eixo horizontal. • passo 4: identifique a intersecao das duas retas por urn ponto: • passo 5: repita 0 procedimento para os demais pares de vaJores das variaveis,
Grdfico sequencial ou de linha
• Os passos sao semelhantes aos dados no grafico de dispersao, com a iinica diferenca de que, no eixo horizontal, marca-se 0 tempo.
Com 0 Excel
0 Assistente de Grafico, com 0 qual se pode escolher urn modele a partir das muitas variacoes predefinidas - e, ainda, personalizar qualquer dessas opcoes, A vinculacao do grafico com os valores que deram origem a ele tambem e simples, e cada alteracao feita na planilha e automaticamente atualizada na figura. 0 Apendice 3 ensina como fazer,
(mn;or)
55
Indlc~d~pr~~osem 1~98,empor"nlagem
2,5
1,5
t'
-3
]
D.
U,5
~,5
a. ~
.!j ~-
1,5 2,~
1··········· ~.n
1 -0,5 ._._
~o,~
~6,
.
, ~"_
~.?.~
Q~
J.\
Analise explorat6ria de dados
Termos-chave
Informacao Dados brutus da amostra
Rol da amostra Medidas de tendencia central Media Media aritmetica da amostra Mediana da amostra Moda da amostra Media aritmetica ponderada da Dados brutos da populacno Rol da populacao Medidas de tendencia central Media aritmetica da populacao Mediana da populacso Moda da populacao Media aritmetica ponderada da populacao Media geometrica da populacao Amplitude'total da popul a~ao Variancia da populacao Desvio padrao da populacao Parametres da populacao Estansticas amostrais
com perda de
amostra
Media geometrica da arnostra
Grafico em setores
Grafico de pontes
Resumo
I. Andlise exploratoria de dados e a fase inicial do processo de estudo dos elementos coletados nas arnostras, nas quais se obtem as inforrnacees que serao utilizadas na fase final, a chamada inferencia estatisti ca, tambern conhecida como analise confirmatoria de dados. 2. Urna vez coletados os dados de todas as variaveis envolvidas em um deterrninado estudo, 0 passo seguinte e descobrir 0 que os dados da amostra tern a dizer a respeito do que esta sendo investigado,
3. Para melhor caracterizar um conjunto de nurneros de uma arnostra e preciso escolher urn valor unico que represenre todos os outros valores. As tres rnedidas mais conhecidas que sugerem uma concentracao em tomo delas, medidas de tendencia central, sao a
media aritmetica da amostra, a mediana da amostra e a moda da amostra. 4. Media de um. conjunto de numeros e um valor que, levando em considerucao a totalidade dos elementos do conjunto, pode substituir a todos, sem alterar urna determinada caractertstica desse conjunto. Se media aritmetica, preserva a soma total; se media geometrica, preserva 0 produto, 5. Mediana da amostra e aquele valor que ocupa a posicao central da listagem, estando a amostra com seus valores em ordem crescente ou decrescente, e com todos os valores repetidos tambem inclufdos, individualmente, na lista ordenada. 6. Moda da amostra e 0 valor que mais aparece na amostra. 7. Varidncia amostral e a medida de variabilidade resultante da divi-
56
sao por (n -1) da soma das diferencas ao quadrado entre cada valor da amostra e a media da amostra, 8. Para que as unidades das medidas retornem as suas dirnensoes originals, define-se a mais importante medida de dispersao para uma amostra, denominada desvio padriio amostral, raiz quadrada positiva da variancia arnostral, 9. Os conceitos das medidas que caracterizarn uma populacao finita de tamanho N sao semelhantes aos da arnostra. 10. Coeficiente de variacdo e a grandeza relativa do desvio padrfio quando este e cornparado com a media aritmetica. II. Tabelas resumem inforrnacoes das arnostras ou da populacao e sao apresentadas em urn formato que permite tirar conclusoes mais facilmente, embora de forma limitada, a respeito do conjunto total de categorias ou valores. Tabelas podem ser construfdus sem perda de inforrnacao ou com perda de inforrnacao. 12. Freqitencia absoluta de uma categoria ou de urn valor e a quantidade de vezes em que uma categoria ou urn valor aparece em urn conjunto de dados. 13. Tabela de [reqiiencias e a reorganizacao dos valores em ordern crescente ou decrescente de grandeza, tal que uma caracterfstica
Capitulo
da populacao e subdividida em classes ou categorias, indicando-se a quantidade de ocorrencias em cada classe, relacionando cada valor (ou classe de val ores) com a frequencia de seu aparecimento, 14. Freqiiencla acumulada abaixo de uma classe e a quantidadc dos elementos que tern valor menor que 0 limite superior des sa classe, 15. Escalas padronizadas fomecem melhores resultados do que comparacoes baseadas apenas em dados brutos. Uma dessas escalas baseia-se no desvio de cada urn dos val ores em relacao 11media aritmetica, expressando-se esse desvio em unidades de desvio padrtio,
16. Graficos facilitam a visualizacao dos valores e sao amplameme utilizados na apresentacao de dados estatfsticos. Ao se fazer qualquer tipo de gnifico perde-se inforrnacao, porque ja nao mais existern as observacoes originals: entretanto, freqiientemente essa perda de informacao e peqnena se com parada com a concisao e a facilidade de interpretacao proporcionadas pelos graficos. 17. Quando observar urn grafico ou uma tabela. particularrnente como parte de urn arnincio, seja cauteloso; observe as escalas usadas nos eixos horizontal e vertical. Pode-se distorcer a verdade com as teenicas estansticas.
Exercicios propostos
I . Para a noncia a seguir, idenrifique:
-'-'~.~
zes par
0110
a. tipos de variaveis utilizadas; b. rnedidas de tendencia central citadas; c. medidas de tendencia central calculadas.
Perfil. 0 turista brasileiro tern entre 30 e 40 anos, renda media de R$1.800 e segundo grau completo. Vlaja duas ve-
parentes e amigos. A malaria - 70% - viaja durante a alta estacao. As viagens duram, em media, 12 dias. Este If o perfil. tracado pela Fundacdo Instituto de Pesquisas Economicas, da USP, do turista brasileiro em 1998. Os dados constam da publicaciio Dados Estatisticos de Turismo 1998Y
e visitar
2. Prove as seguintes propriedades da media aritrnetica: - a soma algebrica das diferencas entre cada valor observado e a media aritrnetica dos valores e nula; a media do produto de uma constante por uma variavel e igual 1.10 produto da constante pela media da variavel; - a soma dos quadrados dos desvios da media aritmctica e minima com relacao 11 soma dos quadrados dos desvios relativos a qualquer outro valor distinto da media aritmetica. 3. Na definicao de media, se a caracterfstica do conjunto a ser preservada e a soma dos inversos dos seus elementos, tem-se a media harmonica. A origem da dcnominacilo da media harmonica e musical; essa 150 termo central da sucessao 6,4,3, onde 6:4:3 e a se-
quencla segundo a qual deve estar 0 comprimento de onda musical para se obter uma nota, a quinta e a oitava. Para esses valores, a media aritmctica e 13/3, a media geometrica c raiz cubic a de 72 e a media harmonica, 4. Prove que a media aritmetica e sempre maior ou igual que a media geometries, e esta sempre rnaior ou iguaJ a media harmonica. 4. Prove que: - a variilncia de urna constante e igual a zero; - a variancia do produto de uma constante por uma variavel e igual ao produto do quadrado da con stante pela variancia da variavel; - a variancia da soma ou diferenca de uma con stante com urna variavel e igual 11 variancia da variavel, 5. Comente a respeito do seguinte texto, e dec ida quem deve ser 0 vencedor: "A gente entao manda pros computadores da Datamec descobrirem qual e 0 leitor padrao dO PASQUIM. Quer dizer, 0 cara que estiver bem no meio da media ganha.,,19 6. "0 Tunel Reboucas - inaugurado em 1965 e uma importante liga\=30 entre as zonas SuI e Norte - e a Avenida Brasil, principal eixo de acesso c safda da cidade, ... sao campeoes em problemas causados pOTmotoristas e seus vefculos.i" Identifique a medida de tendencia central que caracteriza 0 Tiinel Reboucas e a Avenida Brasil. 7. A quantidade de mortes por acidentes de transito em Sao Paulo, nos anos de 1997 e 1998, e a que constu da Tabela 2.12. ExpJique por que a variacao total nao e nem a soma das variacoes entre hornens e rnul heres, nem a sua media aritmetica ou geornetrica.
Tabela 2.12
Quantidade de mortes por acidente de trdnsito em
Idade/Sexo Homem 44 159 747 267 41 1.258
-_.
1997 Mulher
..
Varia~o Total
f---.
Mulher 13 30 91 95 9 238
Ate 10 anos
De 10 a 19 anos
25 _-
45
---
382
51 1.582
I
..
927
0 _
-.
.-
1.583
r-:
-24,6'1".
Capitulo 2 / Analise exploratoria de dados 8. Os ficis de cada religiao, em porcentagens da populacao mundial, sao os seguiutesr" Catolicos, 16,9 Outros cristaos, 17 Muculmanos, 23,1 Hindus, 13 Budistas, 6,1
Judeus, Outros, 0,2 23,7
57
15. "Segundo as estatisticas, das 28.912 ocorrencias registradas nas quatro vias especiais da cidade, 9.764 foram no Reboucas, A Avenida Brasil aparece com 8.011, seguida do Tiinel Santa Barbara, com 6.260, e do Tunel Dois Irrnaos, com 4.877 atendimentos.''" Construa urn grafico de setores para ilustrar esta noticia. 16. As importacoes brasileiras, em bilhoes de dolares, durante ano de 1998 forarn as seguintes, rnes a rues: janeiro, 4.577; fevereiro, 3.799; marco, 5.038; abril, 4.779; maio, 4.913;junho, 4.844;julho, 5.329; agosto, 4.634; setembro, 5.338; outubro, 5.039; novembro, 4.709; dezernbro, 4.538.27 Construa urn grafico de linha para visualizar as exportacoes brasileiras em 1998. 17. Com base nos dados das exportacoes e importacoes brasileiras no ano de 1998 (Exerclcio-exemplo 2.5, P: 29, e problema proposto 12), construa urn grafico que ilustre 0 deficit (ou superavit) da balanca comercial brasileira, 18. As principais religioes do mundo, em quanti dade de fieis, e a seguinte:28 Cristianismo, 1.929.957.000 Islamismo, 1.147.494.000 Hindufsmo, 747.797.000 Budismo, 353.141.000 Religioes tribais, 231.614.000 Judafsmo, 14.890.000 Confucionisrno, 6.112.000 Nao-religiosos e ateus, 906.995.000 Fonte: David B. Barrett/Organizacao das Nacoes Unidas/1997. Construa os graficos de barras, colunas e setores, 19. As exportacoes brasileiras, em bilhoes de dolares, durante 0 ana de 1998 foram as seguintcs, mes a mes: janeiro, 3.914; fevereiro, 3.714; marco, 4.273; abril, 4.572; maio, 4.609;junho, 4.886;julho, 4.970; agosto, 3.985; setembro, 4.537; outubro, 4.014; novembro, 3.702; dezembro, 3.944.29 Construa urn grafico de linha para visualizar as cxportacoes brasileiras em 1998.
Compare esses niimeros com os constantes do problema proposto 18 e conclua a respeito. 9. Comente as seguintes frases: "Urn escritor 'medio' ... Os entices que nao gostam de ... costumam considera-lo 'medic' ... nao tern genialidade, nem seu ranco provinciano, seus cacoetes rnoralistas, sua adjetivaeao rococ6: essa e a forma de ser urn grande 'medio'.?" 10. Identifique a medida de tendencia central retratada nesta notfcia: "0 ranking dos rebocados. Modelos populares Iideram com folga estatfstica no Rio de Janeiro. Superaquecimento e a maior causa de engulco.':"
II. Verifique se esta correta a seguinte informacao: "A cultura do milho ocupa 1.320.880 hectares, com produtividade prevista em 2.937 quilos por hectare e producao de 3.879.475 toneladas no Estado."24 12. Com base nas inforrnacoes fornecidas pelas Tabelas 2.2 e 2.3 (p. 27), atribua pesos aos campeonatos e vice-campeonatos de tal modo que coloque em primeiro lugar no ranking do futebol brasileiro em 1998 qualquer time enlre a 2.· e a 20." colocacoes, 13. Os resultados do Exame Nacional do Ensino Medio (ENEM), divulgados ontem pelo Ministcrio da Educacao (MEC), na parte referente a conhecimentos gerais, foram os seguintes: I - Dominar 1inguagens, 4,2; II- Compreender fenomenos, 4,1; IIl- Enfrentar situacoes-problcma. 4; IV- Construir argumentacoes, 3,7; V - Elaborar proposras, 3,9. Determine a nota media em questoes de conhecimentos gerais e compare a sua resposta com a publicada, nota 4.2'
~~.s:
14. Faca 0 grafico de barrras, 0 gnifico de colunas e 0 grafico de setores para a distribuieao de fieis de cada religiao em porcentagens da populacao mundial: Cat61icos 16,9% Outros cristaos 17% Muculmanos 23,1% Hindus 13% Budistas 6,1% Judeus 0,2% 23,7% Outros
/6
20. Determine a mediana do comportamento da Bolsa de Valores de Sao Paulo na primeira semana de janeiro de 1999, com base em 0%: 2.a_feira: + 2.32%; 3."-feira: + 2,43%; 4.·-feira: + 3,09%; 5"feira: -5,13% e 6."-feira: -2,48%.'" 21. A revista EXAME - Maiores e Melhores, de julho de 1998, apresentou 0 investirnento no irnobilizado das 10 melhores empresus do Brasil no ramo de eletroeletr6nica, em termos do retorno de aquisi,>oes,em %, obtido no ano (Tabela 2.13). Identifique, justificando, a empresa mediana da amostra observada, Tabela 2.13 lnvestimento no imobilizado das 10 melhores ernpresas do Brasil no ramo da eletroeletronica, em termos do retorno de aquisicoes em %.
----------~------1
2
3 4 5
Empresa
% do retorno
e aquisi~iies
67,1
49,7 41.2
34,3 28.8 26,3 26,0 23,8
6 7 8 9 10
22,9
18,5
58
Contagem
//(/11/
/(///11///((///
Freqiiilncia absoluta
7 15
InglaterraIHolanda H
/
4
2 1
/1/ If/ ff! /1j II! (fI/!I j II /11 /IIII!!! II j ff! IIfII 56
/ /"I!!!!f
"
Fran9a1EUA Bermudas
II / " / !!!
I
2 1 2 I 3 1 2
1
Holanda
Panama Chile
Succia Brasil/Alernanha
II I
80
Freqiiilncia
absolute 7 15 4 2
I
2 56
2
Franca/Estados
Bermudas
U nidos
Holanda Suecia
Brasil! Alcmanha
1 2 1 3
1
Panama
Chile
2 1 80
Majores e tdelhores. julho de 1998.
Total
Fonte: revista EXAME -
59
metica dos dados originais, que sao origem da tabela de freqilencias com perda de informacao: compare com 0 valor preciso, 6.468,275. 2.20. • passo 1: hoi 80 valores, com duas posicoes centrais: 40.' e 41."; • passo 2: a frequencia absoluta da primeira c1asse e 30, a qual, somada 11 frequencia absoluta da segunda classe (igual a 24), totaliza 54, maior que 40 e 41; • passo 3: como esta segunda classe e a primeira classe com Irequencia acumulada imediatamente superior a metade do total de valores, seu ponto medic, 5.350, e considerado a mediana do conjunto de valares; compare com 0 valor preciso, 4.916. 2.21. A classe de maior freqnencia absoluta a primeira; entao a moda eo ponto medio dessa classe, ou seja, a moda vale 1.850; compare com 0 valor precise, que niio existe, par ser amodal a distribuit;:ao de dados. Observe que procurar usar 0 mesmo conceito em varias situacoes sem uma analise atenta pode induzrr a decisoes
Aspecto inicial de uma tabela de frequencias com perda de informaciio do Exercicio-exemplo 2.18.
Classes 100 ~ 3.600 Contagem /11/1 If Iff I Iff I If Iff fff /I fff If
--" _
Frequencia absoluta
... .._--
2.22. 2.23.
:.J)
24 10 10 0 2.24. 2.25.
10.600 ~ 14.100 14.100 ~ 17.600 17.600 ~ 21.100 21.100 ~ 24.600 24.600 ~ 28.100 --.-.~. 28.100 ~ 31.600 Tolal
Fonte: revista EXAME -
III II
3 2 0
total dada par: 31.600 - 100 = 31500; compare com 0 valor verdadeiro, 30.621. Para a variancia, deve-se calcular, para a prirneira classe (1.850 - 6_618,75)" x 30, para a segunda classe (5.400 - 6.618,75)2 x 24, e assim sucessivarnente. Somando-se essas parcel as e dividindo-se por 79, obtem-se 33.569.262,24; compare corn 0 valor verdadeiro,33.461.319_ Nao e possivel porque a soma de pontos igual para as duas pessoas. Transformando as dados brutos em valores relativos, par intermedio da exprcssao
erradas, A amplitude
, tem-se,
para a pessoa A,
2.18B.
40 -80 =---= 20
-2;
Aspecto final de uma tabela de frequencias com perda de informacdo do Exerctcio-exemplo 2.18.
Classes 100 3.600 7.100 10.600 14.100 17.600 Frequencia absoluta 3_60:) 7.100 10.600 14.100 17.600
...
CO' ---CO'_]_
30 - 50 20
~
l--l--l---
30
----
24 10 10
---
Realizando os mesmos calculos para a pessoa B, todos as resultados podem ser resumidos na tabela a seguir:
Solucdo do Exercicio-exemplo
Av~o
2.25
PessoaB -2 -I -7 1 -9
--
zi.roo
24.600 28.100 Total
~ ~ ~
1-
-..
0 3
2
Pessoa A
-~".
21.100
-2
1 -1 -2
0 I 80
classe, tern-se (l00 + 3.600)/2 = 1.850; para a segunda classe, tem-se (3.600 + 7.100)/2 5.350, e assim sucessivarnente; • passo 2: tem-se, para a primeira classe: 1.850 x 30 = 55.500; para a segunda classe, 5.350 x 24:::: 128.400; • passo 3; (55.500 + 128.400", _. '" 29_850) perfaz 0 total de 529.500; • passo 4: 529.500/80 = 6.618.75, valor representative da media arit-
As duas pessoas podem agora ser cornparadas. Embora A e B tenham obtido a mesrna soma de graus brutos, a resultado relativo, que leva em conta a posicao de eada pessoa em relacao a todas as outras naquela determinada avaliacao. coloca-as em ordem. Conclui-se que a pessoa A a melhor, ja que tern, em termos relatives, uma vantagem de 7 pontos [-2-(-9)1 em relacao a B. 2.26. As alturas serao 6 em e 10 em, respectivamente, porque, desse modo, assegura-se uma proporcionalidade, Verifica-se que a relacao entre cada altura e Q respectivo valor constante e igual a 2/5 = 6/15 = 10/25 = 0,4.
60
de dados
28.
29.
30.
Jomal do Brasil, 31112/1998. Adaptado de <wett@GS.VERlO.NET> Jornal do Brasil, 31/1211998. Millar Fernandes, Millar no Pasquim, Cfrculo do Livro, 1977. Jamal do Brasil, 21/1/1999. 0 Estado de S. Paulo, 13/111999. Otavlo Frias Filho, Folha de S. Paulo, 10112111998. lorna! do Brasil. 16/1/1999. Jornal Zero Hora, 14/111999. Jamal do Brasil, 17/12/1999. Jornal do Brasil, 12/111998. lorna! do Brasil, 81111999. Jornal do Brasil. 121111999. Jomal do Brasil, 81111999. Jomal 0 Dia, 10/1/1999.
aa
um pouco: as chances de os
[atos ocorrerem,
63
nos ensina: retornando
a que a expertencia
Descritiva, 64 A lei dos qrandes Um conceito Aprendendo Combinando
a Estatistica
67
numeros 67
e a atribuicdo
de probabilidades,
adiclonal,
estatistico,
67
0
de probabilidade:
que a teoria
[undamenta, Um auxilio
ao calculo 70
conceito
de arvore
de
probabilidades, Consideranao
mais detalhadamente
informacties
adicionais,
71
e determinacao
em numeros
de probabllldades,
73 73
os resultados
desejados,
79
matemattcos,
96
.
Termos-chave, Resumo,
.
96
propostos, 97 100
Exercicios
Solucoes dos
exerciaos-exemplo,
62
Capitulo
3 / Probabilidades:
uma tntroduciio
opul~?Ienle, a palavra ~stat(stica tern? significado ~ingelo de colecao de, dados. sobre deterrninado assunto. E comum ouvirmos falar de estatfsticas da :. :;;:L inflacao e estatfsticas do campeonato de futebol, entre diversas outras, No entanto, como vimos no Capitulo 2, a Estatfstica nao c simplesmente uma tecnica de coleta e de apresentacao de dados, mas uma ciencia com a qual se procura tirar conclusoes a partir de dados numericos origin ados de observacoes, Verificamos que 0 objetivo da Estatfstica e fazer inferencias a respeito de determinada populacao, a partir de uma amostra dessa populaeilo, como urn instrurnento auxiliar na tomada de decisao em condicoes de incerteza. Neste capitulo, veremos que 0 objetivo e tambern antever 0 desconhecido, quantificando-o adicionalmente a determinar 0 erro em uma estimacao (de algo tambern desconhecido, de uma populacao), Em resumo, uma preocupacao em prever os fatos a partir de informacoes existentes.
., ' .•.. :.1 ::.D;.
"0 futuro
a Deus pertence,
() palpite a
116$".
"Falar depois dojogo, comentur 0 Jim da temporada sao coisas fdceis. Dar a cam para bater com palpites Ii que sao elas. Muitos preferem niio se arrlscar em tal empreiuula, mas 0 born cronista esportivo tern obrigac/io de ser uma especie de vidente. Ou economista. Ele tem que tentar prever osfatos."?
A teoria do Calculo das Probabilidades comecou com uma correspondencia entre dois matematicos franceses, Blaise Pascal (1623-1662) e Pierre Fermat (1601-1665), em 1654, a respeito de dois problemas formulados por urn jogador compulsivo, Chevalier de Mere: A partir daquele momento, realizam-se estudos de modeJos matematicos com exemplos essencialmente de jogos de azar (afinal, era a motivacao naquela epoca), Infelizmente, tal enfoque propagou-se ate os dias de hoje, levando a que a maioria dos livros de probabilidade traga uma sene de exemplos referentes a jogos de azar, a retiradas de bolas de urnas, a jogadas para 0 ar de moedas (chamadas honestas, como se a maioria nao 0 fosse), no lancamento de dados e no aparecimento de detenninadas cartas de baralho, em especial ases e reis. Adicionalmente, ao surgir 0 ensino da teoria dos conjuntos nas escolas brasileiras na decada de 1960, enfatizou-se a associacao entre os conceitos de probabilidades e os de conjuntos com 0 intuito de facilitar 0 raciocfnio estatfstico a partir de outros modelos aparentemente mais estruturados e de conhecimento geral, Todavia, ambos os enfoquestiveram a sua irnportancia ate a decada de 1980, e os seus seguidores estavam preocupados em proporcionar melhor entendimento dos concertos estatfsticos te6ricos por meio de estruturas que, no entender deles, facilitariam a cornpreensao dos rnodelos existentes, Nos dias de hoje, tal visao associativa nao e mais valida, sobretudo pel a variedade de aplicacoes (nao apenas em jogos de azar), mas pela absoluta necessidade de as pessoas entenderem como utilizar os conceitos estatfsticos na vida diaria,
Exerciclo-exemplo 3.1
Tem-se 100 bilhetes numerados de 1 a 100. Retiram-se tres ao acaso, Determine a probabilidade de: a. os Ires bilhetcs rerem mimeros consecutivos; b. haver exatamente dois nrimeros consccutivos (mas nao tres): c. nao haver mimeros consecutivos, Identifique quando esse problema - que, corn estrutura semelhante, e comumente encontrado livros de Estatfstica da atualidade - foi formulado pela primeira vez: nos
o estudo
do relacionamento dos dados por meio de modelos probabilisticos denomina-se Estatfstica Maternatica. Sem entrar em discussoes filosoficas a respeito do determinismo ou nao na nossa vida, diremos que as variacoes dos fen6menos devem-se a urn grande mimero de causas que nao podemos controlar, as quais 0 estatfstico denomina, simplesmente, acaso.
"0 segundo.
permanente [Stephane Mallarme l, poeta estupendo, criou () verso que deveria ser 0 lema de qua/qua "aposta " economic a: Urn lance de dados jamais abolirri 0 acaso ." 1
* TItulo
do bariio A. O. M6r6(1610-1685).
Capitulo
3 I Probabilidades:
uma iruroduciio
63
o resultado de uma experiencia geralmente se da ao acaso; entretanto, se ela se repetir uma grande quantidade de vezes, pode-se construir urn modelo probabilfstico e tomar decisoes referentes ao processo experimental apenas pelas suas caracterfsticas, sem necessidade de refazer a experiencia. A pratica indica que muitas experiencias sao realizadas como se ocorressem em condicoes estaveis, e as aplicacoes nos varies ramos da ciencia e da industria cornportamse de maneira identica, Em tais circunstancias, usualrnente e possivel construir urn modelo maternatico satisfat6rio e ernprega-lo no estudo de propriedades e na obtencao de conclusoes. o modelo maternatico que um estatfstico seleciona geralmente e capaz de possibilitar previsoes sobre a frequencia dos resultados que se espera ocorrerem quando a experiencia for repetida, Por exemplo, verificando-se a quaJidade de componentes produzidos em uma fabrica podese prever a percentagem de componentes nao-conformes (defeituosos) esperados no processo de fabricacao, Em virtude da natureza dos mode1os e dados estatfsticos, e natural que a Probabilidade seja a segunda ferramenta da teoria estatfstica (a Estatfstica Descritiva e a primeira; ver Figura 1.2, p. 11). 0 estatistico ve nas probabilidades 0 ideal da proporcao de vezes que determinado resultado ocorrera nas repeticoes de uma experiencia, e urn modelo probabilfstico e urn instrumento maternatico que preve a chance de urn possivel resultado sem que seja necessario repctir a experiencia, Devido ao fato de a probabilidade ser uma ferramenta importante nos rnetodos estatfsticos te6ricos e prriticos, uma introducao ao calculo de probabilidades e, sempre, estudada antes da Inferencia Estatistica. Usar rnodelos matematicos na solucao de situacoes da vida real e comum em varias ciencias, Por exemplo, no estudo do movimento de urn foguete uma lei simples fomece urn modelo satisfatorio, apesar da complexidade do problema. Quanto mais complexo 0 trabalho, mais elaborado e modelo, e, uma vez que urn modelo constitui somente uma representacao da situa~ao atual, as conclusoes obtidas dependem do grau de adequabilidade do modelo em relacao a situacao em estudo, Independentemente da dificuldade do problema, e fundamental conhecer 0 campo de aplicacao para garantir que os modelos te6ricos sejam adequados a realidade.
"Reina da fantasia. Nas estattsticas, a Brasil das novelas e um pais de outro planeta. No terreno frio das estattstiras, hd um abismo entre ficciio e realidade mais profundo do que a qualidade dos au/ores de hoje do virtuosismo da falecida Janet Clair. Niio toa que os autores fogem da miseria. A anica nove/a que ate hojc se atreveu a moslrd-la com todas as tintas, Brasileiros e brasileiras, exibida pelo SBT em 1990, foi urn rerumbanre fracasso de audiencia. ,,4
ea
axiom a
(J
pI)JItn
de
Nos metodos estattsticcs formulam-se hipoteses, conduzem-se experiencias, e testa-se se hipoteses iniciais sao verificadas (ou nao) com base nos dados experimentais. Embora os metodos estatfsticos sejam utilizados em todos os ramos das ciencias, ha diferencas entre os problemas das ciencias biologicas e sociais - que envolvem variaveis indesejaveis que nao podem ser controladas - e os problemas das ciencias fisicas, nas quais tais variaveis podem ser controladas satisfatoriamente em laboratorio. . o enfoque dado ao estudo das probabilidades depende da area em que ele sera aplicado, 0 estatistico puro prefere tratar 0 assunto a partir do ponto de vista axiomdtico, no qual algumas afirmacoes sao aceitas sem demonstracao. Aquele que usa a estanstica aplicada prefere pensar em probabiJidade como a proporcao de vezes que determinada situacao ocorrera se uma experiencia for repetida indefinidamente em situacfies de natureza repetitiva ou que podem ser concebidas de tal maneira. Experiencias como a contagem de pecas nao-conformes em uma caixa, au a leitura diaria da temperatura de urn term6metro sao exemplos de experiencias simples. Por outro lado, uma experiencia na qual varias cobaias sao alimentadas com diferentes tipos de alimentos so pode ser realizada uma vez com 0 mesmo animal; contudo, tal experiencia pode ser imaginada como a primeira de uma serie ilimitada de experiencias e, por esta razao, considerada tambem como repetitiva.
Todos conhecem, por intuicao, 0 conceito de probabilidade, ou chance, de algo ocorrer. Em geral expressas em term os de porcentagem, sao comuns frases do seguinte tipo: "as chances de Covas se recuperar sao de 80%".5 Adicionalmente, sabe-se que a chance de 0 imposstvel ocotrer e 0% e a do certo acontecer e 100%. "A chance de 0 equipamento falhar e 40%" tambern e uma afirmacao que quantifica 0 sentimento a respeito da possibilidade de falha desse equipamento. Todas essas possibilidades sao quantificadas por meio da associacao do resultado com urn mirnero no intervalo fechado entre o e 1, onde mimeros altos indicam que 0 resultado e rnais passfvel de acontecer. 00 (zero) indica urn resultado que nunca ocorrera e 0 1 (um) indica que ete, com certeza, ocorrera.
64
Esses pensamentos naturais sao fruto da experiencia passada, da observacao dos fatos da vida, codificados e resumidos pela Estatfstica Descritiva para consulta posterior. No dia-a-dia, 0 termo provavel refere-se a grandeza da porcentagem do que e favoravel ao que se deseja em relacao a todos os resultados. Costumamos estimar as chances ou probabilidades de chover, ou de conseguir 0 lugar em urn teatro, ou de urn time de futebol veneer uma partida. E diffcil, nesses casos, obter uma medida exata da probabilidade, e podemos ter apenas tentativas intuitivas na obtencao de resultados provaveis; alem disso, as vezes e preciso levar em conta urn fator que muda com 0 tempo. tal como melhora de desempenho de uma equipe ou efeito de
mudancas sociais,
"0 episodic fa: lembrar a historia do suico que, apavorado com a ameara de guerra na Europa, resolveu s<' isolar de tudo e de todos. Apos dezenas de estudos, a sujeito (... J pegou urn mapa-mundi e disse: 'E aqui', apontando para Guadalcanal. Mudou-se para a ilha pouco antes de {'omerar uma das mais sangrentas batalhas da Segunda Guerra. ,,6
Se urn conjunto de n ocorrencias equiprovdveis inclui m maneiras nas quais lima pode dessa equlprovdveis
.'
LI
t min.
Para aprimorar esse conhecimento, necessita-se obter matematicamente uma medida numerica de probabilidade. Quando nao se tern quaJqucr informacao, podem-se cnumerar os resultados possfveis e descrevelos como igualmente provaveis (equiprovaveis), Por exemplo, gulches encontrados vazios em uma reparticao publica com cinco gulches pode resultar em qualquer urn dos mimeros 0, 1, 2,3,4 e 5. Nossos motivos para considera-los equiprovaveis baseiam-se no fato de cada guiche ser (quase exatamente) simetrico e as condicoes de chegada a essa repartieao supostamente nao favorecerem urn mimero mais do que outro. Quando tais consideracoes de simetria proporcionam significado razoavel para a expressao igualmente provdveis, podemos dizer que sempre que uma experiencia consiste em n resultados possfveis e igualmente provaveis, a probabilidade de cada resultado e lin; no entanto, embora util, essa informacao e circular (define com
a definicao),
Assim, quando forem enumerados todos os resultados possfveis com a hipotese de suposta igualdade, a probabilidade de determinada situacho e a razao do numero de ocorrencias favoraveis a situacao para 0 numero total de resultados. A probabilidade assim definida e chamada probabilidade a priori. Nesse exemplo, a probabilidade de encontrar urn guiche vazio e 116.
"Pareos cquilihrados. Foram formados
11 pdreos, alguns numerosos e equilibrados.: Esse detalhe certamente vai dificultar os apostadores da Quinexata, que precisam acenar as cinco duplas exatas das cinco ultimas provas. ,,7
A probabilidade tam bern pode ser expressa em forma de relacao de ocorrencias favoraveis para as desfavoraveis a uma situacao (ou vice-versa). Assim, podemos dizer que uma relacflo a favor de uma situacao e 2 para 7, significando que a probabilidade de sua ocorrencia e 2/9. Essas consideracoes resuJtam no denominado conceito cldssico de probabilidade, 0 resultado da divisao entre 0 numero de casos favoraveis e 0 mirnero de casos possiveis:
Pr' (A) =
Essa foi a primeira defini .. ao do conceito de probabilidade, conhecida como lei de Laplace .••
a Estatistica
Descritiva
A defini ..ao classica niio atende a detenninadas situacces como, por exernplo, saber qual a probabilidade de uma pessoa morrer entre 50 e 60 anos, ja que nao se con segue ter 0 numero completo de casos possiveis. Entretanto, as informacoes podem ser resumidas em tabelas de frequencias, as quais se classificam naquelas sem perda de inforrnacao e naquelas com perda de informacao, permitindo-nos fazer uma analogia entre as tabelas de frequencias e os conceitos de probabilidade. Tendo em vista que este livro apresenta as conceitos gradualmente, na medida em que sejam necessaries, retornemos as tabelas da Estatistica Descritiva. A menor frequencia absoluta que pode ocorrer em uma serie de observacoes e igual a 0, ou seja, nao ocorre determinado valor, situacao ou classe, enquanto que a maior frequencia absoluta e N, ou seja, so ocorre aquele valor, situacao au c1asse. Essas afirma ..oes podem ser expressas em porcentagens: 0% e 100%, encontradas pela divisao da frequencia absoluta pelo total de valores e multiplicando-se por
1 do:
• A abreviaciio Pr significa probabilidade de. "'. Pierre Simon Laplace (1749 - 1827). matematico
frances.
Cap(LU!O 3
I Probabilidades:
uma
introducdo
65
X
100
divisiio do ntunero de observaciies nas quais ocorreu o resultado desejado (freqiil'ncia absoluta) pelo feuas m,meru total de observaciies
denomina-se freqidncia
relativa.
Nas tabelas de frequencias, cria-se uma coluna com as frequencias relativas dos valores ou de classes de valores, conforme mostram as Tabelas 3.1 e 3.2, continuacao das tabelas dos Exercfcios-exemplo 2.17 (p, 43) e 2.18 (p. 45). Verifica-se que qualquer valor, situacao ou c1asse tera chance de ocorrencia entre 0% e 100%, inclufdos esses limites, Ora, esses sao os valores que as probabilidades podem assumir, conforme verificamos no conceito classico,
..
- --
Freqiiencia absoluta
56
15 7 4 3 2 2 2 2 2
I
U nidos
1
I I I
7/100 41100 3/100 21100 21100 21100 21100 21100 11100 11100 11100 11100 11100 100/100
= = = = = = = = = = = = = = =
..
0,56 0,15
Om =
= = = = = = = = = =
"
"
56%
o,m
= =
--
15% 7% 4% 3% 2% 2% 2% 2% 2% 1% 1% 1% 1% 1% 100%
100
--
Intuitivamente, na Tabe1a 3.1 vemos que a chance de se observar uma companhia brasileira e maior do que observar uma companhia chilena, porque a brasileira tern urna porcentagem (probabilidade) de 56%, bern maior que a chilena, de apenas 1%. Tabela 3.2 Freqtiencias relativas do Exercicioexemplo 2.1S.
Classes
--
...
Frequencfa absoluta 3.60] 7.100 10.60] 14.100 17.600 21.100 24.600 28.100 31.600
-,,-
(frao;ao,
Frequencla relativa decimal e porcentagem) 0.375 0,3 0,125 0.125 0 0,0375 0,025 0 0,0125
100%
-_.
100 3.600 7100 10.600 14.100 17.60] 21.100 24.600 28.100 Total
111111111-
30
24
10 10 0 3 2 0
I
...
30/80 = 24180 = 10180 = 1000 0180 -3180 -2180 = 0180 = 1/80 "
-= = =
.. _--
--
--
--
= =
'"
1,25%
-
80
-
80180
..
=
..
1%
Intuitivarnente, na Tabela 3.2 vemos que a chance de se observar uma companhia com 0 mirnero de empregados entre 100 e 3.600 e maior do que observar uma companhia com 0 mimero de empregados entre 14.100 e 17.600, porque a primeira tem uma porcentagem (probabilidade) de 37,5%, bern maior que a segunda, de 0%. Os fenomenos estudados pela Estatistica sao aqueles cujo resultado, mesmo em condicoes uniformes de experimentacao, variam de uma observacao para outra. 0 resultado de uma observacfio futura nao pode, portanto, ser previsto exatamente, Entretanto, a pratica mostra que os resultados de uma sequencia razoavelmente longa de repeticoes do mesmo fen6meno apresentam uma regularidade no sentido de que a frequencia relativa com que detenninado resultado
66
Capitulo
3 / Probabilidades:
uma introduciio
aparece na sequencia tende a se manter constante, Os fenornenos que apresentam essa regularidade estatfstica denominam-se jenomenos aleatorios. Desse modo, pode-se definir a probabilidade de uma situacao como sendo a frequencia relativa dessa situacao em n observacoes, ou seja, e 0 mimero de ocorrencias da situacao dividido pelo mimero de observacoes tendendo para infinito. A medida que 0 mimero de repeticoes aumenta, hi uma estabilizacao na frequencia re1ativa, 0 que e conhecido como regularidade estattstica. o erro relativo da estimativa dessa probabilidade vai-se tomando cada vez men or a medida que o mimero de repeticoes do experimento aumenta. Esse conceito de probabilidade denomina-se
freqiiencial.
"Nas partidas em que venceu, 0 Flamengo usou uniforme branco. E ndo contou com 0 presidente (... ) no Maracaniizinho. Nas duas derrotas, 0 time usou uniforme rubro-negro. E tinha (... ) como torcedor no gindsio, Como sera na quarta-feira? ,,8
Quando se realiza uma experiencia, urn resultado observado e definido, determinado, na~ podendo acontecer urn mirnero fracionario de vezes. Voltando a observar uma reparticao com cinco guiches, dizemos que a probabilidade de cada urn dos resultados possfveis (achar de 0 a 5 guiches vagos) e 116, e com certeza nao podemos obter como probabilidade 1/6 de urn com uma unica observacao dos gulches e procurando urn guiche vago. Entao podemos dizer que obteremos cada resultado exatamente uma vez em cada seis observacoes, ou exatamente 100 vezes em 600 observacoes? A resposta, evidentemente, e nao, mas acreditamos muito que, se os seis gulches forem observados muitas vezes, em media os seis resultados possfveis ocorrerao com frequencies praticamente iguais. Se isso nao acontecer, devemos suspeitar que urn outro fator esteja intervindo no que observarnos A simetria, embora passive] de definicao de urn modo positivo, em muitos casos e, em essencia, urn fato negativo: 0 fato de nao haver diferenca conhecida ou observavel. Se 0 resultado do nosso experimento demonstra alguma inconsistencia, tal como urn resultado obtido com maior frequencia na observacao de urn guiche do que em outro, acreditamos que i880 se deve a uma causa orientadora para aquele resultado e concluimos que nao hi uma simetria, base do modelo, ou que h6. urn problema durante a realizacao da observacao.
"A hora do perigo. Dos 577 acidentes ocorridos entre 1959 e 1996, em que 0 aviiio foi totalmente destruido, com au sem vitimas, quase dois tercos aconteceram entre a fuse de descida e a de pouso. Veja a porcentagem em coda etapa do va~: 2%, manobra; 14%. decolagem; 17%, subida; 5%, altitude de cruzeiro; 6%, descida; 34%. aproximaciio;
22%. pouso."
"0 erro humano." Entre 1987 e 1996. 'sete entre cada dez: acidentes de jato ocorreram par falha da propria tripulacdo. Veja os motivos principals: 3%, [alha no controle de trdfego; 4%. mau tempo; 6%, falha de manutenciio; 9%. defeito do avido; 72%, erro da tripulaciio; 6%, outros."
probabilidade
a priori
probabilidade
atendendo
a consideracoes
ou regularidade
de resultados
Se a observacao for repetida 1.000 vezes, encontrar dois guiches vazios, por exemplo, podera ocorrer 0, 1, 2, ... 999 au 1.000 vezes. E posstvel ca1cular as probabilidades desses resultados e demonstrar que a fracao de sucessos (no caso, encontrar dois guiche» vazios) em n observas;oes tende a estabilizar-se no valor 1/6 conforme n aumenta indefinidamente. Mas estamos lidando ainda com probabilidades a priori, obtidas a partir de uma classificacao de resultados igualmente provdveis de n observacoes; nao podemos provar matematicamente que as leis da natureza sao as leis da probabilidade matematica, A igualdade efetiva da probabilidade a priori e a frequencia relativa em uma serie extensa de repeticoes sao aspectos confirmados apenas pela experiencia.
"_ Segundo -E dai? Somas cinco. Nossas mulheres estao tendo JUhas ao mesmo tempo. Devemos para a possibilidade de um dos nossos filhos ser chines. a estatistica.
"JO
ilERESIAh!
Pensar que as modelos probabiltsticos iorcarao a natureza a se comportar de ac.ordo com o modelo matemdtico. ..
as estatisticas,
e chines.
nos preparar
- Que absurdo!
- Ii
Capitulo 3 I Probabilidades:
uma iniroduciio
67
primeira
numeros
de Bernouilli} que. se a
e muito
pouco provdvel
efetuarmos
probabilldade
a posteriori pela
probabilidade
estabelecida
ao« grandes
numeros
amedidaque
a lI"mem de repeti,oesde
Um conceito adicional
Existe tambern 0 conceito subjetivo, urna avaliacao pessoal. A probabilidade subjetiva descreve 0 julgarnento de uma pessoa a respeito de quao provavel determinada situacao possa ocorrer. Nao se baseia em calculo preciso, mas pode ser uma avaliacao razoavel de uma pessoa com experiencia, e pessoas diferentes poderao associar probabilidades diferentes pam os mesmos resultados, uma podendo achar que detenninada probabilidade e 0,9 enquanto outra pensa em 0,4.
"0 DNER estimou que 80% dos motoristas nao pagaram suas multas it espera da anistia ." II
Independentemente do conceito utilizado, as pessoas baseiam-se na tentativa de modelagem do comportamento da natureza, representada por modelos construfdos a partir das observacoes. Por mais perfeito que possa parecer; um modelo e sempre uma simplificacdo da realidade. Por exemplo, se perguntassern qual a probabilidade de uma pessoa retirar uma folha de pape! amarelo de urn pacote contendo 500 folhas amarelas, a probabilidade nao seria, obrigatoriamente, igual a I, porque a pessoa poderia morrer segundos antes de retirar a referida folha. "Alguns estudiosos afirmam que 0 maior poder da eiencia eo 'poder de predir;iio " ou seja, 0
poder de saber que vai acontecer o futuro pela logica matemdtica, alguma coisa ( ..). Mas existem diferencas entre conhecer pelo calculo das probabilidades, e conhecer0 futuro pOl' uma misteriosa propriedade da mente humana ." 12
Aprendendo
experiment»
aleat6rio
qualquer processo
de obserl'ar;aoque a vontude em
com a condiriio de
resultado
68
espt1fo omostral
evento elementar
amostral de wn experimento
evento composto
experimento
aleatoric
eventos mutuamente
excludentes
de urn de outro
eventos coletivamente
exaustivos
todos
resultados em causa
experimento
complemento
eventos independentes
aqueles em que
ocorrencia de 11m
informaciio a ou nan de Dutro de urn do outro
Desse modo, diz-se que esse experimento (e tantos quantos sejam realizados), tern cornponentes aleatorias. Em alguns casos, as variacoes aleatorias que ocorrern sao pequenas, comparadas com os objetivos do experimento, e podem ser ignoradas. Entretanto, a variacao esta sempre presente, e sua grandeza pode ser tal que as conclus6es importantes podem niio ser 6bvias e, nesse caso, utiliza-se 0 metoda estatistico para modelar e analisar metodos experimentais. Nos casos em que urn experimento nao e observado, mas realizado em Iaboratorio, nao importa quao cuidadosamente ele e planejado: mesmo assim as variacoes sempre iran ocorrer. Assim sendo, 0 objetivo do calculo das probabilidades e compreender, modelar e quantificar os tipos de variacoes que podem ser encontradas na observacao au na realizacao de experimentos. Quando se incorpora esse conceito de variabilidade ao pensamento e as analises, decide-se melhor a partir dos valores obtidos. Para urn determinado experimento, podemos definir 0 conjunto de todos os resultados que julgamos possfveis. Esse conjunto denomina-se espaco das possibilidades do experimento ou, simplesmente, espaco amostral, denotado pela letra S *, e cada urn dos resultados possfveis e urn elemento do conjunto S. Embora nao se possa prever qual resultado particular ira ocorrer em uma repeticao do experimento, pode-se conhecer 0 conjunto dos resultados possfveis desse experimento; na pratica, nao estamos interessados no espaco amostral, mas apenas em um resultado elementar (apenas urn elemento de S) ou em uma reuniao de resultados e1ementares. 0 resultado elementar denomina-se evento elementar (ou simples), se for apenas urn, ou evento composto, em caso contrario. 0 que desejamos saber, na vida real, sao as probabilidades da ocorrencia de determinado evento, elementar ou nao. Diremos que 0 evento ocorreu em certo experimento se 0 resultado for urn elemento do conjunto que define 0 even to. Se a ocorrencia de urn evento (elementar au composto) impede a ocorrencia de outro evento (tambem elementar ou composto), diz-se que sao eventos mutuamente excludentes. Como con sequencia do fato de os eventos serem rnutuamente excludentes, a probabilidade de eles ocorrerem ao mesmo tempo e igual a zero. Como 0 complemento de um evento A consiste nos resultados do espaco amostral que nao fazem parte do evento A, a probabilidade de ocorrencia do evento contrario, ou complementar de urn evento, e igual a 1 menos a probabilidade do even to considerado. Para eventos coletivamente exaustivos, a soma das probabilidades de ocorrencia de todos os eventos coletivamente exaustivos e igual a 1. Finalmente, os eventos sendo independentes - ou seja, a ocorrencia de urn deles nao influencia a ocorrencia do outro -, a probabilidade de e1es ocorrerem simultaneamente e igual ao produto de suas probabilidades.
Combinando
A fundamentacao matematica
do calculo das probabilidades e obter um valor numerico da possibilidade de ocorrencia de determinado acontecirnento para que seja facilitada a tomada de urna decisao relacionada a ele. Por nao haver concordancia entre os conceitos classico, frequencial e subjetivo, a teoria das probabilidades teve que se basear em urn conjunto de axiomas em que probabilidades sao associadas aos resultados com base no conhecimento da situacao em estudo. Os axiornas asseguram que as probabilidadcs associadas a cada experirnento podem ser interpretadas como frequencias relativas e que as associacoes sao consistentes com a cornpreensao intuitiva do relacionamento entre os resultados favoraveis e os resultados possfveis. Os axiomas facilitam os calculos das probabilidades de ocorrencia de alguns eventos a partir do conhecimento das probabilidades de outros eventos. Os axiomas foram estabelecidos pelo matematico russo Kolrnogorov," e sao os seguintes: Em urn experimento aleat6rio com urn cspayO amostral associado, uma funcao que associ a a cad a resultado urn numero real, representado por Pr(A), e urna junr;iio de probabilidade se satisfaz as seguintes propriedades:
o objetivo
*. Andrei
• Sea
abrcviacao de space. nomenclatura americana, rnantida aqui pm ser a mais usada nos livros que tratam desse assunto. Nicolaievitch Kolmogorov (1903·1987), matematico russo.
Capitulo 3 I Probabilidades:
uma introduciio
69
probabilidade
em um a cada
S, r! uma funciio,
1) para qualquer evento A, 0 ::;Pr(A) ::; 1; 2) a probabilidade do evento certo e a unidade, Pr (espaco amostral) = 1; 3) se os eventos A e B sao incompativeis (mutua mente excludentes), a probabilidade de ocorrencia do evento A au do evento B e a soma da probabilidade de ocorrencia de A com a probabilidade de ocorrencia de B. o prirneiro axioma afirma que se atribui a todo evento do espaco am astral aIgum numero real; no calculo das probabilidades, a escolha dos mimeros a serem associ ados aos resultados poderia ser quaIqucr urna, mas intuitivamente associam-se valores entre 0 e 1. o segundo axioma afirma que ao espaco amostral como urn todo e atribufdo 0 mimero 1 e expressa a ideia de que a probabilidade de urn evento certo e igual a 1. o terceiro axioma caracteriza a possibilidade de simplesmente se somarem probabilidades quando os eventos sao mutuamente excludentes. Os tres axiomas nao necessitam de prova; entretanto, se a teoria resultante e aplicada no mundo real, deve-se mostrar de aIgum modo que os axiomas sao realistas, isto e, apresentarn resultados razoaveis, cornprovados pelo conceito freqiiencial de probabilidade. Os axiomas nao dizem como atribuir probabilidades aos varies resultados de urn experimento; apenas restringem as maneiras pelas quais isto pode ser feito. Na pratica, as probabilidades sao atribufdas com base nas estimativas obtidas de experiencias passadas, em urn estudo cuidadoso a respeito do experimento ou em suposicoes de que os varies resultados mantern a mesma probabilidade. Em muitas situacoes, a estimativa da probabilidade de urn evento e atualizada com base em uma informacao adicional, antes provavel, mas agora certa, devendo 0 espa~o amostral ser atualizado com base nessa nova informaeao. A definicao de probabilidade condicional pode ser reescrita para fornecer uma expressao geral para a probabilidade de ocorrencia sirnultanea de dois eventos. A probabilidade da ocorrencia simultanea de dois eventos A e B, Pr(A e B) , e igual a:
1) probabilidade de A vezes a probabilidade de B, se A ocorreu primeiro, Pr(A e B) = Pr(A) x Pr(B IA): ou 2) probabilidade
eventos nao-elementares
Se os eventos A e B forem independentes, Pr(A I 8) = Pr(A) (porque independe do resultado de 8) e Pr(B IA) = Pr(B); nesse caso, Pr(iJ. e 8) = Pr(A) x Pr(B). Esta e a propriedade multiplicativa das probabilidades. Pode-se deduzir de (1) e (2) que a probabilidade de A tendo ocorrido B e dada por
Pr(A
I B) =
Pr(A e B) Pr(B)
e dada
por
de um
elJento
A, tendo ocorrido
urn evenlo B.
e denotada
desde que Pr(A) e Pr(B) sejam diferentes de zero (0 que bilidade condicional, Se A e B sao independentes,
Pr(B
I
e 6bvio).
Esta
e a definicao
de proba-
p(}r
= PCB) ,
A probabilidade de ocorrencia de dois eventos, A e B, em que A ocorre ou B ocorre ou ambos ocorrem, e igual it soma da probabilidade de A com a probabilidade de B, menos a probabilidadc da ocorrencia de ambos. A denominada propriedade aditiva das probabilidades e a seguinte: Pr(A ou B) = Pr(A) + Pr(B) - Pr(A e B) = Pr(A) + Pr(B) - Pr(A) x Pre B IA) = Pr(A) + Pr(B)
- Pr(B) x Pr(A I B).
= Pr(A)
* U-se
deA na certeza da B.
70
• Exercicio-exemplo 3.2
Para ilustrar as propriedades, tern-se 0 problema de calcular a confiabilidade de urn conjunto de equipamentos, especificamente os chamados sistemas serie-paralelo, nos quais os eventos de falha dos equipamentos sao considerados mutuamcntc independentes com a finalidade de simplificar os calculos matematicos, Urn sistema em serie e aquele no qual todos os componentes sao de tal modo inter-relacionados que 0 sistema inteiro falhara se qualquer urn dos componentes falhar (Figura 3.1). Urn sistema em paralelo (ou redundante) e aquele que falhara somente se todos os componentes falharem (Figura 3.2).
de cada de cada
=(><>0=
c=O=~
:l:~l
a e
3.2b poderia ter sido resolvido tambern pelo evento complementar, porque a probabilidade de 0 sistema funcionar e igual a 1 menos a probabilidade de de falhar; mas o sistema falha quando ambos os componentes falham, ou seja, falha 0 primeiro e falha 0 segundo. Daf que a probabilidade de nao falhar e igual a: I - (l - 0,9) x (1 - 0,9) = 99%.
Exercicio-exemplo 3.3
Em uma linha de producao de placas para circuitos eletronicos sabe-se, a partir de registros historicos, que 5% das placas nao satisfazem as especificacoes quanto ao comprimento e 3% nao satisfazem quanto 11. largura. Considerando que os cortes no comprimento e na largura sao feitos por maquinas diferentes, ou seja, sao independentes, determine: a. a probabilidade de se selecionar urna placa totalrnente conforme (ou seja, que satisfaca a ambas as especificacoes); b. a proporcao de placas que nao satisfaz a pelo menos uma especificacso; c. a proporcao de placas que nao satisfazern as especificacoes de comprimento e de largura; d. a probabilidade de urn material nao-conforme, sabendo-sc que, se e nao-conforme quanto ao cornpri mento feito pelas maquinas responsaveis pelo corte nas rnedidas, a probabilidade de ser nac-conforrne quanta largura 60%; e. se, no item (a), os eventos podem ser considerados mutuamente excludentes; f. descreva dois eventos deste exemplo que sejam mutuarnente excludentcs.
a Exercfcio-exemplo
exenkios
dos
Se urn experimento e tal que possa ser tratado em fases, uma em seguida a outra, a listagem dos resultados pode ser consideravelmente simplificada se descrita por urn grafico denominado drvore de probabilidades ou diagrama em drvore.
71
Quando um espaco amostral pode ser escrito em diversas etapas, representa-se cada um dos n, caminhos para completar a primeira etapa como 0 galho de uma arvore, Cada uma das maneiras de se completar a segunda etapa pode ser representada como n2 caminhos comecando a partir do final dos galhos originais, e assim sucessivamente, Por exemplo, uma mensagem em urn sistema de cornunicacoes digital pode ser recebida a tempo ou nao. Se tres mensagens sao recebidas, a Figura 3.5 ilustra 0 diagrama em arvore que representa 0 espaco amostral dos resultados possfveis, Figura 3.5 Arvore de probabilidades (diagrama em drvore).
Mensagem 1-.·.- ..-·.- ..-,,.-·-----@
._..- ..()
Mensagem 2
()
--.-
Cada fase de uma experiencia de varias fases tem tantos ramos quantas possibilidades existem naquela fase. No casu da Figura 3.5, ha dois diferentes na primeira fase e dois ramos secundarios em cada uma das segundas fases. 0 rnimero total de rarnos terminais na arvore fornece 0 mimero total de resultados possiveis na experiencia composta e, por essa razilu, os pontos terminais daqueles ramos podem ser tratados como pontos amostrais do espaco amostral correspondente ao experimento. Se existem varias fases para urn experimento e varias possibilidades em cada fase, a arvore associada com 0 experimento tornar-se-ia muito grande para ser rnanuseada. Em tais problemas, a contagem dos pontos arnostrais e simplificada por meio de formulas algebricas: considere urn experimento com duas fases para a qual existem r possibilidades na primeira fase e s possibilidades na segunda fase, correspondentes a cada uma das possibilidades do primeiro. A arvore, para representar esse experimento, tem r ramos primaries e s ramos secundarios saindo de cada urn dos r ramos; conseqtientemente, 0 mimero de ramos tenninais e rs. Se uma terceira fase com t possibilidades fosse adicionada, 0 total seria rst. Isto pode ser estendido a qualquer numero de fases,
Considerando
mais detalhadamente
informaciies
adicionais
Em algumas analises de decisao, a informacao probabilfstica pode ser obtida de mais de uma fonte, sendo interessante combinar a probabilidade ja conhecida com uma nova informacao adicional. As probabilidades subjetivas ou as frequencias relativas (obtidas a partir de uma amostra) sao 0 grau de crenca do tomador de decisao a respeito daprovavelmente verdadeira probabi[idade- desses eventos. Nessa situacao, e possivel rnodificar as probabilidades a priori com base na nova inforrnacao, atualizando as probabilidades. Para esse desenvolvimento sao necessarios tres elementos. 0 primeiro e a distribuicao a priori, au seja, a informacao existente antes que novas informacoes tornem-se disponfveis; por exernplo, uma empresa decide lancar no mercado urn novo produto e faz uma pesquisa de mercado para confirmar (ou nao) 0 que a empresa imagina ser a sua fatia do mercado a priori. o segundo e a informacao adicional, que pode ser 0 resultado da pesquisa de mercado; esse dado denornina-se informaciio da provavelmente verdadeira probabilidade, urn conjunto de probabilidades condicionais. As probabilidades obtidas sao aquelas que ocorrem com base nos valores iniciais das participacoes no mercado. Deve-se enfatizar que os valores das provavelmente verdadeiras probabilidades sao probabilidades condicionais. o terceiro vern a ser a formula usada para ca1cular as probabilidades que combinam as probabilidades a priori com as provavelmente verdadeiras probabilidades condicionais,
• Traducao, neste livro, de likelihood.
72
Capitulo
3 I Probabilidades:
uma introducdo
Exemplificando a identificacao dos tres elementos: 0 diretor de uma empresa imagina que um problema esta sendo causado ou pelo departamento de vendas (E]) ou pelo departamento de producao (E2). Antes de consultar qualquer pessoa, esse diretor arbitra, por sua experiencia, que a chance de ser problema de vendas e de 80%, e de producao apenas 20%; essas sao as probabilidades a priori dele. Para rnelhorar a estimativa, 0 diretor resolve obter mais uma opiniao, Consulta entao urn assessor, 0 qual responde que 0 problema e E]; 0 diretor acredita que 0 seu assessor conhece bern 0 assunto e teria chance de 90% de estar correto, Essa probabilidade e condicional porque as probabilidades condicionais sao as provavelmente verdadeiras probabilidades do diretor quanto it capacidade do seu assessor de idcntificar corretamente 0 problema. 0 diretor pode basear a sua opiniao na capacidade do assessor com base nas informacoes que 0 assessor ja deu a respeito de problemas sernelhantes: Pr(assessor responder E] quando E]
90%.
e verdadeiro)
e verdadeiro)
Por outro lado, 0 dire tor sente que, se 0 problema e E], mas com uma chance de apenas 30%:
eE
2,
Pr(assessor responder EI quando E2 e verdadeiro) = Pr(assessor responder E, I E2 e verdadeiro) = 30%. Com essas informacoes, 0 diretor consegue calcular a probabilidade de ser E1 quando 0 assessor responde £]' assim como a probabilidadc de ser E2 quando 0 assessor tambem responde E]. Entao se calcula a probabilidade de ser E1 quando 0 assessor responde que e £] ponderando-se as probabilidades a priori pelas probabilidades condicionais da capacidade do assessor de identificar corretarnente 0 problema. Para revisar a probabilidade a priori de EI' a situacao favoravel ao diretor e aquela em que 0 problema c E] eo assessor diz realmente que e E t: As situacoes possfveis de ocorrer sao 0 assessor dizer EI, mas 0 problema ser causado por E, au por E2• 0 fato de 0 assessor dizer que e E] nao garante que e E], porque pode ser tambern E2, aU seja, [o assessor diz E] eo problema e E]] ou [0 assessor diz E] eo problema e E21. Com a notacao da probabilidade condicional, a situacao favoravel ao diretor e dada por:
Pr(ser E]) x Pr(assessor
e a situacjlo possfvel
e dada
Pr(ser E1) x Pr(assessor dizer £]' sendo E]) + Preser E) x Pr(assessor dizer EI' sendo E2) 0,8 x 0,9 + 0,2 x 0,3 = 0,72 + 0,06 = 78%. Finalmente,
Prtses E[
I assessor diz
E])
e E]
E]
assessor diz E] e
E)
1
problema eEl on
Pr(ser E I dizer E )
] 1
= - __ ..... -_
Pr(E)x
I
Pr(E
Pr(dizE
.]
) x Pr(diz Elser
2
]]
[ser E )+Pr(E
]. . ]
)xPr(dizE
IserE) 2
--
= 92,3%
e a Pr(ser E21 dizer E]) = 7,7%. Os eventos E1 e E2 sao exaustivos e mutuamente excludentes, e as probabilidades cncontradas denorninarn-se probabilidades a posteriori. Se 0 diretor consultar urn segundo assessor para uma opiniao a respeito, as probabilidades a posteriori da primeira iteracao tornam-se as probabilidades a priori da segunda iteracao, e assim sucessivamente. Pode-se estender esse racioclnio para 0 seguinte caso: considerem-se BI' B2, B3, .. _ Bk eventos mutuamente excludentes e exaustivos de um espaco amostral S e seja E urn evento associado a S. Com 0 raciocinio do exemplo e aplicando-se a expressao de probabilidades condicionais, Pr(BJ I E)
= k Pr(Bj) x Pr(E
I Bj) IB )
,
I, Pr(B) i=l
x Pr(E
L
73 e e
Essa expressao conhecida como teorema de Bayes, 14 que permite calcular probabilidades que tern direciio contrdria de proporcionalidade a partir das probabilidades que se conhece. Alem disso, 0 teorema de Bayes util na analise de decisoes, a qual necessita dessa inforrnacao probabilfstica em uma forma diferente daquela que naturalmente ocorre, onde 0 naturalmente ocorre significa a maneira mais facil de coletar ou avaliar dados nas probabilidades condicionais.
Interpretaciies
e determinaciio
de probabilidades
A teoria moderna define probabilidade como urn mimero que satisfaz a uma serie de postulados, mas nao fomece indicacao de como se obtcr esse mimero: apenas estabelece as regras que devernos obedeeer ao manipulannos as probabilidades obtidas. Em consequencia, hA duas grandes correntes a respeito do problema da determinacao da probabiIidade. A escola objetivista ou freqiiencialista considera que a probabilidade 56 pode ser obtida por meio das frequencies relativas e, portanto, somente c aplicavel a situacoes em que a experiencia pode ser repetida varias vezes, sob as mesmas condicoes. Fica portanto exc1uida, para os frequencialistas, uma grande classe de problemas em que nao e possivel falar em frequencia relativa. Por exemplo, para os freqilencialistas nao ha sentido em perguntar qual a probabilidade de 0 homem ir a Marte nos proximos cinco anos, A escola subjetivista ou personalista considera a probabilidade como a medida da crenca de uma pessoa racional em uma dada proposicao. Diferentes indivfduos racionais podem ter graus diferentes de cren~a, mesmo em face da mesma evidencia - e, portanto, as probabilidades pessoais para 0 mesmo acontecimento podem ser diferentes, porque as informacoes de que dispoem podem ser diferentes. Urn subjetivista apJica 0 conceito de probabilidade a todos os problemas considerados freqiiencialista, e a muitos outros mais, como a viagem a Marte, por exemplo. pelo
que vamos tendo mais observacoes, podemos ir revendo a nossa avaliacao da probabilidade de uma situacao em face de novas informacoes. Assim e que, no caso de haver frequencias relativas disponiveis, baseadas em urn mimero grande de observacoes semelhantes, a avalia~ao subjetiva tende a se igualar avaliacao frequencialista,
A medida
A definicao classica, quando admite que todos os casos possiveis sao igualmente provaveis, pode ser filiada, de certo modo, it corrente subjetivista. Ao afirmarmos que encontrar qualquer numero de gulches vazios igualmente provavel, estamos manifestando a nossa crenca de que isso verdade. Para urn verdadeiro freqliencialista, deveriamos observar 0 resultado de milhares de observacoes para comprovar se isso is real.
Expressando
X associa
varfflvel aleauiria
em urn espa,o
0
eo conjunto
conjunto de
Represente-se por X esse valor numerico, cujo valor depende do resultado da experiencia: como urn resultado a urn mimero, Xc umafun(do cujo dominic de definicao e 0 eonjunto de resultados e cuja imagem 0 conjunto dos ntimeros reais. X definido no espaco amostral associado experiencia ffsica na qual 0 resultado de qualquer prova incerto e, por essa razao, dependente do aeaso. Essa funcao X conhecida pelo nome de varidvel aleatoria:' Isso equivaIe a descrever os resultados de urn experimento aleatorio por meio de mimeros em vez de palavras, possibilitando mais facil tratamento maternatico.
de numeros reais
Desse modo, no calculo de probabilidades estudam-se as variaveis aleat6rias e calculam-se as probabilidades associadas a elas, e uma medida de probabilidade associada ao espaco amostral par meio da varia vel aleatoria X; essa medida pode ser urn nt1mero, uma area ou mesrno urn volume.
di>;tribuiriiQ de probabilidade
possibilidades e suas de ocorrencia
Assim como, na Estatfstica Descritiva, se construiu uma tabela de frequencias sem perda de informacao, na qual uma frequencia absoluta (e tambem uma frequencia reIativa) associ ada a cada valor, pode-se fazer 0 mesmo com relacao ao calculo das probabilidades, originando uma tabela que associa a cada valor a sua probabilidade de ocorrencia, tabela denominada distribuifao de probabilidade.
aleatoric
* Embora universalrnente aceita, a expressao aleatoric, mas nile 0(') valories) dessafuncao,
nao e adequada, porquc X nao e variavcl c sim umaj"",ao; Ve-se que nao e nem variavel, nem uleatoria,
74
Capitulo 3 I Probabilidades:
uma introduciio
Para se construir uma tabela de distribuicao de probabilidades, considere 0 seguinte exernplo: urn equipamento tern 80% de chance de ser reprovado em urn teste e, em urn experimento, tres equipamentos sao testados. Supondo que cada equipamento e independente do outro, estabele«a a distribuicao de probabilidade do mimero X de equipamentos que sao reprovados. Associandose cada resultado a urn determinado numero, observe a Tabela 3.3, na qual R significa equipamento reprovado e A, aprovado. Tabela 3.3 Resulrados dos testes em 3 equipamentos.
Resultado elemeutar
x
3
2
RRR
RRA RAR
2
2
AAA
o mimeto 3 e associado ao resultado RRR. Como existe uma chance de 80% de 0 equipamento ser reprovado em cada teste (considerados independentes), entao 0,8 x 0,8 x 0,8 = 51,2% e a probabilidade de ocorrerem tres reprovacoes. Calculando-se dessa maneira, cada urn dos oito resultados elernentares tern as probabilidades de ocorrencia mostradas na Tabela 3.4.
Tabela 3.4 Probabilidades dos resultados dos testes.
Resultado elementar RRR RRA RAR
ARR
----~----
X 3 2 2 2 1 1
1
Probabilidade 0,8xO,8xO,8=O,51 2=5 1,2% 0.8xO.8xO,2=O.128= 12,8% -.--- ... ~-.-- -.... 0.8><0,2xO.8=O.128=12.8% 0,2><0.8,,0.8=0,128=12,8% 0,8XO.2XO,2=O,032=3,2% 0,2><0,8xO,2=O,032=3,2% 0,2xO.2,,0,8=O,032=3,2% 0,2><0,2xO,2=O,008=O,8%
--~--
A partir desses resultados, determina-se a distribuicao de probabilidades da variavel aleat6ria X, mimero de equiparnentos defeituosos reprovados no teste (Tabela 3.5). (Observemos que X = I equivale a ter 1 equipamento reprovado), evento composto de tres eventos elementares mutuarnente excludentes [RAA, ARA e AAR].) Tabela 3.5 Distribuicao de probabilidades da varidvel aleatoria X.
°
2
3 Total
=1
Ap6s terem-se visto os resultados, os valores nurnericos da variavel aleat6ria sao denotados por letras minusculas, xI' x2' x3' ... , xn' Desse modo, para uma variavel aleat6ria X, que assume valores xl' Xl e assim por diante, uma funcao de probabilidade Pr(x,) tern as seguintes propriedades:
a. p(x.) ~ 0 para todo i, onde p(xj)
= P(X
"" Xi),
i = 1,2, ...
b.
Lpora
todo i
Prix) '"
1.
Se a distribuicao de probabilidades de urna variavel aleat6ria e explicitamente conhecida, entao todo 0 resumo estatfstico (por exemplo, media e desvio padrao) tambem sera conhecido.
Capitulo 3 / Probabilidades:
uma introduciio
75
Na Estatistica Descritiva, tambem se construiu uma tabela de freqiiencias com perda de informacae, na qual uma frequencia absoluta (e tarnbem uma freqtiencia relativa) e associada a cad a classe. Ao se fazer 0 mesmo com relacao a urn intervale de valores e suas probabilidades, origina-se uma tabela que associa a cada intervalo a sua probabilidade de ocorrencia. Como agora 0 numero de intervalos depende da amplitude de cada urn deles. a tabela nao e mais tinica, diferentemente da distribuicao de probabilidade, em que cada valor era perfeitamente caracterizado. Mesmo que se saiba que os valores originais sao finitos, ao se coloca-los em urn intervalo considera-se que esse intervalo possa conter infinitos valores, Para essas variaveis aleatorias, tendo em vista que 0 total de valores que a variavel aleatoria pode assumir e infinito, i distribuioao de probabilidade e geralmente expressa como uma funcao matematica, usada par determinar a probabilidade de a variavel aleat6ria estar entre certos limites.
Classes
70
9)
l<"reqiiencia absoluta
9)
111-
110
I1I
1-
130 ISO
170 190 210
2 3 Ii 14
22
17 10
230 Total
II-
230
250
4
2
80
Figura 3.6 Histograma da Tabela 3.6, com amplitude de classe igual a 20.
25--<
70a
90
I 90.
110
l11aaj~;~o
130
150
1150~T;7~~~r;~;~f;;~~aI230al
170 190 210 230 250 CL..A.SSES
Como, na construcao da tabela de frequencias, 0 mimero de classes e escolhido por quem a faz, poder-se-ia ter tambem a Tabela 3.7, na qual a amplitude de cada classe e 10, em vez de 20, com o correspondente histograma da Figura 3.7. Tabela 3.7 Tabela de frequencias com amplitude de classe igual a 10.
-----
Classes _____
70
-+-_F_re_:q:__iii,ncia bsolllta a
so
<;0
11-
so
100
110
so
2
100 110
II11-
120
130 140
120 130
140 ISO Iff) 170 180 190 ZOO 210 220
230
3
3
I1-
6 8
12
11-
II
11-
10 10 7
6 4 1
210
220
I11-
240
250
3 I I 80
---- -
76
Figura 3.7 Histograma da Tabela 3.7 com amplitude de classe igual a 10.
Capitulo 3 I Probabilidades:
uma introduciio
CLAsses
Se a amplitude do intervalo de classe for 40, tem-se a Tabela 3.8 e a Figura 3.8.
Tabela 3.8
Classes
Freqiicncia absoluta
110
70
110 I-
150
I\()
tII-
2..'10
270
5 20 39 14
2
80
Histograma
~ 40-
630_ OJ
..
CD
=>
z: ,=>
.Uj
« : 020...,
10--_
: :
'
g
a::
...
Pode-se observar que, embora provenientes dos mesmos dados originals, os histogramas mostram diversos modos de aprcsentacao das observacoes porque, dependendo da amplitude do intervalo de classe, os intervalos de classes sao diferentes. Mesrno que a esc ala vertical fosse a de freqliencias relativas, 0 aspecto do histograma permaneceria 0 mesmo, ja que haveria apenas uma mudanca de escala. Para evitar que 0 aspecto das frequencias relativas leve a uma distorcao quando da leitura delas como alturas do retangulo do bistograrna, ja que sao dependentes da amplitude do intervalo de classe, modifica-se 0 histograma tal que, em vez de 0 eixo vertical ser a frequencia relativa de determinado intervalo de classe (e, em ultima analise, a sua probabilidade de ocorrencia), esta probabilidade passe a ser a area da coluna do histograma referente aquele intervalo, conforme a Figura 3.9. Figura 3.9 Freqiiencia relativa como area do histograma.
....>" •• ~~."
AMPLITUDE DE CLASSE
Com esse raciocinio para todas as classes, a area total do histograma sera igual a 1 (equivale a que a probabilidade do espa90 amostral seja 1) e qualquer area entre dois pontos quaisquer e a area dos retangulos entre os pontos que os limitam. Para que a area do histograma represente uma frequencia relativa, deve-se entao determinar a altura do rctangulo cuja base e a amplitude de classe.
Capitulo 3 I Probabilidades:
uma introducdo
77
Ve-se que: area do retangulo = base x altura freqilencia relativa = amplitude de classe x altura Dafque altura = freqUencia relativa amplitude de classe
Por esse motive, no eixo vertical se marca nao a frequencia relativa, mas valor da frequencia relativa dividida pelo intervalo de classe, denorninado densidade de freqiiencia relativa. Para provar, no caso geral, que a area total (todas as frequencias relativas) e sempre 1, primeiro obtem-se para cada c1asse: frequencia relativa = (densidade de freqliencia relativa) x (amplitude de classe)
= (altura daquela classe do histograma) x (amplitude de classe)
= area da coluna do histograma para aquela classe Somando as colunas relativas a todas as classes: :E frequencies relativas = area total do histograma. Como a soma das frequencias relativas e 1, provou-se que a area total do histograma e igual a 1. Quando a amplitude do intervale de classe, denominada LU, vai diminuindo, ate tornar-se infinitesimal, a parte superior do histograrna tende para uma curva continua, e a altura do histograma tende a ser 0 valor y = f(x) dessa curva. Assim sendo, deve-se tomar cuidado e perceber que fix) NAO Ii probabllidade! Nesse caso de variaveis aleat6rias contfnuas, tem-se umafum;:ao densidade de probabilidade, uma funcao matematica jix), com uma equacao que a caracteriza e urn grafico que a representa, e que, integrada entre dois limites, fomeee a area abaixo da curva e entre esses limites.iarea essa que tern 0 mesmo valor da probabilidade de a varia vel aleatoria estar entre aqueles Iimites.
Considerar iix), afu",;{io densidade de probabslidad ... como undo uma probobilidade,
Figura 3.10
((xi
..J
I
x
dx
Abstrafdas as limitacoes praticas referentes it precisao de medida dos dados, temos uma variavel que pode assumir uma infinidade de valores em determinado intervalo. Assim sendo, a probabilidade correspondente a cada valor possfvel individualmente considerado passa a ser zero. Conseqiienternente, no caso dessas variaveis, somente terao interesse as probabilidades de que a variavel aleat6ria assuma valores em determinados intervalos, Fazendo uma analogia com a ffsica, e como a distribuicao de massa de uma barra de ferro, na qual cada ponto tern massa teoricamente inexistente. 0 que se pode obter e a massa de urn determinado comprimento da barra." Assirn sendo, para uma varia vel aleatoria x que assume quaisquer valores, uma funcao de densidade de probabilidade, j(x), tern as seguintes propriedades: a.
h
f (x);:::
0 para todo x
f(x)dx=
c. P(a'5: x '5: b)
J
a
J(x)dx
78
Capitulo 3 I Probabilidades:
uma introducdo
e,
A primeira propriedade decorre do fato de nao haver probabilidade negativa. A segunda indica que a soma de todas as probabilidades que uma variavel aleat6ria pode assumir e igual a I. A terceira propriedade, que pode ser considerada como decorrente da segunda, diz que a probabilidade da variavel aleat6ria entre dois pontos e iguaJ a area sob a curva representativa dessa funcao e entre esses dois pontos. Interpretada geometricamente, essa propriedade estabelece que a probabilidade correspondente a urn intervalo sera dada pela area determinada par esse intervalo sob a gn'ifico da funcao.
Diz-se que uma variavel aleatoria e discreta se todos os seus valores podem ser listados, pertencendo a urn conjunto finito ou infinito enumeravel. Uma variavel aleat6ria e continua se os seus valores nao podem ser listados, mas podem assumir urn numero infinito de valores em urn intervale finito ou infinito. Estamos dizendo essencialmente que X e uma variavel aleatoria contfnua se X puder tamar todos os valores em urn deterrninado intervale (a, b), onde a e h podem ser _00 e +00. Note-se que, enquanto a area dos retangulos dos histogram as permanece constante, independentemente da amplitude do intervalo de ciasse, 0 mesmo niio acontece com as linhas superiores dos mesmos retangulos. Esta envoltoria caracterizaria a forma da funciio fix), para 0 mesmo problema original que deve ser modelado por uma unica' funcao densidade de probabilidade. Entretanto, essa variacao nao ocorre com a funcao de distribuicao acumulada, au seja, a area desde 0 primeiro valor da variavel aleatoria ate determinado ponto e a mesma, independentemente dos intervalos das divisoes das classes anteriores, 0 quc caracteriza uma tinica distribuicao acumulada. Como a funcao de distribuicao acumulada para as variaveis aleatorias e semelhante it frequencia acumulada abaixo de, vista na Estatfstica Descritiva, pode-se comprovar que, embora as Tabelas 3,6, 3.7 e 3.8 tenham diferentes amplitudes de intervalo de classe, as frequencias acurnuladas para cada uma delas sao iguais para urn determinado valor; par exemplo, a probabilidade acumulada de 70 ate ISO e sempre igual a 25, independentemente de se calcular por uma ou outra das tabelas, A funcao de distribuicao acumulada (jdc), tambem chamadafunqao de distribuicao e representada por F(x), e a probabilidade de a variavel aleat6ria X assumir valores menores au iguais a x, au seja:
F(x) = Pr(X 5 x).
e a seguinte:
para x, ? x,
quando X assume os valores xl' x2 e assim por diante. Para uma variavel aleat6ria continua, a funcao de distribuicao de probabilidade F(x) e a seguinte:
F(x) = Pr(X:;; x) -=
-00
a. h. c.
F(x)
e uma
funcao nac-decrescente
=1
=0
lim
F(x)
Como a funcao acumulada e a integral da funcao densidade de probabilidade ate x, tem-se que, ao se derivar a fun~ao de distribuicao acumulada, chega-se, finalrnente, il. funcao densidade de probabilidade, ou seja:
lex)
= -F(x)
dx
e zero
Capitulo
3 I Probabilidades:
uma introductio
79
Determinaciia de uma medida de tendencia central e uma medida de dispersiio no cdlculo das probabilidades
Assim como na Estatfstica Dcscritiva os dados brutos eram caracterizados por sua media aritmetica e seu desvio padrao, 0 mesmo ocorre com as distribuicoes de probabilidade, onde as medidas mais importantes tambem silo a media aritmetica e 0 desvio padrao,
valor esperado
Como uma distribuicao de probabilidades e semelhante a uma distribuicao de frequencias sem perda de informacao, 0 calculo do seu valor esperado e semelhante aD calculo da media aritmetica ponderada. No caso discreto, esta e a seguinte:
n
= _~_I_f._,X_, = _x.:_:Jc..:II_+_x.::.;d,-,2::..._+_
if.
••_._+_x-"n.:_f._,,_o
!f;
pode ser relacionada
t.r,
i=1
xJn
Como
a probabilidade
"
L Xi Pi
.1",,1
E(X),
Em suma, 0 valor esperado, ou esperanca maternatica, ou media 11, de uma distribuicao de probabilidades da varia vel aleat6ria X e dado por: a.
j1
= E(X)
pi todoi
00
LX'
p(x ) se X
i
1
e discreta,
h. J1
= E(X)
J X·
f(x)·
dx se X e continua, onde
dade de probabilidade.
• Exercicio-exemplo 3.4
Usualrnente, somos abordados por vendedores de assinaturas de revistas que nos of ere cern urn exemplar gratis como motlvacao para que nos tomemos assinantes. A editora tern uma ideia do mimero de pessoas que assinarn a revista ap6s receberem urn mimero gratis e consegue montar uma fun~iio de distribuicao de probabilidades de X, a percentagem de novas assinaturas, De cada 100 assinaturas, 60% provern dos aeroportos, 30% de congresses e 10% de estacoes de metro. Como ern cada um desses locais 0 mimero de pessoas abordadas varia, anotou-se a produtividade desse sistema, ou seja, a relacao entre 0 numero de novas assinaturas e 0 numero de pessoas abordadas e que retiveram 0 exemplar; oeste exercfcio-exemplo, foram 40%.70% e 20%, respectivamente. 0 custo de doar uma revista a uma pessoa e de R$I,57, ao pas so que uma assinatura feita gera um lucro de R$3.42. Determine 0 valor esperado do lucro lfquido por assinatura pela utilizacao desse sistema de vendas.
o teorema de Bernoullli e as loterias. E praticamente certo poder esperar que a frequenciu relativa de urn evento E em lima serie de repeticoes independentes com probabilidade constante p sera muito poueo diferente dessa probabilidade, considerando-se urn rnimero de repeticoes suficientemente grande.
Desse modo, quando a probabilidade de ocorrencia do evento e muito perto de zero au muito perto de 1 motiva-se para 0 estudo de apostas ern loterias. Quem tentou ganhar urn prernio da Loteria Federal comprando apenas urn bilhete des 100.000 postos a venda sabe, por experiencia propria, que e virtualmente impossfvel ganhar. Mas a certeza da impossibilidade seria ainda maior se alguem tentasse ganhar comprando urn bi lhete de 200.000 postos a venda, "Sorte grande. 16 Grupo de operdrios ganha loto de US$296 milhoes. A chance de acertar nessa sorte grande era de uma em 80 milhiies. 0 grau de dijiculdade If mais bem-entendido se comparado a possibilidade de morrer caindo da cama, que If uma em 2 milhiies. " "Deus me ajudou. Ganhei 24 mil vezes na Joteria (0 ex-deputado menlo em /993). ,,17 ... , ao depor na CPl do Ort;a-
80
Capitulo
3/ Probabllldades:
uma introducdo
Urn dos casos nos quais as condicoes do teorerna de Bernouilli sao satisfeitas e aquele dos jogos de azar, termo aplicado para qualquer situacao na qual pode haver lucro ou prejufzo para urna das partes, dependendo de serem conhecidas as chances, ou probabilidades, de ganho ou de perdu,
p; ou pode perder uma outra quantidade
pode ganhar urna certa quanti dade de dinheiroA com urna probabiJidade B com a probabilidade 1- p. Observe que, ao cornprar urn bilhete de lorena ou jogar, voce ja esta perdendo essa quantidade B de dmheiro, Se 0 jogo e repetido inumeras vezes sob as rnesrnas condicoes, urna pergunta que surge e referente probabilidade de uma pessoa ganhar ou perder urna quanti dade de dinheiro acima de deterrninado valor.
Em urna loteria,
0 jogador
ao jogador somente se 0 valor esperado do seu ganho (a sua esperance maternatiea) e positi va, e desfavoravel se negati va: no caso de ser zero, nenhuma das partes tern vantagens, e 0 jogo e chamado justo; usualmente, os jogos de salao sao justos, Ao contrario, os jcgos de finalidade comercial sao feitos expressamente para serem lucrativos para as organizacoes: isto e, a esperanca matematica da administradora de urn jogo com fins lucrativos e positiva em cada rodada do jogo e, obviarnente, a expectativa de qualquer pe~soa que jogue negativa. Isso confirma a observacao cornum de que aqueles jogadores que continuam a jogar urn grande mlmero de vezes saem arruinados, Ao mesmo tempo, a teoria concorda com 0 fato de que grandes lucros sao obtidos pel os adrninistradores de cassin os.
Um bom excmplo e a raspadinha, um ernpreendimento rnuito lucrative operado por varias empresus e pelos govemos. 0 apostador compra urn cartao ondc estao areas a serem descobertas, Dependendo da combinacao de itens encontrados, ele ganha determinado prernio,
Exercicio-exemplo 3.5
Determine 0 valor esperado de uma ruspadinha que custa R$l ,00 com emissao de cinco series de 1.000,000 de bilhetes cada, prevista a distribuicao de 975.630 bilhetes premiados, como discriminarnos a seguir: • 5 automoveis no valor de R$15.000,00 cada; • 125 bicicletas de 18 marchas no valor de R$150.00 cada; • 1.500 premios de R$IOO,OO; • 9,000 premios de R$20,OO; • 65.000 premios de R$I 0,00; • 100.000 premios de R$4,OO; • 350.000 premios de R$2,OO; • 450.000 bilhetes gratis de outra raspadinha,
Par outro lado, a esperanca do administrador e sernpre positiva, e por causa do grande mirncro de pessoas que tomam parte nessa loteria 0 mimero de apostas feitas e enorme, assegurando urn consideravel lucro estavel.
"Na verdade, as suaS chances de ganhar na Megassena silo sempre iguais, quer voce jogue ou ndo. "IS
Esse e urn exemplo que se refere a apostas comuns no Brasil, mas 0 mesmo princfpio e valido para as instituicoes que tern grande valor para 0 publico, como as companhias de segura; estas garantem 0 lucro, sempre reservando determinadas vantagens para si.
Com a calculadora HP 48G Este procedirnento usa duas listas: uma que contem os valores e outra que contem a probabilidade de cada valor. A probabilidade na celula 1 da segunda lista e relativa ao valor na celula 1 da primeira lista etc. As duas listas devem conter a mesma quantidade de dados; caso contrario, aparece uma mensagern de erro: • passo 1.- insira as dados em duas colunas em LDAT, a primeira com os valores e a segunda com as probabilidades, respectivamente; • passo 2: aperte as teclas verde e [5]; abre-se uma tela com opcoes; • passo 3: escolha Summary stats ... e tecle [F]; • passo 4: marque LXY e aperte a tecla branca [F] (OK); aparece 0 resultado do somat6rio das multiplicacoes; • passo 5: digite 0 total de numeros; tecle [+] eo valor esperado surge. Com a calculadora Casio CFX-9850G19950G Este procedimento usa duas listas: uma que contern os valores e outra que contern as probabilidades de cada valor, A probabilidade do valor da celula 1 na segunda lista e relativa ao valor da celula 1 na prirneira lista etc, As duas listas devem conter a mesma quantidade de dados; caso contrario, aparece uma mensagem de erro: • passo 1.- insira os dados nas duas listas, a primeira com os valores e a segunda com as probabilidades, respectivamente; • passo 2: tecle [MENU] para ir It tela principal; • passo 3: coloque 0 cursor na opcao RUN e tecle [EXE];
Capttulo 3 I Probabilidades:
uma introducao
81
• passo 4: aperte, pel a ordem, as tecIas [OPTN], [F1) (LIST), [F6)(seta para a direita)[F3](Mean)[F6), (seta para a direita), [F6) (seta para a direita) (F1] (List) [1) (se for a Lista 1), tecle L)(localizada acima da tec1a [DEL),[F1)(List) [2] (se for a Lista 2) [)} (fecha parenteses) e [EXE); aparece na tela 0 valor esperado dos valores da Lista I que tern as probabilidades na Lista 2. Com a calculadora Texas TI-83 • passo 1: erie duas listas, a primeira com os val ores (Lista 1) e a segunda (Lista 2) com as probabilidades; • passo 2: tecle [2n,,][STAT](LIST); scolha MATHe digite [3), aparecendo mean; e • passo 3: tecIe [2nd) [1) [,) [2nd] [2) [ENTER). Com o Excel Para 0 calculo do valor esperado, utiliza-se 0 Colar Funciio com os seguintes passos: • passo 1: digite em uma coluna os val orcs para os quais se deseja 0 valor esperado, par exemplo coluna A, de Al ate AS, e na coluna Bas probabilidades respectivas, de BI ate B5; • passo 2: escolha uma celula na qual voce queira colocar 0 resultado desejado, tornandoaativa; • passo 3: clique duas vezes na celula ativa e digite =SOMARPRODUTO(Al:A5;B1 :B5)ISOMA(B I:B5); • passo 4: tecle ENTER e 0 resultado aparece na celula ativa.
com
SOMARPRODUTO no Excel.
"Esses nurneros (... ) podem ate impressionar - mas niio tanto como os que cercam um cidadao comum em Sao Paulo. Durante urn ano, ete terd 1,2 chance em },OOOdebaleroearro ern um dia scm chuva, 1.7 chance em 1.000 de ser assaltado 1',51' morret; },8 chance em 100 de que seja atropelamento. Se nada disso acontecer com esse cidaddo, so bra a certeza estatistica de que alguem teve urn ano pior que 0 dele. ,,'9
o conceito de variancia
Conforme visto, esse pararnetro caracteriza a variabilidade das variaveis aleat6rias. A variancia e calculada, no caso discreto, com raciocinio semelhante ao calculo do valor esperado E(X). A variancia de X, VAR (X) = n L(x; - J1)fi
.::i=::oI
i=l
1:. x .t,
'
.:.:.=::01
1:.2xi J.I Ii
1=1
i=1
1:.1i
'Lfi
.:..'=...:.1
I II fi.
_ i=1
Ifj
i=1
Lx.2P
I
- 2J1 LX
i",,1 i i
f + J1 L P
i=1
2n
o desvio padrao
Reencontrando
Raiz quadrada da variancia e denotado por DP(X) au, simples mente, o, continua tendo a vantagem de ser expresso na mesma unidade de medida da variavel aleat6ria, de forma semelhante a vista na Estatfstica Descritiva.
82
Modelos matemdticos
Capitulo 3 I Probabilidades:
uma introducdo
Tendo conhecido os principais conceitos referentes ao calculo das probabilidades, veremos agora distribuicoes e funcoes densidades de probabilidade que, pela sua importancia, merecem urn estudo especial. Tais distribuicoes partem da pressuposicao de certas hip6teses bern definidas, e como diversas situacoes reais muitas vezes se aproximam dessas prernissas, os model os aqui descritos sao uteis no estudo de tais situacoes.
o primeiro
de muitos: binomial
Observando 0 nosso mundo Uma situacao bastante conhecida e a prova de rmiltipla escolha. Considere uma delas com apenas uma questao do tipo falso-verdadeiro. A probabilidade de alguem ser aprovado, marcando aleatoriamente uma resposta, e de 50%; se acertar uma questao, nota 10. Entretanto, se a prova tiver 50 questoes, tambem do tipo falso-verdadeiro, intuitivamente sente-se que e bern menor a chance de tirar 10, mesmo tendo cada questao as mesmas opcoes por causa do maior mirnero de questoes agora. Quer-se a probabilidade de uma pessoa acertar ao acaso determinado mimero de questoes. Condiciies de aplicariio As situacoes nas quais se pode utilizar esse modelo devem atender a que: a, sao feitas n repeticoes do experimento, onde n e uma constante; b. ha apenas dois resultados possfveis em cada repeticao, arbitrariamente denominados sucesso e insucesso, sem a obrigacao de que urn sucesso seja urn resultado desejavel; c. a probabilidade de urn sucesso (e tambem de urn insucesso) permanece constante de repeti9ao em repeticao; ao sucesso e atribufda a probabilidade p, e ao insucesso, (1 - p); d. as repeticoes sao independentes. No exemplo das provas de multi pIa escolha do tipo falso-verdadeiro, as condicoes se aplicam porque: a. ha 1 ou 50 questoes, com a mesma estrutura na prova; b. sao apenas dois os resultados possfveis em cada repeticao: 0 sucesso e marcar a resposta certa ao acaso e 0 insucesso e marcar a resposta errada; c. como a resposta e marcada ao acaso, ao sucesso e atribufda a probabilidade p '" 0,5 = 50%, e ao insucesso, a probabilidade (l - p) = 0,5 = 50%; essas probabilidades permanecem constantes de questao em questao; d. a resposta de uma questao nao e influenciada pelas respostas das outras questoes, e estas sao consideradas independentes. Formula de pronto uso para quem tem pressa Considera-se que e realizada uma serie de tentativas independentes, onde cada tentativa pode resultar em urn de dois resultados possfveis, A probabilidade p de sucesso em qualquer tentativa e considerada constante. Supondo que X seja 0 mimero de sucessos ap6s n tentativas, a probabilidade de se obter x sucessos nas n identicas repeticoes e dada pela expressao:
Pr(X = x) = C: pX (1-
..., n.
distribuiciio binomial.
A partir do conhecimento do mimero n de repeticoes, da probabilidade de sucesso e do numero desejado de sucessos nas n repeticoes, caIcula-se a probabilidade pela aplicacao da f6rmula.
• Exercicio-exemplo 3.6
Em uma prova de 50 questoes de rruiltipla escolha, cada questao tern 5 opcoes. Deterrninar probabilidade de um aluno, marcando ao acaso, acertar 30 dessas questoes. a
Usando calculadoras
0 0
valor da combinacao de n elementos x a .r; os passos sao os seguintes: valor de n, tecle [ENTER], digite 0 valor de x e tecle [ENTER];
Capitulo 3 I Probabilidades:
uma introduciio
83
• passo 2: clique as teclas [MTH](primeira tecla da segunda fileira de teclas) e [NXT]; . .. passo 3: clique a tecla branca [A] (PROB) e [A]de novo (COMB); aparecera 0 resultado.
• Com a calculadora Casio CFX-9850G19950G
A Casio apenas fomece 0 valor da cornbinacao de n elementos x a x; os passos sao os seguintes: Os calculos sao realizados no modo RUN para a distribuicao padronizada: .. passo 1: digite 0 valor de n; .. passo 2: tecle [OPTN], [F6], [F3] (PROB) [F2] (nCr)' digite 0 valor de x e tecle [EXE].
• Com a calculadora Texas TI-83
a. para determinar a probabilidade de x sucessos em n repeticoes: • passo 1: tecle [2""1[DISTR]; escolha DISTR, aparecendo O:binompdf(; • passo 2: digite 0 mimero de repeticoes, [ , ], a probabilidade p de sucesso em cada tentativa, [ , leo valor de x; b. para determinar a probabilidade acurnulada de 0 ate x sucessos em n repeticoes: .. passo 1: tecle [2"d][DISTR]; escolha DISTR, aparecendo A:binomcdf(: .. passo 2: digite 0 mimero de repeticoes, [,], a probabilidade p de sucesso em cad a tentativa, [,J e 0 valor de x.
Usando
Excel
Por exemplo, seja urn teste com 3 questoes tipo "verdadeiro ou falso" e seja a variavel aleatoria 0 numero de respostas erradas. A probabilidade de que urn aluno acerte, ao acaso, uma resposta em uma questao e, entao, 0,5. No EXCEL, a funcao DISTRBINOM(Figura 3.12) ajuda no calculo da resposta do problema.
""-"m_,. T_twv~~~~~==~~~~
PrabilblH:lt.deJ cumulat .... ~""""'-"""''''''''-.
DISTRBINOMretoma ou a probabilidade de x sucessos da distribuicao binomial, ou entao a soma acumulada desde x = 0 ate urn valor estipulado. A sintaxe e a seguinte: DISTRBINOM(mlm_s;tentativas; probabilidade_s; cumulativo) mim_s e 0 mirnero de sucessos que se deseja tentativas e 0 mimero de repeticoes probabilidade_s e a probabilidade de sucesso em cada repeticao. Cumulativo e urn valor 16gico: se VERDADEIRO, en tao DISTRBINOM retoma babilidade de que existam no maximo x sucessos, ou seja, retorna
0
valor da pro-
C~ pX
(1_ pr-x
a. para calcular a probabilidade de 2 acertos, por exemplo, Num_s babilidades = 0,5 e Cumulativo = FALSO; b. para calcular a probabilidade de, no maximo, 2 acertos, altera-se DADEIRO.
• Exercicia-exemplo 3.8
= 2 Tentativas = 3, Pro0
Uma prova contem 50 questries. Determine a probabilidade de que urn aluno, marcando ao acaso as respostas, obtenha uma nota maior ou igual a 6, nos seguintes casos: a. ha quatro opcoes: b. ha cinco opcoes.
---
84 a objetivo
Capitulo
3 / Probabilidades:
uma introduciio
e fazer com que urn aluno total mente ignorante na materia nflo obtenha nota acima de 6 marcando apenas ao acaso. Mesmo com quatro opcoes, a probabilidade de se obter nota maior ou igual a 6 e praticamente zero. Sendo assim, nao seria necessaria colocar tarnbern quatro OP90es. Conhecendo a origem do modelo matemdtico Para determinar-se a expressao matematica da funcao que permite a probabilidade de x sucessos em n repeticoes, imediatamente se concIui que, se hi x sucessos, hi (n - x) insucessos. Considere que urn sucesso seja representado pela letra S e urn insucesso, pela letra I. Urn resultado POSSIVel e termos 3 sucessos. Dai que S S S (3
vezes) e
1 ... II (n - 3) vezes.
Como os eventos sao independentes, a probabilidade de ocorrer essa sequencia e 0 produto das probabilidades dos resultados individuais, Hi 3 fatores p e (n - x) fatores (1 - p), e desse modo, a probabilidade de se obter essa sequencia e: p'(l _ pl"'. Entretanto, resultados identicos podem ser obtidos para qualquer outra sequencia com 3 sucessos e (n - x) insucessos em uma determinada ordem; esta tambem teria 3 fatores pen - 3 fatores 1 - p, sendo esse resultado tarnbem dado por p\l -
ptJ•
Para obter a probabilidade de x sucessos e n - x insucessos em qualquer ordem, deve-se somar as probabilidades de todas as sequencias com x sucessos en - x insucessos para todas as ordenacoes possiveis. Pela Analise Combinat6ria, a quantidade de sequencias com n elementos, dos quais x sao iguais as e n ~ x iguais ale dada pela permutacao de n elementos com x e (n - x) objetos repetidos. A expressao maternatica e
px.n-x n
x!(n -x)! .
x
n!
Todavia essa expressao tern a mesma forma de en' a combinacao de n elementos x a x. Como eXn caIcula os coeficientes do binornio de Newton, identificou-se esse modele probabilfstico com 0 nome de distribuicdo binomial, com parametres n e p. Propriedades do modelo a.
0
e:
p=E(X)=np
np(l-
p)
Exernplo de aplicacao it confiabilidade de sistemas, 0 sistema k-de-n, que tern n componentes requerendo k ~ tt ou mais desses componentes para a correta operacao do sistema. Tais sistemas sao chamados sistemas k-de-n. Se k;; n, tcm-se urn sistema em serie; se k;; 1, tem-se urn sistema em paralelo. Para facilidade de calculo, admite-se que todos os componentes sao estatisticamente identicos e funcionam independentemente urn do outro. Se R for a confiabilidade (probabilidade de que determinado componente faca a sua funcao para a qual foi projetado nas condicoes ambientais previstas e por urn intervalo determinado de tempo) de urn componente, entao 0 experimento de observar a situacao dos n componentes pode ser pensado como uma sequencia de n tentativas com a probabilidade de sucesso igual a R. A confiabilidade do sistema e: Rk1n = Pr (k ou mais componentes funcionando), ou seja, k ou k + 1 ou k + 2, ate todos os n. Cada uma dessas situacoes com relacao a qualquer outra, Daf que Rk1n
= Pr (k
e mutuamente
excludente
i=k
Capitulo
85
n
Entao,
i=k
L en
Observando 0 nosso mundo As filas sao hoje urn dos fatos rnais observaveis na vida diaria, seja no supermercado, passando pelos bancos, incluindo as acessos aos pedagios nas estradas em vesperas de feriado, tudo afetando a vida de mil hares de brasileiros,
"Se niio for caso de morte, a espera i eterna: pacientes que precisam fazer cirurgias - necessdrias, mas ruio urgentes - nos hospitals publicos do Rio siio condenados a urna longa fila e podem levar mais de um ano para serem atendidos ." 20
Ministerio
Observa-se que toda fila e feita de pessoas ou objetos (que se podem contar), os quais estao esperando pela realizacao de uma determinada atividade que leva tempo (tempo esse que C mensuravel), lnicialmente, analisemos 0 problema com relacao as cntidades que proporcionam a formacao de uma fila. Condi~iies de aplicaciio Ao se fazer urn levantamento das entidades que demandam urn service em urn tempo limitado de observacao, atender as seguintes condicoes: a. 0 numero de chegadas durante qualquer intervale de tempo parece depender somente da duracao do intervalo de tempo; quanto maior 0 intervalo, maior tende a ser 0 mimero de chegadas; b. as chegadas ocorrem independentemente; isto e, urn excesso ou falta de chegadas em algum intervale de tempo nao exerce efeito sobre 0 numero de chegadas ocorridas durante qualquer outro intervalo; c. a possibilidade de duas ou mais chegadas ocorrerem durante urn pequeno intervalo de tempo t e muito pequena quando comparada a de uma unica chegada. Formula de pronto uso para quem tern pressa Seja X uma variavel aleatoria com os seguintes valores: 0, 1,2, ... , n, .... A probabilidade de X assumir urn valor k c dada pela seguinte expressao da distribuicao de probabilidades:
P(X =k)=-e-A.
;.k
k!
para e
e na qual A e 0 parametro (media de eventos que ocorrem) por unidade de observacao, normalmente 0 tempo. Essa distribuicao denomina-se distribuicdo de Poisson.• o sfmbolo e representa a base dos logaritmos naturais, cujo valor e aproximadamente, 2,7183. Utiliza~iio passo a passo
Modo cldssico
• passo 2: identifique 0 valor do parametro A; • passo 3: utilize a formula, substituindo A pelo seu valor e k pelo valor desejado,
• Exercicio-exemplo 3.9
• passo l : identifique a situacao como podendo ser modelada por essa distribuicao;
Urn escritorio de consultoria recebe, ern media, cinco telefonemas par hora. Determine a probabilidade de que em detenninada hora, selecionada aleatoriamente, sejam recebidas exatarnente tres chamadas,
* Embora tenhamos exemplificado com 0 tempo, os eventos podem existir relacionados a espayo., area e volume. Para area, par exemplo, as condicoes sen am: a. 0 rnirncro de ocorrencias em quulquer area parccc depcnder somente du area; quanto m810r a area, maior tende a ser 0 numero de
ocorrencias. h. as ocorrencias
acontecem independenternentc: i810 e. urn cxccsso ou falta de ocorrencias em alguma area nfto exerce efeito sobre 0 numero de ocorrencias acontecidas em qualquer outra area. c. a possibilidade de duas ou mais ocorrencias em urn" pequena area muito pequena quando com par-aria de urna unica ocorrencia.
86
• Exercicio-exemplo 3.10
Segundo dados historicos em detenninada empresa, 3 e 0 numero medic de charnadas em 20 minutes: a. determine a distribuicao de probabilidade para esse exemplo; b. determine a probabilidade de haver. no maximo, 2 charnadas em 40 minutes, em urn intervale escolhido aleatoriamente;
Usando calculadoras
• Com a calculadora
HP 48G
a. para determinar a probabilidade de x sucessos: • passo 1: tecle [2nd][DISTR]; escolha DISTR, aparecendo Btpoissonpdfi: ; • passo 2: digite 0 valor do parametro, [ , ] e 0 valor de x; b. para determinar a probabilidade acumulada de 0 ate x sucessos: • passo 1: tecle [2nd][DISTR]; escolha DISTR, aparecendo C:poissoncdf(: ; • passo 2: digite 0 valor do parametro, [ , ] e 0 valor de x.
Usando
Excel
POISSON retorna ou a probabilidade de x sucessos da distribuicao de Poisson, ou entao a soma acumulada desde x = 0 ate urn valor estipulado,
A sintaxe
e a seguinte:
X e 0 numero de sucessos que se deseja Media e 0 pararnetro A, Cumulativo e urn valor 16gico: se VERDADEIRO, entao POISSON retoma 0 valor da probabilidade de que exista no maximo x sucessos; se FALSO, ca1cula a probabilidade de exatamente x sucessos, Conhecendo a origem do modelo matemdtico Ao se estudar uma situacao que atenda as condicoes do problema, tal como a de filas, observase que: a. a probabilidade de n chegadas durante urn intervalo de tempo de duracao t depende, 80mente, da duraciio t do intervaIo e nao dos pontos iniciais e finais do intervalo. Seja essa probabilidade indicada por p Jt) para n = 0, I, 2, .... Assim,
com poCO) = I e Pn(O) = 0 para n > 0, ja que a probabilidade de chegar zero elemento no tempo zero e iguaJ a 1. Para simplificar esse mode1o, suponha-se, tambem, que cadaPn(t) e contfnua e diferenciavel para 0 s t s 00; h. sejam dois intervalos de tempo nao justapostos e sucessivos, 1 e tit. Na Figura 3.14, considere que ha "k: chegadas no primeiro intervale t" e "n-k chegadas no segundo intervale tit" e que essas chegadas sejam independentes.
Capitulo 3 I Probabilidades:
uma introduqiio
kchegadas n-k chegadas
87
Figura 3.14
Eventa
"n chegadas no
intervalo de duracdo
t + ilt", sendo "k chegadas
no intervalo de duracdo t " e "n-k chegadas no intervalo de duracdo .1t". Portanto, a probabilidade de ambos os eventos ocorrerem no intervalo (t + &) e igual a p/t)Pn_k(l1t). Desse modo, a probabilidade de n chegadas no intervalo de duracao (t + I1t) e obtida somandose esses termos para todos os k ::;;n,
Dar que:
Po(t + 11 t) =
" L p (t)Pok(I1t);
t
c. adicionalmente, para simplificar a modelagem, considere que as probabilidades de mais uma chegada tern 0 valor 0 quando t » 1, ou seja, P (t) = 0, p (r) = 0, P (t) = 0, e assim sucessivamente. 2 3 4 Como
L
:.1:'
Pn(t)
= poet)
00
11=0
L
11=2
=:t
k-o
Pk(t)Pnjl1t)
pn(t)Po(l1t)
+ Pn)t)PI(l1t)
n=2
Pl(t)Pn_k(M),
Fazendo 111 tender a zero, temos que: p'n(t) = -APn(t) + APn-/t) para n;;; 1,2, ._. Para cada n, temos uma equacao diferenciaI e de diferencas. Definindo-se uma funcao qn(t) ;;; e-'A.t p/t), 0 sistema torna-se q' n(t) ;;; '),_qnJt). Vemos que qn (0) = 0 para n > O. Entao obtemos sucessivamente
q' I(t) ;;; A e daf que qt(t) = At q' /t) = "Aq/t) =A2r
e entao
q2(t) = (At)2/2.
Como q' net) = A qn--t(t), entao qn(t) = ("Attln! Pela definicao de qn(t) ;;;e-A1 Pn(t) final mente
0
= (At)nln!,
rs»
valor de
distribuicdo
e-A1(A,t)"lnf.
de Poisson.
Propriedades do modelo A media e a variancia de uma distribuicao de Poisson sao iguais e valem:
)l=cr2=,,-
88
Capitulo 3 I Probabilidades:
uma introduciio
Observando 0 nosso mundo Voltando as filas (a gente sempre volta ...).Vimos que toda fila e formada par pessoas ou objetos (que se podem contar), os quais estao esperando pela realizacao de uma determinada atividade que leva tempo (tempo esse que e mensuravel), Analisamos 0 problema. primeiramente, com relacao as entidades que formam a fila; agora vamos analisar 0 tempo de processamento da atividade. Na distribuicao de Poisson, definimos a variavel aleat6ria como sendo 0 ruirnero de eventos em determinado periodo, em que a media dos eventos naquele penodo era denotada por A. Assim como 0 mimero de elementos que chegam e uma variavel aleatoria, observamos que 0 tempo entre os eventos tarnbem e uma variavel aleat6ria. Condiciies de aplicaciio o mirnero de eventos deve ter uma distribuicao de Poisson. Formula de pronto uso para quem tem pressa o perfodo de tempo T entre contagens sucessivas de urn processo de Poisson com media A > 0 e uma variavel aleat6ria cuja funcao densidade de probabilidade e dada por fit) = 'Ae-"!.J, para t ;,::o. Tendo em vista 0 aspecto matematico dessa funcao densidade de probabilidade, ela nada exponencial com parametro "A.
• Exercicio-exemplo Ll t
Ao observarmos a duracilo das baterias de videogames, concluimos que esta vida nada rnais que o intervale entre falhas sucessivas das baterias; para essas falhas, pode-se aplicar 0 processo de Poisson. Dessc modo, 0 tempo medic entre falhas vern a ser a vida media da bateria. Considere que imnneras baterias foram usadas e anotou-se (algo raro de ocorrer no dia-a-dia, somente as fabricas o fazem) que a cada sete dias havia ncccssidade de troca-las (ou se]a, a vida media da bateria e de uma semana). As falhas das baterias sao aleatorias e independentes e atendem as condicoes da distribuleao de Poisson; entao, para 0 tempo de vida da bateria, pode-se utilizar a distribuicao exponencial, B. determine a probabilidade de a bateria durar pelo menos 2 semanas: b. determine a probabilidade de uma bateria falhar dentro de 3 dias; c. determine a probabilidade de uma bateria durar de 3 a 4 sernanas; d. determine 0 desvio padriio do tempo de vida de uma bateria; e. sabendo-sc que uma bateria ja durou 1 semana, determine a probabilidade de que eladure pelo menos mais duas seman as.
e denomi-
Usando calculadoras
A HP utiliza para seu calculo a funcao e"; os passos sao os seguintes: • passo J: digite 0 valor de A., tecle [+/-], a esquerda de (ENTER] e tecle [ENTER]; • passo 2: aperte a tecla roxa e [l/x] (equivale a eX); • passo 3: digite A • [ENTER] e aperte a tecla [X].
• Cum a calculadora Casio CFX·9850G/9950G
A Casio utiliza para seu calculo a funcao e": os passos SaO os seguintes: • as calculos sao realizados no modo RUN. Teele [SHIFT]. [In] (e"), digite negativo,o sinal precedendo-o) e tecle [EXE].
• Com a calculadora Texas TI-83
numero (se
Teele [2od], [In] (e"), digite 0 mimero (se negativo, 0 sinal precedendo-o) e tecle [EXE].
Usando
Excel
No EXCEL. a funcao
DISTEXPON
89
de x sucessos da distribuicao exponencial, au entao a soma acumulada desde x = 0 ate urn valor estipulado, A sintaxe e a seguinte: DISTEXPON (X; Lambda; Cumulativo) X e a quanti dade de sucessos que se deseja Lambda e 0 parfunetro A Cumulativo e urn valor logico: se VERDADEIRO, entao DISTEXPQN retorna 0 valor da probabilidade de que exista no maximo x sucessos; se FALSO, calcula a probabilidade de exatamente x sucessos. Conhecendo a origem do modelo matemdtico Seja To tempo, a partir de determinado ponto, ate que 1 evento ocorra. A distribuicao de T pode ser obtida a partir do numero de eventos, porque existe uma relacao entre eles: por exernplo, passar de 30 segundos 0 "tempo ate 0 primeiro evento" equivale a nao haver ocorrido evento nesse periodo de 30 segundos. Esse raciocinio simples e eficiente para se determinar a distribuicao de probabilidades de T. Em geral, seja N a variavel aleat6ria que indica 0 mimero de eventos em t segundos. Se 0 mimero medio de eventos por unidade de tempo e Alt, entao N tern uma distribuicao de Poisson com media At. AU:m disso, 0 ponto inicial para se medir T nao importa, porque a probabilidade de oeorrer determinado rnimero de eventos em urn proeesso de Poisson depende somente do comprimento do intervale observado, e nao da sua localizacao. Se 0 periodo que est a sendo estudado e igual at, entao: Pr (variavel aleat6ria tempo> tempo espeeifieado) = Pr(T> t) e equivalente, na distribuicao de Poisson, a se ter N == O. Daf que:
Pr(N
= 0) =
e-'i.I (At)o
01
=e
A'
= Pr(T> t)
Mas Pr(T'S. t) e a funcao de distribuicao acumulada de T, igual a 1 - e :", para t 2:: O. Diferenciando-a em relacao a t, chega-se a uma funcao densidade de probabilidade, fit) = Ae-M, para t::::: 0, na qual A e a mesma media por unidade de tempo da distribuicao de Poisson. Propriedades do modelo A media e a variancia de uma distribuiciio exponencial sao iguais e valem: II
=
e a = ).2'
Diz-se que a distribuicao exponencial tern a propriedade de ndo ter memoria. Isso significa, por exemplo, que a probabilidade de a vida iitil de urn equipamento exceder (s + t) unidades de tempo, considerando que ja se passaram t unidades de tempo sem que ele falhasse, e a mesma que a probabilidade de a vida util do equipamento exceder s unidades de tempo. Matematicamente, essa propriedade e representada por:
Pr(T>
•
s + tiT>
t)
= Pr(X>
3.11
Exercicio-exemplo
No Excel, calculc a probabilidade aproximada de um equipamento, cuja vida media de 2 anos e 4 meses pode ser modelada pela distribuicao exponencial, durar: a) ate 3 anos: b) mais de 3 anos; c) ate 2 anos e 4 meses; d) mais de 2 anos e 4 meses; e) ainda 3 anos rnais apes ja ter durado I ano.
o quarto
I
i
t .j
Observando 0 nosso mundo Quando realizamos medicoes, podemos ver que ha urn valor em torno do qual tendem a se concentrar as medidas, e e razoavel supormos que ha uma chance muito maior de encontrarmos uma medida proxima desse valor do que afastada dele. Tambern e razoavel supormos que a chance de se obter uma medida maior ou menor que esse valor e a mesma. Esse valor, no que se refere a medicoes, por exemplo, e 0 valor verdadeiro do que se deseja determinar. Colocando em numeros: a. se 0 valor verdadeiro e 30, ha uma chance maior de encontrar uma medida entre 29 e 31 do que entre 45 e 47; embora as diferencas entre esses limites sejam as mesmas (31 - 29 = 2 e 47 - 45 = 2), as probabilidades de ocorrencia sao diferentes porque nao existe uma proporcionalidade entre as diferencas de medidas e as chances de ocorrencia;
~~
90
Capitulo 3 I Probabilidades:
urna introduciio
b. a chance de se encontrar alguem acirna do verdadeiro valor e 50%, assim como e 50% de encontrar uma medida abaixo do verdadeiro valor (recorde-se que e aleat6rio 0 erro para mais ou para menos; como nada se sabe, aplica-se 0 conceito de equiprobabilidade). A distribuicao mais amplamente usada nos problemas estatfsticos e a distribuicao de DeMoi vre'Laplace**-Gauss"', conhecida como distribuicao normal. Entretanto, esse nome normal pode levar a algumas distorcoes porque leva ao raciocfnio de que todos os fen6menos se comportam segundo esse modelo, 0 que nao e verdade. Alern do mais, diz-se que essa distribuicao tern forma de sino, 0 que tarnbem nao e verdade (basta comparar com urn sino ever as imimeras diferen ..as) porque 0 que caracteriza essa distribuicao de probabilidade e a sua funcao densidade de probabilidade, ou seja, a sua equacao maternatica. Dependendo do valor da dispersao dos dados 0 grafico da curva po de ser achatado, pontiagudo, ou mesmo aquilo que chamam de "forma de sino".
A distribuicdo DeMoivre-LaplaceGauss temforma de sino.
Condicoes de aplicaciio Em situacoes nas quais os val ores tendem a concentrar-se regularmente em tomo de urn valor central. Formula de pronto uso para quem tern pressa A funcao da densidade de probabilidade de uma variavel aleat6ria DeMoivre-Laplaee-Gauss dadapor: e
ID:RF.BIAh!
A char que todos os problema;' seguem uma distribuicdo DeMoilfre-Lapla,"e-Gauss.
(x ) = a
J2;r
exp
[-
(x -
2a
Jl
2
)2 ]
para -
no
< X < no
onde os seus parfimetros sao: J1, media da populacao U, desvio padrao da populacao A Figura 3.16 mostra uma fun ..ao de densidade de probabilidade de DeMoivre-Laplace-Gauss. Figura 3.16 Distribuiciio de DeMoivre-Laplace-Gauss,
-30
·20
-10
10
20
30
Utilizaciio passo a passo Ao resolver qualquer problema que envolva a distribuicao de DeMoivre-Laplace-Gauss. esboce sempre 0 grafico da distribuicao e sornbreie as areas desejadas para facilitar a visualizacao das probabilidades que se desejam determinar.
Modo cldssico
Encontrar a area sob uma curva de DeMoivre-LapJace-Gauss e entre dais limites envolve a integracao da funcao densidade de probabilidade entre esses limites, integracao que s6 pode ser feita por metodos numericos. Como as valores dos parametres da funcao densidade de probabilidade mudam para cada possivel combinacao de J1 e d, torna-se muito dificil calcular essa area sob a curva de DeMoivre-Laplace-Gauss todas as vezes que se deseja calcular probabilidades. Contudo, a area entre certos lirnites pode ser encontrada fazendo-se 0 relacionamento entre as distribuicfies com quaisquer medias e desvios padroes com apenas uma distribuicao de DeMoivre-Laplace-Gauss, conhecida como reduzida (au padrao), de media 1 e desvio padrao 0 e, cujas areas entre dais limites sao tabeladas. Essa distribuicao reduzida e identificada como NCO,l), onde 0 primeiro parametro representa a media e 0 segundo a variancia, A sua fun..ao de densidade e:
1 j( z ) = ~. .J2n
-00
_<'/2
Z
As areas entre
* Abraham DeMoivrc (1667-1754), matematico frances. '* Pierre Simon Laplace (1749-1827), matematico frances. *** Carl Friedrich Gauss (1777-1855). matematico alemao,
denominado
"Principe
dos Matematicos".
Capitulo 3 / Probabilidades:
uma introduciio
91
0,0 0,01 0.503989 0.543795 0,583166 0.621719 0,659096 0,694974 0,729069 0,761148 0,791030 0,818588 0,843752 0,866500 0,886860 0,904902 0,920730 0,934478 0,946301 0,956367 0,964852 0,971933 0,977784 0,982570 0,986447 0,989555 0,992023 0,993963 0,995472 0,996635 0,997522 0,998192 0,998693 ~,02 0.507978 0.547758 0,587064 0,625515 0.662757 0,698468 0,732371 0,764237 0,793892 0,821213 0,846135 0,81i8643 0,88&767 0,906582 0,922196 0,935744 0,947383 0,957283 0,965620 0,972571 0,978308 0,982997 0,986790 0,989830 0,992240 0,994132 0,995603 0,996735 0,997598 0,998250 0,998736 0,03 0.511966 0,551716 0,590954 0,629300 0,666402 0,701944 0,735652 0,767304 0,796730 0,823814 0,848494 0,8707lil 0,890651 0,908240 0,923641 0,936991 0,948449 0,958184 0,966375 0,973196 0,978821 0,983414 0,987126 0,'.>90096 0,992450 0,994296 0,995730 0,996833 0,997672 0,998305 0,998777 0,04 0.515953 0.555670 0.594834 0,633071 0,670031 0,705401 0,738913 0,770350 0,799545 0,826391 0,850830 0,872856 0,892512 0,909877 0,925066 0,938220 0,949497 0,9,59070 0,967115 0,973810 0,979324 0,983822 0,987454 0,990358 0,992656 0,994457 0,995854 0,996927 0,997744 0,998358 0,998817 0,05 0,519938 0,559617 0,598706 0,636830 0,673644 0,708840 0,742153 0,773372 0,802337 0,828943 0,853140 0,874928 0,894350 0,911491 0,926470 0,939429 0,950528 0,959940 0,967843 0,974412 0,979817 0,984222 0,987775 0,990613 0,992857 0,994613 0,995975 0,997020 0,997813 0,998411 O,91}8855 0 ,06 0,5 23922 0,5 63559 0,6 02568 0, 640576 0,6 77241 0,71 2260 0,7 45373 0,7 76372 0,8 05105 0,8,31472 0,8 55427 0,8 76975 0,8 96165 0,91 3084 0,9 27854 0,9 40620 0,9.51542 0,9 60796 0,9 68557 0,9 75002 0,9 80300 0,9 84613 0,9 88089 0,9 90862 0,9 93U5] 0,9 94766 0,9 96092 0,9 97110 0,9 97881 0,9 98461 0,9 98893 0,07 0,527903 0,567494 0.606420 0,644308 0,680822 0,715661 0,748571 0,779350 0,807850 0,833976 0,857690 0,878999 0,897957 0,914656 0,929219 0,941792 0,952540 0,961636 0,969258 0,975580 0,980773 0,984996 0,988396 0,991105 0,993244 0,994915 0,996207 0,997197 0,997947 0,998510 0,998930 0,08 0.531881 0,571423 0.610261 0,648027 0,684386 0,719042 0,751747 0,782304 0,810570 0,836456 0,859928 0,881000 0,899727 0,916206 0,930563 0,942946 0,953521 0,962462 0,969946 0,976148 0,981237 0,985371 0.988696 0,991J43 0,993430 0,995060 0,996318 0,997281 0,998011 0,998558 0,998964 0,09 0,535851'> 0,575345 0.614091 0,651731 0,687933 0,722404 0,754902 0,785236 0,813267 0,838912 0,862143 0,882976 0,901474 0,917735 0,931887 0,944082 0,954486 0,963273 0,970621 0,976704 0,981691 0,985737 0,988989 0,991575 0,993612 0,995201 0,996427 0,997364 0,998073 0,998605 0,998999
Areas entre
distribuictio
•
0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 11,9 1.0 1,1 1,2 1,3 1,4 1,S 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0
reduzida de
DeMoivre-Laplace-Gauss.
0,500000 0,5398278 0,579260 0,6179113 0,6554215 0,6914624 0,7257469 0,7580364 0,7&&1446 0,815940 0,8413447 0,8643338 0,884930 0,9031994 0,9192432 0,9331927 0,9452007 0,9554345 0,964070 0,9712835 0,977250 0,9821356 0,9860966 0,9392759 0,9918024 0,993790 0,9953387 0,9965329 0,9974448 0,9981341 0,998650
As tabelas encontradas nos livros de probabilidade apresentam nao os val ores da funcso densidade de probabilidade, mas a funcao de distribuicao acumulada, porque, para uma variavel aleat6ria continua interessam as probabilidades da variavel aleat6ria estar entre dois valores, ou seja, a area abaixo da funcao densidade de probabilidade e limitada pelos dois valores. Entretanto, deve-se ter cuidado quando do calculo dessas areas, tendo em vista que elas sao apresentadas nas tabelas publicadas abrangendo limites diferentes. Assim sendo, fazer urn grafico da area desejada quase que obrigat6rio para calcular corretamente a probabilidade desejada,
A leitura na Tabela 3,9 e feita da seguinte maneira: na primeira col una, os mimeros representam o inteiro e 0 decimo do valor de z: na prime ira Iinha os numeros representam 0 centesimo do valor de z. Desse modo, a area lirnitada entre -<>0 e z e aquele valor obtido no encontro da linha (com a parte inteira e 0 decimo de z) e a coluna (com 0 centesimo de z) respectivas, Qualquer outra area obtida pela soma ou subtracao de areas, ou subtracao de 1 (a area total sob a curva igual a 1) ou de 0,5 (aproveitando a simetria da curva em relacao media).
Exercicio-exemplo Determine
3.13
as seguintes probabilidades:
Qualquer distribuicao de DeMoivre-Laplace-Gauss com media u e desvio padrao na forma da distribuicao reduzida mediante a transformacao afirn:
a e colocada
e igual
it area entre os
o valor
Z representa 0 numero de desvios padroes que qualquer valor X dista da media de todos os valores X, podendo ser positivo ou negativo. Se z positivo, 0 valor esta it direita da media; se z negativo, it esquerda da media. Na media, 0 valor de z zero, Conseqiientemente, pode-se usar a tabela da distribuicao reduzida para calcular a area entre quaisquer limites de qualquer distribuicao de Delvloivre-Leplace-Gauss.
92
Capitulo 3 I Probabilidades:
uma introducdo
il
Niio confundir os valores de z [abscissas. vdo de - '""" + oxo) Com os a valores das areas entre duas abscissas e abaixo da cun'u de DebdoivreLaplace-Gauss [dreas que valem
o que
levou as pessoas a afirrnarem que a distnburcao DeMoivre-Laplacc-Gauss "sino" foi 0 fato de a DeMoivre-Laplace-Gauss reduzida lembrar tal aspecto .
teria a forma de
Assirn como, a partir dos valores de z, sao determinadas as probabilidades, caso se fornecam os valores Iimitantes, a determinacao dos valores de z (que sao a distancia de urn valor para a media dos valores, em mimero de desvios padroes) e feita proeurando-se a area no interior da tabela e lendo-se 0 valor de z na linha e na coluna,
• Exercicio-exemplo 3.14
Determine
0
entre Oe 1).
it area (probabilidade)
5% Ii direita de
z.
Usando calculadoras
A HP calcula a probabilidade de x ate + para qualquer distribuicao de DeMcivre-LaplaceGauss • passo 1: clique as teclas [MTH] (primeira tecla da scgunda linha fileira de teclas) e [NXT]; • passo 2: clique a tecla branca [A] (PROB) e [NXT] de novo; • passo 3: digite 0 valor da media u; tecle [ENTER]; • passo 4: digite a varidncia a 2, tecle [ENTER] ; caso se tenba 0 desvio padrao, digite-o e aperte a tecla roxa e [ 1 ( x2 ); • passo 5: digite 0 valor de x, e clique a tecla branca [C] (UTPN); 0 resultado aparece.
00
rx
Com a calculadora
Casio CFX.9850G19950G
Os calculos sao realizados no modo RUN para a distribuicao padronizada: • passu 1: tecle [OPTN], [F6], [F3] (PROB) [F6]; • passu 2: digite: a. [F1] se deseja calcular a probabilidade de ~ (ate 0 valor z aparece (P(; digite 0 valor de x e aperte a tecla [EXE); b. [F2] se deseja calcular a probabilidade de 0 ate 0 valor z, aparece (Q(; digite 0 valor de x e aperte a tecla [EXE]; c. [F3]se deseja calcular a probabilidade de z ate + aparece (R(; digite 0 valor de x e aperte a tecla [EXE]; d. [F4]se deseja calcular 0 valor da variavel reduzida z para 0 valor, desde que essa operac,:aoseja uma sequencia de calculos a partir de uma lista de valores, aparece t (digite 0 valor de x e aperte a tecla [EXE]_
00,
• Com a calculadora
Texas T1·83
a, para determinar a area entre dois valores: • passo 1: tecle [2nd][DISTR]; escolha DISTR, aparecendo 2:nonnalcdf (: ; • passo 2: digite 0 limite inferior,'] , ], 0 limite superior, [ ,], a media, [,] eo desvio padrao, b. para determinar a ordenada na abscissa x: • passo 1: tecle [2nd][DISTR]; escolha DISTR, aparecendo l rnormalpdf (: ; • passo 2: digite 0 valor de x, [ ,], a media, [ ,J e 0 desvio padrao,
Usando
Excel
No Excel, a reducao para a distribuicao DeMoivre-Laplace-Gauss padronizada e feita pe1afun9ao PADRONIZAR do Colar Funciio, Figura 3.17, na qual, <10 se digitarem os valores de x, da media e do desvio padrao, retorna-se ao valor de z.
Figura 3.17
~ -,-,
Oe.y_pod'""i
-~
~ ~ 3l~
-~- --
AJum;iio PADRONIZAR
no Colar Funcdo.
OK
Capitulo 3/ Probabllidades:
uma introduciio
rvl5T ,NORMP
93
zI
cumuletivd
norma padroo (po~ ~ mr!:dl~ zero e
Lm
L~~. _ .. _
Retor~ I}dstribuh;So
OK
Cance.lar
a. a area sob a curva de DeMoivre-Laplace-Gauss desde ate X, devendo ser digitados a media e 0 desvio padrao e cumulativo VERDADETRO; b. a abscissa da curva de DeMoivre-Laplace-Gauss no ponto X, devendo ser digitados a media eo desvio padrao e cumulativo FALSO.
0<>
Figura 3.19
A funcdo DIST.NORM.
00
valor de z.
Figura 3.20 A [unciio INV.NORMP.
Retorna
f;lo!ldr.aCl
0
'.,_
3.1,.,
um
.. _--
I
d~YiCl
11,
Caso sejam fomecidas as areas entre e X, a funcao INV.NORM, Figura 3.21, faz retornar valor de X, conhecidos a media e 0 desvio padrao.
0<>
PrubaWlidadl"!
e um~ p$billdao:le:
er.I:te-O-eIin.::~.
(Oir'~rn~
~ di";tri~·&O
normal, IXi'r
rirnCfO
ok
I:
on
C.!.Ino:ekir
Conhecendo a origem do modelo matematico o estudo da chamada distribuicao normal iniciou-se no seculo XVII, quando se comecou a observar que, se urn objeto fosse pesado repetidamente na mesma balanca, os pesos observados nao eram identicos, havendo urna variacao entre as medidas. Se fosse feito urn mimero razoavel de medicoes, a distribuicao das observacoes apresentava urn padrao regular, hoje reconhecido como sendo 0 da distribuicao de DeMoivre-Laplace-Gauss; erros de observacao de caracteristic as diversas tambern seguiam 0 mesmo padrao, De fato, a distribuicao era inicialrnente identificada como curva normal de erros. Essa curva, originada por DeMoivre em 1733, foi tambern estudada por Laplace e Gauss. '
conhecida
94
Capitulo 3 I Probabilidades:
uma introducdo
Com base nos trabalhos de Pascal.ide Fermat" e de Bemouilli,'" DeMoivre, quando se encontrava exilado em Londres, foi capaz de mostrar que a curva matematica que modela problemas desse tipo tem a seguinte expressao:
() = x
1 ~ a~2n
exp
[-(x-,uJ] 2
a
2
para -
co
< x < ec
'
desvio padrao da populacao. a partir do estudo uma distribuicao de probabilidade de eITOSde rnedicao, pesquisando a qual lei as eITOSde observacao deveriam obedecer para que a media aritmetica de uma serie de medidas fosse 0 valor mais provavel da verdadeira grandeza. Com base nos argumentos de Gauss, mais proximos das aplicacoes, vamos deduzir a expressao da funcao densidade de probabilidade de DeMoivre-Laplace-Gauss. Considere que 0 valor real de uma medida e a media de urn grande mirnero de observacoes. Ao se calcular os desvios entre cada valor e a media aritrnetica e soma-los, essa soma sera sempre igual a zero, porque, conforme vimos no Capitulo 2 (p. 33), a soma das diferencas positivas e sempre igual a soma das diferencas negativas. Sabemos que aprobabilidade de urn eITOau desvio no intervalo dex ate x + dx e igual a.f(x)d.x. Em n observacries independentes, em que os eITOSsao XI' xl' ..., xo' a probabilidade do eITOtotal e proporcional a
0'0
onde J1
e a media
=r»»
extensas eram normal mente feitas usando logaritmos,
Deseja-se fix); como temos considerado que 0 valor real de uma medida e a media de urn grande mimero de observacoes, e razoavel supor que a funcao desejada e aquela que tom a Yum maximo para 0 valor real J1 da medida. Em termos matematicos, isso significa que, inicialmente, a primeira derivada e igual a zero,
d(ln Y)/djl = 0, ou seja, aplicando a regra da cadeia:
Os valores de x, todavia, dependem de p, desconhecido, porque, se as medidas feitas sao ml' mz' .." entao XI = ml - P; x2 = mz - u, e assim sucessivarnente. Ao se derivar em relacao a u, tem-se que:
dx, _ dx2 dp. - dp
_ _ dx ; _ 1 - ... - -;;;; - -
Desse modo,
!'(XI) [(XI)
x(-l)+ ['(X2)
/(x2)
Tendo em vista que essa equacao relaciona-se com 0 conceito de soma de des vias em relacao media aritmetica (a soma de ambos e igual a zero), devcmos ter que [,(x,)
I(x,)
e,
• Blaise Pascal (1623·1662). maternatico frances. ** Pierre de Fermat (1601·1665). matematico frances . • u Jakob I Bemouilli (1654~ 1705). rnatemarico belga.
Capitulo 3 I Probabilidades:
95
= k x,
onde k
e uma
constante de proporcionalidade.
+ constante -= kx2
/0,;2
infix) -=
+ In C.
la'
In jex)
I(x) C
FinaJmente,
fix) = C e
A constante C pode ser determinada integrando-seflx) de - co a + e igualando-se a 1 0 resultado, eo valor de k obtem-se calculando-se valor esperado e a variancia dessa distribuicao e igualando-se a f.l e a (J' 2. 0 resultado e a distribuicao de DeMoivre-Laplace-Gauss reduzida.
DO
Navegando na Internet
Va ao site http://www.thinks.com/java/balldrop/normal.htm e veja uma simulacao da distribui~ao de DeMoivre-Laplace-Gauss. Voce pode desligar-se da Internet que a simulacao continuara: fique observando 0 comportarnento da cafda das bolinhas .
• Exercicio-exemplo 3.15
Verificou-se que 0 comprimento de uma pe~a pode ser model ado por uma distribulcao de DelvloivreLaplace-Gauss com media de 100 mm e desvio padrao de 2 mm. a. determine a proporcao de pecas acima de 103,3 mm; b. determine a proporciiu dos resultados encontra-se entre 98,5 e 102,0 mm; c. calcule a proporcao de pecas abaixo de 96,5 mm; d. importante que 0 comprimento da pep nao seja muito grande quando comparado a urn valor desejado; se a gerencia decide que no maximo 5% das pecas devem ter comprimento acima desse valor, recomente urn limite de especificacao.
mundo
enormal.
por isso,
Propriedades do modelo A distribuiclto de DeMoivre-Laplace-Gauss: a. tem como pararnetros media f.1 e desvio padrao (J', constituindo uma familia infinita de distribuicoes, uma para cada f.l e para cada o; h. e simetrica em relacao it media aritmetica u: c. tern a media, a mediana e a moda iguais, e correspondem ao maximo da funcao densidade de probabilidade; . d. muda sua localizacao se houver uma variacao na media; quando a media aumenta, 0 grafico da distribuicao desloca-se para a direita e, quando a media diminui, desloca-se para a esquerda mas, sern alterar a sua forma; e. toma-se rnais plana ou mais pontiaguda, em torno da media se a variancia (ou 0 desvio padrao) aumenta ou diminui, respectivamente; f. tem teoricamente a proporcao de valores da populacao que se encontram entre p. ± (J' (media mais ou rnenos 1 desvio padrao) igual a 68,26%; 95,44% da area total estao entre p. ± 2<Te 99,74% estao entre u ± 3<>, g. tern mimero infinito de classes; h. e assfntota ao eixo das abscissas; i. tern amplitude total ilimitada; j. tem pontos de inflexao nas abscissas p. + a e /1. - 0: Costuma-se afirmar que todo 0 mundo e normal, isto e, tudo segue a distribuicao DeMoivreLaplace-Gauss. Se esse mito fosse realmente verdade, qual a razao da existencia das outras distribuicoes de probabilidade?
96
o~ ",
Capitulo 3/ Probabilidades:
uma introduciio
Termos-chave
Probabilidades
Modelos probabilfsticos
'\
Complemento de um evento
Eventos coleti varnente exausn vas Eventos independentes Axiomas do calculo das probabilidades Probabilidade condicional Propriedades aditiva e multiplicativa
Varia vel aleatoria Distribuicao de probabilidade Funcao densidade de probabilidade Varia vel aleatoria discreta Variavel a1eat6riacontinua Valor esperado
Conceito frequencial de probabilidade Leis dos gran des numeros Probabilidade a posteriori Conceito subjeti vo de probabilidade Experimento aleatoric
Espaco amostral
Variancia Desvio padrao Teorema de Bernouilli Distribuicao binomial Distribuicao de Poisson Distribuicao exponencial Distribuicao de DeMoivre Laplace-Gauss
Resumo
I. 0 estudo do relacionamento dos dados por meio de modelos probabilisticos denomina-se Estatistica Matematica. 2. As variacces dos fen6menos devem-se a urn grande mimero de causas que nlio podemos controlar, as quais 0 estatfstico denomina, simplesrnente, acaso. 3. Nos metodos estatfsticos formulam-se hipoteses, conduzem-se experiencias, e testam-se hip6teses com base nos dados experimentais. 4. Quando consideracoes de simetria proporcionam significado razoavel para a frase igualmente provdveis, podemos dizer que, se urn conjunto de n ocorrencias equiprovaveis inc lui m maneiras equiprovaveis nas quais uma situacao particular pode ocorrer, a probabilidade dessa situacao e min. 5. A probabilidade tambem pode ser expressa como uma fracao das ocorrencias favoraveis para as desfavoraveis, 6. Primeira definicao do conceito de probabilidade, conhecida como lei de Laplace: resultado da divisdo entre 0 numero de casos [avoraveis e 0 numero de casos possiveis. 7, Segundo 0 conceito frequencial de probabilidade, probabilidade de uma situa ..iio e a freqiiencia relativa em n observa ..5es dessa situ a..ao, ou seja, e 0 mimero de ocorrencias da situacao dividido pelo nurnero de observacoes, quando este tende para infinito. A medida que 0 mimero de repeticoes aumenta, ha uma estabiliza ..iio na frequencia relativa, 0 que e conhecido como regularidade estatistica. 8. Nao se pode provar matematicamente que as leis da natureza sao as leis da probabiIidade matematica, 9. Primeira lei dos grandes numeros (teorema de Bernouilli): e muito poueo provavel que, se efetuarmos urn ruirnero suficientemente grande de experirnentos, a frequencia relativa de urn acontecirnento se afaste muito da sua probabilidade. 10. Segunda lei dos grandes numeros: it medida que 0 mimero de repeti ..oes de urn experimento aleatorio cresce, maior tende a ser 0 valor absoluto da diferenca entre a frequencia absoluta experimental de urn sucesso e a freqllencia absoluta teorica (esperada). II. Probabilidade a priori e a probabilidade que se estabelece atendendo a consideracoes de simetria ou regularidade de resultados simples. 12. Probabilidade a posteriori e a probabilidade obtida pela observa"ao experimental das freqnencias relati vas de aparecimento de urn resultado. 13. 0 conceito subjetivo de probabilidade descreve 0 julgamento de urna pessoa a respelto de quae provavel uma determinada situacao pode ocorrer. 14. Experimento aleatoric e qualquer processo de observacao que pode ser repetida a vontade em condicoes amilogas, com a condi~ao de que 0 resultado nao possa ser previsto antes de cada uma de suas realizacoes, 15. 0 objetivo do calculo das probabilidades e compreender, modelar e quantificar os tipos de variacoes que podem ser encontradas na observacao ou na realizacao de experimentos, Quando se incorpofa esse conceito de variabilidade no pensamento e nas analises, decide-se melhor a partir dos valores obtidos. 16. Espaco amostral eo conjunto de todos os resultados possfveis de urn experimento, 17. Evento elementar (ou simples) e urn resultado de apenas urn elemento do espaco amostral de urn experimento aleat6rio. Evento composto e aquele que engloba varies resultados de urn experimento aleatoric. 18. Eventos mutuamente excludentes sao aqueles em que a ocorrencia de urn evento impede a ocorrencia de outro . 19. 0 complemcnto de um even/o A consiste nos resultados do espaco amostral que nao fazem parte do evento A. 20. Eventos coletivamente e.xaustivos sao aqueles que, em urn experimento aleatoric, sao mutuamente excludentes e constituem todos os resultados possiveis para 0 experimento em causa. 2!. Eventos independentes sao aqueles em que a ocorrencia de urn dos eventos nao fornece informacao a respeito da ocorrencia (ou nao) de outro evento, ou seja, a ocorrencia de urn evento nao tern influencia na ocorrencia do outro. 22. Em urn experimento aleatoric corn urn espa"o amostral associ ado, uma funcao que associa a cada resultado um mimero real, representado por Pr(A), e umafunrao de probabilidade se satisfuz as seguintes propriedades: a. Para qualquer evento A, 0 ~ Pr(A) ~ I. b. A probabil idade do evento certo e a unidade, Pr (espa ..o arnostral)
=1.
c. Se os eventos A e B sao incompatfveis (mutuamente excludentes], a probabilidade da ocorrencia do evento A ou do evento B e a soma da probabilidade de ocorrencia deA com a probabilidade de ocorrencia de B.
Capttulo 3 / Probabilidades:
uma introducao
97
35. Como a fun"iio acumulada e a integral da fuo~iio densidade de probabilidade ate x, ao se derivar a funcao de distribuicao acumulada determina-se a funcao densidade de probabilidade. 36. 0 valor esperado ou media Jl de uma distribuicllo e dado por: a. h.
fl = F:(X) fl E(X)
=
23. A probabilidade de um evento E, definido em urn espaco amostral S, e umafunr;uo, que faz corresponder a cada evento E um mimero real, indicado por Pr(E), satisfazendo aos tres axiomas fundamentais. 24. A probabilidade condicional de um evento A, tendo ocorrido um evento B, e denotada por Pr(AIB) (le-se probabilidade de A na certeza de B) e calculada por
Pre A B) = -.:....___;.
pi todo i
L.
Xi
p(Xi)
se X
e discreta;
Pr(AeB) Pr(B)
fx
-00
j(x)
dx se X e contfnua.
25. A probabilidade da ocorrencia de dois eventos, A e B, em que A ocorre, ou B ocorre, ou ambos ocorrem, e igual a soma da probabilidade de A com a probabilidade de B, menos a probabilidade da ocorrencia de ambos. Esta e a denominadapropriedade aditiva das probabili-
38. Distribuicao binomial: considera-se que uma serie de tentativas independentes sao realizadas, onde cada tentativa pode resultar em um de dois resultados possiveis. A probabilidade p de sucesso em dades, qualquer tentativa e considerada constante. Supondo que X seja 0 26. Se urn experimento e tal que possa ser tratado em fases, uma em ruimero de sucessos apos n tentativas, a probabilidade de x sucesseguida a outra, a listagem dos resultados po de ser consideravelmensos nas n identicas repeticoes e dada pela expressiio: tc simplificada se descrita por um grafico, denomlnado arvo,.e de probabilidades. Xx Pr(X =x) = P (I-p) n x parax=", 012 ..., 11. 27. Teorema de Bayes: considerern-se B" H2, B" ..., H, eventos mutuamente excludentes e exaustivos de urn espaco amosrral S e seja E urn 39. Para uma variave! aleat6ria binomial, 0 valor esperado (media) e evento associ ado a S. Aplicando-se a expressao de probabilidades dado por f.L = E( X ) = np ; condicionais, tem-se que e a variancia, (11 = Va,.( X) = np(1 - p). 40. Distribuiciio de Poisson: seja X uma variavel aleat6ria com os Pr(Bil x Pr(E I Bj) valores 0, 1,2, ... , fl, .... A probabilidade de X assumir urn valor k e Pr(Bj I E) = -k:--...:....;.----.:.....;;...-
en
l=l]
I: P,.(
R. ) x Pr( E
B)
I
P(X
= k)
e-).A~ =--
28. A escola objetivista oafrequencialista considera que a probabilidade so pode ser obtida par meio das frcquencias relativas e, portanto, sornente e aplicavel a situacoes em que a experiencia pode ser repetida varias vezes, sob as mesmas condicoes, 29. A escola subjetivista ou personalista considera a probabilidade como a medida da crenca de uma pessoa racional em uma dada proposi,<ao.Diferentes individuos racionais podem ter graus diferentes de crenca, mesmo em face da rnesma evidencia e, portanto, as probabilidades pessoais para 0 mesmo acontecimento podem ser diferentes, porque as informacoes que tern podem ser diferentes, 30. varidvel aleatoria e uma fun"ao real definida sobre urn espaco amostral cujo dornfnio e 0 conjunto de resultados e cuja imagem e 0 conjunto de ruirneros reais, 31. Urna distribuicao de probabilidade C 0 conjunto de todas US possibilidades de urn experimento aleatorio e suas probabilidades de ocorrencia. 32. A [uncdo densidade de probabilidade e uma funcao matematica j(x), com uma equacao que a caracteriza e um grafico que a representa, e que, integrada entre dois li mites, fomeee a area abaixo da curva e entre esses limites, area essa que tem 0 mesmo valor de a probabilidade da variavel aleat6ria estar entre aqueles lirnites, 33. Diz-se que uma variavel aleat6ria e discreta se todos os seus valores podem ser listados, ou seja, pertencem a urn conjunto finito au infinito enumeravel, 34. Diz-se que uma variavel aleat6ria e continua se os seus valores nao podem ser listados, mas podem assumir urn mimero infinito de valores em urn intervalo finito ou infinite.
k!
para
ce
...
42. Distribuicdo exponencial modela 0 intervalo de tempo T entre contagens sucessivas de urn processo de Poisson com media A> 0 e tern sua funcao densidade de probabilidade dada por /(1) = Ice-).t, para t ?: 0. 43. A media e a varidncia de uma vari:ivel aleat6ria exponencial silo
iguais a: I !!-= _ e 02
A /,1 44. A funeao densidade de probabilidade de uma vari:ivel aleatcria de Delvloivre-Laplace-Gauss e dada por:
f) I J\X =---exp
.,n:;;;
[-(x-!!f]
2o 2
-OO<X<=,
onde os seus parametres sao: Jl, media da populacao cr, desvio padrao da populacao 45. A distribuicao de Delvloivre-Laplace-Gauss constitui uma familia infinita de distribuicoes, uma para cada 11 e para cada (1. E simetrica em tomo da media, e a media, a mediana e a moda sao iguais e correspondem ao maximo da funcao.
Exercicios propostos
II cf
---------------------
I
,
determinado acontecimento a ser realizado: mais provavel, provavel, poueo provavel, irnprovavel e muito improvavel. Estime as probabilidades associadas a cada um desses terrnos.
2. 0 Jomal do Brasil de 23/lf99 publicou carta de urn leitor que pcdia uma revisao no procedimento dos sorteios da Megassena porque "Estou surpreso novamente com os concursos 147 daMegassena e 495 da Quina, ambos do dia 24 de dezembro, que prerniaram os numeros 06, 23 e 38, comuns nos dois concursos". Comente a respeito.
--
---
~-------.
98
3. A notfcia a scguir contradiz a teoria estatfstica? "Avia"a fere banhistas na praia do Leblonr" 4. A Folha de S. Paulo de 20JI1198 publicou a seguinte notfcia: "A ... estd com uma nova promociio em suas 63 lojas. A cada R$40.00 em compras, 0 cliente ganha uma raspadinha premiada. A empresa investiu US$500 mil. " Comente a respeito dessa notfcia. 5. Descreva urn possfvel espaco amostral para cada urn dos seguintes experimentos: a. sabe-se que urn grande lote de chips RAM contem urn pequeno mimero de chips ROM. Tees chips sao escolhidos aleatoriarnente e verifica-se cada um deles para identificar se e urn chip RAM ouROM; b. uma caixa de 10 chips contern urn chip nao-conforme e nove bons. Escolhem-se 3 chips aleatoriamente da caixa e testamnos. C. Uma instrucao SE...ENTAo ...SENAo e executada 4 vezes, 6. Considere urn sistema de cornputadores com cinco drives identicos. Urn possfvel experimento aleatoric consiste em verificar 0 sistema para ver quantos drives estao disponfveis atualmente. Cada drive esta em urn de dois estados: ocupado (rotulado 0) ou disponfvel (rotulado 1). Urn resultado do experimento (um elemento do espaco amostral) pode ser representado por urna tripla de Os e Is. Urn 0 na posicao ida tripla indica que 0 drive i esta ocupado e urn I indica que esta disponf vel. a. Indique quantos elementos tern 0 espaco amostral. b. Liste 0 espaco amostral, identificando cada evento elementar por EE, (exemplo: £Eo= {O, 0,0, 0, O}. c. Liste 0 evento E, descrito por no minima 4 drives estiio dispoIl{veis. d. Liste 0 evento contrario a E,. e. Descreva com palavras 0 evento contrario a E,. f. Liste 0 evento £2 deserito por no maximo 4 drives esuio dispoIl(veis. g. Liste 0 even to EJ descrito por no minima 4 drives estdo disponiveis e tambern no maximo 4 drives estdo disponiveis. h. Liste os elementos do evento £4 descrito par 0 drive 1 esui disponivel, I, Liste os elementos do evento E, descrito por no minima 4 drives estdo disponiveis ou a drive 1 estd disponivel. j. Se 0 evento E6 for 0 drive 1 estd ocupado ; indique a relacao dele com 0 evento E4• 7. Prove os seguintes teorernas: a. a probabi1idade do evento impossfvel e zero; b. a probabilidade do evento contrario e iguaJ a urn menos a probabilidade do evento a respeito; c. a probabilidade de acontecer pelo menos urn dos eventos A ou B quaisquer, definidos no mesmo espaco arnostral S. c igual it soma das probabilidades de oeorrer A mais a probabilidade de ocorrer B menos a probabilidade de A e B oeorrerem simultaneamente. Generalize 0 teorema da soma para quaisquer mimero de evenPr(A e B) = 0; b. a probabi lidade de ocorrerem simultaneamente dois eventos A e B do mesmo espaco amostral S e igual ao produto da probabi!idade de urn deles pela probabilidade condieional do outro, dado que 0 primeiro ocorreu. 8. Em um sistema k-de-n, verifique que: a. n., -::;: Rpllm],o-lO h. Rllin = RSe(l~ 9. Considere urn canal bin:irio de cornunicacoes transrnitindo palavras de n bits cadu, A probabilidade de uma transmi 5siio correta e p e 0 e6digo e capaz de eorrigir ate e (e ~ 0) erros. Por exernplo, se nenhum e6digo ou verificacao de paridadc c usado, entao e = O. Se se usa 0 codigo de Hamming para correcao de erro unico, en tao e = 1. Considerando que a transrnissdo de bits sucessivos e independente, escreva a expressao da probabilidade de uma transmissao correta de uma palavra. tos; d, sc A e B sao mutuarnente excludentes,
Capitulo 3/ Probabilidades:
uma introductio
10. Deseja-se cornparar dois esquernas diferentes para aumentar a confiabilidade de urn sistema com 0 usa de redundancia, 0 sistema necessita de s componentes identicos em serie para operar e existern m.s cornponentes, eada qual com a mesma confiabilidade R: a. decida qual dos esquemas das Figuras 3.22 e 3.23 prove a maior b. a confiabilidade de cada componente e R; determine as confiabilidades das duas configuracoes para m = 3 e s = 2, eomparando as duas expressoes para 0 esquema A e para 0 esquema B. Figura 3.22 Esquema A.
confiabilidade;
'l"c u'c
f
a esquerda de z = 1,0 C. a direita de z = - 0,34
b.
J~
11. Esboce urna funcao densidade de probabilidade reduzida de Delvloivre-Laplace-Gauss e sornbreie a area desejada para obter a
a. a direita de
area:
z = 1,0
d. entre z = 0 e z = 1,5 e. entre Z = 0 e z: = - 2,88 f. entre z = - 0,56 e z = - 0,20 g. entre z = - 0,49 e z = 0,49 h. entre Z = 2,5 e Z = 2,8 i, a esquerda de z = - 0,2 j, it direita de z = - 0,2 k. entre Z = - 0,2 c Z = I. entre Z = - 0,2 e z = 0,4 12. Em uma populacao com media 25 e desvio padrao 2, determine os valores de z correspondentes para os seguintes valores: a.23,0 b.23,5 c.24,O
d. l"i,2
e.25,5 13. Urna populacao de DeMoivre-Laplaee-Gauss tern media 40 e desvio padrao 3. Determine os valores correspondentes aos seguintes val ores de z:
a.O,lO
Capftulo 3 / Probabilidades: uma introducdo 14. Tendo em vista que a media de uma distribuicao de probabilidades e urn pararnetro de grande importancia, prove as seguintes propriedades: a. a media de uma constante c igual a propria constante; h. se multiplicarmos os valores de uma variavel aleatoria por uma constante, a media fica multiplicada por essa constante: c. a media de uma soma ou diferenca de variaveis aleatorias e igual a soma ou diferenca das medias dessas variaveis; d. se somarmos ou subtrairmos uma constante aos valores de uma variavel aleat6ria, a media fica acrescida ou diminuida dessa constante; e. a media do produto de duas variaveis aleatorias independentes e igual ao produto das medias dessas variaveis, 15. Prove as seguintes propriedades da variancia: a. a variancia de uma constante e nula; b. se multiplicarmos todos os valores de uma varia vel aleat6ria por uma constante, sua variancia fica rnultiplicada pelo quadrado da
constante; repita Sj ate Bj
99
senao repita S2 ate B2 Verificou-se que. em 60% das vezes, BI C verdadeiro e, nas restantes, B, e verdadeiro. Exatamente uma declaracao e comum as declaracoes Sj e S2: escreva (bom-dia). Ap6s 200 execucoes desse segmento de program a, foram impressas em 24 das vezes exatamente 3 mensagens de bom-dia. Se a probabilidade de a condicao B ser verdadeira for maior que 60%, voce aceitara esse segmento de prograrna. Qual a sua decisao? 23. Urn meteorologista acerta 80% dos dias em que chove e 90% dos dias ern que faz born tempo. Chove em 10% dos dias. Tendo havido previsao de chuva, qual a probabilidade de chover? 24. Urn rnetodo A de diagnostico de certa enfermidade da resultados positivos para 80% dos portadores da enfennidade e para 10% dos saos, Urn metoda B de diagn6stico da mesma enfennidade da positivo para 70% dos portadores e para 5% dos saos, Se 15% da populacao sao portadores da dita enfermidade, calcule a probabilidade:
c. a varifmcia de uma soma ou diferenca de variaveis aleatorias independentes e igual a soma das variancias dessas variaveis: d. se somarmos ou subtrairmos urna constante aos valores de uma variavel aleat6ria, sua variancia permanece inalterada. 16. Demonstre que para a distribuicao binomial a media e igual a np e a variancia e igual a npq. 17. Demonstre que para a distribuicao de Poisson a mediae a varifincia sao iguais. 18. Demonstre que para a distribuicao exponencial a media e a variancia saoiguais. 19. Urn grupo de assinantes de urn provedor e observado continuamente durante 80 minutos no penodo de pico. Durante esse tempo, eles fizeram 30 ligacoes, com urn tempo total de uso de 4.200 scgundos, Determine a taxa media de chegadas.
a. de uma pessoa fomecer resultado positivo pelos dois metodos; b. de, entre duas pessoas enfermas, pelo menos uma fomecer resultado positivo por algum metodo. 25. A confiabilidade (probabiI idade de funcionar) de urn equipamento c 90%. Determine a confiabilidade de urn sistema funcionar com doi s componentes se eles for-emcolocados: a. em serie; h. em paralelo.
16
20. No Jornal do Brasil de 24 de janeiro de 1999, apareceu a seguinte notfcia: Segundo as probabilidades matemdticas, fazendo uma aposta minima da Megassena, a chance de acertar os seis mimeros no universo de 60 (Sena) e de uma a cada 50.063.860 apostas, ou seja, se no concurso houver apostas com todas as combinaciies possiveis, hd, segundo os fundamentos matemdticos, uma ocasiiio favordvel de se ter ace rtador em cada 50.063.860 apostasP a. desenvolva os calculos necessaries para determinar 0 valor 50.063.860; b. comente a respeito da expressao probabilidades matemdtlcas. 21. Para se resolver quaisquer problemas de calculo das probabilidades, os passos sao os seguintes: • passo I: identifique 0 espaco amostral; • passo 2: atribua probabilidades; • passo 3: identifique os eventos de interesse; • passo 4: calcule as probabilidades desejadas. Considere urn laboratorio com seis rnicrocomputadores. Suponha que cada micro tern a mesma probabilidade de estar ocupado (ou disponivel) que qualquer outro. Considere os seguintes eventos: A = no minima 2 micros mas 'lao mais que 5 ocupados. B '"' no mInima 3 micros mas ndo mais que 5 ocupados. C = todos os micros disponiveis ou um numero par de micros ocupados. a. determine qual dos eventos A, B e Ceo mais provavel. b. voce decide comprar mais micros somente se a probabilidade de pelo menos urn dos eventos A, B ou C ocorrerem for maior que 90%. Qual a sua decisao? 22. Considere 0 seguinte segmento de programa de computador: se B entao
a esquerda
27. Uma companhia de aviacao chegou a conclusao de que 5% das pessoas que fazem reserva em um dado voo nao comparecem ao embarque. Consequentemente, adotou a polftica de vender 70 lugares para urn aviao de 68 assentos, Qual c a probabilidade de que todas as pessoas que comparecerem encontrarao lugar no voo? 28. Ap6s 28 dias de curagem, 0 cimento Portland comum tern uma resistencia compressiva media de 4.000 psi. Dados anteriores permitem afirmar que essa resistencia tern uma distribuicao de Delvlcivre-Laplace-Gauss com desvio padrao de 120 psi. Determine as seguintes probabilidades para uma resistencia compressiva de 28dias: a. menor que 3.900 psi b. menor que 3.850 psi c. maior que 3.850 psi d. maior que 3.880 psi 29. A rend a media de uma grande comunidade pode ser razoavelmente aproximada por urna distribuicao de DeMoivre-Laplace-Gauss com media de R$5.000 e desvio padrao de R$3.000: a. que percentagem da populaeao estima-se ter renda superior a R$8.600? b. em uma arnostra de 50 pessoas, quantas pode-se esperar que tenham menos de R$2.000 de renda? 30. Urn fomecedor de ferro alega que seu produto apresenta resistencia a tensao que pode ser model ada aproximadamente pela distri-