Você está na página 1de 26
“Vrilha Disney A ariabiidade hot praco: de enirega era programas da prducae, Os imctodes nesta medire ononder variabildade Figura3.2 Dads historices ‘mastranda © rnimero de dias necessérios part a conclusio dos pedidos, [Rendimento (5 milhoes) Filmes daPixar _ Rendimento (S mithées) 346 Toy Story 362 © Coraunda de Notre 325 Vide de inseto 363 Dame Hercules 233 Tay Story 2 485 ‘Mulan 304 Monsiros 5.4, 55 Tarzan 448 Procurandls Newo 265 Dinessaure 354 Os incrivess 631 ANova Orda do se Imperador Lilo 2 Stitch 27 (Q Planeta do Tesoure 110 O Livro da Selva? 36 lnmdo Urse 250 Nem Que ¢ Vaca Tussa 104 © Gulinho Chicken Little 249 3.2 Medidas de variabilidade Além das medidas de posigo, é desej Por exemplo, suponha que voe jdvel considera as medidas de variabilidade ou de dispersio. ja um agente de compras de uma grande empresa € que te Jarmente fuga pedidos a dois fornecedores diferentes. Depois de virios meses de operacdo, voce descobre que o niimery médio de dias necessirios para conclufrem os pedidos é de dez dias para ambos os fornecedores, Os histogramas que sintetizam o nimero de dias titeis para que os fornece- dores concluam os pedidos sio mostrados na Figura 3.2. Apesarde o mimero medio de dias ser dez para ambos os fornecedores, os dois demonstram 0 mesmo grau de confiabitidade em termos de ‘fewuarem as entregas no prazo devido? Note adispersao, ou a variabilidade, dos prazos de enirega indicada pelos histogramas. Qual fornecedor vocg preferitia? Para a maioria das empresas, receber matérias-primas ¢ suprimentos no prazo programado & importante. Os prazos de entrega de sete ou oito dias mostrados para a J. C. Clark Distributors poderiam ser vistos favoravelmente; entretanto, algumas das entregas que levam de 13.2 15 dias poderiam ser desastrosas em termos de manter a mao de obra ocupada e a produgdio dentro do prazo determinado. e z 04) z = JC. Chak es 3 Distributors 3 3 | j z z EE eee ee ‘Namerode dias diteis Nimero de dias éteis aplicada 4 administrago e economia Esse exemplo ilustra uma situagdo na qual a variabilidade nos prazos de entrega pode ter uma importancia fundamental na escolha de um fornecedor. Para a maioria dos agentes de compra, a menor variabilidade apresentada pela Dawson Supply, Inc, tornaria esse fornecedor o preferivel Voliemos agora a dliscussio de algumas medidas de variabilidade comumente usadas. Amplitude A medida mais simples de variabilidade é a amplitude. Amplitude Amplitude = Maior valor ~ Menor valor ‘Consultemos 0s dados sobre saldrios iniciais dos graduados em administracdo, apresentados na Tabela3.1. O maior salério inicial €$ 3.925, €0 menor, $3.310. A amplinde ¢ 3.925 ~3.310 = = 615. Ainda que a amplitude seja a medida de variabilidede mais facil de calcular, raramente € usada de forma isolada, A razio disso & que a amplitude se baseia comente em duas das observa. ges ¢, desse mode, é altamente influenciada por valores extremos. Suponka que um dos graduados receba um saldtio inicial de $ 10.000 por més. Nesse caso, a amplitode seria 10.000 ~ 3.310 = 6.690 em vez de 615. Esse valor elevado para a amplitude ndo represemtaria de mancira correta a variabilidade nos dadox, porque [1 dos 12 salirios iniciais esto expalhados no intervalo que vai de 3.310 23.730. Amplitude interquartil Uma medida de variabilidade que supera a dependéncia de valores extremos ¢ a amplitude inter- quartil (IQR). Essa medida de variabilidade ¢ a diferenca entre o terceiro quartil, Q,, ¢ 0 primeira, quartil, Q,. Em outras palavras, a amplitude interquanil é 0 intervalo correspondente aos 50% dos dados intermediarios. Amplitude interquartil IQR = Q,~ Q, (3.3) Em relago aos dados sobre salérios mensais iniciais, os quartis sao Q, = 3.600 ¢ Q, = 3.465. Desse modo, a amplitude interquartil é 3.600 — 3,465 = 135. Variancia A varidincia é uma medida de variabilidade que utiliza todos os dados. A varidncia baseia- se na diferenea entre o valor de cada observacdo (1;) e a média. A diferenca entre cada x,¢ a média ( © para uma amostra ¢ w para uma popalagao) denomina-se desvio ent torno da media. Para uma amostra, o desvio em tomo da média € escrito como (x, ~ %); para uma populacio, cle € escrito como (x, ao quadrado. o elevados #). No calcalo da variancia, os desvios em tomo da média Se os dados se referirem a uma populacdo, a média dos desvios quadriticos é denominada, varidncia populacional. A varidncia populacional € denotada pelo simbolo grego o®. Para uma populacdo de N observagdes, com denotando a média populacional, a definicio da varianeia populacional é a seguinte: “Avwriincia Fepesteal sé “umestimadsr da varinci “populacional Avvaritincie € ail para compara ¢ vanadate de das on ‘mais varices pn 3° o> annie ernie amen amieeay Variancia populacional oe (24) Ny Na maiosia das aplicagdes estatisticas, os dados que so analisados se referem a uma amostea Quando calculamos a varidncia amostral, frequentemente, nos interessa usé-la para estimar a va~ ridneia populacional a2, Embora uma explicagio detalhada esteja além do abjetivo deste livio, & Possivel demonstrar que se @ soma dos desvios quadriticos em torno da média amostral for dividi- da porn — 1, € nio porn, a variéncie amostral resultante fornecerd uma estimativa no enviesada da varidneia populacional, Por essa razio, a varidincia amostral, denotada por s', é definida da seguinte maneira Varidncia amostral (3.5) Para ilustrarmos 0 céleulo da varidneia amostral utilizaremos ox dados dos tamanhos de clas- se da amostra de cinco classes. universitérias apreseatados na Seedo 3.1. Um resumo dos dados, incluindo @ calcula dos desvios em torno da média e os desvios quadrdticas em torno da média, & mostrado na Tabela 3.2. A soma dos desvios quadriticos ao redor da média & Six, — 3) = 256. Portanto, comn~ 1 =4, a varidneis Antes de prosseguirmos, nota-se que as unidades associadas & varidacia amostral muitas vezes causam contusdo. Uma vez que os valores somados no célculo da varidincia, (x, — ¥), esto clevados ao quadrado, as unidades associadas & variancia amostral também silo elevadas ao quadrado. Per exemplo, a varidneia amostral dos dados de tamanhos de classe € s? = 64 (estudantes)’ Tabela 32 * Célculos dos desvios e dos desvios quadréticos em tomo da média dos dados de ta- manhos de classe, Bix, — 5) 3x — As unidades elevadas ao quadrado associadas & variancia tornam dificil obter uma compreensio e uma interpretagio intuitivas do valor numérico da varidneia. Recomendamos que voct considere 4 variineia como tuma medida titil para comparar a quantidade de variabilidade de dues ou mais variaveis. Fm uma comparagio de variéveis, aquela que tem a maior varifncia exibe mais variabi- lidade. Uma interpretagiio adicional do valor da variineia talvez nfo seja necesséria, Eas eintn Nascar senna Odesvio paris famosnal s€0 estimadorde esvia pea epulacienal 0. ‘Como outra ilustragZo do céleulo da variéncia amostral, considere os salérios iniciais relacio- nados na Tabela 3.1 para os 12 graduadas em administragao, Na Seed 3.1 mostramos que a média dos salérios iniciais da amostra era $ 3.540. O cdleulo da varidncia amostral (5°= 27.40.91) é mostrado na Tabela 3.3, Tabela 3.3 * Célculo da variéncia amostral dos dados de saldrios iniciais. i Dewioem torneo da Desvio quadritico Salério mensal() Média amostral (2) media (x ~ torno da média (x, — 3450 540 =90 3600 o 301850 3H = 3) 2%, Usilizando a equacto (5), se FORE 8 MUO areas Nay Tabelas 3.2 € 33, mostramos tanto a soma dos desvios em toro da media como ¢ some dos desvios quadréticos em tomo da média, Para qualquer conjunto de datdos, a soma dos desvios em tomo da media sempre sera igual a zero. Note que nas Tabelas 3.2 ¢ 3.3, B(x, — ¥) = 0. Os desvios positivos ¢ os negatives se cancelam mutuamente, fazendo com que a soma dos desvios em toro. da média seja nula. Desvio padrao © desvio padrio ¢ definido como a raiz quadrada positiva da yaridncia. Seguindo a notagao que adotamos para uma varidncia da amostra e para uma varidncia da populagdo, usamos s para deno- tar 0 desvio padrio da amostra e o para denotar 0 desvio padraio da populagdo. O desvio padrio & derivado da varincia da seguinte maneira: Desvio padrao Desvio padeo amostral = 5 = Vs? 8.6) Desvie padréa populacional =o = Vo? a7) Lembre-se de que a varidncia amostral 20 exemplo dos tamanhos de classe de cinco classes uni- ‘6d = 8. Em relagio aos dados = 165,65 versitdrias 6 © = 64. Desse modo, 0 desvio padro amosteal 6 ¢ sobre salatios iniciais, o desvio padeao amostral & = V27.440, Pstesio padrio Pas facil de eeeprsar do ea variancis porqueele é eedido nae pases unidases Bor dads Ococteiente de variagdo 6 saa medida de Sariabitiade lative: ele sede odesvio pardon rea md, Capito "=! Bets descr: mend sumer (© que se ganha ao converter a varianciz em sew comespondente desvio padriio? Lembre-se de gue as unidades associadks & variincia so elevadas ao quadrado, Por exemplo, a veriineia amas- tral dos dados de salirios iniciais dos graduados em administracao é s¢= 27.40.91 (d6lares)?. Uma vez que o desvio padrio éa raiz quadrada da varianeia, a unidade da variincia, délares elevados 20 quadrado, é convertida em délares no desvio padio, Assim, o desvio padrio dos salétios iniciais & $ 165,65. Em outras palavras, odesvio padrio é medido nas mesmas tinidades dos dads oziginais. Por esse motivo, o desvio padrio ¢ mais facilmente comparado & média ¢ a outras estatisticas me didas nas mesmas unidades que os dads originals. Coeficiente de variacao Em algumas situagdes, podemos estar interes deseritiva que indique quio grande € 0 desvio padrdo em relagdo 2 média, Essa medida & chamada coeficiente de variacdio e geralmente ¢ expressa como uma porcenta Coeficiente de variaciio oe io padrao. (3.8) Média * 100) Em relaciio ao exemplo dos tamanhos de classe, descobrimos que a média amostral 6 44¢ queo desvio padraio da amostea é 8. O coeficiente de variacdo é (8/44) X 1001% = 18.2%. Em palavras, © coeficiente de variagao nos diz que o desvio padrao amostral represental 8,2% do valor da média amostral, Em relagdo ao exemplo dos salérios iniciais, com uma média amostral igual a 3.540 ¢ um desvio padrdio amostral igual a 165,65, 0 coeficiente de variagao, [(165,6513.540) X 100]% = 4,7%, nos diz que 0 desvio padrio amostral representa someate 4,79 do valor da média amostral. Em geral, 0 coeficiente de variaedo € uma estatistica til para compararmos a variabilidade de varidveis que 18m desvios padrao diferentes © médias diferentes. 1 Facotes estatisicas ¢ planithas eletrSnicas podem ser usados para realizar a estatstica descritiva anresestada reste eapitue (o. Depois que 0s dads sto intraduzidos em una planitha, alguns comandes simples podem ser utiizados para gear os resultados desejados (output Nos trés apndice: apresenta- ddos no firal do capitute, mostramos como o Minitab, o Excel © 0 StatTools podem ser usados pare calcular as estatisticas descritivas desvio padrao é ume medida comumente utiizada para se calcular orisco essociado 20 investimento em acées e fundos de agoes [Business Week, 17 de janeiro de 2000) Ele fornece Uma medida de come 0s reternos mensaisflutuam em tomo do retorno medio de longo prazo. Meétodos 3. _Artedondar valor da mécia amostral ve os valores dos des- vios quadraticos (x, 3)’ pode levar a erros quando se usa uma caiculadore para calcular a variénciae 0 desvio padrdo Fara sedurir 0s erros de arredondamento, recomendamos utilizar pelo menos seis digitos significativos durante os «lcules intermedisrios. A variancia ov © desvia padrio re- sultante pode entio ser arreclondado para uma quantidace menorde digitos 4. Uma férmula alterativa para o calcul da varincia amostral é Bd ~ 0 n-1 em que 2x? 13. Considere uma amostra com os valores 10, 20, 12, 17 e 16. Caleule a amplitude ¢ a ampli- tude interquartil BEDI satstic apticada& adniniseagto economia ou AUTO TESTE v AUTO TESTE wt 14. Considere uma amostra com os valores 10, 20, 12, 17 ¢ 16. Caleule a yarifincia ¢ 0 desvio padrdo. 15. Considere uma amostra com 0s valores 27. 25, 20, 15, 30, 24, 28.6 25. Calcule a amplitude, aamplitude interquartil, a variéncia e o desvio padrio, Aplicagées 16. As pontuagées de um jogador de boliche em seis jogos foram 182, 168, 184, 190, 170.¢ 174. Utilizando esses dados como uma amostra, caleule as seguintes a. Amplitude b. Variancia tatisticas descritivas ¢. Desvio pad 4. Coeficiente de variagao 17. Adquirirum sistema integrado de home heater éa maneira mais facil e mais barata de obter som surround em um centro de diversdo doméstico. Uma amostre de precos ¢ apresentada a seguir (Consumer Reports Buying Guide, 2004). Os pregos se referem a modelos com DVD. player ea modelos sem DVD player. Sony HT-BOCDP $450 Pioneer HTP-230 $300 Fioneer HTD-330DV. 300 Sony HT-DDW50. 300 Sony HI-CBO0DP 400 Kenwood HTB-306 360, Panasonic SCHT9O0 500 Rea KI-2500 20 Panasonic SCMTI 400 Kenwood HT8-206 300 a. Calcule 0 prego médio para os modelos com DVD playere 0 prego médio para os modelos sem DVD player. Qual € o prego adicional que se paga para ter um DVD player inclufdo em uma unidade de home theater? b, Calcule a amplitude, a variancia e o desvio padrio das duas amostras. O que o Ihe diz. a respeito dos pregos de modelos com e sem um DVD player? 18. Os precos de aluguel didrio de carro de uma amostra de sete cidades da regido leste dos Estados Unidos sto os seguintes (The Wall Street Jounal, 16 de janciro de 2004) 2 informa Miami Nova York Orlando Pittsburgh ‘Washington, DE. a. Caleule a média, a varidncia e o desvio padido dos pregos de aluguel de carros, b. Uma amostra similar de sete cidades da regio oeste dos Estados Unidos apresentou um prego médio de $ 38 por dia para o aluguel de carros. A varidncia e 0 desvio padto foram 12,3 ¢ 3,5, respectivamente. Discuta quaisquer diferencas entre os precos de aluguel de carros nas cidades do oeste e do leste dos Estados Unidos. 19. O Los Angeles Times publica regularmente um indice da qualidade do at de virics regises do sul da Califémnia, Uma amestra dos valores relativos ao indice da qualidade do ar em Pomona fornecen ox seguintes dados: 28, 42, 58, 48, 45, 55, 60, 49 e 50. Capt’ = sbatnsea densi cei imi a. Calcule a amplitude e a amplitude interquartil b. Calcule a varidncia e 0 desvio padrao amostrais. Uma amostra de leituras do indice da qualidade do ar em Anaheim fomeceu um indice mé- dio igual a 48.5. uma varidincia igual a 136 e o desvio padrio igual a 11,66. Quais compa- rages voce pode fazer entre a qualidade do ar em Pomona e em Anaheim, com base nessas cestatisticas descritivas? 2). Os dados apresentados a seguir foram usados para construir os histogramas do némero de dias necessérios para a Dawson Supply Inc, e a J. C. Clark Distributors emitirem os pedidos de compra (veja a Figura3.2): Praco de entrega da Dawson Supply (em dias! 10 9 10 MM 10 M10 10 Praco de entrega da Clark Distribuiors (em dias): 8 10 13 7 10 M10 7 15 12 Use a amplitude e 0 desvio padrio para sustentar a observagao anterior de que a Dawson ‘Suply apresenia os prazos de entrega mais coerentes ¢ confidveis. 21. Como os custos de produtos alimenticios se comparam em todo o territério norte-ameri- caro? Usando uma cesta bisica de de7 itens que incluem farinhs de trigo, leite, po, ovos, café, batatas, cereais e suco de laranja, a revista Where to Retire calcvlou o custo da cesta basica em seis cidades ¢ em seis retirement areas! de virias partes do territ6rio nacional dos Estados Unidos (Where 10 Retire, novembro/dezembro de 2003). Os dados sobre 0 custo da cesta bésica com 0 menor prego em d6lares sdo os seguintes: Buffalo, NY $3 Bilow-Gulfpert. MS $29 Des Moines, 1A Ey Asheville, NC 2 Hartford, CP 2D Flagstaff, AZ. 2 os Angeles. CA 8 Filton Head. SC 34 iar FL 36, Fort Myers, FL eA Pittsburgh, PA 2 ‘Santa Fé, NM 3 a. Calcule a média, a varidncia ¢ o desvio padrio da amostra de cidades e da amostra de reti- rement areas. b. Quais observagies podem s 22. A National Retail Federation (Federagdo Nacional dos Varejistas) relatou que os calouros de faculdades gastam mais em itens para a volta as aulas do que qualquer outro grupo uni- versitario (154 Today, 4 de agosto de 2006). Os dados amostrais comparando os gastos para a volta 4s aulas de 25 calouros e de 20 estudantes seniores so mostrados no arquivo de dados denominado BackToSchool. feitas com base nas duas amostras? a. Qual é a média dos gestos referente 4 volta as aulas para cada grupo? Os resultados so consistentes com 0 relatério da Federacdo Nacional dos Varejistas? b. Qual é a amplitude dos gastos em cada grupo? ©. Qual a amplitude interquartil para os gastos em cada grupo? 4. Qual € 0 desvio padre dos gastos em cada grupo? €. Qual grupo de estudantes tem maior variagio nos gastos com a volta as aulas: calouros ou seniores? ‘Lugar tranquilo, afastado das grandes cidades, pars onde se mudam ax pessoas depois de se aposentarem, Lugar de deseanso ¢ lazer: retro. Estatistica aplicada 3 administragao e economia 23. As pontuagdes obtidas por um golfista amador no Bonita Fairways Golf Cource (Curso de Golfe de Bonita Fairways), em Bonita Springs, Fldrida, durante 2005 ¢ 2006 so as seguintes: Temporedade2005: 74 7891S OTD Temporedade2000: 71 «1S TT ST a. Utilize « média e o desvio padrio ps do de dois anos, waliar 0 desempenho do golfista durante esse perio- b. Qual é a principal diferenca no desempenho entre 2005 ¢ 2006? Qual methora, se houve alguma, pode ser observada nas pontuagdes de 2006? 24. Foram registrados os seguintes tempos pelos corredares de 400 © 1,600 metros dé uma equipe de atletismo de uma universidade (os tempos estio expressos em minutos): Tempos para 400 metros: 092 0.98 1,04 0.90 0.99 Tempos para 1.600 metros: 452435460470 4,50 Depois de ver es amostra de tempos de corrida, um dos treinadores comentou que os corredores de 400 metros apresentaram tempos mais homogéneos, Use 0 desvio padrio ¢ 0 Coeficiente de variagtio para sintetizar a variabilidade dos dados, O coeticiente de vari indica que a afirmagao do treinador se justi 3.3 Medidas da forma de distribuigio, da posicao relativa e detecg’io de valores atipicos (outliers) Deserevemos diversas medidas de posigio e de variabilidade dos dados, Além disso, muitas vezes ¢ importante se obtera medida da forma de uma distribuicdio. No Capitulo 2, observamos que um histograma fornece uma apresentagdo grafice que mostra a forma de uma distribuicao. Uma medi da numérica importante da forma de uma distribuicdo é chamada assimetria. Forma da distribuicdo A Figura 3.3 mostra quatro histogramas construfdos a partir de distribuigdes de frequéncias relati- vas. Os histogeamas dos painéis A ¢ B apresentam-se moderadamemte assimétricos. O do painel A Possui assimetria & esquerda; sua assimetria & de ~0,85. O histograms do painel B possui assimetria A direita; sua assimetria é de +085. O histograma do painel C ¢ simeétrico; sua assimetria é nula, O histograma do painel D ¢ fortemente assimétrico & direita; sua assimetria ¢ 1,62. A f6rmula usada para calcular a assimetria € um tanto complexa” Entreianto, a assimetria pode ser prontamente calculada utitizando-se software estatstico. Para dados com assimeiria A esquenda, negativa; para dados vom assimetria a direita, a assimettia € positiva. Se os dados a assimetria € mula. assimetria € » simétricos, Para uma distribuico simétriea, a média e a mediana so iguais. Quando es dados tém assi metria positiva, a média ycralmente seré maior que a mediana; quando os dados tem assimetria negativa, a média normalmente serd menor que a mediana. Os dados utilizados para construir © histograma do painel D sao de compras efetuadas por clientes em uma loja de vestudtio feminino. © valor médio das compras € $ 77,60 e a mediana do valor das compras 6 $ 59,70. Os poucos va- Joes de compra relativamente elevados tendem a aumentar a média, ao passo que a mediana niio € afetada por esses valores de compra mais altos. A mediana € uma medida de posicéo preferivel quundo os dados sao fortemente assimétricos., ‘A formula para calcular a assimetria dos dados & Pinel A:Moderadamente assimétri» & esquerda _—_~PainelB: Moderadiamentesssiméirico 8 direita ae Assineiia = 0.85 ee Asietia = 085 0s) oa| es) 025 oa 2 ons os on ou oss 0085 o 0 Paine C: Simeétrico Painel D: Fortemente assimetric &dirita Asimetets = 0 2 Assineria 03 0 02) O15 02 ee oas oa ons ne 0 0 Escores-z Além das medidas de posigio, de variabilidade ¢ de forma, também estamos interessados na po- 10 relativa dos valores contidos em um conjunto de dados. As medidas de posigao relativa nos ajudam a determinar quo afastado um valor em particular esta da méd Usandio tanto a média como o desvio padrao, podemos determinar a posigdo relativa de qual: quer observacao. Suponha que tenhamos uma amostra de 1 observagbes, sendo os valores denota: dos por 1,,.¥,... ...t,, Além disso, suponha que a média amostral, ¥, ¢ o desvio padrio amostral, s, jf tenham sido caleulados. A cada valor x, hé outro valor associado denominado escore-c. A Equagao (3.9) mostma como o escore-: & ealeulado para cada x Escore-z = (39) onde ‘escore-c para x média amostral lesvio padrdio amostral muitas vezes, é denominado valor padronizado, O escor como 0 mime de desvios padrio que x, esid afastado da média ¥. Por exemple, s, = pode ser interpretado 2 indicaria Estatisica aplicada A administragdo ¢ economia ‘que x, € 1,2 desvio padrao maior que a média amostral. De modo similar. 2, = -0.5 indica x,£0.5, 04 44, desvio padrio menor gue a média amostral. Ocorre um escore-: maior que bobservagées com valores maiores que a média, e ocorre um escore-z menor que zero para (ges com valores menores que a média, Um escore-z igual a zero indica que © valor da ol é igual A média ‘O escore-z de qualquer observagio pode ser interpretado como uma medida da posigo da observagao no conjunto de dados. Desse modo, pode-se dizer que as observagdes feitas diferentes conjuntos de dados que possuem 0 mesmo escore-< tém a mesma posigao temmios de estarem 0 mesmo ntimero de desvios padrao afasiados da médi Os escores-z dos dados dos tamanhos de classe esto calculados na Tabela 3.4. Ler que amédia amostral, x = 44, 0 desvio padrio, s = 8, foram caleulados anteriormente, 0: de —1,50 correspondente & quinta observago mostra que elt é a mais afastada da média: 1,50 desvio padrio abaixo da média. Teorema de Chebyshev OTeorema de Chebyshey nos possibilita fazer afirmagées sobre a proporgio dos dados q ‘vem estar contidos em um niimero expectfico de desvios padrao da média, Tebela 4 © Escores: dos dados sobre tamanhos de classe. ‘Teorema de Chebyshev Pelo menos (1 — 1/¢*) dos valores de dados devem estar cantidos em desvios padrio da em que 2 & qualquer valor maior do que 1 , 3 e4 desvios padrio, so as seguint Algumas das implicagdes desse teorema, com = + Pelo menos 0,75, ou 75%, dos valores de dads devem estar contides em z= 2 des dro da média. + Pelo menos 0,89, ov 89%, dos valores de dados devem estar contidos em z = 3 desvids p dro da médis. Pelo menos 0,94, ou 94%, dos valores de dados devem estar contidos em z drao da média. 4 desvios| ‘Como um exemplo do uso do teorema de Chebyshev, suponha que as notas dos exames 5 trais de 100 estudantes de um curso de estatistica de uma faculdade de administracao tenham uf media 70 ¢ um desvio padrdo igual a 5. Quantos estudantes tiveram notas de exame entre 60 € 8 Quantos estudantes tiveram notas entre 58 ¢ 822 Em relagdo as notas entre 60 e 80, observamios que 60) estd dois desvios padrao abaixo da mé € que 80 esté dois desvios padrdo acima da média. Utilizando 0 teorema de Chebyshev, {que pelo menos 0.75 ou pelo menos 75% das notas dos alunos devem estar contidas dentro de de Capitulo 3 * Esatistica deseritiva: medidas muméricas ! IEEE] desvios padrio da média. Desa forma, pelo menos 75% dos estudantes devem ter obtido notas entre 60 e 80. Em relagio ds notas entre 58 © 82, vemos que (58 ~ 70/5 =-2,4 indica que 58 esti 2,4 desvios padrio abaixo da média e que (82 ~ 70)/5 = +2,4 indica que 82 esté 2,4 desvios padrlo ucima da média. Aplicando 0 teorema de Chebyshev com z= 2.4, obtemos: ( c *) ( = | 0826 Polo menos 82.6% dos estudantes devem ter notas de exame entre 58 ¢ 2, Regra empirica Uma das vantagens do teorema de Chebyshev € que ele se aplica a qualquer conjunto de dados, independentemente da forma da distribuicdo dos datos. Na verdade, ele poderia ser usado com qualquer uma das distribuigdes da Figura 3.3. Em muitas aplicagbes préticas, no entanto, os con- Juntos de dados exibem uma distribuicdo simétrica em forma de morro ou de sino, como mostra a Figura 3.4. Quando se acredita que es dados se eproximam dessa distribuigdie, pode-se usar a regra ‘empirica para determinar a porcentagem de valores que devem estar contidos em um miimero es- pecifico de desvios padrio da média, Regra empit Para dados que tém uma distribui¢do em forma de sino: * Aproximadamente 689% dos valores estardo contidos dentro de um desvio padrio da média. a + Aproximadamente 95% dos valores estar cor da média, + Quase todos os valores estattio contidos entre tr8s desvios padrio da média, os dentro de dois desvios padriio Por exemplo, as embalagens de detergente liquido so preenchidas automaticamente em uma link de produgao. Os volumes de preenchimento frequentemente tém uma cistribuigdo em forma de sino. Se a média dos volumes de preenchimento for 16 ongas ¢ o desvio padrao, 0,25 onga, po- demos usar a regra empitica para tirar as seguintes conclusdes: + Aproximadamente 68% das embalagens preenchidas terao volume de cetergente entre 15,75 ‘ongas ¢ 16,25 ongas (dentro de um desvio padrio da média) Haein dnslaceacs enum Bama bow deta verficar se hd outers antes de tomar decsdes owas em nls de dadas. Frquentenente, se facer 0 egiar de daaos ¢an digi es no compicador Os valores aipices exchos, mas st preiado aadequabildate vera + Aproximadamente 954 das embalagens preenchidas terdo volume de detergente entre 15,50 fongas € 16,50 oncas (dentro de dois desvios padrdio da média). + Quase todas as embalagens preenchidas terfio volume de detergente entre 15,25 ongas € 16,75 ongas (dentro de trés desvies padriio da média), Detecedo de valores atipicos (outliers) As vezes, um conjunto de dados teré uma ou mais observagdes com valores excepcionalmente grandes ou pequenos. Esses valores extremos <0 chamados valores atipicos (outliers). Estatis- ticos experientes tomam medidas para identificar esses valores atfpicos e depois reveem cada um. deles minuciosamente. Um outlier pode ser um valor que foi incorretamente re; trado, Se assim for, pode ser corrigido antes de prosseguir a andlise. Um outlier também pode ser proveniente de uma observagio que foi incometamente incluida no conjunto de dados; nesse caso. pode ser elimi= nada. Por fim, um outlier pode ser um valor de dados incomum que foi registrado corretamente € que realmente pertence ao conjunto de dados. Nesses casos, ele deve permanecer, ‘Valores padronizados (escores-2) podem ser utilizados para identificar outliers. Lembre-se de que a regra empirica nos permite concluir que, em relacdo a dados com uma distrituigio em forma de sino, quase todos os valores de dados estario contidos dentro de trés desvios padrao da média: Portanto, ao usar escores-z para identificagao de valores atipicos, recomendamos tratar qualquer valorcom um escore-z menor que -3 ou maior que +3 como um outlier. Esses valores podem entio ser revisados quanto 2 precisio © para determinar se pertencem ao conjunto de dados. Consulte os eseores. referentes aos dados de tamanhos de classe da Tabela 3.4. 0 escore-s igual 2 -1,50 mostra que 0 quinto tamanho de classe € 0 mais afastado da média, Entretanto, esse valor padronizado esté dentro da diretriz.-3 a +3 para deteccdo de outliers. Desse modo, os escoresez no indicam valores ztfpicos nos dados de tamanho de classe. 1. O tearema de Chebyshev ¢ aplicével a qualquer conjunta de _cluirsomente que pelo menos 75% dae valores extario dente dados e pode ser usado para estabelecer 0 niimero minino esse intewvalo, de valores que estarao dentro de determinado numero de 2, Antes de analisaem um conjunto de dados, os estatisticos desvios pacrdo ca médla. Quando se sabe que os didos ttm _geralmente fazer uma série de vetficagées para asegu aproxmadamente a forma de sino, pode-se cizer mais coisas. a validade dos dados. fm um estudo de gande porte rio € Por exemplo, a regra empirica nos permite dizer que aprexi-__incomum a ocorréncia de ertes 20 registrar 08 dados ou 30 macamente 95% dos valores estardo dentro de dois desvios _digita-los no computador. A identificacdo de valores atipicas padrdo da média: 0 teorema de Chebyshev nos permite con- _ & uma ferramenta utilizada para conferr a validade dos dadog. AUTO [) reste Hy Métodos 25. Considere uma amostra com os valores 10, 20, 12, 17 e 16. Calcule oes das cinco observagdes. 26. Considere uma amostra com média 500 e desvio padriio 100. Quais so 0s escores-z seguintes valores: 520, 650, 500, 450 e 280? 27. Considere uma amostra com média 30 € desvio padrio 5. Use 0 teorema de Chebyshev pi determinar a porcentagem dos dados que se encontram dentro de cada um dos seguiint intervalos: a 20240 b 15245 22.38 de cada ui re: ip = ulead aaa a. 18042 e. a8 28. Suponha que os dados tenham uma distribuigdo em forma de sino com média igual « 30 € desvio padrio, 5. Use a regra empirica para determinar a poreentagem de dados que se encontram deniro de cada um dos seguintes intervalos: a. 20240 b. 15445 ©. 25.035 Aplicagdes 29. Os resultados de uma pesquisa em nivel nacional mostraram que, em média, os adultos dormem 6,9 horas por noite. Suponha que o desvio padrio seja de 1,2 hora. a. Use 0 teorema de Chebyshev para calcular a porcentagem de individuos que dormem entre 4,5.€ 9,3 horas. b. Use 0 teorema de Chebyshev para calcular a porcentagem de individuos que dormem entre 3.9.€ 9,9 horas, €. Suponha que 0 némero de horas de sono siga uma distribuigdo em forma de sino, Use a regra empirica para calcular a porcentagem de individuos que dormem entre 4,5 ¢9,3 horas por dia. Como esse resultado se compara com o valor que vocé obteve a0 usar 0 teorema de Chebyshev do item (a)? 30. A Energy Information Administration publicou que o prego médio de varejo por galio de gasolina comum era $ 2,05 (Energy Information Administration, maio de 2009). Suponha que o desvio padrio tenha sido $ 0,10 e que © prego de varejo por galdo teaha uma distri- buigdo em forma de sino. a, Qual porcentagem de gasolina comum foi vendida entre $ 1,95 e $ 2.15 por gato? b. Qual porcentagem de gasolina comum foi vendida entre $ 1,95 e $ 2,25 por galio? ©. Qual porcentagem de gasolina comum foi vendida a mais de $ 2,25 por gakio’ 31. A média nacional do exame de matemédtica do College Board's Scholastic Aptitude Test (SAT) € 515 (The World Almanac, 2009). O College Board reescalona periodicamente as notas do exame, de tal forma que 0 desvio padrao seja aproximadamente 100, Responda as perguntas a seguir usando uma distribuicdo em forma de sinoe a regra empirica para as notas do exame de matemiitica. a. Qual € a porcentazem dos estudantes que tém notas superiores 2 615 no exame de matemi- fica do SAT? '. Qual é « porcentagem dos estudantes que t&m notas superiores 2715 no exume de matems- fica do SAT? ©. Qual ¢ a porcentagem dos estudantes que tem notas entre 415 e515 no exame de matemi- fica do SAT? . Qual é a porentagem dos estudantes que tém notas entre 315 € 615 no exame de matemé- tica do SAT? 32. Os elevados custos praticados no mercado imobilidrio da California fizeram com que as familias gue nio podiam comprar casas maiores considerassem as ediculas como uma al terrativa para expandir suas residéncias. Muitas utilizam as ediculas existentes em seus quintais como escritérios, esttidios artisticos ¢ reas de lazer, bem como para espago de armazenamento. © prego médio de uma edicula personalizada feita de madeira ¢ coberta ‘com telhas de amiamo € de $ 3.100 (Newsweek, 29 de setembro de 2003). Suponha que 0 desvio padriio seja de $ 1.200, a. Qual é 0 escore-z de uma edicula que custa $ 2.300? Etftcaaplicada } admitistragto e economia b. Qual € oescare-r de uma edicula que custa $ 4.600? ©. Interprete 0 escore-s dos itens (a) e (b). Comente se um deles seria considerado um outlien 4. O artigo da Newsweek relatou uma combinagiio edjcula-escritério construfda em Al Califmnia, por $ 13 mil, Essa combinagio deveria ser considerada um outlier? Explique. A Florida Power & Light (FP&L) Company tem a reputagiio de consertar rapidamente tema de energia elétrica ands a ocorréncia de tempestades. Contudo, durante a tempor de furacdes de 2004 ¢ 2005, uma nova realidade constatada foi que a hist6rica abord da companhia aos reparos de emergéncia dos sistemas de eletricidade j no era mais, ficientemente boa (The Wall Street Journal, 16 de janeiro de 2006). Os dados mestrande 0s dias necessdrios para restaurar os serviges de energia eléwriea, depois de sete furaedes. durante 2004 ¢ 2005, so os seguintes, Wilma 8 Com base nesta amostra com sete ocorréncias, calcule as seguintes estatisticas deseritivas: a. Média, mediana e moda b. Amplitude e desvio padrio c. Ofuraedo Wilma deve ser considerado um valor atipico (outlier) em termos dos dias neces sérios para restaurar 0 servigo de energia elétrica? 4. Os sete furacses resultaram em 10 mithdes de inerrupgdes de servigos aos clientes. As es- tauisticas mosiram que a FP&L. deveria considerar a atualizago de sua abordagem quanto. ‘05 reparos de emergéncia no sistema de energia elétrica? Discuta a esse respeito. 34. Uma amostra de 10 pontuagdes de jogos de basquete universitério da NCAA fornecen os seguintes dados (USA Today. 26 de janeiro de 2004). 90 ; 66 - Duke 85 Georgetown 6 » “| rilha Florida State Fe Wala case 70. 5 | wath Kansas 7 Colorado 7 a Kentucky Tl Note Dame 8 8 tousviie 65 Tennessee @ 3 Oklahom: State’ 72 Texas 66 5 Purdue 76 MichiganState 70 6 ‘stanford 77 Southern Cal a 0 Wisconsin 76 Winois 56 20 Calcule a média ¢ 0 desvio padrao dos pontos marcados pelo time veneedor. b. Suponha que os pontos mareados pelo time vencedor em todos os jogos da NCAA sigam uma distribuicdo em forma de sino. Usando a média e 0 desvio padrio encontrados no item (a), estime a porcentagem de todos os jogos da NCAA em que o time vencedor obtém 84 ou Capitulo ¢ ica deseritiva: medidas numéricas | (ETA mais pontos. Estabelega a porcentagem de jogos da NCAA em que o time vencedor marca mais de 90 pontos. €. Calcule a média e o desvio padrdo da margem de pontes dos times vencedores. Os daslos contém valores atipicos (outliers)? Explique. 35. O Associated Press Team Marketing Report (Relatério de Marketing de Equipes pele As- sociated Press) relatou 0 Dallas Cowboys como sendo 6 time com os maiores pregos de ingressos na National Football League, ou Liga Nacional de Futebol (USA Today, 20 de outubro de 2009), Os dados mostrando 0 preco médio dos ingressos para uma amostra de 14 times ne National Football League sZo os seguinte ‘Atlanta Falcone. $n Green Bay Packers $6 Bulfalo Bills st Indianapolis Cofts 8 4 rilha ‘Caroling Fanthers a New Orleans Saints a Chicago Bears 88 New York lets ar alae ‘Cleveland Browns 55 Pittsburgh Steelers @ Dallas Cowboys 160 Seattle Seahawks o Denver Broncos br Tennessee Titans, 4 a. Qual & 0 prego médio dos ingressos? 'b. No ano anterior, © prego médio dos ingressos era de $ 72,20. Qual foi o aumento percentual no prego médio dos ingressos no periodo de um ano? €. Calcule 0 prego mediano dos ingressos. a. Calcule o primeiro ¢ 0 terceiro quartis. ©. Calcule 0 desvio patrao, £ Qual € 0 escore-z para 0 prego dos ingressos do jogo do Dalles Cowboys? Esse prego deve ser considerado um valor atipico (outlier)? Explique. HE (3.4 Anilise exploratoria dos dados No Capitulo 2, introduzimos a apresentagao de ramo-e-folhas como uma técnica de anilise explo- ratéria dos dados, Lembre-se de que a anélise exploratéria dos dados nos permite usar célculos aritméticos simples ¢ grificos Ficeis de desenhar para sintetizar os dados. Nesta segio, prosse- guiremos com a anélise exploratéria de dados considerando a regra de cinco itens e box plots (diagramas em cain). Regra de cinco itens Em uma regra de cinco itens, os cinco ntimeros abaixo siio usados para sintetizer os dados 1. Menor valor 2. Primeiro quartil (Q,) 3. Mediana(Q,) 4. Terceiro quartil (Q,) 3. Maior valor A maneira mais fiicil de desenvolver a regra de cinco itens é colocar primeiramente os dados em ordem cresvente. Assim, é fécil identificar © menor valor, os trés quartis € © maior valor. Os salrios mensais iniciais mostrados 1a Tabela 3.1 correspondentes a uma amostra de 12 graduados em administragio sio repesidos aqui em ordem crescente: FTE) | Estatistica aplicada & admini Ober plots (diagraeas em te se identioar outers, Mas ees no identifica ‘as mevnos ralores, como agueles com que ou maior que +3. Trto 0 Prineire como 0 undo, owambos 1s procedimentos adem ser asad, Figura 35 Box plot dos dados de saltios inieiais com linhss. indicando os limites inferior fe saperion uagdo ¢ economia 520 3540 3.550 | 3.650 3.730 3.925 .600 3310 3.355 3.450 | 3.480 3.480 20 | Q, = 3405 Q, = 3305 (Mediana) ‘A mediana de 3.505 e os quartis Q, = 3.465 e Q, = 3.600 foram caleulados na Segdo 3.1. Uma revisdo dos dados nos mostra que 0 menor valor é 3.310 e maior valor é 3.925. Desse moda, ‘egra de cinco itens correspondente aos dados salariais € 3.310, 3.465, 3.505, 3.600. 3.925. Ay simadamente um quarto, ou 25%, des observacdes Se enconiram entre niimeros adjacentes da reg ée cinco itens Box plot (Diagrama em caixa) Um box plot (diagrama em caixa) € um resumo grifico de dados que se baseia na regra de ci itens. A chave para o desenvolvimento de um bor plot € 0 ealeulo da mediana e dos quartis. Q, € Q,- A amplitude interquartil, IQR = Q, ~ Q,, também € usada. A Figura 3.5 representa 0 box pl dos dados de salirios mensais iniciais. Os passos para construirmos esse box so os seguintes: 1. Desenhe um retingulo no qual em suas extremidades se localizam 0 primeira e terceira quartis. Em relacdo aos dads salariais. Q, = 3.465 € Q, = 3.600. Es gulo conten 50% dos dados intermedirios. no retingulo, na posicao da medians (3.505 para os dados gala 3. A amplicude interquaatl, IQR = 2,0, € uilizada pare deterinar os limites maging s limites distam 1,5(IQR) abaixo de Q,(limite inferior) ¢ 1,50QR) acima de Q, (limite superior), Em relagao aos dados salariais, IQR = Q, ~ Q, = 3.000 = Desse modo, 0s limites si0 3.465 — 1,5(135) = 3,262,5 ¢ 3.600 + 1,5(135) = Os dados fora desses limites so considerados outliers. 4 tracejadas da Figura 3.5 so as hastes do grfico, Essas hastes sao desenhadas das bordas do retangulo até o menor e © maior valores que estiverem localizedos dentro dos limites caiculados na etapa 3. Assim, no exemplo da Figura 35, as hastes terminam 05 valores salariais de 3.310 e 3.730. Porfim, aposigio de cada outlieré indicada polo simbolo®. Na Figura 3.5, vemosum valor atipico: 3.925. Na Figura 3.5 apresentamos as linhas imaginérias que indicam a posigdo dos limites superior @ inferior. Essas linhas foram tragadas para indicar como os limites sio caleulados e onde eles se localizam em relagao aos dadas salariais. Limite Metin g, Limite inferior 3.000, Figura 37 Box ploss no Minitab para iniciais por Capiso’3 © Bais dese noes audios Apesar de 0s limites imaginérios sempre serem calcalados, eles ndo sio tragados na apresenta odo box plot. A Figura 3.6 mostra a aparéacia habitual de um bor plot correspondente aos dados salariais, eee ee S00 520) 3.400 3500 SRO FON A fim de comparar os dados de salérios inicizis dos graduados na faculdade de administracao por setor corporativo, foi selecionada uma amostra com [11 reeém-formados. O setor e 0 saldrio inicial foram registrados para cada aluno graduado. A Figura 3.7 mostra os hax plots feitos com 0 Minitab para as dreas de contabilidade, finangas, sistemas de informagao, administrago ¢ marke- ting. Observe que 0 setor é mostrado no eixo horizontal ¢ cada box plor é apresentado verticalmente sobre 0 setor correspondente. Apresentar os box plots dessa maneira é uma excelente técnica para fazer comparagies entre dois ou mais grupos. Pelos gréficos apresentados na Figura 3.7, quais consideragdes sobre os sabirios men: cciais por setor podem ser feitas? Especificamente, observamos 0 seguinte: ‘Os maiores saldrios estdo nas freas de contabilidade: 0s menores salérios esto nos setores deadministracdo e marketing. ‘Com base nas medianas, os setores de contabilidade e sistemas da informagao tém salirios ‘medianos similares ¢ maiores que os demais. A rea de finangas esta proxima A de admini trazdo e marketing, mostrando saldrios medianos menores. + Saldrios elevados. sendo considerados atipicos. existem nos setores de contabilidade, finan- cas e marketing. Os salitios na drea de finangas pareeem ter a menor variagi setor de contabilidatle demonstram a maior variacdo. . ao passo que os saldrios no Talvez, vocé consiga fazer mais interpretagdes com base nesses box plots. e000 x 3 5000 * 2 * 2 a 000] 2 Z 3 200 2000 Caches 9) Seace Sears eAianes (Weim inlormagao_ Setar corporative ‘ila alata ¥ndaictgn economia 1L_Uma vantagem da anilise exptoratéria de dados @ que ela é 2. No Apéndice 31 mostramos como construir 0 box plot dos facil de usar; poucos calculos numnéricos s30 necessarios. Sim- dado de salarios iniciais usando 0 Minitab. © geafico obti- plesmente classificarros os dados em ordem crescenteeiden- _do se assemelha exatamente 20 da Figura 16, mac com um tificamos a regra de cinco itens. Entdo, o diagama em caira _giro de 90°no sentido anti-horario. pode ser construido. Néo € necessirio calcular a media e 0

Você também pode gostar