Você está na página 1de 15
os ° IS oO Ss oC ° = ay Ss 6 Le pitulo Tres Manequins # Realidade A revista Health comparow as ‘medida de manequins com as ‘medida de mulheres em ger. Os sez de man altura polegae maneq) cm). (66.36: in (101 de mat de mal ue, a mane op ‘como médias. Altura ies resultados foram guns: 6 pés (1,82 m): e mulheres: 5 pése 4 os (1,62 m), Cintura de fins: 23 in (58,42 em), fi ater: 2915.6 mi); quadris de mulheres: suis: 6: tamano de rou indo comparamos médias, ins e meres reais sio iterentes adris de manequins: 34 in 40 {60 em). Tamankho de roupa nt eres: 11. Torna-se evidente 3-1 Visdo Geral ste capitulo é de extrema importincia porque apresenta as estatfsticas biisicas para a desert 10 de diferentes caracteristicas de um conjunto de dados. Na Visio Geral (Segtio 2-1) do Ca pitulo 2, vimos que, quando da descrigZo, exploragiio e comparacao de conjuntos de dados. as Sseguintes caracterfsticas so usualmente de extrema importincia: (1) centro; (2) variagao: (3) dlistribuiglio; (4) outliers: e (5) caracterfsticas que mudam com o tempo. Pensamento Critico e Interpretagao: Indo Além das Formulas A tecnologia nos tem permitide apreciar o seguinte principio do uso modemo da estatistiew Nao € tio importante memorizarmos formulas ou fazermos manvalmente cileulos aritméticos complexos. Em vez disso, podemos nos concentrar na obtenedo de resultados com 0 auxiio de alguma forma de tecnologia (calculadora ou programas), obtendo, entio, o sentido pritico desses resultados através de um pensamento critico. Tena isso em mente & medida que voce avanga neste capitulo. Por exemplo, quando estudar 0 coneeito extremamente importante de desvio padrao na Seco 3-3, tente entender como a férmula-chave serve como uma medida de vvariagdo e em seguida aprenda como achar valores dos desvios padres, mas trabalhe realmente nna compreensio e interpretagdo desses valores talo contém passos detalhados para procedimentos importantes, porém ssirio dominé-los em todos 0s casos. Recomendamos, no entanto, que em cada caso voce Fags rmanualmente alguns célculos antes de usar a calculadora ou o computador. Sua compreensin _ seri aumentada e voc8 tera melhor percepedo dos resultados obtidos pela tecnologia. (Os métados do Capitulo 2 ¢ deste capitulo so, em geral, chamacdos de métodos de estatistica _ deseritiva, porque 0 objetivo éresumir ou descrever as caracteristicas importantes de um conjunto de dados. Mais a frente, neste livro, usaremos métodos de inferéncia esta dados amostrais para fazer inferéncias (oy generalizagDes) sobre uma populagio. Com a inferén- cia estatistca, estamos fazendo uma inferéncia que vai além dos dados conhecidos. A estatisticn | descrtiva ea inferéncia estatsticasfo as duas divisdes gerais do objeto da estatistica, eo Capitulo 2, junto com este capitulo, rata dos prinefpios fundamentais bisicos da estatistica descritiva. 3-2 Medidas de Centro Conceito-chave Quando descrevemos, exploramos e comparamos conjuntos de dads, ests ccaracteristicas si, usualmente, de extrema importincia: centro, variagao, distibuiglo, outlier "mudangas ao longo do tempo. [Lembre-se de que 0 recurso mnem@nico CDOT (*Computador com Virus Destruir Ou Terminar”) é til para lembrartais caracteristicas.] 0 foco desta se¢io a caracteristica de centro. Desejamos obter, de alguma maneira, um nimero que represent © valor central de um conjunto de dads, Os conceitos de média © mediana devem ser muito bem centendidos, Especificamente, devem ser bem conhecidos os métodos para se encontrar 0s valores ‘da média ¢ da mediana, Devemos saber, também que o valor da média pode ser dramaticamen: te afetado pela presenga de um owalier, mas a mediana ji nio € to sensivel a um outer. (Um ‘outlier & um valor bem afastado de quase todos os demais valores.) A Parte | deste capitulo inclu ‘0s conceitos fundamentais que devem ser entendidos antes de se passar a Parte 2 Parte 1: Conceitos Basicos de Medidas de Centro © & Dennicgo FS Umma medida de centro é um valor no centro ou meio do conjunto de dados. Hi virias ofinigdes de medidas de centro, incluindo a n -megamos pela média, J | Onived E | provenicl A més para des fy oa a" Essa ‘scl eto valores np Formal Amédia deumap mia po pa letras tados por Notagao | efeitos raestab | medidas | emi | bro de 2 | SOLUG dese no mis. Set (aritmética) 6, em geral, a mais importante de todas as medidas numéric ever dados, inigdo aritmética de um conjunto de valores éa medida de centro encontrada pela adigao valores e divisio do total pelo nimero de valores. Essa medida de centro sera usada fregicntemente em todo o restante deste texto e sera chamada simplesmente de média, finigdo pode ser expressa como a Férmula 3-1, que usa a letra gtega ¥ (sigma mai ra indicar que os valores de dados devem ser somados, Isto é, Sx representa a soma ' valores de dados. O simbolo m indica 6 tamanho amostral, que & o niimero de cconjunto de dados. 31 valores amostrais amostrais representada por ¥ (pronuncia-se “x barra”) se 0 conjunto de dacdos é uma amostra pulagio maior; se so usados todos os valores da populacao, entio representamos a (letra grega miniscula “mi”). (Estatisticas amostrais so usualmente represcntadas lo alfabeto latino, como F, ¢ os parémetros populacionais so, em letra somo 4.) ral, represen- denota a soma de um conjunto de valores €a varidvel geralmente usada para representar os valores individuais dos dados. representa o niimero de valores em um amnostra, representa o niimero de valores em uma populagéo. € a média de um conjunto de valores amostrais. 6 a média de todos os valores em uma populagao. iversos a satide. Abaixo esto listadas as medidas das quantidades de chumbo (em. mas por metro ctibico, ou 4ug/m’) no ar. A Agéneia de Protegao Ambiental america leceu um padriio de qualidade do ar para o chumbo: um maximo de 1,5 kig/m*, As ‘mostradas abaixo foram registradas no local do Edificio 5 do World Trade Center, liferentes, logo apos a destruigdo causada pelos ataques terroristas de 11 de setem: WI. Ache a média para essa amostra de medidas de niveis de chumbo no ar 540 1,10 042 0,73 048 1,10 10 A média ¢ calculada usando-se a Formula 3-1. Primeiro some os valores a fda pelo nimero de valores: Ex_ 540 + 110 + 042 + 0,73 + 048 + 109,23 a 6 6 ape Monitoracao de Chumbo no Ar Sabe-se que o chumbo tem alguns 538 \édio de chumbo ¢ 1,538 g/m’. Independentemente do valor da média, é também ir que © conjunto de dados contém um valor (5,40) que estd bem afastado dos de interessante investigar tal “outlier”, Nesse caso, o nivel de chumbo de 5,40 jis! | foi medido um dia apés o desmoronamento das torres do World Trade Center, ¢ havia vados de poeira ¢ fumaga. Também, alguma quantidade de chumbo poderia ser te do grande nimero de vefculos que se dirigiram para o local, Esses fatores for- nocem ua explicagdo razodvel para um tal valor extremo, usadas Estatisticas para Descrigao, Exploragdo e Compatagao de Dados 63. Fopulagdes em Mutagio Ente as cinco earncteristicas importantes de um conjunto de dados listadas no Capitulo 2 esti a mudanga de padrio 0 longo do tempo, Algumas populagdes mudam, assim como suas estatisticas importantes. Os padrBes para cintos de seguranga de automéveis nao n ‘limos 40 anos, embor «dos americanostenhs auine consideravelmente desde enti, Em 1960, 12.8% dos americanos adultos ‘comparados com 22,6% em 1994 ‘peso im consideraclos obesos De acondo com a Administragio de Sezuranga no Tees nas Rodiovias Nacionais dos Est Unidos, os cintos de seguranga tém {que se ajustar a um pado simulado Je acidente de carro (planejad de acordo com dados de 1960), ‘quando colocados na posigao mais das de sob, frente, com 4 pol Na teoria, 95% dos homens e 99% das mulheres deveriam se ajustar nos eintos de seguranga, mas esses Poreentagens hoje por causa do aumento de peso ‘corrido na dltima metade do séeulo XX. Algumas fabricas de enero forecem extensores para os cintos 0 mais baixas de seguranga, mas outras no 64 Capitulo Trés 0 Faradoxo do Tamanho dia Chose Ha pl menos ss anak Aes oflr amano mi Slane f els pdem da estas tien Eman aula. de estudantes em 737 clases, “oberenhos uma méidia de 40 cestudanfes, mas se considerarmos ‘uma lista dos tamanhos das classes para cafa estudantee usarmos essa lista, obteremos um famanho dio fle classe de 147. Essa rande|diserepancia se deve a0 Fato de que) muitos estudantes em andes ¢ pico em ass Tefen fact, pode rum ma es oe ia, que é melhor em Mediana ‘Uma desvantagem da média & que ela é sensivel a qualquer valor, de modo que um valor ex cepcional pode afetar drasticamente a média. A medina supera grandemente ess desvant fgem. A mediana pode ser considerada como um “valor do mefo”, no sentido de que cerea de netade dos valores no conjunto de dados ests abaixo da mediana e metade esti acima dela. A definigdo que se segue é mais precisa. & pefinigao ZA mediana de um conjunto de dados é medida de centro que é o valor do meio quando AiMlaos originals esto arranjados em ordem crescene (ou deerescente) de magnitude SS Xieaianaé em perl, representa por ¥(pronuncia-se “i. a aera ep por (ps Para encontrar a mediana, primero ordene os valores e depots siga wm dos dois proved ‘mentos seguintes: f 1. Se o niimero de valores for impar, a mediana serd o mimero lo Tista k 2. Se o niimero de valores for par, a mediana seri encontrada pelo céleulo dan dois niimeros do meio. t - EXEMPLO Monitoragao de Chumbo no Ar Abaixo, esto listadas as quantidaes medidas de chumbo no ar (em gig/m3), Ache a mediana para essa amostra } | 5.40 1,10 0,42 0,73 0.48 1,10 t SOLUGAO Primeito ordene os valores: k | 0,42 0.48 0,73 1,10 1,10 5.40 Como o mximero de valores € um nGimero par (6), a mediana é encontrads pelo eleulo | imtia dos dois valores do mei, 0,73. 110 | 0.73 + 110 _ 3 Mediana = | como o nimero de valores é um ndmero par (6), median € a média dos ois valores ddo meio, de modo que a mediana é 0,915 pig/m. Note que a mediana é muito diferente ds | inédia de 1.538 ign? gue encontramos para o mesmo conjunto de dados amostas mo [_ exemple anterior ‘A azo para essa grande discrepancia & 0 efeito que S40 tem sobre a | | Sasdia, Se esse valor extremo fosse reduzido para 1,20, a media cairia de 1,538 u/t’ par {0,838 jg/m, mas a medina nao se alterara - EXEMPLO Monitoracaéo de Chumbo no Ar Repita o exemplo precedente de dias sezuintes medidas de chumbo: ‘ | 5,40 1,10 0.42 0,73 048 1,10 0,66 i | I SOLUGAO Primeito ordene os valores k 0.42. 0,48. 0,66 0,73 1,10 1,10 5.40 t Como 0 niimero de valores & um néimero impar (7), a mediana € 0 valor no meio exato dx \Ctista ordenada: 0.73 ugh. i Estatisticas para Descrigo, Exploragao e Comparagdo de Dados 65 pds 0 estuda das dois exemplos precedentes, o procedimento para se encontrar a media- ra deve estaf claro, Também deve estar elaro que a média é drasticamente afetada por valores exitemos, enquanto a mediana nio o é. Pelo fato de a mediana no ser tio sensivel a valores éxiremos, ela é, em geral, usada para conjuntos de dados com um nimero relativamente pe- queno de valores extremos. Por exemplo, 0 Biro do Censo dos Estados Unidos registrou re- centemente ue a renda familiar mediana anual é 36.078 délares. A mediana foi usada porque him pequéno nimero de familias com renda realmente alta. Moda & Definicso = Amoda de um conjunto de dados€0 valor que ocr mais frelentemente sg + Quango dois valores ocorrem com a mesma maior frequléncia, cada um é uma moda, ¢ ‘ conjunto de daclos é bimodal. + Quango mais de dois valores ocorrem com a mesma maior frequéncia, cada um € uma ‘moda, 6 conjunto de dados & multimodal. + Quango nenhum valor se repete, dizemos que nfio ha moda. EXEMPLO Ache as modas dos seguintes conjuntos de dados. a 110 042 073 048 1,10 90 27 55 55) 45678910 88 8 SOLUGAO 4, O ndmpero 1,10 6:4 moda porque o valor que ocorre mais freqiientemente. ’, Os nufmeros 27 e 55 sfio, ambos, modas porque ocorrem com a mesma maior freqiiéncia, Esse donjunto de dados «, Nao hfi moda, porque nenhum valor se repete. bimodal porque tem duas modas. Na realidade, a moda ndo é muito usada com dados numéricos. Mas, entre as diferentes medidas de Eentro que estamos considerando, a moda € a tnica que pode ser usada com dados no nivel nofhinal de mensuragio, (Relembre que o nivel nominal de mensuragio se aplica a kos que cbnsistem em nomes, rétulos, ou categorias apenas.) Ponto médio & Definigao o porito méaio¢ a medida de centro gue & exatamenteo valor @ meio caminho entre 0 $2 naior|valor e o menor valor no conjunto original de dados. E encontrado somando-se © 'S naior|vator e © menor valor dos dados e, a seguir, dividindo-se a soma por 2, como na & rmuda seguinte: 2 valor maximo + valor minim¢ = ponto médio = toc ° 8 CO ponto médio raramente é usado, Como ele usa apenas os valores minim e miximo, 6 muito seasivel a egses extremos. No entanto, o ponto médio possui trés caracteristicas compensado- ras: (1) € fil de calcular; (2) ajuda a reforcar o importante ponto de que hd varias diferentes tmaneiras dé definir o centro de um conjunto de dados; (3) &, algumas vezes, incorretamente ‘de modo que a confusio pode ser reduzida pela definigio clara de ar da media ponto médip juntamente com a mediana 66 Capitulo Trés ~ Melhores Atrizes 35,7 439 33,5 42,0 35 a1ea2 50,5 52,5 - EXEMPLO Monitoragao de Chumbo no Ar Abaixo esto as quantidades me ddidas de chumbo (em ig/m?) no ar do local do World Trade Center em diferentes dias apis 11 de setembro de 2001. Ache © ponto médio para essa amostra, 0,73 0.48 1,10 540 110 042 SOLUGAO Encontra-se 0 ponto médio da seguinte mane | valor miximo + valorminime _ 540 + 042 ~ 0 ponto médio & 2,910 ugh’. No espirito da descriglo, exploragio e comparagdo de dacs, fornecemos a Tabelt 3-1, que resume as diferentes medidas de centro para a idade das atrizes e dos atores ganhadores de Os ‘car da'Tabela 2-1 no Problema do Capitulo para o Capitulo 2, Uma comparacio das medidasde ‘centro sugere que as Melhores Altrizes sto mais jovens do que os Melhores Atores. Hi métodoy para se determinar se tais diferencas dparentes sio, ou no, estatisticamente significativas consideraremos alguns desses métodos mais tarde neste texto. (Veja a Segio 9- E | | F i && Regra de Arredondamento t TS Uma regra simples para aredondamento de respostas é f a = 5 ‘Use uma casa decimal a mais do que é apresentado no conjunto original de var 3 BS bores. Ss Quando estiver usando essa regra, arredonde apenas a resposta final, io os valores interme} lvios que ocorvem durante os edleulos. Assim, a media de 2, 3,5 € 3.333333... ue € ane = 6.0 min 2: Subtraia a média de 6,0 de cada valor para obter os seguintes valores de (1): 3,8. 3: Eleve ao quadrado cada valor obtido no Passo 2, abtendo os seguintes valores de (FY 25,9, 64, 4: Some todos os valores prec «lentes para obter Sx — HF = 98. 5: Comn=3 valores, divida por 3 menos 1 98, 49,0 6: Ache a raiz quadrada de 49,0. 0 desvio padrio é 49.0 = 7.0 min nente, interpretariamos agora o significado do resultado, mas tais interpretagdes serio tidas mais tarde nesta segio. | ee =x | “5 2s | 3 9 | 8 o | 98 | 18 | =F - 60min) 5 /5% Estatisticas para Descrigdo, Exploragao e Comparagao de Dados n 78 | Capitulo Trés Onde Estao os Batedores de\0,400? © thimo jogador de beissbol a sar acim de 0.400 foi Ted Williams, que marcou 0.406 em 194) 1894 102 Houve médias acima de 0.400 1876, 1879, 1887, 1894, 1895, 1897, 1899, 1901, 1911 1922, 1924, 1925 e 1930, mas Pantr de 1941. Nao hi srandes batedores? 0 falecido ‘Stephen Jay Gould, da Universidade de Harvard, observou que a média acy ov ond oo 260 por eerea de 100 anos, 0 desvio padio deeresceu de na dscada de 1870 para 0,031, esti hoje. Ele arzumenta que elas de hoje sio io boas to aquelas do passado, mas Jamente melhores rebatedlores, rmantém as méaias ubaixo de EXEMPLO Usando a Férmula 3-5 0 exemplo precedente usou a Formula 3-4 para char 0 desvio paclio dos tempos de espera dos clientes do banco com filas miiltiplas. Usan: do 0 mesmo conjunto de dados (1, 3, 14), ache o desvio padrio com a Férmula 3-5. | SOLUGAO A Formula 3-5 requer que primeiro encontremos valores para n, Eve Ee n=3 (porque ha trés valores na amostra) Ex= 18 (encontrado pela adi¢Z0 dos valores amostrais) 18 (encontrado pela adigao dos quadrados dos valores amostrns, P43? + 14 = 206) Usando a Férmula 3-5, obtemos 206) ~ 18) Sa = 7.0 min Uma boa atividade € parar aqui e caleular 0 desvio padriio dos tempos de espera de 4 min, 7 min e 7 min (para a fila nica). Siga os mesmos procedimentos usados nos dois exemplos precedentes e verifique que s = 1,7 min. (Também sera importante desenvolver habilidade para abtencio de valores de desvios padrdes com o uso de uma calculadora ou um software.) Em: bora as interpretagdes desses desvios padres sejam discutidas mais Tos agora para ver que 0 desvio padréio dos tempos para a fila Gnica (1,7 min) € muito menor do que o desvio padrdo para miiltiplas filas (7,0 min). Isso confirma nossa conclusao subjetiva de que os tempos de espera com a fila tnica tém muito menos variagio do que os tempos com filas mailtiplas. O banco com a sorte de ter um gerente compulsive, que controls cuidaclosa- ‘mente os tempos de espera, tem um desvio padro de 0 min, que é © menor de, podemos comparii- Desvio Padrao de uma Populacao :m nossa definigio de desvio padrio, referimo-nos ao desvio padriio de dados amostrais. Uma, formula ligeiramente diferente € usada para se calcular o desvio padrio ¢ (letra greg mindsculo) de uma populagao: em vez de dividir por n ~ 1, dividimos pelo tamanho da popu: lagdo N, como na expressio seguinte: [S00 = we W desvio padro populacional o Como geralmente trabalhamos com dados amostrais, usaremos mais a Férmula 3-4, na qual dividimos porn ~ 1, Muitas calculadoras dio os dois, o desvio padrio amostral ¢ 0 desvie pa dro populacional, mas usam uma variedade de diferentes notagbes. Certifique-se de identficar A notagiio usada por sua calculadora, de modo a obter o resultado corret. ‘Variancia de uma Amostra e de uma Populacao Estamos usando o termo variagdo como uma descrigio geral de quanto os valores variam entre eles. (O termo dispersdo é algumas vezes usado em lugar de variagdo,) O termo varidncia se refere a uma definigtio espeetfica. GS Definicao A varidneia de um conjunto de valores & uma medida da variagio igual ao quadrado do ‘desvio padi. Varianeia amostral: * quadrado do desvio padrdo s \Varincia populacional: 6? quadrado do desvio padrlo populacional o. Estatisticas para Descrigdo, Exploragio e Comparagao de Dack jesado da varidncia populacional A varidnc}a amostral s? €considerada um estimador que sighifca que os valores des tendem para o valor de oem vez Ae sistematicamente “uperestimafem ou subestimarem o Por exemple, cconsidere um teste de QI planejado de modo pera variinia seja 225, Se voo® repeteo processo de seleeionarslealovampenie 100 indivi se plcathes os testes de Qe calelar a varia amosiral sem ead caso, a5 arincis se fuera a se concentrar em torno de 225, ue € a variineia populacional EXEMPLO Céleulo da Varincia No exemplo precedente, usamos os tempos de espera dds clientes de 1 min, 3 min ¢ 14 min para achar que o desvio padriio é dado por s= 7.0 min. Ache a varifneia dessa mesma amostra. aridncia 60 quadrado do desvio padrao, obtemos 0 resultado mostra: SOLUGAO Como a dromraich. Nowe que os valores das dado originals estio em unidades de minutos, odesvio pasito € 7.0 minutos, mas a varianeia € dada em unidades de min 49,0 min’ Varidncia amostral A varlafoia € uma esttistiea importante usada em alguns métodos estatisticas tame portant, pomo a andise da varidncia disutida no Capitulo 12, Para nossos chic A Th aoe aariancia tem uma séria desvantagem: as unidades da varidncia so diferentes das eles fos dados oviginais. Por exemplo, se 08 dados originais dos tempos de esert dos eee dao em minutos, 5 unidades da variancia estarZo em minutos a0 quadrado min’) Gane € uy minuto a0 quadrado? Como a varincia usa unidades diferentes: cextremamente iat entendermos a variincia relacionando-a ao conjunto de dados original. Por caus dessa cfatzaremos o desvio padrdo enquanto tentarmos desenvolver uma compreensio propriedade, jo, mais adiante nesta seg waa notagao e a regra de arredondamento que estamos usando, de vata Apresentamos, Notagao desvio padtio amostrat spiancia amostral vio padrio populacional ineia populacional o one Artigos em periicos cientfico ereportagens usa em geal SD (de standart ideviagon) ou DP para desvio padrio e VAR para varidneia G Regra de Arredondamento a "lames a mesma regra de aredondamento dada na Se580 3 s e uma casa decimal a mais do que é apresentado no conjunto original de dados- BS Ajredonde apenas a resposta fina, io os valores nos edeulos intermedi (Se for ab- anne epaasiti eredonda no meio, se pelo menos das vezes omimero de casas -cimais que sera usado na resposta final.) Parte 2: Além do Basico sobre Variagao Intefpretagao e Compreensao do Desvio Padrao smamente importante, pve tentaremos agora dar algum sentido intuitive io padrio mede a varia- s pequenos, enguanto Esta subsegio é extre aiesvio padr2o, Primeiro, devemos entender claramente ave o d fio exe valores. Valores muito prximos resultado em desvios Pa vejorek mais espalhados resultado em desvios padres maiores

Você também pode gostar