Você está na página 1de 140
EDITORA EDGARD BLUCHER LTDA A Lei de Direito Autoral ei no 9.610 de 19/2/98) no Titulo VIL, Capitulo IT diz Das Sangées Civis: ‘Art102 Ociularcuja obra seja fraudolentamentsreprodurid.divulgada ou de qualquer forma uilizada, poderdrequercr a apreensio dos cxemplaresreproduzigos ov suspensio da divulgagio, som prajuzo da indenizagio cabivel ‘Art.103 Quem editar obra lterdra, antistica ou cientifica, sem autorizagio do tila, perdett para este os excrplares que se aproendersm c pagar-Ihe sabonetes de certa marca e tipo. peso liquido, ©) Populagdo: —_pecas produzidas por uma maquina. Vatiavel: didmetro extemo, 4) Populagao: _industias de uma cidade. Variavel: indice de liquidez. INTRCOUCAO — TIPOS DE VARUAVESS 7 RN Pelos exemplos apresentados, podemos perceber que os valores das varlaveis discretas séo obtidos mediante alguma forma de contagem, a0 passo que os valores das variaveis continuas resultam, em geral. de uma medigéo, sendo freqientemente dados em alguma unidade de medida. uta diferenca entre os dois tipos de variaveis quanticativas esta na interpretacio de seus valores. Assim, a interpretagao de um valor de uma varidvel discreta é dada exaramente por esse mesino valor. Quando dizemos que um casal tem dois filhes, isso significa que o casal tem exatamente dois filhos. A interpretagao de um valor de uma variavel continua, a0 contratio, ¢@ de que se trata de um valor aproximado. Isso decorte do fato de nao existirem instrumentos de medida capazes de oferecer preciso absoluta, ¢, mesmo que existissem, ndo haveria interesse nem sentido em se querer determinar uma grandeza continua com todas as suas casas decimals, Logo, se, ao executarmos a medido de algum valor de uma variavel continua, estamos sempre fazendo uma aproximacéo, resulta que qualquer valor apreseatado de uma variével continua deverd ser interpretado como uma aproximagao compativel como nivel de precisao e com o crtério utiizado a0 medir. Por exemplo, se o didmetro extemo de uma pega, medido em milimettos, for dado por 12,78 mm, deveremos considerar que ¢ valor exaro desse dldmetro seré algum valor entwe 12,775 ¢ 12,785 mm, que foi aproximado para 12,78 mm devido 20 fato de a precisio adotada na medida ser apenas de centésimos de milimetros. ‘Uma convengao ttl adotada no presente texto 6a de sera preciso da medida automa- ticamente indicada pelo niimero de casas decimais com que se escrevem os valores da va- sidvel. Assim, um valor 12,80 indica que a variavel em questdo foi medida com 2 precisio de centésimos, nao sendo exatamente © mesmo que 12,8, valor correspondente a uma Precisio de décimes. Notemos que, normalmente, a aproximacao implicita ao se considerar cada valor de uma varidvel continua seré de, no maximo, metade da precisio com que os dados sto medides. Assim, no exemplo precedente, supusemos que a preciséo da medida era de centésimtos de milimetros: segue se que os resultados apresentados com essa preciso serao, 1a verdade, valores aproximados, e essa aproximagao sera de, no maximo, cinco milésimos de milimetros para mais ou para menos.) Apés observar as diferengas mencionadas entre as variaveis quantitativas discretas e continvas, oletor podera fcar surpreso ao verificar que as técnicas da Estatistica Deseritiva sero praticamente idénticas em ambos os casos. Isso se deve, no entanto, ao fato de, formalmente, os dados referentes a variévels discretas ou continuas serem andlogos, pois ‘os valores da variavel continua sero sempre apresentados dentro de um certo grau de aproximagéo. Assim, apenes na interpretagao ¢ descrigao gréfica dos resultados € que haverd Alferengas a serem consideradas, conforme veremos. ‘A Estatistica Descrtiva pode descrever os dados através de grifices, distibuicées de reqiiéncia ou medias associadas a essas distibuigGes, conforme veremos a seguit. (ima excegio sea, por exerpl,o caso da vaiivel Hae, medida em ance completes, Um valor come 18 conesponderia ao inarvalo 18 }~ 19. 8 eSTATISNCA DESCRITIVA 2.2 TECNICAS DE DESCRICAO GRAFICA (© primeiro passo para se descrever graficamente urn conjunto de dados observados é verificar as frequéncias dos diversos valores existentes da variavel. Definimos 2 freqdéncia de um dado valor de uma variavel (qualitativa ou quantitati- vva} como 9 nimero de vezes que esse valor fol observade. Denotaremos a freqdéncia do ébsimo valor observado por f,. Sendo 7 0 nimero total de elementos observados, verifica- se imediatamente que Maina (2.4) onde & & 0 nimero de diferentes valores existentes da variavel. ‘A associagao das espectivas fregiéncias a todos os diferentes valores cbservados de fine a diseribuicdo de fregincias do conjunto de valores observados. alternativamente, poderemos usar as fregdénctas relacivas. Definimos 2 freqiéncia relat, ou proporgao de lum dado valor de uma variavel (qualitativa ou quantiativa), como o quociente Ge sua Freqiéncia pelo nimaro tora de elementos observades. Ou cia, denotando por a feglénca relativa ou proporcéo do iésimo elemento observads, tmos 2.2) claro que 23) 2.2.1 Descricao gréfica das variaveis qualitativas No caso de varavels qualtativas, a descricdo grifica € muito simples, bastando computar as freqliéncias ou freqiéncias relatives das diversas classiicacbes existentes, elaborando, a seguir um grafico conveniente. Esse grafico poderd ser um diagrama de barcas, um diagrama circalar ou out qualquer tipo de diagrama equivalence ‘Tomemos, como exemplo, um grupo de 135 candidatos a vagas em um curso de pés- graduacio, classificados segundo sua formacdo especifica de graduacdo, conforme a ‘ab. 24, As duas colunas referentes ao nimero de pessoas contsm, respecivamente, 25 a ‘Nomero de pessous Freghéncias | % ‘Engenheiros 38 281 Economisas x0 22 dminiswadoces 35 259 ontadores 15 m1 ours 7 27 “oul 138 | 1000 ‘TEONICAS DE DESCAIGAN GRAFICA 3 Figure 2.1. Disgrama 8 terres. Engenneinos Ezonemissas semiisradores Corsadores Olnros freqiéncias eas freqiacas elativas, dadas em porcencagers, em que aformacéo académica s distribu encre esses candidatos, A variével qualtativa considerada no presente exemplo ¢ dada por essa formagao, eas frequéncias relativas observadas definem a dstibuigdo de freqaéncias que essa variavelapresentou. Esses dados podem ser gralicamente representados de diversas formas. Assim. na Fig 2.1, eles estéo representados por melo de um dlagrama de bars e, na Fig. 2.2, por um diagrama circular. A vantagem da representacio grafica esta em possibiltar uma rapida impressio visual de como se distibuem as frequéncias ou as frequéncias relasivas no conjunto de elementos examinados. Entretanto ha a mencionar ainda a possibilidade de se considerarem distribuigdes segundo outros critérios que nao propriamente a frequéncia ou 2 frequéncia relative das ‘observagées. Como exemple, tomemos as superficies das cinco regides geogréficas que Figura 2.2 Diograma crcuier 10 STATISTICA DESOATTIVA compdem o Brasil, apresentadas na Tab. 2.2, conforme dados do I8GE (Instituto Brasileico de Geografia Estatistica).Calculando-se as porcentagens correspondentes, pede-se construir ° diagrama circular dado na Fig. 2.3. [rabela22 Regtcsstogdiasdobasl | Regio ‘Superficie (km?) None 3.869.657.9 cenaeroeste Leizorr2 Norte L617 sudese 212862 sa srraisa Teal S57 5951 Figura 2.9 Diagrama circular 2.2.2 Descriedo grafica das varidveis quantitativas discretas No caso das varliveis quantitatvas discretas, a representacio grafica seré também, nor malmente, feta por meio de um diagrama de barras. A diferenca em rela¢do ao caso ante rior esté em que, sendo a variével quantitatva, seus valores numéricos podem ser representa dos num eixo de abscissas, o que facta a representacao. Note-se que, aqui, existe uma enu- meragdo natural dos valores da varivel, o que nao havia no caso das variveis qualitativas. A construgéo do diagrama de barras ¢ feta semelhantemente 20 exemplo anterior, desde que se disponha da tabela de freqiéncias. Esta, por sua vez, pode ser faciimente construida se conhecemos todos os valores da variével no conjunto de dados. Como iremos marcar no eixo das abscissas os valores da variével, resulta que, nesse caso, as barras do lagrama serao verticais. ‘TEONICAS DE DESCRICAO GRAFICA a1 ——— ‘Vamos, 2 titulo de exemplo, representar graficamente 0 conjunte dado a segulr, cons- tituido hipoteticamente por vinte valores da variavel “ntimero de defeltos por unidade” ‘obtidos a partir de aparethos retirados de uma linha de montagem. Sejam os seguintes os valores obtidos: 2 2 1 2 3 ° 5 1 ° 1 2 ° 1 ° 1 2 Usando a letra x para designar os diferentes valores da variavel, podemos construlr @ distibuicdo de freqiéncias dada na Tab. 2.3, a partir da qual elaboramos o diagrama de bamras corespondente, dado pela Fig. 2.4. ‘Tabela 25 Disuibuigio de freqdencias x fi vi. ° 4 0.20 1 1 038 2 s 0.28 3 2 o.t0 4 1 0.08 5 1 0.05 20 1.00 O diagrama de bars, confoome jé mencionamos, mostra a distibuigdo das fegiéncias no conjunto de dados. Tratando-se de variéveis quantiiativas, uma outea forma de Tepresentacao gréfica é também possivel, tendo, as vezes, interesse, com base nas /regiléncias Figure 2.4 Ciegrema de 74 e+ s+ at s+ e+ a4 ot x 12 estatistica OESCRITWA zcumuladas. as quais denotaremos por FA freqiléncia acumulada, em qualquer ponto do eixo das abscissas, & definida como a soma das freqléncias de todos os valores menores ou ‘guals ao valor comrespondente a esse ponto. Analogamente, teiamos as freqiéncias elativas acumuladas. Tabela 2.4 Fregiénciase freqincias relativas acumuladas * Fr Fi ° 4 020 1 u 055 2 16 0,80 3 18 0.90 4 9 098 8 20 1.09 Voltando 20 exemplo, podemos facilmente verificar que as freqUéncias e as freqiéncias relativas acumuladas corcespondentes aos valores notaveis da variavel sao as dadas na Tab. 2.4. A partir dessa tabela, foi construldo c gréfico das regdéncias acumuladas, dado na Fig. 2.5. f Figure 2.5 Gréfico des freqdéncies ecumuisdas. 2.2.3 Descricao grafica das variéveis quantitativas continuas — classes de freqiiéncias No caso das variaveis quantitativas continuas, 0 procedimento até a obtengao da tabela de freqiéncias pode ser andlogo ao visto no caso anterior. Entretanto o diagrama de barras, no mals se presta a comrerarepresentacdo da distrbuigdo de freqUéncias, devido & nacureza coatinua da variével. Examinemos umn exemplo: tomeinos a amosica a segul, constitu ‘TEONICAS DE DESCAICRO GRAFICA 13 a por 25 valores da variavel “diémetro de pecas produzidas por uma maquina’, dados em milimetcos: 2s 214218245216 27-216 214212217 AS 245 Ta 25 219 216 213 215 jana’ 218 216 219218 Na Tab, 2.5 cemos esses mesmos dados organizados em termos de frequéncias e de frequéncias relativas, simples e acumuladas. ‘Tabela 2.5 Distribuigio das freqiéncias e das freqiéncias acumuladas zi Si Fi PE Pr 212 1 1 0,04 0.04 as 2 3 0,08 0.12 214 5 8 0,20 32 21s 7 15 0.28 | 0,60 216 4 9 ore | 0,76 217 3 22 o.12 0.88 218 1 23. 0.04 0,92 21.9 2 25 0.08 1,00 23 1,00 Ao passarmos a representacao gréfica, porém, devemos lembrar a correta interpreraco dos valores das variaveis continuas. Assim, por exemplo, sabemos que a freqiiéncia 5 associada ao valor 21.4 significa, na verdade, que vemos cinco valores compreendidos fentze 0s limites 21,35'e 21,45, que foram aproximados, no processo de medigao, para 21.4, Logo, uma representacdo grafica correta deverd associa a freqléncia ao incervalo 21,35—21,48. Isso se faz por meio de uma figura formada com retingulos cujas areas Tepresentam as freqiiéncias dos diversos intervalos existentes. Tal figura chama-se hisco- -grama. Na Fig. 2.6, temos o histograma comrespondente 2o presente exemplo. ‘Vemos que, no caso das variaveis continuas, as freqléncias serio, na verdade, associadas ‘a intervalos de variagéo da variavel e no a valores individuais. A tai intervalos chamaremos classes de freqiténcias. As classes de freqitacias sto comurmente representadas pelos seus Pontos médios, conforme vimos no presente exemple, ‘Uma outra representagdo grifica que, come o histograma, pode ser feita no caso de vatidveis continuas é dada pelo poligono defreguéncias, ue se obtém unindo-se os pontos médios dos patamares. Para completar a figura, consideram-se duas classes laterais com Feaiéncianula.2!Na Fig. 27, emes o poligono de freqhéncias comespondente ao hisograma visto, 0 qual éreprodzdo em inhas imerrompldas. Uma exreydo basune comum 2 esa regra aparece no caso de vanivels eendalmentepostivas ajo ini no val zr, pos rab aver senda om seconsierar um inva com valores negatives. 14 STATISTICA DESCRITIVA Figure 2.8 Histograma do exemplo apresentado no texto. oN 74 e+ s+ at s+ e+ ad o+ B12 21.3 214 215 216 217 218 218 Podemos ainda eonstrur 0 poligono de fregiéncias acumuladas. Este ¢ tragado sim- plesmente verficando-se as freqléncias acumuladas ao final de cada uma das classes. Pode ser construido em termos das freqdénclas ou freqhénciasrelatvas.O poligano de freqdéncias, relativas acumuladas correspondente ao presente exemplo & dado na Fig. 2.8, tendo sido btido a pari das freqiéncias relatvas acumuladas dadas na Tab. 2. No exemplo anterior vimos qué, no caso das variaveis continuas, a consideracéo de classes de freqiéncias & fundamental para a cometa representacao gréfica: Naquele exernplo, as classes consideradas uinham por pontes médias os préprios valores originals do conjunto de dados disponiveis. Ou seja, as classes surgiram naturalmente como decorréncia da interpretacdo dos valores da varidvel continua. Essas classes, no exemplo visto, foram suficientes para a obtengdo de uma representacio grafica satistatéra. Multas vezes, entretanto, uma tepresentagdo satisfatéria dos dados somente ¢ conseguida pelo seu agrupamento em classes de frequéncias que englobam diversos valores ft Figure 2.7 Pokgano de heauences. ‘EONICAS DE DESCAICIO GRARCA 15 Figura 2.8 Poligane de trequéncios relatives acumulades. DEAS 21.25 21.95 21.65 2155 21,65 2175 2188 21: da varidvel. A freqUéncia de cada classe serd, nesse caso, igual & soma das freqiéncias de todos os valores existentes dentro da classe.!91 © procedimento descrito coresponde a uma diminuido proposital da precisio com que 05 dados foram computados. Ou stia, propositalmente deixamos de lado uma parcela da informagao contida nos dados originais tendo em vista obter uma representagéo mais adequada © problema prético a resolver, em tals casos, & 0 de determinar qual o nimero de classes a constitu. qual o tamanho ou amplinude dessas classes e quais os seus limites. £ Claro que, por simplificacéo, recomenda-se, em muitos casos, a construszo de classes de mesma amplitude. Usaremos a seguinte notagao: 2, niimero total de dados dispor 4 niimero de classes; ‘A, amplizude das classes, quando supostas todas iguais. ‘A questdo do ntimero de classes éteoricamente controvenida. Diversos autores apre- sentam solugbes diferentes, Entretanto, com um pouco de bom-senso ¢ experiéncia, chega- se sem grande dificuldade a valotes satisfatorios para A, & para os limites das classes. A obtencdo de solugses simples é, em geral, desejavel, A Fig. 2.9 é um diagrama que pode sec usado’para a determinacao do nimero aproximado de classes, fomecendo resultados satisfatorios em muitos casos. Entretanto nao se recomenda o agrupamenta em classes quando o numero de valores € muito pequeno, digamos, menor que 25. 41 B1e 21.9 S14 218 818 O17 B18 21.9 221 5 esse procedimento também pode ser aplcado no caso de varaves Gscreas, afm de se ober uma represeniagdo mais convenient 16 srarismicA DescAmVvA 18 18 14] 12 ‘Nomero do classes © 3 1 2345 1 2 89 100 200 S00 1000 | Nimera de letures Figura 2.9 Diegrama para a detarminagso co nimere de classes de frequéncias. ‘vamos definir a amplizude do conjunto de datos como sendo a diferenga entre o maior ¢0 menor dos valores cbservados. Vamos designé-la por R. E claro que, uma ver fixado &, resulta he Entretanto é imporante notar que a amplitude das classes néo devera ser fracionatia em relacio A preciso com que os dades so apresentados, pois isso impossibiltaria uma corteta Subdivisdo em classes. ‘TEONICAS DE DESORIGKO GRAFICA 7 Noternos também que os limites das classes sdo, muitas vezes, apresentados sob formas {que no cortespondem ao significado real dos valores contidos na classe. Dizemos, entao, {que temos linites aparences. Em ais casos, pode ser conveniente a determinacao des lites reais das classes. Essa questao serd ilustrada no exemplo que damos a seguir. ‘Tomemos como exemplo o conjunto de valores que segue. que suporemos sejam cin- aqiienta deserminagées do tempo (em segundes) gasto por um funcionario para preencher uum certo tipo de formularo: 61 65 4305355 SL SBS 85H 52 53 62 «49681 53 56 48 «50 Ol 4445S SS 4800454574158: 53468 5546 57 SHB SBS 8ST & facil ver que a distibuigdo de frequéncias diretamente obtida a partir desses dados seria dada por uma tabela razoavelmente extensa. A representacao grafica dessa distribuicio, apresentada na Fig. 2.10, deixa de ser conveniente para esses dados. Figura 2.10 Histograms dos ados nao ‘sgrupaces em classes. s+ at at a a4 ° * a 45) 50 55 BOBS 70 ‘Vamos agora adotar um agrupamento com sete classes de amplitude & = 5. Na Tab. 2.6 ‘so dados os limites das classes ¢ as freqUéncias respectivas."I Nessa tabela,apresentamos 5 limites das classes dados de trés maneiras equivalentes. As duas primeitas so formas ‘usualmente empregadas e comespondem a limites aparentes. A terceira indica os lives reais dessas classes. Note-se que nao ha possibilidade de divida quanto a classe & qual ‘ada elemento pertence. FA mania mals simples de obter as reqitncas das classes a pai do conunio de dados€, a nosso ve, percontendo os dagos uma inc vere assinalando, para cada classe, os elemenios nea cones. 18 estarisica 02S0RmTva Jabela 26 Agrupamento em dastes de regéncas 1 Classes Ties apareies 2 rea note Segunda nowpio | Tess weds wa | seams | 3 ssh50 ws | soa | 8 sobs so | a95—545 | 16 55+ 60 ss—s | sas—sos | 12 ooh6s wa | ses—us | 7 ost70 0 | ois—oss | 5 roKTs nom | os—ms [3 130 (© istograma ¢ o poligono de fiegiiéncias correspondentes 20 agrupamento feito si0 dados na Fig. 2.11. Vernos que essa representaceo grafica € multo mais apropriada do que 2 anteriormente obtida f — Figura 2.11 Representagdo grafica dos dados agrupados. RS MS AS S45 505 O45 HS 145 no de freqléndas obddo sugere o uagado de uma curva concinua. Sm outas palavras. s¢ 0s dados provem de uma amostra eles esti sugerinde qual sea. apreximadamente. a istribuicdo da populacdo, para a qual poderiamos adotat algum modelo ideal de distabulgao. Um ned egientement sada ¢o de stile normal, estudada pelo Cele de Probabiidades¢ apresentada no AP. TEENICAS DE DESCRICAD GRAFICA 43 SE 2.2.4 Exercicios de aplicacso 4, 0s dados que seguem representam as idades, em anos completos, de todas as criangas atendidas em um cero dia por um posto de puericultura. Construa o histograma, © poligano de frequéncias e 0 poligono de freqdncias acumuladas para esses dados. Ia toe eae ae a a et DEI ac HOLES atte 1 EHS: 2. Durante o més de setemibro de certo ano, o nimero de acidentes por dia em certo trecho de rodovia apresentou a seguinte estatistica: 2 0 t 2 3 1 6 1 0 0 Teeattha Hereetes HOH ted tear tte atest oto Hata at ea tee tg Represente graficamente esses dados por meio de dois diagramas distintos. 3. Construa o poligono de freqUéncias relacivas acumuladas para os dados da Tab. 2.6 4, Temos a seguir as notas médias obtidas por oitenta candidates a um exame vestibular. ‘Agrupe convenientemente esses valores em classes de igual amplitude e construa 0s ‘comespondentes histograma, poligono de freqdncias e poligono de freqiéncias relativas ‘acumiladas. 4 73 44 10 45 SL S14 25 53 51 36 47 45 65 «79 «58 45 SE 73 2 38 42 49 19 49 65 52 35 11 87 25 39 2 40 22 5 60 44 5 8 3 6 50 38 9 8 2 9 SF 15 28 48 47 68 6 34 12 65 28 50 8 54 84 45 59 41 45 41 38 52 63 40 16 52 44 46 59 22 15 5. De uma analise de balango em cingUenta inddstrias, obtiveram-se os valores seguintes para seus coeficientes de liguidez. Agrupe os dadcs em: classes de igual amplitude e Conssrua o histograma, o poligono de freqiéncias eo poligono de ftequéncias relativas acumuladas. 29° 78 50 116 27 79 188 38 857 44 129 33 74 63 26 69 56 126 160 2,7 63 44 131 48 100 04 S55 162 25 98 45 106 52 87 90 39 92 84 08 46 156 71 178 45 105 53 118 25 24 75 20 ESTATISTICA DESCATTA, CS EE EEE nn nneanaelS 2.3 CARACTERISTICAS NUMERICAS DE UMA DISTRIBUIGAO DE FREQUENCIAS Além da desctigéo grifica, muitas vezes & necessario sumariar cemtas caracteristicas das distribuigbes de'freqdéncias por meio de cemas quantidades que iremos estudar a segult Tals quantidades s4o usualmente denominadas de medidas éa distibuigao de freqaéncias. por procurarem quantificar alguns de seus aspectos de interesse, ‘Temes, assim, as chamadas medidas de posicdo, de dispersda, de assimecria e de achacamento ou curtese. As medidas de posigao e de dispersao sao, sem divida, as mals importantes, tendo grande aplicacao em problemas de Estatistica Indutiva. Como vecemos, servem para localizar as distribuigbes e caracterizar sua variabilldade. As medidas de assimetria e de achatamento ajudam a caracterizat a forma éas distibuigdes. 2.3.1. Medias de posicao ‘AS medias de posicdo servem para localizar a distibuigdo de freqléncias sobre o eixo de ‘ariagdo da varidvel em questdo. Estudaremos tréstpos de medias de posi: a médla, a mediana e 2 moda. ‘A mécia e 2 mediana, como veremos, indicam, por ctérios diferentes, © centro da Aisucbuigao de freqliéncias. Por essa razdo, costuma-se dizer também que sao medidas de tendéncia centeal. A moda, pr sua vez indica a regido de maior concenwasao de feqUéncias na distbuigéo A média (aritmética) Podemos definir vatios tipos de média de um conjunto de dados. Neste texto, vamos nes preocupar exclusivamente com a média ariumética, de todas a mais usada, a qual denotaremos Por F, sendo x/05 valores da variével. (©) Sendo x; (/= 1, 2, ....n) 9 conjunto de dados, definimos sua média arismética ou, simplesmente, média, por (24) facil verifcar que, se os dados estiverem dispostos em uma tabela de freqléncias formada por linhas, poderemos obter ¥ por ye Ehatill 3h xp. 2s) "outros tpos de média sioa média geoméuica, per CARACTERISTICAS NUMERICAS DE UMA DISTRIBUICAO DE FREGLENCIAS 21 ——————— Por outro lado, considerando uma distribuigdo por classes de freqdéncias, podemos nde CCARACTERISTICAS NUMERICAS DE UMA DISTRISLIGAO DE FREGUENCIAS 31 ——————— 2.3.7 Medidas de achatamento ou curtose* Como o proprio nome indica, essas medidas procuram caracterizar a forma da distribuigao {quanto a seu achatamento, 0 terme médio de comparacao ¢ dado pela diseribuicde normal, modelo tefrica de distribuigdo esrudado pelo Célculo de Probabilidades!"). Assim. quanto a seu achatamento, a distibuigao normale dita mesocircica. As distnibulg6es mais achatadas ue a normal séo ditas placicurticas e as menos achatadas sao ditas leptoctirticas. Na Fig. 2.13 80 cepresentados os trés tipos de distribuigdo, por simplificagdo em termos de distribuigdes continuas ao invés de histogramas. Piaticirtica Mesocirtica Leptocorsce (armel) Figura 2.13. Diseribuizdes plavcirtica, mesacirtca e lepeocdreica. A caracterizagio do achatamento de uma disuibuigdo sé tem sentido, em teams préticos, se.a distribuigio for pelo menos aproximadamente simétrica, Entre as possivets medidas d= achatamento, mencionaremos apenas 0 cogficiente de curtose, obtido pelo quociente do momento centrado de quarta ordem pelo quadrado da varidncia, ou sea, cay i aed. (2.30) Esse coeficiente é adimensional, sendo menor que tés para as distibuigées platiciticas, igual a wés para uma distribuiglo mesocirtica e maior que trés para as distribuigses leptociiticas.1") Analogamente ao caso de as, 0 céleulo de ay pode ser feito utlizando-se os dados codlficados, sem que seu valor sea afetado. No Ap. 2, apresentamos o céloulo de my usando dados codificados, com resultado a4 = 2,21, revelando uma distribuicdo ligeiramente platicurica. 2.3.8 Exercicios de aplicacéo Calcule 0s coefcientes as ¢ a € @ indice de assimetria de Pearson para os exercicios 1, 4¢ 5 do item 2.2.4, e para os dados das Tabs, 2.5 « 2.5. Compare os resultados obtidos com as representacées graficas respectivas. No caso dos exerccics 4 ¢ 5 do item 2.2.4, use 05 agrupamentos em classes feitos 20 resolv-os, Tejas fot (pig disper uzarochamad copie de exces, defi come a5, de far o eto como reensa meson. 32 esratistica oescrITiva Se En EEE ee enn 2.4 EXERCICIOS COMPLEMENTARES 1. Uma esrasstiafeta nas quarentaJojas de ums cidade, tendo em vista um estudo sobre ‘o niimero de empregados no comércio, mostrou os seguintes nlmeros de er cexistentes em cada loja ee ee 5 8 0 4 2 3 2 5 2 00 202 5 5 7 112 2% 5 3 295 5 35 199 9 5 4 1 2 6 4 1 5 6 8 2 4 2 8 Constvaatabel de feguéncias, respective grfco eo grafic das fegincias acumu- 2. Represente graficamente o seguinte conjunto de dados: 22.6 25.8 27.9 289 284 344 41,7 248 234 24 269 264 27,9 235 23,1 26,5 29,5 204 294 318 248 23.9 29,5 461 23.9 235 33,9 361 278 26.6 22,7 283 259 52,1 27,5 27,8 23,8 25,0 27,0 25,6 25,6 288 25,7 224 25.0 24,0 261 355 359 223 31,7 3, Trinta embalagens plasticas de mel foram pesadas com precisio de decigramas. pesos, apse convenientemente agrupedos, Iomessiam @ segunte disouleio de freqiéncias (em gramas): x fi aS 1 32,5 5 335 i 345 8 385 3 365 2 CConstrua o poligono de Freqiéncias relativas acumuladas para os dados. 4. Dados os dez valores seguintes, calcule sua média, mediana, moda, varlancia, desvio- padro e coeficiente de variagao: Ww om 6 70 8 8 «72 «17 82 EXERCIOIOS COVPLEVENTARES 33 nen eee eamnemeened 5. Ensaios de uma amostra ao acaso de quarenta compos de prova de concreto fomneceram, as seguintes resistincies & ruptura: 64 61 654345 SST 30 100 91 75 78 68 80 69 m 27 4 9 9 9 78 72 59 78 495 «62 «42961005. a sf 78 «103 (880 ‘Agrupe os dados em classes de freqUéncias e construa © histograma, 0 poligono de frequéncias e o poligono de frequéncias acumuladas. 6, Caleule a média, 2 mediana, a moda ¢ 0 desvio-padrdo para os dados: a} do exerccio 1: ) do exercicio 2: ¢) do exercicio 4) do exercico 4; €) do exercicio 5. o 7. Agrupe convenientemente os datos a seguir em classes de freqUéncias e consirua o poligono de freqaéncias acumuladas. Com cs dados assim agrupados, calcule a méeia, S mediana, a moda e o desvio-padrdo. 170 182) 175 184 170 162 174 160 178 171 ies 155 169 176 «TL «172 «182 «177 «187 «178 176 187 179 163 180 159 170 188 166 168 176 169 172 179 «176 477 172 «175 181-172 164 173 173 165 164 172 166 184 167 181 ‘8. Os ndmeros seguintes representam as notas de Estatstica de trina alunes. Construa 0 hhistograma, 0 poligono de freqbéncias acumuladas e calcule a média ¢ 0 desvio-padrao dos dados. A varigvel € continua ou discreta? 55 30 40 45 7.0 65 38 45 30 75 45 00 48 55 45 70 90 60 40 50 80 98 458 45 45 25 20 50 60 45 34 esTarisnica DescArTMA 9. Medindo-se o diémetro externo de uma engrenagem, foram obtidos valores, em milimetros, de acordo com a seguiate distribuigao: Classes fi 100% — 1010 3 Toit — 1020 2 7021 28 1031 — 1040 82 Tos — 1050 74 1081 — 1060 30 sosteaere vo Calcule a média, 0 desvio-padide & 171 — 1080 a amediana desse fre de pega. 10. Um certo indice econdmico, necessariamente maior que 1, fol determinado para um Conjunto de n empresas analisadas. Os resultados so dados a seguir Calcule a média, a mediana ¢ 0 desvio-padrao desses dados. Determine também um valor para a moda usando a relacdo empirica vigente entre esta, a média e a mediana. Classes __Frequéncias, 1,00— 1,07 1 1071.14 2 Sasa T2128 3 128— 138 7 135—1A2 3 Raw 13156 T 4 1. Uma amostra apresentou a seguinte distibuicéo de freqt Classes Frequencias ~Ss-4 Ss 95 — 104 tt ios 4 3 iis — 124 zt “ioe 135 — 144 3 145 — 154 3s Calcule a média, a mediana, a moda € 155 — 164 3 0 desvio-padrio. A EXEACICIOS COMPLEMENTARES 35 a nen as 12, Dada a distribuigdo de frequéncias que segue, determine a mediana e a proporsio de elementos maiores que quatro, supondo: (a) varivel discreta e () variével continua. Sea Hae Sree Ae Ore cer fa 4 9 210 8 4 1 © coeficiente de variagdo sera o mesmo nos casos (a) ¢ (b)? 13, Os quarts Q;, Q2 €s de uma distribuigao de freqiéncias conrespondem & generelizacao da idéia de mediana e dividem as FreqUéncias em quatro pares iguals. Numa distribuigao com seis clasces de tamanho h cada uma, sendo x 0 limite inferior da primeira classe eas freqiiéncias das classes de, pela ordem, 2, 5,6, 4,2 € 1, determine Q,, 02 € Qs em fungao deta eA. 14. Dado o histograma da Fig. 2.14 e sabendo que todas as classes t8m igual amplitude caleule a moda, 2 mediana e o coeficiente de vatiacéo da distibuicao. 15, Mostre que 2 utllizagdo da expresso (2.7) do texto para o calculo da moda de uma distribuigso em classes de frequéncias equivale ao procedimento gréfico indicado na Fig. 2.15. 16, Uma amostra de chapas produzidas por uma méiquina fornecen as seguintes espessuras, ‘em milimetcos, para os itens examinados: 6,54 658 640 630 6,36 6,36 638 620 642 628 6,58 Hi razdes estatisticas para se afirmar que a distribulgdo das espessuras seja assiméuica? Figure 2.14 BOs So we SS Ss S55 36 estatismioa DesoRITIVa Figure 2.15 Ee 17. Uma amostra de oitenta pecas retiradas de um grande lote forneceu a seguinte distri- buigao de comprimentos: Classes ansctas simples wae i 70 3 70— 80 6 3090 5 99 — 100 25 160— 110 20 110= 120, 7 120— 150 3 A especificagdo pare esse tipo de material exige que o comprimento médio das pecas esteja compreendido entre $2 ¢ 96 mm, que 0 coeficiente de variacao seja inferior 2 20% e que a distribuisdo dos comprimentos seja simétrica. Quais dessas exigencias parecer nao estar satisfeitas no presente caso? 18, Uma distribuigao de freqiéncias é constituida por cinco classes de igual amplitude cujas ‘Frogbéncias relativas sao, respectivamente, 20%, 37.5%, 30%, 10% e 2,5%, Calcule ‘seu indice de assimetria de Pearson. 19. Caleule o coeficiente de assimettia, o indice de assimettia de Pearson € 0 coeficiente de ‘curtose para 0s dados: a) do exercicio 1; b) do exercicio 4; c) do exercicio 10; 4) do cexercicio 11; e) do exercicio 12. Amostragem — distribuicoes amostrais 3.1 INTRODUCAG Ja vimos que a Estatistica indutiva & a ciéncia que busca ret conclusées probabilisticas sobre as populagées, com base em resultados verificados em amostras reiradas dessas populagées. No Cap. 2 foram vistas as técnicas usuais para a descrigdo de um conjunto de dados. Em problemas de Estatistica Indutiva,tais conjuntos de dadcs seréo as amoscres retiradas das populagées de interesse. As maneitas pelas quais, a partic dessas amostras, tram-se conclusdes acerca de diversos aspectos das populagdes seréo examinadas nos capiculos subseqientes. Enaretanto nao basta que salbamos descrever convenientemente os dados da amostta ¢ que dominemos perfeitamente 2s técnicas estatisticas para que possamos executar, com éxito, um trabalho estatistico completo. Antes de tado, é preciso garantir ue a amostra ou “amostras que serao usadas sejam obtidas por processos adequades. Se erros palmares fore cometidos no momento de selecionar os elementos da amosira, 0 trabalho todo ficaré comprometido ¢ os resultados finais seréo provavelmente bastante incorretos. Devernos, portanto, tomar especial cuidado quanto aos critérios ue serio usados na selegdo da amostra, ‘© que é necessério garantis, em suma, é que a amostra sea representativa da populacdo, Isso significa que, a nio ser por pequenas discrepancias inerentes @ aleatoriedade sempre presente, em maior ou menor grau, no processo de amostragem, a amostra deve ter as ‘mesmas caracteristicas bisicas da populagdo, no que diz respeito a(s) variavel(is) que desejamos pesquisar. Annecessidade da representatividade da amostra ndo ¢, acreditamos, dificil de entender. (0 que talvez nao seja tao facil ¢ saber quando temos uma amostra representativa ou ndo. Veremos adiante algumas recomendagdes sobre como proceder para garantir, da melhor forma possivel, a representatividade da amostra, (Os problemas de amostragem podem ser mais ou menos complexos e sutis. dependendo das populagées e das variaveis que se deseja estudar. Na industria, onde amostras si0 Frequentemente retiradas para efeito de controle da qualidade dos produtos e materia, em 38 AMOSTRAGEM ~ OSTAIBUICOES AMOSTRANS ——— _getal os problemas de amostragem so mals simples de resolver. Por outro lado, em pesquisas sociais, econémicas ou de opiniao, a complexidade dos problemas de amostragem ¢ nor malmente bastante grande. Em tais casos, extreme cuidado deve ser tomado quanto & caracterizagao éa populago € 20 processo usado para selecionar a amostra, a fim de evitar que os elementos desta constituam um conjunto com caracteristicas fundamentalmente distintas das da populacéo. No caso de distribuicdo de questionérios, especial atensdo deve ser dada a sua elaborage, vsando evar pergutas cpciosas ou inibidoas, © que vita a dstorer os Em resumo, a odtencdo de solugdes adequadas para o problema de amostragem exige, ‘em geral, muito bom-senso e experiéncia. Além disso, ¢ muitas vezes conveniente que o trabalho do estatistico seja complementado pelo de um especialista no assunto em questo ‘No presente capitulo, vamos nos limita as recomendagbes bisicas referentes 20 problema de amostragem e & apresentagao das princigais técnicas de amostragem. Na pratica, os mais variados problemas adicionais poderdo surgic, devendo as respectivas solusdes ser pes quisadas em cada caso. 3.2 AMOSTRAGEM PROBABILISTICA Distinguiremos dois tipos de amostragem: a probabilistica e a néo-probabilistica. A amostiagem sera probabilistica se todos os elementos da populacdo tiverem probabilidade ‘ouhecida, e diferente de zero, de pertencer & amostre. Caso contraro, a amostragem sera do-probabilistica, Segundo essa definigao, a amostragem probabiistica implica um sorelo com regres bem eterinadas, cua realaagto 86 std pocsvel ea popuasio (or nite oalmente acessivel ‘Como veremos adiant, as técnicas da Estatstca Indutiva pressupdem que as amostras, utlizadas sejam probabllsticas, 0 que muitas vezes nao se pode conseguir. No entano © ‘bom-senso ir indicar quando o processo de amostragem, emibora nao sendo probabilstico, pode ser, para efelios priticos, considerado como tal Isso amplia consideravelmente as possibilidades de utlizacéo do método estatistco em geral. A.utilizagéo de uma amostragem probabilistca é a melhor recomendacéo que se deve fazer no sentido de se garantir a representatividade da amostra, pois 0 caso seré o tnico responsivel por eventuais discrepancias entre populagio e amostra, © que é levado em consideracdo pelos métodos de andlise da Estatistica Indutiva, Uma amostra que ndo seja tepresentativa da populacao & uma amestca viciada. 0 vicio ‘embucido nos dados provenientes dessa amostra é 0 vicio de amostragem. Sua utilizagio para efeito de inferéncia estatistica quanto a aspectos da populacio levard, por causa disso, 4 resultados que nao cortespondem a realidade. Nao ha outra forma de se evitar que isso ‘ocorra a nao ser procedendo & adequada coleta dos elementos que constituiréo a amostra, Além disso, alguma introspeccdo nos indicara que, a rigor, amostragem probabilistica 0 serd possivel em populagdes fnitas. Iso ndo nos impecira de suporaeeirada de amostas probabilisticas “de populacdo infintas”, pois estaremos pensando em populacSo sufcien- temente grandes para que Se comportem como ta amos a seguir algumas das principais técnicas de amostragem probabilistica. Outras poderdo também ser usadas, como combinagdo ou nao das descritas. AIVOSTRAGEM PROBABILISTCA 39 3.2.1 Amostragem casual simples Este tipo de amosttagem, também chamada de simples ao acaso, aleatéria, casual, simples, elemencar, randémica,"| etc, ¢ equivalente a um sore lotérica. Nela, todas os elementos dda populagao tém igual probabilidade de pertencer & amostra, ¢ todas as passiveis amostras ‘ém também igual probabilidade de ocorter. Sendo W/o nimero de elementos da populagdo ¢ 7m 0 nimero de elementes da amostra, «ada elemento da populacéo tem probabilidade n/N de pemtencer & amosta. A essa relacio Tilt denomina-se fracdo de amostrager. Por outro lado, sendo a amostragem feta sem reposigao, o que Suporertos em gera. exisiem (4) possivels amostras, todas igualmente provavels Na pratica, a amostragem simples ao acaso pode se realizada numerando-se a populagio de 1 aN, someando-se, a seguir, por melo de um dispositivo aleatSrio qualquer, n nimeros dessa segiiéncia, os guais coresponderio 20s elementos sorceados para @ amostra Na auséneia de algum programa de computador, um instrumento iit para se realizar 0 sorteio acima deserito €a cabela de numeras ao acaso. Ta tabela 6 simplesmente constituida Por inimeros digitos que foram obtidas por algum processo equivalente 2 um sorteio eghiprovavel (ver a Tab. 6.5). Hustremos sua uilizacZo com um exemplo. Sela uma populacto de 800 elementos, da qual desejamos tirar uma amostra casual simples de 50 elementos. Considerames a populagéo numerada de 001 2 800, sendo os ‘nimeros tomados sempre com trés algarismos. A seguit. soreamos um digito qualquer na nossa tabela, a partir do qual iremos considerar os grupos de és algarismos subseqlen- temente formados, os quais irdo indicar os elementos da amostra. Assim, se, a parti do onto sorteado para inicio do processo, os digitos cbservados forem 537418025856706.. 0s elementos sorteados para a amostra serdo os de ordem 537, 418, 023, 706, etc. Evidentemente, 0 grupo 856 fol desprezado, pois nao consta da populacao, como ‘seria também abandonado um grupo que jé tivesse aparecido (a ndo ser, € claro, que'se desejasse amostragem com reposicdo). Pt ‘0 processo, cbtém-se 0s 50 elementos desejades. Note-se que a decisdo de abandonar os grupos maiores que 800 ou repetides deve ser tomada antes de iniciado o processo, prevendo-se jétais ocomréncia, para evitar eventuais, Interferéncias do julgamento pessoal durante a reirada da amestra. Salvo mengao conta a venicas esatistcas que veremos nos capitulos subseqientes pressupdem a utlizagdo de uma amostragem casual simples ou algum processo que Ihe sea equivalents, Caso contro, devert ser tomados cuidades aconals, pare acoretaanllse dos dados. 3.2.2 Amostragem sistematica Quando os elementos da populacdo se apresentam ordenados ¢ a retirada dos elementos da aamostra € feita periodicamente, temos uma amestragem sistematica. Assim, por exemplo, em uma linha de produsdo, podemas, a cada dez itens produzdos, reticar um para pertenicet ‘uma amostra da producéo citria, 1 Dp ings random, it @ -acaso 3 A Ret 3 consti lima cbegatoa a ese respite 40 AMOSTRAGEM — DISTRIBUICOES AMOSTRAIS (Ou, entéo, voltando ao exemplo anterior om W = 800. n = 50 € a populacdo jé ordenada, poderiamos adotar o seguinte procedimento: sortear um niimero de 1 a 16 (note-se que ‘800/50 = 16), 0 qual indicatia o primeico elemento sorteado para a amostra; os demais, elementos setiam periodicamente cetirados de 16 em 16. Equivalentemente, poder-se-iam considerar os niimeros de 1 a 800 dispostos seqiencialmente em uma matriz com 50 linhas € 16 colunas. sorteando-se a seguir uma coluna, cujos nlimeros indicariam os elementos da amostra. Vemos que, nese caso, cada elemento da populagao ainda teria probabilidade S0/ 1800 de pertencer & amostra, porém existem agora apenas 16 possiveis amosiras. ‘A principal vantagem da amostragem sistemética esta na grande facllidade na deter minacao dos elementos da amostra. 0 perigo em adoti-la esté na possibilidade de existirern clclos de variagao da varlavel de interesse, especialmente se o periodo desses ciclos coincidic como periode de retireda dos elementos da amostra. Por outro lado se a ordem,dos elementos na populacéo néo tiver qualquer relacionamento com a varidvel de interesse, entio a amostragem sistematica tera efeitos equivalences & casual simples, podendo ser utlizada sem restrigbes. 3.2.3 Amostragem por canglomerados ‘Quando a populacio apresenta uma subdivisio em pequenes grupos, chamados congio- ‘erados, ¢possivel — e muitas vezes conveniente — fazer-se a amastragem por conslo- ‘merados, 2 qual consists em sorteat un nimero suficiente de conglomerados, cujos ele- rmentos constiuirdo @ amostra. Ou seja. as unidades de amostragem., sobre as quai € feito ‘9 soreio,passam a ser os congiomeradcs e ndo mals os elementos individuais da populac. Esse tipo de amostragem é as vezes adotado por motives de ordem priticae econémica, ou mesmo por razSes de viablidade. 3.2.4 Amostragem estratificada Muitas vezes, a populacéo se divide em subpopulagées ou escraras, sendo razoavel supor ue, de estrato para estrato, a variavel de interesse apresente um comportamento substan- cialmente diverso, tendo, entretanto, comportamento razoavelmente homogéneo dentro de cada estrato. Em tais casos, se 0 sorteio dos elementos da amestra for realizado sem se levar em consideracdo a existéncia dos estratos, pode acontecer que os diversos estratos no sejam convenientemente representados na amostra, a qual seria mais influenciada pelas caracreristicas da varlavel nos estratos mais favorecides pelo soreio. Evidentemente, a tendéncia a ocorréncia de tal fato sera tanto maior quanto menor o tamanho da amostra. Para evitar isso, pode-se adotar uma amostragem estratificada, cujo uso pode também se justificar para diminuir o tamanho da amostra sem perda da qualidade da informagao.. Deve-se notat, porém, que o uso da amostragem estratificada exige um cuidado adicional no calculo dos valores provenientes da armostra, como a média e a varincia (ver Ref. 3). Seria contraproducente, portanto, adoté-la quando a estratficacdo fosse apenas aparente, usa, no impicand difecentes comporamentes da varive de aeresse ois complicara desnecessariamente o processo. A amostragem estratificada consiste em especiicar quantos elementos da amostra sero retirados em cada estrato. E costume considerar tes tipos de amostragem estratificada: uniforme, proporcional e étima. Na amostragem estratiicada uniforme, sortela-se igual ‘namero de elementos em cada estato. Na preporcional, o nlmero de elementos sorteados em cada estrato ¢ proporcional ao nimero de elementos existentes no estato. AMOSTRAGEM PROBABLISTICA a ‘A amostragem estraificada 6tima, por sua vez, toma, em cada estrato, um niimero de elementos proporcional ao nimero de elementos do estrato e também a variacao da variavel de interesse no estrato, medida pelo seu desvio-padrao. Pretende-se assim oximizara obtencdo de informagses sobre a populacao, com base no principio de que. onde a variagao & menor, ‘menos elementos sao necessérios para bem caractetizar o comportamento da variavel. Dessa forma, com um menor nimero total de elementos na amostra, conseguir-se-ia uma quantidade de informacao equivalente a obtida nos demais casos. AS principals dificuldades para a utlizagdo desse tipo de amostragem residem nas complicacdes teéricas relacionadas com a analise dos dados ¢ em néo podermos, muitas vezes, avaliar de antemao 0 desvio-padro dda variavel nos diversos estratos. Exemplos em que uma amostragem estratficada parece ser recomendavel sao a estra~ tificagdo de uma cidade em bairros, quando se deseja investigar alguma variavel relacio- nada & tenda familiar; a estratificagao de uma populagéo humana em homeas ¢ mulheres, (ou por falxas etarias: a estratificagio de uma populagio de estudantes conforme suas especializagées, etc. 3.2.5 Amastragem miltipla Numa amaseragem miiipla, a amosta & retiada em diversas eapas sucessivas. Dependendo dos resultados observados, etapas suplementares podem ser dispensadas. Esse tipo de ‘amostagem €, muitas vezes, empregado na insperdo por amostragem,sendo paricularmente importante a amostragem dupia. Sua finalidade & diminuir © nimero médio de itens inspecionados a longo prazo, baixando assim 0 cusio da inspecao. Um caso extremo de amostragem multipla é a amostragem segiencial. A amostra vai sendo acrescida item por item, até se chegar a uma concluso no sentido de se aceitar ou rejeicar uma dada hipétese. Com a amostragem seqiencial, pretende-se tomar minim 0 nilmero médio de itens inspecionados a longo prazo. 3.3 AMOSTRAGEM NAG-PROBABILISTICA Amostras ndo-probabilisticas sio também, muitas vezes, empregadas em trabalhos ‘estatisticos, por simplicidade ou por impossibilidade de se obterem amostras probebilstcas, como seria desejével. Como em muitos casos os efeitos da utlizacdo de uma amostragem ‘ndo-probatilistica podem ser considerados equivalences acs de uma amostragem probs- bilistica, resulta que os processos ndo-probabilisticos de amostragem tm também sua importancia, Sua uilizagdo, entretanto, deve ser feita com reservas e com 2 convicgio de gue nao introduza vicio. Apresentamos a seguir alguns cascs de amostragem n&c- probabilistica 3.3.1 Inacessibilidade a toda a populagao Esta situagdo ocorre com muta ftegiéncia na praica. Somos entdo forcados a colher 2 amostra na parte da populagao que nos ¢ acessivel. Surge aqui, portanto, uma distingdo entre populagdo-objeto e populagdo amostrada. A populagao-objeto é aguela que temios em mente ao realizar o trabalho estatistico, Apenas uma part= dessa populacdo, porém, est acessivel para que dela retiremos a amostra. Essa pare € a populagio amostrada. Se as caracteristicas da varidvel de interesse forem as mesmas na populagdo-objeto € nna populago amostrada, entdo esse tipo de amostragem equivalera a uma amostragem probabilistca. 42 AMOSTRAGEM — OSTRIBUICOES AMOSTRAS ‘Uma siniagdo muito comumn em que ficamos diante da inacessbiidade a toda a populagdo 0 caso em que parte da populacdo nao tem existéncia real, ou seja, uma pare da populacao € ainda hipotética, Assim, por exemplo, seja a populacio que nos interessa constituida por todas as pecas produzidas por certa maquina, Ora, mesmo estando a maquina em funcio- rnamento normal, existe uma parte da populacao que é formada pelas pecas que ainda vio ser produzidas. Ou, entao, se nos interessar a populacdo de todos os portadores de febre ‘ifoide, estacemos diante de um caso semelhante. Deve-se notar que, em geral, estudos realizados com base nos elementos da populacdo amostrada terdo, na verdade, seu interes- se de aplicacdo volado para cs elementos restantes ¢a populagdo-objeto. Esse fato realca a imporéncia de se estar convencido de que as duas populastes podem ser consderadas como tendo as mesmas caracteristcas. ‘presente caso de amostragem nao-probabilsica pode ocorrer também quando, embora se tenha a possibilidade de atingir toda a populagdo, retiramos a amostra de uma parte que seja prontamente acessivel. Assim, se {Sssemos recolher uma amostra de um monte de mminério, poderiamos por simplificagao retirar a amostra de uma camada préxima da superficie do monte, pols 0 acesso as porcees interiores seria problematic, 3.3.2 Amostragem a esmo cu sem norma £ a amostragem em que o amostrador, para simpliicar 0 processo, procura ser aleatério sem, no encanto ealzar propriamente osorsio usando algun dispositive aleatério conBével. Por exemplo, se desejarmos retirar uma amostra de 100 parafusos de uma caixa contendo 10.000, evidentemente no faremos uma amostragem casual simples, pois seria extre- mamente trabalhosa, mas procederemos a retirada simplesmente a esmo.. 0s resultados da amosagem a esmo sio, em geral equivalents aos de uma amostragem probabilistica se a populacdo € homogénea ¢ se nao existe a possibilidade de o amostrador ser inconscientemente influenciado por alguma caracterstica dos elementos da populacao. 8.3.3 Populacdo formada por material continuo Nesse caso é impossivel realizar amostragem probabilistic devido a impraticabilidade de lum sortelo rigoroso. Se a populagdo for liquida ou gasosa. 0 que se costuma fazer, com resullado satistatério, & homogeneizé-la e retirar a amostra a eso. Tal procedimento pode as vezes, também, ser usado no caso de material solide, Outro procedimento que pode ser empregado nesses casos, especialmente quando a homogeneizagio nao ¢ praticavel, & a enquareagdo, a qual consiste em subdivic a populagio ‘em diversas partes (a origem do nome pressup6e a divisio em quatro partes), sorteando-se uma ou mais delas para consticuir a amostra ou para delas retrar a amostra, 3.3.4 Amostragens intencionais (no bom sentido) Enguadram-se aqui os diversos casos em que o amostrador deliberadamente escolhe certos elementos para pertencer & amostra, por julgar tais elementos bem representatives da populacéo. © perigo desse tipo de amostragem é obviamente grande, pols o amostrador pode faciimeate se equivecar em seu pré-julgamento. Apesar disso, 0 uso de amostragens intencionais, cu parcialmente intencicnais,é bastante freqiente, ccorendo em vats tpos DISTREIUCDES AMOSTAAS 43 de situagées reais, que poderiamos tentaridentificare classificar, Nao ofaremos, porém. por fugit & nossa fnalidade neste texto 3.3.5 Amostragem por voluntarios Cocorte, por exemplo, no caso da apicagso experimental de uma nova droge em pacientes, ‘quando a ética obriga que haja concordancia dos escolhidos. 3.4 DISTRIBUICOES AMOSTRAIS © pico que aborderemos agora é, de certa forma, uma ponte entre a Estatistica Descntiva a BstasticaIndutiva, Sua apresentag é fundamental para a bea compreensio de como se controem os métodos estatisticos de analise ¢ interpretacao dos dados, ou seja, os métodos a Estaistca Induiva. £ ag que o Calclo de Probeblidades vai se apresentar como a ferramentabasica de que se vale a EstatsicaIndutva para a elaborago de sua metodologia Suporemos, doravante, que as amostras sio representativas das populagSes, ou seja, ue foram obtidas por processos probabilisticos ou equivalentes e, salvo mengao em contrario, or amostragem casual simples. Ora, sendo a amostra aleasSria, todos os seus elementos fomecerdo valores aleatSrios da vatiavel de interesse. Ou seja, a amostra 6, para todos as, efeitos, constiruida por um conjunto de n valores aleatoriamente obtidos de alguma variavel. © conceito de distribuicdo de probabilidade de unta variével aleatria, fomecido pelo calcula de Probabilidades. sera agora utlizado para caracterizac a distribuigdo dos diversos valores de uma variével em uma populacéo. | comentamos que, quando pensamos em luma populagéo, em verdade nos interessamos pelo conjunto total de valores de alguma variavel de interesse. Esse conjunto total de valores encerra potencialmente uma variével aleatéria, cujos valores se manifestem a partir do instante em que passamos a sortear elementos dessa populacdo ¢ verificar os valores correspondentes de nossa variével. Logo. © conceit de discrbuic2o de probabilidade, muitas vezes apenas associado a idSia dinamica de varidvel aleatéria, pode ser estendido as populacées, ¢ efetivamente seré usado para descrevé-las ‘Ao retire uma amostra aleatéria de uma popillacdo, portato estarernos considerando cada valor da amostra como um valor de unia varidvel aleatéria cuja distribuigéo de Qropablidae ¢a mesma da opulagio no instant dareirada deste elemento ara aaiosza, claro que, sea amostragem for com reposigfo, todos os valores da amostaterdo a mesma distribuicdo de probabilldade ou, em outras palavras, serao igualmente distribuidos. 0s valores da amostra também serdofgualmente disuibuldos sea populacao fo infinia, pols, nesse caso, a retitada de alguns elementes nao modificard a distrbuigio de probabilidade da populagao. Na prética, em verdade, ndo encontraremos populagSes infinjtas que néo sejam hipotéticas, No entanto, podemos considerar como infinita uma populacao suficien- temente grande para que sua distibuigao de probabilidade se mantenha inalterada durante a retirada da amostra. Em conseqiiéacia do fato de os valores da amostra serem aleatérios, decorre que qualquer quanudade calclada em fungdo ds elements da amosra também seré uma varivel Chamaremos os valores calculados em fungao dos elementos da amostra de estaristicas. As estatisticas, sendo varidveis aleatérias,terdo alguma distibuigo de probabilidade, com uma média, uma variancia, etc. A distibuicdo de probabllidade de uma estatistica chama- se comumente distribuigdo amoscral ou distribuigdo por amoscragem: 44 ANOSTRAGEM — DISTRIBUIODES AMCSTRAS Outre mancira pela qual se pode interpretar a distribuicdo de probabilidade de uma estatistica € considerando a distribuigao da populacao de todos os valores que podem ser obtidos para essa esttistica, em funcdo de todas as amostras possiveis de Ser reiradas da populagao original.(*1 Convencionaremos, doravante, usar simbolos ndo-indexados para os pardmexros popula- cionais, 20 passo que os parametias corespondentes as distibuigbes amostais conterdo uma indicagdo quanto a estatisica a qual se referem. Assim, ir inicar a média de uma populacao, ou sea, da distrbuicao de probabllidades ¢a varavel de interesse na populacao, enquanto que wz, u(i),ou £(F) denotario a média da distabulpio amostral da estatstca Da mesma forma, o3 ou 0°(F) designam a variincia da distribuigdo amostral de £ ¢ 0°, a variéncia populacional, Note-se que ulizamos,proposialmente, simbolos diferentes para as medidas da amostra ¢ os pardmetres€a popuagdo, a fim de promover 3 Indspensavel caracieizagio de cada um. Veremes a seguir algumas distribuiges amostrais que teréo grande utllizagio nos capitulos seguintes. Outras seréo mencionadas e comentadas em outros pontos do texto, Sempre que necessért. 3.4.1. Distribuicao amostral de x Determinemos as principals carateristicas da distibuigdo amostral da estatistica F, média de uma amostra de elementos. Sendo a populacd infinita ou a amostagem fia com reposicéo, resulta que os diverse valores da amostra podem ser considerados valores de variavelsaleatérias independentes, com a mesma distibuigdo de probabilidade da populacdo, poreanto com a mesma média we ‘a mesma vatiancia 0? da popula¢éo. Do Calculo de Probabilidades, sabemos que:!" 2) uliplicando cs valores de uma vatiével aleatbria por uma constante, a médla fica muldplicada por essa constant; b) a média de uma soma de variéveisaleatorias € igual & soma das médias dessas variéves. Lembrando que 6) ¢ usando as propriedades, temos HB)= Lata) esdag)etala)= ernst adedmen, (62) 5 Usando um concelo matemdico fegerse, dada una populagio de valores, azavés de sua distibuigao e probabildade, e ura esatistica defnida em fungdo de uma amosta de ni elementos, cbtida por um rocesso de amestragem bem deinid,reremos uma dsuibuivao amoral gerade por essa popula ¢ por ‘sa enatsnca. Ser reso, sas para a kia ppsaciond, onmasano com a més aes Da mesma forma, o* designa a varlania populadal (¢ & © desvio-padrde), a0 passo que s* designa a varncia arostal (¢ 0 desve-padcio) a {5s quatro propriedades mencionadas em seguida sie ctadas no Ap.1.em A1.2.4¢A1.2.5.Aspropediades ‘zee ja fram wambém apresentadas no Cap. 2, em irmes de distbuigGes de frequéncias OISTRBUIGDES ANOSTRASS 45 ‘Vemos, portanto, que a média em tomo da qual deve varar os possiveis valores da estatisca ¥ € a propria médiay éa populacdo. Um resultado que nao deixa de serintuitivo. Esse resultado ¢ extensivo a0 caso de amostragem sem ceposicio de populagdesfinitas, pois 2 aplicagdo da propriedade (b) ndo exige a independéncia das variavels x; ¢ todas essas variaveis tem a mesma distribuigdo de probabilidade quando apriorisicamente consideradas em relagdo ao processo de amostragem. ‘Quanto 4 variincia, o Céleulo de Probabilidades nos ensina que: )__maultipticande os valores de uma varidvel aleatéria por uma constante, a verincia fica multipicada pelo quadrado dessa constante: 44) avariancia de uma soma de variaveis aleatérias independentes é igual a soma das vanancias. Logo. lembrando (3.1) e usando as propriedades, temos om): (leurs +0%(x,))=4 fot +02 +--+03) a) Pans oa) ee ‘Vermos, porranto, que a variancia com que se dispersam os possiveis valores da estatistica én vezes menor que a variancia da populacdo de onde ¢ retirada a amosta. Iso se deve 1 propria esséncia o processo aleatério. que faz com que haja, denuro da amostra, uma natural compensagio entre valores mais elevados e valores mais baixos, produzindo valores de ¥ que tendem a ser tanto mais préximos da média w da populagdo quanto maior 0 tamanko da amostra 7. Resulta imediatamente que oR=02 9 64) No caso de amostragem sem reposigao de populagées finitas, em que a independéncia ‘entre os valores x; no se verifica, demonstra-se que one onde WV € 0 ntimero de elementos da populagéo eo fator Nv. N-1 5) & chamado fator de populagdo finita. Note-se que esse fatartende a unidade quando 0 tamanko da populacéo tende ac infinito. Além disso, sendo esse fator menor gue 1, tem-se {ue o2(2) sera menor para populagdes fnitas que para populacdes supostasinfntaments grandes. Quanto & forma da distibuigdo amostal de Z, setemas também auxllados por dois lmportantes resultados do Calculo de Probabldades. Esses resultados sdo dados pelo “teorema das combinagées lineares (de varidveis normais inéependentes)”e pelo “teorema do limite fezntral", ambos enunciados no Ap. 1 (item A1.4.3) Assim, se a dstibuigio da populagio for normal, a disuibuigdo amostal de F sera também normal para qualquer tamanho de amostra, devido 20 primeito teorema, pois 46 AMOSTRAGEM — OSTAISUICOES AMOSTAAIS Figura 3.1 Disrrtuicdo smosral (de X — populecso nermal of = Distrbuigse emostral de £ Distribuigde de papuiecdo sera, entZo, uma combinaco linear de variéveis normais independentes {4 Na Fig. 3.1. Drocuramos representar um caso genérico envolvendo a distribuigao amostral de ¥ no caso de populacéo normal. Por outro lado, se a distibuiggo da populagio nao for normal, mas a amostra for suficientemente grande, resutaré, do teorerma do limite central, que, no caso de populacao infinta ou amostragem com reposieao, a distibuicdo amostal de F sera aproximadamente ‘normal, pois 0 valor de ¥ resulta de uma soma de um niimero grande de varaveis aleatorias independentes. Sendo aproximada, essa conclusio é extensivel ao caso de amostragem ‘sem reposigo de populagdes finitas, porém razoavelmente grandes. Na prética, uma amostra sufcientemente grande para que jé se.possa aproximar a Aistribuigdo de ¥ por uma normal no necessita ser muito grande, especialmente quanto mais simétrica ou prOxima da normalidade fora distibuicdo da populacdo. Em muitos casos, tama amostra de quatro ou cinco elementos jé € suficiente Na Fig. 3.2 temos uma distrbuicdo populacional ndo-normal e a correspondente distibuigao amostral de X para um tamanho de amostra suficientemente grande. Distrbuicso amostral de Z Diserbuicdo da popuiactio im ‘Note ge que considera normal a cstibuigo da populacao implica, a igor, admidr que a popalacio & infinka. Enetanto a aplcage dese resulado a populagdesEnitas€ vada, em terms PASCO, em Mos DISTRSILICOES AMOSTRAIS 47 ad 8.4.2 Distribuigdes amostrais de fe p’ Cconsideremos agora a freqQiéncia/ com que foi observada alguma caracteristica na amostra Essa caracteristica poderd ser uma das classificagdes de uma varlével qualltativa, um ou mais valores de uma varlavel quantitativa disereta, ou o fato de um valor de uma variavel guantitativa continua cair em um dado intervalo. A frequéncia /€ uma estatistica, pois ¢ determinada em fungao dos elementos da amostea. Evidentemente, podemos, para cada elemento da amostr,considerar a ocorréncia de tum sucesso, caso a caracteristica desojada se verifique, ede um fracasso, em caso contrac. Sela p a probabilidade de ocorréncia de sucesso para cada elemento da amostra. Se a populacéo € infinita ou a amostragem é feita com ceposicdo, p & constante para todos os elementos da amostra, ¢ os resultados observados para todos eles serao independentes. Nessas condigées, 0 Céleulo de Probabilidades nos ensina que a distribuigéo amostral de reqiéncia f seré uma distribuigdo binomial de pardmetros n e p, seguindo-se. pelas propriedadés da distribuigdo binomial, que w=. (3.6) OU) =nAl-P) 67 A freqdncia relativa p’, por sua vez, sendo simplesmente o quociente de fpelo amano da amostra n, terd média’e variincia que séo acilmente obtidas pela aplicacdo das propriedades (2) e (c), vistas em 3.4.1. Assim, temos wood anno L)= hot f= fpnm-2)- 2. 39) © tpo de distribuigao de p’ continua, para todos os efeitos, sendo uma distribuigao binomial, porém cujos possivels valores foram comprimidos entre 0 # 1 com intervalos de I/n, a0 invés de variarem de O an segundo os némeros naturas, 0 que ocorre na distribuigdo binomial propriamente dita. endo aamstrasucentmente grande, pdemossprenimar a diuises def 2" por distbuicSes normais de mesma media e mesmo desvio-padrdo. Em termos praticos, em ‘geral, podemes considerar que a amosira seré suficientemente grande, para efeito dessa aproximagao, se np 2 5en(1 =p) 25. w= ne= p. 68) 3.4.3 Graus de liberdade de uma estatistica Afiemamos em 2.3.3 que a variancia de uma amostra deve ser calculada por Ein -F (8.10) ” ‘por expressbes equivalente. A razSo pela qual se recomenda usar 1 20invés de ano denominador da expressio secd apresentada no Cap. 4. No entanto antecipamos que a necessidade dessa corresao est relacionada com o nimero de graus de liberdade dessa tstatistca, A questic dos graus de lberdade é, possivelmente, absrta, mas procuraremos Tusté-la melhor a seguie. Hn) 48 AMOSTRAGENM — DSTAISUIOUES AMOSTRASS ee ‘Tomemos, por exemplo, as estatisticas # = xn ¢ Eh (x)— p)2/n."" Essas estatis- ticas tém m graus de liberdade ¢ tl fato pode ser entendido como indicando aver n valores 4% livres que devem ser considerados para podermos calcular o valor da estatistica. Em otras palavras, se desconhecermos quaisquer dos valores x, da amostra, nao poderemos dererminar o valor da estatistica, pois todos os valores da amostra sio livres, podendo variaraleatoriamente. Ja a estatistica s*(x), conforme definida na expressio (5.10), por usar ¥ ao invés do parémetro populacional 4, tem um grau de liberdade a menos. Isso porque o calculo dessa ‘estatistica pressupde qué anterlormente ja se tenha calculado 2, para o que usamos ja uma vez todos os valores da amestra, 0s quaisestariam sendo usados pela segunda vez para 0 céleulo de 52.9 Ora, no momento de usarmos novamente os valores da amestra para 0 céloulo de 5%, esses valores tém apenas 1 ~ 1 graus de liberdade, pols, dados quaisquer = 1 deles, o valor restante estard perfetamente determinado, pelo fato de a conhecemos sua média artmética.¥, nao sendo, portanto, live. ‘Outra interpretacéo poderd ser dada geometricamente, se considerarmos os n valores de uma amostra como comespondendo a um poato num espago n-dimensional. O valor de uma estatistica qualquer definida em fungéo dos valotes dessa amostra pode ser considerado fFungzo do ponto correspondente nesse espaco. Se. para o calculo dessa estatistica, vamos -vetificar pela primeira vez 05 valores da amostra, teremos n graus de lberdade, ou seja, © ponto correspondente rem a possibilidade de se deslocar conforme as n dcecSes do espago. Se, porém, como no caso des, ja conhecernos Z, isso implica uma resticao Hear entze 03 valores, pois Ay tag tet ty an (Ora, essa éa expressio de um hiperplano no espaco n-dimensional, sigificande que o pono considerado deve estar sobre esse hiperplano, tendo. pols, um grau de liberdade a menos. A introdugao de cutras restrigbes levaria & perda de mais graus de lberdace. Por outto lado, torna-se claro que os valores da amostra podem ser usados para o célculo de estatistcas independentes no maximo n vezes, apés o que ndo haveria mais graus de iberdade e, poranto, qualquer consulta & amostr seria desnecessiria. Adotaremos. simbclo ¥ para denotar 0 nimero de graus de iberdade de uma estatistca 3.4.4. Distribui¢&o amostral de s*— distribuigdes y° JA sabemos que a variancia de uma amostra deve ser calculada por (3.10), y= Hal ‘ou por outras expressées equivalentes. A distribuicdo amostral da estatistica s(x), conforme definida em (3.10), esté telacionada com uma famifia de distribuigdes de probabilidades de grande importancia em diversos problemas de Estatistica Indutiva, que so as distribuigdes tipo 37. Devemos, esa enaistica sed comentada no capitulo segues "Na expresso ciada note, a necesidade de conhecemmos Fed evident, porém as deals| para cdleuo de 3, como (2.12) ea @.13) também contém 7, emiboraimpictamente, conform anterormente €: Pronuncia-se gui quadrado™ OSTASILICIES AMOSTAAIS 43 eR poranto, preliminarmente, apresentar ao leitor essa familia de disribuigGes,Diremos que a esatstica 2 (54) feats (B.11) onde x; sio valores aleatbris independentemente retirades de wma populacdo normal de meédia je desvio-padrao «, tem distibuicao 72 com v graus de liberéade. Tal denominacao deve-se a Karl Pearson. Os valores em (3.11) so 0s correspondentes valores da variavel normal reduzids. 0"! Podemes, poranio, considerar a distibuicdo da vanavel 7 com v jgraus de liberdade como a soma dos quadrados de v valores independentes da variével normal reduzida Do fato de que u(z%) = 1, (0 segue-se que HOR) = (Ef, 22) = mle) =v. (12) Poderse-a também mostar que oun 6.15) € que a moda da distribuigdo de 72 & v - 2, para v > 2. Além disso, como a variavel 7? resulta de uma soma de varidveis independentes e igualmente disribuidas, segue-se Go teorema do limite central que a familia de distribuigdes do tipo x? tende a distribuiéo nor- mal quando o niémero de graus de liberdade aumenta, COutra imporzantepropriedade das discibuigées tipo 7? é sua adiividade. Essa propriedade significa que a soma de duas variaveis independentes com distribuigées 7° com ¥ ¢ ¥2 ‘graus de liberdade terd também distribuicao 7 com v, + v2 graus de fberdade. Essa propriedade decorre imediatamente da definicdo da distibuicée 22, conforme expressa pela telagéo (6.11). A Fig. 3.3 mostra algumas distibuigGes da familia 42, Por outro lado, a Tab. A6.2 fornece valores das variéveis 74, para v = 1. 2, .., 30, em fungdo de valores notaveis da probabilidade comespondente & cauda a direita determinada na tespectiva distribuicéo.'7) {Assim, por exemplo, se entramos na ab, A6.2 coma P= 10% e Y= 3, lereoso valor ‘23 = 6,251. [sso sigrfca que a protablidade de um valor aleatério da vardvel 3 ser maior 0 que 6,251 & 10%. Para v > 30, os valores de 9 poderdo ser obtides pelo uso de aproximagées. Recomendamos a seguinte: 3 ) : 14) Bil vgja A144, no ap. 1 1A emenmnie des conse ra eet con (20, ue [eee 1 expresso anata das fangs densiade de pobablidade das disuse 7? € dada no Ap. 4. narmente com as dos disabustes ce F,defides a segs, : Bsa aproximardoé melhor que o auto metodo, propose anteormente por Fisher, que consists em st tomar x} 242+ 27-17, 50 ANOSTRAGEN. — DISTREUICES AVOSTRAIS ® 0 2 4 6 8 10 12 14 ‘onde 2 € o valor da varidvel normal reduzida que comesponde em probabilidade ao 22 Adesejado, isto é, tal que a probabilidade & dreita de z seja igual a probabilidade a direita d¢ 22. has respectivas distibuigbes, © conhecimento das distribuigbes 2? nos leva & determinagao da distabuigdo amostral a estatisticas*, conforme segue. Podé-se demonstrar que a estatistica nn {fia 6.15) abtida por substnigéo de u por F na expresséo (5:11), tem distrbuiggo do tipo 22 com rn i graus de Iberlade, Loge, demos tsrever, 2. Eat - FP ant Eh FF ened = RA Bale , 6.16) donde resulta e s. aah ean \Vemos, pois, que, a menos de uma constante,aestatisticas, variancia de uma amostra extrafda de populagdo nommalmente distibuida, se distribu conforme uma distibuiggo do tipo 7? com n~ 1 graus de liberdade. Examingndo a expressdo (3.17) ¢ lembrando o resultado obtido em (3.12), compro- ‘vamos que s*, conforme definido em (3.10), tem por média 6.18) OISTRBWUICDES AMOSTRAIS 51 Por outro lado, temos também, de (3.15) ¢ da propriedade expressa em (A1.40), que of 20 ae? G19) 22. peti 3.4.5 Distribuiedes ¢ de Student"! ‘Suponthamos que. a partir de uma amostra de n valores de média we desvio-padrao or fosse definida a estatistica itados de uma populagdo normal (3.20) Como a distcbuigio amestral de ¥ sera precisarente normal, com méiau ¢desv padrio an, segue-se que essa estatistica teria simplesmente dstsbuigdo normal reduzida, 5 que justifica ose do simbolo 2 em (3.20). Entretanto, se usarmos em (5.20) 0 desvio-padrao da amostra, obteremos uma estatistica ‘cuja distribuigao nao mais é normal. De fato. conforme mostrou Student. a estatistica SoH 6.21 ST ea distribui-se simetricamente, com média 0, porém no normaimente, E claro que, para amostras grandes, s, deve ser prOximo de o, € as correspondences distbuigdes ¢ deve estar proximas da nérmal ceduzida. Vemos. pois. que existe uma familia de disuribuigdes ¢ cuja forma tende a distribuigdo normal reduzida quando n eresce, Note-se que a estatistca efinida em (3.21) tem 1 graus de liberdade, o que jusificatia sua denotagao pot fy. A Fig. 3.4 procura llustrar comparativamente uma distribuigio ¢¢ a distibuigdo nor- mal reduzida 2. Vemos que uma distribuicao r genérica € mais alongada que a normal reduzida. Por outto lado, a Tab. A6.5 fornece valores de ¢ em fungao de diversos valores do niimero de graus de Iberdade ¥ de probablidades notaveis, comespondentes a cauda & Figure 3.4 Cistribuigsot e cistibuieso normal recuzi¢s. ATW. 5. Gesset, esasizo ings que publican seus wabalhos sob opseudénimo de Saude. 52 ANMOSTRAGEM — D'STABUICOES AVOSTRAS direita na respectiva distibuigao. Assim, por exemplo, entrando-se na tabela com a probabilidade P = 0,025 e = 50, lemos 0 valor ésp = 2,008. 18S significa, dada a simetia das distibuiges ¢, que Plcgo > 2,008) = Peay <-2,008) = 0.025, Nove-se que esse Valor de op € a muito préximo do correspondente Valor ¢. = 2 = 1,960. € importante notar que a expresséo (5.21) pode ser escrita, oh Sard. 6.22) Relembrando (5.17), temos, poranto, 6.23) ou, mats genesamente, woah 624 sg expresso nos mosraorelconamentoexstens en as dsibugbes¢ de Sar dence z 3.4.6 Distribuiodes F de Snedecor Suponhamos que duas amostras independentes reradas de populagdes nommais foregam variancias amostras s? es, e que desejemes conhecer a disibuicde amostal do quociente HSE isso sera possivel através do conhecimento das diswbuigses F de Snedecon* Define-se a variavel / com v, graus de liberdade no numterador¢ vs graus de liberdade no denominador, ou, simplesmente, Fy, ry. Pot am Fan Bie 3.28) onde, conforme a prépria notacao indica, 2 designa uma variével aeatéria com distribui- cdo x? com v;graus de liberdade. As dstribuigées 7° consideradas devem ser independentes. Evidentemente, a definigao geral precedente engloba uma familia de distbuigées de probabilidade para cada par de valores (v.72). Na Tab. A6.4, tems 0s valores da variavel F que determinama caudes & direita com probabilidades 0,5: 1:2,5: 5 ¢ 10%, fomecidos para diversos pares de valores de vse Vs. Assim, por exemplo, se entrarmos na Tab. A6.4 com P= 5%, v, = 5 ev, =20, leremos ‘valor F=2.71. ls quer dizer que, na distribuicde Fcom § graus de liberdade no numerador 20 graus de liberdade no denominador, a probabilidade de se obter um valor aleas6rio superior a 2,71 ¢ igual a 5%, conforme esquematizado na Fig. 3.5. 16 sGo mui dfundias, embém, tabelas em que aprobabldade de enwrada referee a Guas caudsssimé- ticas da dstbuigao, Recomendamos ao lehor algum euidado para evitarequivocesno.uso das tabelas de [8 Snedecor adaptou convenientementeescas dstibuiées, jf estudadas antes sob outa forma por Fshec Ele adotou a denotagao Fem homtenagem 20 grande estastco ings R.A. Fisher. que desanvelvea S=——————— 33 58 SH SESH 35 34 30 3736333580 a a S435 HS HSS ST a 33 52 4 SSS SOSH 3636 53 kkk 59 40 40 «4239584404040 | er 3940 41404023859 380 a) Uma amostra simples ao acaso de dez dispositivos foi cetirada da populacéo de em dispositives, com auxilio dos niimeros aleatérios da Tab. A6.5. 0 processo de utilizagio da tabela foi o usual, com inicio no digito situado na intersegdo da quinta linha com a oitava coluna da referida tabela. A seguir, oi calculada a resisténcia clétrica média da amostra de dez dispositivos. Que valor vocé acha que foi cbtido para essa média? ») Suponha agora que se pensasse em fazer ammostragem estaiicada. Em sua opiniéo, seria isso razcavel, no caso? Caso afrmative.indigue como voce procedetiay ainda uclizando os nimeros aeatérios. Suponha que © mimeo total de disposiivos a examinar na amostra continue sendo de2, ©) Suponha agora que tivesse sido utlizada amostragem estratificada uniforme, num ‘oval ainda de dez dispositivos examinados, e que tivessem sido abtidos, no primero © no segundo estratos, respectivamente, 2, = 33,8 @€; = 40,2, Em quanto voce estimaria a média da populagdo de cem dispositivos? 4) Suponha agora que, dos setenta dispositivos provenientes do fornecedor A, tenha sido colhida uma amostra sistematica de dez dispositves, sendo constante o periodo de retirada dos elementos para a amostra e sendo conhecido que o segundo dispositive a entrar no almoxarifado (cujo valor da resisténcia elétrica € 38) Pertencia a essa amostra. Calcule 2 média dos valores da resisténcia elétrica dbservades nessa amostra, 4 6. A média e a variéncia de uma populacdo eqiiprovavel, cujos possiveis valores so os inteiros 1, 2, 3¢ 4, slo u=2,5 € o? = 1,25. Considere a distribuigdo amostral de ? para amostras de'n = 2 elementos e determine sua média e variancia, suponéo: a) populagdo infinita: ) populacéo fnita formada por doze elementos ¢ amostragem com reposicio. Verifique a validade das express6es (5.2) ¢ (3.3) do texto, 56 AMOSTRAGEM — DISTRBUICOES AMOSTRAIS 7. Resolva o problema anterior supondo amostragem sem reposigao e populagéo fina formada par: a) doze elementos; by quatio elementos. \Verifique a validade das expressdes (3.2) e (3.5) do texto, em cada caso. ‘8. Para qualquer um dos casos (a) ou (b) do exerccio 6, conscrua a distribuigdo amostral de ¥ supondo agora n = 5. Faca o grafico dessa distribuicao e interprete sua forma, 9, Para a mesma situacéo descrita no exercicio 6, construa a distribuicéo amostral das amplitudes das amostras. 10, Uma populacdo equiprovavel de valores inteiros que podem variar de 0 a 99 tem médlia. = 49,5 e desvio-padrio o = 29. Usando a tabela de nimeros ao acaso para simular a obtencio de valores dessa populacéo, retire uma amostra de n = 25. Calcule sua média desvio-padrdo, Obtenha, por processo andlogo, mais cinco amostras aleatias dessa populagao ¢ calcule suas médias. Caleule o desvio-padrdo da amostra formada pelos s2is valores de obtidos e compare com o desvic-padrao da primeira amostra retiada. Como interpretar 0 resultado dessa comparacao? Estimactio de pardmetros 4.1 INTRODUCAO ‘Passamos, a partir de agora, a considerar problemas de Estatistca indutiva. Conforme vimos no Cap. 1, 0 objetivo da Estatistica Indutiva € tirar conclusées probabilistcas sobre aspectos das populagses, com base na observagao de amostras extraidas dessas populagées, visando 2 tomada de decisées. Para chegarmos ao ponto de poder abordar tais problemas, foi necessério que recoméssemos a diversos conceitos basices do Célculo de Probabilidades € vvissemos como tratar 05 conjuntos de dados através da Estatistica Descrtiva. Doravante, 98 conjuntos de dados disponiveis serdo considerados como amostras representativas retiradas das populagbes de interesse. Essas amostras servirdo de base para as inferéncias ue serdo feitas acerca das respectivas populagies. (0s problemas de Estatistica Indutiva podem ser considerados subdividides em dois grandes grupos: os problemas de estimacto eos de testes de hipéteses. Neste capitulo vamos nos ocupar dos primeitos apenas no que diz respeito & estimacdo de pardmetros de uma distibuigéo populacional. Outros tpes de problema de estimacdo serdo vistos, por exemplo, n0 Cap. 8, © calculo de Probabitidades nos fornece varios modelos de distibuicao tedrica,tais como binominal, hipergeomética, de Poisson, normal, etc"! Tais modelos representam, em verdade, familias de distibuigSes que dependem de um ou mais pardmetros basicos. Assim, por exemplo, uma distibulgio normal s6 ficaré perfeamente caracterizada se conhecermos, direta ou indiretamente, seus dois pardmetras bésicos, u e o, Ora, quando descrevemos uma populagao estatistca, fazemos isso por meio de algum modelo teorico de disuibulcdo de probabilidades, cujos parémetros, portanto, devem ser estimados da melhor forma possivel com base nos resultados amostras Devemos notar que o préptio fato de tentarmos descrever uma populacao de valores ‘por meio de um modelo teérico jd implice um procedimento de nacureaa semelhante ao da ‘estimagdo. Entretanto chamaremos a centativa de se caracterizar a forma da distribuicko da populagao de problema de especificacdo, erminclogia introduzia por Fisher Bi vero apt Isic. A. Fisher, estatsteo inglés. Ver nota 16 na pga $2. 58 ESTIMACAO DE PARAMETROS Assim, quando admitimos que a populagdo de todos os diametros das pecas produzidas for uma maquina é conveniencemente descita por um modelo normal (0 que nem sempre € verdade), estamos especificando a forma da distribuigao dos valores da variavel na populagéc. Estamos procedendo analogamente quando admitimos que o nimero de dfeitos por aparelho de celevisio produzido em certa linka de montagem € uma variavel que se ‘comporsa segundo um modelo de Poisson Evidentemente, a tarefa de especificasio da forma da distribuicdo da populacéo pode ser orientada pela corweniente representacéo grética dos dados da amostra disponivel. Por ‘outro lado, existem testes que permitem avaliar a representatividade do modelo teérico propasto para a populagao, os quas serdo estudados no Cap. 6. Entetanto o que nos preocupa por ora €0 problema da estimacdo des parametios do modelo adorado para a representacao da populagdo, modelo que suporemos, em varios casos, conhecido.© ‘Tomemos 0 seguinte exemplo: suponhamos que, em uma cidade com A’ habitantes, cexista uma proporeao p de aralfabetos. Se dessa cidade retirarmos uma amostra aleatéria den habitantes, saberemos, eoricamente, calcular a probabilidade de que haja entre eles.x analfabetos. 1ss0 seria feito pela aplicagdo do modelo hipergeométrico de distribuigao de probabilidade ou, com boa aproximacio, para n << N, pelo modelo binomial. Esse seria, tipicamente, um problema de Célculo de Probabilidade. Noce-se, porém, que, para resolver 6 problema, deveriamos conhecer o pardmetro populacional p problema real que muitas vezes enfrentamos, entetanto, surge quando desconhecemos © parammetro populacional, Devemos entio estima-io, usando, para tanto. a evidéncia ex- perimental. Assim, no exemplo citado, sea amostra det habitantes apresentou x analfebetos, Drecisemos saber'de que forma esse faio deverd ser usado no sentido de obtermos uma ‘estimativa para p, ou a determinacao de uma faixa de valores na qual p estaré contido com cera probabilidade. Esse problema pode ser resolvido com base fio conhecimento da istribuido de probabilidade da variével x. Em resumo, vamos, no presente capitulo, supor que os valores na populacio se distibuam segundo um dado modelo de distribuigao de probabilidade cujos parametros, ‘entretanto, sao desconhecidos e, portanto, necessitam ser estimados. ‘Varios distinguir dois casos de estimacdo de parametros: por ponto ¢ por intervalo. No primeiro caso, provederemos a estimativa do pardmetro populacional através de um nico ‘valor estimado, 20 passo que, no segundo, construiremos um intervalo, o qual deverd, com probatilidade conhecida, conter o pardmetro. Uma suposicdo fundamental é a de que as ‘amosizas sio probabilisticas. O processo de amostragem seré, salvo menigio em contrério, ‘suposto como sendo o de amostragem casual simples ou eguivalente. 4.2 ESTIMADOR E ESTIMATIVA ‘Chamamos de estimador a quantidade, calculada em fungdo dos elementos da amostra, que serd usada no processo de estimagdo do pardmetro desejado.O estimador 6. como veinos, uma estatstica.Seré, poranto, uma vatiavelaleatériacaracterizada por uma distibuigdo de probabilidade e seus respectives pacametros prdprios. Echamaremos de estimaciva cada particular valor assumido por um estimador. Usaremos a seguinte notacéo: '= parameto a ser estimado; 7= um estimador de 6; ¢ = uma dada estimativ ‘Basa posto ¢pausivel pois, em multos cases, podemosantecpar, com rzaivel preisto, um modele paraa disttbuieao da quer por mein de consderages eéicas, quer pea expeténcia peta. Os ‘exemple ckados no parbgra antenor so tpcos de dsurbugdes em geral confiadss pela praca. eSTIMADOR E ESTIMATIVA 59 Acestimago por ponto consistra simplesmente em, & falta de melhor informacéo, adotar 1 estimativa disponivel como sendo o valor do pardmetto. A idéia &, em sua esséncia, cextremamente simples, porém a qualidade dos resultados ira depender fandamentalmente da conveniente escolha do estimadot. Assim, dentre 08 varios estimadores razoaveis que poderemos imaginar para um determinado parimetro, deveremos ter a preocupacio de fscolher aquele que melhor satisfaga as proptiedades de umm bom estimador. As principals ‘enite essas propriedades serio vistas a segui. 4.2.1 Propriedades dos estimadores"*! Justeza ou ndo-tendenciosidade Diremos que um estimador 7 justo (ou néo-tendencioso, ou no-viciado, ov ndo-viesado} se sua média (ou expectancia) for o préprio paramerro que se pretende estimar, isto é, Mn=8 (aay Isso significa que 0s valores aleatéries de 7 ocorrerio ema tomo do valor do parémetro @, 0 que é, obviamente, desefavel A.adogio de um estimador que nao seja justo nos levard a incorrer no via de estimacao, ‘ou vies, De fato, se a média da distribuigdo amostral do estimador néo é igual ao valor do ppardimetro, esse estimador fomecerd estimativas em tome de outro valor que no o pardmetro, configurando estimativas viciadas, ou viesadas. Consisténcia Diremios que um estimador 7 € consistente se 1im,...| 7-6 |2«)=0 (42) para todo e > 0. Isso significa, em termos praticos, que, sendo o estimador consistent, ppode-se, com amostras suficientemente grandes, tomar o erto de estimagio tio pequeno ‘quanto Se queira. Por outro lado, se o estimador for justo, a condigao de consistEncia equi- vale a dizer que Sua vatiancia tende a zero quando 0 tamanho da amostra tende a infinito, isto é, lin,_.*(7)=0. 43) YVemes que, para estimadores justos € consistentes, podemos obter estimativas tdo préximas quanto desejamos do valor real do parimetro, desde que aumentemos sulicien- femente o tamanho da amostra. Nessas condigbes, suponde o caso-lmite de uma amostra infinitamente grande,( a estmativa cbtda ila colncidir exatamente com 0 parémeto estimade. (© ko defini essa propridades, exaremes pressupendo uma fungio de prda quadrtcaassodada ao eo de esimagéo. Para alors eslarecimentas, vel, por exemplo, a Ref. 15. {© Brames imaginando, claro, caso de uma populagéoininka, Sendo Brita a populago, uma estimaiva cexata seria teoncamente obtida apenas se falssemos a amosia se tomar gual & popalapio inte 60 ESTIVACAO OE PARAWETAOS Bficiéncia Dados dois estimadores, 7; ¢ 7p, a serem usados na estimaco de um mesmo parémetto 8, diremos que 7; é mais eiclente que 7; como estimador de 6s, para o mesmo ‘amano de amosira, HUT, - OF )< wf, - 97). (4.4) ‘Se 7; € Ta forem estimadores justos de 6, essa condicéo indicara que a variancia de 7; € menor que a varianca de Ty. eT é mais efciente que 7; como estimador do pardmetro 0, podemos defini a relagie =e) (45) AG - oP) como sendo a eficiéncia de 7; em relacao a 7; como estimador de 6, $e os estimadores 7) ¢ Tz forem ambos justos. 2 eficigacia telativa se reduzird ao quociente das respectivas variancias. ‘Uma medida absoluta da efiiéncia pode ser conseguida por meio da comparacdo com © estimador mais eficiente do pardmetro em questdo. Logicamente, o estimador mais efciente possivel rd cficiéncia absoluta igual a 1, ou 100%, Tal estimador serd dito simplesmente “eficiente”. Suficiéncia Em poucas palavas, dremos que um estimador ésuficiente se contém o maximo possivel de informagdo com referéncia ao paramero por ele estimado. Evidentemente, nes problemas de estimacéo devemos procurar trabalhar com estima- dores justes, consistentes, da maior eficiéncia possivel e, de preferéncia, suficientes. 4.2.2 Critérios para a escolha des estimadores** Alguns crtérios tém sido propostos com a finalidade de resolver o problema de como escolher os estimadores mais adequados. Dente eles, citaremtos os métodos (ou principios) da maxima verossimilhanca, des momentos e de Bayes. Método da maxima verossimilhanca Esse mésodo — possivelmente aquele que em sido mais empregado — fornece em geral estimadores consistentes,assintoticamente eficientes ¢ com distibuiao assintotcantente normal. ‘A esséncla do método consiste em adotat para o parémetto 0 valor que maximize @ fungi de veressimilhanga comespondente 0 resultado obtido na amosta. Esclarecemos esse ponto a seguir. Retirada uma amostre de uma populacio, a configuracdo dessa amosta it, ¢ claro, depender das caractetisticas da populagao e, particularmente, do valor do pardmezro desco- nhecido 9 que se deseja estimat. Consideremos agora a probabilidade, ou densidade de probabllidade, conforme o caso, de que uma particular amosia seja cbtida. Essa probabilidade eSTIVADOR E ESTIMATIVA 61 ou densidade de probabilidade ira depender, evidentemente, da armostra considerada e do valor do pardmetto @ da populacdo. Fixada a amostra, essa probabilidade ou densidade de probabilidade sera funcao de 6, dita funcdo de verossimilhanca cortespondente a essa par- ticular amostra. Essa funcgo admite, em geral, um tinico ponto de maximo, o qual fornecera, aestimativa de maxima verossimilhanca do parametro 6, Suponhamos. por exemplo, que uma caixa contenha dez bolas, das quais $sio pretas € 10 - 5 sdo brancas. Uma amostra de quatto bolas com reposicao & retirada dessa caixa, verificando-se que ela contém tr bolas brancas ¢ uma bola preva. Vamos estmar o pargmetto S pelo método da maxima verossimilhanga. Para tanto, devemes determinar a funcao de ‘erossimilhanca correspondente 20 resuado amostral obtido, a qual sera dada pelas probabilidades de, em uma amostra dem = 4, sair exatamente uma bola preta, dadas em Fungao do pardmeiro desconhecido 5. Esses probabilidades podem ser obtidas pela aplicacao a distdbuicto binomial, ou pelo caicle dreto.Designando por #{8) a funcao de verossim Thanga, temes SP 10) “3300 aed! s10~s?. 6.6) Na Tab. 4.1 temos os valores de (5) calculados para todos os possivels valores de S, verificando-se imediatamente que o valor de maxima verossimilhanca 65 = 3. o qual sera. pols, a nossa estimativa, ‘Tabela 41 Funglo de verossimilhanga Ss 2), 49) ot ° 6 | sew2.s00 | 1 maezsco | 7 | — 189/2.500 2 | orsasoo | 8 6472.50 3 | 10202500 | 9 972.500 4 364/2.509 | 10 ° s 62512500 Analisernos outo exemplo. Suponhamos que uma disuibuigdo populacional éunforme entce 0 ¢ df. Desejando-se estimar 0 parémetro 4, uma amostra aleatéia de n valores retrada dessa populag, Sea aye mai valor obtido nessa amost. Evidentemente, M2 nag. A fungao densidade de probabilidade da distibuicéo uniforme que estamos considerando € +, osxsa “7 ‘Sendo a amostra aleatéria, seus diversos valores serdo independentes, a todos corres- pondendo a mesma densidade de probabilidade, Poranto a funcao de verossimilhanca cor- Fespondente a uma amostra genérica sera dada pelo produto puro e simples das densidades de cada valor da amostra, isto 6 1y sun-(Z) as) 1 i 62 ESTIVAGAG DE PARAMETROS Essa fungao se maximiza para o menor valor possivel de M; logo. concluimos que o estimador de maxima verossimilhanga para Mf sera nay. Nos exemplos precedentes, vimos como realizar a estimacao aplicando © métedo da ‘maxima verossimilhanga. £ importante notar que certas premissas a respeito da populacdo foram utilizadas. Assim, no primeiro exemplo. partimos do conhecimento do nimero de bolas na caixa e do fato de que havia bolas brancas e pretas, e recalmos, a0 considerar a fancao de verossimithanca, em uma distribuicao binomial com parémercos lV = 10 ¢ Sa ser estimado. No segundo exemplo, partimes do conhecimento da forma da distribuigio populacional e da hipdtese adicional de que seu extremo inferior era conhecido, Método dos momentos Esse método foi o primeiro a ser proposto e usado (Pearson, 1894). Consiste em supor que 08 momentos da distribuigio da populacio coincidem com os da amostra. Expressando os, pardmetros populacionais a estimar em funcdo dos momentos de menor ordem, obtém-se lum sistema de equagées cuja solucao fornece as estimativas desejadas. Esse método produz, em geral, estimadores consistentes, mas que, muitas vezes. ndo sdo os mais eficientes. Método de Bayes Esse método baseia-se na existéncia de uma funcio de perda associada ao erro da estimativa, ¢ também na consideracdo de uma distribuigao a priori para os possiveis valores 46 parmetro. Serd adocada a estimativa que minimize o valor médio ou expectancia da perda, ‘alculado com base na distibuigéo resultante para o pardmetro apés o conhecimento dos valores da amostra Em verdade, a filosofia embutida no Método de Bayes, por permitit a incorporagio do conhecimento prévio em geral existente e também por permitir que se trabalhe com amostras ‘muito pequenas, teve grande impulso nas tltimas décadas, chegando-se mesmo a oferecet uma distinca visdo da Estatistica como ciéncia. Assim, fala-se em Estatistica Bayesiana, em contrapartida & Estatistica Cléssica, conforme abordada neste livzo. Em nossa visio ha, na verdade, uma complementagdo de conceitos e sinuagbes, e no um conflito. Com efeito, a esséncia do método € bastante realistica quanto a considerar sempre uma fungio de perda associada & estimativa,¢ a0 admitir uma especificacdo do modelo de distibuigao do parametro ‘que pode ser afetada, até certo ponto, pela evidéncia amostral. A principal barrera para um desenvolvimento maior da chamada Indugéo Bayesiana tem sido as dificuldades tebricas resultantes da aplicacio do método. Nossa opiniao é de que a idéia contida no método & valida, mas que ndo se deve chegar ao extremo de alguns de seus mais entusiastas adeptos, que condenam todas as demais filosofias e procedimentos relacionados com © método estatistico em geral. A realidade pritica € quem nos autoriza a emitir essa opiniso. ‘Uma das principais aplicagdes das idéias contidas no Método de Bayes ¢ a Andlise Estatistica da Decisio, com diversas aplicagSes no campo empresarial.(©) amos, no Ap. 5, uma ilustragdo da utilizacéo do Método de Bayes, referente ao mesmo cexemplo discreto utilizado para iustrar 0 método da maxima verossimilhanca. ‘er respi, ae. 1 esmmacio POR PONTO 63 Se ee 4.2.3 Exercicios de aplicacao** 1. Modifique a expressao (4.6) para o caso de extrades sem reposigdo ¢ determine, nesse ‘caso, a estimativa de maxima vert anca para S. 2. Escreva as expressdes genéricas das funcbes de verossimilhanca de amostras de 7 slementes extraidas de populagées com distibuigs: a} binomial (np): b} de Poisson (4); ¢) normal (u, 4 exponencial (2). 3, Mostre que, para populagbes normals: (a) sea variancia o?¢ conhecida, X é0 estimador de maxima verossimilhanca de y: (b) se w € conhecida, Et;— w)*/n é 0 estimadoc de maxima verossimilhanca de o”. [Sugestdo: maximize 0 logaritmo da funcéo de verossimilhanga, em cada caso.) 4, Sabe-se que, de quatro aparelhos retirados de uma linha de produgao, tés no apre- sentaram qualquer defeito. Admitindo-se que 0 nimero de defeitos por aparelho se distbua segundo o modelo de Peisson, qual a estimativa de maxima verossimilhanca pare o nlimero médio de defeitos por aparelho produzidc? 4.3 ESTIMACAO POR PONTO ‘A estimacdo por ponto consiste em, conforme jé mencionado, fornecer a melhor estimativa possivel para 0 pardmetro. Este sera, pols, esimado através de um valor tinico, o qual Cortesponde a um ponto sobre o eixo de variacao da variavel Para proceder & estimagdo por ponto, portanto, devemos escolher o melhor estimador possivel, colher a amostra e, em fungao de seus elementos, verificat a estimativa obtida amos a seguir algumas consideragées sobre os procedimentos para a estimagdo por poato des parmetros usuais. 4.3.1 Estimacdo por ponto da média da populace ‘0 melhor estimador de que dispomos para a média da populacdo € a média da amosiraZ. ‘Com efeto, 7 € um estimator justo de u, pois, conforme vimes no Cap. 3, u(2) =. Sendo Justo, ¥ seté também consistent, pois, no caso de populagio infnita ou amostragem com teposiao, resulta de (3.5) que 2 lim, ,.07()= lim, 4. = = = Por outro lado, no caso de amostragem sem reposigao de populagao finita, chegamos a uum resultado idéntico, pots, de (3.5), temos que Lin, OE) tiny yp LAE (49) (4.10) Pode-se também demonstrat que ¥ 6 eficiente e suficiente como estimador de u. Outros estimadores poderiam ser considerados para u, todos, porém, de menor eficiSncia. Na prética, uusa-se, as vezes, a mediana da amostra, especialmente quando a média ¥ no pode ser calculada (caso de classes abertas nos extremos). A mediana da amostra é um estimador 64 ESTIMACAG DE PARAMETROS nn, justo da mediana da populacdo. Para populagbes simeétricas, média e mediana coinciéem, € a mediana da amostra € estimador justo da média da populacéo. A consisténcia seria tambérn verificada. Sua eficiéncia, prem, seria da ordem de 64%. Com efeto, para populagdes normals e amostras grandes, o(md) = n0/2n: logo, a eficincia de md como estimadar de y sera oR) atin 2 Fund) “zo? /2n en) 4.3.2. Estimaco por ponto da variéncia da populaco Quando conhecemos a média u da populagéo, devemos estimar sua variéncia através da Bat, aay te Bialtinw? ” que serd o estimador justo, consistente eeficiente, no caso. Da mesma forma, considerando as freqiéncias envolvidas, teriamos oeTiticii le, Bal, 3) Essa expressio seria também sada no céleulo da variancia de toda uma populacao finite, caso em que a média dos dados, calculada pela expresso usual de Z, ceria a propria rédia populacional. Supondo agora que 1 seja desconhecda, o que, em geral, ocorre.na praca, devemos usar sua estimativa £, média da amostra, recalndo nas expressdes (2.10), (2.11), (2-12) ou (2.13), conforme 6 caso. Pode-se perceber agora a princlpal razao de Se usar n~ 1nd denominador dessas expresses, ao invés de simplesmente e naturalmente n (como j& se fe, hstoccament), eis isso leva a deficde de um estimador justo para, devo 20 ado (8.18) A consisténcia de 33 segue-se diretamente do resultado (3.19), pois Ti, 0°53) = lity ye 25 (414) 4.3.3 Estimacao por ponto do desvio-padro da populacio Embora s?, conforme definido em (2.10), seja um estimador justo da variancia populacional 1, sua raiz quadrada s nio ¢ estimador justo do desvic-padrao populacional o. Esse fato pode ser facilmente demonstrado por absurdo, pois, se u(S) = 0, resultaria que 215) 5") (Ws)? =e? 02 =0, 21 (4.18) ‘© que nao tem sentido. A mesma coisa ocorre no caso em que 4 é conhecida, 0 vicio de + como estimador de o, entretant, tende assintoticamente a zero. Logo, para amostas grandes, podemos, pot simplifcagao,adotar como estimativa o propio desvio- padrdo da amostra, calculado pela raiz quadrada da variancia amostal (ol sada agul a expressio (A136). ESTIMACAO POR PONTO 65 Paca amostras pequenas. & conveniente corrigir 0 viclo do estimador s mediante um coeficiente que designaremos pot cj, adotando-se a estatistica (4.16) A Tab. 4.2 fornece alguns valores de cf e de seus inversos. re [ass ae fie ee perlite | 4 0,691 1.447 Jit Pe peat lise ell itoaee te tlaan ell eaer (sate pele ees eta 2 | eee | nus ts | eo | tom sell etosertl laser a | 090 | tos Govt eon ims 4.3.4. Estimagao por ponto de uma proporodo populacional Se desejarmos estimar a proporsao p de elementos da populagdo com uma dada caracteristica, usaremos como estimador a propor¢do ou freqiéncia relativa 7’ com que essa caracterstica {oj observada na amostra. Tal procedimento, além de incutivo, coresponde a adotar um estimador justo, consistente, eficente e suficiente. (Quep’éestimador justo de p esuka imediatamente de que u(y) =p, conforme mostrado em (3.8), Por ono lado, aconsisténcia de / segue-se do resultado (3.9), POS hyn 7P)= lity EZ) = 0, (4.17) © resultado (3.9) é valido para populagbes infinitas ou amostragem com reposiéo, mas a consisténcia de p’¢ veriicada mesmo para o caso de amostragem sem reposica0 de populagéo finita. Sendo a populagéo finita, poderiamos querer estimar por ponto o numero de elementos da populacdo que presentasse a caracteristica em questao. E claro que esse niimero seria simplesmente estimado por Np’, onde WV é o tamanho da populacio. Uillzamos o simbolo & par disinguls do coefslents ,usado ne Conwcle Bsasico da Qualiéade, baseado em desvio-padc com 7 no denominader. 66 ESTIVACAD De PARAMETROS ——— 4.3.5 Estimagdo por ponto com base em diversas amostras Suporihamos que dispomos de & amostras, Cada amostra iré fomecer uma estimativa pare ‘um dado parimetro, essas estimativas iro difecic entre si, mesmo que as amostras sejam, pprovenientes de uma mesma populacdo, pois resultam de um processo aleatorio. Entretanto ppodemos, em geral, combinar esses resultados, de modo a oferecer uma estimativa tinica pata o pardmetro em questo, quando aplicavel No caso de estimacso da média w ou de uma proporedo p, sé tera sentido combinar as estimativas se todas as amostras forem provenientes de uma mesma populasio, ou de opulagesinfinas com mesma média e mesma propoxaop. Podemos endo, simplesmente, indi as diversas amostras em uma Unica amostra maior, usando a media ¥ e a frequéncia telativa p’ fornecidas por essa amastra. Isso equivale a calculat a média ponderada das diversas meds ¢ eglénias relavas amostastomando como pescs de pondsragio ot tamanhos das respectivas amostras, o que se pode perceber com facilidade.! No caso de estimagao da variancia 0? ¢ do desvio-padrao o, podemos também imaginar ‘05 dados criginais reunidos em uma tinica amostra maior, desde que as amostras sejam Provenientes de uma mesma populagio ou de populacées de mesma média ¢ variincia. Entretanto o procedimento de se tomar a média (ponderada em telacdo aos tamanhos das amostras) dos diversos resultados das amostras individuals no iria mais fomecer um resultado final idéntico nem seria 0 mais adequado, No caso de a2, se desejamos realizar a estimaco usando as variancias das diversas amostas, devemes realizar & ponderacao usando como pesos 0s graus de liberdade de cada mostra (0 que, afinal, também € feito nos casos de we). Ou sea, adotamos como estimativa de ofa quantidade 62, dada por ‘ to) og a GrMeE +The =e | 4.18) Myton ak Deve-se notar que também essa estimativa ndo sera idéntica & que se obteria através da reunigo dos dados em uma amostra nica, embora ambos os processos sejam validos nas condigées mencionadas. ‘A estimativa o vem a vantager de poder ser utilizada seas diversas amostras provierem e populagées com médias diferentes, porém com mesma variancla o. Nesse C480, evl- sdememente, ndo teria sentido reunic as diversas amostas em uma unica amosta maior. Se as amostasfrem razcaveimente grandes, poderemos adctar “J come uma boa esata par odesvo-padrto eos casos scutes. Por outo aca se Cvermos amt Bequenas demesne tanh, a catimaiva justa de o sera smplesmentea mel artnetea dos desvios-padrao corrigidos, calculados pela expresso (4.16). {9 Detxamos a demonstario desea almnativa a cargo des ItresInieressados {91a rado para esse protedimento est em var para 5 a relacdo,expesta pot (9.16) ¢ (8.17), coma familia de asibuigies De fao, € um estmador just de a, o que rman de u(s9) = O° € das Propedades ds més. Fc outs lado, a expresso (4.18) pode se exca aera ey a aaenszsth yh od, ‘onde, de acctdo com (3.16), as parcelas do segundo membro tém distibuigées x3, ¢ so independentes. Ponanto, devido a aditividade do x7, 0 primeiro memibeo tem distribuisao x3. onde n = En, Inversamente, Doemoscsaever rao S38 Ee thon eSTIMAGKO POR INTEAVALO 67 re 4.4 ESTIMACAQ POR INTERVALO ‘Vimos no item precedeate como se procede para bier boas estimativas por ponto dos paré- ‘mettes da populagio. As estimativas por ponto so, em geral uilizadas quando necessitamos, ‘a9 menos aproximadamente, conhecero valor do parémetro para utlizi-lo em uma expressao ‘analitica qualquer. Entretanto, se a determinagao de um dado parametro é a meta final do ‘estudo estatistico em pauta, a estimacdo por ponto serd, em geral,insuficiente, pois a proba~ bilidade de a estimativa adotada vir a coincidir com o verdadeire valor do paramerro & nula ou praticamente nula. Isso decorre de os estimadores serem varisveis aleatérias, multas vvezes continuas; logo, as estimativas obtidas quase ceramente serdo distintas do valor do pardmetro. Ou seja, € quase certo que estejamos cometendo um erra de escimagao, quando procedemos a estimacao por ponta de um parametro populacional , pois, ao contrdrio do vicio de amostragem, que pode ser evitado pelo uso de amostiagem probabllstica, e do vico de esimasao, que se elude adctanco um estimador justo, praticemente inevtével que tenhamas que conviver camo erode estimayzo. Devido a esse fato, surge a idéia de se construir um intervalo em tomo da estimativa por ponto, de modo a que esse intervalo tenha uma probabilidade conhecida de conter 0 ‘erdadeire valor do parémeto. Essa € a idfia da estimacéo por intervalo, a qual configura ‘um problema tipo de EstatisticaIndutiva, pols iremos fazer afirmagSes probabliscas acerca ds possiveis valores de um pardmetro da populagéo. ‘Ao intervalo que, com probabilidade conhecida, deverd contero valor real do pardmetro chamaremos incervalo de conflanca para esse parametto. A probablidade, que designaremos por 1 ~ a, de que um intervalo de confianga contenha 9 valor do parémetro chamaremos nivel ou grau de confianga do respectivo intervalo. Ves que a seré a probebilidade de erro na estimagao por intervaio, isto €, a probabiidade de errarmos ao afirmar que o valor do parametro esté contido no intervalo de confianga. Salvo mengdo em contrério, suporemos os intervalos de confianca siméticos em probabilidade. isto ¢, tals que a probabilidade de o parémetro fica fora do intervalo @ sua esquerda ¢ igual & probabilidade de fcar fora & dieita, ambas iguais a a/2. Entcetanto deve ficar claro que a construcéo de intervalos de confianca assimétrcos em probabilidade é perfeltamente possivel (e @ maneira de fazé-lo tomnar-se-a evidente a quem acompanhar a Gedugdo que segue), podendo-se inclusive chegar 20 caso extremo de considerat toda a probabilidade a de erro de um tinico lado do intervalo, quando se estaré adotando um valor tulnimo ou um valor méximo para o parémetto, com a confianga adotada, Deverse fiisar também que o intervalo de confianga, sendo construido com base na estimativa por ponto, é aleatiro, a, passo que o parameto € suposto uma constante éa populagéo. Assim, 9 inervalo concerd ou ndo o parémetto, com probabilidades 1 - ae sendo, a rigor, inorreto falarmos em “probabiidade de o parametto cair no intervalo” Veremos em seguida como construir intecvalos de confianca para os pardmetros usuais, Consideraremos, em nossa exposi¢do, apenas os casos de populacdo infinita. Por aproximasdo, os resultados serdo validos para os casos de populacao finita bastante grande ¢ fragko de amostragem pequena. Os casos de populagao inita poderdo, em geral, ser tratados aplicando-se & expressao de variancia amostral o fatar de populacdo finta visto em (3.5). 68 ESTIMACAO 0 PARAMETROS 4.4.1. Intervalo de confianca para a média da populacao quando o é ‘conhecido ‘Vamos subdividir 0 estudo do intervalo de conflanga para a média y da populacao em dois ‘casos: quando o, desvio-padréo da populagio, é conhecide, e quando « € desconhecido, Iniciemos pelo primeiro caso. Suporemos que a distribuico amostral do estimador 7 & normal. Conforme vimos em 3.4.1, Isso ocorrerd se a populacéo for normalmente distribuida ou, caso contrério, com boa aproximagao, se a amostra for suficientemente grande. Devemos construir um intervalo em torno de F de forma tal que esse intervalo contenha © valor do pardmetro com conflanca 1 - a!) Esse intervalo, sendo siméttico em proba- Dilidade, sera também geometricamente simétrico em relagdo a F, devido & simetria da distribuiggo amostral, no caso, Os simbolos empregados serao: 4, média da populacso: , média da amostra: ‘2, desvio-padréo da populacéo: zn, tamanho da amostra: 5, semi-ampiitude do intervalo de confianga Adotaremos também. doravante, a convencio segundo a qual zp denotaré o particular valor da variével normal reduzida z que determina ura canda 8 direlta de sua éistibuicao com probabilidade 2. Essa conven¢ao € extensivel a qualquer outra vanavel considerada. A Fig. 4.1 usta graficamente a corivencde aqut introduzida, © intervalo que desejamos construir serd de forma F & es, Nevessitamos apenas determinar eg de modo tal que esse intervalo tenha nivel de confianca 1 ~ a. Para tanto, ‘maginemos, na dstribuigao por amostragem de ¥, dois pontos, u ~ eo ¢ 4 + 2, simétricos em telagdo a média x da distrbuicdo, de tal modo que a probablidade de F sibiar-se entre esses dois pontos seja igual 2 1 ~ a Embora x seja o pardmetro desconiecido, podemos representar greficamente essa situacio, o que é feito na Fig. 4.2. Logo, por construcao, Pura S¥su+e)=1-a. (4.19) Figura 4.1 Signiicado de 7 ont ESTIMACAO POR INTERVALO 69 Figura 4.2. Diswibuicso amostral de. 2 we ‘A desigualdade entre parénteses implica west © Fspre: uskee, © Foesi F-qsusioe: a Arne sus ks )ei-a. (4.20) Loge, F-€0 € + é0Si0 05 limites do intervalo de confianca simétrico em probabilidade que desejévamos obter. A determinagdo de eg se resume num problema elementar de aplicagao des conceitos do Calcuio de Probatilidades envolvendo o uso da varavel normal padronizada 2.121 De fato,refererindo-nos ao ponto u + éo da distibuigdo amostral de 2, cujo desvio~ padrao, conforme sabemos, € chin, temos wredou ola eran t an) Portanto a expressao do intervalo de confianca para a média u da populaga de confianga 1 ~ a, é dada por Fetan Ze (4.22) A interpretacao desse intervalo esté consubstanciada na expresso (4.20), onde éo dado pela (4.21), ou seja, fentafenetonat ee a9 (7A confanga como vines, raduz a probablidade de que oinervalo de conianyacontenha 6 parimen. ‘ara enfatzar que se trata de uma estimagao por intervalo, dames preeréncia ao uso do temo conflaa 20 invés de probabilidade, Tar Veja expressdo (AT), 131 expres entre partneses &comumente apresentado como a férmula do itervalo de cenfansa. A mesma observagio se api as interval adiante considerados. 70 ESTIMACAQ DE PARAMETROS AW TS I Considerando-se que uma amostra de cem elementos extraida de uma populacdo aproximadamente nommal, cujo desvio-padrao ¢ igual a 2,0, foreceu média 3'= 35.6, constule um intervalo de 95% de confanga para a medla dessa Populacto SNE, Sem divide, podemos considerar a distibuigdo de ¥ como praticamente nor- mal, O Unico dado faltante para aplicarmes @ expressio (4,22) seria Zan. Na Tab. A6.1 da distribuicko normal reduzida vemos, porém, imediatamente, ‘Que Zan = £2.55°= 1,96, Logo, 2196-22 ent Po €o intervalo de confiance sera 35,6 + 0,392, indicando que (35.208 s 45 35,992) = 0,95. ane 4.4.2 Intervalo de confianca para 2 média da populagao quando o desconhecido Vejamos agora como proceder para construc o intervalo de confianga para a média u da populagdo quando o desvio-padrio populacional € também desconhecido, o que, em geral, corte os problemas praticas. Ora, se desconhecemos , devemos estimar seu valor com base na amostra disponivel. Devemos adotar como estimativa o desvio-padrao da amostra, definido por s,0 [Ea (4.24) n=1 392 Entretanto a subtiulgdo pura e simples de @ por s-na expresso 4.22 ceriamente leva- tia a um grau de incerteza maior na construcéo do intervalo de conftanga, pois s, é apenas uma estimativa de o, sujeto, portant, &incidEncia do ero de estimacde. Ha, portanto, que se proceder a uma comcegdo desse intervalo, a qual, cenamente,fardo intervalo crescer ern amplitude, para compensar o efeito dessa maior incerteza. Essa corregdo € feita mediante 0 uso da distbuigao ¢ de Student com 1 ~ 1 graus de liberdade, apresentada em 3.4.5.4 De fato, a expressdo (5.22) fornece o seguinte relacionamento entre as variaveis £ ez: fap eee Ss (4.25) onde n- 1&0 niimero de graus de liberdade da estatistica s. (Antes de VS. Gosset haver dado eva mnponantecontinagio 4 toa esata com a aodugio da isurbuicdo £de Student, consderava-se, pelo conhesmento empiico, que o intervale de conianga para ‘quando 6 desconbecid poda sex, com bea aproximagho, calclado pela expresefo (4.22) substtuindo se {por s, para amostras grandes, assim entenddas se n > 30. De fat, vers na Tab. A.63 que, nesea 30, digamos). Consiste em construir o intervalo de confianga para ousando a express3o sts $8 Zan ae (4.34) Yan 4.4.5. Intervalo de confianca para uma proporcéo populacional Foi visto em 3.4.2 que uma feqiéncia relativa amostral 7 apresenta uma distribuigo do tipo binomial, cuja média € o proprio pardmetro populacional pe cuja variéncia & dada por UL ~p\/n. Sendo np 5 ¢ n(1 ~ p) 5. podemos em geral aproximar essa distribuigdo pela distribuig2o normal. Como desconhecemos p, adotaremos como condigbes de aproximagao np 2 Sen(i~p) 25. Poranto, sendo a amostra sufcientemente grande para saisfazer as condigées prece- dentes ¢ consierando-se que p" é 0 estimador que usaremos para p. podemos chegar & expressio do intervalo de confianga para p. O intervalo sera da forma p’ © co €, por um raciocinio semelhante ao que fot feito no caso da estimacéo de p, chega-se facilmente a eo" Zen OD (4.35) 7 Note-se que essa expresso € em mudo andloga a (4.22), pois Vi € o desvic-padrao do estimador £, ¢ (pi p\/n &0 desvio-padsao do estimador p. 0 tnico obstéculo ainda existente para o calcul de gp esta em que o parimetro desco- hecido p aparece na expressdo (4.58). Podemos, entretanto, simplesmente, substtut p or sua estimativa 7’. 18s0 se jusifica com boa aproximacas. pois, sendo a amostra ja Tazoavelmente grande para haversatisfeito as condigdes de aproximacio pela normal, 2 estimativa deve ser razoavelmente préxima do valor real do parametro. Ademals,o even- tual ertoa mais que poderiamos cometer ao substitu 7 por’ seria em boa parte compensado pelo erro a menos que, entZo, comereriamos ao subsutuit 1 ~ p gor I~ pe vice-versa, 0 {ue torna ainda mais ustifcavel a aproximacao fetal TT Ora jsiicaiva dasea expresso pode ser encontada, por example, na Ref. 22 Ul se as candigbes de aproxinag pela normal naa forem sasfetas,deve- 0.5, podemos usa olimitante po a0 invés de p. na expresso (4.40}, obtendo.umm tamanho de Amosia suficiente, pols teremos entao p(1 ~ p) po(1 ~ ps), conforme se percebefacimente aa Fig. 43. Evidentemente, usando-se a expressio (4.41), come-se o rsco de dimensionar uma amostra bem maior do que a realmente necesséria. Isso ocomre se p for, na realidade, proximo de 0 ou 1. Se o custo envolvido for elevado e proporcional2o tamanho da amostra, Sed desejavel evitar que tl ato ccorra, sendo mais prudente a tomada ée uma amostra- piloto. Inversamente, em muites caso, épreferivel, por simpliicagdo, proceder conforme Indicado, com base em uma limitagéo superior para o ater p(t ~ 7). exXERCicios PAO=OsTOS 7 OL Qual o tamanho de amostca necesséria para se estimar a média de uma popula infinita cvjo desvipadrao € igual a 4, com 98% de confianca € preisio de 0,57 US ‘Ao definir a preciso da estimativa desejadia, estamos estabelecenda o erro maximo que desejamos cometer, com a confianga dada. Logo, essa precisao equlvale numericamente a propria semi-amplitude do intervalo de confianca. Logo, necessitamos de uma amostra de 347 elementos. SS OS Qual o tamanho de amostra suficiente para estimarmos a proporgéo de defeituosos fornecidos por uma maquina, com preciso de 0,02 ¢ confianca de ‘9566, sabendo que essa proporcéo seguramente nao é superior a 0,20? DE, aS De acordo com o anteriormente exposto, temos aig na(22¥ pa (22 }a0-29 Logo, seré suficiente uma amostra de 1.537 elementos. TE (use 10) a0 aanatseet 4.6 EXERCICIOS PROPOSTOS 1. A distrbuigie dos cidmetros de parafusos produzidos por uma certa maquina ¢ nowmal, ‘com desvie-padrdo igual 2 0,17 mm. Uma amosta de seis parafusos retrada ao acase da produgio apresentou os seguintss didmetros (em miimeteos) 234 252 25.6 25,3 350284 Consirua intervals e 90, 95 ¢99,74% de conflansa para dlametr médio da procucio dessa maquina. 3‘ 2. Suponha gue odlimeto médio da produgio da maquina chads no execcio 1 tenha sido modificado e que uma amostra de vinte pecas tena sido submetida a um calibre constituido por um orficio com 20 mm de didmetio. Se sete das pecas da amostra ‘passaram por esse erifici, dé uma estimativa por ponto para o diametto medio fomnecido pela maquina, 78 EstIMAGAO DE PaRAMETROS 3. Uma amostra de quinze elementos retirada de uma populagdo normalmente distribuida forneceu ¥ = 32.4 e s* = 2.56. Construa intervalos de 95 € 99% de confanca para: a) amédia da populagéo: )_avariincia da poputacao: €}_ 0 desvio-padrao da populacio. 4, A cronomezragem de cera operacdo fornecen os seguintes valores para diversas determinagdes (em segundos): “16 18 13) eB 7 4 1s 4 Constrwa um intervalo de 96% de confanca para o tempo médio dessa operardo. Suponha que os tempos medidos tenhiam dstrbuigdo normal 5. Uma amostra extreida de populagdo normal fomneceu os seguintes valores: OHH ai2 Hea eHHE ae erg. te eag eee. 0 eee a Construa: a} IC de 95% para a varincia da populaca b) ICde 99% para a varizncia da populacéo: €) IC de 95% para a média da populacdor d) IC de 99% para a média da populacao: ©) sea varidncia da populacdo 0,01, como ficardo (¢) ¢ (d)? aS 6. 0s valores de uma amostra foram agrupados em classes, resultando a seguinte Aisuibuigio de feaiéncas: Classes Fregiéncias 100h-— 110 3 HOR 120 8 120+-— 130 2 150h— 140 4 10h 150 2 1501-— 160 1 a) Construa um intervalo de 95% de confianca para a média da populaclo. 1) Comente a validade desse intervalo, de vez que pode-se facilmente observar que a istribuigdo populacional parece nao ser simétrica. ©} Dé um Limite minime com 95% de confiansa para a proporcéo populacional de valores maiozes que 150. 7. Um universo & unimodal e fortemente assimétrico. Uma amostra de 120 elementos ‘rada desse universo foneceu as seguintes estimativas para sua média e desvio-padrdo: SOU; $235 possivel estimar-se, com 95% de confianga, um limite minimo para a média real do tuniverso? Caso afirmativa, calcule o limite. A exeRCIOIDS PROPASTOS 73 8. Considere a frase que segue como uma amosira de palavras da lingua portuguesa e. com base nela, construa um intervalo de 99% de confianca para o mimero médio de letras por palavra usada nessa lingua. Admitindo a amostra como representativa da populacao, 0 intervalo obtido é exato ou aproximado? “Se no for possivel 2 correcdo imediata, o fato deve ser comunicado ao Controle de Produgdo e suspenso 0 envio de pecas até 0 recebimento de novas instrugbes.” 9. Considerando o conjunto de éados como amostra proveniente de populacao normal, comisteua os intervalos de 95 © 99% de confianga para a média da populagao para os dados dos exercicios 3, 4 € 9 do Cap. 2. 10. Considerando o conjunto de dados como amostra proveniente de populagio normal construa os intervalos de 95 e 99% de confianca para a varincia da populacdo para os dados dos exercicios 3, 4, 9 ¢ 17 do Cap. 2. 11. Compare os resultados fomecidos pelas expresses (4.53) ¢ (4.54) do intervalo de conflanga para 0 desvio-padrao da populagdo nos cascs n= 10, n= 30 n= 100. Em ‘cutras palavras, veriique, nesses casos, o comportamento da aproximagao 4, (er eT be 12. E dada a seguinte distribuicao de freqiiéncia, representativa dos dados de uma amostia de cingiienta elementos: or 20 201 30 xr 40 wor 5 50 60 60} 70 50 a) Calcule a média e o desvio-padréo da amostra. by Construa um intervalo de 90% de confianca para a média da populagao. ¢) Construa um intervalo de 99% de conflanca para a proporgéo populacional de valores maiores que 45, & 13. Sabe-se que a variagao das dimensdes fornecidas por uma maquina independem dos ajustes do valor médio. Duas amostras de dimens6es das pecas produzidas forneceram: amostral— 122 124 «12.1 12,0 12,7 12,4 amosua2— 14,0 13,7 13.9 141 13,9. Estabelega um intervalo de 95% de confianca para o desvie-padréo com que a maquina opera. 80 ESTIMACAO DE PARAWETAOS ee 14, Uma moeda abaulada fol jogada 400 vezes, obtendo-se 156 “caras”. Construa intervalos de 95 ¢ 99% de confianga para a probabilidade do resultado “cara” nessa moeda. 15. Uma moeda, reconhecidamente sem viio, seré langada 400 vezes. Construa intervalos de 95 ¢ 99% de confianca para o numero de “caras” a ser abtido nesse experiments Vocé percebe a diferenga de situagdes entre o caso deste problema e o 0 problema anterior? 16. Numa pesquisa de mercado bem conduzida, 57 dentre 150 entrevistados afirmaram ue seriam compradores de cerco produto a ser langado. Sendo a populacao de Conmpraceres em potencal fomada por 2,000 elementos, dé um limite com 95% de confianca para o numero minimo de pessoas que comprario o produto. 17, Qual o tamanho da amostra necessatia para se estimar a média de uma populacio com Precisio de um décimo do desvie-padrio, e confianga: a) 95: b) 9987 a 18. Foram feitas vinte medidas do tempo total gasto para a precipitacdo de um sal, em segundos, numa dada experiéncia, obtendo-se: 13 15 12 1 17 18 16 15 14 16 7 4 1% 15 18 18 1 15 16 15 Esses dados so suficientes, para estimar o tempo médio gasto na preci-pitagéo com precisto de meio segundo ¢ 95% de confianca? Caso negative, qual ¢ tamanho da mostra adicional necesséria?. 4 19, Desejase estinar a ressténcia média de certo tipo de pega com precisdo de 2 kg e 95% de confanca. Desconhecendo-se a variablidade dessa resisténcia,romperam-se cinco ‘eeas, obtendo-se para clas os seguintes valores de sua resisténcia (em kg): sO 58 S25 ‘Com base no resultado obtido, determinou-se que deveriam ser rompldas mais quinze eva, a fin dese conseguir o resultado desjado. Qual sua opnio a espito dessa ) Seele atavessa a ponte sempre a 60 km/h, estimeo tempo gasto na travessia com 96% de confianca. ©) Quantas travessias seriam necessérias para se estimar o comprimento da ponte ‘com 98% de confianca e precisto de 30 metros? 3 23, Uma amostra de dex pegas forneceu os seguintes valores de certa dimensio (em rilimetros): 80,1 80,0 80,1 79,8 80,0 60,5 79,7 80,0 80,2 80-4 Deseja-se estimar a dimensdo média com erro maximo de 0,05 mm ¢ 98% de confianca. bem como a proporgao de pecas com dimensdo acima de $0 mm, com precisto de 5% ¢ 90% de confianca. Dimensione a amostra total que se deverd tomay. Essa amostra é ria? suficiente? 82 ESTIVACAO OE PARAMETROS ee 24. Cemta producdo de pinos metilicos é submetida a um processo de cementagdo, no qual uma camada externa de maior resisténcia se forma. Sessenta pinos ndo-cementados tiveram seus pesos medidos em gramas (precisao de décimos)e forneceram a distribuigéo de freqaéncias (apés agrupamento em classes) cortespondente a tabela que segue. 265.2 65,7 66,7 67.2 67,7 68,2 68,7 F 26 16 7 4 1 a) Construa um intervalo de 95% de conflanga para a varia cementades. 'b) Estime 0 erro maximo que seria cometido ao se fazer a estimago do nimero de Pinos com mais de 67.2 g existentes em um lote de 10.000, com 96% de grau de Confianga, ©) Supondo que uma amostra de cem pinos cementados tenha fomecido média de 69,20 g e desvio-padréo de 1,80 g, estime, com 90% de conflanca, 0 aumento tmédio de peso por pino devido'a cementagao. ia dos pinos ni 5.1 INTRODUCAO ‘Vamos agora abordaro segundo tipo de problema de Estatstica Indutiva o dos testes de hipotesesreferentes & populagdo. Neste capitulo tataremos dos testes ditos paramésrizos, pois se referem a hipoteses sobre pardmetros populacionais, ‘Ao conttio do que ocoria nos problemas de estimario, vamos agora supor que exista uma hipécese, a qual serd considerada valida até prova em contro, acerca de um dado pardmeio da’ populagdo. Essa hipotese sera testada com base em resultados amostzis, sendo aceita ou reeitada, conforme veremos 2 Segui. A questio de como sto formuladas hipéteses faz parte do proprio processo de aqusicdo de conhecimentoeienifeo, Nao nos alongaremos a esse respito nest livzo, mas luszarerbos alguns casos possiveis. Ha hip6teses provindas de consideragdes teéicas, como a de que a probebildade de dar “cara” no langamento de uma moeda seja igual 20,5. Cutras surgem de consideragdes empiica, como ade que o dimneto de certas pesas se dstibua normal- mente, Pode haver hipéteses associadas a valores aceitos por tadicab, como cutas oriundas de especificagées fomecias por fabricantes de produtos ou fornecedores de servigos, Podemos também, como se veréadiante, formular hipsteses em fungao de situagbes que desejames comprovar estatisdcamente Por partic da consideragio de uma hipétese considerada vigente, o problema dos testes de hipéceses 6, sob diversos aspectos, opesto ao problema de estimacao, em que se parte do desconhecimento de um certo aspecto da realidade, Entretanto ha também varios pontos que séo comuns aos dois tipos de problemas. Vimos que a estimacio ¢ feta com base em uma varivel convenientement escothida, fungdo dos elementos da amosta, 2 qual denominames estimador Vimos também crtéios para a escolha de bons estimadores. Ora, também nos problemas de teste de hipéteses, ‘vamos basear nossas conclusGes em varaveiscalculadas a partir da amostra ou amostras Aisponiveis Eos mesmos citérios que indicam a conveniéncia de um estimador em problemas de estimagio vao agora nos orentar na escolha da varidvel aleatria de teste adequada, nio sendo necessario repeti-los. 384 TESTES O€ HIPOTESES eels Assim, por exemplo, vimos que a média da amostca ¥ é o melhor estimador da média Populacional w. Entdo. pelas mesmas razdes, se desejarmos testar uma hipdtese referente 40 verdadelro valor da média u da populagio, a variavel aleatéria de teste mais adequada sera Por outro lado, as mesmas pressuposigées acerca da forma da distribuigio da populagio e do processo de amostragem, usadas ao analisar 0 problema de estimacéo, serdo também consideradas aqui. 5.2 CONCEITOS FUNDAMENTAIS ‘Vamos designar por Fo a hipétese existente, a ser testada, & por My a hipétese altemati- vva. Nos casos que examinacemes, vamios considerar como hipStese complementar @ Hp, © teste ird levar 2 aceitacfo ou rejeigdo da hipétese Mo, 0 que cortesponde, portanto, tespectivamente, & negagio ou aficnagio de #,. Entteanto, para manter uniformiade, ‘emunciaremos o resultado final sempre em termos da hipétece Mo, ou seja, de aceitar ou rejeitar Ho. ‘Tomemos um exemplo. Suponhamos que uma indistria compre de cero fabricante parafusos cuja carga média de ruptura por tracdo & especificada em 50 kg. O desvio-padréo das cargas de ruptura é suposto igual a4 kg e independente do valor médio. O comprador deseja verifcar se um grande lote de parafusos recebidos deve ser considerado satisfatdrio, Entretanto existe alguma razéo para se temer gue esse lore possa ser formado por para fasos cuja carga média de ruptura seja algo inferior 2 50 kg. 0 que seria indesejavel. Por outro lado, 0 fato de a carga média de ruptura ser eventuaimente superior a 50 kg no preocupa o comprador, pois, nesse caso, os parafusos seriam de qualidade superior & especificada © comprador pode, por exemplo, adotar o seguintecrtério para decidir se concorda em aceitar love ou se prefere devoivé-lo ao fabricante: tomar uma amostra aleatéria de 25 parafusos do lote e submeté-los a ensaio de ruptura; se a carga média de ruptura observada nessa aruostra for maior ow igual a 48 kg, ele comprardo ote: caso contréio, ele se ecusard a comprar. Esse comprador esté tescando a hipétese de que a carga média de ruptura dos parafusos do Joteseja 50 kg, contra a altemativa de que ela seja inferior a 80 kg, Ele esté excluindo, para simplificar a hipétese de que a carga média de rupture seja superior a 50 kg, pot Contraria sua suspeia eporgue ademas, esse fondo €0 quo reocupa, esa orocéncla, se comprovada, levatia também a decisdo de comprar o lore! Em resumo, as hipoteses objeto de teste so Ho: we 50Kg, Hy weS0kg. Suponhamos que a hipétese Me seja verdadeira, isto é, a populagéo dos valores da ‘carga de ruprura tem realmente = 50 kg. Logo, conforme sabernos, a média ¥ da amostra [5 cada smpliicarao &adotada no texin po cepresentar uma faltagio(€e forma e de alone) que pode se feta sem pera de generaldade. Divrses autores, entetante peferem no ula. Par eles, 2 Trmalagdo do teste desc a seguir ser: Hs w2 50g, Hs us 50Kg. ‘CONDEITOS FLNDAMENTANS 85 5.1. Disoouicso Sire dei sop 8019 aleatéria de 25 valores sera uma variével aleatéria com média também de 50 kg e cujo desvio-padrio seré o.4 Fer gg os Sabemos também que podemos considerar a distribuigao por amostragem de Z como praticamente normal. Temos entio a situacdo indicada na Fig. $.1, onde a indica a robabilidade de se cbter para x um valor inferior a 48 kg. A probabilidade « pode set facilmente determinada através de 48-50 os valor para o qual 2 tabela de dreas sob a curva normal reduzida (Tab. A6.1) fornece a area 0.4938; logo, a = 0,5 ~ 0,4958 = 0.0062. Veros, pois. que existe uma probabildade 0,062 de que, mesmo sendo a hipdcese 7 verdadeira,¥ assuma valor na faixa que levaa rejeigdo de H,, de acordo com o citrio adotado, Nesse caso, 0 comprador isa eeitar a hipéwese H sendo ela verdadeira,o que consiste no err tipo I. Sua conseqiénca, no aso, seria deixar de adquri um loteperfettamentesatistatrio. Por outro lado, poderiam ocorrersituagdes em que a hipbtese Hy fosse alsa, ou se, na realidade -< 50 kg, e a média da amostra assumisse um valor maior que 48 kg, levando a aceitago de H. 0 comprader iia, nesse caso, cometet 0 e770 tipo 11, que consiste em aceitat a hipétese “7a sendo ela falsa, Sua consequencia, no caso, seta adquitic um lote insatistaténio, com prejuizo para a produgao. Em resumo, em um teste de hipstese, podem ocorter dois tipos de ero: ert tipo 1 rejeitar Ho, sendo Hg verdadeia ert tipo I acetar Hs, sendo Lp falsa. ‘As probabilidades desses dois tipos de erro seco designadas,respectivamente, por ae B.A probabilidade a do err tipo | & denominada nivel de signficdncia do teste, por motivos que discutremos adiante Os resultados da aplicaio de um teste de hipStesese as respectivas probabilidades de ocorténciaestéo condensados na Tab. 5. Deve-se notar que a € p sdo probabilidades condicionadas a realidade, Fica também claro, da Tab, 5.1, que 0 ero tipo 3 poderd ser cometide se Hf for verdadeira,¢0 err tipo I, se Ho for falsa, Da mesma forma, oer tipo 1 $6 poderd ser cometido se se reeitar Ho, € ‘© erro tipo, se se aceitar Hy 2,50, a6 TESTES OE HPOTESES nT ‘Tabela 5.1. Possives resultados de um teste de hipéteses e suas probabilidades ‘ondicionadas a realidade Realidade a verdaera False esa n, | Setsocinea | Eno gon Decisio “ 5 eee Bro ipoT | Dele cos A faixa de valores da variével de teste que leva 4 rejeigho de Hp & denominada regido critica (R.C.) do teste. A faixa restante constitui a regido de aceitagdo. Note-se que, em nosso exemplo, a idsia aparentemente natural de se ceeitar Hp caso F< 50 kg ndo setia, em verdade, recomendavel, pos, nesse caso. a probabilidade a do emma tipo seria 50%. Vimos como, no exemplo, fixada a regito critica do teste, determtinamos a probabilidade a-do erro tipo I através de uma simples manipulagda da diswibuiofo normal, inversamente, dado a, podemes determinar o limite a regido critica. 1ss0 ¢ 0 que em geral se faz na pratica,direta ou indiexamente, sendo os valotes usualmente adotados a= 5% € @ = 1% Assim, no mesmo exemplo, se for fixado a= 5%, teremos a siruagao dada na Fig. 5.2 Resulta que F; sera determinado de .648-0,8 = 48,684 kg ‘Da mesma forma, se for fixado a= 1%, o limite ¥; da regido critica sera determinado de =50 = 244 =-2,526 = 220 29 =-23260459 2 F,=50-2,526 0,8 = 48,139 kg. Porranto, se o valor abservado da média da amostra X for inferior a 48,139 kg, rejeitaremos a hipétese /Zp 20 nivel a= 1% de significéncia. (Isso implica automaticamente que Hg seré também rejeitada se o nivel de significancia adotado for a = 5%.) Se ¥ for Figure 5.2. Diserbuicso amostrel de sey = 50 kg. 09) (CONCEITOS FUNOAMENTAIS 87 superior 2 48,684 kg, acetaremos a hipotese Ho 20 nivel a = 5% de significinca. (350 implica automaticamente que He sera também aceta sec nivel de signiicancia adotado for = 1%) Se, por out lado, termes 48,159 hg < ¥ < 48,684 he, a hipétese Hp sea fejeltads ao nivel a= 5%, porém nao sera zo nivel a= 1%. Iss significa que. se admimos tealzaro teste sujtos aim rico de 5% de pcobablidade de cometeto eo tipo, a evidéncia amostal tera sido stgcacva no sentido de permit a rejeigao da Riptese gS, pore, houvéssemes exigido um sco de apenas 1% de probabilgade de cometer oer pol, e350 evidencia, embora talvez sugesiva, ainda nao teria sido significativa a esse nivel de signifeanca. ‘Vemos, através do exemplo anterior. como a deciso dese acetar ou reetar a hipdese cestada Hg pode epencer de nivel designifianciaadatade, Um estado experimentalente blo pode ser ou nao significance, dependendo do a fxado, Gai o chamatmes de nivel de significancla, Um resultado significativo a um determinado nivel a nos levara a rejeicao da hipétese Ho, pois admitiremos que, a menos de um risco pré-fixado a, ele € incompativel oma hipstese a Por outro lado, se 0 valor experimental da varlavel de teste cair na regido de aceitacd, nao tera havido, no nivel « considerado, evidéncia significativa sufieiente para a reeigao da hipétese A, @ qual devers, portanto, ser actita. Note-se que. nesse caso, estariamos sujeitos a cometer o erro tipo Il, cuja probabilidade é um cero A de que ainda nao tratamos. Se providéncias ndo tiverem sido tomadas. conforme veremos em 5.3.3. no sentido de controlar a probabilidade do exo tipo il, entdo a acetagao da hipotese Hp n&o seré acompanhada de uma avaliacgo provabilistca da possbilidade de erro, conform sempre ‘corte no caso de chegar-se a reeigdo de Ho (pois 0 nivel de signficancia a serd sempre pré-fixado). A aceitacdo de Ho, panto, cortesponde, em geral &insuficiéncia de evidéncia ‘experimental, 20 nivel de significancia desejado, para se chegar sua reeigdo. Essa aceltac, como 0 proprio termo sugete, ndo deve ser encendida como uma afirmagao de Ho, Esse caso ocome freqientemente na pratica. Tendo em vista isso, a propria terminologia _adotada vem de encontro ao exposto, pois reieizar é un verbo forte, a0 passo que aceiraré sum verbo fiaco, Se rejeitamos Ho, € porque estamos esttisticamente convencidos, ao nivel de significdnela a, de que estamos certos, a0 passo gue, se aceitamos Ho, em geral essa _aceltac4o nao representa uma aflrmagao estatisicament forte. ‘Uma analise qualitativa, entretanto, pode ser feta. No nosso exemplo, considerada a Fig. 5.2, onde ¥ = 48,139 kg, accitariamos Ho quer ¥ fosse igual a 48,2, 2 48,9 oua 3,4. No primeiro caso, a aceltaca0 se daria em uma situagao em que fcariamos desconfiande de ‘estarmos cometendo o erro tipo Il; no segundo, essa accitacdo praticamente corresponderia, uma comprovacdo de Ms pela igualdade e, no terceiro,a uma situagao em que aceitariamos ‘tendo uma fore sugestao de que, de fio, emos jt > 50 kg. Deve-se notar, também, que 2 gravidade relativa de cada tipo de emo depende do problema real existente em cada caso. Assim, em nosso exemplo, seo esioque de parafusos fosse baixo, poderia ser mais grave perder a oportunidade de ficar com um lote bom do que acetar um lowe nao muito longe de estar dentro da especifcacdo. Inversamente, deve ser mais grave aceitar-se um lote bastante fora da especificagao do que injusticar o fomecedor rejetando de urn lote coreto. A ida implica nessa frase pode, em termes possvelmente mais simples, se colocada da seguinte focma: send verdadeira.ahipitse Mo, a probabldade dese ober um valor expecmental signiicavamente incompasvel com fi (ou sea, um valor experimental que cla na tego crdca)& pequena, fxada em a Log, se obtvermes um valo experimental qu caluna ego cia, srk pouco provavelquea hips Pg ‘ij verdadeira:rejetamos entdo /% com bastante convicrz, a qual sea tanto male quanvo mentor o nivel c@adotads. Deve-se nor que, a Hgor, a nto é prcbabildade de ere ao se reer He. 88 ‘TESTES DE HIPOTESES is © exemplo introdutério comesponde a uma situagéo freqientemente encontrada na prética, em problemas de accitacéo ou rejeigdo de lotes submetidos a iasperdo por amosiragem. 0 assunto ¢abordado com mais pormenores nos textos que tratam do Controle Estatistico de Qualidade. © exemplo ilustra a razao pela qual, em tais situasoes, as probablidades ae dos erros tipo ell s8o denominadas, respectivamente,risco do producer € risco do consumidor. (Com efeto, @ € 0 risco do produtor de ver rejeltado um bor lote fornecido, ¢ B ¢ 0 risco do consumidor de acetar um lote fora da especificacéo.) 5.3 TESTES DE UMA MEDIA POPULACIONAL ‘Vamos agora generalizar as idéias expostas no item anterior, aplicando-as aos casos que podem ocorrer ao se testarem hipSteses sobre a média de uma populacao. E conveniente lembrar que todos os testes de médias que serdo visios neste capitulo pressupdem a normalidade da distribuicao amostral da vatiivel de teste ¥. Como sabemes de 3.4.1, essa suposiczo sera rigorosamente valida se a distribuigao da populagao for nor- mal ea amostragem aleatéria, e sera valida, em geral, com boa aproximaggo, s¢ a amostra for suficientemente grande. 5.3.1 Testes de uma médis com o conhecido 'No exemplo introduério, fol apresentado um teste de média em que se admitiu conhecido o desvio-padréo o da populagao. Testes semelhantes podem ser generalizados sob a forma: Hes =m, 01 He BeBe A regio critica ir comresponuer aos valores P<, sendo Fy, para a fxado, determinado por Fistor $ (sa) Isso significa que a hipstese Hp deverd ser reetada se ¢ z (5.2) Feuy-, fou, 0 que é andlogo, se ee a 63) 7 Confer fisado antedarmente, ao adotar esa omnalizapio, evams exchinde detberadamente © pot simplcagio a posibldade1> zy com base no conhecimento de que tl ato levara & mesma deisio que a aowagio para simples ds hipetese Hy, Diverss autores preerem folio mesmo ese como Hes 2H. i ano. Ver a propésio, a nota [5] dese capi. ‘Chamando chegamos & conclusdo que devemos rejeitar Hy Se Vemos que 2 quantidade definida em (5.4) resulta da padronizacéo do valor experimentalmente obtido. Ba decisdo pode ser tomada simplesmente mediante a comparacao esse valor padronizado com o valot~2,, 0 qual depende unicamente do nivel de signifcancia adotado e € obtido diretamente nas tabelas éa distribuigdo normal. A vantagem de se formalizar dessa maneira o teste de hipéteses visto sera evidenciada na sequéncia do texto. ‘Veremos que os demais testes, por mais complexos que aparentem ser, esumis-se-ao a uma comparagao de um valor obtido em funcdo dos dados experimentais (uma estat portanto) e um valor critico tabelado em fungao de a. \Nos exemplos de testes de média até agora vistos, consideramos apenas casos em qué ‘shipbteseakeratva/ ra. tipo»

t A perfeta simetria de sinagbes nos indica que & regido critica sera, nesse caso, comespondente aos valores ¥ > £2. sendo Z para @fixado,determinado pot Ra mytz 5.5) Mo ate (6.5) , por um raciocinio semethante ao anteriormente feito, chegamos conclusao de que devemos rejeitar Hy se 2>F—, onde z € calculado, analogamente ao caso anterior, pela expressdo (S.4). 0s dols testes considerados att agora séo ditos testes monocaudats ou unilaterais, ois a hipstese #, admitia um tinico sentido para as possibilidades do parémetto testado como altemativa a H Jé fol comentado que tals ties de teste sdo Gteis quando apenas nos interessa identificar um desvio do valor teal do parmetro essencialmente para menos ou essencialmente para mais, em relagSo ao valor testado, Ha muitos casos, porém, em que ha interesse em identificar um desvie do valor real do pardmetro para menos ou para mais, em relacdo ao valor estado. O teste a ser feito deve Ser, enido, bicaudal ou bilateral. No caso do teste de uma média populacional, as hipsteses a testar serdo, entio, Hes w= Ho He wee. (Wl Note-ce que g denominator aN ¢o desvio;parao da varivel de este F. Ou sea, poderiamas ux esto 2 = G ~ us\/0i2). Comenttio andlego pode em geral ser feito em todos 0s testes que recaem no uso da ‘ardve Aarmal oduzida 90 Figura 5.3. Regiso criice teste blatere, Obviamente, nesse caso, rejeitatemos Ho se a variavel de teste F assu signiticativamente distinto de uo, para menos ou para mais. Sendo a a probabilidade do erro tpo 1, essa probabilidade a devera corresponder & regido critica, a qual seté formada por duas caudas da distribuigde amostral de ¥, suponde- se Mo verdadeira. Temos, entdo, 2 situacao da Fig. 5.5, sendo ¥, e os li partes que formam a regido critica, € facil verficar que, nesse caso, 08 doi Critica serdo dados por uum valor Fiz bo fan-fes 5.6) Bebttan ee ; 6.7) ‘A hipotese Hp sera rejeitada se ocomer ¥ < X, ou F > Tp. Ou seja, se Fé po~ Zan Po tone om FP by Ze Levando em consideracdo 0 valor z, conforme definido pela expresslo (5.4), vemos gue essas duas desigualdades equivalem a Fentan OU Z> Zan Logo, se uma das desigualdades se verificar, rejeitaremos Ho ou, 0 que € 0 mesmo, rejeitaremes He se Fl Zea: (0s tits casos vistos acham-se resumldos na Tab. 5.2, sendo z dado, em todos eles, pela expressio (5.4). ‘TESTES DE UMA IVEDIA POPULACIONAL 1 ‘Tabela 5.2. Testes de uma média com ¢ conkecido wpéreses Reese Hy Hy w= Hp eet F< Tees Hy w= to = ae 22k Howe ae lzl>z, By 1 bs cal CMO © desvio-padtio de uma populagdo é conhecido ¢ igual a 22 unidades. Se ‘uma amostra de cem elementos, retirada dessa populagao, forneceu F = 115,8, podemos afimmar que a média dessa populacao ¢ inferior a 120 unidades, 26 nivel de 5% de signifcancia? Qual a significincia do resultado obtido, face 8s hipéteses testadas? NE, ‘Vamos testar as hipéteses Hig: w= 120, Hy £120, pois, se rejeitarmos H, poderemos afirmar que a média da populagio seré infetior a 120, no nivel desejado. Conforme a expresséo (5.4), temos: 115.8-120 | 4.2 7 -H2. ns. a 22/100 22 Ora, Zey = 1,645, logo, como z-<=Z5y Iejeitamos Hy 20 nivel a = 5%. Portanto podemos aficmar, nesse nivel de significincia, que a média da populagdo é inferior a 120 unidades. AA significéncia do resultado obtido deverd, cbviamente, ser inferior a 5%, € corresponderd & probabilidade da cauda & esquerda definida na disttbuicao notmal reduzida pelo valor z =~ 1,91. Consultando a Tab, A6.1, vemos que 2 cia 6 de 2,81%, Para niveis a menotes que esse valor, 0 resultado experimental obtide ndo seria significaivo. 5.3.2 Testes de uma média com o desconhecido £ muito freqiente, na prtica, 0 caso em que desejamos testa hipéteses references & média de uma populaso cujo desviospadrao nes desconhecdo, Se dispomos apenas de uma amestra de n elementos extaides dessa pepulagdo, com base na qual ios realizar 0 teste, devernes ent usar essa mesma amosta para estinar o desvic-padro o da populaczo, g2 TESTES De HIPOTESES Por outro lado, vimos em 3.4.5 que. ao substitulr @ por 5, a expressio (5.4), a variavel resultante tera distribuiggo ¢ de Student com - 1 graus de liberdade. A expressao a ser usada seré, portanto, zx fae " 5.8) at (6.8) Vemos que 2 Unica diferenca resultante do fato de desconhecermos o est em que iemos trabalhar com valores de ¢ de Student a0 invés de 2. Como sabemos manipular as distrbuigdes ¢ de Student, 0 problema esta resolvido. & Tab. §.3 resume o procedimento a ser seguido, que é semelhante ao anteriormente visto. ‘Tabela 5.3. Testes de uma média com desconhecido ipoteses| Rejeita-se My se ror che eae 216-Gaet HE Ho Geib > Ho Bey ges > ben HH eee DL Em Individuos sadios, o consumo renal de oxigéno distibui-se normalmente em tomo de 12 cm®/min, Deseja-se investiga, com base em cinco individuos portadores de certa moléstia, se esta tem influencia no consumo renal médio de oxigénio, Os consumes medidos para os cinco pacientes foram: WA 129 15.0 13.7 15.5 Qual € a conclusdo, 20 nivel de 1% de significancia? ES Admitindo que também entre os portadores da moléstia o consumo renal de oxigénio se distribua normalmente, vamos testat, para os pacientes, a5 hipéteses Hg jent2 en? rin He weizem®s min Note-se que o teste deve ser bilateral, face ao que se deseja investigar. £ oportuno lembres que os resultados experimeentais nio devern, em caso algun, influenciar a decisto quanto as hipdteses a testar. © leitor poderd verifcar que a amostra de n = 5 valores fomece F = 13,90 € 5} = 0,665. Logo, conforme (5.8): 2 13,.90-12 ‘0.66575 2521. fe ‘TESTES DE UMA MEDIA PCPULACIONAL 93 Nee en ae en ee EE EEEnEEEEEEEEneee! ‘Como 0 valor ctitico € fy, oy = 4,604, rejeltamos Hp. A evidéncia amostral indica, a0 nivel de 1% de significincia, que a referida moléstia tem influéncia no consumo renal médio de oxigénio. en 5.3.3. Poder do teste; curvas caracteristicas de operacao; tamanho da amostra* No estudo feito até aqui, operamos exctusivamente com a probabilidade ado ert tipo I, ou nivel de significincia do teste. Veremos agora como, fixado a, ¢ possivel controlar também a probabilidade 6 do ero tipo I. ‘Admitamos, como exemplo, que esido sendo testadas as hipéteses Hy: #=20, Hs p>2, sendo o=§ ¢ = 25. Logo, ay = ai = STS = 1. Supondo-se fixado a = 5%, teremos Zu 16645 €, de acordo com a expressio (5.5), vemos que o limite da regio critica sera Fy = 204 1,645 - 1 = 21,645. A hipétese Hy serd. pois, rejetada se a amostra fornecer ¥ > 21,645 (o que resultaria em z> 1,645, & claro) Como nos interessa agora analisar a probabilidade 8 do erro tipo Il, vamos supor que. em realidade, a hipécese festada Hp sea falsa, ou sta, em realidade, u > 20. Ora, essa suposicdo corresponderd a uma infinidade de valores possiveis de w; para cada um desses possiveis valores que podemos imaginar, id resultar uma diferente probabilidade de se cometer o erro tipo ll. A Fig. 54 ustra graficamente as distribuigées amostais de F ¢ as probabilidades p do cert tipo i para os valotes x= 21, u= 22 ¢ = 23, que comespondem a ts dos possiveis casos de falsidade da hipdvese He, Note-se que, sendo falsa Ho, os valores de Bcomrespondem 4 probabilidade de se obter ¥ fora da regizo critica. Os valores f representados na figura foram caleulados de acordo com as respectivas distribulgBes normals. ‘Vemos que a probabilidade do err tipo Tl depende do valor real suposto para o pardmetro 1, sendo grande para pequens afastamentos em relacdo 2o valor testado e diminuindo & medida que o valor real do pardmerro se afasta dele, Plotando os valores de 6 em fungdo de y pare o exemplo analisado, temos a curva mostrada na Fig. 5.5, denominada curva caracterstica de operagdo (CCO) do teste. A Fig. 5.5 mostra a particular CCO vélida apenas para o exemplo analisado Genericamente, 2 curva caracteristica de operagao para testes desse tipo costuma ser dada, para a fixado, em funcio da disténcia 4 ~ io padronizada, Isto é, medida em termos do uy a expresto (5.8) expe peevsareht2 foro obier d Deno desea lla teramos, para os demas caso, (5.10) an) essa forma, d> 0 exprime a falsidade de Mp, e d < 0 a sua veracidade. A fim de tornar gerais as CCO, vamos também substitu 8 pela probabilidade de aceitar ‘Ho, a qual designaremos por Z(@). Essa probabilidade, ao contrario de fi, faz sentido para TESTES O€ UMA MEDIA POPULAGONAL 95 ad B 4 gst os} os oa: 02 Figura 5.5 Curve coracteristce de of " ‘operacse. 20 21 82 8 valores positives ou negativos de d. Tal generalizagdo tem a vantagem de tomar a curva utlizavel, independentemente dos particulates valores de up 04 o. Eneretanto devemos considerar ainda que a variagdo de p ou £(d) em fungio ded depende também, fundamentalmente, do tamanho da amostra 7. £ fécl verificar que, aumencando 7, as ourvas da Fig. 5.4 Gcariam mais concentradas em forno das respectivas, médias, obtendo-se menores valores de f. ‘Temes, portanto igor, para a fixado, uma familia de curvascaraceristicas de operacdo, cajos aspectes variam com o tamanho da amostra 2, Para os testes unaerais de uma media com o conhecido, algumas curvas caracteisticas de operacéo para a= 5% ¢ a= 1% so dadas na Fig. 5.6.8) ara os correspondentes testes bilaterals, podem-se obter também curvas semelnantes, apenas ligeiramente diferentes, como conseqiineia desea reg critica formada por duas partes. Tas curvas, para a'= 5% e a = 1%, sdo dadas na Fig. 5.7. Analogamente, tzmes também curvas caracteristicas de operarlo paras testes de amédia com o desconhecido. As Figs. 5.8 e 5.9 fornecem essas curvas, para a= 5% € a= 154, nos casos unilateral bilateral. "S) Nowe-se que os grdfcesincuem valores de £(@) na faa par a qual d <0, 0 qu coresponde a casos em (que ovale teal do parame sera distin do valor estado, porém coeente com ahipewse Ac fomalizar Os testes monceaudais na forma = versus < ou >, exculmos Impickaments tas cass, mas, conforme Aamerormentefsado, tal exclusio se deve em grande pane & simplicidade de apcesentago do problema. ‘Ao ha dvida de que a consderagio da fiixa de valores d< Ose coaduna melhor coma a formalzacio que presenta as hpeeeses 7 @ fy nas formas s versus > ou 2 versus <,conforme mencionado na nos (1) ‘este Capizle, De qualques fora, pore, ela Hg caraceszada exciswvamente por d= 0 01d $0, {garantido que a peebablldade de ero tipo | & no maximo, a. conforme se pode peceber da propria ailise as curves. Ja nas testes bicaudls, ess consideragées dexam de tet sentido, mesmo porque uma Unica formulagae exist, e a probabildade do ero po [sec igual a a : 98 TESTES DE HPOTESES Uma andlise das curvas vistas mostra que, nas proximidades do valor restado (d= 0), a probabilidade de aceitagao de Ho € sempre muito alta bastante préxima de 1 — a. Logo, se H, vale, porém o parémetro € multo préximto do valor testado, a probabilidade de se cometer (© em tipo It € bastante elevada. Em compensacio. nao haveria em geral gravidade em se cometer 0 erro tipo ll nessa circunsténcia, pois a diferenca pritica entie a realidade ¢ 2 hipotese testada seria pequena. A gravidade do erro tipo Il'se acentua a medida que o ua Figura 5.6 Curves caracteristicas de operscio para o teste de média unilateral conhecido; {¢) a = 5%, (b} «= 1%, bana sie ‘TESTES DE UMA MEDIA POPULACIONAL 37 NR verdadeito valor do parimetro se afasta do valor testado pressuposto em Ha. Nessas condigbes, aceitar Hg pode ser altamente indesejavel, mas, para tais casos, a probabllidade 0 erto tipe Il cende a diminuir, Devemos, pois, estabelecer tecnicamente até que ponto uma divergéncia entre arealidade ¢ Ho pode ser tolerada, Sela uf esse ponto ¢ d” a distancia padronizada correspondente. Fixamos, entdo, uma probabilidade 6 maxima de se cometer 0 erro Upo lise dd’, caso em @ ua o os 08} Arte Biel YY oa a2 T a °5 4 2 3 4 Figura 5.7 Curves caractoristces de operacéo pars o teste de média bilateral com o conhecito: (a) « = 5% (b) a= 1%. ga TESTES DE HPOTESES og } os | Bas Ne oa o2 0 1 erate Fgura 6.8 Curves caractersices de operorto pera o teste ce mééa unital com @ desconhecido; (a) a = 5%, (b}a = 1%. fae ue esse erro causa preocupacto. Com d’ e B, caracterizamos um ponto no grafico das Curvas caractetisticas de operacao. A curva que passa por esse ponto define o tamanho da amostra necesséria a realizacéo do teste com a, Be d’ Bxados. ‘As curvas caracteristicas de operagdo indicam o poder discriminatério dos testes. Assit pela andlise de suas figuras, vimos que, quanto maior a amostra, mais factivel serd ‘TESTES DE UMA MEDIA POPULACIONAL 39 wo os a i 4 os| ele ee 04 1 0 | a Figura 5.9 Curves caracteristies de operepso para 0 taste de média bilateral com desconheciao; (0) « = 5%, (0) a = 1%. 4istinguirmos, com probabllidade de erro fixada, uma pequena diferenga entre o valor real do parametro ¢ 0 valor testado. Graficamente, as curvas que cortespondem aos testes mais, poderosos sio as que apresentam maior inclinagéo. Diversos autores preferem apresentar as curvas caracteristicas de operacdo sob a forma de curvas de poder do teste, nas quais se plotam valotes de 1 - Z(d) em funcdo de d. 400 Testes Oe HPOTESES — eee OO Voltando 20 exemplo introdutdrio deste capitulo, em que a carga média de ruptuca especficada para os parafusos € de 50 kg, sendo o desvio-padao dessas cargas igual a4 kg, suponhamos que o compradar especifique também ne 2) se 0 lote satisfaz & especificagdo, o comprador deseja limitar a 5% a probabilidade de concuir que oloté€insatisfario: b) se 0 love tiver uma resistencia mééia ligeiramente menor que 50 kg, tal fato nfo cause preocupacao, pom deseja-se que, sea verdadeira resistencia média for inferior a 48 kg, tl fato sea identifcado com pelo menos 90% de probabilidade. Nessas condigées, qual o tamanho da amostra minima necesséria e qual o Iimite da regio critica? SN A © teste a ser feito sext He wad0 kg He pesky ‘endo que as condigbes (2) ¢ (b) indica a= 5% ¢ f = 10%, este associado a cum d’tal que aban 5048 oon Entrando na Fig. 5.6 com B= 0,10e2'=0,8, pelo menos certa de 35 elementos.3*" 5) Dimensionada a amostr, podemos, através da expresséo (5.1), determinaro limite da regi erica: 5.3.4 Expressies analiticas para n* _Expressées analticas para a determinacéo do tamanho da amostra podem ser também usadas, alternativamente as Figs. 5.6 e 5.7. Derivemos uma dessas expressdes. Sejam as hipoteses Het = bo. Hew Hy com ¢ conhecide ¢ fixades a, 8 ¢ 4. Conforme vimos, a fixacio de u" > uo equivale admit cue, se 0 valor real do pardmetto x for, em verdade, superior a uo, porém n&c ulrapassendo w’, ndo nos importaremos em cometer o etro tipo Il pois @ acetagao de He ‘TESTES DE UMA MEDIA POPULAGONAL, 101 ads em tais casos nao ward conseqdéncias consideraveis. Se, porém, tivermos, em realidade, 2 wr, desejaremes limitar a probablidade de aceitar 7 nessas condicdes a um valor méximo ixado B. Essa probabilidade seré associada ao ponto we, assim, garentimos que, se 2, Lid) <8. ‘Temos entdo que, se u = uo, a probabilidade de se rejeltar Ho deverd ser a, €, $e w= b a probabilidade de se aceitar Mp devera ser 8. Admitindo-se que o-seja constante com 4, tal situagdo esta mostrada na Fig. 5.10, onde 2 é o limite da regiao critica ¢ as curvas aptesentadas representam as disiribuigdes amostrais de ¥ $e 4 = tg ee p= 2" Acexpressdo (5.5), é vista, fornece Ramen. or out ado, vemos na Fig. S10, que também poderosexcrever Rayna Ze (5.12) a Loge. Maty eatorty ometarepe, (5.13) onde d=U-m)/o- ‘Bssa expresso nos fornece o tamanho minimo da amostra para satistazer as condigdes impostas. E evidente que a expressao (5.13) pode ser usada indistintamente para testes urilaterals 4 direita ou esquerda, Expressao semelhante pode ser deduzida para o caso dos testes bilaterais, obtendo-se nal Z0t2e)" -(e4) em Figura 5.10 Disrbuicdes amostsis de Z soL = Hoey =u" 4102 TESTES Oe HPOTESES a Sendo desconhecido o, poder-se-ia tomar uma amostra-piloto den’ elementos, obtendo- se uma estimativa s. Farse-ia, entéo, d’ = (= yol/s, utlizando-se, conforme 0 caso, as expressées (5.15) ou (5.14), em termos de ¢ de Student com n’~ 1 graus de liberdade, Utilizar a expressio (5.15) para a sclugao do problema proposto no exemplo anterior. el J& vimos que, no problema citado, tinhamos a = 5% e f= 10% ed’ = 0,5, ‘Logo, utilizando a expresséo (5.15), temos : : a(n? (Letse128) (ays) -(SGt)a0 Portanto a amostra devers ter pelo menos 35 elementos. 5.3.5 Consideracées importantes Vimos, nos itens anteriores, os aspectes téenicos da realizaclo dos testes de uma médla populacional, em seus divetsos casos, Neste item faremos algumas consideragSes adcionals de grande importincia, as quaisoestatistio deve ter sempre em mente aim de ndo prejudicar seu trabalho. Essas consideragbes séo vidas para todas os testes em getal Foi visto no item 5.3.3 como ¢ possivel, no caso do teste de uma média, determinar 0 tamanho da amostra tendo-se em vista 0 controle dos dois tipos de ertos. Entretanto so muito comuns 05 casos em que o tamanho ideal da amostra nao é ou nd0 pode set determinado com antecipacio. Resulta entdo, conforme ja mencionado anteriocmente, que apenas ceremos controle sobre 0 erro Upo I, cuja probabilidade a é geralmente fixada de inicio. Ja 0 conteole sobre o erro tipo Il muitas vezes ndo pode ser exercido, ou por nao ter hravido a determinago conveniente do tamanho da amostra ou mesmo porgue, em testes mais complicados, a prépria téenica de controle do erto tipo I nao razo é desconheciéa. Em tais casos, nunca é demais repetir que apenas teremos uma concluséo estais- ticamente forte se o teste levar a rejeigéo da hipétese Ho, caso em que eventualmente oderemos estar cometendo 0 erro tipo I. Se a decisdo for ade aceitat Ho, nada poderemos dizer Sobre orisco de estarmios errand: logo, 0 resultado carece de maior significagao, do onto de vista estatistico. A propria terminologia usada indica que estamos “accitando” ¢ ‘go “afirmando” algo. Note-se, ademais, que essa accitacio refere-se a uma hipdtese ideal acerca de um aspecto da populacdo, hipStese em geral configurada por igualdades ou afirmagées estritas o que dfclmente sera figorosamente verdadeiro. A propria necessidade, vista ao se examinar o problema do tamanho da amostra, de se considerar uma faixa de valores “aceitaveis” para o pardmetro testado esta relacionada com o fato de que a hipétese Ho é, em geral, uma idealizacdo, com praticamente nenhuma probabilidade de ser rigorosamente verdadeira, TESTES OE UMA VARUINGIA POPULACIONAL 103 lay ‘Um caso frequente que se inclui entre 0s considerados é aquele em que a amosica jé existia quando se teve a idéia de submeté-la a um teste, Um cuidado especial que se deve ter em tzis casos esta em evirar que haya influéncia des resultados veryfcadas na amostra sobre a maneira de formular as hipsteses @ testar, E extremamente importante frisar que a montagem das hipSteses deve depender apenas das conclusdes que se deseja abter ou, 0 que & ¢ mesmo, dos fates que se deseja apurar.€ Jamais de evidéncia amosical ja disponivel Por outro lado, a metodologia dos tesces de hipsteses, até agora apresentada como uma ferramenta pata 2 tomada imediata de uma deciséo entre aceitar ou cejetar Ho, muitas vezes é usada, mormence em pesquisas, pare determinar a signficéncia de cert resultado, ou mesmo, dentre diversos resultados, quais os mais significances." Os prépries softwares computacionais, quando tratam dos testes de hipéteses, informam a significancia dos resultados encontrados, deixando a0 arbitrio do usuario utliza-la como melhor Ihe conviet. 5.4 TESTES DE UMA VARIANCIA POPULACIONAL*”: ‘As mesmas idéias apresentadas no caso do teste de uma média podem ser tilizadas para se realizarem testes envolvendo a variancia da populag2o. Assim, vamos testar as hipoteses Hy oso, o>}, ‘A varidvel de teste deverd ser a variincia da amostra, definida conforme (2.10), pois é 0 estimador justo da vari&ncia populacional, conforme visto. ‘Sea variancia da amostra + for préxima do valor testado of, iremos aceitar Mp, Soment? ‘ejeltaremos a hipétese Ay se s* for signiicativamente superior 2 of. Isso ocorterd ses cair ‘a regio ctitca, a qual correspondera & cauda a diceta, com probabilidade ana distrbuigao ‘por amostragem de s*, suposta verdadeira a hipétese Ao. Ou sea, sendo si o limite da regido critica, rejeitamos Ho se sto Por outro lado, vimos, pela relacéo (5.16) que, sendo normal a dstribulsdo da populagéo, a quantidade (n ~ 1)s#/c* tem disteibuigdo 2° com n ~ 1 graus de liberdade. Logo, supondo verdadeira a hipétese Ho, ou seja, admitindo que a varidncia da populagao é igual ao valor testado 3%, podemos esctever (ars? _ ) Bons (5.15) Essa quantidade, sendo calculada em fungéo da variancla da amostra, sera por nés enominada 7,, experimental, A expressdo (5.15) estabelece a relagio existente entre valores de s ¢ a distbuicdo ‘Ai Suposia verdadeira a hipétese He, Logo, se nessa express20 fzermos s° = 58. 072 (© Ver a props, a cbservacio final reftente ao exemple dado om $5.1 | yim modo altertative de realizar esses testes ¢apresencado em 57 104 ‘TESTES DE HIPOTESES jo uma cada a comtespondente seré 0 valor x? que determina sobre sua distribui tom probabildade a, 0a sa,» so oe Bie 6.16) Das relacées precedentes,éimediato que s* > s¥ equivale a 2, > 22... logo, podemos Formalizar a condicdo de reeigdo de Hp como sendo tha? Kae 9 onde o 22. experimental e dado pela expressdo (5.15) € o valor critica 72.1, «€ obtido na Tab. AG.2 diretamente om fungdo dev =n~ tea e De modo analogo, se as hipdteses testadas forem He P=03, Hg & zg I2| > Zu2. 1F Confoane visto no Cap. 5 (em 3.4.2) € wlltzado no Cap. 4 (em 4.85). 4106 TESTES DE HIPOTESES Cee EEE EEEREEE Ee eeneenaenni Exemplo Desconfiando-se de que uma moeda fosse viciada, realizou-se um experimento ue consistiu em lancar essa moeda cem vezes. Obtiveram-se 59 caras ¢ 41 coroas. Ao nivel de 5% de significéncia, pode-se afirmar a existéncia de vicio na moeda? Solugso ‘As hipéteses a testarreferem-se & proporcao p de vezes (cu probabilidade) em gut 4 moeda a4, por exemple care. Se ela no poss vii, tl propose ‘set igual a 0,5. Logo, as hipSteses a testa sio: Hes pa05, He p00s. A freqiéncia relativa de caras observadas foi -L. 20) ran 3 20.59. Pela expresséo (5.17), temes 9,59-0,50 “yaa Como Zaa = 72.5» = 1,960, devemos aceitar a hipétese H, Logo, a0 nivel a= 5%, nio ficou comprovada a existéncia de vicio na moeda. 5.5.1 Correcdo de continuidade © fato de se aproximar a distribuigdo binomial, que ¢ discreta, por uma normal, que é Continua, ao se realizat o teste de uma proporeae populaconal, sugere que, para maict precisao, seja feta uma corregdo de continuadade, |") Essa corregio consiste em escrever as expresses (5.17) ¢ (5.18). respectivamente, nas formas dadas por (5.19) ¢ (5.20). = Gaps Gn, (6.19) Potl= Poy =p 20.5 za Gateests (5.20) npelt~ Po) ‘Essas expressées resumem o procedimento segundo o qual. se p’- pp >0cuf~ pe >0, a comegao deverd ser subtraida do numeradar e, se p’ = pp < 0 ou’ npo < 0, devera ser somada. A idéia € evitar que a rejeigao de Hy seja fesultante da aproximacao feita, © que poderia ocorrer eventualmente quando fosse bastante prOximo do valor crtice, A necessidade dessa correcéo serd, evidentemente, tanto menor quanto maior o tamanho da amostra n. ‘Ve a esplio,OAp. 1. liem ALES. COMPARACAO OE DUAS MEDIAS 107 en 5.5.2 Tamanho da amostra Procedimento anilogo ao visto em 5.3.4 ¢ ilustrado através da Fig. 5.10 pode ser usado para se obter uma expresséo para o dimensionamento da amostra no caso do teste de uma proporsao populacional, Admitindo-se que o tamanho da amostra sera suficiente para se poder usar a aproximacao pela normal. chega-se, no caso de testes unilaterais. a AP P)+ EPO (s24 ra (5.21) onde p* é 0 valor da proporéo populacional além do qual fixamos em, no maximo, fa probabilidade de cometer 0 erro tipo I. ‘A demonstragao da validade da expressio (5.21) ¢ deixada a cargo de letox. No caso bilateral, usar 29 5.6 COMPARACAO DE DUAS MEDIAS ‘Vamos agora, nos itens finais deste capitulo, estender a teotia des testes de hipéteses para ‘5 casos em que temos duas cu mais amostras, em principio provenientes de populagbes distintas. Com base nessas amostras, ifemos compatar patdmetros equivalentes das populasdes envolvidas.('4) Veremos que as idéias fundamentais expostas nos itens Drecedentes nao sofrerto alveragio; apenas 2 técnica de realizacao dos varios testes se ‘modificara convenientemente, ‘Nesta segdo analisaremos os diversos casos possiveis de ocorrer a0 se compararem as médias de duas populagdes. Em termos gerais, estaremos hipoteses referentes 20 valor real da diferenca entre duas médias populacionais, ou seja, Bg Whnin=, tendo, em geral, especial interesse 0 caso. duas médias, ou sela, w: = us, ‘Temos dois casos a considerar: dados emparelhados (ou popularées correlacionadas) ¢ dados nao-emparelhados (ou popularoes ndo-correlacionadas). Além disso, 0 caso de dados ndo-emparelhados sera subdividido em trés subcasos: er que se testa a hipdtese da igualdade das a) quando 0s desvies-padtio das populacées séo conhecidos; b) quando os desvios-padréo das populagies so desconhecidos, mas podem set Supostos iguais; ©} quando os desvios-padrio das populagées sio desconhecidos ¢ no podem ser ‘Supostos iguais. 2 Bvenualment, cis estes podem ser usados para vericarmos se as amsias podem ser consderadas como provenientes de uma mesma popula. 108 ‘TESTES DE HiPOTESES a 5.6.1 Dados emparelhados 0s resultados das duas amostras constituem dados emparelhados quando estio relacionados dois @ dois segundo algum criéxio que introduz uma influéncia marcante entre os diversos ‘pares, que Supomos. porém, influir igualmente sobre os valores de cada par. Assim, por exemplo, suponhamos que vinte cobalas sejam submetidas durante uma semana a uma dieta cot certo tipo de racao. Os pesos das cobaias sa medidos no inicio ¢ no fim do tratamento, ¢ desejamos tra conclusbes sobre o aumento médio de peso verificado, Se os animais forem perfeitamente identificados, teremos duas amestras de valores do tipo antes ¢ depois”. ¢ os dados seréo empacelhados, pois cada valor da primeira amostra staré perfeitamence associado 20 respectivo valor da segunda amostra, O critério que garante © empareihamento é a identidade de cada cobala. Note-se que ¢ razoavel esperar que 2 ldentidade de cada animal tena infiuéncia nos valores observados de seu peso, porém essa Infludncia deve exercerse de forma aproximadamente igual dentro de cada par de valores “antes e depois’; logo, a0 se tomarem as diferencas entre os varios pares de valores, a influéncia individual de cada animal tende a desaparecer, restando apenas 0s efeitos pproduzidos pela ragao. No mesmo exemplo, se os animais ndo fossem identificados, nao haveria como associat os valores das duas amostras, e os dados seriam no-emparelhados. F claro que, sempre que possivel ¢ justificdvel, devernos promover o emparethamento dos dados, pois termes uma informagao a mais que nos evaré a resultados estatisseamente mais fones. Entretanto, se o emmpareihamento for promovido sem haver condigées fsicas que o justfiquem, poderd resulta em perda do poder do teste. sendo, poranto, indesejave. Ora, se 05 dados das duas amostras estdo emparelhatlos, tem sentido calcularmos as diferengas d;corvespondentes a cada par de valores, reduzindo assim os dados a uma Unica amostra de n diferencas. Por outto lado, estar a hipotese de que a diferenca entre as médias, das duas populacoes emaparelhadas seja igual a um certo valor & equivale a testar a hipétese de que a média de todas as diferencas (referentes &s populagdes) seja igual a a, o que decome iretamente das propriedades da média. Qu seja, vamos testa simplesmente a hipévese He be contra uma alternativa #; que poderd corresponder a um teste unilateral ou bilateral, conforme seja de interesse # faci perceber que, ao tomar as diferengas d,reduzimos o problema ao teste de tinica rmédia, recaindo no caso resolvido em 5.3.2. Logo, a expressdo (5.8) pode ser aplicada a amosta das dferencas, realizando-se o teste simplesmente através da Comparagao do ¢ de Student experimental com o valor eric cbtido em fungao de accom n~ 1 gyaus de liberéade, Ou seja, ealelames fait (6.22) ta Sle @ a média da amostra das diferengas; A. o valor testado da média das diferencas nas populagées; ‘Sg. 0 desvio-padrao da amostra das diferencas; 7 otamanhe da amostra das diferencas, testamos esse valor conforme acima indicado.l!31 ‘TST Eseimplcte que a dsuibicio das dlereneasSupasta normal. Entetanteo tase rebut no sends 4e ser poueo ate por desvios da normaliade. CcoWPARACAO DE DUES HEOIRS 103 —— OSS Dez cobaias adultas foram submetidas ao tratamento com certa rag durante uma semana. Os animais foram perfeitamente identificados, tendo sido mantides, para tanto, em gaioas individuals. Os pesos, em gramas, no principio e no fim da semana, designados respectvamente por 2; €,y, s20 dados 2 segui. ‘Ao nivel de 19 de signlficdnca, podemos conduit que 0 uso da ragéo connibuin Para o aumento do peso médio dos animais? Cobaia| x % 1 635 640 2 708 n2 3 662 681 4 560 558, 5 603. 610 6 75 10 7 698, 707 8 875 585 8 633 635 10 669 682 eed Considerando d = y ~ x, devemos testar as hipSteses ‘Usaremes as diferengas dj = y)~., as quais, juntamente com seus quadrados, sio apresentadas na Tab. 5.4. Podemos, portanto, calcular gu thd a 30 nad? Eid ggp_ (667 oh Se 2. 4 = YEO 87,043, Z-0 $6 99s Tin TOSI TO =49,60,

Você também pode gostar