Você está na página 1de 537
Pedro A. Morettin Professor Titular do Instituto de Matematica e Estatistica da Universidade de Sao Paulo. Master in Arts e PhD em Estatistica pela Universidade da Califérnia, Berkeley. Wilton de O. Bussab Professor Adjunto do Escola de Adminstapdo de Empresas de Séo Paul, da Fundagéio Getulio Varga: Mestre em Estatistica pela Universidade de ‘Sao Paulo e PhD pela London School of Economics. ESTATISTICA "BASICA 5? edicao 2004 (AD Saraiva Kr - Editora Saraiva ‘i Marqu®s de Sto Vie, 1697 - CEP 01138-904 Bara Funda ~ Tel: PABK (0X11) 3613-3000 Fea (XK) 3611-3908 ~ Teles: (OKKT) 3618-3344 Fax Ventas (OXX1) 3611-268 ~ So Palo-SP Endo ra: ip: eras. com br Distribuidores Regionais [AMAZONAS/RONDONIA/RORAIMAVAGRE ua Costa Azevedo, 56 — Cito Foe: (0X92) 633-4227 / 633-4782 — Manaus BAHINSERGIPE ripno Dora, 23 — Bolas Fone: (0X71) 381-8854 / 381-5895 / 381-0959 — Salvador BAURUISAO PAULO (sala dos protessores) ua Morsenhor Ciao, 255/257 — Cenivo Fone: (OXK14) 234-5643 / 234-7401 — Bauru CAMPINASYSAO PAULO (sala dos protessores) ua Camargo Pimentel, 860 — 14. Guanabara Fone: (OXK9) 3243-8004 / 3243-8259 — Campinas CEARAPIAUI ‘Av. Filomena Gomes, 670 — Jacarecanga Fone: (O65) 236 2323 / 8-14 28-1381 — Foalera DISTRITO FEDERAL SIG Su 04.3 — Bl B — Loja 97 — Selo Ings Graco Fone: (0X61) 344-2920 / 344-2951 / 344-1709 — Braslia GOIAS/TOCANTINS ‘hu. Independncia, 6230 — Setar Aaropato Fone: (0X62) 225-2882 / 212-2806 / 224-3016 — Goidnia ‘MARANHAO RR Godoledo Viana, 546 — Cento Fone: (99) 524-0032 — Imperati MATO GROSSO 00 SULIMATO GROSSO ua 14 de Julho, 3148 — Centro Fane (D7) 392-3682 / 382-0112 — Campo Grande MINAS GERAIS. ua Padre Eustaquio, 2818 — Pade Eustquio Fone: (OXK31) 3412-7080 / 3412-7085 — Belo Horizonte PARA Travessa Apinagés, 186 — Batista Campos Fone. (OXK91) 272-9034 / 224-9038 / 241-0409 — Belém PARANA/SANTA CATARINA ua Corseheiro Laurindo, 2895 — Prado Velho Fone: (Oxxs) 332-4894 — Curia PERNAMBUCO/PARAIBA/R, G. DO NORTE ua Cortedor do Bispo, 185 — Boa Vista Foe; (OXXB1) 3421-4246 / 3421-4510 — Recile RIBEIRAO PRETO/SAO PAULO ua Pade Fei, 373 — Vila Tivo Fone. (OXK16) 610-5843 / 610-8264 — Riberdo Preto RIO DE JANEIRO/ESPIRITO SANTO ua Visconde de Sana sabe, 13.2 119 — Vila lsabel Fane (0X%21) 257-9494 297-87 (2577-9565 — Ro e Jano RIO GRANDE D0 SUL ‘A, Coat, 1360 — Sao Geraldo Fone: (OXK51) 3343-1457 / 3343-7563 / 3343-2006 / 3343-7469 Porto Alegre ‘SAO JOSE DO RIO PRETO/SAO PAULO (Sala dos protessores) ‘Brig Faria Lima, 6363 — Rio Preto Shopping Center — V Sao Jose Fone: (X17) 227-3819 / 227-0982 / 227-5249 — Sao Jost do Rio Preto Ao JOSE DOS CAMPOS/SAO PAULO ‘sala dos protessares) ‘a Sara Lua, 106 — Jd. Santa Malena * (OK12) 3901-0732 — San Jose dos Campos PAULO de Sao Vicente, 1697 — Barra Funda 187 (OKXT1) 3613-000 / 9611-3908 — So Paulo SA ISBN 85-02-03497-9 Dados Internacionais de Catalogagao na Publicagao (CIP) (Camara Brasileira do Livro, SP, Brasil) Bussab, Wilton deQ., 1940- Estatistica basica / Wilton de 0. Bussab, Pedro A. Morettin — 5. ed. — Sao Pauilo : Saraiva, 2004. Bibliograta 1. Econometria 2. Economia matematica 3. Estatistica ‘matemética 4. Estatistica matemdtica - Problemas, exercicios etc. |. Morettin, Pedro A., 1942- Il. Titulo 01-1614 Indices para catélogo sistematco: 1. Estatistica econdmica : Matematica estatistica 519.5 2. Estatistica matemitica 519.5 cop -519.5 Copyright © Wilton de O. Bussab e Pedro A. Morettin 2002 Editora Saraiva ‘Todos os direitos reservados. Diretor editorial: Henrique Farinha Gerente editorial: Flavia Helena Dante Alves Bravin Baitor: Karina Maria Ramos Guimarées Assistente de marketing editorial: Gisele da Silva Guerra Assistentes de producio editorial: Rita de Céssia da Silva Juliana Rodrigues de Queiréz Coordenadora de revisio: Livia M. Giorgio Gerente de arte: Nair de Medeiros Barbosa ‘Capa: Ricardo de Krishna ‘Arte e Producdo: Tavares Servigos de Pré-impressio S/C Lida. 5 edicao IF tiragem 2002 2 tiragem 2003, 3 tiragem 2003 4 tiragem 2004 Nenhuma parte desta publicago podera ser reproduzida por qual- quer meio ou forma sem a prévia autorizagdo da Eaitora Saraiva A violacao dos direitos autorais é crime estabelecido na Lei n. 9.610198 e punido pelo artigo 184 do Cédigo Penal. Para ligia e Célia “A vida é complicada, mas ndo desinteressante.”” SUMARIO Prefacio & Quinta Edicao ¢ Xill Capitulo 1 — Preliminares 1 1.1 Introdugdo . 1 1.2 Modelos 1 1.3 Técnicas Computacionais 2 1.4 Métodos Graficos 3 1.5 Conjuntos de Dados 4 1.6 Plano do Livro 4 Parte | — Andlise Exploratoria de Dados Capitulo 2 — Resumo de Dados . . . 9 2.1 Tipos de Varidveis Le Le 9 2.2 Distribuicdes de Freqiéncias . 2. 2.3 Grdficos * » 18 2.3.1 Grdficos para Varidveis Qualitativas . . 15 2.3.2 Graficos para Varidveis Quantitativas 16 2.4 Ramo-e-Folhas sroresweacnra sou oe a 20 2.5 Exemplos Computacionais 23 2.6 Problemas e Complementos ............+ L026 Capitulo 3 — Medidas-Resumo .... coe 85 3.1 Medidas de Posicao ee 35 3.2 Medidas de Dispersao : 37 3.3 Quantis se nerve 4) 3.4 Desenho Esquemético (Box Plots) a 48 3.5 Graficos de Quantis . ‘ 51 3.6 Transformacées . bicceeecees 58 3.7 Exemplos Computacionais ..............5 .. 55 3.8 Problemas e Complementos . ee aa eowne 58 Capitulo 4 — Andlise Bidimensional 69 4.1 Introdugdo.. 2.2... bocce 69 4.2 Varidveis Qualitativas aaweme 7 ESTATISTICA BASICA 4,3 Associacéo entre Varidveis Qualitativas . . . L. 74 4.4 Medidas de Associacao entre Varidveis Quolitativas 77 4.5 Associacao entre Varidveis Quantitativas 81 4.6 Associacao entre Varidveis Qualitativas e Quantitativas 87 4.7 Gréficosqxq ..- 1 4.8 Exemplos Computacionais 93 4.9 Problemas e Complementos : a 95 Parte Il — Probabilidades Capitulo 5 — Probabilidades ’ 103 5.1 Introdugao 103 5.2 Algumas Propriedades woe. 106 5.3 Probabilidade Condicional e Independéncia oe 1M 5.4 O Teorema de Bayes ... ‘ - 116 5.5 Probabilidades Subjetivas 121 5.6 Problemas e Complementos 122 Capitulo 6 — Varidveis Aleatérias Discretas ‘ea re 128 6.1. Introdugdo 2c eee 128 6.2 O Conceito de Variavel Aleatéria Discreta 129 6.3 Valor Médio de uma Varidvel Aleatéria ..... . 135 6.4 Algumas Propriedades do Valor Médio vse. 137 6.5. FuncGo de Distribuicao Acumulada . . 138 6.6 Alguns Modelos Probabilisticos para Varidveis Aleatérias Discretas ..... 0.6.60. 0 00020 e ee 140 6.6.1 Distribuicéo Uniforme Discreta 140 6.6.2 Distribuigao de Bernoulli... . 6.6.3 Distribuicgao Binomial . . “6.6.4 Distribuigéo Hipergeométrica 6.6.5 Distribuicao de Poisson 6.7 O Processo de Poisson . %6.8 Quantis ..........-. %6.9 Exemplos Computacionais ......... 6.10 Problemas e Complementos ......... Capitulo 7 — Varidveis Aleatérias Continuas ............... 162 7.1 Introducéo 162 7.2 Valor Médio de uma Voriével Aleatéria Continua 166 7.3 Fungo de Distribuicao Acumulada .......« . 169 SUMARIO 7.4 Alguns Modelos Probobilisticos para Varidveis Aleatérias Continuas cess 7.4.1 © Modelo Uniforme ... . 7.4.2 © Modelo Normal ..... 7.4.3 © Modelo Exponencial ... 7.5. Aproximacéo Normal a Binomial 7.6 Funcées de Varidveis Continuas. . 7.7 Outros Modelos Importantes 7.7.1 A Distribuigao Gama 7.7.2.4 Distribuicéo Qui-Quadrado 7.7.3. A Distribuicdo t de Student 7.7.4 A Distribuicdo F de Snedecor 7.8 Quantis 7.9. Exemplos Computacionais 7.10 Problemas e Complementos Capitulo 8 — Varidveis Aleatrias Multidimensionais . . 8.1 Distribuigéo Conjunta 8.2 Distribuicdes Marginais e Condicionais 8.3 Funcées de Varidveis Aleatérias 8.4 Covaridncia entre Duas Varidveis Aleatérias 8.5 Varidveis Continuas . “ 8.6 Distribuicdes Condicionais Continuas .. . 8.7 Funcées de Varidveis Continuas . 8.8 Distribuicao Normal Bidimensional ...... . 8.9 Problemas e Complementos Capitulo 9 — Nogées de Simulasao . veces 9.1 Introducéo 9.2 Simulacao de Varidveis Aleatorias 9.3 Simulacéio de Alguns Modelos 9.4 Exerplos Computacionais 9.5 Problemas e Complementos Parte Ill — Inferéncia Estatistica Capitulo 10 — Introducao a Inferéncia Estatistica 10.1. Introdugéo 10.2 Populagao e Amostra 10.3. Problemas de Inferéncia 172 173 175, 180 .. 180 - 183 186 - 186 187 189 190 192 193 194 . 200 200 203 - 206 - 211 - 216 220 .. 224 .. 225 . 228 231 255 255 ( x ESTAT{STICA BASICA | 10.4 Como Selecionar uma Amosira wna 260 10.5 Amostragem Aleatéria Simples . . vise. 262 10.6 Estatisticas e Parémetros . . . sanendy ‘265 10.7 Distribuicdes Amostrais .... . nunwoceases ‘266 | 10.8 Distribuicao Amostral da Média - 271 10.9 Distribuicéo Amostral de uma Proporcéo ......... 275 10.10 Outras Distribuicdes Amostrais 277 10.11 Determinacéo do Tamanho de uma Amostra 280 10.12 Exemplos Computacionais ........ : 282 10.13 Problemas e Complementos ........ wees. 283 Capitulo 11 — Estimagéo 289 11.1. Primeiras Idéias pevectseventssvensesses 20 11.2 Propriedades de Estimadores SESKRKENEES exy 291 11.3. Estimadores de Momentos . . . 297 11.4. Estimadores de Minimos Quadrados .... . . os. 298 11.5. Estimadores de Maxima Verossimilhanca 301 11.6. Intervalos de Confianga een . 303 11.7. Erro Padrao de um Estimador ¢ 309 11.8. Inferéncia Bayesiana 310 11.9 Exemplos Computacionais . . . - 313 11.10 Problemas e Complementos ............ 317 Capitulo 12 — Testes de Hipdteses .... . woveces 323 12.1 Introdugéo. . 323 12.2 Um Exemplo 323 12.3 Procedimento Geral do Teste de Hipoteses ..... 330 12.4 Passos para a Construcéo de um Teste de | . Hipdteses 20.25. e eee cence eee ee eee 332 12.5. Testes sobre a Média de umo « Populacao com i Voriéncia Conhecida .... 2... 0. aussaaeaess O02 } 12.6 Teste para Proporcéo 334 12.7 Poder de um Teste saass SOF 12.8 Probabilidade de Significancia ........ senses 341 12.9 Teste para a Varidncia de uma Normal. . . 344 12.10 Teste sobre a Média de uma Normal com Variéncia Desconhecida .... a ANeaNa SUNS 347 12.11 Problemas e iComplerienios; Wen GRAS AAAS 351 Capitulo 14 — Andlise de Aderéncia e Associacéo SUMARIO Capitulo 13 — Inferéncia para Duas Populacdes 13.1 Iniroducéo 13.2 Comparacée das Variéncios de Duos Populacées Normais 13.3 Comparacéo de Duos Popslacoess Anottas Independentes ....... ee 13.3.1 Populagdes Normais 13.3.2 Populacoes Nao-Normais . 13.4 Comparagado de Duas Populagées: Amostras Dependentes 13.4.1 Populacéo Normal ...... 0.0.00 eevee e 13.4.2 Populacéo Néo-Normal . 13.5 Exemplo Computacional 13.6 Problemas e Complementos 14.1 Introducéo re 14.2 Testes de Aderéncia 14.3 Testes de Homogeneidade 14.4 Testes de Independéncia ......... SracURRa aE 14.5 Teste para o Coeficiente de Correlacéo 14.6 Outro Teste de Aderéncia 14.7 Problemas e Complementos . Capitulo 15 — Inferéncia para Varias Populacées 15.1 Introdugao 15.2 Modelo para Duas Subpopulacées . 15.2.1 Suposicbes 15.2.2 Estimagéo do Modelo .. . 15.2.3 Intervalos de Confianca 15.2.4 Tobela de Andlise de Variéncia 15.3 Modelo para Mais de Duos Subpopulacées 15.4 Comparagoes entre as Médias 15.5 Teste de Homocedasticidade 15.6 Exemplo Computacional 15.7 Problemas e Complementos . 355 355 358 361 . 362 366 375 . 375 377 .. 381 . 384 389 .. 389 . 392 396 401 404 . 407 410 410 415 415 416 419 . 420 424 427 429 430 431 xl ESTAT{STICA BASICA Capitulo 16 — Regressao Linear Simples 16.1 Introdugéo 16.2 Estimacao dos Pardmetros 16.3 Avaliagéo do Modelo 16.3.1 Estimador de o2 ..... “ 16.3.2 Decomposicao da Soma de Quadrados 16.3.3 Tabela de Andlise de Variéncia 16.4 Propriedades dos Estimadores 16.4.1 Média e Varidncia dos Estimadores : 16.4.2 Distribuigdes Amostrais dos Estimadores dos Parametros oo eee eee eee . 16.4.3 Intervalos de Confianca para we Be... 66.4. 16.4.4 Intervalo de Confianca para pt (2) e Intervalo de Predicao ......... 16.5 Andlise de Residuos 16.6 Alguns Modelos Especiais . 16.6.1 Reta Passando pela Origem 16.6.2 Modelos Nao-Lineares 16.7 Regressdo Resistente 16.8 Exemplos Computacionais 16.9 Problemas e Complementos .......... Bibliografia Conjuntos de Dados Tabelas Respostas 6.0... » 436 439 441 441 443 445 447 448 449 . 452 . 454 . 460 . 460 . 462 . 466 468 - 470 . 48) 483 - 493 508 PREFACIO A QUINTA EDICAO Bua edig&o é uma revisao substancial da edigZo anterior deste livro. Cinco novos capitulos foram adicionados, e os demais foram revisados e atualizados. Cremos que este texto, com a escolha adequada dos t6picos, possa ser utilizado por alunos de diversas areas do conhecimento. O Site do Professor, disponivel na Internet (http://www.cditorasaraiva.com.br/uni), fornece uma discussao mais longa sobre roteiros apropriados para cursos de diferentes niveis, além de conter as resolugdes da maioria dos problemas do livro. Com essa filosofia em mente, procuramos incluir no texto uma quantidade de infor- magao substancial em cada capitulo. Obviamente caberd ao professor escolher o material apropriado para cada curso desenvolvido. | Olivro é dividido em trés partes. A primeira trata da andlise de dados unidimensionais e bidimensionais, com atengao especial a métodos graficos. Pensamos que a leitura dessa parte é essencial para 0 bom entendimento das demais. Recomendamos que o aluno trabalhe com dados reais, embora isso nao seja uma necessidade essencial, pois normal- mente um primeiro curso de estatistica é dado no inicio do programa do aluno, que nao possui ainda um conhecimento s6lido dos problemas de sua 4rea. A segunda parte trata dos conceitos basicos de probabilidades e varidveis aleatérias. Finalmente, na terceira parte, estudamos os t6picos principais da inferéncia estatistica, além de alguns temas especiais, como regressao linear simples. Um capitulo sobre nogGes de simulagao foi adicionado, pois tais nogGes so hoje fundamentais em muitas areas. O uso de algum pacote computacional é fortemente recomendado para a pratica dos conceitos desenvolvidos. Apresentamos exemplos de aplicagées utilizando alguns desses pacotes: Minitab, Excel e SPlus. Mas, evidentemente, outros pacotes poderdo ser usados. No final do livro, apresentamos varios conjuntos de dados que poderao ser utiliza- dos pelos alunos. Esses dados também esto disponiveis nas seguintes pdginas da Internet: hitp: //www.ime.usp.br/~pam hitp://www.editorasaraiva.com.br/uni Finalmente, agradecemos a todos aqueles que enviarem sugestées e comentarios com a finalidade de melhorar a presente edic&o. Para tanto, além do correio normal, os leitores | poderao usar os enderegos eletrénicos dos autores: morettin@editorasaraiva.com.br e bussab @ editorasaraiva.com.br, Os Autores Capitulo 1 Preliminares 1.1 Introdusao Em alguma fase de seu trabalho, o pesquisador depara com o problema de analisar e entender um conjunto de dados relevante ao seu particular objeto de estudos. Ele necessita- r4 trabalhar os dados para transformé-los em informagdes, para comparé-los com outros resultados, ou ainda para julgar sua adequagao a alguma teoria. De modo bem geral, podemos dizer que a esséncia da Ciéncia é a observacdo e que seu objetivo bisico é a inferéncia, que pode ser dedutiva (na qual se argumenta das premissas ds conclusées) ou indutiva (por meio da qual se vai do especifico ao geral). A inferéncia estatistica é uma das partes da Estatistica. Esta é a parte da metodologia da Ciéncia que tem por objetivo a coleta, redugao, andilise e modelagem dos dados, a partir do que, finalmente, faz-se a inferéncia para uma populacao da qual os dados (a amostra) foram obtidos. Um aspecto importante da modelagem dos dados é fazer previsdes, a partir das quais se podem tomar decisdes. Na primeira parte deste livro estaremos interessados na reducao, andlise e interpretagao dos dados sob consideragaio, adotando um enfoque que chamaremos de andlise exploratéria de dados (AED). Nessa abordagem tentaremos obter dos dados a maior quantidade possivel de informacao, que indique modelos plausfveis a serem utilizados numa fase posterior, a andlise confirmatéria de dados (ou inferéncia estatistica). Tradicionalmente, uma anilise descritiva de dados limita-se a calcular algumas medi- das de posigao e variabilidade, como a média e variancia, por exemplo. Contraria a essa tendéncia, uma corrente mais moderna, liderada por Tukey (1977), utiliza principalmente técnicas grdficas, em oposigio a resumos numéricos. Isso no significa que sumérios ndo devam ser obtidos, mas uma analise exploratéria de dados nao deve se limitar a calcular tais medidas. 1.2 Modelos Fundamentalmente, quando se procede a uma anilise de dados, busca-se alguma forma de regularidade ou padréo ou, ainda, modelo, presente nas observacées. | | 2 CAPITULO | — PRELIMINARES a Imagine que estejamos estudando a relagdo entre rendimentos e gastos de consumo de um conjunto de individuos. Podemos obter um grafico como o da Figura 1.1.0. que se espera, intuitivamente, é que os gastos de um individuo estejam diretamente relacio- nados com os seus rendimentos, de modo que é razoavel supor uma “relagao linear” entre essas duas quantidades. Os pontos da Figura 1.1 nao esto todos, evidentemente, sobre uma reta; essa seria 0 nosso padrao ou modelo. A diferenga entre os dados e 0 modelo constitui os residuos. Relagdio entre consumo e rendimento. Consumo Podemos, ento, escrever de modo esquemitico: Dados = Modelo + Residuos ou, ainda, D=M+R. (1) A parte M é também chamada parte suave (ou regular ou, ainda, previsivel) dos dados, enquanto R é a parte aleatéria. A parte R é tao importante quanto M, e a andlise dos residuos constitui uma parte fundamental de todo trabalho estatistico. Basicamente, sao os residuos que nos dizem se o modelo é adequado ou nao para representar os dados. De modo coloquial, 0 que se deseja é que a parte R nao contenha nenhuma “suavidade”, caso contrério mais ‘agdio” é necessdria. Uma anilise exploratoria de dados busca, essencialmente, fornecer informagGes para estabelecer (1.1). 1.3 Técnicas Computacionais desenvolvimento rapido e constante na érea de computacao foi acompanhado pela introdugao de novas técnicas de andlise de dados, notadamente de métodos graficos e de métodos chamados de computagio intensiva (como 0 método bootstrap, que seré tratado brevemente neste livro). a 1.4 METODOS GRAFICOS 3 Para a implementagao dessas técnicas, foram desenvolvidos pacotes estatfsticos, atual- mente usados em larga escala tanto no meio académico como em indistrias, bancos, érgaos de governo etc. Esses pacotes podem ser genéricos ou especificos. Os pacotes genéricos (como o Minitab, SPlus, BMDP, SPSS, SAS etc.) séo adequados para realizar uma gama variada de andlises estatfsticas. Os pacotes especificos siio planejados para realizar andlises particulares de uma determinada drea. Por outro lado, os pacotes podem exigir maior ou menor experiéncia computacional dos usudrios. Alguns operam com menus, € seu uso é mais simples. Outros requerem maior familiaridade com 0 computador e so baseados em linguagens préprias. Do ponto de vista de sistema operacional, a maioria dos pacotes é programada para uso em microcomputadores que operam com o sistema Windows. Todavia, um ntimero razodvel de pacotes j4 tem versdes para o sistema Unix, usado em estacdes de trabalho (workstations). Em alguns exemplos deste livro usaremos alguns pacotes e, em cada caso, explicitaremos qual estd sendo usado. Nao queremos fazer recomendagdes sobre nenhum pacote em parti- cular, porque cremos que o leitor utilizar aquele com o qual estiver mais acostumado, ou aquele(s) que estiver(em) a sua disposi¢ao. Listamos, na Tabela 1.1, alguns pacotes genéricos utilizados na drea de Estatistica. Sa- lientamos, também, que existem planilhas & venda no mercado que possuem opgdes para certas técnicas estatisticas. Dentre estas, mencionamos 0 Excel e 0 Lotus. Tabela 1.1: Alguns pacotes estatisticos genéricos. Pacote Ambiente Fabricante BMDP | WIN, UNIX | BMDP Stat. Soft, USA. MINTAB =| WIN Minitab, Inc., USA SAS WIN SAS Institute, Inc., USA SPLUS WIN, UNIX | Math Soft, Inc. SPSS WIN SPSS, Inc., USA STATGRAPHICS WIN Stat. Graphics, Inc., USA Além dos pacotes estatisticos, ha outros pacotes de grande utilidade para realizar tarefas, matemiticas. Dentre estes, mencionamos 0 Mathematica, o Maple, 0 Gauss ¢ 0 Matlab. 1.4 Métodos Graficos Como dissemos na introdugo, os métodos grificos tm encontrado um uso cada vez maior devido ao seu forte apelo visual. Normalmente, é mais facil para qualquer pessoa enten- der a mensagem de um grifico do que aquela embutida em tabelas ou sumarios numéricos. Os gréficos sao utilizados para diversos fins (Chambers et al., 1983): (a) buscar padrdes e relagdes (b) confirmar (ou nao) certas expectativas que se tinha sobre os dados: (c) descobrir novos fendmenos: (d) confirmar (ou nao) suposigdes feitas sobre os procedimentos estatisticos usados; (e) apresentar resultados de modo mais rapido e facil 4 CAPITULO 1 — PRELIMINARE Podemos usar métodos graficos para plotar os dados originais ou outros dados deriva- dos deles. Por exemplo, a investigacio da relacao entre as varidveis da Figura 1.1 pode ser feita por meio daquele diagrama de dispersiio. Mas podemos também “ajustar” uma reta aos dados, calcular 0 desvio (residuo) para cada observagiio e fazer um novo grfico, de consu- mo contra residuos, para avaliar a qualidade do ajuste. Com o progresso recente da computagao grafica e a existéncia de hardware e software adequados, a utilizagao de métodos graficos torna-se rotineira na andlise de dados. Contu- do, muitos grificos podem ser feitos sem o recurso de programas de computador. Neste texto introduziremos gréficos para a visualizacao e resumo de dados, no caso de uma ou duas varidveis, principalmente. Nogdes para o caso de trés ou mais varidveis serio rapidamente abordadas. Grdficos com o propésito de comparar duas distribuigdes também serao tratados. 1.5 Conjuntos de Dados No final do livro aparecem alguns conjuntos de dados que serao utilizados nos exem- plos ou nos exercicios propostos. Aconselhamos 0s leitores a reproduzir os exemplos, usan- do esses dados, bem como resolver os problemas, pois somente a efetiva manipulagao de dados pode levar a um bom entendimento das técnicas apresentadas. Os conjuntos de dados apresentados provém de diferentes fontes, que sio mencionadas em cada conjunto e depois explicitadas nas referénci: Os leitores, é claro, poder usar as técnicas apresentadas em seus prdprios conjuntos de dados. Como salientamos na se¢do 1.3, usaremos alguns programas computacionais disponi- veis para anilises estatisticas. Decidimos pela utilizagao de dois pacotes, o SPlus ¢ 0 Minitab, e de uma planilha, o Excel. Embora o tiltimo nao possa ser considerado um aplicativo esta- tistico, sua grande difusao entre os usudrios de computadores pessoais motivou nossa escolha. Alguns conjuntos de dados sao parte de conjuntos maiores. Todos esses dados podem ser obtidos no enderego: http://www.editorasaraiva.com.br/uni Usaremos um nome curto para identificar cada conjunto de dados. Por exemplo, 0 Con- junto de Dados 1 sera designado simplesmente por CD-Brasil, o Conjunto de Dados 4, por CD-Poluigao etc. 1.6 Plano do Livro Na primeira parte do livro trataremos, nos Capitulos 2 a 4, de técnicas graficas e numé- ricas que nos permitiro fazer uma primeira andlise dos dados disponiveis. No Capitulo 2 estudaremos como resumir os dados por meio de distribuigdes de freqiiéncias e como representi-los graficamente por meio de grificos em barras, histogramas e ramo-e-folhas. No Capitulo 3 veremos as principais medidas numéricas resumidoras de um conjunto de dados: medidas de posigao (ou localizago) e medidas de dispersio (ou de variabilidade). a 1.6 PLANO DO LIVRO 5 A partir dessas medidas poderemos construir graficos importantes, como o griifico de quantis e 0 desenho esquemitico (ou box plot). No Capitulo 4 trataremos do caso em que temos duas varidveis. Estaremos interessados em verificar se existe alguma associagao entre duas varidveis e como medi-la. O caso de trés varidveis seré considerado brevemente. Na segunda parte introduzimos os conceitos basicos sobre probabilidades e varidveis aleat6rias. A idéia é que a primeira parte sirva de motivagdo para construir os modelos probabilisticos da segunda parte. No Capitulo 5 tratamos da nogao de probabilidade, suas propriedades, probabilidade condicional e independéncia. Também consideramos 0 teorema de Bayes e destacamos sua importancia em problemas de inferéncia. As varidveis aleatorias discretas so estudadas no Capitulo 6 e as continuas, no Capitulo 7. Em particular, sao intro- duzidos os principais modelos para varidveis aleatérias. O caso de duas varidveis aleatérias € considerado no Capitulo 8. No Capitulo 9 introduzimos nogées basicas de simulagiio. Esse assunto é muito impor- tante, notadamente quando se quer avaliar algum modelo construfdo para uma situagao real. A terceira parte trata da inferéncia estatistica. Nesta parte todos os conceitos apreen- didos nas duas partes anteriores so imprescind{veis. Os dois grandes problemas de inferéncia, estimagio e teste de hip6teses sao estudados nos Capitulos 11 e 12 respectiva- mente, ap6s serem introduzidas no Capitulo 10 as nogées basicas de amostragem e distri- buigdes amostrais. O caso de duas populagdes é considerado no Capitulo 13 e de varias populagdes no Capitulo 15. Basicamente, sao desenvolvidos testes para médias, propor- Ges e varidncias. O Capitulo 14 trata dos chamados testes do qui-quadrado para dados que aparecem sob a forma de tabelas de contingéncia. Finalmente, no Capitulo 16 estuda- mos com algum detalhe o modelo de regressao linear simples. Em cada capitulo ha, sempre que possivel, uma se¢ao com exemplos computacionais. Isso significa que algum conjunto de dados é analisado utilizando-se um ou alguns dos programas mencionados acima. Em geral, sio problemas um pouco mais dificeis do que aqueles exemplificados nas demais segdes ou, ento, tém o cardter de ilustrar 0 uso de tais pacotes para simulacdes, por exemplo. Recomendamos que 0 leitor tente reproduzir esses exemplos para adquirir experiéncia na manipulagao de dados e procura de eventuais mode- los que possam representé-los. Parte 1 ANALISE EXPLORATORIA DE DADOS Capitulo 2 Resumo de Dados Capitule 3am Medidas-Resumo Capitulo 4 Andlise Bidimensional Capitulo 2 Resumo de Dados 2.1 Tipos de Variaveis Para ilustrar 0 que segue, consideremos 0 seguinte exemplo. ’ |. Um pesquisador esté interessado em fazer um levantamento sobre alguns aspectos socioeconémicos dos empregados da seco de orgamentos da Companhia MB. Usando informagées obtidas do departamento pessoal, ele elaborou a Tabela 2.1. De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou mais de um) resultado correspondendo & realizagdo de uma caracteristica (ou caracteris- ticas). No exemplo em questao, considerando-se a caracteristica (varidvel) estado civil, para cada empregado pode-se associar uma das realizagées, solteiro ou casado (note que poderia haver outras possibilidades, como separado, divorciado, mas somente as duas mencionadas foram consideradas no estudo). Podemos atribuir uma letra, digamos X, para representar tal varidvel. Observamos que o pesquisador colheu informagoes sobre seis varidvei Variével Representacdo Estado civil Xx Grau de instrucéio y Numero de filhos Zz Salario | s Idade U V Regio de procedéncia Algumas varidveis, como sexo, educagio, estado civil, apresentam como poss{veis rea- lizagdes uma qualidade (ou atributo) do individuo pesquisado, ao passo que outras, como ntimero de filhos, salério, idade, apresentam como possiveis realizacées ntimeros resultan- tes de uma contagem ou mensuragao. As varidveis do primeiro tipo sao chamadas qualitati- vas, e as do segundo tipo, quantitativas. 10 CAPITULO 2 — RESUMO DE DADOS [| Dentre as varidveis qualitativas, ainda podemos fazer uma distingao entre dois tipos: varidvel qualitativa nominal, para a qual no existe nenhuma ordenagao nas possiveis reali- zagoes, e varidvel qualitativa ordinal, para a qual existe uma ordem nos seus resultados. A regido de procedéncia, do exemplo 1.1, é um caso de varidvel nominal, enquanto grau de instrugdo é um exemplo de varidvel ordinal, pois ensinos fundamental, médio e superior correspondem a uma ordenacio baseada no ntimero de anos de escolaridade completos. A varidvel qualitativa classe social, com as possiveis realizagées alta, média e baixa, é outro exemplo de variavel ordinal. De modo andlogo, as varidveis quantitativas podem sofrer uma classificagao dicotémi- ca: (a) varidveis quantitativas discretas, cujos possiveis valores formam um conjunto finito ou enumerdvel de ntimeros, e que resultam, freqiientemente, de uma contagem, como por exemplo ntimero de filhos (0, 1, 2, ...); (b) varidveis quantitativas continuas, cujos possiveis valores pertencem a um intervalo de ntimeros reais ¢ que resultam de uma mensuracio, como por exemplo estatura e peso (melhor seria dizer massa) de um individuo. A Figura 2.1 esquematiza as classificagdes feitas acima. Classificagdo de uma varidvel. _» Nominal nap Quolitativa <<< ee "~* Ordinal Variével oN _— Discreta oN Quantitativa << a “~*~ Continua Para cada tipo de varidvel existem técnicas apropriadas para resumir as informagées, donde a vantagem de usar uma tipologia de identificago como a da Figura 2.1. Entretanto, verificaremos que técnicas usadas num caso podem ser adaptadas para outros. Para finalizar, cabe uma observacdo sobre varidveis qualitativas. Em algumas situagdes podem-se atribuir valores numéricos as varias qualidades ou atributos (ou, ainda, classes) de uma varidvel qualitativa e depois proceder-se a andlise como se esta fosse quantitativa, desde que 0 procedimento seja passivel de interpretacio. Existe um tipo de varidvel qualitativa para a qual essa quantificagdo € muito dtil: a chamada varidvel dicotémica. Para essa varidvel s6 podem ocorrer duas realizagoes, usual- mente chamadas sucesso e fracasso. A varidvel estado civil no exemplo acima estaria nessa situacdo. Esse tipo de varidvel apareceré mais vezes nos proximos capitulos. a 2.2 DISTRIBUICOES DE FREQUENCIAS — 1] Tabela 2.1: Informacées sobre estado civil, grau de instrucdio, numero de filhos, salério (expresso como fragéio do salario minimo), idade (medida em anos e meses) e pi cia de 36 empregados da segdo de orcamentos da Companhia MB. Ne Estado. Grau de Ne de Salério Idade Regido de civil instrugao. filhos | (x sal. min.) [“Gnos | meses | Procedéncia 1 | solteiro | ensino fundamental | — 4,00 26 | 03 interior 2 | casado | ensino fundamental 1 4,56 32 10 capital 3. | casado | ensino fundamental | 2 5,25 36 | 05 copital 4 | solteiro ersino médio - 573 20 | 10 outra 5 | solteiro | ensino fundamental - 6,26 40 07 outra 6 | casado | ensino fundamental 0 6,66 28 00 interior 7 | solteiro | ensino fundamental | — 6,86 41 | 00 interior 8 | solteiro | ensino fundamental | — 739 43 | 04 capital 9 | casado | — ensino médio 1 7,59 34 | 10 capital 10 | solteiro ensino médio - 7,Ad 23 | 06 outra 11 | casado | ensino médio 2 812 33 | 06 interior 12 | solteiro | ensino fundamental | — 8,46 7s} copital 13 | solteiro | ensino médio - 874 37 | 05 outra 14 | casado | ensino fundamental | 3 8,95 44 | 02 outra 15 | casado ensino médio ° 9,13 30 | 05 interior 16 | solteiro ensino médio - 9,35 38 | 08 outra 17 | casado ensino médio 1 977 31 07 capital 18 | casado | ensino fundamental | 2 9,80 39 | 07 outra 19 | solteiro superior - 10,53 25 | 08 interior 20 | solteiro ensino médio - 10,76 37 04 interior 21 | casado ensino médio 1 11,06 30 | 09 outra 22 | solteiro ensino médio - 11,59 34 | 02 capital 23. | solteiro | ensino fundamental | — 12,00 41 | 00 outra 24 | casado superior 0 12,79 26 | o1 outra 25 | casado ensino médio 2 13,23 32 | 08 interior 26 | casado ensino médio 2 13,60 35 00 outra 27, | solteiro | ensino fundamental | — 13,85 46 | 07 outra 28 | casado ensino médio 0 14,69 29 | 08 interior 29. | casado ensino médio 5 14,71 40. | 06 interior 30 | casado ensino médio 2 15,99 35 10 capital 31 | solteiro superior - 16,22 31 | 05 outra 32 | casado | — ensino médio 1 16,61 36 | 04 interior 33 | casado superior 3 17,26 43 | 07 copital 34 | solteiro superior = 18,75 33 07 capital 35 | casado ensino médio 2 19,40 48 W capital 36 | casado superior 3 23,30 42 | 02 interior Fonte: Dados hipotétics. 2.2 Distribuigées de Freqiiéncias Quando se estuda uma varidvel, o maior interesse do pesquisador é conhecer 0 compor- tamento dessa varidvel, analisando a ocorréncia de suas possiveis realizagdes. Nesta seco 12 CAPITULO 2 — RESUMO DE DADOS a veremos uma maneira de se dispor um conjunto de realizac6es, para se ter uma idéia global sobre elas, ou seja, de sua distribuigao. i xcmplo 2.2. A Tabela 2.2 apresenta a distribuigdo de freqiiéncias da varidvel grau de instrugdo, usando os dados da Tabela 2.1. Tabela 2.2: Freqiéncias e porcentagens dos 36 emprega- dos da secéio de orgamentos da Companhia MB segundo o grau de Grau de Freqiiéncia | Propor¢éo | Porcentagem instrugao 100 f, Fundamental 33,33 Médio 50,00 Superior 16,67 Total 100,00 — Rent: Tbe 2. Observando os resultados da segunda coluna, vé-se que dos 36 empregados da compa- nhia, 12 tém o ensino fundamental, 18 0 ensino médio e 6 possuem curso superior. Uma medida bastante titi] na interpretagao de tabelas de freqiiéncias é a propor¢do de cada realizagao em relaco ao total. Assim, 6/36 = 0,1667 dos empregados da companhia MB (seco de orgamentos) tém instrugdo superior. Na ultima coluna da Tabela 2.2 sio apresentadas as porcentagens para cada realizagao da variével grau de instrugao. Usaremos a nota¢do n, para indicar a freqiiéncia (absoluta) de cada classe, ou categoria, da varidvel, e a notagao f, = n/n para indicar a proporedo (ou fregiiéncia relativa) de cada classe, sendo n © mimero total de observagdes. As proporgées sao muito titeis quando se quer comparar resultados de duas pesquisas distintas. Por exemplo, suponhamos que se queira comparar a varidvel grau de instrugaio para empregados da seg’io de orgamentos com a mesma varivel para todos os empregados da Companhia MB. Digamos que a empresa tenha 2.000 empre- gados e que a distribuicao de freqiiéncias seja a da Tabela 2.3. Tabela 2.3: Freqléncias e porcentagens dos 2.000 empregados da Companhia MB, segun- do o grau de instrugéo. | Freqiéncia | Porcentagem Grau de instrugao A 100 j Fundamental 650 32,50 1.020 51,00 330 16,50 2.000 100,00 Foe: Dados higoéis. a 2.2 DISTRIBUICOES DE FREQUENCIAS — 13 Nao podemos comparar diretamente as colunas das freqiiéncias das Tabelas 2.2 e 2.3, pois os totais de empregados sao diferentes nos dois casos. Mas as colunas das porcenta- gens sio compardveis, pois reduzimos as freqiiéncias a um mesmo total (no caso 100). A construgao de tabelas de freqiiéncias para varidveis continuas necessita de certo cuidado. Por exemplo, a construgao da tabela de freqiiéncias para a varidvel salério, usan- do o mesmo procedimento acima, nao resumira as 36 observagdes num grupo menor, pois nao existem observag6es iguais. A solugdo empregada é agrupar os dados por faixas de salario. Fxemplo 2.3. A Tabela 2.4 dé a distribuigdo de freqtiéncias dos salérios dos 36 empregados da segdo de orcamentos da Companhia MB por faixa de salarios. Tabela 2.4: Freqiiéncias e porcentagens dos 36 empre- agora decent de egarpenlorsi Toon nhia MB por faixa de salério. Close de scan | Freire] Porcetegem 4,00 8,00 | 10 (O78 800+ 1200 | 12 33,33 12,00 F 16,00 8 22,22 16,00 F 20,00 5 13,89 20,00 F 24,00 1 2,78 Total 36 100,00 Fonte: Tbela 2.1, Procedendo-se desse modo, ao resumir os dados referentes a uma varidvel continua, perde-se alguma informagio. Por exemplo, no sabemos quais sio 0s oito salérios da classe de 12 a 16, a nao ser que investiguemos a tabela original (Tabela 2.1). Sem perda de muita precisiio, poderiamos supor que todos 0s oito saldrios daquela classe fossem iguais ao ponto médio da referida classe, isto é, 14 (0 leitor pode verificar qual o erro cometido, comparan- do-os com os dados originais da Tabela 2.1). Voltaremos a este assunto no Capitulo 3. Note que estamos usando a notagao a F b para o intervalo de ntimeros contendo o extremo a mas nao contendo o extremo b. Podemos também usar a notagdo [a, b) para designar 0 mesmo intervalo a b. A escolha dos intervalos é arbitréria e a familiaridade do pesquisador com os dados é que Ihe indicaré quantas ¢ quais classes (intervals) devem ser usadas. Entretanto, deve- se observar que, com um pequeno ntimero de classes, perde-se informaco, e com um ndmero grande de classes, 0 objetivo de resumir os dados fica prejudicado. Estes dois extremos tém a ver, também, com o grau de suavidade da representagao grdfica dos da- dos, a ser tratada a seguir, baseada nestas tabelas. Normalmente, sugere-se 0 uso de 5 a 15 classes com a mesma amplitude. O caso de classes com amplitudes diferentes é tratado no problema 10. 4 CAPITULO 2— RESUMO DE DADOS a 1. Escalas de medidas. A seguir descrevernos outros possiveis critérios para classificar varié- veis, em fungdo da escala adotada. Observe a similaridade com a classificagéo apresen- tada anteriormente. Nossas observacées sdo resultados de medidas feitas sobre os elementos de uma populacao. Existem quatro escalas de medidas que podem ser consideradas: Escala nominal. Nesta escala somente podemos afirmar que uma medida é diferente ou néo de outra, e ela é usada para categorizar individuos de uma populagéo. Um exemplo 0 sexo de um individuo. Para cada categoria associamos um numeral diferente (letra ou ndmero). Por exemplo, no caso de sexo: podemos associar as letras M (masculino) e F (feminino) ou 1 (masculino) e 2 (feminino). Néo podemos realizar operacées aritméticas aqui e uma medida de posigéo apropriada é a moda. (As medidas citadas nesse proble- ma, como a média, mediana e moda, sao definidas no Capitulo 3.) Escala ordinal. Aqui podemos dizer que uma medida é diferente e maior do que outra. Temos a situagGo anterior, mas as categorias sGo ordenadas, e a ordem dos numerais associados ordena as categorias. Por exemplo, a classe socioeconémica de um individuo pode ser baixa (1 ou X), média (2 ou Y) e alta (3 ou Z). Transformacées que preservam a ordem nao alteram a estrutura de uma escala ordinal. No exemplo acima, podemos representar as categorias por 1, 10 e 100 ou A, L e Z. Medidas de posigao apropriadas séo a mediana e a moda. Escala intervalar. Nesta escala podemos afirmar que uma medida é igual ou diferente, maior e quanto maior do que outra. Podemos quantificar a diferenca entre as categorias da escala ordinal. Necessitamos de uma origem arbitraria e de uma unidade de medi- da. Por exemplo, considere a temperatura de um individuo, na escala Fahrenheit. A origem é 0° F ea unidade é 1° F. Transformagées que preservam a estrutura dessa escala sdo do tipo y = ax + b, a>0. Por exemplo, a transformagdo y = 5/9 (x — 32) transforma graus Fahrenheit em centigrados. Para essa escala, podemos fazer operacées aritméti- cas, e média, mediana e moda sGo medidas de posicéo apropriadas. Escala razao. Dadas duas medidas nessa escala, podemos dizer se sdo iguais, ou se uma é diferente, maior, quanto maior e quantas vezes a outra. A diferenca com a escala intervalar 6 que agora existe um zero absoluto. A altura de um individuo 6 um exemplo de medida nessa escala. Se ela for medida em centimetros (cm), 0. cm é a origem e 1 cm é a unidade de medida. Um individuo com 190 cm é duas vezes mais alto do que um individuo com 95 cm, e esta relagdo continua a valer se usarmos 1 m como unidade. Ou seja, a estrutura da escala razdo nao é alterada por transformacées da forma y= cx, c> 0. Por exemplo, y = x/100 transforma cm em m. As estatisticas apropriadas para a escala intervalar sao também apropriadas para a escala razdo. Para cada uma das varidveis abaixo, indique a escala usualmente adotada para resumir os dados em tabelas de freqéncias: (a) Salérios dos empregados de uma industria. (b) Opiniéo de consumidores sobre determinado produto. (c) Némero de respostas certas de alunos num teste com dez itens. (d) Temperatura didria da cidade de Manaus. (e) Porcentagem da receita de municipios aplicada em educagao. (f) Opinido dos empregados da Companhia MB sobre a realizagdo ou nao de cursos obrigatérios de treinamento. (g) QI de um individuo. a 2.3GRAFICos 15 2. Usando os dados da Tabela 2.1, construa a distribuicdo de freqiéncias das varidveis: (a) Estado civil. (b) Regido de procedéncia. (c) Nomero de filhos dos empregados casados. (d) Idade. 3. Para o Conjunto de Dados | (CD-Brasil), construa a distribuicao de freqiéncias para as varidveis populacdo urbana e densidade populacional. 2.3 Graficos Como ja salientamos no Capitulo 1, a representagdo gréfica da distribuigio de uma varidvel tem a vantagem de, rapida e concisamente, informar sobre sua variabilidade. Exis- tem varios graficos que podem ser utilizados e abordaremos aqui os mais simples para varidveis quantitativas. No Capitulo 3, voltaremos a tratar deste assunto, em conexdo com medidas associadas & distribuigéo de uma varidvel. 2.3.1 Graficos para Varidveis Qualitativas Existem varios tipos de gréficos para representar varidveis qualitativas. Varios so ver- sdes diferentes do mesmo principio, logo nos limitaremos a apresentar dois deles: grAficos em barras e de composigao em setores (“pizza” ou retangulos). {_acmplo 2.4. Tomemos como ilustragdo a varidvel ¥: grau de instrugdo, exemplificada nas Tabelas 2.2 e 2.3. O grafico em barras consiste em construir reténgulos ou barras, em que uma das dimensdes é proporcional 2 magnitude a ser representada (n, ou f.), sendo a outra arbitrdria, porém igual para todas as barras. Essas barras so dispostas paralelamente umas As outras, horizontal ou verticalmente. Na Figura 2.2 temos o grafico em barras (verticais) para a varidvel Y. Gréfico em barras para a varidvel ¥: grau de instrugdo. 20 8 8 10 : Fundamental f ya 16 CAPITULO 2 — RESUMO DE DADOS a Jé 0 grafico de composigaio em setores, sendo em forma de “pizza” o mais conhecido, destina-se a representar a compo: , usualmente em porcentagem, de partes de um todo. Consiste num circulo de raio arbitrério, representando o todo, dividido em setores, que correspondem as partes de maneira proporcional. A Figura 2.3 mostra esse tipo de grafico paraa varivel Y. Muitas vezes é usado um retngulo no lugar do circulo, para indicar 0 todo. Figure 2.3: Gréfico em setores para a varidvel ¥: grau de instrugao. 1 (12; 33,3%) 2 (18; 50,0%) 3(6; 16,7%) 1 = Fundomental, 2 = Médio e 3 = Superior 2.3.2 Graficos para Varidveis Quantitativas Para varidveis quantitativas podemos considerar uma variedade maior de representa- des grificas. Exemplo 2.5. Considere a distribuigdo da varidvel Z, nimero de filhos dos empregados casados da se¢iio de orgamentos da Companhia MB (Tabela 2.1). Na Tabela 2.5 temos as freqiiéncias e porcentagens. Além dos graficos usados para as varidveis qualitativas, como ilustrado na Figura 2.4, podemos considerar um grafico chamado grdfico de dispersao unidimensional, como o da Figura 2.5 (a), em que os valores sao representados por pontos ao longo da reta (provida de uma escala). Valores repetidos so acompanhados por um ntimero que indica as repeticdes. Outra possibilidade é considerar um grafico em que os valores repetidos so “empilhados”, um em cima do outro, como na Figura 2.5 (b). Pode-se também apresentar o ponto mais alto da pilha, como aparece na Figura 2.5 (c). Figure: 2.4: Gréfico em barras para a variével Z: numero de filhos. a 2.3 GRAFICOS 17 . 7 . . 6 oe ste eee 4 oe ee | |s . oe ee 2 3 cdl oe ee 1 . 0123 4 5 oi 2 3 4 52 fol i 23 4 52 a (b) : do Para varidveis quantitativas continuas, necessita-se de alguma adapta¢do, como no exem- plo a seguir. Tabela 2.: ‘requéncias e porcentagens dos empregados da secdo de orca- mentos da Companhia MB, se- gundo o némero de filhos. Ne de filhos | Frequéncia | Porcentagem si n 100/ 0 4 20 1 5 25 2 7 35 a 3 15 5 1 5 Total 20 100 1 20 | 100 Fonte: Tabelo 2.1. Queremos representar graficamente a distribui¢do da varidvel S, saldrio dos empregados da seco de orcamentos da Companhia MB. A Tabela 2.4 fornece a dis- uigdo de freqiiéncias de S. Para fazer uma representago similar as apresentadas ante- riormente, devemos usar 0 artificio de aproximar a varidvel continua por uma varidvel discreta, sem perder muita informagio. Isto pode ser feito supondo-se que todos os salé- rios em determinada classe sao iguais ao ponto médio desta classe. Assim, os dez salérios pertencentes a primeira classe (de quatro a oito saldrios) serao admitidos iguais a 6,00, os 12 salarios da segunda classe (ito a doze salérios) serao admitidos iguais a 10,00 e assim por diante. Entdo, podemos reescrever a Tabela 2.4 introduzindo os pontos médios das classes. Estes pontos estao na segunda coluna da Tabela 2.6. 18 CAPITULO 2 — RESUMO DE DADOS a Com a tabela assim construida podemos representar os pares (s,, n,) ou (s,,f,), por um grafico em barras, setores ou de dispersio unidimensional. Veja a Figura 2.6. Figura 2.6: Gréfico em barras para a variével 5: salérios. 6 10 (14 18 22 Salério O artificio usado acima para representar uma varidvel continua faz com que se perca muito das informagées nela contidas. Uma alternativa a ser usada nestes casos é 0 grafico conhecido como histograma. Tabela 2.6: Distribuigdo de freqiéncias da variavel S, saldrio dos empregados da segtio de orsamentos da Companhia MB. Classes de Ponto médio | Freqiiéncia | Porcentagem salarios 5 n, 100 f 4,00 8,00 6,00 10 27,78 8,00 F 12,00 10,00 12 33,33 12,00 F 16,00 14,00 8 22,22 16,00 F 20,00 18,00 5 13,89 20,00 + 24,00 22,00 L 2.78 Total _ 36 100,00 Fonte: Tabelo 2.4. !xcmplo 2.7. Usando ainda a varidvel S do exemplo 2.4, apresentamos na Figura 2.7 0 histograma de sua distribuigao. histograma é um grafico de barras contiguas, com as bases proporcionais aos inter- valos das classes e a area de cada retangulo proporcional a respectiva freqiiéncia. Pode-se usar tanto a freqiiéncia absoluta, n,, como a relativa, f. Indiquemos a amplitude do i-ésimo intervalo por A,, Para que a érea do retingulo respectivo seja proporcional a f,, a sua altura deve ser proporcional a f/A, (ou an/A,), que € chamada densidade de freqiiéncia da i-ésima classe. Quanto mais dados tivermos em cada classe, mais alto deve ser o retangulo. Com essa convencio, a Area total do histograma ser igual a um. a 2.3GRAFICOS 19 Quando os intervalos das classes forem todos iguais a A, a densidade de freqiiéncia da i-ésima classe passa a ser f/A (ou n,/A). E claro que marcar no eixo das ordenadas os valores ny f, n/A ou f/A leva a obter histogramas com a mesma forma; somente as areas é que serio diferentes. O problema 10 traz mais informagoes sobre a construgdo de histogramas. jure 2.7: Histograma da varidvel $: salarios. 3% tp 400 800 12,00 16,00 20,00 24,00 Salario Para facilitar o entendimento, foi colocada acima de cada setor (retangulo) a respectiva porcentagem das observagdes (arredondada). Assim, por meio da figura, podemos dizer que 61% dos empregados tém saldrio inferior a 12 salérios minimos, ou 17% possuem salério superior a 16 saldrios minimos. Do mesmo modo que usamos um artificio para representar uma varidvel continua como uma varidvel discreta, podemos usar um artificio para construir um histograma para varié- veis discretas. A Figura 2.8 é um exemplo de como ficaria o histograma da varidvel Z, numero de filhos dos empregados casados da segao de orgamentos da Companhia MB, segundo os dados da Tabela 2.5. O grafico é suficientemente auto-explicativo, de modo que omitimos detalhes sobre sua construgao. Histograma da varidvel Z: nimero de filhos. “Denidadedes — freinds a8 | 25% 20% 3 4 s N° de filhos: 1) CAPITULO 2 — RESUMO DE DADOS a 2.4 Ramo-e-Folhas Tanto o histograma como os graficos em barras dao uma idéia da forma da distribuigdo da varidvel sob consideragao. Veremos, no Capitulo 3, outras caracteristicas da distribuigao de uma varidvel, como medidas de posigo e dispersiio. Mas a forma da distribuigdo ¢ tio importante quanto estas medidas. Por exemplo, saber que a renda per capita de um pais é de tantos déla- res pode ser um dado interessante, mas saber como esta renda se distribui é mais importante. Um procedimento alternativo para resumir um conjunto de valores, com 0 objetivo de se obter uma idéia da forma de sua distribuigao, € 0 ramo-e-folhas. Uma vantagem deste diagrama sobre 0 histograma é que no perdemos (ou perdemos pouca) informagao sobre os dados em si. Na Figura 2.9 construimos o ramo-e-folhas dos salérios de 36 empregados da Companhia MB (Tabela 2.1). Nao existe uma regra fixa para construir o ramo-e-folhas, mas. a idéia basica é dividir cada observacgao em duas partes: a primeira (0 ramo) é colocada 4 esquerda de uma linha vertical, a segunda (a folha) é colocada 4 direita. Assim, para os saldrios 4,00 e 4,56, 0 4 € 0 ramo e 00 e 56 sao as folhas. Um ramo com muitas folhas significa maior incidéncia daquele ramo (realizagao). Ramo-e-folhas para a varidvel S: saldrios. 4 | 00 56 5 | 25 73 6 26 66 86 | 7 | 39 44 59 | | 8 12 46 74 95 | | 9 | 13 35 77 80 | | 10 | 53 76 | nh} 06 59 | 12 | 00 79 | 13 | 23 60 85 14 69 71 | 15 99 16 22 61 7 26 18 75 19 40 20 2 22 23 | 30 Algumas informagGes que se obtém deste ramo-e-folhas sao: (a) Hé um destaque grande para o valor 23,30. (b) Os demais valores esto razoavelmente concentrados entre 4,00 e 19,40. (c) Um valor mais ou menos tépico para este conjunto de dados poderia ser, por exemplo, 10,00. (d) Ha uma leve assimetria em diregdo aos valores grandes; a suposigiio de que estes dados possam ser considerados como amostra de uma populagao com distribuigdo simétrica,em forma de sino (a chamada distribuigdo normal), pode ser questionada. a 2.4 RAMO-E-FOLHAS 2 A escolha do ntimero de linhas do ramo-e-folhas é equivalente 4 escolha do nimero de classes de um histograma. Um numero pequeno de linhas (ou de classes) enfatiza a parte M da relagdo (1.1), enquanto um nimero grande de linhas (ou de classes) enfatiza a parte R. Os dados abaixo referem-se 4 dureza de 30 pegas de aluminio (Hoaglin, Mosteller e Tukey, 1983, pag. 13). 53,0 70.2 84.3 69.5) 77.8 87S SBA 8S 67.3 SAL WS Ta 94 SIL 744 557 635 858 53,5643 82.7 785 55.7 6%1 = 72,3 595 553 73,0 524 50,7 Na Figura 2.10 temos o ramo-e-folhas correspondente. Aqui, optamos por truncar cada valor, omitindo os décimos, de modo que 69,1 69,5, por exemplo, tornam-se 69 ¢ 69 ¢ aparecem como 9 na linha que corresponde ao ramo 6. Ramo-e-folhas para os dados de du- reza de pegas de aluminio. 501233345559] 6 34799 | 7/00123478 | a|22457 | ¥ 5 Este é um exemplo em que temos muitas folhas em cada ramo. Uma maneira alterna- tiva € duplicar os ramos. Criamos os ramos 5* e 5*, 6* e 6° etc., onde colocamos folhas de a4 na linha * e folhas de 5 a 9 na linha *. Obtemos o ramo-e-folhas da Figura 2.11. Um ramo-e-folhas pode ser “adornado” com outras informagdes, como o ntimero de observagdes em cada ramo. Para outros exemplos, veja o problema 19. Ramo-e-folhas para os le dureza, com ramos divididos. fs [o123334 sx | 5559 oe | 34 oe 78 # 7 oo123 4 7] 78 e | 224 e | 57 n CAP{TULO 2 — RESUMO DE DADOS Son aaa 4. Contou-se 0 némero de erros de impressdo da primeira pagina de um jornal durante 50 dias, obtendo-se os resultados abaixo: 8 ou 8 6 10 14 10 16 10 7 10 14 14 8 14 (a) Represente os dados graficamente. (b) Faga um histograma e um ramo-e-folhas. 5, Usando os resultados do problema 2 e da Tabela 2.3: 12 19 12 5 8 W 7 n 9 12 (a) construa um histograma para a varidvel idade; e \| 6. As taxas médias geométricos de incremento anual (por 100 hebitantes) dos 30 maiores ios do Brasil esto dadas abaixo. 3,67 1,28 3,96 2,93 777 2,78 decisio? Justifique. (a) Construa um histograma. (b) Construa um gréfico de dispersdo unidimensional. Superior 1,82 814 6,54 282 4,65 5,54 | Instrugdio Fundamental Médio 3,73 2,43 5,84 8,45 1,88 0,90 4,10 417 7,35 5,28 212 5,09 14 5 ‘6 12 22 j (b) proponha uma representagdo gréfica para a varidvel grau de instrugéo. 4,30 5,36 3,63 5,41 4,26 4,07 7. Vocé foi convidado para chefiar a segéo de orcamentos ou a secéo técnica da Compa- nhia MB. Apés analisar o tipo de servigo que cada secdo executa, vocé ficou indeciso e resolveu tomar a decisdo baseado em dados fornecidos para os duas segdes. O depar- tamento pessoal forneceu as dados da Tabela 2.1 para os funcionérios da segao de orgamentos, ao passo que para a secGo técnica os dados vieram agrupados segundo as tabelas abaixo, que apresentam as freqiéncias dos 50 empregados dessa segdo, segun- do as varidveis grau de instrugdo e saldrio. Baseado nesses dados, qual seria a sua a 2.5 EXEMPLOS COMPUTACIONAIS 23 _ Classe de Solérios Freqiéncia 7,50 + 10,50 14 10,50 + 13,50 7 13,50 + 16,50 n 16,50 + 19,50 8 a Total ar) 8. Construa um histograma, um ramo-e-folhas e um grafico de dispersdo unidimensional para o conjunto de dados 2 (CD-Municipios). 2.5 Exemplos Computacionais Nesta seco vamos analisar dois dos conjuntos de dados apresentados no final do livro, utilizando técnicas vistas neste capitulo e programas computacionais. Kxem \), Considere 0 conjunto de notas em Estatistica de 100 alunos de um curso de Economia (conjunto de dados 3, CD-Notas). O histograma dos dados est na Figura 2.12, que mostra que a distribuig&o dos dados é razoavelmente simétrica. O grafico de dispersio unidimensional e 0 ramo-e-folhas correspondentes estao nas Figuras 2.13 ¢ 2.14, respecti- vamente, e ambos contém informagio semelhante a dada pelo histograma. 1.2. Histograma para o CD-Notas. SPlus. “4 CAPITULO 2— RESUMO DE DADOS a Gréfico de dispersio unidimensional para o CD-Notas. Minitab. Ramo-e-folhas para o CD-Notas. Minitab. 000055555 000000555555 00000000055555555555 000000000000055555555555 0000005555555555 000000555 5 | 555 | | 005 |Seovnouaon = 1 O conjunto de dados 4 (CD-Poluigao) traz dados sobre a poluigao na cidade de Sao Paulo. Tomemos os dados de temperatura, de 1° de janeiro a 30 de abril de 1991 (120 dados), Essas observagées constituem o que se chama série temporal, ou seja, os da- dos sao observados em instantes ordenados do tempo. Espera-se que exista relagdo entre as observagGes em instantes de tempo diferentes, o que nao acontece com os dados do exemplo anterior: a nota de um aluno, em principio, é independente da nota de outro aluno qualquer. O grifico dessa série temporal est4 na Figura 2.15. Observa-se uma variagao da temperatura no decorrer do tempo, entre 12 e 22°C. Dados de temperatura de Sao Paulo. SPlus. 6 2% 64 «©6681 a 2.5 EXEMPLOS COMPUTACIONAIS 5 O histograma e o grafico de dispersao unidimensional estao nas Figuras 2.16 e 2.17, respectivamente, mostrando que a distribuigdo dos dados nao é simétrica. O ramo. da Figura 2.18 ilustra o mesmo comportamento. ur Histograma dos dados de temperatura de Séo Paulo. SPlus. 30 25 20 12 14 16 18 2 Temperatura Gréfico de disperséo unidimencional para os dados de temperatura de Sao Paulo. Mir . Ramo-e-folhas para os dados de temperatura de ‘SGo Paulo. Minitab. 12 3 13 128 14 0012588899 15 112222225558899 16 000000013344678999 7 000000001236688888999 18 (00000000001 1 11233345566889999999 19 0000000001 2289 20 00011 21 oO -folhas Em cada figura esta indicado 0 pacote computacional que foi utilizado, com as devidas adaptac6es. 6 CAPITULO 2— RESUMO DE DADOS a 2.6 Problemas e Complementos 9. MB Industria e Comércio, desejando melhorar o nivel de seus funcionérios em cargos de chefia, montou um curso experimental e indicou 25 funciondrios para a primeira turma. Os dados referentes & secGo a que pertencem, notas e graus obtidos no curso estdo na tabela a seguir. Como havia dividas quanto 4 adocao de um Unico critério de avaliagéo, cada instrutor adotou seu préprio sistema de aferigao. Usando dados daquela tabela, responda as questoes: (a) Apés observar atentamente cada varidvel, e com 0 intuito de resumi-las, como vocé identificaria (qualitativa ordinal ou nominal e quantitativa discreta ou continua) cada uma das 9 varidveis listadas? (b) Compare e indique as diferencas existentes entre as distribuicées das variéveis Direito, Politica e Estatistica. (c) Construa o histograma para as notas da varidvel Redacao. (d) Construa a distribuigéo de freqiéncias da varidvel Metodologia e faga um gréfico para indicar essa distribuicéo. (e) Sorteado ao acaso um dos 25 funcionarios, qual a probabilidade de que ele tenha obtido grau A em Metodologia? () Se, em vez de um, sortedssemos dois, a probabilidade de que ambos tivessem tido A em Metodologia é maior ou menor do que a resposta dada em (e)? (g) Como € 0 aproveitamento dos funcionarios na disciplina Estatistica, segundo a segao a que eles pertencem? Func, se Administr. | Direito| Redagdo | Estatist [ina Metodologia] Politica | Economia r[ Pp 80 | 90 | 86 90] B A 90 | 85 2|P 80 | 90 | 70 90 | 8B c 65 | 80 3) P 80 | 90 | 80 80] D 8 90 | 3,5 4] P 60 | 90 | 86 | 80] D c 60 | 35 5] P 80 | 90 | 80 90) A A 65 | 90 6] P 80 | 90 | 85 | 100) B A 65 | 95 7\ Pe | 80 | 90 | 82 | 80] D c 90} 70 alt 100 | 90 | 75 | 80} B c 60 | 85 9} 1 80 | 90) 94 90| B 8 100 | 80 to} T 100 | 90) 79 go} B c 90 | 7.5 nf tT 80 | 90) 86 | 100] c 8 100 | 85 12} tT | 80 | 90 | 83 707 D 8 65 | 80 13| T | 60 | 90} 70 70\) B c 60 | 85 4] oT 100 | 90 | 86 9,0-) A B 100 | 7,5 1s |v | 80 | 90 | 86 90) C B | 100 | 70 16} Vv} 80 | 90] 95 70(| A A 90) 75 7 |v 80 | 90 | 63 | go\] D | c | 100] 75 18 | Vv 60 | 90 | 76 90) Cc | C 60 | 85 9 | Vv 60 | 90 | 68 4of od | C¢ 60 | 95 * 2\ Vv 60 | 90 | 7.5 70) C |} B 60 | 85 aj Vv 80 | 90 | 77 70) D B 65 | 80 2} v | 60 | 90 | 87 sol c] a 60 | 90 23 | v | 80 | 90} 73 | 100) c c 90) 70 2| Vv | 80 | 90] B85 90) A A 65 | 90 25 |v} 80 |90| 70 | 90| 8B A 90 | a5 (*) (P = departamento pessoal, T = segdo técnica e V = segdo de vendas) a 2.6 PROBLEMAS E COMPLEMENTOS 27 10. Intervalos de classes desiguais. £ muito comum o uso de classes com tamanhos desi- guais no agrupamento dos dados em tabelas de freqiéncias. Nestes casos devem-se tomar alguns cuidados especiais quanto 6 andlise e construcéo do histogramo. A tabela abaixo fornece a distribuicéo de 250 empresas classificadas segundo o ndmero de empregados. Uma anilise superficial pode levar 4 concluséo de que a concentragéo vem aumentando até atingir um maximo na classe 40 F 60, voltando a diminuir depois, mas ndo tao acentuadamente. Porém, um estudo mais detalhado revela que a amplitude da classe 40 F 60 é 0 dobro da amplitude das classes anterio- res. Assim, espera-se que mais elementos caiam nessa classe, mesmo que a concen- tragdo seja levemente inferior. Entéo, um primeiro cuidado é construir a coluna que indica as amplitudes A, de cada classe. Estes valores estao representados na terceira coluna da tabela. Nomero de Freqiéncia | Amplitude Densidade | Proporgdo | Densidade empregados n, 4, nla, f fh, OF 10 5 10 0,50 0,02 0,0020 10h 20 20 10 2,00 0,08 0,0080 20+ 30 35 10 3,50 0,14 0,0140 30F 40 40 10 4,00 0,16 0,0160 40+ 60 50 20 2,50 0,20 0,0100 60F 80 30 20 1,50 0,12 0,0060 80+ 100 2 | 2 1,00 0,08 0,0040 100+ 140 20 | (40 0,50 0,08 0,0020 140 180 15 40 0,38 0,06 0,0015, 180+ 260 15 80 019 0,06 0,0008 Total 250 = = 1,00 = Um segundo passo é a construgéo da coluna das densidades de freqUéncias em cada classe, que ¢ obtida dividindo as freqiiéncias n, pelas amplitudes A,, ov seja, 0 medida que indica qual a concentragéo por unidade da varidvel. Assim, observando-se ‘os némeros da quarta coluna, vé-se que a classe de maior concentragGo passa a ser a 30 F 40, enquanto a Ultima é a de menor concentragéo. Para compreender a distri buicdo, estes dados séo muito mais informativos do que as freqiiéncias absolutas sim- plesmente. De modo andlogo, pode-se construir a densidade da proporcdo (ou porcentagem) por unidade da varidvel (verifique o construgdo através da S* e da 6* colunas). A inter- pretacdo para f/A, é muito semelhante Gquela dada para n/A,. Para a construgéo do histograma, basta lembrar que a drea total deve ser igual a | (ov 100%), 0 que sugere usar no eixo das ordenadas os valores de f/A,. © histograma para estes dados esta na Figura 2.19. 2B CAPITULO 2— RESUMO DE DADOS a Histograma dos dados do problema 10. 20% &% 8% 10203040 60 80 100 140 180 260 Node empregados 11. Dispomos de uma relacdo de 200 aluguéis de iméveis urbanos e uma relacéo de 100 oluguéis rurais. (a) Construa os histogramas das duas distribuicées. (b) Com base nos histogramas, discuta e compare as duas distribuicées. | Classes de aluguéis (codificados) [Zona urbana | Zona ru j 2h 3 10 | 30 | 3h 5 40 50 | 5K 7 | 80 15 | 7 10 50 5 | tr 20 oO | ee Total | 200 | 100 12. Histograma alisado. Na Tabela 2.4 tem-se a distribuicéo de freqéncias dos saldrios de | 36 funcionérios, agrupados em classes de amplitude 4. Na Figura 2.7 tem-se o respectivo | histograma. Reagrupando-se os dados em classes de amplitude 2, obter-se-ia a seguinte tabela de freqiiéncias e o correspondente histograma 2.20 (a). ¥ Freqiéncias Classe de salarios aa 400 6,00 6,00 8,00 800+ 10,00 10,00 12,00 12,00 14,00 14,00 16,00 16,00 18,00 18,00+- 20,00 20,00 22,00 | 22,00 24,00 | Total l __ 36 2.6 PROBLEMAS E COMPLEMENTOS 29 Histograma para a varidvel S: saldrio, A = 2. LA, 8 10 12 14 16 18 20 22 2 Salérios Se houvesse um nimero suficientemente grande de observacées, poder-se-ia ir diminuindo os intervalos de classe, e 0 histograma iria ficando cada vez menos irregu- lar, até atingir um caso limite com uma curva bem mais suave. Por exemplo, o compor- tamento da distribuicéo dos salarios poderia ter a representacdo da Figura 2.20 (b). Esse histograma alisado é muito Util para ilustrar rapidamente qual o tipo de compor- tamento que se espera para a distribuicao de uma dada variével. No capitulo referente a varidveis aleatérias continuas, voltaremos a estudar este histograma sob um ponto de vista mais matemdtico. A interpretacao desse grafico é a mesma do histograma. Assim, nas regiées onde curva é mais alta, significa uma maior densidade de observacées. No exemplo aci- ma, conforme se aumenta o salério, observa-se que a densidade de freqiiéncia vai diminuindo Histograma alisado para a varidvel S: salério. 1S CAPITULO 2— RESUMO DE DADOS a Esboce o histograma alisado para cada uma das situagées descritas abaixo: (a) Distribuigao dos saldrios registrados em carteira de trabalho de moradores da cidade de Sdo Paulo. (b) Distribuigéo das idades de alunos de uma Faculdade de Economia e Admi- nistragéo. (c) Distribuigdo das idades dos alunos de uma classe da Faculdade do item anterior. Compare as duas distribuigées. (d) Distribuigao do némero de dbitos segundo a faixa etaria (e) Distribuicéo do numero de divércios segundo o nimero de anos de casado. (f) Distribuigao do numero formado pelos dois ultimos algarismos do primeiro prémio da Loteria Federal, durante os dez Ultimos anos. . Faga no mesmo grdfico um esboco das trés distribuigées descritas abaixo: (a) Distribuigéo das alturas dos brasileiros adultos. (b) Distribuicgao das alturas dos suecos adultos. (c) Distribuigao das alturas dos japoneses adultos. Freqiéncias acumuladas. Uma outra medida muito usada para descrever dados quan- fitativos € a freqééncia acumulada, que indica quantos elementos, ou que porcenta- gem deles, estéo abaixo de um certo valor. Na tabela a seguir, a terceira e a quinta colunas indicam respectivamente a freqéncia absoluta acumulada e a proporgao (por- centagem) acumulada. Assim, observando a tabela podemos afirmar que 27.78% dos individuos ganham até cito salérios minimos; 61,11% ganham até 12 saldrios minimos; 83,33% ganham até 16 salérios minimos; 97,22% ganham até 20 salérios minimos e 100% dos funcionérios ganham até 24,00 saldrios. ; Frequ Porcentagem loss de Freqléncia |e sind Pesan ccomuleda salérios 4 i d N, 100 F 400r 800 | 10 10 27,78 27,78 8,00 F 12,00 12 2 33.33 6uil 12,00 F 16,00 8 30 222 83,33 16,00 F 20,00 5 35 13,89 97.22 20,00 + 24,00 1 36 278 100,00 Total 36 = 100,00 i A Figura 2.21 é a ilustragéo gréfica da porcentagem acumulada. a 2.6 PROBLEMAS E COMPLEMENTOS 3], Figure 2 21+ Porcentagens acumuladas para o problema 15. % Este grafico pode ser usado para fornecer informacées adicionais. Por exemplo, para saber qual o salério s tal que 50% dos funciondrios ganhem menos do que s, basta procurar 0 ponto (s, 50) na curva. Observando as linhas pontilhadas no gréfico, verifi- camos que a solucéo é um pouco mais do que 10 salérios minimos. 16. Usando os dados da Tabela 2.1: (a) Construa a distribuigao de freqiéncias para a varidvel idade. (b) Faca 0 gréfico da porcentagem acumulada (c) Usando 0 grdfico anterior, ache os valores de i correspondentes aos pontos (i, 25%), (i, 50%) @ (i, 75%). 17. Freqiiéncias acumuladas (continuacéo). Para um tratamento estatistico mais rigoroso das varidveis quantitativas, costuma-se usar uma definicGo mais precisa para a distribuigao das freqéncias acumuladas. Em capitulos posteriores sera vista a sua utilizagao. Definicco. Dadas n observacées de uma varidvel quantitativa e um némero x real qualquer, indicar-se-6 por N(x) 0 ntimero de observagées menores ou iguais a x, e chamar-se-6 de fungdo de distribuigéo empirica (f.d.e.) a fungdo K(x) ou E(x) N(x) 7 E(x) = B(x 1 ple 2.12. Para a varidvel S = saldrio dos 36 funciondrios listados na Tabela 2.1, é facil verificar que: 0, ses < 4,00 136, se4,00<5 < 4,56 F,O)=) 236, se4,56< 5 < 5,25 L, se s = 23,30 O grafico esté na Figura 2.22. Aqueles néo familiarizados com a representagéo gréfica de fungées, recomenda-se a leitura de Morettin, Hazzan & Bussab (1999). 32 CAPITULO 2— RESUMO DE DADOS Funcdo de distribuicdio empirica para o exemplo 2.12. acumulada Freqléncia 36/36 32/36 | 28/36 a 20/36 16/36 | 12/36 8/36 4/36 4 8 10 12 14 16 18 20 22 24 26 28 30 Salcrios Esta definigéo também vale para varidveis quantitativas discretas. Assim, para a varidvel nmero de filhos resumida na Tabela 2.5, tem-se a seguinte f.d.e.: 0,00, sex <0 0,20, seO5 cvjo grafico € o da Figura 2.23. Fungo de distribuigéio empirica para o exemplo 2.13. | “I | | 10 | . ee | | 0804 —_— | ‘ | 040 om} * 0720 ¢ | | eS 7 | a 2.6 PROBLEMAS E COMPLEMENTOS 33 18. Construir a f.d.e. para a varidvel idade referente aos dados da Tabela 2.1 19. Ramo-e-folhas (continuacao). Os dados abaixo referem-se & producao, em toneladas, de dado produto, para 20 companhias quimicas (numeradas de | a 20). (1, 50), (2, 280}, (3, 560), (4, 170), (5, 180), (6, 500), (7, 250}, (8, 200), (9, 1.050), (10, 240), (11, 180), (12, 1,000), (13, 1.100), (14, 120), (15, 4.200), (16, 5.100), (17, 480), (18, 90), (19, 870), (20, 360). Vemos que os valores estendem-se de 50 a 5.100 e, usando uma representacéo semelhante 4 da Figura 2.9, teriamos um grande nimero de linhas. A Figura 2.24 (a) mostra uma outra forma de ramo-e-folhas, com ramos divididos. A diviséo ocorre no ramo, cada vez que se muda por um fator de 10. Uma economia de 4 linhas poderia ser obtida, representando-se os valores 50 e 90 da Figura 2.24 (a) num ramo denominado 0. Obtemos a Figura 2.24 (b). Os pacotes computacionais trazem algumas opcées adicionais ao construir um ramo-e-folhas. Por exemplo, podemos ter a contagem do niimero de folhas em cada ramo, como mostra a Figura 2.25 (a). Aqui, temos o ramo-e-folhas dos saldrios dos empregados da Tabela 2.1. Na Figura 2.25 (b) acrescentamos as contagens de folhas a partir de cada extremo até o ramo que contém a mediana. Esse tipo de opgéo é chamado profundidade (depth) nos pacotes. Ramo-e-folhas das produgées de companhias quimicas. 5 } 0 6 0 50,90 7 1 70, 80, 80, 20 8 | 2 | 80, 50, 00, 40 9 | 0) 3 60 11 P —-- 4 80 1 | 70, 80, 80, 20 5 60, 00 | 2 | 80, 50, 00, 40 6 | 3 | 60 7 4 ||| 80 8 | 70 | 5 | | | 60,00 9 | | 6 | | | 7 | 1 | | 050, 000, 100 | 8 | 70 2 | | | 9 3 || | | a1} I ——— 4 ||| 200 | 1 050, 000, 100 5 100 ba) | ‘| 4 | 200 511 100 (a) (b) 4 2.25, Ramo-e-folhas com: (a) freqiéncias em cada ramo, (b) profundidade. CAPITULO 2 — RESUMO DE DADOS 2 4| 00 2 5| 25 3 6| 2 3 7/39 4 8| 12 4 9} 13 2 10} 53 2 11} 06 2 12} 00 3 13 | 23 2 14) 6 1 15) 99 2 16} 22 1 17 | 26 1 18 | 75 1 19| 40 0 20} o 21 0 2 1 23! 30 {a} 20. Construa um ramo-e-folhas para a variével CO (monéxido de carbone) do conjunto 56 73 66 44 46 35 76 59 79 60 7 61 85 de dados 4 (CD-Poluicéo) 95 14 (b) 30 56 73 66 44 46 35 76 59 79 60 7 61 86 59 74 7 85 95 Capitulo 3 Medidas-Resumo 3.1 Medidas de Posicao Vimos que o resumo de dados por meio de tabelas de freqiiéncias e ramo-e-folhas forne- ce muito mais informagdes sobre 0 comportamento de uma varidvel do que a propria tabela original de dados. Muitas vezes, queremos resumir ainda mais estes dados, apresentando um ou alguns valores que sejam representativos da série toda. Quando usamos um s6 valor, obtemos uma reducio drastica dos dados. Usualmente, emprega-se uma das seguintes me- didas de posigao (ou localizagao) central: média, mediana ou moda. ‘A moda € definida como a realizagao mais fregiiente do conjunto de valores observados. Por exemplo, considere a varidvel Z, mimero de filhos de cada funcionario casado, resumida na Tabela 2.5 do Capitulo 2. Vemos que a moda é 2, correspondente a realizagdio com maior freqiiéncia, 7. Em alguns casos, pode haver mais de uma moda, ou seja, a distribuigéio dos valores pode ser bimodal, trimodal etc. A mediana € a realizagao que ocupa a posigo central da série de observacées, quando esto ordenadas em ordem crescente. Assim, se as cinco observagGes de uma varidvel forem 3, 4, 7, 8 e 8, a mediana é o valor 7, correspondendo 4 terceira observagad0. Quando 0 numero de observagGes for par, usa-se como mediana a média aritmética das duas observa- ges centrais. Acrescentando-se 0 valor 9 a série acima, a mediana seré (7 + 8)/2 = 7,5. Finalmente, a média aritmética, conceito familiar ao leitor, é a soma das observacgoes divi- dida pelo ntimero delas. Assim, a média aritmética de 3, 4, 7, 8e 8 6 (3 +4+7+8 + 8)/5 =6. Exemplo Usando os dados da Tabela 2.5, j4 encontramos que a moda da varidvel Zé 2. Para a mediana, constatamos que esta também é 2, média aritmética entre a décima e a décima primeira observagées. Finalmente, a média aritmética sera 4x0+5x1+7x24+3x345xI1 _ 33 0 30> 1,65. 36 CAPITULO 3 — MEDIDAS-RESUMO | Neste exemplo, as trés medidas tém valores préximos e qualquer uma delas pode ser usada como representativa da série toda. A média aritmética é, talvez, a medida mais usada. Contudo, ela pode conduzir a erros de interpretagao. Em muitas situag6es, a mediana é uma medida mais adequada. Voltaremos a este assunto mais adiante. Vamos formalizar os conceitos introduzidos acima. Se x,, .... x, S40 0s n valores (dis- tintos ou nao) da varidvel X, a média aritmética, ou simplesmente média, de X pode ser escrita GAL) Agora, se tivermos n observagdes da varidvel X, das quais n, sio iguais a.x,, n, sdo iguais ax, etc., n, iguais a x,, entéo a média de X pode ser escrita MYX, + NX, + _ n G.2) Se f = n, /n representar a freqiiéncia relativa da observacao x, entdo (3.2) também pode ser escrita (3.3) Consideremos, agora, as observagdes ordenadas em ordem crescente. Vamos denotar a menor observa¢ao por x,,,, a segunda por x,,,, € assim por diante, obtendo-se yy SX yy So Sy SF, G4) fay = Fay So = Xt = Keay Por exemplo, se x, = 3, x,= Que X= —2 Xa) = 1s Hq) = 3, yy As observagdes ordenadas como em (3.4) sao chamadas estatisticas de ordem. Com esta notacdo, a mediana da varidvel X pode ser definida como [ Ses, sen impar: md(X) =4 Xin + Xn, (3.5) “sen par A determinagao das medidas de posigao para uma varidvel quantitativa con- tinua, através de sua distribuigdo de freqiiéncias, exige aproximacées, pois perdemos a in- formagao dos valores das observagGes. Consideremos a varidvel S: salério dos 36 funciond- rios da Companhia MB, agrupados em classes de salérios, conforme a Tabela 2.6. Uma aproximacio razodvel € supor que todos os valores dentro de uma classe tenham seus valo- res iguais ao ponto médio desta classe. Este procedimento nos deixa na mesma situagao do caso discreto, onde as medidas sao calculadas usando-se os pares (x, n,) ou (x,,f,), como em (3.2) e (3.3). a 3.2 MEDIDAS DE DISPERSAO 37. A moda, mediana e média para os dados da Tabela 2.6 sao, respectivamente, mo(S) ~ 10,00, md(S) ~ 10,00, g~ 10x 6,00 + 12 x 10,00 + 8 x 14,00 + 5 x 18,00 + 1 x 22,00 _ 11 99, 36 Observe que colocamos o sinal de = e nao de igualdade, pois os valores verdadeiros nao so os calculados. Por exemplo, a mediana de S é a média entre as duas observagdes cen- trais, quando os dados so ordenados, isto é, 9,80 e 10,53, portanto md(S) = 10,16. Quais so, neste exemplo, a média e moda verdadeiras? Observe que, para calcular a moda de uma varidvel, precisamos apenas da distribuigéo de freqiiéncias (contagem). J4 para a mediana necessitamos minimamente ordenar as reali- zagoes da varidvel. Finalmente, a média s6 pode ser calculada para variaveis quantitativas. limitam bastante 0 cdlculo de medidas-resumos para as varidveis quali- tativas. Para as varidveis nominais somente podemos trabalhar com a moda. Para as varid- veis ordinais, além da moda, podemos usar também a m< a. Devido a esse fato, iremos apresentar daqui em diante medidas-resumo para varidveis quantitativas, que permitem o uso de operagées aritméticas com seus valores. Retomemos os dados da Companhia MB. A moda para a varié- vel V: regido de procedéncia é mo(V) = outra. Para a varidvel Y: grau de instrugdo, temos que mo(Y) = segundo grau e md(Y) = segundo grau. Veremos, na segao 3.3, que a mediana é uma medida resistente, a0 passo que a média nao o é, em particular para distribuigdes muito assimétricas ou contendo valores atipicos. Por outro lado, a média é 6tima (num sentido que sera discutido no Capitulo 10) se a distri- buigdo dos dados for aproximadamente normal. Uma outra medida de posicao também resistente é a média aparada, definida no proble- ma 39. Esta medida envolve calcular a média das observagGes centrais, desprezando-se uma porcentagem das iniciais e finais. 3.2 Medidas de Dispersao O resumo de um conjunto de dados por uma tnica medida representativa de posigao central esconde toda a informagio sobre a variabilidade do conjunto de observagées. Por exemplo, suponhamos que cinco grupos de alunos submeteram-se a um teste, obtendo-se as seguintes notas: grupo A (varidvel X): 3,4, 5. 6,7 grupo B (varidvel Y): 1, 3.5.7.9 grupo C (varidvel 2): 5,5.5,5,5 grupo D (varidvel W): 3. 5, 5.7 grupo E (varidvel V):3.5.5.6.5 38 CAPITULO 3 — MEDIDAS-RESUMO a Vemos que ¥ 5,0. A identificagdo de cada uma destas séries por sua média (5, em todos os casos) nada informa sobre suas diferentes variabilidades. Notamos, ento, a conveniéncia de serem criadas medidas que sumarizem a variabilidade de um con- junto de observagées e que nos permita, por exemplo, comparar conjuntos diferentes de valores, como os dados acima, segundo algum critério estabelecido. Um critério freqiientemente usado para tal fim € aquele que mede a dispersio dos dados em torno de sua média, e duas medidas sao as mais usadas: desvio médio e variancia. O principio bisico é analisar os desvios das observagées em relagdo a média dessas observagoes. Para o grupo A acima os desvios x, —¥ so: 2, -1, 0, 1, 2. E facil ver (problema 14 (a) que, para qualquer conjunto de dados, a soma dos desvios é igual a zero. Nestas condigdes, asoma dos desvios >}. , (x,—X) nao é uma boa medida de dispersao para 0 conjunto A. Duas opgées sao: (a) considerar o total dos desvios em valor absoluto; (b) considerar o total dos quadrados dos desvios. Para o grupo A teriamos, respectivamente, Sy =2+1+0+14+2=6, 5 N@- x =4414+04+144=10. ai O uso desses totais pode causar dificuldades quando comparamos conjuntos de dados com niimeros diferentes de observagdes, como os conjuntos A e D acima. Desse modo, € mais conveniente exprimir as medidas como médias, isto é, 0 desvio médio e a varidncia so definidos por dm(X) 3.6) var(X 3.7) respectivamente. Para 0 grupo A temos dm(X) = 6/5 = 1,2, var(X) = 10/5 = 2,0, enquanto para o grupo D temos dm(W) = 4/4 = 1,0, var(W) = 8/4 = 2,0. Podemos dizer, entdo, que, segundo o desvio médio, o grupo D € mais homogéneo que A, enquanto ambos so igualmente homogéneos, segundo a variancia. Sendo a variancia uma medida de dimensio igual ao quadrado da dimensao dos dados (por exemplo, se os dados so expressos em cm, a variancia sera expressa em cm?), pode a 3.2 MEDIDAS DE DISPERSAO 99 causar problemas de interpretagao. Costuma-se usar, entdo, o desvio padrdo, que é definido como a raiz quadrada positiva da varidincia. Para o grupo A o desvio padrao é dp(X) = Vvar (X) = V2 = 1,41. Ambas as medidas de dispersao (dm e dp) indicam em média qual seré 0 “erro” (desvio) cometido ao tentar substituir cada observacao pela medida resumo do conjunto de dados (no caso, a média). Fxemplo 3.3. Vamos calcular as medidas de dispersio acima para a varidvel Z = numero de filhos, resumida na Tabela 2.5. Como vimos no exemplo 3.1, 2 = 1,65. Os desvios sio z,— F:-1,65; -0,65; 0,35; 1,35; 3,35. Segue-se que dm(Z) = AX 1.65) # 5 (065) 2720.95) + 32 U1 98)+ 1 2 (3.95) = 0,98. Também, 41,65)? + 5(-0,65) + 700.3 20 Conseqiientemente, o desvio padrao de Zé dp(Z) = ¥ 1,528 = 1,24. Suponha que observemos n, vezes os valores x, et Entao, + 3(1,35) + 1(3,35)? var(Z) = 1,528. .. R, Vezes valor x, da varidvel X. dm(X) = (3.8) ve _» vantX) = Ste1 MAB — 3) G9) dp(X) = X). (3.10) O cailculo (aproximado) das medidas de disperso no caso de varidveis continuas, agru- padas em classes, pode ser feito de modo andlogo aquele usado para encontrar a média no exemplo 2.2. fe xemplo 3.4. Consideremos a variavel S = saldrio. A média encontrada no exemplo 3.2 foi s = 11,22. Com os dados da Tabela 2.6 e usando (3.9) encontramos var(S) = [10(6, 00 — 11,22)? + 12(10,00 - 11,22)? + 8(14 - 11,22)? + 5(18,00 — 11,22) + 1(22,00 — 11,22)°/36 = 19,40 e, portanto, dp(S) = ¥19,40 = 4,40. E facil ver que dm(S) ~ 3,72. 40 CAPITULO 3 — MEDIDAS-RESUMO. a Veremos, mais tarde, que a variancia de uma amostra ser calculada usando-se o deno- minador n — 1, em vez de n. A justificativa seré dada naquele capitulo, mas para grandes amostras pouca diferenga fara o uso de um ou outro denominador. Tanto a variancia como o desvio médio sio medidas de dispersao calculadas em relagdo & média das observacdes. Assim como a média, a varifincia (ou o desvio padrao) é uma boa medida se a distribuigéo dos dados for aproximadamente normal. O desvio médio é mais resistente que o desvio padrao, no sentido a ser estudado na segao seguinte. Poderiamos considerar uma medida que seja calculada em relagdo A mediana. O desvio absoluto mediano é um exemplo e é mais resistente que 0 desvio padrao. Veja o problema 41. Usando 0 problema 14 (b), uma maneira computacionalmente mais eficiente de calcu- lar a variancia é var(X) = GU) €, no caso de observagdes repetidas, var(X) i, (3.12) earl L 1. Quer se estudar o niimero de erros de impressGo de um livro. Para isso escolheu-se uma amostra de 50 paginas, encontrando-se o nmero de erros por pagina da tabela abaixo. (a) Qual 0 niimero médio de erros por pagina? (b) Eo ndmero mediano? (c) Qual é 0 desvio padrao? (d) Faca uma representacao grafica para a distribuigao. (e) Se 0 livro tem 500 paginas, qual o némero total de erros esperado no livro? Erros | Frege 0 | 1 2 2 | 3 3 | 1 4 | 1 As taxas de juros recebidas por 10 aces durante um certo periodo foram (medidas em porcentagem) 2,59; 2,64; 2,60; 2,62; 2,57; 2,55; 2,61; 2,50; 2,63; 2,64. Calcule a média, a mediana e o desvio padréo. 3. Para facilitar um projeto de ampliagao da rede de esgoto de uma certa regiéo de uma cidade, as autoridades tomaram uma amostra de tamanho 50 dos 270 quarteirées que compéem a regido, e foram encontrados os seguintes ndmeros de casas por quarteirdo: 2 2 3. 10 13 14 15 15 16 16 18 18 20 21 22 22 23 24 25° 25 26 27 29 29 30 32 36 42 44 45 45 46 48 52 58 59 61 61 61 65 66 «66 6B 75 7B BO BD 9D 92s a 3.3 QUANTIS 4] (a) Use cinco intervalos € construa um histograma. (b) Determine uma medida de tendéncia central e uma medida de dispersio. 4, (a) Dé uma situagéo prética onde vocé acha que a mediana é uma medida mais apro- priada do que a mé 1 (b) Esboce um histograma onde a média e a mediana coincidem. Existe alguma classe de histogramas onde isso sempre acontece? (c) Esboce os histogramas de trés varidveis (X, Y e Z) com a mesma média aritmética, mas com as varidncias ordenadas em ordem crescente. 5. Suponha que a varidvel de interesse tenha a distribuigéo como na figura abaixo. — —e Vocé acha que a média é uma boa medida de posigéo? E a mediana? Justifique. 6, Numa pesquise realizada com 100 familias, levantaram-se as seguintes informacées: Numero de filhos 0 1 2 3 4 5 mais que 5 Freqiéncia de familias iz 20 19 7 4 5 (a) Qual a mediana do ndmero de filhos? (b) Ea moda? (c) Que problemas vocé enfrentaria para calcular a média? Faca alguma suposicéo e encontre-a 3.3 Quantis Tanto a média como o desvio padrao podem nao ser medidas adequadas para represen- tar um conjunto de dados, pois: (a) so afetados, de forma exag crada, por valores extremos: (b) apenas com estes dois valores nao temos idéia da simetria ou assimetria da distribui- gio dos dados. Para contornar esses fatos, outras medidas tém de ser consideradas. — 42 CAPITULO 3 — MEDIDAS-RESUMO r Vimos que a mediana é um valor que deixa metade dos dados abaixo dela e metade acima (ver férmula (3.5). De modo geral, podemos definir uma medida, chamada quantil de ordem p ou p-quantil, indicada por 4(p), onde p é uma propor¢ao qualquer, 0

Fungdes de distribuig&o empirica (F,) e F.d.e. alisada (F;) para o exemplo 3.5. ROO 919} --~-------~-------------------------- ~—— 17/18 — 2 8/9 ——— 15/18 —= , X 79 EO — g 6/9 sa / 5/9 Ss P= 9/18 ae 4/9 7 3/9 —_—— | \ 2/9 —s } 3/18 —+ 6 V9 + 1/18 —* ¢ hp 12:13 14 15x ° o 3 Mas vejamos que F(-) pode ser a base para tal definigdo. Considere “alisar” ou “su zar” F(-), como feito na Figura 3.1, de modo a obter uma curva continua F(x), que passa pelos pontos (x;;, p;), onde (3.15) | 44 CAPITULO 3 — MEDIDAS-RESUMO a Observe que 0 P,, (p-P) de f= PP onde (2... -P) Notamos, ento, que se p coincidir com a proporgao p,, o quantil serd a i-ésima observa- ao, x). Se p,

p, convencionamos que q(p) = x,,. Usando a definigao obtemos: (0,1) = (0,6)q(p,) + (0,4)q(p,) = (0,6)(2) + (0,4)(3) = 2,4; (0,2) = (0,7)q(p,) + (0,3)q(p,) = (0,7)(3) + (0,3)(5) = 3,6; (0,5) = q(p,) = X5) = 85 (0,75) = (0,75)q(p,) + (0,25)q(p,) = (0,75)A1) + (0,25)(12) = 11,25. a 3.3 QUANTIS 45 Consideremos 0 CD-Municfpios e tomemos somente os 15 maiores, relativa- mente a sua populagdo. Como os dados esto naturalmente ordenados, teremos onde x, = 84,7, x, = 92,4, = /30 = 0,0333, p, = 3/30=0,1, Ps = 5/30 = 0,1667, p, = 7/30 = 0,2333, ..., py = 15/30 = 0,5, +» Pis = 29/30 = 0,967. Entio, 00,1) = q(p,) =X.) = 92,4; (0.2) = (0,5)q(p,) + (0,5)4(p,) = (0,5)x,, + (0,5)x,4, = 102,1; (0,25) = (0,75)q(p,) + (0,25)q(p,) = 105,75 (0,3) = 4p) = Xs, = 116,0; (0,5) = 4(P,) = %q) = 135,85 q(0,75) = (0,25)q(p,,) + (0,75)q(p,,) = 208,6. No problema 17 indicamos como podemos calcular os quantis quando os/dados sio representados numa tabela de freqiiéncias ou histograma. / Uma medida de dispersio alternativa ao desvio padrao € a distancia’ou intervalo interquartil, definida como a diferenga entre 0 terceiro e 0 primeiro quartis, ou seja, d= q(0,75) — q(0,25). (3.17) Para o exemplo 3.6, temos (0,25) = 105,7, q(0,5) = 135,8, 9(0,75) = 208,6, de modo que d, = 102,9. Os quartis 4(0,25) = q,, (0,5) = 4, € q(0.75) = q, stio medidas de localizagao resistentes de uma distribui¢ao. Dizemos que uma medida de localizagdo ou dispersio € resistente quando for pouco afetada por mudangas de uma pequena porgo dos dados. A mediana é uma medida resis- tente, ao passo que a média nao é. Para ilustrar esse fato, considere as populagdes dos 30 municipios do Brasil vistos acima. Se descartarmos Rio de Janeiro e Sao Paulo, a média das populagGes dos 28 municipios restantes é 100,6 e a mediana é 82,1. Para todos os dados, a média passa a ser 145,4, ao passo que a mediana sera 84,3. Note que a média aumentou bastante, influenciada que foi pelos dois valores maiores, que sao muito discrepantes da maioria dos dados. Mas a mediana variou pouco. O desvio padrdo também nao é uma medi- da resistente. Verifique como este varia no exemplo acima. Os cinco valores, x... dy» >> 4 © Xv S40 importantes para se ter uma boa idéia da assimetria da distribuigao dos dados. Para uma distribuicao simétrica ou aproximadamente simétrica, deveriamos ter: 46 CAPITULO 3 — MEDIDAS-RESUMO a ncias entre mediana e q,, g, menores do que distancias entre os extremos € q,, 4, A diferenga q, ~ x,,, € chamada dispersdo inferior (di) € x,,, ~ q, € a dispersdo superior (ds). A condigao (a) nos diz que essas duas disperses devem ser aproximadamente iguais para uma distribuicdo aproximadamente simétrica. A Figura 3.2 ilustra esses fatos para a chamada distribuigdo normal ou gaussiana. Figure 3.2: Uma distribuigéo simétrica: normal ou gaussiana. Na Figura 3.3 temos ilustradas essas cinco medidas e as distancias entre elas, para os 15 valores do exemplo 3.6, caracterizando a assimetria da distribuigao. F Quantis e distancias para o exemplo 3.6. xy 4 4 4 te AW 7 2 30,1 728 780,2 <— 51,1 —+e-____ 853,0 (di) (ds) As cinco estatisticas de ordem consideradas acima podem ser representadas esquema- ticamente como na Figura 3.4, onde também incorporamos 0 nimero de observacées, n. Representamos a mediana por md, os quartis por g ¢ os extremos por E. Podemos ir além, considerando os chamados oitavos, ou seja, 0 primeiro oitavo, que corresponde a q(0,125), 0 sétimo oitavo, que corresponde a q(0,875) etc. Teriamos, entdo, sete ntimeros para repre- sentar a distribuicdo dos dados. Em geral, podemos considerar as chamadas letras-resumos, descendo aos dezesseis-avos, trinta e dois-avos etc. Para detalhes, ver Hoaglin, Mosteller e Tukey (1983). B 3.3 QUANTIS 47 l’xemplo 3.7. Os aplicativos SPlus e Minitab, assim como a planilha Excel, possuem ferra- mentas que geram as principais medidas descritas nesse capitulo e outras. Por exemplo, 0 comando describe do Minitab, usado para as populagdes dos municipios brasileiros produz a safda do Quadro 3.1. Medidas-resumo para 0 CD-Municipios. Minitab. MTB > Describe C1. Descriptive Statistics Variable N Mean Median ‘rmean StDev SE Mean C1 30 145.4 84.3 104.7 186.6 34.1 Variable Min Max ai a3 c1 46.3 988.8 63.5 139.7 Aqui, temos N = 30 dados, a média é 145,4, a mediana 84,3, o desvio padrao 186,6, 0 menor valor 46,3, 0 maior valor 988,8, 0 primeiro quartil 63,5 e 0 terceiro quartil 139,7. Além desses valores, 0 resumo traz a média aparada (trimmed mean) e 0 erro padrio da média, a ser tratado no Capitulo 11. Esse é dado por S/Vn = 186,6/V30 = 34,1. O comando summary do SPlus produz a safda do Quadro 3.2 para os mesmos dados. Note a diferenga no célculo dos quantis q(0,25) e 4(0,75). Conclui-se que & necessério saber como cada programa efetua o célculo de determinada estatistica, para poder reporté-lo. ° Medidas;resumo para 0 CD-Municipios. SPlus. > summary (munic) Min. 1stQu. Median Mean 3rdQu. Max. 46.3 64.48 84.3 145.4 1343 988.8 7 | | 7. Obtenha © esquema dos cinco némeros para os dados do problema 3. Calcule 0 intervalo interquaril e as disperses inferior e superior. Baseado nessas medidas, veri- fique se a forma da distribuigao dos dados normal. 48 CAPITULO 3 — MEDIDAS-RESUMO a 8. Refaca 0 problema anterior, uflizando desta vez os dados do problema $ do Copitulo 2. 9. Obter os trés quartis, 4(0,1) e.4(0,90) para os dados do problema 3. 10. Para a variével populagdo urbana do CD-Brasil, obtenha 4(0,10), 4(0,25), 4(0,50), (0,75), q(0,80) e 4(0,95). 3.4 Desenho Esquematico (Box Plots) A informagao contida no esquema dos cinco niimeros da Figura 3.4 pode ser traduzida graficamente num diagrama, ilustrado na Figura 3.5, que chamaremos de desenho esquemdtico ou box plot, sendo este tiltimo 0 nome mais usado. O termo desenho esquemdtico é usado por McGill, Tukey e Larsen (1978). Murteira (1993) usa 0 termo “caixa-de-bigodes”. Desenho esquematico ou Box Plt. fe [3 +o — Para construir este diagrama, consideremos um retngulo onde esto representados a me- diana e os quartis. A partir do retangulo, para cima, segue uma linha até o ponto mais remoto que nao exceda LS = q; + (1,5)d,, chamado limite superior. De modo similar, da parte inferior do retangulo, para baixo, segue uma linha até o ponto mais remoto que nao seja menor doque LI = q,- (1,5)d,, chamado limite inferior. Os valores compreendidos entre esses dois limites sdo chamados valores adjacentes. As observacées que estiverem acima do limite superior ou abaixo do limite inferior estabelecidos serao chamadas pontos exteriores e representadas por asteriscos. Essas so observagdes destoantes das demais e podem ou nao ser que chamamos de outliers ou valores atipicos. O box plot dé uma idéia da posigao, dispersdo, assimetria, caudas e dados discrepantes. A posigao central é dada pela mediana e a dispersao por d,. As posig6es relativas de 4), 42,43 dao uma nogao da assimetria da distribuigao. Os comprimentos das caudas sao dados pelas linhas que vao do retangulo aos valores remotos e pelos valores atipicos. a 3.4 DESENHO ESQUEMATICO (BOX PLOTS) 49 Fscmplo 3.8. Retomemos o exemplo 3.6. O diagrama para os cinco mimeros x, 4, q, = md, q,, X,,,, std na Figura 3.6 abaixo. Esquema dos cinco némeros para o exemplo 3.8. Temos que LI = q, ~(1,5)d, = 108,7 - (1,5) (102,9) = -48,7. LS = q, + (1,5)d, = 208.6 + (1,5) (102,9) = 362.9. Entio, as cidades com populagées acima de 3.629.000 habitantes sao pontos exteriores,~ ou seja, Rio de Janeiro e Sao Paulo. O box plot correspondente est na Figura 3.7. Vemos que os dados tém uma distribuigao assimétrica a direita, com 13 valores concentrados entre 80 e 230 e duas observagoes discrepantes, bastante afastadas do corpo principal dos dados. Box plot para os quinze maiores municipios do Brasil. (i000 | * S60 Paulo ws | *Rio de Janeiro: | 240} I Salvador : } 10} 140. 100 I 60 ‘SGo Gongalo 50 CAPITULO 3 — MEDIDAS-RESUMO* a Do ponto de vista estatistico, um outlier pode ser produto de um erro de observagdo ou de arredondamento. No exemplo acima, as populagées de Sao Paulo e Rio de Janeiro nao sao outliers neste sentido, pois elas representam dois valores realmente muito diferentes dos demais. Daf, usarmos 0 nome pontos (ou valores) exteriores. Contudo, na pratica, estas duas denominagGes sao freqiientemente usadas com o mesmo significado: observagées fora de lugar, discrepantes ou atipicas. A Figura 3.8 mostra 0 desenho esquematico para as populagées dos trinta municipios brasileiros, feito com 0 Minitab. Box plot com Minitab. A justificativa para usarmos 0s limites acima, LI = q, - (1,5)d, € LS = q, + (1,5)d,, para definir as observacées atipicas é a seguinte: considere uma curva normal com média zero e, portanto, com mediana zero, E facil verificar (veja 0 Capitulo 7 e Tabela II) que q, = -0,6745, g, = 0, q, = 0,6745 € portanto d, = 1,349. Segue-se que os limites sao LI = -2,698 e LS = 2,698. A Area entre estes dois valores, embaixo da curva normal, é 0,993, ou seja, 99,3% da distribuigao esta entre estes dois valores. Isto é, para dados com uma distribuicdo normal, os pontos exteriores constituirdo cerca de 0,7% da distribuigdo. Veja a Figura 3.9. Area sob a curva normal entre Li e LS. a 3.5 GRAFICOS DE QUANTIS 5]. 11. Construa © box plot para os dados do exemplo 2.3, Copitulo 2. O que vocé pode concluir a respeito da distribuicéo® 12. Refaga a questéo anterior com os dados do problema 3 deste capitulo. 13. Faga um box plot para o problema 10. Comente sobre a simetria, caudas e presenca de valores atipicos. 3.5 Graficos de Quantis Podemos construir uma representacao grafica dos quantis, chamada grdfico de quantis € que nos ajuda a interpretar um conjunto de dados. No eixo das abscissas colocamos os valores de p, € no das ordenadas os respectivos valores de q(p,). Depois, unimos os pontos obtidos por segmentos de retas, para que se possa obter q(p), para todo p. semp A Figura 3.10 mostra 0 gréfico de quantis para o CD-Municipios. Aqui, indi- camos somente os pares (p,, q(p,)). Na Figura 3.11 mostramos o grafico com os pontos unidos por segmentos de reta, segundo a definigao dada na segao 3. 7 10 Gréfico de quantis para o CD-Munici- ios; p,« q(p))p, = (i-0,5)n. 1.000 = 800 | = 600 . ° 400. | 2004 ~ e | | os Oe 7 | Gréfico de quantis para © CD-Munici- pios; px qr). 52 CAPITULO 3 — MEDIDAS-RESUMO SB O grafico de quantis pode ser stil para verificar se a distribuigdo dos dados € simétrica (ou aproximadamente simétrica). Se os dados forem aproximadamente simétricos, os pontos no topo superior direito do grafico de quantis comportam-se como os pontos do canto inferior esquerdo. Se os dados forem assimétricos a direita, os pontos do topo superior direito so mais inclinados do que 0s pontos no canto inferior esquerdo. Se um conjunto de observagGes for perfeitamente simétrico devemos ter 40,5) =, =%,,,,-,— (0.5), (3.18) n= Fe ., n/2, se n for par e i= 1, 2, ..., (n + 1)/2, se n for impar. Pela relacdo (3.18), vemos que, se os quantis da direita esto mais afastados da mediana do que os da esquerda, os dados serio assimétricos a direita. Se ocorrer 0 contrério, os dados sero assimétricos & esquerda. A Figura 3.12 ilustra essas duas situagdes. onde i = 1, 2, Figura Distribuigdes assimétricas. assimétrica direita cossimétrica & esquerda —______] Para os dados do exemplo 3.8, vemos que as observagdes so assimétricas a direita. Em geral, esse tipo de situagdo ocorre com dados positivos. Podemos fazer, também, um grdfico de simetria, usando a identidade (3.18). Chamando de u, 0 primeiro membro e de v, o segundo membro, fazendo-se um gréfico cartesiano, com 0s u,’s como abscissas € os v,’s como ordenadas, se os dados forem aproximadamente simé- tricos, os pares (uw, v) estardo dispersos ao redor da reta v = u. Exemplo 3.10. Considere os dados que, dispostos em ordem crescente, ficam representados no eixo real como na Figura 3.13. Figura 3.13: Dados aproximadamente simétricos. - ° 5 10 15 ° - ° - © 1 ~- * ° Xu Xe Xo Xe Xs) Xe Xa Xu Xo 05 23 40 64 80 98 120 13,5 153 Esses dados so aproximadamente simétricos, pois como q, = 8, u, teremos: Hy Ninety I v, = 15,3-8,0 vy = 13,5-8,0 v5 = 12,0-8,0 = 4,0, y= 9,8 -8,0= 1,8. a 3.6 TRANSFORMACOES — 53. A Figura 3.14 mostra o gréfico de simetria para as populagdes dos trinta municfpios do Brasil. Vemos que a maioria dos pontos esto acima da reta v= u, mostrando a assimetria & direita da distribuigao dos valores. Tanto nessa figura como na Figura 3.11, vemos destaca- dos os pontos correspondentes a Rio de Janeiro e So Paulo. Gréfico de simetria para 0 CD-Muni- 0 x=) énlx), sep=0 (3.19) =x, sep<0. Normalmente, o que se faz é experimentar valores de p na seqiiéncia wy 3, -2, “1, = 1/2, — 128, = 1/4, 0, 1/4, 1/3, 1/2, 1, 2, 3, e para cada valor de p obtemos gréficos apropriados (histogramas, desenhos esquemiticos etc.) para os dados originais e transformados, de modo a escolhermos o valor mais adequado de p. Vimos que, para dados positivos, a distribuigao dos dados é usualmente assimétrica & direita. Para essas distribuigdes, a transformagio acima com 0 < p < 1 é apropriada, pois valores grandes de x decrescem mais, relativamente a valores pequenos. Para distribuiges assimétricas a esquerda, tome p > 1. 54 CAPITULO 3 — MEDIDAS-RESUMO a I\cmplo 3.11, Consideremos os dados das populagdes do CD-Municipios ¢ tomemos alguns valores de p: 0, 1/4, 1/3, 1/2. Na Figura 3.15 temos os histogramas para os dados transformados e, na Figura 3.16, os respectivos desenhos esquemiticos. Vemos que p = 0 (transformagio logaritmica) e p = 1/3 (transformagao raiz ctibica) fornecem distribuigbes mais préximas de uma distribuigdo simétrica. Figure 3.) Histogramas para os dados transformados. CD-Municipios. p=i4 8 6 4 ie 7 \s 2 =13 10 10: 8 ‘6 5 4 2 0. — 0 em ones 5 lo 15 2% 25 30 35 3 Box plots para os dados transfor- mados. CD-Municipios. SPlus. a 3.7 EXEMPLOS COMPUTACIONAIS — 55 3.7 Exemplos Computacionais Vamos retomar os exemplos estudados no Capitulo 2 e complementar as andlises feitas com as técnicas aprendidas neste capitulo. Aqui temos as notas em Estatistica de 100 alunos de Econo- mia. Temos no Quadro 3.3 as principais medidas-resumo desse conjunto de dados, fornecidas pelo comando describe do Minitab. Medidas descritivas para o CD-Notas. Minitab. Descriptive Statistics Variable N Mean Median ‘Trmean StDev SE Mean c1 100 5.925 6.000 5.911 1.812 0.181 Variable Min Max a a3 | C1 1.500 10.000 4.625 7.375 Vemos, por exemplo, que g, = 4,625, q, = 6,000 e q, = 7.375 e, portanto, d,=4,-4,= O desvio padrao é dp = 1,812. Vimos que a distribuicdo das notas é razoavelmente simé- trica, nfo havendo valores atfpicos, o que é confirmado pelo desenho esquemético da Figura 3.17. © grifico de quantis esta na Figura 3.18. Observe que esse gréfico traz um aspecto interessante: a presenga de patamares, caracterizados pela repetigao de notas. O grafico também mostra que as inclinagGes no topo direito e canto inferior esquerdo sao aproxima- damente iguais, refletindo a simetria aproximada dos dados. Finalmente, o grafico de sime- tria est4 na Figura 3.19, mostrando também a reta u = v. Note que os pontos dispdem-se ao redor da reta, estando varios deles sobre ela, indicando a quase-simetria dos dados. Deveria- mos ter 50 pontos no grafico, mas ha varios pares (u,, v,) repetidos. 56 CAPITULO 3 — MEDIDAS-RESUMO a - r + 00 02 04 06 08 1.0 Os dados de temperatura (didrios) na cidade de Sao Paulo, no periodo considerado, sao ligeiramente assimétricos 4 esquerda. O comando summary do SPlus fornece as medidas descritivas do Quadro 3.4. Note que 0 Minitab fornece mais infor- magoes que o SPlus por meio desses comandos. Medidas descritivas para temperaturas. SPlus. > summary (temp) Min, 1stQu. Median Mean 3rd Qu. Max. 12.3 16 177 17.22 18.6 21 Temos, por exemplo, q, = 16, q, = 17,7 € 4, = 18,6. A amplitude amostral € x,» — xy) =8,7 ea distdncia interquartil é d, = 2,6. O desenho esquemitico esté na Figura 3.20, que mostra a assimetria. Nao ha valores atipicos. a 3.7 EXEMPLOS COMPUTACIONAIS — 57 Box plot para as temperaturas de Sdo Paulo. CD-Poluicéo. SPlus. O grafico de quantis esta na Figura 3.21 e o grafico de simetria na Figura 3.22. Todos os pontos estdo abaixo da reta u = v, mostrando que u, > v,, para todo i = 1, 2, ..., 60, ou seja, as distncias da mediana aos quantis inferiores so maiores do que as distncias dos quantis superiores 4 mediana, indicando que a distribuigdo das observages é assimétrica 4 esquerda. Grdfico de quantis para as temperaturas de Sao Paulo. CD-Poluigao. Quantis Grafico de simetria para as temperaturas de Sao Paulo. CD-Poluigéo. 58 CAPITULO 3 — MEDIDAS-RESUMO a 3.8 Problemas e Complementos 14. Mostre que: () S n(x, — XP (d) Spo - 3? 15. Usando os resultados da questdo anterior, calcule as variéncias dos problemas | e 2 deste capitulo. 16. Os dados abaixo representam as vendas semanais, em classes de salérios minimos, de vendedores de géneros alimenticios: Vendas semanais | N° de vendedores 30h 35 | 2 35 40 | 10 40b 45 | 18 45450 | 50 50 55 70 55+ 60 30 60 65 18 65+ 70 2 (a) Faga o histograma das observacoes. (b) Calcule a média da amostra, x. (c) Calcule o desvio padréo da amosira, s. (d) Qual a porcentagem das observacées compreendidas entre ¥- 2s e ¥ + 2s? (e) Calcule a mediana. 17. Quantis. Usando-se o histograma, podemos derivar um procedimento alternativo para encontrar a mediana de uma varidvel. Pela sua definicao vemos que ela deve corresponder ao valor da abscissa que divide a drea do histograma em duas partes iguais (50% para cada lado). Entéo, usando argumentos geométricos, podemos en- contrar um ponto, satisfazendo essa propriedade. Vejamos como proceder através de um exemplo. a 3.8 PROBLEMAS E COMPLEMENTOS 59 Fvcmplo *12. Vamos repetir abaixo a Figura 2.7, que é o histograma da varidvel S = saldrio dos empregados da Companhia MB. | 28% 27% | 14% oe - 0 400 8,00 md 12,00 16,00 20,00 24,00 Devemos localizar 0 ponto das abscissas que divide o histograma ao meio. A area do primeiro retangulo corresponde a 28% do total, os dois primeiros a 61%; portanto, a mediana md é algum numero situado entre 8,00 e 12,00. Ou melhor, a mediana iré corresponder ao valor md no segundo reténgulo, cuja rea do retangulo de base 8,00 Hi md é a mesma altura que o reténgulo de base 8,00 H 12,00 seja 22% (28% do primeiro retangulo mais 22% do segundo, pertazendo os 50%). Consulte a figura para melhor compreensao. Pela proporcionalidade entre a drea e a base do retangulo, temos: 12,00 - 8,00 ou md ~ 8,00 logo md = 8,00 + 2,67 = 10,67, que é uma expressdo mais precisa para a mediana do que a mediana bruta encontrada anteriormente. O calculo dos quantis pode ser feito de modo andlogo ao cdlculo da mediana, usando argumentos geométricos no histograma. Vejamos a determinagao de alguns quantis, usan- do os dados do ultimo exemplo. Por meio do histograma da figura acima, calcular: (a) g(0,25) Resposta: Verificamos que q(l).25) deve estar na primeira classe, pois a proporgéo no primeiro retangulo é 0,28. Logo, 0,25) — 4,00 _ 8,00 — 4,00 2 ~ 9s ‘ e entao 60 CAPITULO 3 — MEDIDAS-RESUMO a (b) 4(0,95) Resposta: Analisando a soma acumulada das proporcées, verificamos que este quantil deve pertencer 4 quarta classe, e que nesse retangulo devemos achar a parte correspon- dente a 12%, pois a soma acumulada até a classe anterior é 83%, faltando 12% para atingirmos os 95%. Portanto, (0,95) - 16,00 _ 20,00 - 16,00 12% ~ 14%” logo (0,95) = 16,00 + e x42 19,43. (c) q,75) Resposta: De modo andlogo, concluimos que o terceiro quantil deve pertencer ao inter- valo 12,00 H 16,00, portanto (0,75) - 12,00 _ 16,00 - 12,00 14% «2% (0,75) = 14,55. O intervalo interquantil do sltimo exemplo € q(0,75) ~ (0,25) = 14,55 - 7,57 = 6,98 Ou seja, 50% dos salérios “centrais” estéo numa faixa de amplitude 6,98 saldrios minimos. 18. Usando os dados do problema 3, calcule: (a) mediana (b) 12 decil (c) intervalo interquantil 19. O némero de divércios na cidade, de acordo com a duracéo do casamento, esté representado na tabela abaixo. (a) Qual a duragéo média dos casamentos? E a mediana? (b) Encontre a varidncia e o desvio padréo da duragéo dos casamentos. (c) Construa 0 histograma da distribuigao. (d) Encontre 0 1° e 0 9 decis (e) Qual o intervalo interquantil? Anos de casamento divorcios OF 6 2.800 6r 12 1.400 12h 18 600 18 24 50 24 30 50 a 3.8 PROBLEMAS E COMPLEMENTOS 6] 20. O Departamento Pessoal de uma certa firma fez um levantamento dos salérios dos 120 funciondrios do setor administrativo, obtendo os resultados (em saldrios minimos) da tabela abaixo. (a) Esboce o histograma correspondente. (b) Calcule a média, a variéncia e 0 desvio padrao. () Calcule 0 1° quartile a mediana Faixa salarial Freqiiéncia relativa Or 2 0,25 2h 4 0,40 4r 6 | 0,20 610 0,15 (d) Se for concedido um aumento de 100% para todos os 120 funciondrios, haveré alteragao na média? E na varidncia? Justifique sua resposta (e) Se for concedido um abono de dois saldrios minimos para todos os 120 funciond- rios, haveré alteragao na média? E na variéncia? E na mediana? Justifique sua resposta. © que acontece com a mediana, a média e 0 desvio padrao de uma série de dados quando: (a) cada observagéo é multiplicada por 2? (b) soma-se 10 a cada observacéo? (c) subtrai-se a média geral ¥ de cada observacgao? (d) de cada observacéo subtrai-se X e divide-se pelo desvio padrao dp(x)? 22, Na companhia A, a média dos salérios é 10.000 unidades e 0 3° quariil é 5.000. (a) Se vocé se apresentasse como candidato a funcionério nessa firma e se o seu salério fosse escolhido ao acaso entre todos os possiveis saldrios, o que seria mais provavel: ganhar mais ou menos que 5.000 unidades? (b) Suponha que na companhia B a média dos saldrios seja 7.000 unidades, a variéncia praticamente zero e 0 saldrio também seja escolhido ao acaso. Em qual compa- nhia vocé se apresentaria para procurar emprego? 3. Estamos interessados em estudar a idade dos 12.325 funcionérios da Cia. Distribuidora de Leite Teco, e isso serd feito por meio de uma amostra. Para determinar que tamanho deverd ter essa amostra, foi colhida uma amostra-piloto. As idades observadas foram: 42, 35, 27, 21, 55, 18, 27, 30, 21, 24. (a) Determine as medidas descritivas dos dados que vocé conhece. (b) Qual dessas medidas vocé acredita que seré a mais importante para julgar o tamanho final da amostra? Por qué? 62 CAPITULO 3 — MEDIDAS-RESUMO ag 24. Estudando-se o consumo diario de leite, verificou-se que, em certa regio, 20% das familias consomem até um litro, 50% consomem entre um e dois litros, 20% consomem entre dois e trés litros e 0 restante consome entre trés € cinco litros. Para a varidvel em estudo: (a) Escreva as informagées acima na forma de uma tabela de freqéncias. (b) Construa o histograma. (c) Calcule a média e a mediana. (d) Calcule a variéncia e 0 desvio padréo. (e) Qual 0 valor do 1° quartil? 25.A distribuigéo de frequéncias do saldrio anual dos moradores do bairro A que tém alguma forma de rendimento é apresentada na tabela abaixo: Faixa salarial Freclifncia (x 10 salarios minimos) = OF 2 10.000 2h 4 3.900 4h 6 2.000 6h 8 1.100 8+ 10 800 10H 12 700 12h 14 2.000 Total 20.500 (a) Construa um histograma da distribuigéo. (b) Qual o média e 0 desvio padrao da varidvel salério? (Q) © boirro B apresenta, para a mesma varidvel, uma média de 7,2 e um desvio padrao de 15,1. Em qual dos bairros a populagéo é mais homogénea quanto & renda? (d) Construa a fungéo de distribuigéo acumulada e determine qual a faixa salarial dos 10% mais ricos da populagdo do bairro. (e) Qual a “riqueza total” dos moradores do bairro? 26. Dado 0 histograma abaixo, calcular a média, a variancia, a moda, a mediana e o I* quartil 30% 25% 20% 15% 10% a 3.8 PROBLEMAS E COMPLEMENTOS 63 27. Em uma granja foi observada a distribuicgéo dos frangos em relacdo ao peso, que era ‘a seguinte: Peso (gramas) n 960 980) 60 980 + 1.000 160 1000+ 1.020] 280 1020+ 1.040] 260 1.040 F 1.060 160 1.060 1.080 | 80 (a) Qual a média da distribuigao? (b) Qual a varidncio da distribuicao? (c) Construa o histograma. (d) Queremos dividir os frangos em quatro categorias, em relagdo ao peso, de modo que: — os 20% mais leves sejam da categoria D; — os 30% seguintes sejam da categoria C; — os 30% seguintes sejam da categoria B; — 08 20% seguintes (ou seja, os 20% mais pesados) sejam da categoria A. Quais os limites de peso entre as categorias A, B, C e D? (e) © granjeiro decide separar deste lote os animais com peso inferior a dois desvios padrées abaixo da média para receberem racéo reforcada, e também separar os ‘nimais com peso superior a um e meio desvio padrao acima da média para usé- los como reprodutores. Qual a porcentagem de animais que seréo separados em cada caso? 28. Aidade média dos candidatos a um determinado curso de aperfeicoamento sempre foi baixa, da ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiu-se fazer uma campanha de divulgacao. Para se verificar se a campa- nha foi ou néo eficiente, fez-se um levantamento da idade dos candidatos 4 Ultima promocGo, e os resultados esto na tabela a seguir. “Idade | Frequéncia | Porcentagem 18 20 18 36 20+ 2 12 24 22+ 2% 10 20 26+ 30 8 16 30 36 2 4 Tool | 50 100 (a) Baseando-se nesses resultados, vocé diria que a campanha produziu algum efeito {isto é, aumentou a idade média)? (b) Um outro pesquisador decidiu usar a seguinte regra: se a diferenca x ~ 22 fosse maior que 0 valor 2dp(X)/Vn, entéo a campanha teria surtido efeito. Qual a con- clusdo dele, baseada nos dados? (c) Faca o histograma da distribuigéo. 64 CAPITULO 3 — MEDIDAS-RESUMO a 29. Para se estudar o desempenho de dvas corretoras de acées, selecionou-se de cada uma delas amostras aleatérias das agdes negociadas. Para cada acdo selecionada, computou-se a porcentagem de lucro apresentada durante um periodo fixado de tempo. Os dados estao a seguir. Corretora A Corretora B 45 | 60 | 54 57 | 55 | 58 62 | $5 | 70 50 | 52 | 59 38 | 48 64 59 55 56 55 56 55 él 52 53 54 | 59 48 57 57 50 65 55 60 Ee - 58 54 59 | si | 56_ Que tipo de informagéo revelam esses dados? (Sugestdo: use a andlise proposta nas Secées 3.3 e 3.4.) 30. Para verificar a homogeneidade das duas populacées do problema anterior, um esta- var (X/A) var (X/B) tomar baseado nesse valor. Que regra de deciséo voce adotoria para dizer se so homogéneas ou néo (var(X/A) = varidncia de X, para a corretora A; X = % de lucro)? tistico sugeriv que se usasse 0 quociente F = + mas ndo disse qual deciséo. 31. Faga um desenho esquematico (box plo!) para os dados da corretora A e um para os dados da corretora B. Compare os dois conjuntos de dados por meio desses desenhos. 32. Para decidir se o desempenho das duas corretoras do exercicio 29 sGo semelhantes ou nao, adotou-se o seguinte teste: sejam ge = (=D) varX/A) + (rp — Vvar(X/B) S2V1/n, + Ung nyt+n,—2 Caso |t|< 2, os desempenhos sao semelhantes, caso contrario, sdo diferentes. Qual seria a sua conclusGo? Aqui, n, € 0 nimero de acées selecionadas da corretora A e nomenclatura anéloga para ny. Um érgao do governo do estado esté interessado em determinar padrées sobre o inves- timento em educacao, por habitante, realizado pelas prefeituras. De um levantamento de dez cidades, foram obtidos os valores (codificados) da tabela abaixo: Cidade | Al B C D —| F G H | Jj Investimento 20; 16) 14) 8 19] 15] 14) 16) 19 34 3.8 PROBLEMAS E COMPLEMENTOS ~— 65 Nesse caso, seré considerado como investimento bésico a média final das observacées, calculada da seguinte maneira: 1. Obtém-se uma média inicial. 2. Eliminam-se do conjunto aquelas observacées que forem superiores 4 média inicial mais duas vezes 0 desvio padrao, ou inferiores & média inicial menos duas vezes 0 desvio padrao. 3. Calcula-se a média final com o novo conjunto de observacées. Qual o investimento bdsico que vocé daria como resposta? Observacao: O procedimento do item 2 tem a finalidade de eliminar do conjunto a cidade cujo investimento 6 muito diferente dos demais. Estudando-se a distribuicéo das idades dos funciondrios de duas reparticées publicas, obtiveram-se algumas medidas que estéo no quadro abaixo. Esboce o histograma alisado das duas distribuicées, indicando nele as medidas descritas no quadro. Co- mente as principais diferengas entre os dois histogramas. Repartico | Minimo | 1° Quartil | Mediana | Média | 3° Quartil | Maximo | dp A 18 27 33 | 33 39 | L 48 5 B | 18 23 32, | 33 a | 48 | 10 | Decidiu-se investigar a distribuicéo dos profissionais com nivel universitério em duas regides, A e B. As informacées pertinentes foram obtidas e encontram-se no quadro abaixo, expressas em saldrios minimos. Esboce a distribuicao (histograma alisado) dos saldrios de cada regio, indicando no grafico as medidas apresentadas no qua- dro. Faga também uma descrigéo raépida das principais diferencas observadas nos graficos. Regido | Média | dp | Mediana | Moda | 4, a |X | to aa | Lait A | 20,00 | 4,00 | 20,32 | 20,15 | 17,32 | 22,68 | 8,00 | 8 | 20,00 | 400} 18,00 | 17,00 | 16,00 | 24,00 | 14,00 Construa o desenho esquematico para os dados do problema 6, do Capitulo 2. Obte- nha conclusées a respeito da distribuigGo, a partir desse desenho. Usando os dados da varidvel qualitativa regido de procedéncia, da Tabela 2.1, transfor- me-a na variével quantitativa X, definida do seguinte modo: X= {t se a regido de procedéncia for capital; 0, se a regido de procedéncia for interior ou outra. (a) Calcule ¥ e var(X). (b) Qual a interpretagdo de x? (c) Construa um histograma para X. 66 CAPITULO 3 — MEDIDAS-RESUMO a 38. No problema 9, do Capitulo 2, temos os resultados de 25 funciondrios em varios exa- mes a que se submeteram. Sabe-se agora que os critérios adotados em cada exame ndo sGo compardveis, por isso decidiu-se usar o desempenho relativo em cada exame. Essa medida seré obtida do seguinte modo: (i) Para cada exame serdo calculados a média X e 0 desvio padrao dp(X). (ii) A nota X de cada aluno seré padronizada do seguinte modo: X-x p(x)” (a) Interprete o significado de Z. (b) Calcule as notas padronizadas dos funciondrios para o exame de Estatistica. (c) Com os resultados obtidos em (b), calcule Ze dp(Z) (d) Se alguma das notas padronizadas estiver acima de 2dp(Z) ou abaixo de -2dp(Z), esse funciondrio deve ser considerado um caso atipico. Existe algum nessa situagéo? (e) O funciondrio | obteve 9,0 em Direito, em Estatistica e em Politica. Em que discipli- na o seu desempenho relativo foi melhor? 39. Média aparada. Se 0 Masculino | Feminino | — Total Economia. | 61% sex | 60% Administracéo | 39% 42% 40% | | Total | 100% =| 100% 100% Foe: bl 45 A partir dessa tabela podemos observar que, independentemente do sexo, 60% das pes- soas preferem Economia e 40% preferem Administracao (observe na coluna de total), Nao havendo dependéncia entre as varidveis, esperarfamos essas mesmas proporgdes para cada sexo. Observando a tabela, vemos que as proporgdes do sexo masculino (61% e 39%) e do sexo feminino (58% e 42%) so préximas das marginais (60% e 40%). Esses resultados parecem indicar nao haver dependéncia entre as duas varidveis, para 0 conjunto de alunos considerado. Concluimos entao que, neste caso, as varidveis sexo e escolha do curso pare- cem ser ndo associadas. 16 CAPITULO 4 — ANALISE BIDIMENSIONAL a Vamos considerar, agora, um problema semelhante, mas envolvendo alunos de Fisica e Ci€ncias Sociais, cuja distribuigdo conjunta esté na Tabela 4.7. Tabela 4.7: istribui¢do conjunta das freqiéncias e proporgdes (em porcentagem), segundo o sexo (X) e 0 curso es- _colhido (Y). Masculino, Feminino Total Fisica 100 (71%) | 20 (33%) | 120 (60%) Ciéncias Sociais | 40 (29%) | 40 (67%) | 80 (40%) Total 140 (100%) | 60 (100%) | 200 (100%) Fonte: Dados hipotitias. Inicialmente, convém observar que, para economizar espago, resumimos duas tabelas numa Unica, indicando as proporgdes em relagdo aos totais das colunas entre parénteses. Comparando agora a distribuigdo das proporgées pelos cursos, independentemente do sexo (coluna de totais), com as distribuigdes diferenciadas por sexo (colunas de masculino e feminino), observamos uma disparidade bem acentuada nas proporg6es. Parece, pois, haver maior concentragdo de homens no curso de Fisica e de mulheres no de Ciéncias Sociais. Portanto, nesse caso, as varidveis sexo e curso escolhido parecem ser associadas. Quando existe associagio entre varidveis, sempre é interessante quantificar essa associa- cdo, e isso ser4 objeto da préxima segao. Antes de passarmos a discutir esse aspecto, con- vém observar que terfamos obtido as mesmas conclusdes do Exemplo 4.2 se tivéssemos calculado as proporgdes, mantendo constantes os totais das linhas. 4,Usando 0s dados do problema 1, responda: ‘i _— a (a) Qual a distribuigéo das proporgdes do grau de educacgao segundo cada uma das regides de procedéncia? (b) Baseado no resultado anterior e no problema 2, vocé diria que existe dependéncia entre a regido de procedéncia e o nivel de educacao do funcionario? 5.Usando o problema 3, verifique se hd relagées entre as varidveis rotatividade e salério. 6.Uma companhia de seguros anolisou a freqéncia com que 2.000 segurados (1.000 homens e 1.000 mulheres) usaram o hospital. Os resultados forar - ~ | Homens | Mulheres Usaram o hospital 100 150 NGo usaram o hospital | 900 850 (a) Calcule a proporgéo de homens entre os individuos que usaram o hospital. (b) Calcule a proporcéo de homens entre os individuos que nao usaram o hospital. (c) © uso do hospital independe do sexo do segurado? ss 4.4 MEDIDAS DE ASSOCIACAO ENTRE VARIAVEIS QUALITATIVAS 77. 4.4 Medidas de Associacao entre Varidveis Qualitativas De modo geral, a quantificagdo do grau de associagdo entre duas varidveis € feita pelos chamados coeficientes de associagdo ou correlagdo. Essas sao medidas que descrevem, por meio de um tinico niimero, a associagao (ou dependéncia) entre duas varidveis. Para maior facilidade de compreensao, esses coeficientes usualmente variam entre 0 ¢ 1, ou entre -1e +1, ¢ a proximidade de zero indica falta de associagao. Existem muitas medidas que quantificam a associago entre varidveis qualitativas, apre- sentaremos apenas duas delas: 0 chamado coeficiente de contingéncia, devido a K. Pearson e uma modificacao desse. 1 I ‘ Queremos verificar se a criagao de determinado tipo de cooperativa esta associada 6 com algum fator regional. Coletados os dados relevantes, obtemos a Tabela 4.8. Tabela 4.8: Cooperativas autorizadas a funcionar por tipo e > estado, junho de 1974. Tipo de Cooperative Estado = T Consumidor | Produtor Escola Ootras Sao Paulo 214 (33%) | 237 (37%) | 78 (12%) | 119 (18%) | 648 (100%) Parana 51(17%) | 102 (34%) | 126 (42%) | 22(7%) | 301 (100%) RioG. do Sul | 111 (18%) | 304 (51%) | 139(23%) | 48 (8%) | 402 (100%) Totol | 376 (24%) | 643 (42%) | 343 (22%) | 189 (12%) | 1.551 (100%) Fonte: Sinopse Estria da Brosd — IBGE, 197. A anilise da tabela mostra a existéncia de certa dependéncia entre as varidveis. Caso nao houvesse associagiio, esperariamos que em cada estado tivéssemos 24% de coope- rativas de consumidores, 42% de cooperativas de produtores, 22% de escolas e 12% de outros tipos. Entao, por exemplo, o ntimero esperado de cooperativas de consumidores no Estado de Sao Paulo seria 648 x 0,24 = 156 e no Parana seria 301 x 0,24 = 72 (ver Tabela 4.9). Tabela 4.9: Valores esperados na Tabela 4.8 assumindo a independéncia entre as duas varidveis Evade Tipo de Cooperatva ul Consumidor | Produtor | Escola_| Outras Sao Paulo 136,(24%) 272 (42%) 142 (22%) | 78 (12%) 648 (100%) Parana 72 (24%) 127 (42%) 66 (22%) 36 (12%) “30} (100%) _ Rio G. do Sul 144 (24%) 254 (42%) 132 (22%) 72 (12%) | 602 (100%) “Total — | 76(24%) | 643 (42%) 189 (12%) | 1.551 (100%) Fonte: abla 48, 78 CAPITULO 4 — ANALISE BIDIMENSIONAL a Tabela 4.10: Desvios entre observados e esperados. Tipo de Cooperativa — Estado §9=—§ |}________— Consumidor Produtor Escola __ Outras Sao Paulo 58 (21,56) -35 (4,50) -64 (28,84) Al (21,55) Parané, ~21 (6,12) 25 (4,92) 60 (54,54) -14 (5,44) Rio G. do Sul ~33 (7,56) 50 (9,84) 7 (0,37) -24 (8,00) Fonte: Tobelas 4.8 & 4.9. Comparando as duas tabelas, podemos verificar as discrepncias existentes entre os valores observados (Tabela 4.8) e os valores esperados (Tabela 4.9), caso as varidveis nao fossem associadas. Na Tabela 4.10 resumimos os desvios: valores observados menos va- lores esperados. Observando essa tabela podemos tirar algumas conclusées: (i) Asoma total dos residuos é nula. Isso pode ser verificado facilmente somando-se (ii) resenta 0 maior desvio da suposigdo de ndo-associagaio (~64), Nessa casela esperivamos 142 casos. A casela Escola-Parand m tem um desvio alto (60), mas o valor esperado é bem menor (66). Portanto, se fossemos considerar os desvios relativos, aquele correspondente ao segundo caso seria bem maior. Uma maneira de observar esse fato é construir, para cada casela, a medida (o,=e,P i, 4. = (4.1) no qual o 6 0 valor observado ¢ ¢ & 0 valor esperado. Usando (4.1) para a casela Escola-Sao Paulo obtemos (~64)*/142 = 28,84 e para acasela Escola-Parané obtemos (60)/66= 54,54, 0 que € uma indicagio de que 0 desvio devido a essa tiltima casela é “maior” do que aquele da primeira. Na Tabela 4.10 indicamos entre parénteses esses valores para todas as caselas. Uma medida do afastamento global pode ser dada pela soma de todas as medidas (4.1). Essa medida € denominada 2’ (qui-quadrado) de Pearson, e no nosso exemplo terfamos H = 21,56 + 6,12 + ... + 8,00 = 173,24. Um valor grande de 2” indica associagao entre as varidveis, 0 que parece ser 0 caso. Antes de dar uma férmula geral para essa medida de associagao, vamos introduzir, na Tabela 4.11, uma notacao geral para tabelas de dupla entrada. a 4.4 MEDIDAS DE ASSOCIAGAO ENTRE VARIAVEIS QUALITATIVAS 79 Tabela 4.11: Notacdo para tabelas de contingén a B, . B . B | Total A ny, n,, n, ny, ny A A, w, | te i, ® , Trl. |e, | a, 5 a, | m Suponha que temos duas varidveis qualitativas X e Y, classificadas em r categorias A,, A, .., A, para X e s categorias B,, B,, ..., B,, para Y. yn A, i F Na tabela, temos: n, = nero de elementos pertencentes a i-ésima categoria de X e j-ésima categoria de Y N)), 2, = atimero de elementos da i-ésima categoria de X: n | Wt, = mimero de elementos da j-sima categoria de Y nosns= St =ntimero total de elementos. Sob a hipstese de que as varidveis X e Y nao sejam associadas (comumente iizemos independentes), temos que (4.2) ou ainda i Mi L.. ny on? . de onde se deduz, finalmente, que n,n. ay - N= oe GH, (43) Portanto, sob a hipstese de independéncia, de (4.3) segue que, em termos de freqlién- cias relativas, podemos escrever f, = ff). Chamando de freqiiéncias esperadas os valores dados pelos segundos membros de (4.3), e denotando-as por n}, temos que o qui-quadrado de Pearson pode ser escrito (44) onde 1, so os valores efetivamente observados. Se a hipstese de niio-associagio for verda- deira, 6 valor calculado de (4.4) deve estar préximo de zero. Se as varidveis forem associa- das, 0 valor de 2° deve ser grande. 80 CAPITULO 4 — ANALISE BIDIMENSIONAL Podemos escrever a formula (4.4) em termos de freqiiéncias relativas, como para a qual as notagdes so similares. cont que Pearson definiu uma medida de associac’o, baseada em (4.4), chamada coeficiente de tingéncia, dado por c= . a5 Vian @5) se interpreta de forma andloga ao coeficiente de correlagao, a ser definido mais adiante. Contudo, o coeficiente acima nao varia entre 0 e 1. O valor maximo de C depende de re s. Para evitar esse inconveniente, costuma-se definir um outro Coeficiente, dado por que [in (r=Ds-1)? (4.6) atinge o maximo igual a 1 se r= Para o exemplo 4.3 temos que C= 32 e T= 0,11. Voltaremos a falar do uso do # no Capitulo 13. 7 @ | Usando os dados do problema 1, jpolcule o valor de X? e o coeficiente de contingéncia C. Esses valores estao de acordo! com as conclusdes obtidas anteriormente? | Qual o valor de Xe de C para os dados do problema 3? E para o problema 6? Calcule 7. A Companhia A de dedetizagdo afirma que o processo por ela utilizado garante um efeito mais prolongado do que aquele obtido por seus concorrentes mais diretos. Uma amostra de varios ambientes dedetizados foi colhida e anotou-se a duragéo do efeito de dedetizagdo. Os resultados estao na tabela abaixo. Vocé acha que existe alguma evidéncia a favor ou contra a afirmagéo feita pela Companhia A? Duracio do efeito de dedetizacéo C hi ‘Menos de De 4a8 Mais de ‘ompanhia | 4 meses meses | 8 meses A 64 120 16 B 104 175 2 c 27 48 ag 4.5 ASSOCIAGAO ENTRE VARIAVEIS QUANTITATIVAS 8] 4.5 Associacao entre Varidveis Quantitativas Quando as varidveis envolvidas sdo ambas do tipo quantitativo, pode-se usar 0 mesmo. tipo de andlise apresentado nas seg6es anteriores e exemplificado com varidveis qualitati- vas. De modo andlogo, a distribuico conjunta pode ser resumida em tabelas de dupla entra- da e, por meio das distribuigdes marginais, é possivel estudar a associagdo das varidveis. Algumas vezes, para evitar um grande nimero de entradas, agrupamos os dados marginais em intervalos de classes, de modo semelhante ao resumo feito no caso unidimensional. Mas, além desse tipo de andlise, as varidveis quantitativas so passiveis de procedimentos analiticos e graficos mais refinados. Um dispositivo bastante util para se verificar a associagaio.entre duas varidveis quantita- tivas, ou entre dois conjuntos de dados, € 0 grdfico de dispersdo, que vamos introduzir por meio de exemplos. Exemy Na Figura 4.2 temos o grafico de dispersdo das varidveis X ¢ Y da Tabela 4.12. Nesse tipo de grafico temos os possiveis pares de valores (x, y), na ordem que aparecem. Para 0 exemplo, vemos que parece haver uma associagao entre as varidveis, porque no conjunto, 4 medida que aumenta o tempo de servigo, aumenta o ntimero de clientes. Tabela 4.12: Numero de anos de servico (X) por numero de clientes (Y) de agentes de uma companhia de seguro: Anos de servico Nomero de clientes (x) yy A 2 48 3 50 4 56 5 52 4 43 6 60 7 62 8 58 8 64 0 72 e-rOmmIne Fonte: Dados hots, 82 CAPITULO 4— ANALISE BIDIMENSIONAL a 4.2 Grifco de dispersio para as varies X: Nomero clientes & 3 Fxcr Consideremos os dados das varidveis X: populacao urbana e Y: populagio rural, do CD-Brasil. O grifico de dispersdo esta na Figura 4.3. Vemos que parece nao haver associagdo entre as varidveis, pois os pontos nao apresentam nenhuma tendéncia particular. Grafico de dispersdio para as varidveis X: po- pulagtio urbana e ¥: populagao rural. 2 . 23.10 | | 8 . . s we = ow ° & a O 5-10 107 2-107 3.107 Populagéo urbana Consideremos agora as duas situagdes abaixo e os respectivos grificos de dispersio. Tabela 4.13: Renda bruta mensal (x) e porcentagem da renda gasta em saide (¥) para um conjunto de familias. Fania | 72 7.4 7,0 65 66 67 | 60 56 60 | 54 L 55 Fonte: Datos higatis. L-rammone> a 4.9 ASSOCIACAO ENTRE VARIAVEIS QUANTITATIVAS — 83 (a) Numa pesquisa feita com dez familias com renda bruta mensal entre 10 e 60 saldrios minimos, mediram- X: renda bruta mei (expressa em numero de salarios minimos). Y: a porcentagem da renda bruta anual gasta com assisténcia médica; os dados estado na Tabela 4.13. Observando o grafico de dispersdo (Figura 4.4), vemos que existe uma associacao “inversa”, isto é, aumentando a renda bruta, diminui a porcentagem sobre ela gasta em assisténcia médica. Figur Grafico de disperséo para as varidveis X: renda bruta e ¥: % renda gasta com satide. Antes de passarmos ao exemplo seguinte, convém observar que a disposig&io dos dados da Tabela 4.13 numa tabela de dupla entrada nao iria melhorar a compreensao dos da- dos, visto que, devido ao pequeno ntimero de observacées, teriamos caselas cheias ape- nas na diagonal. (b) Oito individuos foram submetidos a um teste sobre conhecimento de Ifngua estrangeira e, em seguida, mediu-se 0 tempo gasto para cada um aprender a operar uma determinada maquina. As varidveis medidas foram: X: resultado obtido no teste (méximo = 100 pontos); ¥: tempo, em minutos, necessdrio para operar a maquina satisfatoriamente. Grifico de disperséo para as varidveis X: resultado no teste e Y: tempo de operagdo. 50 Co 70 80 90 Resultado teste | 84 CAPITULO 4— ANALISE BIDIMENSIONAL a Tabela 4.14: Resultado de um teste (X) e tempo de ope- rago de maquina (Y) para cito individuos. Individuo x y A 45 343 B 52 368 c 61 355 D 70 334 E 74 337 F 7% 381 S 80 345 H 9 | 375 Fonte: Dodos bigots. Os dados estao na Tabela 4.14. Do grafico de dispersao (Figura 4.5) concluimos que parece nao haver associagao entre as duas varidveis, pois conhecer o resultado do teste nao ajuda a prever o tempo gasto para aprender a operar a mAquina. A partir dos grdficos apresentados, verificamos que a representacio grifica das varid- veis quantitativas ajuda muito a compreender o comportamento conjunto das duas varidveis quanto a existéncia ou nao de associagao entre elas. Contudo, é muito util quantificar esta associagao. Existem muitos tipos de associagdes possfveis, e aqui iremos apresentar o tipo de relagdo mais simples, que é a linear. Isto é, iremos definir uma medida que avalia o quanto a nuvem de pontos no grafico de dispersio aproxima-se de uma reta. Esta medida sera definida de modo a variar num intervalo finito, especificamente, de -1 a +1. Consideremos um grifico de dispersdo como o da Figura 4.6 (a) no qual, por meio de uma transformagdo conveniente, a origem foi colocada no centro da nuvem de dispersio. Aqueles dados possuem uma associagio linear direta (ou positiva) e notamos que a grande maioria dos pontos esta situada no primeiro e terceiro quadrantes. Nesses quadrantes as coordenadas dos pontos tém 0 mesmo sinal, e, portanto, o produto delas ser sempre positi vo. Somando-se 0 produto das coordenadas dos pontos, 0 resultado sera um ntimero positivo, pois existem mais produtos positivos do que negativos. Tipos de associagées entre duas variéveis. Para a dispersdo da Figura 4.6 (b), observamos uma dependéncia linear inversa (ou negativa) e, procedendo-se como anteriormente, a soma dos produtos das coordenadas sera negativa. a 4.5 ASSOCIAGAO ENTRE VARIAVEIS QUANTITATIVAS. 85 Finalmente, para a Figura 4.6 (c), a soma dos produtos das coordenadas ser zero, pois cada resultado positivo tem um resultado negativo simétrico, anulando-se na soma. Nesse caso nao hd associagao linear entre as duas varidveis. Em casos semelhantes, quando a distribuigdo dos pontos for mais ou menos circular, a soma dos produtos ser4 aproximada- mente zero. Baseando-se nesses fatos é que iremos definir 0 coeficiente de correlacao (linear) entre duas varidveis, que é uma medida do grau de associagao entre elas e também da proximida- de dos dados a uma reta. Antes, cabe uma observagdo. A soma dos produtos das coordena- das depende, e muito, do ntimero de pontos. Considere 0 caso de associagao positiva: a soma acima tende a aumentar com o nimero de pares (x, y) e ficaria dificil comparar essa medida para dois conjuntos com ntimeros diferentes de pontos. Por isso, costuma-se usar a média da soma dos produtos das coordenadas. Voltemos aos dados da Tabela 4.12. O primeiro problema que devemos resolver 0 da mudanga da origem do sistema para 0 centro da nuvem de dispersio. Um ponto conveniente é (x, y), ou seja, as coordenadas da origem serdo as médias dos valores de X e Y. As novas coordenadas estéo mostradas na quarta e quinta colunas da Tabela 4.15. Observando esses valores centrados, verificamos que ainda existe um problema quanto a escala usada. A varidvel Y tem variabilidade muito maior do que X, e 0 produto ficaria muito mais afetado pelos resultados de Y do que pelos de X. Para corrigirmos isso, podemos reduzir as duas varidveis a uma mesma escala, dividindo-se os desvios pelos respectivos desvios padrdes. Esses novos valores estdo nas colunas 6 e 7. Observe as mudangas (escalas dos eixos) de varidveis realizadas, acompanhando a Figura 4.7. Finalmente, na coluna 8, indicamos os produtos das coordenadas reduzidas e sua soma, 8,769, que, como esperdva- mos, é positiva. Para completar a definigao dessa medida de associagao, basta calcular a média dos produtos das coordenadas reduzidas, isto é, correlagao (X,Y) = 8,769/10 = 0,877. Tabela 4.15: Calculo do coeficiente de correlacdo. Anos | Clientes | vi y = | fa | A 2 48 -3,7 85 -1,54 | 1,05 1,617 B 3 | 50 | -27 6,5 112 -| ~~ ~0,80 0,846 c 4 56 | -1,7 0,5 071 | -0.08 0,043 dp | 5 52 07 45 029 | 0,55 0,160 E 4 43 “1,7 3,5 0,71 | -1,66 1,179 F 6 60 03 | 35 0,12 0,43 ~} 0,052 G | 7 62 13] 55 0,54 0,68 | 0,367 H 8 58 23) 15 0,95 019 0,181 1 8 64 23 | 7,5 0,95 0,92 0,874 J io | 72 43 | 15,5 1,78 1,91 | 3,400 Total | 57 | 565 | 0 0 8,769 I ~ ve57. dylX) = 241 y= 5605, ap) 28.11 86 CAPITULO 4 — ANALISE BIDIMENSIONAL a Portanto, para esse exemplo, o grau de associagao linear est quantificado por 87,7%. Figura 4.7: Mudanga de escalas para 0 calculo do coeficiente de correlagéo. 15 10 Da discussao feita até aqui, podemos definir 0 coeficiente de correlagdo do seguinte modo. Definicdv. Dados n pares de valores (x, ,), (x 3) de correlacdo entre as duas varidveis Xe Ya +s (%,5 ¥,), Chamaremos de coeficiente com (X, ¥) = > pool sh (4.7) ou seja, a média dos produtos dos valores padronizados das varidveis. Nao € dificil provar que o coeficiente de correlagao satisfaz -1 26,5 Porto Alegre 43-4, % 16,6 Recife 7030 36,6 Fortaleza 13,0 ~ 38,4 Ante: Indcadoes Soca poa Aves Urbonas — IBGE — 1977, (a) Faca 0 diagrama de disperséo. (b) Vocé acha que existe uma dependéncia linear entre os duas varidveis? (c) Calcule 0 coeficiente de correlagao. (d) Existe alguma regido com comportamento diferente das demais? Se existe, elimine 0 valor correspondente e recalcule 0 coeficiente de correlagéo. 12. Usando os dados do problema 3: (0) Construa a tabela de frequéncias conjuntas para as varidveis X [numero de empre- gos nos dois ultimos anos) e ¥ (salério mais recente) (b) Como poderia ser feito © grafico de dispersao desses dados? (c) Calcule 0 coeficiente de correlagao. Baseado nesse nimero vocé diria que existe dependéncia entre as duas variaveis?