Você está na página 1de 537
Pedro A. Morettin Professor Titular do Instituto de Matematica e Estatistica da Universidade de Sao Paulo. Master in Arts e PhD em Estatistica pela Universidade da Califérnia, Berkeley. Wilton de O. Bussab Professor Adjunto do Escola de Adminstapdo de Empresas de Séo Paul, da Fundagéio Getulio Varga: Mestre em Estatistica pela Universidade de ‘Sao Paulo e PhD pela London School of Economics. ESTATISTICA "BASICA 5? edicao 2004 (AD Saraiva Kr - Editora Saraiva ‘i Marqu®s de Sto Vie, 1697 - CEP 01138-904 Bara Funda ~ Tel: PABK (0X11) 3613-3000 Fea (XK) 3611-3908 ~ Teles: (OKKT) 3618-3344 Fax Ventas (OXX1) 3611-268 ~ So Palo-SP Endo ra: ip: eras. com br Distribuidores Regionais [AMAZONAS/RONDONIA/RORAIMAVAGRE ua Costa Azevedo, 56 — Cito Foe: (0X92) 633-4227 / 633-4782 — Manaus BAHINSERGIPE ripno Dora, 23 — Bolas Fone: (0X71) 381-8854 / 381-5895 / 381-0959 — Salvador BAURUISAO PAULO (sala dos protessores) ua Morsenhor Ciao, 255/257 — Cenivo Fone: (OXK14) 234-5643 / 234-7401 — Bauru CAMPINASYSAO PAULO (sala dos protessores) ua Camargo Pimentel, 860 — 14. Guanabara Fone: (OXK9) 3243-8004 / 3243-8259 — Campinas CEARAPIAUI ‘Av. Filomena Gomes, 670 — Jacarecanga Fone: (O65) 236 2323 / 8-14 28-1381 — Foalera DISTRITO FEDERAL SIG Su 04.3 — Bl B — Loja 97 — Selo Ings Graco Fone: (0X61) 344-2920 / 344-2951 / 344-1709 — Braslia GOIAS/TOCANTINS ‘hu. Independncia, 6230 — Setar Aaropato Fone: (0X62) 225-2882 / 212-2806 / 224-3016 — Goidnia ‘MARANHAO RR Godoledo Viana, 546 — Cento Fone: (99) 524-0032 — Imperati MATO GROSSO 00 SULIMATO GROSSO ua 14 de Julho, 3148 — Centro Fane (D7) 392-3682 / 382-0112 — Campo Grande MINAS GERAIS. ua Padre Eustaquio, 2818 — Pade Eustquio Fone: (OXK31) 3412-7080 / 3412-7085 — Belo Horizonte PARA Travessa Apinagés, 186 — Batista Campos Fone. (OXK91) 272-9034 / 224-9038 / 241-0409 — Belém PARANA/SANTA CATARINA ua Corseheiro Laurindo, 2895 — Prado Velho Fone: (Oxxs) 332-4894 — Curia PERNAMBUCO/PARAIBA/R, G. DO NORTE ua Cortedor do Bispo, 185 — Boa Vista Foe; (OXXB1) 3421-4246 / 3421-4510 — Recile RIBEIRAO PRETO/SAO PAULO ua Pade Fei, 373 — Vila Tivo Fone. (OXK16) 610-5843 / 610-8264 — Riberdo Preto RIO DE JANEIRO/ESPIRITO SANTO ua Visconde de Sana sabe, 13.2 119 — Vila lsabel Fane (0X%21) 257-9494 297-87 (2577-9565 — Ro e Jano RIO GRANDE D0 SUL ‘A, Coat, 1360 — Sao Geraldo Fone: (OXK51) 3343-1457 / 3343-7563 / 3343-2006 / 3343-7469 Porto Alegre ‘SAO JOSE DO RIO PRETO/SAO PAULO (Sala dos protessores) ‘Brig Faria Lima, 6363 — Rio Preto Shopping Center — V Sao Jose Fone: (X17) 227-3819 / 227-0982 / 227-5249 — Sao Jost do Rio Preto Ao JOSE DOS CAMPOS/SAO PAULO ‘sala dos protessares) ‘a Sara Lua, 106 — Jd. Santa Malena * (OK12) 3901-0732 — San Jose dos Campos PAULO de Sao Vicente, 1697 — Barra Funda 187 (OKXT1) 3613-000 / 9611-3908 — So Paulo SA ISBN 85-02-03497-9 Dados Internacionais de Catalogagao na Publicagao (CIP) (Camara Brasileira do Livro, SP, Brasil) Bussab, Wilton deQ., 1940- Estatistica basica / Wilton de 0. Bussab, Pedro A. Morettin — 5. ed. — Sao Pauilo : Saraiva, 2004. Bibliograta 1. Econometria 2. Economia matematica 3. Estatistica ‘matemética 4. Estatistica matemdtica - Problemas, exercicios etc. |. Morettin, Pedro A., 1942- Il. Titulo 01-1614 Indices para catélogo sistematco: 1. Estatistica econdmica : Matematica estatistica 519.5 2. Estatistica matemitica 519.5 cop -519.5 Copyright © Wilton de O. Bussab e Pedro A. Morettin 2002 Editora Saraiva ‘Todos os direitos reservados. Diretor editorial: Henrique Farinha Gerente editorial: Flavia Helena Dante Alves Bravin Baitor: Karina Maria Ramos Guimarées Assistente de marketing editorial: Gisele da Silva Guerra Assistentes de producio editorial: Rita de Céssia da Silva Juliana Rodrigues de Queiréz Coordenadora de revisio: Livia M. Giorgio Gerente de arte: Nair de Medeiros Barbosa ‘Capa: Ricardo de Krishna ‘Arte e Producdo: Tavares Servigos de Pré-impressio S/C Lida. 5 edicao IF tiragem 2002 2 tiragem 2003, 3 tiragem 2003 4 tiragem 2004 Nenhuma parte desta publicago podera ser reproduzida por qual- quer meio ou forma sem a prévia autorizagdo da Eaitora Saraiva A violacao dos direitos autorais é crime estabelecido na Lei n. 9.610198 e punido pelo artigo 184 do Cédigo Penal. Para ligia e Célia “A vida é complicada, mas ndo desinteressante.”” SUMARIO Prefacio & Quinta Edicao ¢ Xill Capitulo 1 — Preliminares 1 1.1 Introdugdo . 1 1.2 Modelos 1 1.3 Técnicas Computacionais 2 1.4 Métodos Graficos 3 1.5 Conjuntos de Dados 4 1.6 Plano do Livro 4 Parte | — Andlise Exploratoria de Dados Capitulo 2 — Resumo de Dados . . . 9 2.1 Tipos de Varidveis Le Le 9 2.2 Distribuicdes de Freqiéncias . 2. 2.3 Grdficos * » 18 2.3.1 Grdficos para Varidveis Qualitativas . . 15 2.3.2 Graficos para Varidveis Quantitativas 16 2.4 Ramo-e-Folhas sroresweacnra sou oe a 20 2.5 Exemplos Computacionais 23 2.6 Problemas e Complementos ............+ L026 Capitulo 3 — Medidas-Resumo .... coe 85 3.1 Medidas de Posicao ee 35 3.2 Medidas de Dispersao : 37 3.3 Quantis se nerve 4) 3.4 Desenho Esquemético (Box Plots) a 48 3.5 Graficos de Quantis . ‘ 51 3.6 Transformacées . bicceeecees 58 3.7 Exemplos Computacionais ..............5 .. 55 3.8 Problemas e Complementos . ee aa eowne 58 Capitulo 4 — Andlise Bidimensional 69 4.1 Introdugdo.. 2.2... bocce 69 4.2 Varidveis Qualitativas aaweme 7 ESTATISTICA BASICA 4,3 Associacéo entre Varidveis Qualitativas . . . L. 74 4.4 Medidas de Associacao entre Varidveis Quolitativas 77 4.5 Associacao entre Varidveis Quantitativas 81 4.6 Associacao entre Varidveis Qualitativas e Quantitativas 87 4.7 Gréficosqxq ..- 1 4.8 Exemplos Computacionais 93 4.9 Problemas e Complementos : a 95 Parte Il — Probabilidades Capitulo 5 — Probabilidades ’ 103 5.1 Introdugao 103 5.2 Algumas Propriedades woe. 106 5.3 Probabilidade Condicional e Independéncia oe 1M 5.4 O Teorema de Bayes ... ‘ - 116 5.5 Probabilidades Subjetivas 121 5.6 Problemas e Complementos 122 Capitulo 6 — Varidveis Aleatérias Discretas ‘ea re 128 6.1. Introdugdo 2c eee 128 6.2 O Conceito de Variavel Aleatéria Discreta 129 6.3 Valor Médio de uma Varidvel Aleatéria ..... . 135 6.4 Algumas Propriedades do Valor Médio vse. 137 6.5. FuncGo de Distribuicao Acumulada . . 138 6.6 Alguns Modelos Probabilisticos para Varidveis Aleatérias Discretas ..... 0.6.60. 0 00020 e ee 140 6.6.1 Distribuicéo Uniforme Discreta 140 6.6.2 Distribuigao de Bernoulli... . 6.6.3 Distribuicgao Binomial . . “6.6.4 Distribuigéo Hipergeométrica 6.6.5 Distribuicao de Poisson 6.7 O Processo de Poisson . %6.8 Quantis ..........-. %6.9 Exemplos Computacionais ......... 6.10 Problemas e Complementos ......... Capitulo 7 — Varidveis Aleatérias Continuas ............... 162 7.1 Introducéo 162 7.2 Valor Médio de uma Voriével Aleatéria Continua 166 7.3 Fungo de Distribuicao Acumulada .......« . 169 SUMARIO 7.4 Alguns Modelos Probobilisticos para Varidveis Aleatérias Continuas cess 7.4.1 © Modelo Uniforme ... . 7.4.2 © Modelo Normal ..... 7.4.3 © Modelo Exponencial ... 7.5. Aproximacéo Normal a Binomial 7.6 Funcées de Varidveis Continuas. . 7.7 Outros Modelos Importantes 7.7.1 A Distribuigao Gama 7.7.2.4 Distribuicéo Qui-Quadrado 7.7.3. A Distribuicdo t de Student 7.7.4 A Distribuicdo F de Snedecor 7.8 Quantis 7.9. Exemplos Computacionais 7.10 Problemas e Complementos Capitulo 8 — Varidveis Aleatrias Multidimensionais . . 8.1 Distribuigéo Conjunta 8.2 Distribuicdes Marginais e Condicionais 8.3 Funcées de Varidveis Aleatérias 8.4 Covaridncia entre Duas Varidveis Aleatérias 8.5 Varidveis Continuas . “ 8.6 Distribuicdes Condicionais Continuas .. . 8.7 Funcées de Varidveis Continuas . 8.8 Distribuicao Normal Bidimensional ...... . 8.9 Problemas e Complementos Capitulo 9 — Nogées de Simulasao . veces 9.1 Introducéo 9.2 Simulacao de Varidveis Aleatorias 9.3 Simulacéio de Alguns Modelos 9.4 Exerplos Computacionais 9.5 Problemas e Complementos Parte Ill — Inferéncia Estatistica Capitulo 10 — Introducao a Inferéncia Estatistica 10.1. Introdugéo 10.2 Populagao e Amostra 10.3. Problemas de Inferéncia 172 173 175, 180 .. 180 - 183 186 - 186 187 189 190 192 193 194 . 200 200 203 - 206 - 211 - 216 220 .. 224 .. 225 . 228 231 255 255 ( x ESTAT{STICA BASICA | 10.4 Como Selecionar uma Amosira wna 260 10.5 Amostragem Aleatéria Simples . . vise. 262 10.6 Estatisticas e Parémetros . . . sanendy ‘265 10.7 Distribuicdes Amostrais .... . nunwoceases ‘266 | 10.8 Distribuicao Amostral da Média - 271 10.9 Distribuicéo Amostral de uma Proporcéo ......... 275 10.10 Outras Distribuicdes Amostrais 277 10.11 Determinacéo do Tamanho de uma Amostra 280 10.12 Exemplos Computacionais ........ : 282 10.13 Problemas e Complementos ........ wees. 283 Capitulo 11 — Estimagéo 289 11.1. Primeiras Idéias pevectseventssvensesses 20 11.2 Propriedades de Estimadores SESKRKENEES exy 291 11.3. Estimadores de Momentos . . . 297 11.4. Estimadores de Minimos Quadrados .... . . os. 298 11.5. Estimadores de Maxima Verossimilhanca 301 11.6. Intervalos de Confianga een . 303 11.7. Erro Padrao de um Estimador ¢ 309 11.8. Inferéncia Bayesiana 310 11.9 Exemplos Computacionais . . . - 313 11.10 Problemas e Complementos ............ 317 Capitulo 12 — Testes de Hipdteses .... . woveces 323 12.1 Introdugéo. . 323 12.2 Um Exemplo 323 12.3 Procedimento Geral do Teste de Hipoteses ..... 330 12.4 Passos para a Construcéo de um Teste de | . Hipdteses 20.25. e eee cence eee ee eee 332 12.5. Testes sobre a Média de umo « Populacao com i Voriéncia Conhecida .... 2... 0. aussaaeaess O02 } 12.6 Teste para Proporcéo 334 12.7 Poder de um Teste saass SOF 12.8 Probabilidade de Significancia ........ senses 341 12.9 Teste para a Varidncia de uma Normal. . . 344 12.10 Teste sobre a Média de uma Normal com Variéncia Desconhecida .... a ANeaNa SUNS 347 12.11 Problemas e iComplerienios; Wen GRAS AAAS 351 Capitulo 14 — Andlise de Aderéncia e Associacéo SUMARIO Capitulo 13 — Inferéncia para Duas Populacdes 13.1 Iniroducéo 13.2 Comparacée das Variéncios de Duos Populacées Normais 13.3 Comparacéo de Duos Popslacoess Anottas Independentes ....... ee 13.3.1 Populagdes Normais 13.3.2 Populacoes Nao-Normais . 13.4 Comparagado de Duas Populagées: Amostras Dependentes 13.4.1 Populacéo Normal ...... 0.0.00 eevee e 13.4.2 Populacéo Néo-Normal . 13.5 Exemplo Computacional 13.6 Problemas e Complementos 14.1 Introducéo re 14.2 Testes de Aderéncia 14.3 Testes de Homogeneidade 14.4 Testes de Independéncia ......... SracURRa aE 14.5 Teste para o Coeficiente de Correlacéo 14.6 Outro Teste de Aderéncia 14.7 Problemas e Complementos . Capitulo 15 — Inferéncia para Varias Populacées 15.1 Introdugao 15.2 Modelo para Duas Subpopulacées . 15.2.1 Suposicbes 15.2.2 Estimagéo do Modelo .. . 15.2.3 Intervalos de Confianca 15.2.4 Tobela de Andlise de Variéncia 15.3 Modelo para Mais de Duos Subpopulacées 15.4 Comparagoes entre as Médias 15.5 Teste de Homocedasticidade 15.6 Exemplo Computacional 15.7 Problemas e Complementos . 355 355 358 361 . 362 366 375 . 375 377 .. 381 . 384 389 .. 389 . 392 396 401 404 . 407 410 410 415 415 416 419 . 420 424 427 429 430 431 xl ESTAT{STICA BASICA Capitulo 16 — Regressao Linear Simples 16.1 Introdugéo 16.2 Estimacao dos Pardmetros 16.3 Avaliagéo do Modelo 16.3.1 Estimador de o2 ..... “ 16.3.2 Decomposicao da Soma de Quadrados 16.3.3 Tabela de Andlise de Variéncia 16.4 Propriedades dos Estimadores 16.4.1 Média e Varidncia dos Estimadores : 16.4.2 Distribuigdes Amostrais dos Estimadores dos Parametros oo eee eee eee . 16.4.3 Intervalos de Confianca para we Be... 66.4. 16.4.4 Intervalo de Confianca para pt (2) e Intervalo de Predicao ......... 16.5 Andlise de Residuos 16.6 Alguns Modelos Especiais . 16.6.1 Reta Passando pela Origem 16.6.2 Modelos Nao-Lineares 16.7 Regressdo Resistente 16.8 Exemplos Computacionais 16.9 Problemas e Complementos .......... Bibliografia Conjuntos de Dados Tabelas Respostas 6.0... » 436 439 441 441 443 445 447 448 449 . 452 . 454 . 460 . 460 . 462 . 466 468 - 470 . 48) 483 - 493 508 PREFACIO A QUINTA EDICAO Bua edig&o é uma revisao substancial da edigZo anterior deste livro. Cinco novos capitulos foram adicionados, e os demais foram revisados e atualizados. Cremos que este texto, com a escolha adequada dos t6picos, possa ser utilizado por alunos de diversas areas do conhecimento. O Site do Professor, disponivel na Internet (http://www.cditorasaraiva.com.br/uni), fornece uma discussao mais longa sobre roteiros apropriados para cursos de diferentes niveis, além de conter as resolugdes da maioria dos problemas do livro. Com essa filosofia em mente, procuramos incluir no texto uma quantidade de infor- magao substancial em cada capitulo. Obviamente caberd ao professor escolher o material apropriado para cada curso desenvolvido. | Olivro é dividido em trés partes. A primeira trata da andlise de dados unidimensionais e bidimensionais, com atengao especial a métodos graficos. Pensamos que a leitura dessa parte é essencial para 0 bom entendimento das demais. Recomendamos que o aluno trabalhe com dados reais, embora isso nao seja uma necessidade essencial, pois normal- mente um primeiro curso de estatistica é dado no inicio do programa do aluno, que nao possui ainda um conhecimento s6lido dos problemas de sua 4rea. A segunda parte trata dos conceitos basicos de probabilidades e varidveis aleatérias. Finalmente, na terceira parte, estudamos os t6picos principais da inferéncia estatistica, além de alguns temas especiais, como regressao linear simples. Um capitulo sobre nogGes de simulagao foi adicionado, pois tais nogGes so hoje fundamentais em muitas areas. O uso de algum pacote computacional é fortemente recomendado para a pratica dos conceitos desenvolvidos. Apresentamos exemplos de aplicagées utilizando alguns desses pacotes: Minitab, Excel e SPlus. Mas, evidentemente, outros pacotes poderdo ser usados. No final do livro, apresentamos varios conjuntos de dados que poderao ser utiliza- dos pelos alunos. Esses dados também esto disponiveis nas seguintes pdginas da Internet: hitp: //www.ime.usp.br/~pam hitp://www.editorasaraiva.com.br/uni Finalmente, agradecemos a todos aqueles que enviarem sugestées e comentarios com a finalidade de melhorar a presente edic&o. Para tanto, além do correio normal, os leitores | poderao usar os enderegos eletrénicos dos autores: morettin@editorasaraiva.com.br e bussab @ editorasaraiva.com.br, Os Autores Capitulo 1 Preliminares 1.1 Introdusao Em alguma fase de seu trabalho, o pesquisador depara com o problema de analisar e entender um conjunto de dados relevante ao seu particular objeto de estudos. Ele necessita- r4 trabalhar os dados para transformé-los em informagdes, para comparé-los com outros resultados, ou ainda para julgar sua adequagao a alguma teoria. De modo bem geral, podemos dizer que a esséncia da Ciéncia é a observacdo e que seu objetivo bisico é a inferéncia, que pode ser dedutiva (na qual se argumenta das premissas ds conclusées) ou indutiva (por meio da qual se vai do especifico ao geral). A inferéncia estatistica é uma das partes da Estatistica. Esta é a parte da metodologia da Ciéncia que tem por objetivo a coleta, redugao, andilise e modelagem dos dados, a partir do que, finalmente, faz-se a inferéncia para uma populacao da qual os dados (a amostra) foram obtidos. Um aspecto importante da modelagem dos dados é fazer previsdes, a partir das quais se podem tomar decisdes. Na primeira parte deste livro estaremos interessados na reducao, andlise e interpretagao dos dados sob consideragaio, adotando um enfoque que chamaremos de andlise exploratéria de dados (AED). Nessa abordagem tentaremos obter dos dados a maior quantidade possivel de informacao, que indique modelos plausfveis a serem utilizados numa fase posterior, a andlise confirmatéria de dados (ou inferéncia estatistica). Tradicionalmente, uma anilise descritiva de dados limita-se a calcular algumas medi- das de posigao e variabilidade, como a média e variancia, por exemplo. Contraria a essa tendéncia, uma corrente mais moderna, liderada por Tukey (1977), utiliza principalmente técnicas grdficas, em oposigio a resumos numéricos. Isso no significa que sumérios ndo devam ser obtidos, mas uma analise exploratéria de dados nao deve se limitar a calcular tais medidas. 1.2 Modelos Fundamentalmente, quando se procede a uma anilise de dados, busca-se alguma forma de regularidade ou padréo ou, ainda, modelo, presente nas observacées. | | 2 CAPITULO | — PRELIMINARES a Imagine que estejamos estudando a relagdo entre rendimentos e gastos de consumo de um conjunto de individuos. Podemos obter um grafico como o da Figura 1.1.0. que se espera, intuitivamente, é que os gastos de um individuo estejam diretamente relacio- nados com os seus rendimentos, de modo que é razoavel supor uma “relagao linear” entre essas duas quantidades. Os pontos da Figura 1.1 nao esto todos, evidentemente, sobre uma reta; essa seria 0 nosso padrao ou modelo. A diferenga entre os dados e 0 modelo constitui os residuos. Relagdio entre consumo e rendimento. Consumo Podemos, ento, escrever de modo esquemitico: Dados = Modelo + Residuos ou, ainda, D=M+R. (1) A parte M é também chamada parte suave (ou regular ou, ainda, previsivel) dos dados, enquanto R é a parte aleatéria. A parte R é tao importante quanto M, e a andlise dos residuos constitui uma parte fundamental de todo trabalho estatistico. Basicamente, sao os residuos que nos dizem se o modelo é adequado ou nao para representar os dados. De modo coloquial, 0 que se deseja é que a parte R nao contenha nenhuma “suavidade”, caso contrério mais ‘agdio” é necessdria. Uma anilise exploratoria de dados busca, essencialmente, fornecer informagGes para estabelecer (1.1). 1.3 Técnicas Computacionais desenvolvimento rapido e constante na érea de computacao foi acompanhado pela introdugao de novas técnicas de andlise de dados, notadamente de métodos graficos e de métodos chamados de computagio intensiva (como 0 método bootstrap, que seré tratado brevemente neste livro). a 1.4 METODOS GRAFICOS 3 Para a implementagao dessas técnicas, foram desenvolvidos pacotes estatfsticos, atual- mente usados em larga escala tanto no meio académico como em indistrias, bancos, érgaos de governo etc. Esses pacotes podem ser genéricos ou especificos. Os pacotes genéricos (como o Minitab, SPlus, BMDP, SPSS, SAS etc.) séo adequados para realizar uma gama variada de andlises estatfsticas. Os pacotes especificos siio planejados para realizar andlises particulares de uma determinada drea. Por outro lado, os pacotes podem exigir maior ou menor experiéncia computacional dos usudrios. Alguns operam com menus, € seu uso é mais simples. Outros requerem maior familiaridade com 0 computador e so baseados em linguagens préprias. Do ponto de vista de sistema operacional, a maioria dos pacotes é programada para uso em microcomputadores que operam com o sistema Windows. Todavia, um ntimero razodvel de pacotes j4 tem versdes para o sistema Unix, usado em estacdes de trabalho (workstations). Em alguns exemplos deste livro usaremos alguns pacotes e, em cada caso, explicitaremos qual estd sendo usado. Nao queremos fazer recomendagdes sobre nenhum pacote em parti- cular, porque cremos que o leitor utilizar aquele com o qual estiver mais acostumado, ou aquele(s) que estiver(em) a sua disposi¢ao. Listamos, na Tabela 1.1, alguns pacotes genéricos utilizados na drea de Estatistica. Sa- lientamos, também, que existem planilhas & venda no mercado que possuem opgdes para certas técnicas estatisticas. Dentre estas, mencionamos 0 Excel e 0 Lotus. Tabela 1.1: Alguns pacotes estatisticos genéricos. Pacote Ambiente Fabricante BMDP | WIN, UNIX | BMDP Stat. Soft, USA. MINTAB =| WIN Minitab, Inc., USA SAS WIN SAS Institute, Inc., USA SPLUS WIN, UNIX | Math Soft, Inc. SPSS WIN SPSS, Inc., USA STATGRAPHICS WIN Stat. Graphics, Inc., USA Além dos pacotes estatisticos, ha outros pacotes de grande utilidade para realizar tarefas, matemiticas. Dentre estes, mencionamos 0 Mathematica, o Maple, 0 Gauss ¢ 0 Matlab. 1.4 Métodos Graficos Como dissemos na introdugo, os métodos grificos tm encontrado um uso cada vez maior devido ao seu forte apelo visual. Normalmente, é mais facil para qualquer pessoa enten- der a mensagem de um grifico do que aquela embutida em tabelas ou sumarios numéricos. Os gréficos sao utilizados para diversos fins (Chambers et al., 1983): (a) buscar padrdes e relagdes (b) confirmar (ou nao) certas expectativas que se tinha sobre os dados: (c) descobrir novos fendmenos: (d) confirmar (ou nao) suposigdes feitas sobre os procedimentos estatisticos usados; (e) apresentar resultados de modo mais rapido e facil 4 CAPITULO 1 — PRELIMINARE Podemos usar métodos graficos para plotar os dados originais ou outros dados deriva- dos deles. Por exemplo, a investigacio da relacao entre as varidveis da Figura 1.1 pode ser feita por meio daquele diagrama de dispersiio. Mas podemos também “ajustar” uma reta aos dados, calcular 0 desvio (residuo) para cada observagiio e fazer um novo grfico, de consu- mo contra residuos, para avaliar a qualidade do ajuste. Com o progresso recente da computagao grafica e a existéncia de hardware e software adequados, a utilizagao de métodos graficos torna-se rotineira na andlise de dados. Contu- do, muitos grificos podem ser feitos sem o recurso de programas de computador. Neste texto introduziremos gréficos para a visualizacao e resumo de dados, no caso de uma ou duas varidveis, principalmente. Nogdes para o caso de trés ou mais varidveis serio rapidamente abordadas. Grdficos com o propésito de comparar duas distribuigdes também serao tratados. 1.5 Conjuntos de Dados No final do livro aparecem alguns conjuntos de dados que serao utilizados nos exem- plos ou nos exercicios propostos. Aconselhamos 0s leitores a reproduzir os exemplos, usan- do esses dados, bem como resolver os problemas, pois somente a efetiva manipulagao de dados pode levar a um bom entendimento das técnicas apresentadas. Os conjuntos de dados apresentados provém de diferentes fontes, que sio mencionadas em cada conjunto e depois explicitadas nas referénci: Os leitores, é claro, poder usar as técnicas apresentadas em seus prdprios conjuntos de dados. Como salientamos na se¢do 1.3, usaremos alguns programas computacionais disponi- veis para anilises estatisticas. Decidimos pela utilizagao de dois pacotes, o SPlus ¢ 0 Minitab, e de uma planilha, o Excel. Embora o tiltimo nao possa ser considerado um aplicativo esta- tistico, sua grande difusao entre os usudrios de computadores pessoais motivou nossa escolha. Alguns conjuntos de dados sao parte de conjuntos maiores. Todos esses dados podem ser obtidos no enderego: http://www.editorasaraiva.com.br/uni Usaremos um nome curto para identificar cada conjunto de dados. Por exemplo, 0 Con- junto de Dados 1 sera designado simplesmente por CD-Brasil, o Conjunto de Dados 4, por CD-Poluigao etc. 1.6 Plano do Livro Na primeira parte do livro trataremos, nos Capitulos 2 a 4, de técnicas graficas e numé- ricas que nos permitiro fazer uma primeira andlise dos dados disponiveis. No Capitulo 2 estudaremos como resumir os dados por meio de distribuigdes de freqiiéncias e como representi-los graficamente por meio de grificos em barras, histogramas e ramo-e-folhas. No Capitulo 3 veremos as principais medidas numéricas resumidoras de um conjunto de dados: medidas de posigao (ou localizago) e medidas de dispersio (ou de variabilidade). a 1.6 PLANO DO LIVRO 5 A partir dessas medidas poderemos construir graficos importantes, como o griifico de quantis e 0 desenho esquemitico (ou box plot). No Capitulo 4 trataremos do caso em que temos duas varidveis. Estaremos interessados em verificar se existe alguma associagao entre duas varidveis e como medi-la. O caso de trés varidveis seré considerado brevemente. Na segunda parte introduzimos os conceitos basicos sobre probabilidades e varidveis aleat6rias. A idéia é que a primeira parte sirva de motivagdo para construir os modelos probabilisticos da segunda parte. No Capitulo 5 tratamos da nogao de probabilidade, suas propriedades, probabilidade condicional e independéncia. Também consideramos 0 teorema de Bayes e destacamos sua importancia em problemas de inferéncia. As varidveis aleatorias discretas so estudadas no Capitulo 6 e as continuas, no Capitulo 7. Em particular, sao intro- duzidos os principais modelos para varidveis aleatérias. O caso de duas varidveis aleatérias € considerado no Capitulo 8. No Capitulo 9 introduzimos nogées basicas de simulagiio. Esse assunto é muito impor- tante, notadamente quando se quer avaliar algum modelo construfdo para uma situagao real. A terceira parte trata da inferéncia estatistica. Nesta parte todos os conceitos apreen- didos nas duas partes anteriores so imprescind{veis. Os dois grandes problemas de inferéncia, estimagio e teste de hip6teses sao estudados nos Capitulos 11 e 12 respectiva- mente, ap6s serem introduzidas no Capitulo 10 as nogées basicas de amostragem e distri- buigdes amostrais. O caso de duas populagdes é considerado no Capitulo 13 e de varias populagdes no Capitulo 15. Basicamente, sao desenvolvidos testes para médias, propor- Ges e varidncias. O Capitulo 14 trata dos chamados testes do qui-quadrado para dados que aparecem sob a forma de tabelas de contingéncia. Finalmente, no Capitulo 16 estuda- mos com algum detalhe o modelo de regressao linear simples. Em cada capitulo ha, sempre que possivel, uma se¢ao com exemplos computacionais. Isso significa que algum conjunto de dados é analisado utilizando-se um ou alguns dos programas mencionados acima. Em geral, sio problemas um pouco mais dificeis do que aqueles exemplificados nas demais segdes ou, ento, tém o cardter de ilustrar 0 uso de tais pacotes para simulacdes, por exemplo. Recomendamos que 0 leitor tente reproduzir esses exemplos para adquirir experiéncia na manipulagao de dados e procura de eventuais mode- los que possam representé-los. Parte 1 ANALISE EXPLORATORIA DE DADOS Capitulo 2 Resumo de Dados Capitule 3am Medidas-Resumo Capitulo 4 Andlise Bidimensional Capitulo 2 Resumo de Dados 2.1 Tipos de Variaveis Para ilustrar 0 que segue, consideremos 0 seguinte exemplo. ’ |. Um pesquisador esté interessado em fazer um levantamento sobre alguns aspectos socioeconémicos dos empregados da seco de orgamentos da Companhia MB. Usando informagées obtidas do departamento pessoal, ele elaborou a Tabela 2.1. De modo geral, para cada elemento investigado numa pesquisa, tem-se associado um (ou mais de um) resultado correspondendo & realizagdo de uma caracteristica (ou caracteris- ticas). No exemplo em questao, considerando-se a caracteristica (varidvel) estado civil, para cada empregado pode-se associar uma das realizagées, solteiro ou casado (note que poderia haver outras possibilidades, como separado, divorciado, mas somente as duas mencionadas foram consideradas no estudo). Podemos atribuir uma letra, digamos X, para representar tal varidvel. Observamos que o pesquisador colheu informagoes sobre seis varidvei Variével Representacdo Estado civil Xx Grau de instrucéio y Numero de filhos Zz Salario | s Idade U V Regio de procedéncia Algumas varidveis, como sexo, educagio, estado civil, apresentam como poss{veis rea- lizagdes uma qualidade (ou atributo) do individuo pesquisado, ao passo que outras, como ntimero de filhos, salério, idade, apresentam como possiveis realizacées ntimeros resultan- tes de uma contagem ou mensuragao. As varidveis do primeiro tipo sao chamadas qualitati- vas, e as do segundo tipo, quantitativas. 10 CAPITULO 2 — RESUMO DE DADOS [| Dentre as varidveis qualitativas, ainda podemos fazer uma distingao entre dois tipos: varidvel qualitativa nominal, para a qual no existe nenhuma ordenagao nas possiveis reali- zagoes, e varidvel qualitativa ordinal, para a qual existe uma ordem nos seus resultados. A regido de procedéncia, do exemplo 1.1, é um caso de varidvel nominal, enquanto grau de instrugdo é um exemplo de varidvel ordinal, pois ensinos fundamental, médio e superior correspondem a uma ordenacio baseada no ntimero de anos de escolaridade completos. A varidvel qualitativa classe social, com as possiveis realizagées alta, média e baixa, é outro exemplo de variavel ordinal. De modo andlogo, as varidveis quantitativas podem sofrer uma classificagao dicotémi- ca: (a) varidveis quantitativas discretas, cujos possiveis valores formam um conjunto finito ou enumerdvel de ntimeros, e que resultam, freqiientemente, de uma contagem, como por exemplo ntimero de filhos (0, 1, 2, ...); (b) varidveis quantitativas continuas, cujos possiveis valores pertencem a um intervalo de ntimeros reais ¢ que resultam de uma mensuracio, como por exemplo estatura e peso (melhor seria dizer massa) de um individuo. A Figura 2.1 esquematiza as classificagdes feitas acima. Classificagdo de uma varidvel. _» Nominal nap Quolitativa <<< ee "~* Ordinal Variével oN _— Discreta oN Quantitativa << a “~*~ Continua Para cada tipo de varidvel existem técnicas apropriadas para resumir as informagées, donde a vantagem de usar uma tipologia de identificago como a da Figura 2.1. Entretanto, verificaremos que técnicas usadas num caso podem ser adaptadas para outros. Para finalizar, cabe uma observacdo sobre varidveis qualitativas. Em algumas situagdes podem-se atribuir valores numéricos as varias qualidades ou atributos (ou, ainda, classes) de uma varidvel qualitativa e depois proceder-se a andlise como se esta fosse quantitativa, desde que 0 procedimento seja passivel de interpretacio. Existe um tipo de varidvel qualitativa para a qual essa quantificagdo € muito dtil: a chamada varidvel dicotémica. Para essa varidvel s6 podem ocorrer duas realizagoes, usual- mente chamadas sucesso e fracasso. A varidvel estado civil no exemplo acima estaria nessa situacdo. Esse tipo de varidvel apareceré mais vezes nos proximos capitulos. a 2.2 DISTRIBUICOES DE FREQUENCIAS — 1] Tabela 2.1: Informacées sobre estado civil, grau de instrucdio, numero de filhos, salério (expresso como fragéio do salario minimo), idade (medida em anos e meses) e pi cia de 36 empregados da segdo de orcamentos da Companhia MB. Ne Estado. Grau de Ne de Salério Idade Regido de civil instrugao. filhos | (x sal. min.) [“Gnos | meses | Procedéncia 1 | solteiro | ensino fundamental | — 4,00 26 | 03 interior 2 | casado | ensino fundamental 1 4,56 32 10 capital 3. | casado | ensino fundamental | 2 5,25 36 | 05 copital 4 | solteiro ersino médio - 573 20 | 10 outra 5 | solteiro | ensino fundamental - 6,26 40 07 outra 6 | casado | ensino fundamental 0 6,66 28 00 interior 7 | solteiro | ensino fundamental | — 6,86 41 | 00 interior 8 | solteiro | ensino fundamental | — 739 43 | 04 capital 9 | casado | — ensino médio 1 7,59 34 | 10 capital 10 | solteiro ensino médio - 7,Ad 23 | 06 outra 11 | casado | ensino médio 2 812 33 | 06 interior 12 | solteiro | ensino fundamental | — 8,46 7s} copital 13 | solteiro | ensino médio - 874 37 | 05 outra 14 | casado | ensino fundamental | 3 8,95 44 | 02 outra 15 | casado ensino médio ° 9,13 30 | 05 interior 16 | solteiro ensino médio - 9,35 38 | 08 outra 17 | casado ensino médio 1 977 31 07 capital 18 | casado | ensino fundamental | 2 9,80 39 | 07 outra 19 | solteiro superior - 10,53 25 | 08 interior 20 | solteiro ensino médio - 10,76 37 04 interior 21 | casado ensino médio 1 11,06 30 | 09 outra 22 | solteiro ensino médio - 11,59 34 | 02 capital 23. | solteiro | ensino fundamental | — 12,00 41 | 00 outra 24 | casado superior 0 12,79 26 | o1 outra 25 | casado ensino médio 2 13,23 32 | 08 interior 26 | casado ensino médio 2 13,60 35 00 outra 27, | solteiro | ensino fundamental | — 13,85 46 | 07 outra 28 | casado ensino médio 0 14,69 29 | 08 interior 29. | casado ensino médio 5 14,71 40. | 06 interior 30 | casado ensino médio 2 15,99 35 10 capital 31 | solteiro superior - 16,22 31 | 05 outra 32 | casado | — ensino médio 1 16,61 36 | 04 interior 33 | casado superior 3 17,26 43 | 07 copital 34 | solteiro superior = 18,75 33 07 capital 35 | casado ensino médio 2 19,40 48 W capital 36 | casado superior 3 23,30 42 | 02 interior Fonte: Dados hipotétics. 2.2 Distribuigées de Freqiiéncias Quando se estuda uma varidvel, o maior interesse do pesquisador é conhecer 0 compor- tamento dessa varidvel, analisando a ocorréncia de suas possiveis realizagdes. Nesta seco 12 CAPITULO 2 — RESUMO DE DADOS a veremos uma maneira de se dispor um conjunto de realizac6es, para se ter uma idéia global sobre elas, ou seja, de sua distribuigao. i xcmplo 2.2. A Tabela 2.2 apresenta a distribuigdo de freqiiéncias da varidvel grau de instrugdo, usando os dados da Tabela 2.1. Tabela 2.2: Freqiéncias e porcentagens dos 36 emprega- dos da secéio de orgamentos da Companhia MB segundo o grau de Grau de Freqiiéncia | Propor¢éo | Porcentagem instrugao 100 f, Fundamental 33,33 Médio 50,00 Superior 16,67 Total 100,00 — Rent: Tbe 2. Observando os resultados da segunda coluna, vé-se que dos 36 empregados da compa- nhia, 12 tém o ensino fundamental, 18 0 ensino médio e 6 possuem curso superior. Uma medida bastante titi] na interpretagao de tabelas de freqiiéncias é a propor¢do de cada realizagao em relaco ao total. Assim, 6/36 = 0,1667 dos empregados da companhia MB (seco de orgamentos) tém instrugdo superior. Na ultima coluna da Tabela 2.2 sio apresentadas as porcentagens para cada realizagao da variével grau de instrugao. Usaremos a nota¢do n, para indicar a freqiiéncia (absoluta) de cada classe, ou categoria, da varidvel, e a notagao f, = n/n para indicar a proporedo (ou fregiiéncia relativa) de cada classe, sendo n © mimero total de observagdes. As proporgées sao muito titeis quando se quer comparar resultados de duas pesquisas distintas. Por exemplo, suponhamos que se queira comparar a varidvel grau de instrugaio para empregados da seg’io de orgamentos com a mesma varivel para todos os empregados da Companhia MB. Digamos que a empresa tenha 2.000 empre- gados e que a distribuicao de freqiiéncias seja a da Tabela 2.3. Tabela 2.3: Freqléncias e porcentagens dos 2.000 empregados da Companhia MB, segun- do o grau de instrugéo. | Freqiéncia | Porcentagem Grau de instrugao A 100 j Fundamental 650 32,50 1.020 51,00 330 16,50 2.000 100,00 Foe: Dados higoéis. a 2.2 DISTRIBUICOES DE FREQUENCIAS — 13 Nao podemos comparar diretamente as colunas das freqiiéncias das Tabelas 2.2 e 2.3, pois os totais de empregados sao diferentes nos dois casos. Mas as colunas das porcenta- gens sio compardveis, pois reduzimos as freqiiéncias a um mesmo total (no caso 100). A construgao de tabelas de freqiiéncias para varidveis continuas necessita de certo cuidado. Por exemplo, a construgao da tabela de freqiiéncias para a varidvel salério, usan- do o mesmo procedimento acima, nao resumira as 36 observagdes num grupo menor, pois nao existem observag6es iguais. A solugdo empregada é agrupar os dados por faixas de salario. Fxemplo 2.3. A Tabela 2.4 dé a distribuigdo de freqtiéncias dos salérios dos 36 empregados da segdo de orcamentos da Companhia MB por faixa de salarios. Tabela 2.4: Freqiiéncias e porcentagens dos 36 empre- agora decent de egarpenlorsi Toon nhia MB por faixa de salério. Close de scan | Freire] Porcetegem 4,00 8,00 | 10 (O78 800+ 1200 | 12 33,33 12,00 F 16,00 8 22,22 16,00 F 20,00 5 13,89 20,00 F 24,00 1 2,78 Total 36 100,00 Fonte: Tbela 2.1, Procedendo-se desse modo, ao resumir os dados referentes a uma varidvel continua, perde-se alguma informagio. Por exemplo, no sabemos quais sio 0s oito salérios da classe de 12 a 16, a nao ser que investiguemos a tabela original (Tabela 2.1). Sem perda de muita precisiio, poderiamos supor que todos 0s oito saldrios daquela classe fossem iguais ao ponto médio da referida classe, isto é, 14 (0 leitor pode verificar qual o erro cometido, comparan- do-os com os dados originais da Tabela 2.1). Voltaremos a este assunto no Capitulo 3. Note que estamos usando a notagao a F b para o intervalo de ntimeros contendo o extremo a mas nao contendo o extremo b. Podemos também usar a notagdo [a, b) para designar 0 mesmo intervalo a b. A escolha dos intervalos é arbitréria e a familiaridade do pesquisador com os dados é que Ihe indicaré quantas ¢ quais classes (intervals) devem ser usadas. Entretanto, deve- se observar que, com um pequeno ntimero de classes, perde-se informaco, e com um ndmero grande de classes, 0 objetivo de resumir os dados fica prejudicado. Estes dois extremos tém a ver, também, com o grau de suavidade da representagao grdfica dos da- dos, a ser tratada a seguir, baseada nestas tabelas. Normalmente, sugere-se 0 uso de 5 a 15 classes com a mesma amplitude. O caso de classes com amplitudes diferentes é tratado no problema 10. 4 CAPITULO 2— RESUMO DE DADOS a 1. Escalas de medidas. A seguir descrevernos outros possiveis critérios para classificar varié- veis, em fungdo da escala adotada. Observe a similaridade com a classificagéo apresen- tada anteriormente. Nossas observacées sdo resultados de medidas feitas sobre os elementos de uma populacao. Existem quatro escalas de medidas que podem ser consideradas: Escala nominal. Nesta escala somente podemos afirmar que uma medida é diferente ou néo de outra, e ela é usada para categorizar individuos de uma populagéo. Um exemplo 0 sexo de um individuo. Para cada categoria associamos um numeral diferente (letra ou ndmero). Por exemplo, no caso de sexo: podemos associar as letras M (masculino) e F (feminino) ou 1 (masculino) e 2 (feminino). Néo podemos realizar operacées aritméticas aqui e uma medida de posigéo apropriada é a moda. (As medidas citadas nesse proble- ma, como a média, mediana e moda, sao definidas no Capitulo 3.) Escala ordinal. Aqui podemos dizer que uma medida é diferente e maior do que outra. Temos a situagGo anterior, mas as categorias sGo ordenadas, e a ordem dos numerais associados ordena as categorias. Por exemplo, a classe socioeconémica de um individuo pode ser baixa (1 ou X), média (2 ou Y) e alta (3 ou Z). Transformacées que preservam a ordem nao alteram a estrutura de uma escala ordinal. No exemplo acima, podemos representar as categorias por 1, 10 e 100 ou A, L e Z. Medidas de posigao apropriadas séo a mediana e a moda. Escala intervalar. Nesta escala podemos afirmar que uma medida é igual ou diferente, maior e quanto maior do que outra. Podemos quantificar a diferenca entre as categorias da escala ordinal. Necessitamos de uma origem arbitraria e de uma unidade de medi- da. Por exemplo, considere a temperatura de um individuo, na escala Fahrenheit. A origem é 0° F ea unidade é 1° F. Transformagées que preservam a estrutura dessa escala sdo do tipo y = ax + b, a>0. Por exemplo, a transformagdo y = 5/9 (x — 32) transforma graus Fahrenheit em centigrados. Para essa escala, podemos fazer operacées aritméti- cas, e média, mediana e moda sGo medidas de posicéo apropriadas. Escala razao. Dadas duas medidas nessa escala, podemos dizer se sdo iguais, ou se uma é diferente, maior, quanto maior e quantas vezes a outra. A diferenca com a escala intervalar 6 que agora existe um zero absoluto. A altura de um individuo 6 um exemplo de medida nessa escala. Se ela for medida em centimetros (cm), 0. cm é a origem e 1 cm é a unidade de medida. Um individuo com 190 cm é duas vezes mais alto do que um individuo com 95 cm, e esta relagdo continua a valer se usarmos 1 m como unidade. Ou seja, a estrutura da escala razdo nao é alterada por transformacées da forma y= cx, c> 0. Por exemplo, y = x/100 transforma cm em m. As estatisticas apropriadas para a escala intervalar sao também apropriadas para a escala razdo. Para cada uma das varidveis abaixo, indique a escala usualmente adotada para resumir os dados em tabelas de freqéncias: (a) Salérios dos empregados de uma industria. (b) Opiniéo de consumidores sobre determinado produto. (c) Némero de respostas certas de alunos num teste com dez itens. (d) Temperatura didria da cidade de Manaus. (e) Porcentagem da receita de municipios aplicada em educagao. (f) Opinido dos empregados da Companhia MB sobre a realizagdo ou nao de cursos obrigatérios de treinamento. (g) QI de um individuo. a 2.3GRAFICos 15 2. Usando os dados da Tabela 2.1, construa a distribuicdo de freqiéncias das varidveis: (a) Estado civil. (b) Regido de procedéncia. (c) Nomero de filhos dos empregados casados. (d) Idade. 3. Para o Conjunto de Dados | (CD-Brasil), construa a distribuicao de freqiéncias para as varidveis populacdo urbana e densidade populacional. 2.3 Graficos Como ja salientamos no Capitulo 1, a representagdo gréfica da distribuigio de uma varidvel tem a vantagem de, rapida e concisamente, informar sobre sua variabilidade. Exis- tem varios graficos que podem ser utilizados e abordaremos aqui os mais simples para varidveis quantitativas. No Capitulo 3, voltaremos a tratar deste assunto, em conexdo com medidas associadas & distribuigéo de uma varidvel. 2.3.1 Graficos para Varidveis Qualitativas Existem varios tipos de gréficos para representar varidveis qualitativas. Varios so ver- sdes diferentes do mesmo principio, logo nos limitaremos a apresentar dois deles: grAficos em barras e de composigao em setores (“pizza” ou retangulos). {_acmplo 2.4. Tomemos como ilustragdo a varidvel ¥: grau de instrugdo, exemplificada nas Tabelas 2.2 e 2.3. O grafico em barras consiste em construir reténgulos ou barras, em que uma das dimensdes é proporcional 2 magnitude a ser representada (n, ou f.), sendo a outra arbitrdria, porém igual para todas as barras. Essas barras so dispostas paralelamente umas As outras, horizontal ou verticalmente. Na Figura 2.2 temos o grafico em barras (verticais) para a varidvel Y. Gréfico em barras para a varidvel ¥: grau de instrugdo. 20 8 8 10 : Fundamental f ya 16 CAPITULO 2 — RESUMO DE DADOS a Jé 0 grafico de composigaio em setores, sendo em forma de “pizza” o mais conhecido, destina-se a representar a compo: , usualmente em porcentagem, de partes de um todo. Consiste num circulo de raio arbitrério, representando o todo, dividido em setores, que correspondem as partes de maneira proporcional. A Figura 2.3 mostra esse tipo de grafico paraa varivel Y. Muitas vezes é usado um retngulo no lugar do circulo, para indicar 0 todo. Figure 2.3: Gréfico em setores para a varidvel ¥: grau de instrugao. 1 (12; 33,3%) 2 (18; 50,0%) 3(6; 16,7%) 1 = Fundomental, 2 = Médio e 3 = Superior 2.3.2 Graficos para Varidveis Quantitativas Para varidveis quantitativas podemos considerar uma variedade maior de representa- des grificas. Exemplo 2.5. Considere a distribuigdo da varidvel Z, nimero de filhos dos empregados casados da se¢iio de orgamentos da Companhia MB (Tabela 2.1). Na Tabela 2.5 temos as freqiiéncias e porcentagens. Além dos graficos usados para as varidveis qualitativas, como ilustrado na Figura 2.4, podemos considerar um grafico chamado grdfico de dispersao unidimensional, como o da Figura 2.5 (a), em que os valores sao representados por pontos ao longo da reta (provida de uma escala). Valores repetidos so acompanhados por um ntimero que indica as repeticdes. Outra possibilidade é considerar um grafico em que os valores repetidos so “empilhados”, um em cima do outro, como na Figura 2.5 (b). Pode-se também apresentar o ponto mais alto da pilha, como aparece na Figura 2.5 (c). Figure: 2.4: Gréfico em barras para a variével Z: numero de filhos.