Você está na página 1de 56
‘Anse Explratiin de Daes 1 1. Introducgao A Estatistica possui um papel fundamental na tomada de decisdes em organizagbes piiblicas ¢ privadas. Em algumas éreas do conhecimento tais como, medicina, biologia ¢ economia as aplicagdes tém recebido muito destaque. Nas Universidades disciplinas de estatistica sdo obrigatérias na maioria cursos de graduagdo ¢ em muitos de pés-graduagao. Podemos ainda adicionar, 0 desenvolvimento de novos produtos na indiistria e no setor de servigos. As aplicagdes da Estatistica estdo todas as atividades humanas envolvidas com a coleta, organizago e anélise de dados. Por conseguinte, no resumo desses dados em informagao para testar hipsteses cientificas sobre um fendmeno observivel. Grandes companhias de varejo do comércio eletrénico de lojas fisicas, por exemplo, geram grande volume de dados de varias varidveis de interesse de fornecedores, produtos clientes. Esses dados necessitam ser resumidos ¢ analisados com a intengio de se obter vantagem competitiva. Isso pode ser feito de forma adequada com o uso de métodos estatisticos ¢ apoio de softwares. 1.1. Conceitos Basicos Definigao 1.1: A Estatfstica € a ciéncia que tem como objetivo a obtengdo, organizagao, anélise e interpretagio de um conjunto de dados associado a um determinado fendmeno. Além disso, a formulagao de modelos mateméticos para fazer inferéncia sobre uma populagao. A inferéncia estatistica tem como objetivo fazer afirmagies sobre as caracterfsticas de uma populagio a partir de uma amostra representativa. Estas afirmagbes podem ser apresentadas juntamente com uma probabilidade de erro. Definigo 1.2: Estatistica Descritiva é um conjunto de procedimentos para construir um determinado resumo dos dados observados de uma ou mais varidveis associadas a um experimento aleatério em estudo, ‘Anse Explratiia de Dados 2 A estatistica descritiva também denominada anélise exploratéria de dados representa uma fase importante do método estatistico. Tem como objetivo a coleta, organizagao e resumo dos dados por meio de tabelas, gréficos ¢ medidas numéri s. Definigdo 1.3: Populagdo é o conjunto 2 de todos os resultados possiveis de um experimento que temos interesse em estudar. pode ser finito, infinito enumerdvel ou infinito néo- cenumerdvel, Definigo 1.4: Amostra é um subconjunto da populagio. Em geral as letras n e N sao utilizadas para representar o tamanho da amostra ¢ da populagdo, respectivamente, A letra grega maitiscula 0, tem sido utilizada para representar a populagdo. A Figura 1.1 apresenta uma interpretagdo geométrica de uma populagao e de uma amostra 2 . amostra de £2 Figura 1.1 - Representagao esquemtica de uma populagdo e uma amostra, Definigao 1.5: Técnicas da amostragem é um conjunto de técnicas utilizadas para a obtengao de uma amostra representativa da populagao. Exemplos de utilizagao: pesquisa de mercado, pesquisa de opiniio publica, testes de medicamentos, controle de qualidade de produtos, entre outros. Definig&o 1.6: Varidvel é aquilo que se deseja observar para se tirar algum tipo de informagao do experimento em estudo, por exemplo: opinido sobre a compra de um produto, idade, peso, altura, sexo, renda de um individuo, tempo de vida de um paciente, tempo de espera numa fila de um supermercado. ‘Anse Explratiia de Dados 3 Definigfo 1.7: Dados s io observagdes de uma ou mais varidveis. O conjunto de dados provem de uma amostra, a qual representa uma populagao de interesse. © desenvolvimento de novos softwares estatfsticos e 0 aumento do uso dos computadores tem facilitado 0 emprego da Estatistica Descritiva em diversas dreas do conhecimento. A inferéncia estatistica utiliza a teoria das probabilidades e resumos de dados de uma amostra (@,,2,-**,@,) pata tirar conclusées sobre a populagdo. Os Exemplos 1.1 ¢ 1.2 a seguir ilustram esta situagao. Exemplo 1.1 - Para avaliar 0 desempenho de candidatos em determinado intervalo de tempo de uma campanha eleitoral, um instituto de pesquisa de opinio utiliza um conjunto de dados de uma pesquisa por amostragem da populagao de eleitores. O objetivo principal é estimar a proporgao de votos de cada candidato. Considere um certo candidato A. Entéo, podemos chamar de Pp a proporgao de eleitores na populagdo que tém intengao de votar no candidato A, ede B a proporgao de pessoas na amostra que expressam intengao de voto em A Para estimar a proporgao p da populacio utiliza-se o valor de __#A b= em que, #4 é 0 mimero de pessoas na amostra que tem intengao de votar no candidato A en 0 tamanho da amostra. Numa eleigéo para governador, os institutos de pesquisa de opinido observam periodicamente amostras de eleitores para obter estimativas de intengao de voto da populagao. A estimativa p da proporgao p de eleitores na populagao é divulgada de acordo uma margem de erro, ¢ = p — p. Além disso, um intervalo de confianga, (f - ¢, 6 + £). A margem de erro pode ser fixada antes da realizagao do experimento ¢ depende do tamanho da amostra n. Pela lei dos grandes ntimeros ¢ tende para 0 (zero) quando n tende para oo (infinito) com probabilidade 1 Considere a variével X representando o ntimero de eleitores na amostra que tem intengao de votar no candidato A. Entao, podemos escrever f na forma ‘Anse Explratiia de Dados 4 _Xx bey Desde que n < N , podemos, por exemplo, fixar um erro amostral ¢ = 0.02. Note que, x x ——0.02 095 (1) © imervalo (4 — 0.02; + 0.02) ¢ chamado intervalo de confianga para p. Sendo que, 0 nivel de confianga é 0.95. Note que, qualquer n suficientemente grande ird satisfazer a expresso (1.1). A determinagio de n usa recursos da teoria das probabilidades, em particular, o teorema central do limite que pode ser explorado em disciplinas de probabilidade ¢ inferéncia estatistica. Despre: zando alguns detalhes técnicos, segue da expresso (1.1) que 0.02 = 1.96/p0— p/n Sendo que, 1.96 representa o percentil 97.5 de uma distribuigao de probabilidade Normal padronizada. Isto implica que n = 9604p(1—p). Em muitas aplicagdes, como a deste exemplo, nao hé informagio adicional sobre 0 valor verdadeiro de p. Entio, admite-se p = 1/2, 0 valor de p que maximiza p(1— p). Como resultado, n = 2401. A Figura 1.2 apresenta a estimativa simulada da proporgao de votos do candidato A baseado em uma amostra de tamanho 2401. Candidato A Candidato B % 02 02 04 05 06 ot oo Figura 1. 2- Resultado simulado da proporgio de votos do candidato A. ‘Anse Explratiin de Dados 5 Apés a divulgacao da pesquisa de opinio pelos érgaos de imprensa, algumas questdes podem surgir ao eleitor. Como foi determinado o tamanho da amostra n ?; Que informagio importante 0 instituto de pesquisa de opiniao nao apresentou? Exemplo 1.2 - Determinagio do tamanho de uma populagao (WN). Considere uma populagao formada por um conjunto de N taxis de uma cidade ¢ que os téxis so enumerados de 1a N. Para estimar o mimero N de taxis da cidade, foi anotado os niimeros de todos os taxis que um turista pegou: 440,73, 179, 405 ¢ 280. Como devemos escolher uma estimativa para N? Os dados ordenados podem ser representados por: (73, 179, 280, 405, 440), Estimativa de N pelo Método do Extremo: Uma estimativa € obtida somando 0 maior valor na amostra (440) com a lacuna do menor valor (72). Ou seja, NW = 440 + 72 = 512 Observar que a lacuna entre dois valores dados foi definida pela quantidade de inteiros entre cles, Entao, a lacuna entre 405 ¢ 440 € (440 — 405 —1) = 34 (existem 34 mimeros inteiros entre 405 e 440). Estimativa de N usando Mediana da Amostra: Outra estimativa de N 6 obtida somando-se 0 valor mediano da amostra (280) com sua lacuna (279). Ou seja, N = 280 + 279 = 559. Estimativa de N pela Média das Lacunas: Considere agora as lacunas observadas na amostra, isto €, 0 n° de observagdes entre dois valores ordenados da amostra. Os tamanhos das lacunas observadas sio: 72, 105, 100, 124 ¢ 34. A média das lacunas é dada por: X= (72 + 105 + 100 + 124 + 34)/5 = 87. Portanto, outra estimativa é dada por: N = 440 + 87 = 527. Como poderfamos escolher 0 método de estimagio a ser usado? Esta questio € tratada em Inferéncia Estatistica. A Estatistica Descritiva, é 0 objeto de estudo dos Capitulos 2 ¢ 3. 1.2 Cédigos em R usados no Capitulo 1 ##t Cédigos em R do Exemplo 1.1 rm(list=Is(all=TRUE)) x=rbinom(n=2401, size =1,prob=0.58)# sim=1, 0=ndo nelength(x) summary(x) # resumo da varidvel (ou vetor )x ‘mean(x) # média de x var (x) # variancia de x sd(x) # desvio padrao dex ‘## usando 0 Basics require ( fBasics ) # carrega o pacote fBasics basicStats (x) y=c("Candidato A”, "Candidato B") fize(sum(x), n-sum(x)) pxefi/n barplot(pxnames=as character(y), ylim=c(0,1.4*max(px)), ylat ren", main=" ‘Anse Explratiia de Dados 7 2. Dados Univariados A Estatistica Descritiva retine um conjunto de técnicas para resumir os dados em tabelas, grificos e medidas descritivas que permitem tirar informagdes contidas nos dados, Num conjunto de dados podemos ter dois tipos de varidveis, as quamtitati S © as qualitativas. Variaveis Quantitativas: Sao varidveis numéricas obtidas por contagens ou ‘mensuragao, podem ser discretas ou continuas. * Varidveis discretas: estdo associadas a dados de contagem, por exemplo, X ‘Niimero de ususrios atendidos mensalmente numa biblioteca; X = Numero de clientes numa fila esperando atendimento; X = mimero de caras voltadas para cima em 20 langamentos de uma moeda honesta, + Varidveis continuas: estdo associadas a medidas de tempo, peso, altura, volume, érea, .... capacidade. Por exemplo, T = Tempo de atendimento em Yy minutos a um usudrio ou cliente; X = peso em kg de um individu ota obtida por um aluno numa prova de matematica. Variaveis Qualitativas ou Categéricas: Sio variéveis nio numéricas em que os resultados sio categorias ou atributos. Por exemplo, opinido sobre um produto comprado em uma loja de esporte: {étimo, bom, regular, ruim, péssimo); resultado do langamento de uma moeda uma nica vez: {cara, coroa); resposta sobre a instalagao ou nao de um aplicativo num smartphone: {sim, nao}; resultado sobre a qualidade de um produto fabricado: {perfeito, defeituoso}. Em geral, as varidveis qualitativas podem ser codificadas numericamente, por exemplo, "sim = 1" ¢ "nao = 0" Apés a coleta ou obtengao dos dados ¢ a construgao de um banco de dados, como resumir e organiz: Seges 2.1 € 2.2. los de uma maneira informativa? A resposta a esta questdo é tratada nas 2.1. fabelas e Graficos Apés a coleta dos dados a construgao de um banco de dados pode ser feita em forma de planilha em um software estatistico para facilitar o resumo de interesse, Um exemplo de um banco de dados é dado pela Tabela 2.1 TABELA 2.1 - Amostra aleatéria de tamanho 20 de algumas varidveis coletadas numa pesquisa com estudantes da graduagdo em Matematica da UFMA em setembro de 2010. Aluno PL P2 PB P7a P10B P24 B 3 2 P27 16 B 39 10 32 1 3 12 33 ii a 18 74 a Si EN 26 Gy Pi. Ano curricular que frequenta?, 1. 1? ano, 2. 22 ano, 3. P2, Sexo? 0. masculino, 1. feminino, P3, Falxa etdria?; 1. 17-20 anos, 2. 21-25 anos, 3. 26-30 anos, 4. 31-40 anos, 5. 41 -50 anos. a 7 alefr[rfrfelalafrfefelele] wf uf ofefole] a 0 0 o in o 0 0 0 1 o 1 oO 0 0 0 o oO 0 1 1 wlalalslalalals)alululaslalw)alslulwlale BP ano, 4. A ano. 7a. Dominio do idioma inglés para a leitura?; 1. sim, 0. ndo, P108. Grau de satisfagdo em relagdo as bibliotecas central e setorial? 1. Sem opinido 2.Insatisfeito, 3. Regular, 4. Bom, 5. Excelente. P24. Seus professores demonstraram dominio atualizado das disciplinas ministradas? 5. Sim, todos; 4. Sim, a maior parte deles; 3. Sim, mas apenas metade deles; 2. Sim, mas menos da metade deles; 1. No, nenhum. deles. P27. Como vocé avalia a contribuico do Curso para sua formacdo? 5. Muito boa; 4. Boa; 3. Regular; 2. Fraca; 1. Muito Fraca. * NA: Nao se aplica, nao respondeu. + A pesquisa teve por objetivo obter informacdes do perfil do aluno e sobre 0 grau de satisfagéo em relagSo aos servigos educacionais oferecides pela Instituiglo, Curso e administragso académica, O periodo de referéncia considerado foi o 12 semestre de 2010. As entrevistas foram realizadas entre 0s dias 01, 02 ¢ 03 de setembro de 2010. Foi utiizada uma amostragem aleatérla estratificada dos alunos levando-se em consideragio 0 periodo matriculado. A amostra final foi composta de $3 alunos. A ‘Anse Explratiia de Dados 9 tabulagdo dos dados foi feita no software Excel, Para a elaboragdo dos gréficos e estatisticas descritivas, foram utilizados o Excel eo software R (R Development Core Team, 2010) 2.1.1. VARIAVEIS CATEGORICAS Podemos resumir os dados de variaveis categéricas em * tabelas de frequéncias * grdficos: em colunas, linhas, histograma de frequéncias, diagrama de pontos ¢ bastoes; Suponha que os dados estao classificados em k categorias. Calculamos as frequéncias absolutas f; ¢ as frequéncias relativas f,; de cada categoria requéncia da categoria j py <= Mremenciadacategoriaj 5 _ 4 >, (21) n 12 total de observasbes Frequéncia simples Categorias da variével X | absoluta | relativa fi fi Gq fh fra GQ he fa Cx te Sr TOTAL 1 10 Geralmente os dados categ6ricos podem ser resumidos por uma tabela de frequéncias, como mostra a Tabela 2.2 , por gréficos em colunas, barras horizontais ¢ em setores. Exemplo 2.1 - Considere uma amostra aleatéria de 16939 fontes bibliograficas da biblioteca da Universidade de Illinois. Uma medida de desempenho utilizada na definigao da qualidade da biblioteca é a taxa de cobertura estimada na Tabela 2.2 pela percentagem de itens possuidos na mostra. Os dados estao resumidos na Tabela 2.2 ¢ Figuras 2.1 ,2.2,2.3e 2.4. Andlse Exolrattis de Dados 10 TABELA 2.2 - Amostras de referéncias bibliogrificas da Universidade de Illinois - 1990. . Tamanho da Possuidos Tipo de Fonte | _N'de titulos amostra frequéncia (f) (%) Monografia 10514 1200 923 77 Periédico 4268 1200 1046 87 Tese 2157 1050 961 91 TOTAL. 16939 3450 2930 Fonte: Lancaster (1993) p43, apud Oliveira (1991). Os dados da Tabela 2.2 podem ser representados graficamente, por exemplo, por grificos em setores ou em colunas. Para construir o gréfico da Figura 2.1 usando uma calculadora a tabela seguinte pode ajudar. Tipo de Fonte i Sri graus: ‘Monografia 10514 06207 23,4512 Periddico 4268 0,25196 90,70665 Tese 2157 0.12734 45,84214 TOTAL 16939 1 360 ReferdncaeBiblogrificas 13% 62% 25% Monografia mPeriédico Tose Monegretia —_Periésico Figura 2.1 - Distribuicdo das referéncias bibliograficas Figura 2.2 - Distribuicdo das referéncias bibliogriticas da Universidade de Illinois - 1990. da Universidade de Ilinois - 1990. m 5 Tose 0 8s Peviscico 80 os a Monografia ” ° 500 1000 1500 To Peviseico Monografia 'Possuidos_= Tamanho da amostra Figura 2.3 - Estimativa da cobertura das referéncias Figura 24 - Amostras de referéncias bibliogréficas bibliograficas da Universidade de Minois - 1990. da Universidade de Minois - 1990. ‘Anslse Explain de Dados " Exemplo 2.2 - (a) Grificos em colunas para as varidveis P1: ano curricular e P1OB: grau de satisfagdo em relagdo as bibliotecas central e setorial, respectivamente, apresentadas na Tabela 2.1. 40 30 20 10 | 7 [| oo a x ” Ano curricular que frequent Figura 2.5 (a) - Ano curricular frequentado pelos alunos da graduagiio em matemética da UFMA numa amostra aleatéria de tamanho 20 em setembro de 2010, Sem opinido Insatisfeito Regular Bom Excelente % 40 20 30 40 0 Figura 25 (b) - Grau de satisfagio em relagao as bibliotecas central e setorial dos alunos da graduagio em matematica da UFMA numa amostra aleatéria de tamanho 20 em setembro de 2010. Um exemplo de grifico em colunas agrupadas é dado pela Figura 2.5 (c) Anslse Expl de Dados 12 'elelslelelsl¥' slials Figura 2.5 (c) - 0s der clubes do NI 1989 - 2020. Ponte: https:f/cassiozirpoli com br/o-ranking-dos-nordestinos-na-copa-do-brasil-com-89- ‘lubes-de-1989-2-2020/ ym as majores soma de pontos na Copa do Brasil, Exemplo 2.2 - (b) Exemplos de graficos em barras horizontais que so apropriados quando temos muitas categorias sao apresentados pelas Figura 2.6 (a) e 2.6 (b). RS mithes anc J EEL 8,5 Pivees SL 69.8 Corinthians XQ =n 66.6 Internacional @ 39,7 Séo Paulo F 36,6 Vasco Yj 36,0 Gremio J LT 35,4 Fluminense 9 == 275 Santos jf} et 22,3 Cuzco S 213 AtléticoMG fF Si 16,3 Atlético PR @ at 11,3 Botafogo-RJ (J mam 10,1 Figura 2.6 (a) - Receita de alguns times de futebol com publicidade no ano de 2015. Fonte: htp/esport.uol.comrifutebolultimas-noticias/2016/07/2/palmeitas-passa-corinthians--fiaeem-2-em- receitacpublisitariatlae-{ bum Antlce Expl de Dados 13 RECEITAS COMERCIAIS - 2019 PALMS 135 FLAMENGO SE 105 CORNTHANS TT 90 GCREMO ET 70 INTERNACIONAL ST 51 SAO PAULO SE 33 ATHLETICOPR a 38 FORTALEZA SENN 26 AHA SE 25 CRUZEIRO SE 24 SANTOS HEN 23 ATLETICO-MG EEN 22 VASCO MEN 20 FLUMINENSE CEARA eo1ks AMERICA-MG SPORT anenico.co 40 60 80 100 120 140 Figura 2.6 (b) - Receitas comerciais dos clubes do Brasil no ano de 2019. Fonte hits ny superspores com btepp/ncticiaafuebel fatcbol-nacional/202006/03/otia, futebol. nacional. 3849487/lleco--0-nono--cruzsro-o-ecimo-no- ranking-deteceitas-dot-clue shit 2.1.2. VARIAVEIS QUANTITATIVAS DISCRETAS Podemos resumir os dados em © tabelas; * grdficos: em colunas, linhas, histograma de frequéncias, diagrama de pontos bastoes; * medidas descritivas, ver Segao 2.2. Para resumir os dados de uma varidvel quantitativa discreta numa tabela de frequéncias, calculamos as frequéncias relativas dadas por: frequéncia de um valor x; 7 total de observagses (2.2) fr; Exemplo 2.3 - Os dados a seguir representam 0 nimero didtio X de livros de estatistica retirados em uma biblioteca, em 30 dias do primeiro semestre do ano de 2015. G31 1,0, 1, 0, 1, 2, 44 1, 1, 0, 2, 2, 0, 0, 0, , 1, 2,0, 0, 1, 6, 4, 3, 3, 1 2, 0, » 4, 0) ‘Anse Explratiin de Dados 14 Na Tabela 2.3 temos as frequéncias relativas (distribuigdo de frequéncias) para cada valor observado x da varidvel X = ntimero de livros retirados diariamente. TABELA 2,3 - Distribuicao de frequéncias do ntimero de livros estatistica retirados em uma biblioteca, em 30 dias do primeiro semestre do ano de 2015, X =n" de livros f fr 0 9 0,3000 1 10 03333 2 5 0,1667 3 3 0,1000 4 2 0,0667 5 0 0,0000 6 1 0,0333 TOTAL 30 1,000 A distribuigao de frequéncias de uma varidvel discreta também pode ser representada por gréficos em colunas, bastées € graficos de retangulos verticais (histogramas). ‘Nas Figura 2.7 e 2.8 temos, respectivamente, os gréficos em colunas e um histograma para a distribuigdo de frequéncias dada na Tabela 2.3. frequéncia relativa 035 #9 9.30 0.25 yl 0.20 o 01s 0.10 o oas i i 0.00 of ry o 1 2 83 4 5 6 prorat soe rnimero se vis retirados * Figura 2.7 - Grifico em colunas da frequéncia igura 2.8 - Histograma da distribuigo de frequéncias telativa do nimero didrio de livros de do mimeto diétio de livros de estatistica retirados. estatistica retirados. Diagrama de Pontos - Os diagramas de pontos ou dot-plots permitem a visualizagao répida da concentragao e dispersdo dos dados. ‘Anlse Explratiin de Daes 15 Exemplo 2.4 (a) - Os dados a seguir representam o tempo (em minutos) entre as chegadas de 10 usuérios numa biblioteca: 20, 6, 52, 4,4,6,7,8, 14, 18. oo 0000 0 00 3 Figura 2.9 (a) - Tempo (em minutos) entre as chegadas de 10 usuérios numa biblioteca. Na Figura 2.9 (b) temos uma reprodugdo obtida usando a linguagem R da Figura 2.9 (a). Os Cédigos utilizados sao: (20, 6, 52, 4, 4, 6,7, 8 14, 18) stripchart(x, ‘method Offset,= 1.0, at = .10, pch = 20, main “t,col = “blue") 10 20 30 40 50 tempo em minutos Figura 2.9 (b) - Tempo (em minutos) entre as chegadas de 10 usuérios numa biblioteca, 2.1.3. VARIAVEIS QUANTITATIVAS CONTINUAS Podemos resumir os dados em * tabelas de frequéncias; * gréficos: histograma de frequéncias ¢ diagrama de pontos ¢ diagrama de caixa; + medidas descritivas, ver Segao 2.2. ‘AnslseExolratiia de Dados 16 s histogramas, os diagramas de pontos (“dot-plots") e os diagramas de caixa ("box- plots") so graficos que fomecem informagies sobre a centralidade dos dados, variabilidade e sobre a forma de sua distribuigao de frequéncias. Diagrama em caixa ou Box-plot - Representagdo gréfica de cinco medidas amostrais: minimo, 1° quartil, mediana, 3° quartile maximo de uma varidvel X. Essas medidas estio apresentadas na Segdo 2.2. Na Figura 2.10, temos uma representagdo esquemitica de um "box plot". ‘Figura 2.10 - Exemplo de um "box-plot" e algumas de suas caracteristicas Fonte: adaptado de Bustab & Moretin (2008). Observar que Li= Q1-$(Q3- QU) Ls = 3+ 3/2(Q3-Q1), Li = titimo ponto inferior ¢ Ls = iltimo ponto superior. Q1 ¢ Q3 representam 1° quartil e 0 3° quartil, respectivamente, © ponto * representa um ponto extremo da varidvel X. Exemplo 2.4 (b) - Considere os dados observados de 15 estudantes nas varidveis X ¢ ¥ notas em duas provas de Estatistica X =5,8,9,9,9,8,9,6,5,10,9, 7,8, 10,6 Y = 2,4,6,8,9,8,7,7,6,7,8,7,7,8,7 ‘Anse Explratiia de Dados 7 Na Figura 2.11 temos uma representagao gréfica para os dados observados das varidveis X ¢ y, Figura 2.11 - "Box-plots” para os dados observados das variveis X e Y do Exemplo 2.4 (b). #4 Cédigos em R para os dados do Exemplo 2.4 (b) ## cédigos em R para os dados do Exemplo 2.4 (b) x= CG, 8 9, 9, 9, 8, 9, 6, 5, 10, 9, 7, 8, 10, 6) y= CQ, 4, 6, 8 9, 8, 7, 7, 6 7, 8, 7, 7, 8 7) scores = data. frane(x,y) boxplot(scores,col = "red") Histogramas de frequéncias - Sao mais aproptiados do que os dot-plots quando o tamanho da amostra é grande. Para construir os histogramas podemos utilizar uma tabela de distribuiggo de frequéncias ou diretamente fazer uso dos dados brutos. DISTRIBUICAO DE FREQUENCIAS DE VARIAVEIS CONTINUAS Em geral, na construgio de uma distribuigao de frequéncias consideram-se intervalos de classes de comprimentos iguais (Wand, 1997). Os procedimentos utilizados para a construgio de histogramas e tabelas de frequéncias se baseiam no que segue. ‘Anse Explratiia de Dados 18 (i) Achar o minimo e o maximo dos dados ¢ determinar o mimero de classes (K), pela regra de Sturges (Sturges, 1926; Hyndman, 1995), +3,322log,)n Observar que, logn log2 k=1+log,n=14 +3,322log,,n Gi) Escolher intervalos de classes de comprimento ¢ iguais que incluam o minimo € 0 maximo da amostra: (ii) Contar o niimero de observagdes que pertencem a cada imtervalo de classe. Esses ntimeros fi, fy, fx So as frequéncias das classes 1,2, ...,k, respectivamente. (iv) Calcular as frequéncias relativas (f7j) da j-ésima classe: fy _ frequéncia obsevada na classe j n 72 total de observagses ’ 2 ¥? fn= (23) Uma tabela de frequéncias para os dados observados de uma varidvel X pode ser apresentada na seguinte forma: Frequéncia simples [ Frequéncia acumulada xX [ absoluta | relativa | absoluta | relativa fi tei i Fj {lo b) fi Sra A, (hb) h fra fy fr (anal) | fe Sr n Total n 1 sendo que, ‘Anse Explratiin de Daces 19 Fry = fry + fre t+ fry Observar que: [lol:)=lp Sai rm(list=1s(all=TRUE)) # remove todas as variaveis >yec(2, 1, 0, 5, 1, 5, 3, 2,13, 8 2, 4 3, 4 2, 3 +2, 2, 14123, 4 3, 4 4,1, 7% 7 3, 0 5, 3, 4 5, 2 4, + 10, 5, 4, 1, 2% 5, 2% 2 2 2, 7) ## dados do ex. 2.6b > summary (y) Min. Ist Qu. Median Mean 3rd qu. Max 0.0 2.0 3.0 41 5.0 13.0 > library(feasics) ## carregar pacote > basicstats(y, ci=0.95) y nobs 50. 000000 NAS 0.000000 Minimum 0.000000 Maximum 13.000000 1. quartile 2.000000 3. quartile 5.000000 Mean 4.100000 Median 3.000000 sum 205.000000 SE Mean 0.451980 LeL Mean 3.191713 UCL Mean 5.008287 variance 10.214286 stdev 3.195980 skewness 1.252763 kurtosis 0.952214 > hist(y, main="", xlab="tempo de espera na fila (min)", + col="lightblue", ylab="numero de clientes") ‘Anise Explratiin de Dados 24 20 15 40 numero de clientes — To o 2 4 6 8 0 12 14 tempo de espera na fila (min) Figura 2.13 - Histograma para amostra observada da varivel ¥ do Exemplo 2.6 (b). Outras medidas apresentadas no Exemplo 2.6 (b) sero definidas a seguir. Definigao 2.4, QUANTIL OU PERCENTIL (x;) - © quantil ou percentil de uma amostra (eiX2,7%1,%q) de tamanho n de uma varivel quantitativa X € um valor xp ‘al que nuimero de observasies < Xy - (7) FAX S xp}) Note que F((X < xp}) 6a frequéncia relativa acumulada do evento {X < xp}. Por exemplo, No Exemplo 2.6 (b) podemos estimar a percentagem de usuarios que esperam até 10 minutos para serem atendidos, isto é F(X $10) =p (2.8) Neste caso, podemos verificar, de acordo com 0 cédigo. em "length(yly<=10])/length(y)" que p = 0.94. Para calcular o percentil 94 0 cédigo quantile(y, 0.94)" pode ser utilizado. Graficamente, a percentagem de usuérios que esperam entre @ ¢ b minutos € dada pela érea sombreada no histograma alisado da Figura 2.14 ‘Anise Explratiin de Dados 25 2 6 Figura 2.14. F,(a< X 0, a distribuigdo é assimétrica & dircita. 0, a distribuigdo 6 simétri Se Ay <0, a distribuigao 6 assimétrica & esquerda. Outros coeficientes de assimetria podem ser visto em DOANE & SEWARD (2011). As Figuras 2.16 ¢ 2.17 mostram posigses relativas entre a média moda ¢ mediana, ¢ alguns tipos de histogramas, respectivamente. Anise Exot de Dados 30 (\\ \ Meas “Median < Mode ‘Mean = Medan = Mode Mode < Median < Mean FIGURA 2.16 - Posigées relativas entre a média, mediana e moda numa populagio, Fonte: DOANE & SEWARD (2011). Skewed Left Symmetric Skewed Right cell] i" One Mode Bell-Shaped oh day ot Left Tail Extremes baw oem Uniform (no mode) Right Tail Extremes FIGURA 2.17 - Alguns histogramas com caracteristicas importantes . Fonte: DOANE & SEWARD (2011). 2.4. Funcao de Distribuigéo Empirica DEFINIGAO: Sejam (x,,%2,"**,X,) uma amostra observada de tamanho n de uma varidvel quantitativa e x um ntimero real qualquer. A de fungdo de distribuigdo empfrica (Fde), indicada por F,(x) € dada por ‘Anse Explratiia de Dacos 31 _ WX | 255 0 0 55 Note que : = 5,1 horas, ¥ = 5.6 e de acordo com as equagdes (3.5) ¢ (3.6) Bo =2,9 ¢ fy 05. A Figura 3.4 apresenta o diagrama de dispersio ¢ a reta de regressao ajustada. ‘Anse Explratiin de Das 39 nota T T T T T 2 4 6 8 10 12 tempo de estudo Figura 3.4 - Grifico da reta ajustada do Exemplo 3:3. coeficiente de correlagio, de acordo com a expresso (3.1) é dado por r= Vr? = V0.992 = 0.996, A partir da reta ajustada $= 2,9 + 0,5x, ver Figura 3.4, podemos achar valores de previsdo de y a partir de valores atribuidos a x. Por exemplo, a previsio de y para x = 8 é dada por (8) = 2,9 + 0,5 x 8 = 6,9. Isto 6, uma previsio da nota obtida para um aluno que estuda 8 horas € F = 6,9. Para determinar o acréscimo na nota ¥ quando se aumenta o tempo de estudo em uma 9 + 0,5(x +1). Note que, y = 2.9 + 0,5x + 05. Significa que unidade, basta fazer y = Y aumenta em f, = 0,5. Anilise de Residuos (e; = y; — 9i) Para verificar a adequagao do ajuste podemos construir os gréficos: resfduos versus varidvel independente X , res{duos versus valor ajustado J ¢ res{duos padronizados versus, valor ajustado J. ‘Anse Explratiin de Dados 40 Se os pontos estiverem aleatoriamente distribuidos em tomo de zero, temos uma indicagao de que o modelo esta bem ajustado, Residuos padronizados (,,) fora do intervalo [-2, 2] sao denominados pontos aberrantes. ei Me 01 02 03 Residuos 0.1 L 03 Valores Ajustados Figura 35 Grifco dos residuos e, versus valores sjustads 9, Anidlise gréfica dos residuos padronizados: Observe que os pontos ¢, na Figura 3.5 estdo aleatoriamente distribuidos em torno de zero, indicando adequago do modelo linear ajustado, ‘Anse Explratiin de Dacos 4a residuos padronizados 0 L valores ajustados Figura 3.6 - Grifico dos residues €,, versus valores ajustados Observe que os pontos e,, na Figura 3.6 estio aleatoriamente distribufdos em toro de zero. Nao hd um ou mais pontos fora do intervalo [-2, 2]. Isto sugere que 0 modelo linear ajustado pode ser utilizado para explicar a nota do aluno (Y) pelo o tempo de estudo (X). Entretanto o tamanho da amostra n = 5 € pequeno para se tomar qualquer conclusao segura #Hf Cédigos em R para os dados do Exemplo 3.3. rm(list=1s(all=TRUE)) # remove todas as variaveis x=C(3,7,2,1.5,12) # para criar o vetor x yoc(45,6.5,3.7,4,9.3) # para criar o vetor y nelength(x)'# conprimento do vetor x , ne5 reg-Im(y ~ x); reg # regressao linear ## diagrama de dispersao e reta ajustada plot (x,y) abline(reg) X'<- model matrix¢reg) n= nrowcx) p< ncol (x) H < XAHSO] VeCCODRIKRDKERCOX) fF ajuste SolveCtOOK*MONEKLOONIKY h = diag) Tms <- sunmary(reg) Ss <- InsSsigna Fe resid(ims) ts < r/(stsqrtc-h)) si < Im. influence (reg) Ssigma tsi < r/(sitsqrt(1-h)) a < max(tsi) b < minctsid # ## diagrama de dispersio ¢ reta ajustada plot(x,y,xlab="tenpo de estudo", ylab="nota" ,pch=16) ‘Anlve Explratiin de Dados 42 abline(reg, col='red") # Grafico dos residuos plot(fitted(reg),r,xlab="Valores Ajustados", ylab="Residuos”, ylimec(-0.3,0.3), pch=16) # # ## Residuos padronizados pred<-predict(reg) # valores estimados pred # residuos (ei-mean(ei))/sd(ei) # restduos padronizados plot(pred,esi, (-3,3) ,pch=16,xlab="valores ajustados" ylab="residuos padronizados” abline(2,0, 18 Exemplo 3.4 - Continuagao do Exemplo 1.2 - Determinagao do Tamanho de uma Populacao (N). Considere uma populacio formada por um conjunto de N taxis de uma cidade € que os taxis so enumerados de 1a N. Para estimar o mimero N de téxis da cidade, foram anotados os niimeros de todos os téxis que um turista pegou: 440,73, 179,405 ¢ 280. Determine a probabilidade de o turista ter tomado os taxis que tém esses niimeros e determine o valor de N pata o qual essa probabilidade é maxima. Solugio. Considere os eventos, A = {0 primeiro taxi tem niimero 440), B = (0 segundo taxi tem numero 73}, e assim por diante. Entio, P(ANB AC ADNE) = PCAP(BIA)P(CIA N B)P(DIA NBN C)P(EIAN BNC ND) _ a4 1 ~ NN NS ‘A. probabilidade de ocorrer a amostra observada (440, 73, 179, 405,280), P(AN BNC DME) & chamada de fungao de verossimilhanga. Neste caso particular, esta fungao é maxima quando o valor de NV é minimo. Ora, como N > 440, o valor de N que torna méxima ‘a fungao de verossimilhanga € 440, A estimativa de maxima verossimilhanga de N é 440. Uma introdugao a teoria das probabilidades é apresentada no Capitulo 4. ‘Andise Explratiia de Dados 43 Exercicios dos Capitulos 1, 2 e3 1, Dadas as Tabelas 1 ¢ 2 a seguir. Esbogar um grafico adequado em cada caso ¢ interpretar. TABELA 1 - Consumo mensal de energia elética da Fabrica X., 2011-2020, TABELA 2 ~ | Freqizocias de 2000 empregados da Companhia —ae_ __ky MB, segundo o grau de 2011 196 inswugio 2012 195 ‘Grau de frequéncia () 2013 183 inswugio 2014 150 superior 650 2015 164 médio 1020 2016 185 fundamental 2017 173 Total 2018 308 Fonte: Companhia 2019 130 20200 05 Fonte: Fabrica X 2. Atualize até o ano de 2015 e represente graficamente os dados da Tabela 3 para as varidveis: densidade demografica, ¢ populagdo residente, segundo o ano, sexo € situagio do domicilio. Para atualizar os dados utilize o site do IBGE (www-ibge.gov.br). ‘Tabela 3 - Estado do Maranhao - Populagio residente, por sexo, situago do domicilio densidade demogritica Sexo Situacio do domicflio Densidade Total ‘Ano (hab) demografica Homens Mulheres Urbana Rural (hab/km2) 1980 3.996.444 1.991.701 2.004.743 1.254.830 2.741.614 11,99 1991 4.930.253 2.446.865 2.483.388 1.972.421 2.957.832 14,79 1996 5.222.183 2.595.181 2.627.002 2.711.175 2.511.008 15,67 2000 5.651.475 2.812.681 2.838.794 3.357.898 2.285.062 16,95 2001 5.749.966 2.869.255 2.880.711 3.754.892 1.995.074 17,25 3. Atualize e represente graficamente os dados da Tabela 3 para a varidvel populagao residente (%), segundo cor ou raga , no Estado do Maranhao, Nordeste e Brasil — 2001. Para atualizar os dados utilize o site do IBGE (www.ibge.gov.br). Comparar os dados atualizados com o dados do ano 2001 Tabela 3 - Populagdo residente (%), segundo cor ou raga, no Estado do Maranhao, Nordeste ¢ Brasil 2001 ‘Anse Explratiin de Dados 44 Cor ou raga (%) ‘Maranhaio Nordeste Brasil Branca 245 29,5 534 Preta 14 61 56 Parda 66,9 64,1 40,4 Amarela ¢ indigena 13 0,3 0,6 Fonte: IBGE, PNAD 2001: microdados. Rio de Janeiro: IBGE, 2002. 1 CD-ROM, Extraido da publicagéo Indicadores Socials Minimos Nota: Os dados do Brasil nao incluem a populagao rural de Rondénia, Acre, Amazonas, Roraima, Paré e Amapa. 4, Os dados abaixo representam a idade X em anos de 50 individuos: 84, 68, 53, 52, 59, 73, 68, 61, 73,77, 74, 71, 81, 81, 6: 57, 65, 85, 88, 59, 80, 61, 50, 53, 65, 76, 85, 73, 60, 67, 51, 78, 56, 74, 65, 55, 55, 64, 74, 65, 84, 66, 58, 59, 69, 89, 78, 72, 54 ) Obtenha uma tabela de distribuigdo de frequéncias, calculando f,, (freq. simples) ¢ f, (freq. relativa). b) Supondo que os individuos com idade superior a 65 devem ser escolhidos, determine este percentual ©) Construa um histograma e polfgono de frequéncias baseado nas frequéncias relativas (fr)) para os dados. 4d) Calcule a média, a varidncia e 0 desvio padrio para os dados brutos e dados agrupados em classes. Compare os resultados €) Determine a idade x que deixa 90% dos individuos abaixo desse valor. Sugestao: utilizar os intervalos de classe: [50, 55), [55, 60), 5. O que acontece com a média, a mediana e desvio-padrao de uma amostra observada de tamanho n (x4,2, "+ Xn) de uma varidvel quantitativa X quando 2) soma-se uma constante ¢ a cada observagio (¥ = X +c) ; b) subtrai-se a média amostral ¥ de cada observagio (Y = X — #); ©) subtrai-se de cada observacao a média amostral ¥ ¢ divide-se este resultado pelo desvio-padrao Sy 6. Uma indiistria produz dois tipos de componentes eletrGnicos A e B. O tempo de duragao até falhar (em horas) de A ¢ de B é dado: A: 3020, 2890, 2350, 2875, 2970, 3005, 2780, 3010, 2600, 3040 B: 2900, 3050, 2975, 2450, 2890, 2875, 2990, 2300, 2700, 2990 ) Qual o componente que tem a maior dispersao? ) Qual o componente que tem a maior dispersao relativa? 7. A Tabela 4 a seguir apresenta a média e o desvio padrao dos valores de trés varidveis, usadas como indicadoras da qualidade de vida de uma populagao, medidas nas 27 unidades da federacao brasileiras (Fotha de Sao Paulo de 09/09/98): Tabela 4 Anslse Explrattis de Dados 45 Variavel Média Desvio Padrao Esperanga de vida (em anos) 66,97 239 Taxa de alfabetizagao (em %) 80,85 962 PIB per capita ajustado (em délares ajustados pelo poder de 4846 1697 compra) Deseja-se escolher uma dessas varidveis para se criar um ranking de qualidade de vida entre estas UF's. A varidvel escolhida deve ser, portanto, a de melhor poder de discriminagao. Com as informagdes fornecidas na Tabela 4, podemos dizer que esta deve ser a varidvel de maior heterogencidade entre as UF's. Qual deve ser a varidvel escolhida ? Justifique. 8. Uma companhia telefnica esta interessada em obter informagdes sobre o tempo de duragio (em minutos) das conversagées telefonicas € determinou-se que o tempo médio de conversagio era de 3,4 minutos. Um més mais tarde, 30 chamadas telef6nicas foram observadas e achou-se um tempo médio de conversacao de 4,2 minutos. Ache o tempo médio de conversagio das 50 chamadas da pesquisa. 9. Medidos os comprimentos de 101 pegas fabricadas obteve-se ¥ = 152,2eme $= 6,9em. 0 peso médio dessas mesmas pecas é 25kg, com um desvio padrio de 1,3kg. Essas pegas apresentam maior variabilidade em comprimento ou em peso? 10. Para se estudar o desempenho de duas companhias corretoras de ages, selecionou-se de cada uma delas amostras aleatérias das agdes negociadas. Para cada agdo selecionada; computou-se a percentagem de lucro apresentada durante um perfodo fixado de tempo. Os dados estao a seguir: CORRETORA A (X,) 45 62 38 55 54 65 60 55 48 16 59 5554 70 64 55 48 60 CORRETORA B (X,) 57 50 59 61 57 55 59 55 52 55 52.57 58 51 58 59 56 53 50 54 56 a) Para verificar a homogeneidade das duas populagoes um estatistico sugeriu o quociente: Var(X 4) © Var(Xp)" em que Var(X,) € Var(X,) correspondem a variéncia de X, e variéncia deX,, respectivamente, Que decisao vocé adotaria para dizer se so homogéneas ou nao ? b) Adote agora o seguinte teste: (ng = DVar(X 4) + (tg — DVar(Xp) ny + Mg — > §= ‘Anise Explratiia de Dados 46 Caso | t | <2 os desempenhos séo semelhantes, caso contrério sao diferentes. Qual é a sua conclusio ? 11. A distribuicao de frequéncia do saldrio mensal dos funcionsrios da fabrica X é apresentada na tabela abaixo: TABELA 5 - Saldrio mensal dos funcionarios da Fabrica X - nov/2010. SALARIOS [FREQUENCIA MINIMOS OF 2 1000 a) construa um histograma da distribuigao 2-4 390) 'b) determine a média a varidncia ¢ o desvio-padrao 46 200 ©) Uma fatbrica ¥ apresenta , uma média de 8,2 salétios minimos e um Desvio-padrao de 15,1 salérios minimos, 6h 8 110 Em qual das fabricas os saldrios séo mais homogéneos ? 8/10 80 lo 12 70 RE 200 TOTAL 2050 Fore Dept de Pessoal 12, Para cada uma das doses 200, 300, 500 ¢ 1000 (mg) de uma determinada droga foram submetidos seis grupos, cada um com dez individuos, e observado o n° de pacientes curados. Os dados sao resumidos na tabela abaixo. 200 300 500 1000 7 9 10 6 7 9 6 4 8 I 3 2 8 9 9 7 8 4 S_6 3 2 6 5 Calcule para cada dose a média, mediana e o desvio padrao, Compare 0 n” médio com o n° mediano de individuos curados segundo as doses. Comente. 13. Os Os dados abaixo se referem ao tempo de espera numa fila de 30 individuos. 42°42 19 36 42 S51 60 18 15 69 65 45 24 S4 S51 74 60 20 30 82 68 80 69 1, 7227 39 8 a) Calcule as medidas descritivas: mfnimo, 1°, quartil, média, mediana, 3°. quartil, méximo; b) Construa uma tabela de distribuigao de frequéncias ¢ calcule as medidas acima, a partir dos dados da tabela; ©) Compare os resultados obtidos nos itens a) e b); @) Construa um histograma e interprete; ¢) Construa um desenho esquemético (box plot) e interprete. ‘Anse Explratiin de Dados 47 14, Uma indistria, desejando melhorar o nivel de seus funcionérios em cargos de chefia, montou um curso experimental e indicou 25 funciondrios para a primeira turma. Os dados referentes A segdo a que pertencem, notas e graus obtidos no curso estio na tabela a seguir. Utilizando o R, EXCEL ou MINITAB. (a) Classifique as variveis listadas (b) Calcule média, moda, mediana e desvio padrio das variveis Direito, Politica e Estatistica (©) Compare ¢ indique as diferengas existentes entre as distribuigdes das varidveis Direito, Politica e Estatistica (use “dotplots”) (@) Compare o aproveitamento dos funcionérios da disciplina Estatistica segundo a segao a que eles pertencem, (©) Construa uma tabela de contingéncia para as varidveis seco e inglés. Determine as freqiiéncias relativas e compare o desempenho dos funcionérios em inglés segundo a segio a que eles pertencem, Funcionario|Secao | Direito | Politica|Estatistica Inglés _|Metodologia 1 Pessoal 9 9 9 B A 2 Pessoal 9 6.5 9 B c 3 Pessoal 9 9 8 D B 4 Pessoal 9 6 8 D c 5 Pessoal 9 65 9 A A 6 Pessoal 9 6.5 10 B A 7 Pessoal 9 9 8 D c 8 Técnica 9 6 8 B c 9 Técnica 9 10 9 B B 10 Técnica 9 9 8 B c "1 Técnica 9 10 10 c B 12 Técnica 9 65 7 D B 13 Técnica 9 6 7 B c 14 Técnica 9 10 9 A B 15 Vendas 9 10 9 c B 16 Vendas 9 9 7 A A 17 Vendas 9 10 8 D c 18 Vendas 9 6 9 c c 19 Vendas 9 6 1 D c 20 Vendas 9 6 7 c B 21 Vendas 9 6.5 7 D B 22 Vendas 9 6 8 c A 23 Vendas 9 9 10 c c 24 Vendas 9 65 9 A A 25 Vendas 9 9 9 B A 15. A tabela a seguir apresenta o tempo (em unidades de milhdes de ciclos) até a perda de velocidade de cinco tipos de turbina de aviao. Foram considerados 10 motores para cada tipo de turbina, Calcule para cada tipo a média, mediana, desvio padrao e intervalo interquarti Compare os cinco tipos segundo essas medidas. Calcule também o coeficiente de variago pata cada tipo, comente. Utilize agora 0 comando boxplot do R e faca uma comparagao grdfica do desempenho dos cinco tipos de turbina, Tipol Tipo2 Tipo3 Tipo4 Tipo 5 3033.19 3.465. BBCGAB ‘Antive Explratiin de Daes 48 553 4.26 © 5.22 6749.97 560 447 5.69 6.90 10.39 930 4.53 654 6.98 13.55 992 467 916 7.21 14.45 1251 469 9.40 B14 14,72 1295 5.78 10.19 8.59 16.81 15.21 6.79 10.71 -9.80—18.39 16.04 9.37 -125812.28- 20.84 16.84 12.75 13.41 25.46 21.51 16. A tabela seguinte mostra os resultados de uma pesquisa com 10 familias de determinada regio. Familia [Renda Poupanga Numero de | Média de anos de s (u.m.:100) __|u.m.:1000) filhos estudo da familia A 10 4 8 3 B 15 1 6 4 c 12 5 5 5 D 70 20 1 12 E 80 20 2 16 F 100 30 2 18 G 20 8 3 8 H 30 8 2 8 I 10 3 6 4 J 60 Is 1 8 Calcule 0 coeficiente de correlagao linear de Pearson entre: a) renda familiar e poupanga das dez familias; b) renda e niimero de filhos para as dez familias; ©) poupanga e mimero de filhos; 4) média de anos de estudo € mimero de filhos; e) renda familiar e media de anos de estudo. 17. Existe associagao entre as vendas de gasolina com chumbo e a concentragao de chumbo no cordao umbilical de recém-nascidos? A s vendas mensais de gasolina com chumbo no estado de Massachusetts (X) e as concentragdes médias de chumbo no cordao umbilical (Y) de bebés nascidos no principal hospital de Boston durante 14 meses no perfodo de 1980-1981 sio listados na tabela abaixo. a) Calcule o coeficiente de correlacao linear de Pearson entre Xe Y. b) Ajuste de uma reta de regressao para descrever a relagdo entre as varidveis Y (dependente) eX (independente). Qual € 0 acréscimo na concentracio média de chumbo no cordao umbilical ocasionado pela venda adicional de uma tonelada métrica de gasolina? c) Considerando a reta estimada dada no item (b), estime a concentragao média no cordao umbilical correspondente a venda de 110 toneladas métricas de gasolina. ‘Anse Explratiin de Dados 49 X [141 166161 170 148 136 169 109 117 87 105 73 82 75 Y [64 61 5,7 69 7,0 7,2 66 5,7 5,7 53 49 54 45 60 18. Uma pesquisa sobre a qualidade da gua foi realizada numa cidade. Em 8 comunidades com reservatérios de 4gua na superficie, estudou-se o efeito da quantidade de magnésio (miligramas p/ litro) sobre um indice de qualidade. 9 11 85 92 12 12 18 38790100 y (a) calcular 0 coeficiente de correlagio amostral. Fazer um diagrama de dispersio das varidveis X (covarivel) ¢ Y (varidvel resposta).. (b) Obter 2, f, e acquagao dareta ajustada. Qual a interpretacao de #, ¢ B,? (©) Achar o valor de previsio para a qualidade da 4gua com x = 15 miligramas por litro de magnésio (d) Fazer o grafico dos residuos ¢, = y— J versus valores ajustados $e comentar. 19. Os dados a seguir representam o ntimero de filhos do sexo feminino (X) de 40 moradores de um bairro A da cidade de Sao Luis. x = (5,2, 3, 1, 3, 2,2,3,2,24413,2.2443,3, 3,0,2,4,3,2,2,4,2,5,1,4, 1,1 1, 3, 3, 0, 3, 1). Construir uma tabela com as frequéncias simples (fj) ¢ relativas (fr;). Construir um grafico apropriado para representar a varidvel X. Determinar a média a mediana e o desvio padrao de X. Estimar a probabilidade de uma familia sorteada ao acaso possuit dois ou menos filhos do sexo feminino pela frequéncia relativa deste evento. 20. Os dados a seguir representam uma amostra (x,y) de tamanho 10 das notas de alunos de Céleulo (1a prova) e Estatistica (La prova) do curso de Matemitica da UFMA. Calculo (X) Estatistica (¥) 5 6 75 8 65 6 8 9 95 10 3 4 55 5 9 10 7 75 2 25 (a) calcular 0 coeficiente de correlacéo amostral. Fazer um diagrama de dispersio das varidveis X (covaridvel) ¢ ¥ (varidvel resposta) ‘Anse Explratiin de Dados 50 (b) Obter Z,, B, ¢ acquagdo da reta ajustada. Qual a interpretacio de 8, ¢ B,? (©) Achar o valor de previsdo para a nota de estatistica com x = 9. (d) Fazer o grifico dos resfduos padronizados e comentat. 21. As trés maiores universidades do pafs em quantidade de alunos na graduacio estéo longe do topo na lista de melhores do pais no RUF (Ranking Universitério Folha), publicado em 09/09/2013, veja a figura a seguir. TAMANHO E QUALIDADE Quatro das maiores universidaces em nimera de alunos de graduacZo nda esto entre as 40 malhores no RUF ‘ePcbica Private Posigie Posit8o Posiedoro | Notatota 5 ratking —entteas —incicador 00 RUF Universidade Némerodealunost Estado |i"! pivedesmereada Unt. Pout Unie) ean pms Ure peeio nl th et or ee ee Un eo Raib (0 | ork om SP 1 1 9689 (Minas Gerais (PUC Minas) 502ml MG at 5 6 6677 57 5236 mil Alestesunsdepadidoetnanratede SR ecaiposdeptads 28a Uektncanuesna Romnacmeme Game Fonte: http://f..uol.com.br/folha/cotidianovimages/13254708 jpeg Utilize um modelo de tegressio linear para ajustar os dados observados das variéveis X = ntimero de alunos ¢ Y = nota total no RUF (varidvel resposta). Comente os resultados. 22. Considere uma variével de interesse X. Mostre que soma dos quadrados dos desvios de X em relagao a média X é um minimo. Sugestéo: Mostrar que o valor da fungao f (u) = 7, (x; — 4)? sera minimo quando p 23, (PROFMAT - 2015) As notas obtidas por cinco alunos em uma prova de matemitica indicam que a mediana é 6, a moda é 8 e a média aritmética é 6. Acrescentando-se 4 amostra a nota de um sexto aluno, que fez a segunda chamada da prova, a mediana aumenta para 6,5. Nessas condigGes, determine a nova média aritmética das notas. Resposta: 37/6. 24. A idade média da idade dos candidatos a um determinado curso sempre foi baixa, da ordem de 22 anos. Como esse curso foi planejado para atender a todas as idades, decidiuese uma campanha de divulgagao, Para verificar se a campanha foi ou nao eficiente, fez-se um Jevantamento da idade dos candidatos atualmente, ¢ os resultados estao na tabela a seguir. ‘Anse Explratiin de Dados 51 [Frequéncia simples [Frequéncia acumulada Idade (x) | absoluta | relativa | absoluta | telativa § fy Fy Fy x 18/20] 18 0,36 Fy Fa 19 20-22 12 | 024 Fy Fra 21 224 26| 10 | 0,20 24 26-30 8 0,16 30-36, 2 0,04 n 1 TOTAL [50 10 (a) Baseando-se nesses resultados, vocé diria que a campanha produziu algum efeito (isto é, a média aumentou?) (b) Um outro pesquisador decidiu usar a seguinte regra: se a diferenga (¥ — 22) fosse maior que © valor 2¢,/Vn, entao a campanha surtiu efeito. Qual a conclusao dele baseada nos dados? (©) Fazer um histograma para os dados da variavel X. (a) Determinar as frequéncias acumuladas Fj e Fry, j = 1,2, fit feted fis Fy = Lj = 12s j= frat fra tt fej k., sendo que, 25. O que acontece com a média e o desvio padrio de uma série de dados quando: (a) cada observagao é multiplicada por 27 (b) soma-se 10 a cada observagao? (©) subtrai-se a média amostral ¥ de cada observagao? (@) de cada observagio subtrai-se ¥ e divide-se pelo desvio padrio amostral S? 26. 15. Os dados a seguir representam o tempo de atendimento em horas para uma amostra de n= 20 pacientes numa clinica médica, no ano de 2015 num hospital da cidade de Sao Luis. 11.80,11.90,12.00,12.30,12.80,12.99,13.10,13.50,13.80,14.10, 14.55,14.65,14.70,15.00,15.10,15.20,15.50,15.80,15.90,15.96 (a) Obter a média ¥, a variancia S* ¢ o desvio padrao S amostrais, (b) Determinar o coeficiente de variacdo CV . Qual é a principal diferenga entre 0 desvio padrao ¢ a variancia? (©) Determinar o erro padrao da média (ep(X) = S/Vn). (@) Se vocé fosse solicitado a apresentar duas medidas (estatisticas) para resumir os. dados, quais ‘Anse Explratiin de Dacos 52 vocé recomendaria? (©) Se cada observagao for dividida por 24, para se obter o tempo de atendimento em dias, quais serdo os novos valores da média, varianc , desvio padrao, coeficiente de vari e erro padrao da média? (f) Agrupar os dados tempo entre chegadas em horas em classes (distribuigao de frequéncias). Responder as questdes: (£1) Construir um histograma para os dados do tempo entre chegadas em horas, Determinar a média usando os dados agrupados. (£2) Calcular a variancia, desvio padrio, coeficiente de variagio e erro padrio da média. (£3) Apés uma mudanga de diretoria do hospital o tempo de atendimento apresentou média de 14 dias ¢ desvio padrao de 2 dias. Qual é a situagao que apresentou maior variabilidade, anterior ou posterior a mudanga de diretoria? (£4) Em qual caso a média foi calculada com maior preciso? No item (a) ou no item (£1)? Justifique sua resposta 27. Os dados de uma amostra observada de tamanho n= 30 da varidvel X = tempo em meses até a falha de um equipamento eletrénico sio dados por: x = (8.13,8.23,8.60,8.80,8.97,9.05,9.12,9.30,9.35,9.78,9.80, 9,86,9.90,9.95,10.00,10.11,10.13,10.15,10.16,10.23,10.31, 10.33,10.40, 10.46, 10.50,11.14,11.29,11.46,12.05, 12.14) a) Obter a média, a mediana ¢ o desvio padrao da variavel X. b) Se o tempo de falha de cada equipamento for multiplicado pela constante 30, qual seré 0 valor da média, da mediana ¢ do desvio padrao amostral da variével transformada? 28. Escalas de medidas. (Bussab & Morettin, 2017) A seguir descrevemos outros possiveis critérios para classificar varidveis, em fungio da escala adotada. Observe a similaridade com a classificacao apresentada anteriormente. Nossas observacGes sio resultados de medidas feitas sobre os elementos de uma populagao. Existem quatro escalas de medidas que podem ser consideradas: Escala nominal, Nesta escala somente podemos afirmar que uma medida € diferente ou no de outra, ¢ ela é usada para categorizar individuos de uma populagdo. Um exemplo 6 0 sexo de um indivéduo. Para cada categoria associamos um numeral diferente (letra ou nfimero). Por exemplo, no caso de sexo: podemos associar as letras M (masculino) e F (feminino) ou 1 (masculino) e 2 (feminino). Nao podemos realizar operacGes aritméticas aqui e uma medida ‘Anse Explratiin de Dados 53 de posigio apropriada é a moda. (As medidas citadas nesse problema, como a média, mediana e moda, sio definidas no Capitulo 3.) Escala ordinal, Aqui podemos dizer que uma medida € diferente e maior do que outra. Temos a situagd ordena as categorias. Por exemplo, a classe socicecondmica de um individuo pode ser baixa (1 ow X), média (2 ou ¥) e alta (3 ou Z). Transformagées que preservam a ordem nao alteram a estrutura de uma escala ordinal. No exemplo acima, podemos representar as categorias por 1, 10 € 100 ow A, Le Z. Medidas de posicao apropriadas sio a mediana e a moda. Escala intervalar, Nesta escala podemos afirmar que uma medida é igual ou diferente, maior € quanto maior do que outta. Podemos quantificar a diferenga entre as categorias da escala ordinal. Necessitamos de uma origem arbitréria e de uma unidade de medida. Por exemplo, considere a temperatura de um individuo, na escala Fahrenheit. A origem € 0° F e a unidade € 1° F, Transformagdes que preservam a estrutura dessa escala séo do tipo y = ax + b,a > 0. Por exemplo, a wransformagio y = 5/9 (x- 32) transforma graus Fahrenheit em centigrados. Para essa escala, podemos fazer operacdes aritméticas, e média, mediana e moda sio medidas de posicdo apropriadas. Escala razdo. Dadas duas medidas nessa escala, podemos dizer se s4o iguais, ou se uma é diferente, maior, quanto maior e quantas vezes a outra. A diferenca com a escala intervalar € que agora existe um zero absoluto. A altura de um individuo é um exemplo de medida nessa escala. Se ela for medida em centimetros (cm), 0 cm a origem e 1 cm é a unidade de medida Um individuo com 190 cm é duas vezes mais alto do que um individuo com 95 cm, e esta anterior, mas as categorias so ordenadas, e a ordem dos numerais associados relagio continua a valer se usarmos 1m como unidade. Ou seja, a estrutura da escala razao nao € alterada por transformagées da forma y = cx,c > 0. Por exemplo, y = x/100 transforma cm em m. As estatisticas apropriadas para a escala intervalar séo também apropriadas para a escala razao, Para cada uma das varidveis abaixo, indique a escala usualmente adotada para resumir os dados em tabelas de frequéncias: (a) Salérios dos empregados de uma indiistria. (b) Opiniao de consumidores sobre determinado produto. (c) Némero de respostas certas de alunos num teste com dez itens. (d) Temperatura diria da cidade de Manaus (e) Porcentagem da receita de municfpios aplicada em educacao. (f) Opiniao dos empregados da Companhia MB sobre a realizagao ou nao de cursos obrigatérios de treinamento, (g) QU de um individuo, 29. Média aparada. (Bussab & Morettin, 2017) Se 0 < a < 1, uma média aparada a 100a% € obtida climinando 100a% das menores observagées ¢ 100a% das maiores observagées ¢ calculando-se a média aritmética das restantes. Por exemplo, se tivermos 10 observagoes ordenad: Xay < Xay <--< Xo) A média aparada a 10% & ‘Anse Explratiin de Dados 54 Xa) + Xayt FX) #(0,10) = (0,10) 8 Sea = 0,25, £(0,25) é chamada meia-média, Calcule a média aparada a 25% para os dados do Exemplo 2.5 - adaptado. Exemplo 2. 5 - Os dados a seguir representam o tempo de vida T (em semanas) de 60 pegas fabricadas por uma maquina 15.1,16.4,33.6,36.5,40.3,45.4,45.5,47.3,53.8,57.7,59.2,62.8,63.2,64.7,67.5,72.7,78.5, 80.1, 81.1,81.6,86.7,89.3,93.0,93.7,97.6,100.8,104.0,105.1,106.0, 118.3, 132.9, 133.4, 137.9,138.0,163.3,176.9, 182.7, 183.1,184.9, 201.6, 228.2, 241.5, 243.0, 268.6,272.9, 272.9*,272.9*,272.9*, 272.9", 272.9", 272.9", 272.9", 272.9", 272.9*, 272.9, 272.9* ,272.9*,272.9* ,272.9* ,272.9* Os tempos de vida das pegas que falharam apés 272.9 horas foram registrados como 272.9+ Os dados deste experimento sio denominados de “dados censurados a direita”. 30. Uma amostra de tamanho n = 10 automéveis foi selecionada ¢ cada um deles foi sujeito a um teste de colisio a 5 mph. Representando um carro sem danos visiveis por S (de sucesso) e um carro com danos por F (de falha), os resultados so os seguintes: SSFSSSFFSS a) Substitua cada S por 1 e cada F por 0. Calcule entéio £ para essa amostra codificada numericamente. ) Qual é 0 valor da proporgao amostral de sucessos p = *© 7. Considerando esta amostra de tamanho n = 10, é seguro afirmar que a probabilidade de sucesso p é igual a ? ©) Suponha que se decidiu incluir mais 15 carros no experimento. Quantos deles teriam de ser S para fornecer p = 0,80 para a amostra de 25 carros? 31, Devore, 2006). No ano de 1997, uma mulher processou um fabricante de teclados de computadores, sob a acusago de lesbes por esforgos repetitives causados pelo teclado (Genessy v. Digital Equipment Corp.). O pleito era de cerca de 3,5 milhoes de délares por danos fisicos, mas a corte negou esse valor pois julgou a indenizagao exagerada. Ao fazer essa determinagio, a corte identificou um grupo “normativo” de 27 casos similares e especificou como razodvel uma indenizagao limitada por dois desvios padrio em relagao A média das indenizagées dos 27 casos. As 27 indenizagdes foram (em milhares de délares) 37, 60, 75, ‘Anse Explratiin de Daes 55 115, 135, 140, 149, 150, 238, 290, 340, 410, 600, 750, 750, 750, 1050, 1100, 1139, 1150, 1200, 1200, 250, 1576, 1700, 1825 © 2000. Qual é 0 valor maximo que pode ser indenizado pela regra de dois desvios padrio? 32. (Devore, 2006 - adaptado), A quantidade de contaminagao por aluminio (ppm) em certo tipo de plistico foi observada em uma amostra de 26 espécimes de plastico, resultando nos dados a seguir (“The Lognormal Distribution for Modeling Quality Data when the Mean Is Neat Zero,” Journal of -~— Quality ‘Technology, 1990, p. 105-110): 30,30,60,63,70,79,87,90,101,102,115,118,119,119 ,120,125,140,145,172,182,183,191,222,244,291,511 (a) Fazer um resumo da amostra observada, (b) Construir um histograma baseado nas frequéncias simples relativas (f,;) ¢ um boxplot. Comente as caracteristicas desses dois gréficos, REFERENCIAS BUSSAB, W. 0.; MORETTI, P. A. (2009). Estatistica basica, Saraiva Edicdo. Sao Paulo, 6 BOLFARINE, H., & DE OLIVEIRA BUSSAB, W. (2005). Elementos de amostragem (Vol. 1), Sao Paulo: Edgard Bliicher. DEVORE, Jay L. Probabilidade e estatistica: para engenharia e ciéncias.(tradugao Joaquim Pinheiro Nunes da Silva), Sao Paulo: Cengage Learning, 2006. DOANE, D. P. ; SEWARD, L. E. (2011). Measuring Skewness: A Forgotten Statistic?. Journal of Statistics Education, Vol. 19, Number 2. HYNDMAN, R. J. (1995). The problem with Sturges’ rule for constructing histograms. Monash University. MAGALHAES, M. N.; PEDROSO DE LIMA, A. C. (2010). Nogies de probabilidade ¢ estatistica. Edusp, $40 Paulo, Ankise Expose Dados 56 R Core Team (2010). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria. R Core Team (2013). R: A Language and Environment for Statistical Computing. R Foundation for Statistical Computing, Vienna, Austria STURGES, H. A. (1926). The Choice of a Class Interval. Journal of the American Statistical Association, Vol. 21, No. 153, pp. 65- 66, WAND, M. P. (1997). Data-based choice of histogram bin width. The American Statistician Vol. No. I, 51, pp. $9-64

Você também pode gostar