Você está na página 1de 13

MAE0217 - Estat stica Descritiva

F abio Rampazzo Mathias Fernando Henrique Ferraz Pereira da Rosa Matheus Moreira Costa Vagner Aparecido Pedro Junior Paulo Eduardo Bani de Carvalho 25 de setembro de 2003
Lista 2 1. Os dados a seguir referem-se a medidas de prostaglandina (pg/ml) e c alcio (ml/dl) em pacientes com c ancer apresentando ou n ao hipercalcemia. IPGE 500.00 500.00 301.00 272.00 226.00 183.00 183.00 177.00 136.00 118.00 60.00 254.00 172.00 168.00 150.00 148.00 144.00 130.00 121.00 100.00 88.00 Calcium 13.30 11.20 13.40 11.50 11.40 11.60 11.70 12.10 12.50 12.20 18.00 10.10 9.40 9.30 8.60 10.50 10.30 10.50 10.20 9.70 9.20 status hyper hyper hyper hyper hyper hyper hyper hyper hyper hyper hyper nohyper nohyper nohyper nohyper nohyper nohyper nohyper nohyper nohyper nohyper

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

(a) Classique as vari aveis envolvidas no estudo, o tamanho amostral e as popula co es de interesse. 1

N umero do paciente: var avel quantitativa discreta. Mean Serum Calcium: vari avel quantitativa cont nua. Mean Plasma IPGE: vari avel quantitativa discreta. Tamanho da amostra: 21 (11 com hipercalcemia e 10 com hipercalcemia). Popula co es de interesse: pacientes com e sem hipercalcemia. (b) Realize uma an alise descritiva dos dados de prostalglandina em cada grupo de pacientes. Calcule medidas resumo (m edia, mediana, desvio padr ao, coeciente de varia ca o) e fa ca o box-plot. IPGE (pg/ml) Pacientes com Hipercalcemia Pacientes sem Hipercalcemia M edia: 241.45 M edia: 147.5 Mediana: 183 Mediana: 146 Desvio Padr ao: 144.46 Desvio Padr ao: 46.17 Coeciente de Varia ca o: 59.83 Coeciente de Varia ca o: 31.3 M nimo: 60 M nimo: 88 M aximo: 500 M aximo: 254

Prostalglandina por Grupos


500 IPGE (mg/ml) 100 200 300 400

com hipercalcemia

sem hipercalcemia

conhecido que os limites normais para os n (c) E veis de c alcio est ao entre 8.5 a 10.5 mg/dl. De acordo com esses limites voc e concorda

com a classica ca o dos pacientes quanto a hipercalcemia? Justique calculando a propor ca o de pacientes de cada grupo que est ao dentro e fora destes limites. De acordo como esses limites a classica ca o est a correta pois 100% dos pacientes classicados como tendo hipercalcemia est ao acima do limite e 100% dos pacientes sem hipercalcemia est ao no intervalo de 8.5 a 10.5. (d) Existe indica ca o de efeito da hipercalcemia na resposta de prostalglandina? Discuta os resultados de sua an alise descritiva. As medidas resumo e o gr aco box-plot mostra que h a uma clara indica ca o de um efeito da hipercalcemia na resposta da protalglandina. Em particular, os pacientes sem hipercalcemia tendem a ter uma quantidade de prostalglandina bem abaixo da quantidade apresentada no caso dos pacientes com hipercalcemia. 2. As concentra co es de o xido de nitrog enio de hidrocarbono (em g/m 3 ) foram determinadas em uma a rea urbana, em locais e hor arios espec cos. Os dados s ao mostrados a seguir: Day 1 2 3 4 5 6 7 8 9 10 11 Nitrogen.Oxides 104 116 84 77 61 84 81 72 61 97 84 Hydrocarbons 108 118 89 71 66 83 88 76 68 96 81

1 2 3 4 5 6 7 8 9 10 11

(a) Classique as vari aveis em estudo, a amostra e a popula ca o de interesse. Dia: vari avel quantitativa discreta.Oxido de nitrog enio: vari avel quantitative discreta. Hidrocarbono: vari avel quantitativa discreta. Amostra sistem atica, pois a rea hor arios e locais foram determinados sis tematicamente. Popula ca o de interesse: concentra ca o de Oxido de Nitrog enio e Hidrocarbonos no ar. (b) Realize uma an alise descritiva dos dados. Calcule m edidas e desvios padr ao para cada vari avel e para a vari avel diferen ca entre as concentra co es dos poluentes. Essas medidas podem ser observadas na tabela 1 e os boxplots na gura 1 . 3

Oxido de Nitrog enio Hidrocarbonos Diferen ca

media 83.73 85.82 2.09

dp 16.89 16.44 4.28

Tabela 1: Medidas resumo


Concentrao de cada poluente
120 6 xido de Nitrogenio Hidrocarbonos

Diferena entre as concentraes de poluentes

110

100

90

80

70

60

Figura 1: Box-plots (c) As duas classes de poluentes est ao presentes nas mesmas concentrac o es? Justique. Sim. A an alise descritiva mostra que n ao h a diferen ca signicativa entre a m edia dos dois poluentes, visto que a aparente diferen ca entre as m edias e suprimida pela varia ca o dos dados. 3. Uma pesquisa foi conduzida para estudar a variabilidade de respostas siol ogicas do toplancton marinho do litoral Sul de S ao Paulo. Diversas vari aveis foram investigadas em amostras de a gua submetidas a 4 situa co es experimentais (30% e 100% de Luminosidade x Nutrientes e Sem Nutrientes) e na condi ca o natural. Os dados a seguir referem-se a medidas de clorola a (mg.m3 ). c30SN 6.20 4.80 3.00 5.60 7.10 4.80 c30N 12.70 11.30 9.30 9.50 11.70 15.30 c100SN 7.00 4.40 3.80 5.00 5.50 3.20 c100N 8.30 7.10 11.70 10.00 8.50 12.30

1 2 3 4 5 6

(a) Classique as vari aveis em estudo. Qual e a popula ca o alvo do estudo? A popula ca o alvo do estudo e o toplancon do litoral Sul de

S ao Paulo. As vari aveis s ao qualitativas discretas (tipo de tratamento recebido) e quantativas cont nuas (medidas de clorola a). (b) Considerando os dados de clorola a mensurada em amostras de a gua na condi ca o natural os seguintes intervalos foram obtidos: (m edia 2 desvios padr ao) = (1.79, 6.52) Calcule este intervalo para os grupos experimentais em estudo. A varia ca o das respostas de clorola a nas situa co es experimentais ea mesma que na condi ca o natural? intervalos (2.43;8.07) (7.19;16.1) (2.12;7.51) (5.55;13.7) media 5.25 11.63 4.82 9.65 dp 1.41 2.22 1.35 2.05

c30SN c30N c100SN c100N

A varia ca o e ligeiramente maior no caso de luminosidade a 30% e o dobro no caso de luminosidade a 100%. (c) Considere ainda o seguinte intervalo calculado para as amostras de a gua na condi ca o natural: (m edia 2 desvios padr ao) = (3.50, 4.81) Qual a utilidade desse intervalo? Justique e interprete. Esse intervalo eu til para indicar qual a variabilidade da m edia amostral. Sob normalidade, 95% das vezes em que tomarmos uma amostra e calcularmos sua m edia, ela vai estar nesse intervalo. (d) H a indica ca o de que o conte udo de nutrientes inuencia a medida de clorola a ? Realize uma an alise descritiva dos dados. As medidas resumo e o gr aco Box-plot (gura 2) mostram imediatamente que o conte udo de nutrientes inu encia claramente a medida de clorola a. 4. A tabela abaixo apresenta dados da vida u til de 100 baterias para autom oveis (em meses). Construa o histograma e determine medidas de tend encia central e dispers ao. Comente os resultados. Considerando que os midpoints dos intervalos s ao representativos das observa co es encontradas naquela classe, obtemos com a ajuda do R uma m edia de 12.08 e uma mediana de 13.5. Da mesma forma obtemos um desvio-padr ao de 4.05 e um coeciente de varia ca o de 33.5. O histograma e as medidas de centralidade e dispers ao sugerem uma distribui ca o assim etrica dos dados para o lado direito, indicando que as baterias tendem a durar um periodo superior a 6 m eses. 5

Nveis de clorofila a (mg.m^3)

10

12

14

100N

100SN

30N

30SN

Figura 2: Box-plots de acordo com o tratamento dado Durabilidade 0 3 3 6 6 9 9 12 12 15 15 20 N umero de Baterias 2 5 15 25 30 23

5. Um laborat orio cl nico precisa se decidir por um entre tr es instrumentos (A,B e C) que ser a utilizado para fazer dosagens qu micas no sangue. Foram preparadas solu co es contendo uma concentra ca o conhecida (10mg/ml) da subst ancia a ser dosada. Os resultados obtidos com cada instrumento seguem abaixo. A: B: C: 5 10 7 15 16 12 4 8 10 13 11 10 11 10 12 9 10 8 9 10 9 10 8 9 9 8 10 11 7 9

Vida til das baterias


0.10 Density 0.00 0 0.02 0.04 0.06 0.08

10 mses

15

20

(a) Determine a m edia o desvio padr ao para os tr es instrumentos. media 10.00 10.00 9.00 dp 4.06 1.15 1.15

A B C

Em medidas cl nicas, tr es termos s ao utilizados freq uentemente: precis ao, n ao-viciado e exatid ao. i. Precis ao : refere-se a ` dispers ao de um conjunto de observa co es. Quanto menor a variabilidade maior a precis ao. ii. N ao-viciado : refere-se a ` tend encia de um conjunto de medidas ser igual a um verdadeiro valor. iii. Para um instrumento ser Exato suas leituras precisam ser tanto precisas quanto n ao-viciadas. (b) Descreva os instrumentos em termos destas deni co es. Os instrumentos B e C s ao os mais precisos. Os instrumentos A e B s ao n ao-viciados, pois mediram a m edia corretamente. O instrumento B pode ser considerado exato. (c) Qual instrumento voc e recomendaria ao laborat orio? Justique. 7

O instrumento B, pois al em de ser n ao viciado apresenta uma baixa variabilidade. 6. O valor de contas telef onicas (R$) foi avaliado para um conjunto de domic lios de acordo com o tempo de resid encia na cidade (em anos). O esquema de 5 pontos est a apresentado a seguir: 23 12 10 39 65 11 9 25 38 92 10 8 12 21 98

Menos de 3 anos

De 3 a 10 anos

Mais de 10 anos

(a) Construa gr acos Box-plot para representar a distribui ca o destes dados. Comente.

Valor das contas por grupo


100 20 40 60 80

Menos de 3 anos

De 3 a 10 anos

Mais de 10 anos

Figura 3: Box-plot, item a (b) Com base nestes dados apresente uma estimativa do valor mediano de contas telef onicas na cidade, independente do tempo de resid encia na cidade.

Uma forma de obter essa estimativa e tomar a m edia das medianas, temos ent ao: 20. (c) Suponha que o n umero de dom cilios em cada grupo de tempo de resid encia e: 17, 35 e 350, respectivaemente. Como voc e incorporaria esta informa ca o no gr aco Box-plot? Desenhe o gr aco. Podemos incorporar essa informa ca o no gr aco variando a largura dos Box-plots.

Valor das contas por grupo


100 20 40 60 80

Menos de 3 anos

De 3 a 10 anos

Mais de 10 anos

Figura 4: Box-plot, item b (d) Com esta nova informa ca o como voc e chutaria um valor para o valor mediano de contas telef onicas na cidade. Justique. Sabendo essa informa ca o poder amos fazer uma m edia ponderada das medianas pelo tamanho da amostra. No caso teriamos uma mediana global de 13.6. Outra op ca o seria ponderar pela raiz quadrada do tamanho da amostra, o que daria uma mediana global de 16.3 7. Responda as quest oes a seguir: (a) Se a nota m edia de um grupo de alunos no vestibular e 78 pontos, no m aximo que propor ca o dos alunos pode ter obtido nota 120 ou mais?

P (X 120)

X 78 = 0.65 120 120

(b) Se embalagens de caf e de 1kg quando preenchidas por um processador t em um peso m edio de 0.97kg e desvio padr ao de 0.01kg , pelo menos que percentual de pacotes devem conter entre 0.93kg e 1.01kg de caf e? Pela desigualdade de Chebyshev: P (Y ks Yi Y + ks) 1 1 k2 1 16

P (0.97 4 0.01 Yi 0.97 + 4 0.01) 1 P (0.93 Yi 1.01) 0.9375

(c) Em uma ind ustria a m aquina M1 controla o di ametro dos parafusos, conservando a linha d eprodu ca o com di ametros m edios de 2.49mm e desvio padr ao de 0.012mm. A m aquina M2 controla o peso dos parafursos, adotando uma m edia de 0.75mg e desvio padr ao de 0.002mg . Qual das duas m aquinas e relativamente mais precisa? Vamos calcular o coeciente de varia ca o para as duas m aquinas: cvM1 = 0.482 cvM2 = 0.267

Como cvM2 < cvM1 , conclu mos que a m aquina 2 e mais precisa. (d) Em cinco dias, o n umero m edio de pedidos de frango e de carne em poss um restaurante foi de 46 e 23, respectivaemente. E vel que em um destes dias ocorreram 200 pedidos de frangos? E 130 pedidos de carnes? Justique. No caso dos frangos: X = 46 Abrindo a somat oria: X1 + X2 + X3 + X4 + X5 = 230 Como a soma de 5 parcelas tem que resultar 230, podemos ter uma parcela valendo 200 e a soma das outras valendo 30: X1 = 200 200+X2 +X3 +X4 +X5 = 230 X2 +X3 +X4 +X5 = 30 Para as carnes: X = 23 10 sumi=1 5Xi = 23 5
5 i=1

Xi

= 46

Abrindo a somat oria: X1 + X2 + X3 + X4 + X5 = 115 Como a soma de 5 parcelas tem que resultar em 115, seria imposs vel termos um dia com 130 pedidos: X1 = 130 130+X2+X3 +X4 +X5 = 115 X2 +X3 +X4 +X5 = 15 (e) Considere os dados do arquivo PULSE do Minitab. Calcule a amplitude de varia ca o e o intervalo interquantil para a vari avel DIF=Pulse2Pulse1 para cada n vel da vari avel RAN. Comente os resultados. O intervalo interquartis (Q3 Q1 ) de DIF=Pulse2-Pulse1 e: 46.5. A amplitude de varia ca o seria: max(DIF ) min(DIF ) = 48 (14) = 62. (f) Os tempos (min) de cinco atletas em duas modalidades de provas de corrida foram: Modalidade A: Modalidade B: 18.2 18 17.4 17.6 18.1 20 20.2 19.9 20.5 20.1

Calcule a m edia e desvio padr ao para os dados originais. Agora, adicione 2min a cada tempo e refa ca os c alculos. E novamente, multiplique cada tempo por 3min e refa ca os c alculos. Que propriedades voc e vericou para estas estat sticas? A B = 17, 875 = 20, 150 SA = 0, 36443 SB = 0, 24044

Somando 2 aos eventos de A e de B, temos: A2 B2 Note que: A2 B2 = A + 2 e S A = S A2 = B + 2 e S B = S B2 = 19, 875 = 22, 150 SA2 = 0, 36443 SB2 = 0, 24044

Multiplicando por 3 os eventos de A e de B: A3 A3 Podemos notar que: A3 B3 = 3 A e S A 3 S A3 = 3 B e S B 3 S B3 11 = 53, 625SA3 = 1, 0933 = 60, 425SA3 = 0, 72133

Com todas essas observa co es, conclu mos uma opera ca o aplicada aos eventos, a m edia ir a se alterar de acordo com a opera ca o. J a o desvio padr ao, s o ir a se alterar se multiplicarmos os eventos por uma constante, que no caso, car a o desvio padr ao multiplicado por esta constante. (g) Apresente tr es situa co es espec cas em que o c alculo de cada uma das m edias aritm etica, geom etrica e harm onica e apropriado. A m edia aritm etica e a mais indicada para estima ca o de esperan ca de uma vari avel aleat oria, para pondera ca o entre notas e para calcular m edias amostrais em geral. A m edia geom etrica e uma m edia mais adequada para preservar a proporcionalidade entre os dados, como no caso da m edia de taxas, de raz oes e de ndices. A m edia harm onica valoriza a regularidade, e adequada quando da medida das a co es de v arios indiv duos quando ocorre a colabora ca o com as outras, como por exemplo, o desenvolvimento de um software por diversos desenvolvedores. 8. Visite o site da Funda ca o SEADE e comente sobre os dados de expectativas de vida de acordo com o sexo para o munic pio de S ao Paulo e outras cidades do estado. Tamb em pequise no site o plano amostral adotado na pesquisa PED. Neste caso, como os dados de meses consecutivos podem ser acumulados? N os podemos observar, que de 1980 a 2000, a expectativa de vida da popula ca o do Estado de S ao Paulo cresceu aproximadamente 3 anos. Na capital paulista, a expectativa de vida obteve um acr escimo de apenas 2 anos, j a nos demais munic pios, este indicador passa dos 3,2 anos. Comparando entre os sexos, o homem sempre teve sua expectativa abaixo das mulheres. Apesar de naturalmente as mulheres viveremmais do que os homens, existe um fator muito signicativo na formula ca o do indicador, que seria a viol encia, caracter stica essa que atinge muito mais a camada masculina. Podemos observar, que mesmo nos anos 80, a diferen ca j a era muito grande, com 63,30 e 70,02 para homens e mulheres respectivamente. No ano 2000, podemos perceber que esta diferen ca ainda e not avel, atingindo 66,75 e 75,57. A Pesquisa de Emprego e Desemprego (PED) adota um plano amostral muito particular. O indiv duos participantes da pesquisa s ao os que comp oem a chamada Popula ca o em Idade Ativa (PIA), estes por sua vez, s ao os indi duos que possuem dez anos e mais de idade. Na PED, s ao entrevistados 3.000 domicilios por vez dentro de uma sistem atica censit aria. A Funda ca o SEADE e o DIEESE, subdividiram homogeneamente a regi ao metropolitana de S ao Paulo e, mes a mes, escolhem ao acaso uma regi ao para aplicarem a pesquisa, respeitando uma norma que diz que uma a rea n ao pode ser pesquisada duas vezes consecutivas. A PED utiliza os seguintes par ametros para caracterizar a PIA: procura efetiva de trabalho; disponibilidade para trabalhar, com procura em at e 12

12 meses; situa ca o de trabalho; tipo de trabalho exercido; e necessidade de mudan ca de trabalho. A combina ca o de todos estes fatores resultam na diferencia ca o dos seguintes segmentos da PIA: PEA - Popula ca o Economicamente Ativa; Ocupados - indiv duos que possuem trabalho remunerado exercido regularmente; Desempregados Desemprego Aberto - pessoas que procuram trabalho nos ultimos 30 dias Desemprego Oculto pelo Trabalho Prec ario - pessoas que para sobreviver, exerceram algum trabalho de forma descont nua e irregular. Desemprego Oculto pelo Desalento e Outros: pessoas que n ao possuem trabalho e nem procuram nos u ltimos 30 dias. Inativos: popula ca o maior de 10 anos que n ao est ao ocupados ou desempregados. Os dados dos meses consecutivos, podem ser somados normalmente para formar uma acumula ca o de dados, pois como as escolhas das regi oes e feita ao acaso, as vari aveis se tornam independentes.

Sobre
A vers ao eletr onica desse arquivo pode ser obtida em http://www.feferraz. net Copyright (c) 1999-2005 Fernando Henrique Ferraz Pereira da Rosa. E dada permiss~ ao para copiar, distribuir e/ou modificar este documento sob os termos da Licen ca de Documenta ca ~o Livre GNU (GFDL), vers~ ao 1.2, publicada pela Free Software Foundation; Uma c opia da licen ca em est a inclusa na se ca ~o intitulada "Sobre / Licen ca de Uso".

13