Você está na página 1de 120

ESTATSTICA DESCRITIVA E INFERENCIAL

BREVES NOTAS

Pedro Lopes Ferreira

2005

NDICE

ESTATSTICA DESCRITIVA 1 Pensar em termos estatsticos --------------------------------------1.1 Varivel ----------------------------------------------------------------1.2 Quantitativo vs. qualitativo -------------------------------------------1.3 Escalas de medio ---------------------------------------------------1.3.1 Escala nominal ------------------------------------------------1.3.2 Escala ordinal --------------------------------------------------1.3.3 Escala intervalar -----------------------------------------------1.3.4 Escala de razo ------------------------------------------------1.4 Amostra vs. populao -----------------------------------------------1.5 Estatstica descritiva vs. inferencial ----------------------------------1.6 Amostragem -----------------------------------------------------------1.7 Tipos de amostragem -------------------------------------------------2 3 3 4 4 5 5 6 7 7 8 8 9

1.8 Algumas ideias teis --------------------------------------------------- 11 Organizao e apresentao dos dados ----------------------------- 19 2.1 Classificao e caractersticas dos dados ----------------------------- 19 2.2 Organizao de dados quantitativos ---------------------------------- 19 2.3 Organizao de dados qualitativos ------------------------------------ 22 3 Medidas descritivas numricas -------------------------------------- 25 3.1 Medidas de localizao central ---------------------------------------- 25 3.2 Medidas de disperso -------------------------------------------------- 28 4 Distribuio normal univariada -------------------------------------- 35 4.1 A curva normal --------------------------------------------------------- 35 4.2 Distribuio da mdia amostral --------------------------------------- 38 5 Organizao e descrio de dados bivariados ---------------------- 41 5.1 Dados quantitativos bivariados --------------------------------------- 41 5.2 Dados qualitativos bivariados ----------------------------------------- 48 ESTATSTICA INFERENCIAL 6 Inferncia estatstica ------------------------------------------------- 51 6.1 Estimao -------------------------------------------------------------- 51 6.2 Teste de hiptese ------------------------------------------------------ 52 7 Inferncias sobre ---------------------------------------------------- 55 7.1 Amostras grandes ------------------------------------------------------ 55 7.1.1 Estimaes pontuais e intervalares --------------------------- 55

7.1.2 Determinao do tamanho da amostra ----------------------- 58 7.1.3 Testes de hipteses -------------------------------------------- 58 7.2 Amostras pequenas ---------------------------------------------------- 61 7.2.1 Estimaes intervalares ---------------------------------------- 61 7.2.2 Testes de hipteses -------------------------------------------- 62 8 Inferncias sobre e ------------------------------------------------ 65 8.1 Inferncias sobre a proporo da populao ----------------------- 65 8.2 Inferncia sobre e 2 ------------------------------------------------ 65 9 Comparao entre duas populaes --------------------------------- 71 9.1 Inferncias sobre 1-2: Amostra independentes -------------------- 71 9.2 Inferncias sobre 1-2: Amostra dependentes ---------------------- 74 9.3 Inferncias sobre 1-2 ------------------------------------------------ 76 10 Ajustamento e independncia ---------------------------------------- 79 10.1 Populaes multinomiais ---------------------------------------------- 79 10.2 Independncia estatstica --------------------------------------------- 82 EXERCCIOS 11 Exerccios propostos -------------------------------------------------- 87 11.1 Estatstica descritiva ------------------------------------------------- 87 11.2 Estatstica inferencial ------------------------------------------------ 99 11.3 Ajustamento e independncia --------------------------------------- 104 TABELAS T1 T2 T3 T4 T5 T6 T7 T8 T9 Nmeros com 2 dgitos aleatoriamente dispostos ------------------------- 109 Nmeros com 3 dgitos aleatoriamente dispostos ------------------------- 110 Valores de significncia para r----------------------------------------------- 111 rea debaixo da curva normal de 0 a X ------------------------------------ 112 Valores crticos da distribuio t de Student para gdl ------------------- 113 rea direita para a distribuio do qui-quadrado ------------------------ 115 Distribuio F de Fisher (=0,10) ------------------------------------------ 116 Distribuio F de Fisher (=0,05) ------------------------------------------ 117 Distribuio F de Fisher (=0,01) ------------------------------------------ 118

1
1.1
dados.

Pensar em termos estatsticos

Varivel
Os dados so os ingredientes bsicos da estatstica enquanto disciplina

definida como a coleco, organizao, sumrio, anlise e interpretao dos

Comecemos por definir alguns termos bsicos. Assim, entidade uma pessoa, local, data, hora ou coisa que fornece o atributo, contagem, ou a medio de interesse. Exemplos de entidades so, portanto:

o nmero de empresas com a sede em Coimbra; o nmero de pessoas que sofreram de enfarto do miocrdio em Portugal, no ano de 2001;

o nmero de automveis que passam, por hora, num determinado cruzamento. Algumas destas entidades esto associadas a contagens, outras a

medies, outras ainda a atributos, representando todas elas um valor para um conceito. Para definir um conceito, usamos o termo varivel como sendo uma qualidade ou quantidade com um valor altervel por entidade. A seguir apresentam-se alguns exemplos de variveis, possveis valores e entidades.

Varivel Idade Sexo forma de pagamento Metros quadrados da sala tipo de media

Possveis valores 30, 31, 32 feminino, masculino numerrio, cheque, carto de crdito 25, 30, 50, rdio, televiso, jornal, Quadro 1 - Exemplos de variveis, valores e entidades

Entidade pessoa pessoa transaco casa media

Como a entidade est relacionada com a unidade onde a expresso realizada, este conceito est normalmente associado palavra "por". Assim, a varivel "nmero de horas de trabalho por dia" sugere a entidade dia. Do mesmo modo, varivel "nmero de horas de trabalho de um operrio por ms" esto associadas duas entidades, pessoa e ms.

1.2

Quantitativo vs. qualitativo


fcil ver diferenas entre os possveis valores de duas variveis como

idade e sexo. Nesta ltima, os valores possveis so palavras; na primeira, so nmeros. Estes dois estilos de valores reflectem dois tipos diferentes de dados: quantitativos e qualitativos. De uma maneira mais geral pode dizer-se que sempre que as entidades conduzem a etiquetas, categorias, atributos ou cdigos, os dados resultantes so considerados qualitativos. Quando as entidades produzem uma contagem ou uma medio, os dados so considerados quantitativos. Por vezes, a introduo de cdigos constitui uma excepo a esta dicotomia nmeros-palavras. Outra situao de excepo o chamado dado ordenado (ranked data). Os respectivos valores esto ordenados, por exemplo de muito boa a muito m qualidade ou o nmero de estrelas da classificao de um hotel. Os dados ordenados e os cdigos, apesar de numricos, so normalmente considerados qualitativos.

1.3

Escalas de medio
A determinao de qual a anlise estatstica mais apropriada para os

dados de uma determinada varivel depende da escala de medio usada para essa varivel. Existem quatro escalas de medio: nominal, ordinal, intervalar e de razo (ou proporcional). A escala de medio determina a quantidade de informao contida nos dados e indica quais as formas mais apropriadas para sumariar os dados e quais as anlises estatsticas mais convenientes. Iremos, de seguida, descrever as quatro escalas de medio.

1.3.1 Escala nominal


A escala de medio para uma varivel nominal quando as observaes para a varivel so apenas etiquetas usadas para identificar (nomear, dar um nome a) um atributo de cada elemento. Exemplos de escalas nominais so as seguintes:

sexo (masculino, feminino); estado civil (solteiro, casado, vivo, divorciado); religio (vrias possibilidades); cdigo de pea (A13622, 12B63); situao profissional (empregado, desempregado); nmero de polcia (5654, 2712, 35, 624). importante notar que as operaes aritmticas como a adio, a

subtraco, a multiplicao e a diviso no fazem qualquer sentido em dados nominais. Assim, mesmo quando os dados nominais so numricos, clculos como soma ou mdia no so admissveis.

1.3.2 Escala ordinal


A escala de medio para uma varivel ordinal quando (1) os dados tm propriedades nominais e (2) podem ser usados para ordenar as observaes nessa varivel. Um exemplo de uma escala ordinal a utilizada em vrios questionrios de satisfao ou de avaliao da qualidade. Consideremos o seguinte caso de um questionrio usado num restaurante:

Excelente Comida Bebidas Servio Empregado/a

Boa

Comentrio

Quadro 2 Escalas ordinais

Neste caso pede-se aos clientes que avaliem a qualidade da comida, das bebidas, do servio em geral e da forma como foram atendidos pelo/a empregado/a. As categorias de resposta so, para cada varivel, excelente, boa e m. As observaes para cada varivel possuem as caractersticas de dados nominais (cada resposta uma forma de etiquetar como excelente, boa ou m a qualidade do servio). Para alm disso, as observaes podem ser ordenadas em termos de qualidade. Por exemplo, considerando a varivel 'qualidade da comida' e aps recolher os dados, podemos ordenar as observaes em termos de qualidade de comida comeando com as observaes de excelente comida, seguidas pelas observaes de boa e, finalmente, pelas observaes de m comida. Tal como os dados obtidos de uma escala nominal, os obtidos de uma escala ordinal podem ser numricos ou no numricos. No caso anterior poderamos usar os valores E, B e M ou, respectivamente, os cdigos 1, 2 e 3. Tambm aqui no faz sentido qualquer manipulao obtida por operador aritmtico.

1.3.3 Escala intervalar


A escala de medio para uma varivel intervalar quando (1) os dados tm propriedades ordinais e (2) o intervalo entre as observaes pode ser expresso em termos de uma unidade fixa de medida. A temperatura um bom exemplo de uma varivel que usa uma escala intervalar de medio. A unidade fixa de medida o grau e uma observao registada num determinado ponto do tempo ser um valor numrico que especifica a quantidade de graus. Estes dados possuem as propriedades dos dados ordinais, podendo os vrios valores de temperatura ser ordenados do mais frio para o mais quente. Para alm disto, a escala intervalar possui a propriedade que o intervalo entre observaes pode ser expresso em termos de uma unidade fixa de medida. Deste modo, o intervalo entre 35 e 40 graus de 5 graus, o intervalo entre 35 e 85 graus de 50 graus e o intervalo entre 85 e 90 graus de 5

graus. Com dados nominais e ordinais, tais diferenas entre observaes no tinham qualquer significado. A unidade fixa de medida exigida por uma escala intervalar, significa que os dados tm necessariamente de ser numricos. Ento, j faz sentido somar, subtrair, multiplicar e dividir.

1.3.4 Escala de razo


A escala de medio para uma varivel de razo quando (1) os dados tm propriedades intervalares e (2) faz sentido dividir duas observaes. As variveis distncia, peso, comprimento e tempo medem-se atravs de escalas de razo, exigindo necessariamente a presena de um zero, representando a no existncia de valor. Consideremos uma varivel indicando o preo de um automvel. O ponto zero corresponde ao valor de um automvel sem preo (gratuito). Deste modo, comparando o preo de 35.000 com o de 17.500 se pode deduzir que o primeiro custa duas vezes mais do que o segundo. Os dados obtidos por uma escala de razo so tambm sempre numricos.

1.4

Amostra vs. populao


Outro par de conceitos que necessita ser mencionado o de populao

e amostra. Se o conjunto de dados que possumos exaustivo dizemos simplesmente que forma uma populao. Neste caso, toda e qualquer entidade tem de estar presente. Quando algumas, mas no todas, as entidades esto presentes, a coleco de valores obtidos denomina-se amostra. Normalmente, para designarmos o nmero de entidades (tamanho) de uma populao finita, usamos a letra maiscula N e a letra minscula n representa o nmero de entidades na amostra.

1.5

Estatstica descritiva vs. inferencial


H essencialmente dois tipos de procedimentos em estatsticas. A

estatstica descritiva tem como objectivo a descrio dos dados, sejam eles de uma amostra ou de uma populao. Pode incluir:

verificao da representatividade ou da falta de dados; ordenao dos dados; compilao dos dados em tabela; criao de grficos com os dados; calcular valores de sumrio, tais como mdias; obter relaes funcionais entre variveis. A estatstica inferencial, o segundo tipo de procedimentos em

estatstica, preocupa-se com o raciocnio necessrio para, a partir dos dados, se obter concluses gerais. O seu objectivo obter uma afirmao acerca de uma populao com base numa amostra. Estas inferncias ou generalizaes podem tambm ser de dois tipos: estimaes ou decises (testes de hipteses).

1.6

Amostragem
A amostragem o processo pelo qual recolhemos dados. Isto d-nos

apenas

uma

imagem

da

populao

em

estudo.

No

entanto,

independentemente da correco dos processos usados, para recolher a amostra, h sempre a considerar o chamado erro de amostragem. Devemos sempre esperar algumas diferenas entre a amostra e a populao. Por outro lado, por exemplo, o erro pode residir no s na amostragem, mas tambm nos prprios dados. Erros no amostrais acontecem quando os valores recolhidos no pertencem aos valores possveis da entidade (exemplo: registado o valor 21 para uma nota, quando deveria ter sido 12) ou quando apenas uma pequena proporo da populao recolhida.

1.7

Tipos de amostragem
De uma maneira geral, os tipos de amostragem podem ser de dois

tipos: aleatrias e no aleatria. O mtodo de amostragem no aleatria consiste em seleccionarmos entidades atravs de escolha pessoal. As amostras no aleatrias incluem:

as de opinio quando as entidades so escolhidas porque compem uma amostra representativa (os habitantes de duas freguesias podem ser usados como representativos dos eleitores de uma zona mais ampla do pas, por exemplo);

as de convenincia quando escolhemos as entidades apenas estas estarem mais prximas de ns (escolhemos os alunos de uma turma quando pretendemos obter a opinio de todos os alunos de uma escola;

as de quota quando os elementos que compem a amostra so de determinadas caractersticas (se soubermos que os consumidores de um determinado produto so 60% do sexo feminino, podemos dizer a um inquiridor que esteja porta de um supermercado para entrevistar 60 pessoas do sexo feminino e 40 do sexo masculino, cabendo-lhe a ele a deciso de escolher quem entrevista). Porque dependem de escolha pessoal, as amostras no aleatrias

podem efectivamente no ser representativas de uma populao, sendo difcil o clculo do erro amostral. Para ultrapassarmos este problema, as amostras aleatrias deixam a escolha ao acaso, tendo em princpio cada elemento da populao a mesma hiptese de ser escolhido. H quatro tipos de amostragens aleatrias. A primeira delas a chamada amostra aleatria simples de tamanho n onde no s cada elemento da populao tem as mesmas hipteses de ser escolhido, como tambm qualquer conjunto de tamanho n pode ser escolhido. Um dos instrumentos usados para se obter uma amostra aleatria simples de tamanho n a chamada tabela de nmeros aleatrios. A Tabela A1 (em anexo) um exemplo de uma tabela de nmeros aleatrios usada para identificar entidades se N 100.

Para exemplificar o uso desta tabela, vejamos o caso de uma amostra de tamanho n = 6 de uma populao de tamanho N = 76. De incio, temos de especificar o ponto de partida e a orientao da leitura na tabela. Para ponto de partida suponhamos que escolhemos dois dgitos (1 e 8 por exemplo) que correspondem aos nmeros de linha e de coluna na tabela. Na interseco da 1 linha com a 8 coluna encontramos o valor 40, o primeiro elemento da nossa amostra. De seguida escolhemos o percurso na tabela (de cima para baixo, por exemplo). ento fcil identificarmos os seguintes cinco elementos: 61, 97, 12, 58 e 27. Como o tamanho da populao 76, impossvel recolhermos o elemento de ordem 97. Assim, ignoramos este nmero e escolhemos o prximo nmero possvel, no nosso caso, exactamente o nmero 76. Procedimento semelhante pode ser usado na Tabela A2 para obtermos amostras da populao onde N 1000. O segundo tipo de amostragem a amostragem estratificada. Neste tipo de amostragem, as entidades so agrupadas em estratos segundo caractersticas fsicas ou materiais. Para assegurar que todos os estratos da populao estudantil afectados por determinado diploma sejam considerados, escolhem-se, por exemplo, uma amostra aleatria de estudantes de cada um dos tipos de ensino: bsico, secundrio e superior. Uma nica amostra aleatria simples no poderia garantir esta representao de estudantes dos trs tipos de ensino. Um terceiro tipo de amostragem a chamada amostragem por cachos. Aqui, as entidades so classificadas em grupos ou cachos e seleccionada uma amostra aleatria de cachos. Um censo (de toda a populao) ento conduzido dentro dos cachos seleccionados. Por fim, a amostra sistemtica selecciona todas as entidades de ordem k numa populao finita de tamanho N. Normalmente k o valor arredondado de N/n.

10

1.8

Algumas ideias teis


As estatsticas normalmente comeam com um conjunto de medies

em membros de uma populao. O quadro 3 apresenta as condies atmosfricas no Outono em 23 cidades do Sul de Inglaterra.

Cidade Folkestone Hastings Eastbourne Brighton Worthing Littlehampton Bognor Regis Southsea Sandown Shanklin Ventnor Bournemonth Poole Swanage Weymonuth Exmouth Teignmouth Torquay Falmouth Penzance Isles of Scilly Jersey Guernsey

Sol (horas) 0,1 2,4 0,1 1,2 1,4 1,4 1,9 1,8 0,8 2,3 3,8 4,4 3,8 3,9 3,1 5,0 3,7 3,7 4,1 2,4 5,0 5,8

Chuva(poleg) 0,01 0,04 0,14 0,15 0,23 0,24 0,26 0,04

Temp (C) 13,5 14 14,5 14 14,5 14 14,5 15 15 15 15 15,5 16 15 15 15 15,5 15,5 15,5 15,5 14,5 16 16,5

Tempo (dia) Nublado Nublado Claro Nublado Nublado Nublado Claro Nublado Claro Nublado Claro Sol tarde Sol tarde Sol tarde Sol tarde Sol tarde Sol tarde Claro tarde Chuva Chuva Sol tarde Claro Sol tarde

Quadro 3 - Condies atmosfricas no Outono em 23 cidades do Sul de Inglaterra.

Nesta tabela vemos que os valores da temperatura variam entre 13.5 e 16.5. Uma boa maneira de ter uma boa imagem sobre estas temperaturas atravs de um histograma de temperaturas.

11

7 6 5

a i c n u q e r F

4 3 2 1 0 1 3 .5 14 1 4 .5 15 1 5 .5 16 1 6 .5

Figura 1 Distribuio da temperatura

Vemos agora, de uma maneira mais fcil, que a temperatura mais frequente no Outono na costa Sul da Inglaterra de 15 C. Usando a frmula x =

x
n

poderamos concluir que a temperatura

mdia de 14.98 C quase coincidindo com a temperatura mais frequente. Para termos uma ideia da disperso dos dados em relao mdia, podemos determinar as diferenas de temperatura em cada cidade em relao mdia. H, no entanto, consequncias matemticas desagradveis de se proceder deste modo e que resulta do facto de que, quando queremos ter uma ideia do desvio total, todos os desvios somam zero, sendo portanto, o desvio mdio tambm igual a zero. capaz de demonstrar? Ultrapassa-se este problema calculando os quadrados de todos os desvios, calculando a mdia destes quadrados (a varincia) e depois extraindo a raiz quadrada (desvio padro). Para se calcular o desvio padro (e a varincia) necessrio calcular-se o seu desvio padro em relao mdia.

(x =

x)

1 2 xi = x 2 n

12

Cidade Folkestone Hastings Eastbourne Brighton Worthing Littlehampton Bognor Regis Southsea Sandown Shanklin Ventnor Bournemonth Poole Swanage Weymonuth Exmouth Teignmouth Torquay Falmouth Penzance Isles of Scilly Jersey Guernsey TOTAL MDIA

Temp (C) 13,50 14,00 14,50 14,00 14,50 14,00 14,50 15,00 15,00 15,00 15,00 15,50 16,00 15,00 15,00 15,00 15,50 15,50 15,50 15,50 14,50 16,00 16,50 344,50 14,98

Desvios da mdia -1,48 -0,98 -0,48 -0,98 -0,48 -0,98 -0,48 0,02 0,02 0,02 0,02 0,52 1,02 0,02 0,02 0,02 0,52 0,52 0,52 0,52 -0,48 1,02 1,52 -0,04 0,00

Desvios quadrados 2,19 0,96 0,23 0,96 0,23 0,96 0,23 0,00 0,00 0,00 0,00 0,27 1,04 0,00 0,00 0,00 0,27 0,27 0,27 0,27 0,23 1,04 2,31 11,73 0,51

Quadro 4 - Desvios em relao temperatura mdia nas cidades costeiras do Sul

Um outro conceito que joga com os conceitos de mdia e de desvio padro o de distribuio normal. Trata-se de uma distribuio unimodal e simtrica com algumas propriedades matemticas bem conhecidas. Entre elas destacam-se as apresentadas na figura abaixo onde aproximadamente 68% de todos os valores de uma varivel normalmente distribuda esto entre 1 desvio padro da mdia; aproximadamente 95% entre 2 d.p. e cerca de 99% est entre 3 d.p. da mdia

13

Figura 2 Distribuio normal

No exemplo anterior das temperaturas X = 14.98, s = 0.71, 1 d.p. corresponde ao intervalo [14.27,15.69], 2 d.p. ao intervalo [13.56,16.40] e 3 d.p. ao intervalo [12.85,17.11]. Importa tambm chamar a ateno de que toda a varivel normalmente distribuda pode ser convertida naquilo que se pode chamar pontos (scores) padro ou pontos z atravs da frmula z =

x s

Os pontos padro so aqueles aos quais a mdia da populao igual a zero e o desvio padro igual unidade, variando, neste caso, entre -3 e +3. Nem todas as variveis so normalmente distribudas. A varivel precipitao (em polegadas) est longe de ser normalmente distribuda, estatsticamente, forma distribuio. A menos que se saiba que a varivel normalmente distribuda, compensa normalmente tambm calcular a mediana e a moda. isto pode causar alguns problemas se pretendermos sumariar as variveis em questo onde a mdia pode dar uma ideia errada da

14

Figura 3 - Relao entre as temperaturas e o nmero de horas de sol

Um outro conceito extensamente utilizado em estatstica o de correlao, uma medida de aproximao entre duas variveis. Utilizando os dados anteriores, podemos representar graficamente a relao entre as temperaturas e o nmero de horas de sol. Como se pode ver pelo grfico de pontos da Figura 1.3, h uma tendncia no sentido de dizer que quanto mais quente for o dia, maior o nmero de horas de sol. possvel desenhar-se uma linha recta ao longo da qual os dados podero estar agrupados. Os procedimentos matemticos de regresso encarregam-se de determinar a equao de tal recta. No nosso caso, e pelas razes j apresentadas, a correlao diz-se positiva. Outras situaes onde se assiste a que um aumento de valor de uma varivel corresponde a um decrscimo da outra varivel chamado correlao negativa. Os coeficientes de correlao so expressos numa escala de -1 a 0 at +1. A correlao de -1 significa uma correlao negativa perfeita; uma correlao de zero corresponde no existncia de correlao, e uma correlao de +1 indica uma correlao positiva perfeita.

15

Um outro processo de visualizar o significado do coeficiente de correlao utilizarmos os pontos padro com uma mdia nula e valores positivos e negativos.

Figura 4 Grfico de valores normalizados

Calculando o coeficiente de correlao entre estas duas variveis obtm-se um valor de r=0.9.O seu quadrado, r2, d-nos uma medida da variabilidade entre as duas variveis que pode ser obtida atravs do coeficiente de correlao. No nosso caso (0.9)2 0.8, ou 80%, da variabilidade entre temperatura e horas de sol foi tida em conta pelo coeficiente de correlao, isto , 20% da variabilidade permanece sem explicao. Posto de uma outra maneira, conhecendo as horas de sol no nos d uma maneira precisa para prever a temperatura. Para se ter uma melhor previso da temperatura, temos de olhar para outras variveis, alm das horas de sol. Apesar disso reafirma-se que existe uma forte relao entre temperatura e horas de sol. Uma outra maneira de visualizar a correlao entre duas variveis geometricamente atravs do ngulo entre duas rectas. As linhas rectas (vectores) representam as variveis e o ngulo entre elas, a correlao. Estando as variveis padronizadas, os vectores que as representam tm igual comprimento.

16

Assim, voltando ao nosso exemplo, e como o valor de correlao de 0.9 corresponde ao valor do cos de 25 a correlao pode ser representada pela figura abaixo.

temperatura

25 horas de sol
Figura 5 Correlao entre variveis

Nesta

linguagem,

ngulos

agudos

obtusos

correspondem,

respectivamente, a correlaes positivas e negativas. No caso de uma perfeita correlao (R=1), o ngulo entre os dois vectores ser 0 e os vectores estaro sobrepostos. Duas variveis completamente no correlacionadas so representadas por dois vectores fazendo um ngulo de 90, isto por dois vectores ortogonais. Finalmente bom chamar-se a ateno para aquilo que um coeficiente de correlao nos no diz. S por si, um coeficiente de correlao no nos fornece qualquer informao acerca das razes por que as variveis esto correlacionadas; no nos fornece qualquer relao causa-efeito. Para ilustrar isto vejamos o quadro seguinte formado com nmeros provenientes do Bureau de Estatstica da UE que relaciona dias de greve per capita com o Produto Nacional Bruto.

Pas Alemanha Ocidental Frana Reino Unido Itlia

Dias de greve por 100 trabalhadores (1969-1974) 240 901 9035 5083

Aumento do PNB per capita em libras (1968-1973) 1193 838 436 389

Taxa mdia anual de inflao (%) 5.2 7.4 8.9 8.0

Quadro 5 Correlao entre variveis

17

H uma correlao negativa entre 'dias de greve per capita' e 'aumento do PNB per capita'; e uma correlao positiva entre 'dias de greve per capita' e 'taxa de inflao anual'. Uma concluso rpida deste quadro poder-nos-ia levar a pensar que as greves e, por associao, os sindicatos, foram a maior causa do declnio no Reino Unido. Outro tipo de concluso bem diferente desta, poderia dizer que as greves constituem mais uma manifestao da insatisfao e descontentamento numa sociedade que no est a lidar convenientemente com as suas ineficincias e desigualdades.

18

2
2.1

Organizao e apresentao dos dados

Classificao e caractersticas dos dados


A organizao e a apresentao de dados no so independentes da

classificao das variveis em quantitativas ou qualitativas. Enquanto que possvel agrupar os dados qualitativos numa s categoria genrica, os quantitativos so divididos em dados discretos e dados contnuos. Uma varivel quantitativa que tenha valores separados em pontos especficos ao longo da linha dos nmeros chamada discreta; caso no seja possvel encontrarem-se "buracos" entre os possveis valores de uma varivel, esta dita contnua. Contar os empregados de uma empresa leva-nos a uma varivel discreta, ao passo que a taxa de desemprego, obtida atravs da razo entre o nmero de desempregados e o tamanho da fora de trabalho, constitui uma varivel contnua. Notar que nem sempre evidente esta distino entre variveis contnuas e discretas. Devido a limitaes de espao e de preciso, os valores contnuos so normalmente truncados ou arredondados e portanto assemelham-se a valores de variveis discretas.

2.2

Organizao de dados quantitativos


Existem dois processos elementares de organizarmos os dados

quantitativos: so eles a criao de tabelas de distribuio de frequncias agrupadas e no agrupadas. Para construir uma distribuio de frequncias no agrupadas apenas temos de listar, numa coluna, todos os valores distintos da varivel e, numa segunda coluna, as contagens das frequncias de cada valor.

19

Exemplo: Para se estudar a mobilidade da nossa sociedade, uma empresa de consultoria inquiriu 47 indivduos e perguntou-lhes quantas vezes, nos ltimos trs anos, que tinham mudado de residncia. As respostas e a distribuio

de frequncia no agrupada obtida foram as seguintes:

5 0 2 0 4 1

1 0 4 0 5 4

0 1 0 3 0 3

1 1 2 0 2 0

1 1 4 0 3 7

1 1 0 6 0 2

5 3 0 1 4 0

3 0 3 2 0

X 0 1 2 3 4 5 6 7

f 16 10 5 6 5 3 1 1 n = 47

A ideia subjacente distribuio de frequncias agrupadas juntar valores prximos em classes ou intervalos de nmeros. Para isso necessrio determinar-se o nmero de classes e o comprimento de cada uma delas. Para determinarmos o nmero de classes, e apenas como orientao geral, podemos usar a tabela abaixo onde, por exemplo, se o tamanho da amostra estiver entre 16 e 32, se recomenda 4 a 5 classes.

Tamanho da amostra n 11 - 16 16 - 32 32 - 64 64 - 128 128 - 256 256 - 512 Acima de 512

Nmero de classes c 3-4 4-5 5-6 6-7 7-8 8-9 10 ou mais

Quadro 6 - Nmero aconselhvel de classes por tamanho da amostra

20

Escolhendo um valor para c, necessitamos de encontrar o comprimento de cada classe. Este dado por

w=

max min c

onde max e min

correspondem, respectivamente, aos valores mximo e mnimo dos dados. Por exemplo, se tivermos uma amostra de tamanho n = 60 com valores de 0,30 a 9,22, a tabela anterior aconselha-nos a agrupar os dados em 6 classes. Assim,

w =

max min 9,22 0,30 = = 1,487 c 6

Como a preciso dos dados de duas casas decimais, w = 1,49. As classes obtidas podero ento ser as seguintes:

0,30 - 1,79 1,79 - 3,28 3,28 - 4,77 4,77 - 6,26 6,26 - 7,75 7,75 - 9,24

Para cada classe normalmente aceite que o limite inferior lhe pertence e o limite superior lhe externo. No nosso caso, a primeira classe seria ento formada pelos valores X tal que 0,30 X < 1,79. Entretanto, se a nossa amostra fosse

3,28 0,57 0,56 2,42 0,30 0,45

0,39 2,17 0,53 1,53 1,30 3,80

1,14 9,18 4,50 2,06 3,41 4,40

6,87 1,57 4,87 0,80 1,43 4,19

7,06 9,22 2,84 2,27 3,83 5,61

6,48 5,99 1,83 1,25 0,31 2,95

1,29 2,91 1,91 4,94 6,18 2,42

1,21 1,34 4,55 0,93 3,30 5,04

3,67 0,39 3,60 4,57 1,78 2,97

2,60 4,57 1,78 2,97 2,60 2,37

obter-se-ia a seguinte distribuio de frequncias agrupadas:

21

Classes 0,30 - 1,79 1,79 - 3,28 3,28 - 4,77 4,77 - 6,26 6,26 - 7,75 7,75 - 9,24

f 21 15 13 6 3 2 n = 60

Trs outros conceitos importantes emergem de imediato. O primeiro o da frequncia relativa de uma classe, fr, definida como sendo a frequncia das observaes dessa classe dividida por n. O segundo o da frequncia acumulada, fa, de uma classe como sendo a soma das frequncias nessa classe e em todas as que a precedem. Por fim, o terceiro conceito o do ponto mdio de uma classe, M, que obtido pela soma dos pontos extremos dividida por dois. No exemplo da nossa amostra de tamanho 60, podemos ter

Classes 0,30 - 1,79 1,79 - 3,28 3,28 - 4,77 4,77 - 6,26 6,26 - 7,75 7,75 - 9,24

f 21 15 13 6 3 2 n = 60

fr 0,350 0,250 0,217 0,100 0,050 0,033 1,000

fa 21 36 49 55 58 60

M 1,045 2,535 4,025 5,515 7,005 8,495

2.3

Organizao de dados qualitativos


Os dados qualitativos so, por definio, caracterizados por palavras ou

categorias, sendo relativamente simples a forma de os organizarmos. So exemplos de dados qualitativos os obtidos pelas seguintes questes, por exemplo:

22

Qual o seu sexo?

1 FEMININO 1 2 3

2 MASCULINO 4 5 DIVORCIADO VIVO

Qual o seu estado civil?

CASADO SOLTEIRO SEPARADO

Como tem sido a sua qualidade de vida nas ltimas 4 semanas? Como que as coisas lhe tm corrido? 1 MUITO BOA: NO PODIA SER MELHOR 2 3 4 5 BOA M MUITO M: NO PODIA SER PIOR BOA E M EM PARTES IGUAIS

A organizao dos dados qualitativos normalmente feita calculando o nmero de respostas em cada uma das categorias, seguido da percentagem correspondente. Tabelas de uma via, como o quadro 7, so meios concisos e efectivos de organizao.

Qualidade de vida Muito boa Boa Em partes iguais M Muito m

Nmero 11 33 10 8 2

Perc. 17,2 51,6 15,6 12,5 3,1

Quadro 2.2 - Distribuio das respostas referente qualidade de vida

23

24

Medidas numricas descritivas

Neste captulo vo ser apresentados os alicerces fundamentais da estatstica descritiva. Iremos ver vrios processos numricos destinados a sumariar os dados. Tambm aqui importante distinguir-se uma amostra de uma

populao. Assim chamaremos parmetro a uma medida descritiva numrica de uma populao; a correspondente medida descritiva da amostra denominada estatstica.

3.1

Medidas de localizao central


As primeiras medidas descritivas de interesse so as medidas de

localizao central que tm como objectivo comum a determinao do centro do conjunto dos dados. Conforme a interpretao que damos palavra 'centro' assim usamos diferentes medidas. Centro pode ser definido como o ponto mdio da amplitude entre o dado mais pequeno e o maior. Podemos tambm definir centro como o local que divide ao meio toda a massa dos dados. Por fim, numa terceira interpretao, a palavra centro pode representar o centro de gravidade. Nas linhas que se seguem analisaremos trs medidas de localizao central. So elas a moda, a mediana e a mdia. A moda, Mo, de um conjunto de n valores x1, x2, x3, , xn definida como o valor que ocorre mais frequentemente no conjunto de dados.

25

A figura 6 apresenta graficamente a moda, o valor x com maior frequncia.

Figura 6 - Localizao da moda de uma distribuio de frequncia

Exemplificando, se tivermos o seguinte conjunto de dados:


1 4 1 0 2 1 1 3 2 9 1 2

e construirmos a distribuio de frequncia, detectamos que o elemento que ocorre com maior frequncia o nmero 1, que aparece 5 vezes. A moda, neste caso, dada pelo valor 1. Em casos onde todos os valores ocorrem com a mesma frequncia, a moda no existe. Se dois valores tm a mesma frequncia e esta for a maior frequncia de todo o conjunto de dados, dizemos que bi-modal. Se estivermos a trabalhar com valores agrupados em classes, a classe modal a que obtiver maior frequncia, e a moda o ponto mdio dessa classe. Como vimos, a moda apenas leva em conta o valor com maior frequncia e no a posio desse valor no conjunto dos dados. A mediana, Md, por outro lado, separa o conjunto dos dados em duas metades. definida como o nmero que divide ao meio um conjunto ordenado de dados. Para encontrarmos a mediana, dispomos os dados segundo uma ordem crescente ou decrescente e dividimos a meio este conjunto de valores. Se tivermos um nmero mpar de dados, a mediana nica e obtida pelo elemento que se encontra na posio

n+1 . Por exemplo, se n = 9, a 2 n +1 9+1 = = 5. 2 2

mediana o dado que se encontra na quinta posio pois

26

Se o tamanho da amostra for par, temos dois valores medianos e a mediana ento calculada como o ponto mdio entre estes dois pontos medianos. Por exemplo, se tivermos a amostra
6,25 6,40 6,40 6,40 6,50 6,25 6,38 6,37 6,40

para determinar a mediana temos de ordenar os valores


6,25 6,25 6,37 6,38 6,40 6,40 6,40 6,40 6,50

Como n = 9, a mediana dada pelo elemento que ocupa a 5 posio, isto , o elemento 6,40. Se o nmero 6,50 no pertencesse nossa amostra, a mediana seria dada pela meia distncia entre os dois pontos medianos 6,38 e 6,40, ou seja, seria 6,39. A mediana apresenta, no entanto, duas grandes desvantagens de manuseamento. A primeira pecar por uma certa insensibilidade em relao aos valores dos dados. Para ilustrar esta afirmao consideremos uma varivel representando, por exemplo, o nmero de telefones instalados em 12 residncias dada pelos seguintes valores:
1 4 1 0 2 1 1 3 2 9 1 2

Se a dcima residncia, em vez de 9 telefones, tiver 90 telefones, isto no iria alterar o valor da mediana. A segunda desvantagem reside no facto de termos de ordenar os dados antes de determinarmos a mediana. Isto ainda mais saliente se soubermos que para amostras grandes (onde o tempo de ordenao se faz mais sentir) o valor da mediana se aproxima do valor de uma outra medida de localizao central, a mdia. A mdia o nmero total de valores de um conjunto de dados dividido pelo nmero de valores. Para populaes, a mdia normalmente representada pela letra grega , enquanto que smbolo X . O processo usado para determinarmos o valor da mdia de um conjunto de dados x1, x2, x3, , xn depende da maneira como os dados estiverem agrupados. Se no houver qualquer agregao, a mdia dada por para amostras, usamos o

27

X =

X
i =1

onde Xi um qualquer valor no conjunto dos dados e n o tamanho

da amostra.
Se os dados estiverem agrupados e se fi representar a frequncia de ocorrncia de xi, a mdia dada pelas frmulas (para distribuies no agrupadas e agrupadas):

X =

fi X i
i =1

X =

f M
i i =1

onde Mi representa o ponto mdio da classe.

Figura 7 - Relaes entre a mdia (), a mediana (Md) e a moda (Mo)

As relaes entre a mdia (), a mediana (Md) e a moda (Mo) para uma distribuio com uma s moda pode ser examinada na Figura 3.2. Para uma distribuio simtrica os valores da mdia, mediana e moda coincidem. Se a distribuio enviesada para a esquerda, < Md < Mo. Se a distribuio enviesada para a direita, Mo < Md < . Em distribuies enviesadas, a mediana est sempre entre a mdia e a moda.

3.2

Medidas de disperso
As medidas de localizao central no so suficientes para descrever

uma distribuio. Veja-se o caso das duas distribuies da Figura 3.3. Ambos os conjuntos de dados partilham dos mesmos valores para as medidas de localizao central. Contudo, a distribuio B mais dispersa do que a distribuio A.

28

Figura 8 - Distribuies com iguais medidas de localizao central e diferente disperso

A variao uma caracterstica muito importante, no s em termos prticos, como tambm para construirmos mentalmente o grfico da distribuio de frequncias. Como existem vrias medidas de variabilidade ou de disperso, iremos ver as mais importantes. A primeira delas a amplitude, Amp, envolvendo a subtraco entre os valores mximo e mnimo do conjunto de dados: Amp = Max - Min Infelizmente, a amplitude ainda no suficiente como medida de variao. As duas distribuies da Figura 3.4, tm ambas a mesma amplitude mas os dados da distribuio da direita apresentam uma variao maior do que os da esquerda.

Figura 9 - Distribuies com igual amplitude e diferente variabilidade

29

Para ultrapassar esta situao, podemos introduzir as noes de quartil e percentil. Definimos os quartis como sendo os valores de x que dividem a rea do histograma em quatro partes iguais (figura 10).

Figura 10 - Localizao dos quartis

Principalmente quando manipulamos grandes quantidades de dados, prefervel usarmos os percentis. Se x1, x2, x3, , xn representar um conjunto de n medies dispostas segundo a grandeza dos seus valores, o percentil p o valor de x de tal modo que, quanto muito, 100p% das medies so menores do que o valor de x e, quanto muito, 100(1-p)% so maiores. Por exemplo, o percentil 90 de um conjunto de dados um valor de x que excede 90% das medies e menor do que 10%. Podemos tambm ver a variabilidade em termos da distncia entre as diversas medies e a mdia, isto , pelos desvios (x1- x ). Se concordarmos com esta ideia, temos de utilizar uma medida de variao baseada nos desvios. A primeira das alternativas a utilizao do desvio mdio das

observaes, dado por DM =

x
i =1

x
onde |x1- x | representa um desvio

absoluto.
Outra das alternativas consiste em elevar ao quadrado os desvio absolutos. Obtemos assim a frmula para a varincia:

30

s2 =

(x
n i =1

n 1

n xi i =1 2 xi n = n 1

A varincia a mdia corrigida dos desvios quadrados. O termo corrigida includo pois estamos a trabalhar com amostras e usamos o denominador (n - 1). A varincia da populao dada por:

2 =

(x
n i =1

n xi i =1 2 x i n = N

Calculemos a varincia do seguinte conjunto de dados


4 9 5 4 4 10

Processo 1: Para determinar o valor de S2 comeamos por obter o valor da mdia x =6 e calcular os desvios.

xi 4 9 5 4 4 10

(xi - x) -2 3 -1 -2 -2 4

(xi - x )2 4 9 1 4 4 16 x )2 (xi - = 38

s2 =

(x
n i =1

n 1

38 = 7,6 6 1

31

Processo 2: Usando a frmula de clculo,

xi 4 9 5 4 4 10 n n

xi2 16 81 25 16 16 100

i=1

xi

= 36

i=1

xi 2

= 254

s2 =

(x
n i =1

n 1

254

36 2 6 = 7,6 6 1

Para distribuies de frequncias agrupadas, a tcnica semelhante. Ao elevarmos ao quadrado os desvios resolvemos o problema da soma nula entre os desvios positivos e negativos. No entanto estamos a trabalhar com unidades diferentes das iniciais. Assim, se aplicarmos a funo raiz quadrada varincia, regressamos s unidades originais. O desvio padro ento a raiz quadrada positiva da varincia. O desvio padro e a mdia so dois dos parmetros ou estatsticas mais usadas para caracterizar (descrever) uma populao ou uma amostra. Se tivermos dois conjuntos de dados com a mesma mdia e diferentes desvios padro, o conjunto de dados com maior desvio padro mais disperso do que o outro com menor desvio padro. Quando as mdias so distintas, no entanto, uma mera comparao entre os desvios padro no faz sentido. Nestes casos podemo-nos recorrer do chamado coeficiente de variao, CV, definido pela razo entre o desvio padro e a mdia. Por exemplo, consideremos a figura 11 com as distribuies de frequncia de dois conjuntos de dados: A com mdia 7,6 e desvio padro 3,2; B com mdia 6,8 e desvio padro 2,5.

32

Figura 11 - Duas distribuies com mdias e desvio padro diferentes

Suponhamos

tambm

que

estas

distribuies

correspondem,

por

exemplo, quantidade do investimento que recuperada se investirmos no projecto A ou no projecto B. O projecto A parece melhor do que B pois a mdia de capital recuperado maior. No entanto tambm o que contm mais risco, sendo potencialmente mais voltil pois o desvio padro maior. Qual dever ser a nossa deciso? Calculando os coeficientes de disperso, obteremos CVA = CVB = 3,2 s 100 = 100 = 42,11% 7,6 2,5 s 100 = 100 = 36,76% 6,8

Em termos de disperso relativa, o projecto B menos varivel do que o projecto A. Se no quisermos correr riscos, o projecto B a escolha apropriada; caso contrrio, devemos escolher o projecto A.

Figura 12 - Percentagem de reas entre desvios padro

33

Estas duas medidas descritivas a mdia e o desvio padro podem tambm ser combinadas atravs de uma regra emprica (figura 12). Segundo esta regra emprica, cerca de dois teros do dados (0,6826) est volta da mdia distncia de um desvio padro. Dois desvio padro acima e abaixo da mdia contm cerca de 95% dos dados. Trs desvio padro contero, segundo esta regra, quase a totalidade dos dados. Notar que esta regra emprica apenas se aplica a conjuntos de dados com distribuio aproximadamente em forma de sino e simtrica.

34

4
4.1

Distribuio normal univariada

A curva normal
Como se pode ver na figura abaixo, a distribuio Normal uma

distribuio simtrica em relao mdia , tendo esta valor idntico mediana e moda. Os valores da varivel aleatria X vo desde - at + e a rea debaixo da curva igual a 1.

Figura 13 Distribuio de probabilidade Normal

Pela frmula seguinte da distribuio Normal, pode facilmente deduzir-se que os dois parmetros desta distribuio so a mdia e o desvio padro .

f (x) =

( x )2
2 2

- < X < +

Tambm aqui nos socorremos de tabelas para obter os valores para a varivel normalmente distribuda. No entanto, e porque se torna impossvel possuirmos uma tabela para todos os possveis valores de e de , procedemos a uma transformao de varivel e reduzimos a nossa distribuio em estudo a uma distribuio N(0,1), com mdia 0 e desvio padro 1. transformao a seguinte: Tal

35

Z =

Por exemplo, o ponto X = 84 numa distribuio N(72,8) corresponde ao ponto Z = 1.5 numa distribuio N(0,1). De facto,

Z =

84 72 = 1,5 8

De notar que esta varivel estandardizada Z corresponde distncia, medida em desvios padro, desde a mdia at localizao do ponto. Ainda para ilustrar a utilizao da tabela da lei Normal centrada e reduzida, N(0,1), consideremos os discos rgidos de um determinado modelo e marca produzidos por uma empresa de material informtico. O tempo de vida destes discos uma varivel aleatria normalmente distribuda com = 760 e = 140 horas. Se quisssemos determinar a probabilidade de que um disco deste tipo falhe antes das 1000 horas de funcionamento procederamos da seguinte maneira:

1000 760 P (X < 1000 ) = P Z < = P (Z < 1,71) 140


Na Normal, tabela da o distribuio resultado

obteremos

0,9564. A figura seguinte pretende ilustrar a correspondncia conseguida pela transformao linear.

Figura 14 Encontrar P(X < 1000), X ~ N(760,140)

36

Procederamos modo para

do

mesmo a

determinar

probabilidade de um disco rgido durar mais do que 600 horas (ver figura 15):

Figura 15 Encontrar P(X > 600), X ~ N(760,140)

600 760 P (X > 600) = P Z > = P (Z > 1,14) = P (Z < 1,14) = 0,8729 ) 140
Para determinarmos a probabilidade de que um determinado disco tenha uma vida entre 700 e 800 horas, equacionamos o nosso pedido da seguinte maneira:
800 760 700 760 P (700 < X < 800 ) = P < Z > = P ( 0,43 < Z < 0,29 ) = 0,2805 140 140

Figura 16 Encontrar a probabilidade entre dois pontos

37

4.2

Distribuio da mdia amostral


Se tivermos uma populao Normal N(,) de tamanho N e

pretendermos extrair uma amostra de tamanho n, temos vrias hipteses possveis, mais concretamente,

N! . Para cada uma destas possveis n!(N n)!

amostras de tamanho n podemos calcular uma mdia. Temos assim vrios valores para a varivel que representa a mdia de uma amostra de tamanho n extrada de uma populao de tamanho N. Esta nova varivel X tambm uma distribuio Normal mas com mdia X = e desvio padro X =

. Normalmente, mesmo que a

populao de origem no seja Normal, podemos utilizar a varivel X como sendo normalmente distribuda. Este resultado -nos dado pelo Teorema do Limite Central: Para quase todas as populaes, sempre que o tamanho da amostra seja grande, a distribuio amostral de X aproximadamente Normal com mdia e desvio padro

, qualquer que seja a forma da distribuio.

Este teorema importante pois, desde que a amostra seja grande, no necessitamos conhecer a distribuio de onde foi extrada. A noo de amostra grande , no entanto, uma noo relativa. Se a distribuio da populao simtrica, uma amostra de n = 10 ou 15 pode ser de tamanho suficiente. Contudo, se a distribuio da populao moderadamente enviesada, 15 pode no ser um nmero suficientemente grande, sendo vulgarmente usado n 30 como condio para a utilizao do teorema do limite central. Se a populao fortemente enviesada, necessrio uma amostra de tamanho muito maior. Sempre que a populao seja finita e conheamos o valor de N, se n 0,05N podemos tornar mais compacta a distribuio de X usando uma

correco para populaes finitas. Esta correco consiste em multiplicar o valor do desvio padro com o seguinte aspecto:

por

Nn ficando a frmula do desvio padro N 1

38

X =

s n

Nn N 1

39

40

5
conjunto de

Organizao e descrio de dados bivariados

Nos captulos anteriores vimos como organizar os dados em tabelas e em grficos, assim como obter medidas numricas para melhor descrever o dados em estudo. Neste captulo iremos analisar o comportamento simultneo de duas variveis e a relao existente entre elas.

5.1

Dados quantitativos bivariados


Na anlise bivariada dos dados h normalmente uma varivel

independente X e uma varivel dependente Y cujos valores so previstos ou explicados com base nos valores da varivel independente. Vejamos por exemplo os dados bivariados da tabela abaixo referente cilindrada de um motor e ao nmero de quilmetros percorridos com um litro de combustvel.

Modelo de Automvel A B C D E F G H I J

Tamanho do motor (em cm3) 4.311 3.966 2.426 2.131 2.950 5.212 2.622 3.311 4.999 3.540

Km/litro estimados 9,8 10,2 13,2 12,8 11,5 7,7 11,5 10,6 7,7 11,1

Neste exemplo fcil distinguir-se a varivel X da varivel Y. Isto porque parece bvia uma relao causa-e-efeito entre as duas variveis. No

41

entanto, nem sempre assim. Por vezes no existe relao, embora continuem a existir as variveis as variveis X e Y. Vejamos como exemplo os dados agrupados na tabela seguinte

Pas Formosa Malsia ndia Japo Jugoslvia Grcia Itlia Bulgria Alemanha Irlanda Dinamarca Austrlia Estados Unidos Sucia

Consumo individual dirio de protenas 4,7 7,5 8,7 9,7 11,2 15,2 15,2 16,8 37,3 46,7 56,1 59,9 61,4 62,6

Taxa de natalidade 45,6 39,7 33,0 27,0 25,9 13,5 23,4 22,2 20,0 19,1 18,3 18,0 17,9 15,0

50

40

30

20

10 0 10 20 30 40 50 60 70

Figura 17 - Grfico de pontos

42

Como se mostra na figura 17 existe uma correlao entre as variveis "consumo dirio de protenas" e "taxa de natalidade". Este exemplo, alm de ilustrar a correlao negativa, mostra bastante claramente que correlao no significa necessariamente uma relao causal, isto , um fenmeno de causae-efeito. Destes dados no se pode tirar a concluso de que um aumento de protenas determine a reduo da fertilidade. Neste caso, a correlao negativa entre as duas variveis poderia ser explicada pela qualidade de vida. razovel admitir-se que uma melhoria da vida num pas, determine tanto um aumento no consumo mdio de protenas, como uma diminuio do taxa de natalidade. importante frisar que se duas variveis esto positivamente

correlacionadas, isto apenas significa que variam no mesmo sentido. No podemos afirmar que aumentos sucessivos numa das variveis determinam aumentos sucessivos na outra varivel. Podem sempre existir outras variveis causando a variao das variveis em estudo. O processo mais vulgar de apresentar visualmente os dados

quantitativos bivariados atravs

de grficos de pontos, grficos a duas

dimenses com a varivel independente no eixo horizontal e a varivel dependente no eixo vertical. A Figura 4.2 representa um grfico de pontos referente ao exemplo anterior.
14 13 12 11 10 9 8 7 2000

3000

4000

5000

6000

Figura 18 - Grfico de pontos

Nesta figura evidente que aos motores com maior cilindrada correspondem aos quilmetros percorridos por cada litro. Isto representativo por uma relao negativa ou inversa entre estas duas variveis. 43

Esta relao entre cilindrada de motor e quilmetros andados por litro pode tambm ser capturada pela linha recta da figura 19.

14 13 12 11 10 9 8 7 2000

3000

4000

5000

6000

Figura 19 - Grfico de pontos com recta ajustada

A figura 20 apresenta dois casos de relao linear directa e de no relao entre duas variveis. Neste ltimo caso, os dados no apresentam qualquer tendncia ou padro.

(a)
Figura 20 - Exemplos de relao

(b)

Finalmente, os dados podem estar relacionados mas no linearmente.

44

Figura 21 - Relao no linear

Quando se trata de uma relao linear, h por vezes interesse em medirmos a intensidade dessa relao. Nestas situaes usamos uma medida denominada coeficiente de correlao, normalmente representado pela letra r. O coeficiente de correlao um nmero sem unidades que descreve o grau de relao linear entre X e Y e cuja amplitude varia de -1 a +1. Uma relao negativa corresponde a uma relao indirecta e uma correlao positiva a uma relao directa. O valor do coeficiente de correlao r dado pela frmula

r =

n XY n X 2

XY ( X ) n Y ( Y )
2 2

Para ilustrar os clculos de determinao do coeficiente de correlao, consideremos o seguinte exemplo de pares (X,Y).

X Y

17 46

29 60

18 42

19 43

21 50

21 47

14 39

24 58

26 53

28 58

O grfico de pontos da figura seguinte d-nos uma ideia de uma relao directa entre duas variveis

45

Figura 22 - Grfico de pontos

O coeficiente de correlao pode ser calculado do seguinte modo

X 17 29 18 19 21 21 14 24 26 28 X = 217

Y 46 60 42 43 50 47 39 58 53 58 Y = 496

X2 289 841 324 361 441 441 196 576 676 784 X2 = 4.929

XY 782 1.740 756 817 1.050 987 546 1.392 1.378 1.624 XY = 11.072

Y2 2.116 3.600 1.764 1.849 2.500 2.209 1.521 3.364 2.809 3.364 Y2 = 25.096

r =

10(11.072) 217(496) 10(4.929) 217 2 10(25.096) 496 2

3.088 2.201 4.944

= 0,936

o que significa uma forte correlao positiva. Para determinarmos a significncia de um coeficiente de correlao, isto , para decidirmos da existncia de uma relao entre X e Y, podemos usar a Tabela A3 de pontos de corte para r. Segundo esta tabela, se tivermos uma amostra com n = 50 elementos e obtivermos um coeficiente de correlao r = 0,085, h forte informao para que no exista uma relao entre X e Y, pois |0,085| < 0,279. 46

Por vezes estamos interessados numa equao que melhor descreva a relao estatstica entre X e Y, ou seja, em determinar a equao da recta de regresso. Como se trata de uma recta a sua equao ser da forma

= b0 + b1 X Y
onde b1
representa a inclinao, isto , a alterao na varivel Y associada alterao de uma unidade de X;

b0

representa a ordenada na origem, ou seja, o valor de Y correspondente a X = 0.

O "chapu" colocado na letra Y significa que estamos a obter um valor estimado ou previsvel para Y. diferena entre os valores reais e os

), chamado erro de aproximao, ou simplesmente, erro. estimados, (Y - Y


A figura 23 representa exemplos de erros positivos e negativos de aproximao.

erro negativo erro positivo

Figura 23 - Erros de aproximao

O processo de determinao dos valores para b0 e b1, ou seja, da equao da recta de regresso, baseado na minimizao dos erros da aproximao. denominado critrio dos mnimos quadrados. Assim, uma relao estatstica linear que satisfaa o critrio dos mnimos quadrados chamada a recta dos mnimos quadrado e da forma

= b0 + b1 X Y

47

onde b1 =

n XY n X 2

XY ( X )
2

e b0 = Y b1 X

e onde X =

X
n

a mdia de X e Y =

Y
n

a mdia de Y.

Com base nos dados do exemplo anterior (da determinao do coeficiente de correlao) podemos obter os valores para determinar a equao da regresso linear.

b1 =

n XY n X 2

XY ( X )
2

10(11.072) 217(496) = 1,4030 10(4.929) 217 2

b0 = Y b1 X = 49,6 1,4030(21,7) = 19,1549


Arredondando para duas casa decimais, a recta dos mnimos quadrados para os 10 pontos

= 19,15 + 1,40 X Y
Esta ltima equao de regresso pode tambm ser usada com o objectivo de previso. Suponhamos que tnhamos um valor X = 25. Neste caso, poderamos prever ou estimar o valor de Y do seguinte modo:

= 19,15 + 1,40(25) = 19,15 + 35,0 = 54,15 Y

5.2

Dados qualitativos bivariados


Para apresentar os resultados referentes a dados qualitativos comum

usarem-se tabelas de frequncia. Para dados bivariados, usamos as chamadas tabelas de contingncia, ou tabelas de dupla entrada, onde uma varivel apresentada em linhas e outra em colunas. Vejamos o seguinte caso. Num total de n = 309, defeitos em mobilirio foram registados e classificados em quatro tipo, de A a D. Ao mesmo tempo, cada pea de mobilirio foi identificada de acordo com o turno da produo em que foi manufacturada. A tabela de contingncia obtida

48

Tipo de Defeito Turno 1 2 3 Total A 15 26 33 74 B 21 31 17 69 C 45 34 49 128 D 13 5 20 38 Total 94 96 119 309

Esta tabela chamada tabela de contingncia 3 x 4 pois contem 3 linhas, 4 colunas e os nmeros dentro da tabela representam frequncias ou contagens. As frequncias dos lados exteriores da tabela so chamadas frequncias marginais e representam os totais univariados para cada uma das variveis. Tambm esta tabela de contingncia pode ser apresentada em termos de frequncias relativas. A tabela seguinte um exemplo do que foi dito.

Tipo de Defeito Turno 1 2 3 Total A 0,05 0,08 0,11 0,24 B 0,07 0,10 0,06 0,22 C 0,15 0,11 0,16 0,41 D 0,04 0,02 0,06 0,12 Total 0,30 0,31 0,39 1,00

49

50

Inferncia estatstica

Neste captulo iremos ver alguns tpicos da inferncia estatstica cujo objectivo generalizar, para toda a populao, os resultados obtidos da amostra. Assim, a mdia , a varincia 2 e a proporo so exemplos de parmetros normalmente desconhecidos de populaes e cujos valores pretendemos inferir atravs das correspondentes estatsticas X , s2 e . Existem dois processos para inferir estatisticamente. O primeiro a tcnica de estimao segundo a qual pretendemos encontrar um valor ou um intervalo para o parmetro desconhecido. O outro o teste de hipteses no qual, com base em duas afirmaes opostas, decidimos acerca dos possveis valores do parmetro. No entanto, para que seja correcto inferir-se estatisticamente, necessrio que se defina com antecedncia qual o objectivo da anlise, se tenha acesso s populao e que se proceda a uma amostragem aleatria. S assim podemos utilizar a inferncia estatstica para apoiar as nossas tomadas de deciso.

6.1

Estimao
Conforme abordmos nos pargrafos anteriores, podemos considerar

dois tipos de estimao: (1) obter um valor - estimao pontual - que constitua a melhor aproximao para o parmetro; ou (2) obter um conjunto de valores - estimao intervalar - no qual seja provvel que o parmetro da populao se encontre. O intervalo obtido por vezes tambm chamado intervalo de confiana e dependente da amostra que estamos a estudar mais directamente. 51

6.2

Teste de hiptese
O outro mtodo para se inferir estatisticamente consiste em realizar um

teste de hipteses. Como o prprio nome indica, com este mtodo testamos uma hiptese por ns formulada para explicar certas observaes ou uma situao. Podemos, por exemplo, afirmar que a mdia de uma populao =7, que a probabilidade de um determinado acontecimento ocorrer =0,4 ou que a varincia da populao em estudo 2=0,15. Para testarmos uma hiptese usamos o mtodo da prova indirecta ou da reduo ao absurdo, pressupondo como verdadeira a hiptese contrria quela que queremos testar. Se chegarmos a uma contradio, podemos concluir que o nosso pressuposto estava errado e, por conseguinte, a hiptese inicial no de excluir. Existem, portanto, duas hipteses de trabalho:

H0 H1

hiptese nula, o ponto de partida da nossa investigao; hiptese alternativa, normalmente a negao da hiptese nula.

H0 constitui uma afirmao acerca do valor de um parmetro que aceitamos como verdadeira. No entanto, pelo facto de estarmos a trabalhar com uma amostra e no com toda a populao, evidente que qualquer que seja a concluso do teste, este no isento de erro. As nossas decises so sempre baseadas na chamada evidncia amostral, naquilo que podemos inferir a partir da amostra que recolhemos. Se existir suficiente evidncia amostral para contradizer a amostra nula, ento acreditamos que a hiptese alternativa a afirmao mais razovel. Se a evidncia amostral no for suficiente, continuamos a acreditar que a hiptese nula a mais correcta para representar a situao em estudo. Consideremos os seguintes exemplos de hipteses nulas e alternativas: (1) H0 : = 10 H1 : 10 (2) H0 : 2 < 8 H1 : 8
2

(3)

H0 : = 0,60 H1 : > 0,60

Repararemos que no exemplo (2) a hiptese nula apresentada na forma de um intervalo e que no exemplo (3) a hiptese alternativa no constitui uma negao perfeita de H0. Todas as formulaes das hipteses 52

alternativas, incluindo obviamente o exemplo (1), correspondem a uma interpretao do que se entende por afirmao oposta. Tudo depende do enquadramento do nosso problema. Pode acontecer que o enquadramento do problema seja tal que o nosso nico interesse seja testar se o valor do parmetro estritamente maior do que um valor especificado. Como veremos adiante, qualquer teste de hipteses inclui cinco elementos:

1. 2. 3. 4. 5.

uma hiptese nula H0; uma hiptese alternativa H1; uma estatstica do teste; uma regio de rejeio; uma concluso.

As hipteses nula e alternativa representam as afirmaes referentes ao parmetro da populao, a estatstica do teste permite sumariar os dados amostrais e apresentar a evidncia estatstica, a regio de rejeio a zona que permite que a concluso seja elaborada e, por fim, tomada a deciso. Se a estatstica do teste estiver na regio de rejeio, conclumos que a amostra inconsistente com a hiptese nula e rejeitaremos esta hiptese. Caso o teste estatstico no pertena regio de rejeio, h evidncia de que a amostra consistente com a hiptese nula e, portanto, no rejeitaremos esta hiptese. A concluso baseada na evidncia estatstica obtida a partir da amostra. O que no significa que esteja isenta de erro. De facto, comparando as duas concluses possveis (rejeitar ou no H0) com a situao real da hiptese nula (verdadeira ou falsa) temos quatro situaes possveis:

Situao real Concluso Rejeitar H0 No rejeitar H0 H0 verdadeira


ERRO DO TIPO I CONCLUSO CORRECTA

H0 falsa
CONCLUSO CORRECTA ERRO DO TIPO II

53

A concluso correcta se o teste estatstico nos levar a rejeitar H0 e este ser efectivamente de rejeitar ou se o teste estatstico nos levar a no rejeitar H0 e este ser de aceitar. No entanto, nas outras duas situaes temos uma concluso errada, havendo dois tipos de erro: (1) (2) erro do tipo I, sempre que uma hiptese nula verdadeira rejeitada; erro do tipo II, sempre que uma hiptese nula falsa aceita. Nos testes estatsticos que iremos ver nos prximos captulos,

poderemos quantificar o nosso poder em cometer cada um destes erros.

54

7
(n<30).

Inferncia sobre

Este captulo debrua-se sobre inferncias acerca da mdia de uma populao quando a amostra grande (n30) e quando a amostra pequena

7.1

Amostras grandes

7.1.1 Estimaes pontuais e intervalares


Exemplo: Suponhamos que um hospital adquire regularmente algodo em pacotes de 50 Kg. H, no entanto, uma suspeita de que a mercadoria no esteja a ser entregue com o peso especificado. Assim, ao investigar-se a situao, numa amostra de 32 pacotes encontrou-se uma mdia de X = 49,5 Kg. A mdia da amostra constitui uma estimao pontual para a mdia da populao. No entanto, esta estimao pontual no nos fornece informao alguma acerca do eventual erro amostral. A soluo reside num estimador intervalar, uma amplitude de valores centrada em X dentro do qual dever estar o valor desconhecido da mdia . As bases para a obteno do estimador intervalar, ou intervalo de confiana, so o Teorema do Limite Central e a nossa capacidade em obter probabilidades atravs das tabelas de Z. Um intervalo de confiana a 98 % para Z centrado em 0 apresentado na figura 24.

55

Figura 24 - Pontos Z para um intervalo de confiana a 98%

Como se pode ver nesta figura, o intervalo de confiana a 98% comea no primeiro percentil e acaba no percentil 99. Analisando a tabela de Z, os valores da varivel correspondentes a estes dois percentis so Z = 2,33. Por outras palavras,

P ( 2,33 Z 2,33) = 0,98


Substituindo Z em funo de X obtemos

X P 2,33 2,33 = 0,98 s n P X 2,33

n X + 2,33

n = 0,98

Se recolhermos uma amostra aleatria, existe uma probabilidade de 98% para que o valor desconhecido da mdia pertena ao intervalo

X 2,33 X 2,33

n . Dito de outro modo, h um risco de 0,02 de que o intervalo n no contenha o valor de .

Em termos gerais, o intervalo de confiana para com conhecido e uma amostra grande dado por

X z

O valor 0,98 normalmente denominado nvel de confiana sendo os valores 0,99, 0,95 e 0,90 os mais provveis.

56

Caso o valor de seja tambm desconhecido, a estimativa para conseguida atravs do valor do desvio padro amostral s. O intervalo de confiana para com desconhecido e uma amostra grande dado por

X z

s n

Vejamos um exemplo. Suponhamos que numa determinada prova de acesso a um lugar de tcnico superior estagirio podem existir notas desde 200 a 800 pontos, levando as notas j obtidas neste exame a aceitar um desvio padro igual a 100. Pretende-se encontrar, com base numa amostra de 75 elementos onde foi encontrada uma mdia X = 534, um intervalo de confiana a 90% para a mdia. Como ao nvel de confiana de 90% correspondem os valores de Z=1,65, obtemos

534 1,96

100 75

ou

534 19

Outra maneira de apresentarmos este resultado dizer que, com um risco de 10%, a mdia da populao dever pertencer ao intervalo de 515 a 553. Outro exemplo. Um director de um hospital desenhou um estudo para determinar a mdia de gastos em papel feito pelos vrios servios. Ao analisar 147 requisies calculou-se uma mdia X = 318 e um desvio padro s = 249. Criar um intervalo de confiana com um risco de apenas 5% de no incluir . Apesar de se no conhecer o desvio padro da populao, a amostra suficientemente grande para que se possa usar o seu desvio padro na determinao do intervalo de confiana a 95%.

X z

s n

= 318 1,96

249 147

= 318 40,3

57

7.1.2 Determinao do tamanho da amostra


O mtodo para se encontrar um intervalo de confiana pode tambm ser usado para se determinar o tamanho da amostra. Para isso necessrio conhecer-se: (1) (2) (3) o erro amostral E mximo que estamos dispostos a tolerar; a disperso na populao de interesse, medida pelo desvio padro ; o nvel de confiana para o intervalo, representado pelo valor da tabela Z. A expresso que nos permite determinar partida, o tamanho da amostra para atingir os nossos objectivos a seguinte:

Zs n= E

No exemplo anterior do teste de admisso, uma amostra de 75 elementos produziu o intervalo de confiana 534 19. Suponhamos agora que se pretende um erro de amostragem no superior a 15. Qual dever ser o tamanho da amostra para se encontrar o mesmo intervalo de confiana a 90%?

Zs 1,65(100) n= = = 121 15 E
2 2

So ento necessrias mais 46 observaes para que o intervalo centrado em X tenha uma amplitude 15.

7.1.3 Testes de hipteses


O outro processo para se usar informao amostral na inferncia para a populao testando uma hiptese. Num teste para a mdia, a hiptese formulada da seguinte maneira: H0: H1: = 0 0

58

onde 0 pode ser um qualquer valor. Se H0 for verdadeira, ento inferiremos que a evidncia amostral provem de uma distribuio amostral normal para X centrada em 0 e que a mdia amostral est na vizinhana de 0. Na figura 25 podemos ver que a regio de aceitao para H0 inclui grande parte da distribuio amostral e que constitui um intervalo onde provvel encontrar-se o valor de X , caso H0 seja verdadeira.

Figura 2.2 - Regies de rejeio e de aceitao para teste bilateral

Para determinarmos se a hiptese H0 ou no de rejeitar, usamos a informao amostral (mdia, desvio padro e tamanho da amostra) para calcular a chamada estatstica do teste, que no mais do que um valor Z* que combina o valor de da hiptese H0 com a evidncia amostral. Comparando este valor calculado Z* com o valor de corte Z, possvel tomar-se a deciso. Quando testamos a hiptese referente mdia da populao usamos a seguinte estatstica de teste:

z* =

x 0

Se desconhecido, podemos substituir pelo desvio padro s da amostra, especialmente se n superior a 30. Para ilustrar este tipo de teste, vejamos o exemplo de um servio cirrgico que foi h cerca de ano e meio sujeito a uma auditoria. Uma das 59

concluses desta auditoria que o tempo mdio de espera dos doentes era de 51.5 dias. O Director do servio pretende agora, com base numa amostra de 75 facturas e com um nvel de significncia de 0,10, verificar se este nmero foi alterado. O resultado da amostra foi X = 57,3 dias com s = 21,0 dias, sendo as hipteses a testar H0: H1: = 51,5 dias 51,5 dias

Para um risco de 10% de cometer um erro do tipo I, o ponto de corte correspondente 1.65 e a estatstica do teste

z* =

x 0

57,3 51,5 = 2,39 21 75

Como Z*=2.39>1.65, rejeita-se a hiptese nula e, portanto poderemos dizer que o tempo mdio de espera foi, de facto, alterado. Neste exemplo procedemos a um teste bilateral com a regio de rejeio a corresponder aos valores de X mais afastados de 0 para ambas as direces. Por vezes na prtica pretendemos apenas incluir na regio de rejeio apenas uma das direces. Isto constitui um chamado teste unilateral. Vejamos outro exemplo. H quatro meses, no intuito de diminuir o tempo de espera para uma interveno, o Conselho de Administrao de um hospital decidiu implementar um programa de incentivos. Pretendemos ento testar H0: =57 dias contra H1: <57 dias a um nvel de significncia de 0.05. Uma amostra de 40 casos de doentes espera apresentou uma mdia

X = 53,5 com s = 26 dias. Ser que podemos concluir que o programa de


incentivos fez diminuir o tempo de espera dos doentes? Para =0,05, o ponte de corte inferior para Z -1.65 e a nossa estatstica de teste ento

z* =

x 0 53,5 57 = = 0,85 s 26 n 40
60

Como Z*=-0,85>-1,65, no rejeitamos H0, ou seja a evidncia amostral consistente com a veracidade da hiptese nula.

7.2

Amostras pequenas

7.2.1 Estimaes intervalares


Para amostras pequenas no possvel aplicar o Teorema do Limite Central e, portanto os procedimentos inferenciais vistos at agora neste captulo no so teoricamente vlidos. Por isso usaremos a distribuio t para representar o comportamento da varivel X . A distribuio t usada para realizar inferncias sobre nas seguintes condies: (1) O desvio padro da populao desconhecido mas estimado custa do desvio padro amostral s; (2) (3) O tamanho da amostra menor do que 30; possvel partir do pressuposto de que a populao subjacente de X normalmente distribuda. A figura 26 mostra a forma genrica da distribuio t. Esta distribuio, apesar de ter uma forma semelhante da normal, possui um desvio padro superior a 1. de facto uma famlia de curvas, cada uma delas associada a um diferente grau de liberdade.

Figura 26 - Forma genrica da distribuio t relativamente distribuio Z

O termo grau de liberdade diz respeito ao nmero de valores que so livres de variar, havendo algumas restries nos dados. Por exemplo, ao calcularmos a varincia atravs da frmula

61

n s = 2 = n 1
2

(X X )
n 1

todos os valores, excepto um, podem variar. Esta excepo dever satisfazer a restrio

(X X ) = 0 .

Ao longo deste captulo, os graus de liberdade

associados a uma distribuio t sero sempre iguais a n-1, onde n representa o tamanho da amostra. Se n menor do que 30, devemos usar a distribuio t e a correspondente tabela. O intervalo de confiana dado pela frmula

X t

s n

Um director de um centro de sade pretende saber quantos utentes esto a utilizar as horas suplementares de abertura da dependncia (das 9 s 11 horas da noite) todos os dias teis. Ao longo de seis semanas contou os doentes nestes dias e horas e obteve os valores 74, 73, 82, 86, 81 e 78. Partindo do pressuposto de que X (nmero de doentes entre as 9 e as 11 horas da noite) uma varivel normalmente distribuda, o director pretende encontrar um intervalo de confiana a 90% para o nmero mdio de doentes a usar as horas suplementares. Desta amostra de n = 6, encontramos X = 79 e s = 4.98. Para n - 1 = 5 graus de liberdade e para = .10, o valor de t 2.015. Assim,

X t

s n

= 79 2,015

4,98 6

= 79 4,10

O director do centro de sade pode ento estar 90% certo de que o nmero de doentes das 9 s 11 horas da noite est compreendido entre 75 e 83 clientes.

7.2.2 Testes de hipteses


Do mesmo modo, a estatstica do teste de mdia para amostras pequenas segue uma distribuio t e dada pela frmula

62

t* =

x 0 s n

Este valor comparado com o valor de corte da tabela t com n-1 graus de liberdade e um nvel especificado de confiana. Vejamos o caso de uma companhia de produtos farmacuticos que pretende construir mais uma empresa. De exemplos anteriores em muito mais pequenas escalas sabe-se que possvel aproveitar completamente 93.5% da matria-prima. Aps estar em funcionamento, foram analisados 12 lotes com os seguintes valores:
91,41 92,92 94,47 93,16 92,80 93,24 92,93 92,70 94,19 93,66 93,37 93,86

Usando um nvel de significncia de 0,05, testar a hiptese do aproveitamento mdio da matria-prima ser de 93.5%, isto H0: =93,5 contra H1: 93.5. O valor de corte para este nvel de significncia e n-1=11 graus de liberdade t = 2,201. Para esta amostra de n=12 elementos, a mdia e o desvio padro obtidos so respectivamente X = 93.23% e s = 80%. Ento a estatstica do teste ser

t* =

x 0 93,23 93,5 = = 1,17 s 0,80 n 12

Como |t*|2,201, a nossa concluso de que a evidncia amostral seguiu H0.

63

64

8
populao.

Inferncia sobre e

Neste captulo iremos alargar a anlise feita no captulo anterior s amostragens binomiais onde analisamos a proporo e o desvio padro da

8.1

Inferncias sobre a proporo da populao


Numa situao amostral de caractersticas binomiais, h que considerar

a percentagem ou proporo p de xito dada pela frmula

p=

X Nmero de xitos na amostra = n Nmero de items da amostra

Tal como , p um nmero entre zero e um, inclusive, e segue uma distribuio aproximadamente normal com mdia igual a e desvio padro igual a p = (1-)/n . Deste modo, a equao para estandardizar resultados

amostrais binomiais

z =

p = sp

(1 )
n

Suponhamos que pretendemos realizar uma sondagem opinio pblica e a um total de 1100 adultos -lhes perguntado se so a favor ou contra uma certa legislao. Se soubermos que 40% dos adultos apoiam a legislao em questo, qual a probabilidade de que a amostra d valores dentro de dois pontos percentuais volta dos 40%? Se =0,40, o erro padro

0,4(0,6 ) / 1100 = 0,01477 e, portanto,

65

P(0,38p0,42) = P(

0,38 0,40 0,42 0,40 Z ) 0,01477 0,01477

= P(-1.35Z1.35 ) = 0,8230 Um resultado amostral baseado em 1.100 observaes tem mais do que quatro em cinco hipteses de estar a dois pontos percentuais de 0,40. Analogamente ao j apresentado no captulo anterior, um intervalo de confiana para a proporo de uma populao dado por

pz

p(1 p) n

Exemplo: A pedido dos seus clientes, uma agncia de publicidade levou a cabo um estudo para saber se as pessoas, quando vm programas previamente gravados na televiso, avanam a fita quando surgem os anncios. Numa amostra de 698 possuidores de gravadores de vdeo, foi detectado que 38% normalmente ou sempre passavam frente as partes de publicidade. Partindo do pressuposto de que esta amostra representa a populao dos possuidores de gravadores de vdeo, pretende-se determinar um intervalo de confiana a 90%. Este intervalo ser 0,38 1,65 35% a 41%. Tambm para a estimao da proporo h uma expresso que nos fornece o tamanho de amostra necessrio

0,38(0,62) = 0,38 0,0303 ou seja, de 698

z 2 (1 ) n= E2
Como se pode ver esta expresso idntica da mdia com a nica diferena de que (1-) substitui o valor de 2.

Exemplo: Um grupo de investigao de uma empresa produtora de material mdico est interessado em estimar a proporo dos servios com material obsoleto. Pretende-se que esta estimao tenha um erro mximo 0,03 com

66

90% de confiana, nada se sabendo acerca do valor de . Qual deve ser o tamanho da amostra para se obter esta preciso desejada? Como no temos um valor para , estimamos =0,50. Para 90% de confiana, z=1,65. Ento

z 2 (1 ) 1,652 (0,5)(0,5) n= = = 757 E2 0,032


O uso de =0,5 constitui uma abordagem dita conservadora uma vez que qualquer outro par de valores (0,7 e 0,3 ou 0,8 e 0,2) levar-nos-ia a amostras mais reduzidas. Tambm a lgica e os mtodos da estatstica dos testes referentes a amostragens binomiais so idnticos aos testes de Z e de t. A estatstica do teste para a proporo binomial dada pela frmula

z* =

0 (1 0 )
n

p 0

Ao estudar o processo de aprovao de crdito decidido h 18 meses, uma empresa com vrias dependncias em vrias cidades detectou que o crdito era concedido a 65 por cento dos que o solicitavam. Pretende-se agora saber se esta percentagem ainda se mantm. Para isso recolheu uma amostra de 315 pedidos de crdito nos ltimos 90 dias e verificou 101 recusas e 214 aprovaes, ou seja, p = X/n = 214/315 = 0,6794. Se representar a proporo de todos os pedidos de crdito, temos H0: =0,65 contra H1: 0,65. Para =0,10, o ponto de corte para Z 1,65 e, portanto, a estatstica do teste

z* =

0 (1 0 )
n

p 0

0,6794 0,65 0,65(0,35) 315

= 1,09

Como -1,65Z*1,65, no podemos rejeitar H0: podemos descrever a diferena entre p e 0 (0,0294) como no significativa

67

8.2

Inferncias sobre e 2
At agora vimos mtodos de inferncia estatstica aplicados mdia e

proporo . Nesta seco debruar-nos-emos sobre intervalos de confiana e testes de hipteses para a varincia 2 ou para o desvio padro . Por razes de simplicidade matemtica,
2

apenas

iremos

inferir

estatisticamente acerca da varincia . A funo raiz quadrada que liga a varincia ao desvio padro, permite-nos facilmente converter os resultados obtidos para o desvio padro. Todos estes procedimentos de inferncia acerca de 2 e de partem do pressuposto de que a amostra em estudo provm de uma populao com uma distribuio normal ou aproximadamente normal. Comeamos por reconhecer que existe um valor de populao 2 que, apesar de constante, desconhecido. Alm disso, o valor s2 da varincia da amostra muito dificilmente ser exactamente igual a 2, sendo portanto possvel falar-se de uma distribuio para s2. Esta distribuio depende no s de 2 como tambm do tamanho n da amostra. Assim, estandardizando, obtemos uma varivel chamada qui-quadrado (2) dada por

=
2

(n 1) 2
s2

Usando a tabela do qui-quadrado apresentada em Apndice, podemos encontrar os pontos de corte correspondentes aos nveis aceitveis de risco e a vrios graus de liberdade. A expresso geral para o intervalo de confiana que envolva uma varivel qui-quadrado dada por
2 2 E 2 D 2 2 onde E e D correspondem, respectivamente, aos limites inferior (esquerdo)

e superior (direito) do intervalo. Assim, substituindo 2 pela expresso anterior temos


2 E

(n 1) 2
s
2

2 D

ou seja,

68

(n 1)s 2
2 D

(n 1)s 2
2 E

Exemplo: O grupo de controlo de qualidade de uma fbrica de motorizadas decidiu testar uma amostra de 20 motorizadas sadas da produo. Pretende-se estudar a preciso e a variabilidade dos odmetros para se poder avaliar a qualidade dos fornecimentos feitos por uma outra empresa. As motorizadas percorreram uma distncia de 200 quilmetros e forneceram os seguintes dados: X = 200,21 Km, s2 = 0,23 e s = 0,48. Construir um intervalo de confiana a 95% para , o desvio padro da populao, partindo do pressuposto que as leituras dos odmetros seguem uma distribuio aproximadamente normal. Para n = 20, os nossos graus de liberdade so gdl=n-1=19. Ento, com um erro direita e esquerda de 0.025, obtm-se os seguintes valores:
2 D =32,852

2 E =8,907.

Assim,

19(0,23) 19(0,23) 2 32,852 8,907

ou

0,1320,49. O intervalo de confiana para obtido calculando as razes quadradas aos limites do intervalo para 2, produzindo 0,36 Km 0,70 Km. Reparar que os limites inferior e superior no esto equidistantes da estimao pontual, devendo-se isto ao enviesamento na distribuio do quiquadrado. A estimao pontual est sempre mais prxima do limite inferior do que do limite superior. Um outro processo de inferir acerca de ou 2 usando um teste de hipteses para 2. A estatstica do teste para a varincia da populao 2

2*

(n 1)s 2
2 s0

onde o ndice zero corresponde aos valores no caso da hiptese nula no ser de rejeitar. Como exemplo, vejamos o caso de uma companhia farmacutica que produz cpsulas de 40 mg, sendo esta produo, em princpio uniforme. No entanto h necessidade em se testar, sabendo-se que o desvio padro da dosagem no deve ultrapassar 1,25 mg. 69

Uma amostra de 25 cpsulas apresentou X = 40,33 e s = 1,34. Ser que a dosagem est a variar demasiado? A nossa hiptese unilateral : H0: H1: = 1,25 > 1,25 (2 = 1,5625) (2 > 1,5625)

Como n=25 e =0,01, obtemos o valor 2=42,980, sendo ento a estatstica do teste

2* =

(n 1)s 2
2 s0

24(1,34)2 = 27,58 1,252

Figura 3.1 - Estatstica do teste e regio de rejeio

Como a estatstica do teste menor do que o ponto de corte dado pela tabela (ver Figura 3.1), podemos afirmar que a evidncia amostral consistente com a hiptese nula e, portanto, dizer que o processo est sob controlo.

70

Comparao entre duas populaes

Neste captulo iremos analisar o caso de duas populaes diferentes com o intuito de as compararmos. Necessitamos de duas amostras para podermos inferir se as populaes de onde elas provm so a mesma ou diferem em relao a determinadas caractersticas. A lgica que subjaz criao dos intervalos de confiana e dos testes de hipteses idntica s anteriormente utilizadas. Assim, o intervalo de confiana dado por Estimao pontual (Z ou t) (erro padro) e o teste de hiptese baseado na estatstica Z* (ou t*) = resultado da amostra - valor sob a hiptese nula erro padro

9.1

Inferncia sobre 1-2: amostras independentes


Estamos a analisar a situao em que as amostras so independentes,

ou seja, foram extradas de duas populaes. Os itens seleccionados de uma populao no exercem qualquer influncia sobre os itens seleccionados da segunda populao. No caso de amostras grandes, o estimador pontual para 1-2 dado pela diferena entre as mdias amostrais X 1 X 2 . Aplicando o teorema do limite central, podemos dizer que a distribuio amostral de X 1 X 2 tem uma forma aproximadamente normal com mdia = 1-2 e desvio padro = X 1 X 2 =
2 s1 s2 + 2 n1 n2

71

Caso as variveis 1 e 2 das populaes sejam desconhecidas, so utilizados os correspondentes valores s1 e s2 das amostras, obtendo um valor estimado para o desvio padro

X 1 X 2 = s

2 2 s1 s2 + n1 n2

O intervalo de confiana para a diferena entre as mdias obtido do seguinte modo:

X1 X2 z

2 s1 s2 + 2 n1 n2

Exemplo: O responsvel por uma pequena empresa pretende estimar a diferena entre mdias das despesas feitas pelos clientes possuidores de um dos dois cartes de crdito American Express e Visa. Recolhida uma amostra aleatria dos tales dos ltimos 3 meses obtiveram-se os seguintes resultados:
Carto de Crdito American Express Visa Amostra 59 66

X
19 666 16 376

s 6 806 6 022

Pretende-se construir um intervalo de confiana a 90% para a diferena mdia das populaes das quantias gastas. Para isso, e chamando amostra 1 correspondente ao uso do carto American Express, podemos calcular o seguinte intervalo:
X1 X2 z
2 s1 s2 6.806 2 6.022 2 + 2 = 19.666 16.376 1,65 + = 3.290 1.906,15 n1 n2 59 66

Podemos, portanto, estar 90% certos de que 1-2 estar entre 1383,85 e 5196,15. Um teste bilateral normalmente usado com o objectivo de investigar a seguinte hiptese nula H0: 1=2 ou, o que o mesmo, H0: 1-2=0. Por outras palavras, esta hiptese nula implica que no exista diferena entre as mdias das populaes. Para se concluir que tal diferena existe, h necessidade de rejeitarmos a hiptese nula.

72

Sendo a hiptese nula verdadeira, as duas populaes de onde foram extradas as amostras tm a mesma mdia. Deste modo a estatstica do teste

z* =

(X

X 2 0
2 s12 s 2 + n1 n 2

Exemplo: Num teste de mercado de uma nova marca de cereais para o pequeno almoo estamos a avaliar duas campanhas publicitrias. Uma das campanhas afirma que o produto nutritivo para crianas, enquanto que, para a segunda campanha, o comer cereais pela manh constitui um procedimento considerado natural em adultos. A campanha orientada para as crianas feita em 32 estabelecimentos de cinco cidades e a campanha orientada ara os adultos realizada num conjunto diferente de 32 estabelecimentos em seis cidades do pas. Aps um perodo de seis meses, obtiveram-se as seguintes vendas:
Campanha 1. Adultos 2. Crianas Estabelecimentos 32 32 Mdias de vendas 13.9 12.1 Desvio padro 2.3 2.0

Pretende-se usar estes dados para decidir qual das campanhas parece mais promissora. Escolhe-se um erro de tipo I de 5%.

z* =

(X

X2 0 s s + n1 n2
2 1 2 2

(13,9 12,1) 0
2,3 2,0 + 32 32
2 2

1,8 = 3,34 0,539

Como este valor superior o ponto de corte para 5% de erro (1.96), temos evidncia suficiente para considerar que a hiptese nula no verdadeira. A campanha orientada para adultos parece ser a mais apelativa. Se estivermos a trabalhar com amostras pequenas temos de partir do pressuposto de que as duas populaes partilham a mesma varincia. Assim,
2 2 e s2 podemos obter uma estimao com base nas varincias amostras s1

para a varincia comum das duas populaes:


2 sp = 2 2 (n1 1) + s2 (n2 1) s1 n1 + n2 2

73

2 , suponhamos que obtivemos Para ilustrarmos os clculos para s p

amostras de cada uma das duas populaes e delas os seguintes valores:

n1 = 8 n2 = 12

s1 = 20,8
s2 = 24,2

X 1 = 88,3

X 2 = 85,1

Partindo do pressuposto de que as populaes tm a mesma mdia,


2 podemos obter um valor de s p como estimador de 2. 2 2 (n1 1) + s2 (n2 1) = 20,82 (8 1) + 24,22 (12 1) = 526,14 s1 n1 + n2 2 8 + 12 2

2 sp =

O erro padro dado pela frmula

X2

2 sp

n1

2 sp

n2

e o intervalo de confiana para 1-2 em amostras pequenas

X1 X2 t

2 sp

n1

2 sp

n2

Do mesmo modo a estatstica do teste sobre 1-2 em amostras pequenas dada por

t* =

(X

X2 0
2 sp

n1

2 sp

n2

9.2

Inferncia sobre 1-2: amostras dependentes


As amostras dependentes, tambm chamadas emparelhadas,

representam uma aplicao especial da inferncia para duas amostras. Os estudos que envolvam este tipo de amostras so normalmente mais informativos e eficientes e as observaes amostrais reduzem-se s diferenas di entre elementos correspondentes de ambas as amostras. Estas diferenas

74

constituem uma varivel d com mdia d e desvio padro sd . Assim, a

frmulas para o intervalo de confiana para d

dt
e a estatstica do teste H0: d = 0

sd n

t* =

d 0 sd n

Exemplo: Um novo medicamento para doentes com o nvel de colesterol elevado foi ministrado a seis doentes num perodo de quatro meses. Se considerarmos este grupo de doentes como uma amostra aleatria de doentes com uma contagem de colesterol acima de 250 mg por 0.1 litros de sangue, pretende-se estimar com 95% de confiana a reduo mdia de colesterol encontrada.
Doente 1 2 3 4 5 6 Antes Tratamento 252 311 280 293 312 327 Aps Tratamento 211 251 241 248 258 268

Ao calcular as diferenas Antes - Aps Tratamento encontramos os valores para a varivel d


Doente Antes - Aps 1 41 2 60 3 39 4 45 5 54 6 59

e desta tabela, os valores d = 50 e sd = 9,42. Assim o nosso intervalo de confiana para a reduo mdia no colesterol

dt

sd n

= 50 2,571

9,42 6

= 50 10

Temos 95% de confiana de que a reduo mdia da contagem de colesterol na populao est compreendida entre 40 e 60.

9.3

Inferncia sobre 1 - 2
75

Os estudos comparativos podem tambm envolver duas populaes binomiais e, neste caso, estarmos interessados na inferncia sobre 1- 2. Aqui, partimos do pressuposto de que as expresses 1 1, 2 2, 1(1- 1) e 2(1- 2), so maiores ou iguais a 5 e de que as duas amostras binomiais so independentes. Deste modo, o teorema do limite central garante-nos que a distribuio amostral de p1-p2 aproximadamente normal com Mdia = 1 2 e desvio padro= p1 p2 =

1 (1 1 )
n1

2 (1 2 )
n2
e de

Como normalmente desconhecemos os valores de 1

2 ,

substitumos estas duas variveis por p1 e p2 referentes amostra. Assim o intervalo de confiana para 1 2 , a diferena entre duas populaes binomiais,

p1 p2 z

p1 (1 p1 ) p2 (1 p2 ) + n1 n2

Exemplo: Um produtor tem dois campos de macieira tratadas com diferentes tipos de insecticidas no incio da estao. Quando as mas amadureceram, recolhida uma amostra de cada campo e obtidos os seguintes resultados
Insecticida 1 2 Tamanho da amostra 400 400 Nmero de infestadas 44 24

Pretende-se estimar a diferena nos ndices de infestao nas duas populaes de mas, com uma confiana de 90%. Se X representar o nmero de mas infestadas, as estimaes pontuais so

p1 =

X1 44 = = 0,11 n1 400

p2 =

X2 24 = = 0,06 n2 400

O intervalo de confiana correspondente ser

76

p1 p2 z

p1 (1 p1 ) p2 (1 p2 ) 0,11(0,89) 0,06(0,94) + = 0,11 0,06 1,65 + n1 n2 400 400


= 0,05 1,65(0,0196) = 0,05 0,032

Com 90% de confiana, acreditamos que a taxa de infestao foi maior quando o insecticida 1 foi usado, com uma percentagem a variar de 1,8% at 8,2%. tambm comum conduzir-se um teste para analisar se ser razovel admitir-se que duas populaes binomiais no difiram. A hiptese nula ento H0: 1=2 ou, o que o mesmo, H0: 1-2=0. Dependendo do objectivo do estudo, assim a hiptese alternativa pode ser unilateral ou bilateral. Se p representar a mdia ponderada das propores encontradas nas amostras, a sua expresso dada por

p=

X + X2 p n + p2 n2 Nmero de xitos nas amostras = 1 = 1 1 Tamanho total das amostras n1 + n2 n1 + n2

e a correspondente estatstica do teste ento

z* =

p1 p p1 p + n1 n2

(p1

p2 ) 0

Exemplo: Um determinado banco pretende estudar se o estado civil dos indivduos que recorrem a emprstimo para compra de automvel tem algo a ver com o facto destes terem problemas com o pagamento das mensalidades do emprstimo dentro de um ano. Para isso recolheu uma amostra de 950 pedidos de financiamento aprovados com os dados seguintes
Estado civil No casado Casado Total de emprstimos 413 537 Nmero de problemas 29 47

77

Iremos testar a hiptese H0: NC=C contra a hiptese H1: NCC. Pelas amostras temos

p=

X NC + X C 29 + 47 = = 0,08 413 + 537 nNC + nC

A estatstica do teste ento

z* =

(pNC

p1 p p1 p + nNC nC

pC ) 0

(0,0702 0,075) 0 0,08(0,92) 0,08(0,92) +


413 537

= 0,98

Para =0,10, no devemos rejeitar a hiptese H0 a menos que o valor da estatstica do teste exceda 1,65. No nosso caso, podemos declarar que a diferena entre as taxas encontradas de no pagamento no estatisticamente significativa.

78

10

Ajustamento e independncia

Neste captulo iremos ver dois novos procedimentos. O primeiro permite analisar de que modo uma determinada varivel qualitativa com trs ou mais categorias se distribui (distribuio multinomial); o segundo permite-nos concluir se duas variveis categricas esto ou no relacionadas

10.1 Populaes multinomiais


O gestor de uma loja pretende ver se igualmente provvel que cada um dos trs mtodos usuais de pagamento (numerrio, cheque ou carto de crdito) seja utilizado pelos jovens clientes. Uma amostra aleatria de 150 compras forneceu as seguintes frequncias:
Tipo de pagamento No de compras numerrio 30 cheque 52 carto de crdito 68

Pretendemos testar H0: Todas as categorias (mtodos de pagamento) so igualmente provveis na populao dos pagamentos ou, simbolicamente, podemos escrever a hiptese nula como H0: numerrio = cheque = carto de crdito = 1/3 onde , com um ndice, representa a respectiva proporo dos pagamentos na populao. Neste exemplo, utilizaremos o erro = 0,05. Para podermos inferir, necessitamos de saber como que os elementos da amostra se distribuem pelas vrias formas de pagamento no caso da verdade da amostra nula H0. A estas novas frequncias chamamos frequncias esperadas teoricamente. No nosso caso, com uma amostra de 150

79

pagamentos e supondo uma probabilidade igual para cada uma das formas de pagamento, as frequncias esperadas sero um tero de 150, ou seja, 50. Colocando, lado a lado, as frequncias observadas e esperadas temos:

Mtodo de pagamento Numerrio Cheque Carto de crdito

Frequncia observada O 30 52 68

Frequncia esperada E 50 50 50

Se H0 for verdadeira, as frequncias observadas e esperadas de cada linha devero ser semelhantes. Grandes discrepncias entre os dois tipos de frequncias sugerem que pouco provvel que H0 seja verdade. A nossa estatstica do teste ser, portanto, uma quantidade que medir a extenso da discordncia entre as frequncias observadas e as esperadas. Esta estatstica do teste denominada qui-quadrado e obtida pela frmula

2* =

todas as clulas

(Frequncia observada Frequncia esperada)2


Frequncia esperada

ou, de uma forma abreviada,

2*

(O E )2
E

A forma geral da distribuio do 2 dada pela figura abaixo.

A linha que separa a aceitao (no rejeio) da rejeio de H0 depende do erro de tipo I e dos graus de liberdade (gdl) associados situao

80

amostral. Para testes que envolvam populaes multinomiais, os graus de liberdade sero iguais ao nmero de celas ou categorias menos uma unidade. Para o problema inicial, h trs categorias de pagamento e, portanto, 2 graus de liberdade. Se pretendermos testar a nossa hiptese de iguais propores com um nvel de significncia de 0,05, o valor correspondente na tabela do qui-quadrado 5,991. Por outro lado, o valor da estatstica do teste dado por

2* =

(O E )2
E

(30 50)2
50

(52 50)2
50

(68 50)2
50

= 8,00 + 0,08 + 6,48 = 14,56

Como a estatstica do teste excede o ponto de corte dado pela tabela, podemos afirmar que temos provas em nmero suficiente para rejeitar a hiptese nula. Conclumos ento que H0 falsa. A cela numerrio contribui 8,00 para a soma 14,56, enquanto que carto de crdito contribuiu 6,48. Isto sugere que numerrio<1/3 e que carto de crdito>1/3. A cela cheque d uma contribuio quase negligencivel para a soma 14,56. Vejamos outro exemplo. Pretende-se estudar a queixas recebidas relativamente ao atendimento numa loja de uma cadeia de lojas. Depois de classificadas em grandes grupos, encontramos o seguinte: A qualidade do servio: 31 cartas B cortesia do servio: 25 cartas C preo de irem: 17 cartas D outras: 17 cartas. Em relao a toda a cadeia a que pertence esta loja so conhecidas as percentagens de queixas para cada categoria: A = 40%, B = 25%, C = 20% e D = 15%. Testar a hiptese de que o padro das queixas nesta loja no seja diferente do padro geral. A hiptese nula , ento: H0: A = 0,40, B = 0,25, C = 0,20, D = 0,15

Com base nesta hiptese, as 90 queixas da amostra deveriam distribuir-se do seguinte modo:

81

A: nA = 90(0,40) = 36 cartas B: nA = 90(0,25) = 22,5 cartas C: nA = 90(0,20) = 18 cartas D: nA = 90(0,15) = 13,5 cartas e a tabela de dupla entrada seria:

Categoria Frequncia O (observada) E (esperada) A 31 36 B 25 22,5 C 17 18 D 17 13,5

A estatstica do teste ser

2*

(O E )2
E

(31 36)2
36

2 ( 25 22,5) +

22,5

2 ( 17 18) +

18

2 ( 17 13,5) +

13,5

= 0,694 + 0,278 + 0,056 + 0,907 = 1,935

Com quatro categorias, os graus de liberdade sero trs. Se usarmos = 0,10 como erro correspondente parte da direita da curva do qui-quadrado, encontramos o ponto de corte 6,251. Como 1,935 < 6,251, aceitamos H0 e consideramos a amostra de acordo com os dados de toda a cadeia. Antes de prosseguir importante salientar que os testes do quiquadrado requerem que as frequncias esperadas E sejam superiores ou iguais a 5.

10.2 Independncia estatstica


De seguida, iremos ver um teste do qui-quadrado que nos permite determinar se duas variveis so independentes ou no. Estas variveis esto dispostas numa tabela de dupla entrada ou, como a denominaremos, tabela de contingncia. Vejamos o exemplo da tabela de contingncia obtida a partir de uma amostra de 90 residncias, considerando o preo de venda e o tempo em que estas residncias estiveram venda no mercado: 82

Dias no mercado Preo de venda Abaixo de 10 mil contos De 10 a 50 mil contos Acima de 50 mil contos Total 60 dias 18 14 4 36 > 60 dias 12 31 11 54 Total 30 45 15 90

Pretende-se saber se as duas variveis so independentes. As hipteses para o teste de independncia so ento: H0: H1: As duas variveis so independentes As duas variveis so dependentes

Testaremos a hiptese nula com um grau de significncia de 0,05. Para calcular o teste do qui-quadrado necessitamos, no entanto, dos valores das frequncias esperadas para cada uma destas seis celas. De uma forma intuitiva, e para os nossos dados, vemos que 40% das moradias (36 em 90) so vendidas em menos de 60 dias, depois de serem postas venda. Assim, se o preo independente do tempo no mercado, deveramos ver os mesmos 40% em cada uma das categorias de preos. Por outras palavras, as frequncias esperadas para a primeira linha deveriam ser 0,40(30)=12 e 0,60(30)=18; para a linha do meio 0,40(45)=18 e 0,60(45)=27; e, para a linha de baixo, 0,40(15)=6 e 0,60(15)=9. A tabela seguinte mostra, para cada cela, as frequncias observadas e as frequncias esperadas.
Dias no mercado Preo de venda Abaixo de 10 mil contos De 10 a 50 mil contos Acima de 50 mil contos Total 60 dias 18 (12) 14 (18) 4 (6) 36 > 60 dias 12 (18) 31 (27) 11 (9) 54 Total 30 45 15 90

Outra maneira de obter as frequncias esperadas utilizar a frmula Eij = (Total da linha i) (Total da coluna j) Tamanho da amostra

onde i representa o nmero da linha e j o nmero da coluna. Tambm aqui todas as frequncias esperadas devem ser, no mnimo, iguais a 5. A estatstica do teste

83

2*

12

(O E )2
E +

(18 12)2

(12 18)2
18

(14 18)2
18

(31 27)2
27

(4 4)2
4

(11 9)2
9

= 3,0 + 2,0 + 0,889 + 0,593 + 0,667 + 0,444 = 7,593


Os graus de liberdade para uma tabela de confiana com nl linhas e nc colunas so dados por gdl=(nl-1)(nc-1). Neste exemplo, gdl=(3-1)(2-1)=2. Usando =0,05 com gdl = 2, encontramos um ponto de corte de 5,991. Como a estatstica do teste excede o valor do ponto de corte, rejeitamos H0. Constatamos que as discrepncias entre as frequncias observadas e as esperadas so demasiado grandes para se aceitar a independncia entre as variveis. Faz assim sentido analisar quais as celas que mais contriburam para esta situao. No nosso exemplo, visvel que as celas da primeira linha tm o maior impacto, significando que as residncias menos caras tendem a ser vendidas mais rapidamente do que as residncias das outras categorias. Vejamos outro exemplo. Um hotel decidiu, h alguns meses, adquirir 200 novos aparelhos de televiso, 80 de uma marca e 60 de cada uma de duas outras marcas. Foi ento registado o nmero de queixas, durante esse tempo, feitas pelos hspedes relativamente ao funcionamento dos televisores.
Marca de televisores N de queixas Nenhuma Uma Duas ou mais Total S 10 27 23 60 R 16 47 17 80 T 14 26 20 60 Total 40 100 60 200

Partindo do pressuposto que os aparelhos de televiso constituem amostras aleatrias das respectivas marcas, pretendemos testar, com 10% de risco, se existe alguma relao entre as duas variveis, isto , pretendemos testar: H0: H1: Marca de televisor e nmero de queixas so independentes Marca de televisor e nmero de queixas esto dependentes

84

Os graus de liberdade so gdl=(3-1)(3-1)=4. Para =0,10, o valor de corte do qui-quadrado 7,779. A tabela seguinte mostra-nos as frequncias observadas e as correspondentes frequncias esperadas, entre parntesis. Marca de televisores N de queixas Nenhuma Uma Duas ou mais Total S 10 (12) 27 (30) 23 (18) 60 R 16 (16) 47 (40) 17 (24) 80 T 14 (12) 26 (30) 20 (18) 60 Total 40 100 60 200

A estatstica do teste

2* =

(O E )2
E

(10 12)2
12

+K+

(11 9)2
9

= 6,378

Como 6,378 menor do que o ponto de corte 7,779, no rejeitamos H0. No encontramos provas em nmero suficiente da relao entre as marcas de televisores e o nmero de queixas dos hspedes.

85

86

11
1 a) b) c) d) e) f) 2 sade

Exerccios propostos

11.1 Estatstica descritiva


Identifique as entidades e possveis valores das seguintes variveis: nome do carto de utente dos doentes em espera nmero de consultas mensais realizadas num determinado centro de nmero de reclamaes enviadas pelo correio por ms para um hospital tipo de consulta (primeira/subsequente) de um doente na consulta externa de uma especialidade nmero de telefone das pessoas que acorrem s urgncias de um hospital nmero de quartos por clnica em Coimbra

Em relao a cada varivel de pergunta anterior, classifique os dados correspondentes como qualitativos ou quantitativos.

Partindo do pressuposto de que os dados da amostra esto isentos de erro, identifique os seguintes resultados como provenientes de estatstica descritiva ou inferencial: a) b) c) a quantidade de precipitao registada nos primeiros 10 dias do ms passado foi de 3 centmetros aps uma anlise baseada em casas semelhantes da mesma rea, pensa-se que esta casa poder ser vendida por 250.000. uma sondagem feita uma semana antes das eleies revelou que o partido A seria o escolhido por 45% dos eleitores

87

Com base nas tabelas de nmeros aleatrios fornecidas, identifique os nmeros das entidades a serem includas na amostra, se for dada a seguinte informao: a) b) c) N=100, n=12, ponto de partida: linha 7, coluna 5, para baixo N=69, n=5, ponto de partida: linha 4, coluna 5, para a direita N=811, n=10, ponto de partida: linha 40, coluna 9, para cima

Pretende-se obter uma amostra sistemtica de 81 doentes seleccionados de uma populao numerados entre 14.522 e 21.471. Suponha que um auditor escolheu o nmero 51 como o ponto aleatrio de comeo. a) b) Ser possvel escolher 51 como ponto de partida? Em caso afirmativo, quais so as 3 primeiras facturas seleccionadas? Em caso negativo, como que ento poderamos proceder?

Classifique os seguintes dados como discretos ou contnuos e crie vrias categorias para incluir os possveis dados: a) b) nmero de vezes por ms que um indivduo recorre ao centro de sade. taxa de xito por tipo de interveno.

Pense numa varivel que produza dados discretos e define-a em palavras. Repita este exerccio para dados contnuos.

Considere a seguinte distribuio de frequncia baseada num conjunto de dados:


X f 0 10 1 17 2 14 3 9 4 3 5 1

a) b) c) d) 9

Qual o tamanho da amostra? Qual a frequncia relativa de X=2? Que tipo de distribuio de frequncia este? Crie o conjunto das frequncias acumuladas.

Quantas classes so necessrias para organizar um conjunto de dados com as seguintes observaes? a) n=60 b) n=200 c) n=15

88

10

Pretende-se organizar uma amostra de tamanho 63 numa distribuio de frequncias agrupadas. a) b) c) Quantas classes devem ser usadas? Se os valores mnimo e mximo forem respectivamente 61,1 e 83,7 qual deve ser o valor do comprimento da classe. Quais os limites extremos da primeira classe.

11

Considere a seguinte distribuio de frequncias agrupadas:


No. classe 1 2 3 4 5 Classe 47 - 58 58 - 69 69 - 80 80 - 91 91 - 102 f 7 18 24 12 5

a) b) c) d) 12

Determine o valor de w. Qual o ponto mdio da classe 2? Qual a frequncia relativa da classe 3? Crie a coluna das frequncias acumuladas.

Organize o seguinte conjunto de dados numa distribuio de frequncias agrupadas:


3,4 2,4 4,4 4,2 3,4 2,1 1,4 8,2 3,3 5,3 7,6 6,2 5,2 3,4 3,5 8,5 3,6 6,3 1,4 4,6 2,5 5,7 5,5 5,3 3,6 4,9 3,8 1,6

13

O departamento de recursos humanos de um hospital registou o nmero de dias de doena de uma amostra de profissionais nos ltimos seis meses. Os dados so os seguintes:
3 4 5 4 4 2 0 9 4 2 7 0 3 0 3 3 4 6 2 2 2 7 6 5 9 3 2 3 5 0 8 3 2 7 7 1 7 3 9 2 4 1 3 4 2 3 4 7 6 2 7 4 4 8 3 1 2 5 5 9 2 9 4 3 5 0 2 7 2 3 0 4 3 6 7 3 2 2 2 4 2 6

89

a) b) c) d) e) 14

Defina a varivel representada por estes nmeros. Ser que produz dados discretos ou contnuos? Qual a entidade neste problema? Devem os dados ser organizados em distribuies de frequncia agrupadas ou no agrupadas? Apresente a distribuio de frequncias apropriada.

Desenhe o histograma de frequncias relativas correspondente seguinte distribuio de frequncias agrupadas:


Classes 0,45 8,05 8,05 - 15,65 15,65 - 23,25 23,25 - 30,85 f 3 5 8 4

a) b) c) 15

Qual o valor de w? Qual o ponto mdio da classe 23,25 - 30,85? Qual a frequncia relativa acumulada no fim da classe 8,05 - 15,65?

A especificao tcnica de uma sonda usada numa cirurgia indica que deve ter 5 milmetros de dimetro. Uma amostra aleatria de 20 sondas possua os dimetros abaixo indicados:
4,961 4,964 4,975 4,975 4,982 4,984 4,984 4,987 4,991 4,992 4,994 4,997 4,999 4,999 5,000 5,001 5,001 5,003 5,004 5,007

Organize estes dados numa distribuio de frequncias agrupadas com frequncia relativa, frequncia relativa acumulada e ponto mdio. 16 Considere o histograma de frequncia da figura seguinte para um conjunto organizado de dados: a) b) Reconstrua, a partir deste grfico, a correspondente tabela de distribuio de frequncias? Qual o tamanho da amostra?

90

f 36 27 16

12

20

40

60

80

100

17

Construa um histograma de frequncia para cada uma das seguintes distribuies de frequncia: a)
Classes 1,77 - 2,19 2,19 - 2,61 2,61 - 3,03 3,03 - 3,45 3,45 - 3,87 f 7 24 35 21 10

b)

X 10 11 12 13 14 15

f 1 5 7 0 12 3

c)

Classes 45 - 50 40 - 45 35 - 40 30 - 35 25 - 30 20 - 25

f 9 17 11 5 4 2

Identifique, se possvel, a forma comum do histograma amostral. 18 Sendo dado as seguintes classe, em que classe incluiria o valor X = 14?
Classes 10 - 14 14 - 18 18 - 22

19

Considere o seguinte histograma de frequncias relativas para um conjunto de 231 adultos, estando a ser estudado o nmero de dias de dores fortes de cabea durante o ltimo ano.
fr

.27 .17 .16 .18 .09 .10 .03


0 10 20 30 40 50 60 70

a)

Qual o comprimento de cada classe? 91

b)

possvel determinar a frequncia da ltima classe? Em caso afirmativo, qual o seu valor?

20

No fim de um curso de formao, foi entregue aos vrios participantes uma folha de avaliao onde se pedia que respondessem seguinte questo: "Este curso ter um impacto imediato no meu desempenho como profisional de sade". As respostas possveis eram concordo muito, concordo, nem concordo nem discordo, discordo, discordo muito. Obtevese a seguinte lista de respostas:
Participante 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Resposta Concordo Nem concordo nem Nem concordo nem Discordo Concordo Concordo Discordo Nem concordo nem Nem concordo nem Concordo muito Concordo Concordo Concordo muito Concordo Participante 15 16 17 18 19 20 21 22 23 24 25 26 27 28 Resposta Concordo Concordo Concordo muito Concordo Nem concordo nem Nem concordo nem Concordo Concordo Concordo Discordo Concordo Concordo Nem concordo nem Nem concordo nem

discordo discordo

discordo discordo

discordo discordo

discordo discordo

a) b)

Compile os dados numa tabela de frequncias. Se fosse o responsvel pelo referido seminrio, consider-lo-ia um xito em termos do impacto imediato no desempenho dos participantes? Justifique.

21

Uma cadeia de restaurantes a nvel nacional decidiu criar um ndice de eficincia baseado em vrios entre os quais factores oramentais, de venda e de limpeza. Uma amostra de restaurantes forneceu os seguintes valores de ndices (85,00 o valor mximo possvel): a) b) c) d) e) Quantas classes devem ser usadas para agrupar estes dados? Determine o valor do comprimento de cada classe. Organize os dados numa distribuio de frequncias agrupadas. Desenvolva o conjunto das frequncias acumuladas. Desenhe o histograma para a referida distribuio.

73,65 58,14

74,01 71,25

78,02 74,28

63,15 73,90

69,73 76,26

63,68 69,27

92

73,13 70,12 70,75 78,64 70,87 66,81 79,66 60,35 51,92 60,89 71,64 67,06 73,81 57,86

74,20 72,35 72,11 79,01 78,63 73,53 59,58 66,92 65,70 56,56 69,43 59,56 68,80 65,35

78,06 79,00 68,48 72,62 73,26 71,90 73,61 74,24 66,32 60,26 68,04 75,73 71,60 67,47

71,32 56,85 70,30 78,26 79,74 81,14 78,16 59,15 54,90 53,41 69,84 74,18 71,54 73,92

71,88 74,53 77,53 74,89 80,20 53,88 74,08 67,92 71,54 60,03 80,14 70,20 78,81 68,22

72,45 64,43 74,22 69,56 52,36 65,90 70,11 60,09 63,58 74,92 69,30 64,32 78,54 76,37

22

Para cada uma das seguintes situaes, indique se a medida numrica descritiva (em sublinhado) uma estatstica ou um parmetro: a) b) Um grupo de cinco notas seleccionado de uma classe de 52 estudantes, e calculado o total das cinco notas. Recolhemos aleatoriamente o custo de um pacote de leite meiogordo numa amostra de quatro supermercados da cidade de Coimbra. De seguida, calculamos a mdia destes preos. c) Para estudar a ocupao dos automveis que entram no permetro de um grande hospital um observador colocou-se numa das principais entradas e contou o nmero de ocupantes em cada um de dez automveis. Determinou-se a percentagem de automveis com mais do que um ocupante.

23

Encontre a moda, a mediana, a mdia, a amplitude, o desvio mdio, a varincia e o desvio padro das seguintes amostras de dados: a) b) c) d) e) 12 2 8,9 -4 0,08 9 0 -6 11 6 -5,1 -1 0,03 3 0 12 9 12,3 0,05 10 2 4,5 -2 0,03 7,2 0,07 0,01 0,05 14 0 2 8,4 5,0 10 11 10

24

Uma amostra aleatria de tamanho 37 produziu a seguinte distribuio de frequncias no agrupadas:

93

X f

0 12

1 1

2 6

3 11

4 7

Encontre os valores da moda, mediana, mdia e desvio padro. 25 Considere a seguinte distribuio de frequncias no agrupadas:
X f -4 24 -2 56 -1 33 0 17 1 8 3 2

Encontre os valores da moda, mediana, mdia e desvio padro. 26 27 empresas candidatas ao fornecimento de um produto a um hospital foram sujeitas a uma bateria de testes de onde se obtiveram os seguintes valores. O maior valor possvel 25 e corresponde ao maior potencial de xito.
Pontuao 4-8 8 - 12 12 - 16 16 - 20 20 - 24 f 3 8 7 7 2

a) b) c) d) e) 27

Qual o valor do comprimento da classe? Identifique a moda. Determine a pontuao mdia. Que nmero divide a meio o conjuntos das pontuaes? Determine os valores da varincia e do desvio padro.

Pretendeu-se estudar o nmero de vezes que os adolescentes tinham visto o seu filme favorito. As respostas a um inqurito foram distribudas da seguinte maneira:
No. de vezes que o filme visto 1 2 3 4 5 6 7 f 19 44 35 21 11 3 1

a) b)

Ser possvel determinar quantos adolescentes responderam ao inqurito? Em caso afirmativo, determine este valor. Qual o nmero mdio de vezes que o filme favorito visto?

94

c) d)

Determine a mediana. Ser correcto afirmar-se que o mais provvel que os adolescentes vejam duas vezes o seu filme referido? Justifique.

28

Em meados da dcada de 80 comeou-se a sentir uma escassez de pessoal de enfermagem nos hospitais norte-americanos. Os seguintes dados foram publicados pela American Hospital Association e dizem respeito ao nmero de enfermeiros por cama de hospital, por estado e em 1986:
Estado Alabama Alaska Arizona Arkansas California Colorado Connecticut Delaware D,C, Florida Georgia Hawaii Idaho Illinois Indiana Iowa Kansas Enferm 0,72 0,91 0,86 0,76 0,88 0,77 0,79 0,67 0,88 0,77 0,76 0,80 0,74 0,76 0,67 0,62 0,59 Estado Kentuky Louisiana Maine Maryland Massachusetts Michigan Minnesota Mississippi Missouri Montana Nebraska Nevada N Hampshire New Jersey New Mexico New York North Carolina Enferm 0,75 0,64 0,80 0,80 0,82 0,86 0,61 0,61 0,73 0,59 0,61 0,81 0,87 0,74 0,77 0,75 0,77 Estado North Dakota Ohio Oklahoma Oregon Pennsylvania Rhode Island S Carolina South Dakota Tennessee Texas Utah Vermont Virginia Washington West Virginia Wisconsin Wyoming Enferm 0,58 0,83 0,70 0,85 0,81 0,86 0,78 0,55 0,70 0,71 0,95 0,76 0,75 0,88 0,74 0,62 0,54

a)

Partindo do pressuposto de que estes dados constituem uma amostra representativa, determine a mdia, a mediana e o nmero modal de pessoal de enfermagem por cama.

b)

Organize os dados numa tabela de distribuio de frequncias agrupadas. Determine a mdia, a mediana e a moda resultantes da distribuio e compare estes valores com os da alnea anterior. So idnticos? Porqu?

c) 29

Encontre o valor do desvio padro.

Recolheu-se o tempo de estadia num hospital de 161 doentes submetidos a cirurgia.


Dias de internamento 9 No. de doentes 18

95

10 11 12 13 14 15 16 17 18

21 29 25 10 22 8 12 5 11

a) b) c) d) 30

Encontre a amplitude de valores para a varivel X=durao (em dias) no hospital. Calcule o desvio mdio. Qual o desvio em relao mdia para X = 10? Determine o valor do desvio padro de X.

Suponha que lhe so dados os seguintes valores obtidos de uma amostra de tamanho n=34: Mo = 38 Amp = 32 Md = 37 Min = 18

X = 35,4

S = 6,6

Esboce a forma provvel da respectiva curva de frequncias. 31 A tabela seguinte apresenta as coordenadas para n=5 pares de observaes (x,y):
X Y -2 0 -1 0 0 1 1 1 2 3

a) b)

Encontre a recta dos mnimos quadrados para os dados. Como verificao dos clculos da alnea a), represente os cinco pontos e a recta dos mnimos quadrados. Ser que a recta uma boa aproximao dos pontos de dados?

96

32

A tabela seguinte apresenta as coordenadas para n=5 pares de observaes (x,y):


X Y -3 6 -1 4 1 3 1 1 2 1

a) b)

Encontre a recta dos mnimos quadrados para os dados. Como verificao dos clculos da alnea a), represente os cinco pontos e a recta dos mnimos quadrados. Ser que a recta uma boa aproximao dos pontos de dados?

33

A tabela seguinte apresenta as coordenadas para n = 7 pares de observaes (x,y):


X Y 7 2 8 0 2 5 3 6 5 4 3 9 7 2

a) b)

Encontre a recta dos mnimos quadrados para os dados. Como verificao dos clculos da alnea a), represente os sete pontos e a recta dos mnimos quadrados. Ser que a recta uma boa aproximao dos pontos de dados?

34

A tabela seguinte apresenta o lucro y pelas vendas (milhes de euros) de uma empresa de construo em nove projectos de centros de sade e os nmero x de anos de experincia do responsvel de cada projecto.
X Y 4 2,0 4 3,5 2 8,5 6 4,5 2 7,0 2 7,0 4 2,0 6 6,5 6 8,0

a) b)

Encontre a recta dos mnimos quadrados para os dados. Como verificao dos clculos da alnea a), represente os nove pontos e a recta dos mnimos quadrados. Ser que a recta uma boa aproximao dos pontos de dados?

35

Sendo apresentados os dados relativos a duas variveis X e Y:


X Y 2 2 5 2 4 7 2 7 1 2

a) b) c)

Calcule o coeficiente de correlao para os dados apresentados na tabela. Determine a regresso linear simples Esboce graficamente o diagrama de disperso e a regresso linear simples.

97

d) 37

Comente o significado da recta de regresso encontrada.

O oramento flexvel uma expresso das expectativas do gestor relativamente a receitas e custos para um certo perodo de tempo e serve para comunicar os objectivos da gesto aos vrios gestores da organizao. A gesto de uma empresa de manufactura est interessada em criar um oramento flexvel para estimar os custos extra da produo. Uma anlise histrica forneceu os seguintes dados:
Produo ( $10000) Custos extra ( $1000) 3 12,0 4 10,5 5 13,0 6 12,0 7 13,0 8 13,3 9 16,5

a)

Encontre a recta dos mnimos quadrados que permita a estimao dos custos extra a partir da produo (isto , a recta dos mnimos quadrados que relaciona custo com produo).

b) 38

Represente graficamente os pontos e a recta.

Uma amostra aleatria referente a pedidos de manuteno de seis fotocopiadoras no ltimo ms forneceu os seguintes dados:
Idade da mquina em meses 4 7 12 10 2 13 N de reparaes pedidas 2 1 3 2 0 4

a) b) c) 39

Apresente o diagrama de disperso. Determine o coeficiente de correlao. Que pensa do significado da relao linear entre as duas variveis?

Suponhamos que oito espcimes de um certo tipo de liga metlica para a construo de material cirrgico so produzidos a diferentes temperaturas e que se registou a solidez de cada um. Os valores observados so dados na tabela a seguir, onde xi representar a temperatura (em unidades codificadas) a que o espcime i foi produzido e yi representa a solidez (em unidades codificadas) desse espcime.

98

i 1 2 3 4 5 6 7 8

xi 0,5 1,0 1,5 2,0 2,5 3,0 3,5 4,0

yi 40 41 43 42 44 42 43 42

Encontre a recta da forma y = b0 + b1 x para estes valores atravs dos mnimos quadrados.

11.2 Estatstica inferencial


1 Seja X a varivel aleatria que representa a presso sangunea. Suponhamos que a varivel tem distribuio normal de mdia e desvio padro =8. Suponha que se toma uma amostra de 100 indivduos cuja mdia X =123. Determine um intervalo com 90% de confiana para a mdia. 2 Seja X a varivel que representa a taxa normal de glicose no sangue. Suponhamos que essa distribuio normal com desvio padro =6 mg/100ml de sangue. Determine o intervalo de confiana com 95% de confiana para , sabendo que numa amostra aleatria de 25 indivduos se encontrou uma mdia X = 5 mg/100ml. 3 Foi determinada a taxa de glicose em 8 ratos, tendo sido encontrados os seguintes valores: 100; 87,5; 110; 99,5; 92,5; 94; 100; 100. Calcule, com base nestes dados, o intervalo de 95% de confiana para a mdia da populao. 4 Seja X a varivel que representa a taxa de colesterol no plasma sanguneo. A mdia desta varivel e o desvio padro =20 mg/100ml de plasma. Qual o intervalo de confiana para o parmetro

99

desconhecido , quando foi recolhida uma amostra de 25 indivduos para os quais a mdia encontrada foi de 198 mg/100ml. a) b) 5 Com um grau de confiana de 95% Com um grau de confiana de 99%

Seja X uma varivel aleatria que representa a taxa normal de colesterol, supondo que com base numa amostra de 25 indivduos um investigador obteve a mdia X = 198 mg/100ml e o desvio padro s = 30 mg/100ml. a) b) Determine um intervalo de confiana a 90% para . Suponha agora que eram 50 indivduos. Quais os limites do intervalo de confiana?

Suponha a seguinte amostra proveniente de uma populao com varincia s2 = 64: 1, 20, 18, 19, 19, 15, 31, 12. Determine os intervalos de confiana de 95% e de 99% para

Uma amostra de 100 votantes escolhidos aleatoriamente de um distrito indicaram que 55% eram a favor de um determinado candidato. Encontrar intervalos de confiana a 95% e 99% para a proporo de todos os votantes nesse candidato.

Com base no problema anterior, qual o tamanho que a amostra deveria ter para se ter 95% e 99% de confiana que o candidato seria eleito?

Em 40 lanamentos de uma moeda foram obtidas 24 caras. Encontrar um intervalo de confiana a 95% e a 99% para a proporo de caras que seriam encontradas num lanamento um nmero infinito de vezes da moeda.

10

Um empacotador de sacos de 50 Kg de sal seleccionou uma amostra de 30 sacos cheios nas ltimas 24 horas. Cada saco cuidadosamente cheio, tendo sido encontradas as seguintes estatsticas:

X = 50,22 Kg

s2 = 0,24 Kg2

s = 0,49 Kg

100

a) b)

Construa um intervalo de confiana a 99% para 2. Encontre um intervalo de confiana a 99% para .

11

Teste H0: 2=10 contra H1 unilateral direita, ao nvel 0,05. Suponha que a sua amostra de 20 itens apresentou o valor s2=11,6. Podemos rejeitar H0?

12

Para testar a hiptese de equilbrio de uma moeda, adoptou-se a seguinte regra de deciso: (1) aceitar a hiptese se o nmero de caras numa nica amostra de 100 lanamentos esteja entre 40 e 60 inclusive, (2) rejeitar a hiptese no caso contrrio. a) b) c) Encontre a probabilidade de rejeitar a hiptese quando esta est correcta. Interprete graficamente a regra de deciso e o resultado anterior. Que concluses tiraria se nos 100 lanamentos da moeda se obtiverem 53 caras? E 60 caras?

13

Numa experincia de percepo extra-sensorial pede-se a um indivduo que adivinhe a cor (vermelho ou azul) de uma carta tirada de um baralho de 50 cartas. O indivduo desconhece quantas cartas vermelhas e azuis esto no baralho. Se este identificar correctamente a cor de 32 cartas, determine se os resultados so significativos a um nvel de significncia de 0,05. E se este nvel baixar para 0,01?

14

O fabricante de um medicamento afirma que ele 90% eficaz no alvio de uma alergia no perodo de 8 horas. Numa amostra de 200 pessoas que tinham alergia, o medicamento mostrou ser eficaz em 160 pessoas. Determine a legitimidade da afirmao do fabricante.

15

Teste bilateralmente H0: =48 com base numa amostra de n=60 elementos onde se encontrou s=6,1 e significncia de 10%.

X =46,1. Use um nvel de

16

Uma determinada marca de detectores de fumo afirma que, em mdia, as peas que vende actuam sempre que sejam expostas a 375 partes por 101

milho (ppm) de fumo no ar. Para testar esta frase, expuseram-se trs dzias de extintores a concentraes de fumo, num laboratrio. Os valores, a partir dos quais os extintores actuaram, so os seguintes:
301 319 321 329 341 341 341 343 348 357 360 360 361 369 381 383 384 384 386 388 391 391 392 393 394 401 404 407 407 411 419 435 444 451 475 476

Usando um risco de erro do tipo I de 5%, veja se os dados contradizem o construtor. 17 Um gestor de uma dependncia bancria afirma que a mdia de um levantamento de uma mquina de 7500. Para se testar esta frase, a um nvel de significncia de 10%, recolheu-se uma amostra de 50 levantamentos e encontrou-se uma mdia de 6920 e um desvio padro de 1850. Conclua se a diferena encontrada de 580 estatisticamente significativa. 18 Teste H0: =11.600 contra uma hiptese unilateral direita, usando o nvel de significncia de 0,10. Uma amostra de 127 elementos apresentou a mdia de 11.891 e um desvio padro igual a 2.886. 19 No teste H0: = 57 dias contra H1: <57 dias, a estatstica do teste for z*=-0,85. Determine e interprete o valor de p. 20 No teste H0: =36 contra H1: 36, a estatstica do teste for z*=0,65. Determine e interprete o valor de p. 21 Uma amostra de 150 lmpadas da marca A teve uma mdia de durao de 1400 horas com um desvio padro de 120 horas. Uma amostra de 200 lmpadas da marca B teve uma durao mdia de 1200 horas com um desvio padro de 80 horas. Encontrar os limites de confiana a 95% e a 99% para a diferena entre os tempos mdios de vida das populaes das lmpadas das marcas A e B.

102

22

Suponhamos dois grupos A e B, formados respectivamente por 50 e 100 doentes semelhantes. Ao grupo A foi administrado um novo tipo de medicamento para dormir e, ao grupo B, um medicamento convencional. Os doentes do grupo A estiveram uma mdia de 7,83 horas a dormir, com um desvio padro de 0,24 horas; os doentes do grupo B estiveram 6,750,30 horas a dormir. Encontre os limites de confiana a 95% e 99% para a diferena do nmero mdio de horas a dormir, induzidas por ambos os medicamentos.

23

Numa amostra de 400 adultos e 600 adolescentes que assistiam a um programa de televiso, 100 adultos e 300 adolescentes declararam que gostaram dele. Construa intervalos de confiana a 95% e a 99% para a diferena em propores de todos os adultos e todos os adolescentes que viram o programa e gostaram dele.

24

Numa amostra de 200 peas produzidas por uma mquina foram encontradas 15 defeituosas, enquanto que numa amostra de 100 peas produzidas por outra mquina, apenas foram encontradas 12 defeituosas. Encontrar um intervalo de confiana a 95% e outro a 99% para a diferena entre propores de peas defeituosas produzidas por ambas as mquinas.

25

Um mesmo exame foi dado a duas turmas com 40 e 50 alunos, respectivamente. Na primeira turma a mdia das notas foi 14,8 com um desvio padro de 1,6, enquanto que na segunda turma houve uma mdia de 15,6 com um desvio padro de 1,4. Existe alguma diferena significativa entre o desempenho das duas turmas a um nvel de confiana de 95%?

26

Para testar a eficcia de um novo fertilizante na produo de trigo uma propriedade foi dividida em 60 reas iguais. O novo fertilizante foi aplicado em 30 reas e o velho fertilizante aplicado nas restantes. Nas reas onde foi usado o novo fertilizante, o nmero mdio de alqueires obtidos foi de 18,2, com um desvio padro de 0,63 alqueires. Nas restantes reas, o nmero mdio de alqueires colhidos e o desvio padro

103

foram, respectivamente, de 17,8 e de 0,54. Usando um nvel de 0,05 teste a hiptese de que o novo fertilizante seja melhor o que o velho. 27 Uma amostra de 300 votantes de um concelho A e uma de 200 votantes do concelho B mostraram que 56% e 48% deles eram a favor de um candidato. Com o nvel de significncia de 0,05 teste a hiptese de que haja diferena entre os votantes de ambos os concelhos. 28 Dois grupos A e B de 100 indivduos cada tm uma determinada doena. Aos doentes do grupo A dado um medicamento em ensaio clnico e aos do grupo B no ministrado esse medicamento. Em tudo o resto os doentes so tratados de uma forma semelhante. 75% e 65% dos doentes, respectivamente, dos grupos A e B recuperaram da doena. Teste a hiptese de que este medicamento cure os doentes usando um nvel de significncia de 0,01.

11.3 Ajustamento e independncia


1 Use o teste do qui-quadrado de ajustamento para ver se as discrepncias entre as frequncias observadas e as esperadas dadas na tabela seguinte so demasiado grandes para poderem ser explicadas aleatoriamente.
Categorias Frequncias E (esperadas) O (observadas) A 26 24 B 30 44 C 25 20 D 15 8

Num casino, um dado lanado 90 vezes, com os seguintes resultados:


Face do dado Frequncia 1 14 2 22 3 18 4 14 5 9 6 13

Teste a hiptese de que o dado est equilibrado, com um risco de 10% 3 Uma empresa de venda por correio apresentou um novo tipo de gabardina para homem no seu catlogo de outono/inverso. Com base em experincia anterior com outros tipos de vesturio para homem consegue-se prever uma distribuio para as vendas dos vrios tamanhos das gabardinas: S = 12%, M = 45%, L = 35% e XL = 8%. As primeiras 300 gabardinas encomendadas foram S = 22, M = 125, L = 119 e XL = 104

34. Considerando esta amostra como aleatria, ser que razovel manter as propores originais? Use = 0,10. 4 Uma empresa de camionagem pretende testar (=0,10) se a distribuio de passageiros ao longo dos vrios dias da semana uniforme. Use os seguintes dados:
Dia Frequncia Seg 57 Ter 63 Qua 64 Qui 69 Sex 54

O responsvel pelo departamento comercial de uma empresa classifica os seus clientes de acordo com o tempo de pagamento das facturas: pronto pagamento, 1-30 dias, 31-60 dias e acima de 60 dias. H seis meses a situao era a seguinte:
Pagamento Pronto 1-30 dias 31-60 dias Acima de 60 dias % 68 17 10 5

Agora, que a empresa aumentou 5% a penalidade para o atraso no pagamento, recolheu-se uma amostra de 125 facturas e obtiveram-se os seguintes resultados: 91 pronto pagamentos, 19 pagamentos de 1 a 30 dias, 11 pagamentos de 31 a 60 dias e 4 pagamentos a acima de 60 dias. Teste a hiptese da no alterao, usando =0,10. 6 Use a seguinte amostra para determinar se as variveis A e B so, na populao, dependentes ou independentes.
Varivel A Varivel B B1 B2 A1 5 19 A2 10 26 A3 21 27

Obtenha as concluses com um erro de 1%. 7 Uma amostra de 489 adultos respondeu a um inqurito acerca das suas atitudes em relao publicidade feita por advogados. Afirmava-se que grande parte do preo cobrado pelos advogados era para pagar custos legais e pedia-se opinio aos respondentes. Os resultados foram:

105

Resposta Idade + Jovens (< 48 anos) - Jovens ( 48 anos) Concorda 47 54 Sem opinio 15 41 Descorda 169 163

Partindo do pressuposto de que os dados provm de uma amostra aleatria, teste a independncia entre as respostas e a idade dos respondentes. Use 10% de significncia. 8 A um grupo de jovens do sexo feminino foram dadas amostras de shampoos e pedido que dessem a sua opinio em relao a um novo produto. Os frascos tinham todos a mesma frmula qumica, variando apenas na cor do lquido. Um tero das pessoas recebeu frascos de shampoo castanho, outro tero frascos de shampoo verde e o restante tero frascos de shampoo vermelho. As jovens usaram o shampoo durante trs semanas e preencheram um questionrio onde lhes era pedido, entre outras, que o avaliassem em relao a outros j experimentados. As respostas permitiram preencher a seguinte tabela:
Cor Avaliao Acima da mdia Na mdia Abaixo da mdia Vermelha 28 20 27 Verde 13 28 34 Castanha 13 36 26

106

Tabelas

107

108

A1
Linha 1 2 3 4 5 6 7 8 9 0 1 10 22 24 42 37 77 99 96 89 85 2 54 48 52 32 29 51 07 09 63 28

Nmeros com 2 dgitos aleatoriamente dispostos


3 93 26 41 86 70 21 23 71 03 94 4 57 16 01 13 36 04 75 79 95 35 5 92 56 30 47 91 55 11 08 02 66 Coluna 6 65 19 68 62 64 39 34 88 33 05 7 53 18 67 80 15 46 06 72 14 69 8 40 61 97 12 58 27 84 76 73 43 9 83 50 90 38 49 00 45 82 78 60 0 25 81 87 59 31 20 74 98 17 44

Nota:

Esta tabela pressupe uma amostragem sem substituio de uma populao finita com, no mximo, 100 entidades. Cada dgito de 00 a 99 aparece apenas uma vez.

109

A2
Linha 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 1 815 296 007 053 919 005 690 259 097 915 179 465 921 145 984 349 700 539 760 907 643 089 950 156 164 182 731 574 304 166 967 389 316 789 039 744 090 422 161 214 2 258 963 333 780 862 454 814 017 385 865 467 424 590 099 239 926 795 083 180 856 796 032 976 439 603 218 824 637 309 374 115 371 275 653 500 912 913 446 556 215 3 826 290 143 683 064 012 631 468 987 329 848 649 812 703 303 702 948 961 052 381 211 849 669 578 407 080 124 009 332 194 763 642 202 350 839 167 351 819 818 104 4 409 069 394 887 356 188 909 279 735 298 958 879 641 256 390 680 048 722 205 573 042 264 047 698 657 579 834 425 563 185 896 627 075 639 282 549 295 522 674 003 5 935 204 041 055 474 231 237 859 174 236 570 207 870 265 020 831 993 469 319 663 729 391 511 066 992 924 074 240 893 054 035 475 613 606 270 400 059 266 630 554 6 707 876 493 144 982 533 278 742 101 954 142 417 879 337 512 199 286 415 546 383 583 676 534 255 176 031 061 364 162 325 670 979 622 616 930 632 615 872 949 526 7 253 299 073 672 464 827 781 496 491 301 129 886 552 561 773 943 664 964 248 846 444 267 863 189 679 308 040 200 023 396 016 344 232 587 658 148 105 911 794 990

Nmeros com 3 dgitos aleatoriamente dispostos


8 276 027 141 761 791 366 173 900 437 149 908 312 341 699 283 122 170 153 121 656 077 557 071 135 432 721 840 379 844 058 294 209 899 634 479 441 665 323 150 450 9 128 466 119 922 920 339 516 305 157 531 086 095 610 605 376 045 025 644 221 523 457 331 710 130 219 340 244 388 257 829 473 828 510 599 183 487 273 880 440 208 10 395 895 882 402 975 508 008 662 799 213 971 719 655 352 793 869 470 645 528 628 647 006 243 168 227 125 888 830 595 764 597 504 229 113 875 568 206 740 399 328 11 901 430 438 807 638 261 186 297 625 648 428 864 178 953 490 739 485 068 152 934 420 345 313 738 753 355 542 692 197 410 923 816 543 837 800 408 254 997 357 822 12 224 078 994 833 212 718 852 925 051 453 786 134 397 361 426 806 688 000 860 165 056 765 359 187 947 271 974 802 324 281 555 654 715 989 866 767 147 222 995 360 Coluna 13 704 784 709 756 346 733 686 884 154 881 835 079 617 111 452 486 671 393 191 196 384 743 482 172 693 892 455 495 484 416 697 931 661 960 126 133 754 914 336 737 14 566 728 151 584 821 094 116 938 957 043 062 532 797 375 353 343 850 591 803 941 572 418 939 885 689 952 775 476 889 348 633 110 448 596 288 483 317 411 706 569 15 038 527 588 810 502 252 946 560 717 427 159 330 917 201 092 378 801 766 571 804 620 779 127 774 777 001 065 562 785 322 727 867 419 033 518 524 287 916 843 002 16 809 338 050 547 618 449 280 725 904 696 732 873 667 978 519 817 878 660 060 598 529 798 857 235 195 501 759 505 755 851 401 192 463 712 825 608 132 146 748 936 17 788 277 289 499 746 820 004 894 942 238 762 541 585 136 928 567 250 171 233 684 730 370 117 890 503 558 230 225 106 387 772 790 682 269 386 805 726 228 102 509 18 405 081 651 377 535 434 076 327 398 022 310 203 216 548 636 787 098 536 601 443 163 811 861 245 087 951 650 492 072 429 515 246 517 262 855 520 666 096 028 103 19 525 970 614 318 668 751 373 720 363 565 708 611 841 808 300 659 067 607 413 247 223 480 687 284 472 107 626 471 749 184 675 155 442 959 406 716 537 600 306 478 20 969 589 249 544 369 758 902 945 757 991 445 412 842 918 036 358 014 367 263 302 823 792 013 652 836 307 362 778 998 137 983 553 403 489 891 903 782 123 447 832 21 575 972 937 768 940 354 477 999 621 813 462 538 619 063 977 609 927 293 100 564 160 015 021 592 883 745 044 024 988 673 423 604 962 985 783 973 458 177 268 582 22 242 497 853 260 750 158 677 311 640 436 011 576 955 629 624 581 612 169 986 037 488 335 175 906 131 140 210 711 392 577 845 980 498 559 321 944 694 431 010 695 23 49 741 752 858 347 421 932 193 241 414 898 678 545 724 734 220 088 461 966 874 877 723 713 521 580 190 019 030 085 109 685 326 905 929 456 681 623 451 481 433 24 770 292 138 838 506 933 251 847 285 956 314 981 910 871 404 082 494 646 382 070 380 776 996 854 586 965 217 139 034 593 046 968 272 714 736 274 108 530 701 057 25 435 540 342 029 868 372 691 112 198 234 514 365 181 118 507 018 460 551 84 459 114 705 120 093 368 635 747 226 027 771 513 602 091 594 550 320 334 291 769 315

110

A3
Graus de Liberdade N-2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 .997 .950 .878 .811 .754 .707 .666 .632 .602 .576 .553 .532 .514 .497 .482 .468 .456 .444 .433 .423 .413 .404 .396

Valores de significncia para r

Nvel de Significncia .05 .01


1.000 .990 .959 .917 .874 .834 .798 .765 .735 .708 .684 .661 .641 .623 .606 .590 .575 .561 .549 .537 .526 .515 .505

Graus de Liberdade N-2


24 25 26 27 28 29 30 35 40 45 50 60 70 80 90 100 125 150 200 300 400 500 1000

Nvel de Significncia .05 .01


.388 .381 .374 .367 .361 .355 .349 .325 .304 .288 .273 .250 .232 .217 .205 .195 .174 .159 .138 .113 .098 .088 .062 .496 .487 .478 .470 .463 .456 .449 .418 .393 .372 .354 .323 .302 .283 .267 .254 .228 .208 .181 .148 .128 .115 .081

111

A4
X 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1,0 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9 2,0 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9 3,0 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9 4,0 0,00 0,01

rea debaixo da curva normal de 0 a X


0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

0,00000 0,00399 0,00798 0,01197 0,01595 0,01994 0,02392 0,02790 0,03188 0,03586 0,03983 0,04380 0,04776 0,05172 0,05567 0,05962 0,06356 0,06749 0,07142 0,07535 0,07926 0,08317 0,08706 0,09095 0,09483 0,09871 0,10257 0,10642 0,11026 0,11409 0,11791 0,12172 0,12552 0,12930 0,13307 0,13683 0,14058 0,14431 0,14803 0,15173 0,15542 0,15910 0,16276 0,16640 0,17003 0,17364 0,17724 0,18082 0,18439 0,18793 0,19146 0,19497 0,19847 0,20194 0,20540 0,20884 0,21226 0,21566 0,21904 0,22240 0,22575 0,22907 0,23237 0,23565 0,23891 0,24215 0,24537 0,24857 0,25175 0,25490 0,25804 0,26115 0,26424 0,26730 0,27035 0,27337 0,27637 0,27935 0,28230 0,28524 0,28814 0,29103 0,29389 0,29673 0,29955 0,30234 0,30511 0,30785 0,31057 0,31327 0,31594 0,31859 0,32121 0,32381 0,32639 0,32894 0,33147 0,33398 0,33646 0,33891 0,34134 0,34375 0,34614 0,34849 0,35083 0,35314 0,35543 0,35769 0,35993 0,36214 0,36433 0,36650 0,36864 0,37076 0,37286 0,37493 0,37698 0,37900 0,38100 0,38298 0,38493 0,38686 0,38877 0,39065 0,39251 0,39435 0,39617 0,39796 0,39973 0,40147 0,40320 0,40490 0,40658 0,40824 0,40988 0,41149 0,41308 0,41466 0,41621 0,41774 0,41924 0,42073 0,42220 0,42364 0,42507 0,42647 0,42785 0,42922 0,43056 0,43189 0,43319 0,43448 0,43574 0,43699 0,43822 0,43943 0,44062 0,44179 0,44295 0,44408 0,44520 0,44630 0,44738 0,44845 0,44950 0,45053 0,45154 0,45254 0,45352 0,45449 0,45543 0,45637 0,45728 0,45818 0,45907 0,45994 0,46080 0,46164 0,46246 0,46327 0,46407 0,46485 0,46562 0,46638 0,46712 0,46784 0,46856 0,46926 0,46995 0,47062 0,47128 0,47193 0,47257 0,47320 0,47381 0,47441 0,47500 0,47558 0,47615 0,47670 0,47725 0,47778 0,47831 0,47882 0,47932 0,47982 0,48030 0,48077 0,48124 0,48169 0,48214 0,48257 0,48300 0,48341 0,48382 0,48422 0,48461 0,48500 0,48537 0,48574 0,48610 0,48645 0,48679 0,48713 0,48745 0,48778 0,48809 0,48840 0,48870 0,48899 0,48928 0,48956 0,48983 0,49010 0,49036 0,49061 0,49086 0,49111 0,49134 0,49158 0,49180 0,49202 0,49224 0,49245 0,49266 0,49286 0,49305 0,49324 0,49343 0,49361 0,49379 0,49396 0,49413 0,49430 0,49446 0,49461 0,49477 0,49492 0,49506 0,49520 0,49534 0,49547 0,49560 0,49573 0,49585 0,49598 0,49609 0,49621 0,49632 0,49643 0,49653 0,49664 0,49674 0,49683 0,49693 0,49702 0,49711 0,49720 0,49728 0,49736 0,49744 0,49752 0,49760 0,49767 0,49774 0,49781 0,49788 0,49795 0,49801 0,49807 0,49813 0,49819 0,49825 0,49831 0,49836 0,49841 0,49846 0,49851 0,49856 0,49861 0,49865 0,49869 0,49874 0,49878 0,49882 0,49886 0,49889 0,49893 0,49896 0,49900 0,49903 0,49906 0,49910 0,49913 0,49916 0,49918 0,49921 0,49924 0,49926 0,49929 0,49931 0,49934 0,49936 0,49938 0,49940 0,49942 0,49944 0,49946 0,49948 0,49950 0,49952 0,49953 0,49955 0,49957 0,49958 0,49960 0,49961 0,49962 0,49964 0,49965 0,49966 0,49968 0,49969 0,49970 0,49971 0,49972 0,49973 0,49974 0,49975 0,49976 0,49977 0,49978 0,49978 0,49979 0,49980 0,49981 0,49981 0,49982 0,49983 0,49983 0,49984 0,49985 0,49985 0,49986 0,49986 0,49987 0,49987 0,49988 0,49988 0,49989 0,49989 0,49990 0,49990 0,49990 0,49991 0,49991 0,49992 0,49992 0,49992 0,49992 0,49993 0,49993 0,49993 0,49994 0,49994 0,49994 0,49994 0,49995 0,49995 0,49995 0,49995 0,49995 0,49996 0,49996 0,49996 0,49996 0,49996 0,49996 0,49997 0,49997 0,49997 0,49997 0,49997 0,49997 0,49997 0,49997 0,49998 0,49998 0,49998 0,49998

112

A5
0.10 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.323 1.321 1.319 1.318 1.316 1.315 1.314 1.313 1.311 1.310 1.309 1.309 1.308 1.307 1.306 1.306 1.305 1.304 1.304 1.303 1.303 1.302 1.302 1.301 1.301 1.300 1.300 1.299 1.299

Valores crticos da distribuio t de Student para gdl

Probabilidade de exceder os valores crticos


0.05 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.721 1.717 1.714 1.711 1.708 1.706 1.703 1.701 1.699 1.697 1.696 1.694 1.692 1.691 1.690 1.688 1.687 1.686 1.685 1.684 1.683 1.682 1.681 1.680 1.679 1.679 1.678 1.677 1.677 0.025 12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.080 2.074 2.069 2.064 2.060 2.056 2.052 2.048 2.045 2.042 2.040 2.037 2.035 2.032 2.030 2.028 2.026 2.024 2.023 2.021 2.020 2.018 2.017 2.015 2.014 2.013 2.012 2.011 2.010 0.01 31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.518 2.508 2.500 2.492 2.485 2.479 2.473 2.467 2.462 2.457 2.453 2.449 2.445 2.441 2.438 2.434 2.431 2.429 2.426 2.423 2.421 2.418 2.416 2.414 2.412 2.410 2.408 2.407 2.405 0.001 318.313 22.327 10.215 7.173 5.893 5.208 4.782 4.499 4.296 4.143 4.024 3.929 3.852 3.787 3.733 3.686 3.646 3.610 3.579 3.552 3.527 3.505 3.485 3.467 3.450 3.435 3.421 3.408 3.396 3.385 3.375 3.365 3.356 3.348 3.340 3.333 3.326 3.319 3.313 3.307 3.301 3.296 3.291 3.286 3.281 3.277 3.273 3.269 3.265

113

0.10 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 1.299 1.298 1.298 1.298 1.297 1.297 1.297 1.297 1.296 1.296 1.296 1.296 1.295 1.295 1.295 1.295 1.295 1.294 1.294 1.294 1.294 1.294 1.293 1.293 1.293 1.293 1.293 1.293 1.292 1.292 1.292 1.292 1.292 1.292 1.292 1.292 1.291 1.291 1.291 1.291 1.291 1.291 1.291 1.291 1.291 1.291 1.290 1.290 1.290 1.290 1.290 1.282

0.05 1.676 1.675 1.675 1.674 1.674 1.673 1.673 1.672 1.672 1.671 1.671 1.670 1.670 1.669 1.669 1.669 1.668 1.668 1.668 1.667 1.667 1.667 1.666 1.666 1.666 1.665 1.665 1.665 1.665 1.664 1.664 1.664 1.664 1.663 1.663 1.663 1.663 1.663 1.662 1.662 1.662 1.662 1.662 1.661 1.661 1.661 1.661 1.661 1.661 1.660 1.660 1.645

0.025 2.009 2.008 2.007 2.006 2.005 2.004 2.003 2.002 2.002 2.001 2.000 2.000 1.999 1.998 1.998 1.997 1.997 1.996 1.995 1.995 1.994 1.994 1.993 1.993 1.993 1.992 1.992 1.991 1.991 1.990 1.990 1.990 1.989 1.989 1.989 1.988 1.988 1.988 1.987 1.987 1.987 1.986 1.986 1.986 1.986 1.985 1.985 1.985 1.984 1.984 1.984 1.960

0.01 2.403 2.402 2.400 2.399 2.397 2.396 2.395 2.394 2.392 2.391 2.390 2.389 2.388 2.387 2.386 2.385 2.384 2.383 2.382 2.382 2.381 2.380 2.379 2.379 2.378 2.377 2.376 2.376 2.375 2.374 2.374 2.373 2.373 2.372 2.372 2.371 2.370 2.370 2.369 2.369 2.368 2.368 2.368 2.367 2.367 2.366 2.366 2.365 2.365 2.365 2.364 2.326

0.001 3.261 3.258 3.255 3.251 3.248 3.245 3.242 3.239 3.237 3.234 3.232 3.229 3.227 3.225 3.223 3.220 3.218 3.216 3.214 3.213 3.211 3.209 3.207 3.206 3.204 3.202 3.201 3.199 3.198 3.197 3.195 3.194 3.193 3.191 3.190 3.189 3.188 3.187 3.185 3.184 3.183 3.182 3.181 3.180 3.179 3.178 3.177 3.176 3.175 3.175 3.174 3.090

114

A6
gdl\area .995 .990 .975 1 2 3 4 5 0.00004 0.01003 0.07172 0.20699 0.41174 0.00016 0.02010 0.11483 0.29711 0.55430 0.00098 0.05064 0.21580 0.48442 0.83121 6 7 8 9 10 0.67573 0.98926 1.34441 1.73493 2.15586 0.87209 1.23904 1.64650 2.08790 2.55821 1.23734 1.68987 2.17973 2.70039 3.24697

rea direita para a distribuio do qui-quadrado

.950

.900

.750

.500

.250

.100

.050

.025

0.00393 0.10259 0.35185 0.71072 1.14548

0.01579 0.21072 0.58437 1.06362 1.61031

0.10153 0.57536 1.21253 1.92256 2.67460

0.45494 1.38629 2.36597 3.35669 4.35146

1.32330 2.77259 4.10834 5.38527 6.62568

2.70554 4.60517 6.25139 7.77944 9.23636

3.84146 5.99146 7.81473 9.48773 11.07050

5.02389 7.37776 9.34840 11.14329 12.83250

1.63538 2.16735 2.73264 3.32511 3.94030

2.20413 2.83311 3.48954 4.16816 4.86518

3.45460 4.25485 5.07064 5.89883 6.73720

5.34812 6.34581 7.34412 8.34283 9.34182

7.84080 9.03715 10.21885 11.38875 12.54886

10.64464 12.01704 13.36157 14.68366 15.98718

12.59159 14.06714 15.50731 16.91898 18.30704

14.44938 16.01276 17.53455 19.02277 20.48318

11 12 13 14 15

2.60322 3.07382 3.56503 4.07467 4.60092

3.05348 3.57057 4.10692 4.66043 5.22935

3.81575 4.40379 5.00875 5.62873 6.26214

4.57481 5.22603 5.89186 6.57063 7.26094

5.57778 6.30380 7.04150 7.78953 8.54676

7.58414 8.43842 9.29907 10.16531 11.03654

10.34100 11.34032 12.33976 13.33927 14.33886

13.70069 14.84540 15.98391 17.11693 18.24509

17.27501 18.54935 19.81193 21.06414 22.30713

19.67514 21.02607 22.36203 23.68479 24.99579

21.92005 23.33666 24.73560 26.11895 27.48839

16 17 18 19 20

5.14221 5.69722 6.26480 6.84397 7.43384

5.81221 6.40776 7.01491 7.63273 8.26040

6.90766 7.56419 8.23075 8.90652 9.59078

7.96165 8.67176 9.39046 10.11701 10.85081

9.31224 10.08519 10.86494 11.65091 12.44261

11.91222 12.79193 13.67529 14.56200 15.45177

15.33850 16.33818 17.33790 18.33765 19.33743

19.36886 20.48868 21.60489 22.71781 23.82769

23.54183 24.76904 25.98942 27.20357 28.41198

26.29623 27.58711 28.86930 30.14353 31.41043

28.84535 30.19101 31.52638 32.85233 34.16961

21 22 23 24 25

8.03365 8.64272 9.26042 9.88623 10.51965

8.89720 9.54249 10.19572 10.85636 11.52398

10.28290 10.98232 11.68855 12.40115 13.11972

11.59131 12.33801 13.09051 13.84843 14.61141

13.23960 14.04149 14.84796 15.65868 16.47341

16.34438 17.23962 18.13730 19.03725 19.93934

20.33723 21.33704 22.33688 23.33673 24.33659

24.93478 26.03927 27.14134 28.24115 29.33885

29.61509 30.81328 32.00690 33.19624 34.38159

32.67057 33.92444 35.17246 36.41503 37.65248

35.47888 36.78071 38.07563 39.36408 40.64647

26 27 28 29 30

11.16024 11.80759 12.46134 13.12115 13.78672

12.19815 12.87850 13.56471 14.25645 14.95346

13.84390 14.57338 15.30786 16.04707 16.79077

15.37916 16.15140 16.92788 17.70837 18.49266

17.29188 18.11390 18.93924 19.76774 20.59923

20.84343 21.74940 22.65716 23.56659 24.47761

25.33646 26.33634 27.33623 28.33613 29.33603

30.43457 31.52841 32.62049 33.71091 34.79974

35.56317 36.74122 37.91592 39.08747 40.25602

38.88514 40.11327 41.33714 42.55697 43.77297

41.92317 43.19451 44.46079 45.72229 46.97924

115

A7

Distribuio F de Fisher (=0,10)

Tabela que fornece valores f tais que P (F 1 , 2 > f ) = 0,1

116

A8

Distribuio F de Fisher (=0,05)

Tabela que fornece valores f tais que P (F 1 , 2 > f ) = 0,05

117

A9

Distribuio F de Fisher (=0,01)

Tabela que fornece valores f tais que P (F 1 , 2 > f ) = 0,01

118