Você está na página 1de 127

Estat stica II:

Consideraoes Tericas c o
Gesto de Empesas a

Francisco Carvalho Ricardo Covas Ano lectivo 2008/2009

Contedo u
1 Regresso Linear Simples a 1.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ca 1.2 Exemplos de aplicao . . . . . . . . . . . . . . . . . . . . . . . ca 1.3 Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.4 Interpretao de parmetros . . . . . . . . . . . . . . . . . . . . ca a 1.5 Estimao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ca 1.5.1 Propriedades de 1 e 2 . . . . . . . . . . . . . . . . . . 1.5.2 Estimar a varincia do termo residual . . . . . . . . . . a 1.6 exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.7 Coeciente de correlao e determinao . . . . . . . . . . . . . ca ca 1.7.1 Exemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . 1.8 Inferncia: intervalo de conana, teste de hipteses e previso e c o a 1.8.1 Intervalos de conana . . . . . . . . . . . . . . . . . . . c 1.8.2 Testes de hipteses . . . . . . . . . . . . . . . . . . . . . o 1.8.3 Previso . . . . . . . . . . . . . . . . . . . . . . . . . . . a 4 4 4 5 6 7 7 9 10 13 14 14 14 16 18 20 20 20 20 22 24 25 25 25 26 26 26 26 27 27 27 28 28

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

. . . . . . . . . . . . . .

2 Regresso Linear M ltipla a u 2.1 O Modelo de Regresso Mltipla envolvendo 2 Variveis Explicativas: S a u a ntese de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.1 O Modelo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.1.2 Estimao . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ca 2.2 Medidas de Qualidade da Estimao . . . . . . . . . . . . . . . . . . . . . . . ca 2.2.1 O Modelo de Regresso Linear. Generalizao e S a ca ntese . . . . . . . . 2.3 Estimadores: Derivao. Valor Esperado. Matriz de Varincia-Covarincia. ca a a Propriedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.3.1 Derivao dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . . ca 2.3.2 Valor Esperado dos Estimadores . . . . . . . . . . . . . . . . . . . . . 2.3.3 Matriz de Varincia-Covarincia . . . . . . . . . . . . . . . . . . . . . a a 2.3.4 Propriedades dos Estimadores . . . . . . . . . . . . . . . . . . . . . . . 2.4 Medidas da Qualidade da Estimao . . . . . . . . . . . . . . . . . . . . . . . ca 2.4.1 Coeciente de Determinao . . . . . . . . . . . . . . . . . . . . . . . ca 2.4.2 Varincia Residual . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 2.4.3 Erro Padro da Estimao . . . . . . . . . . . . . . . . . . . . . . . . . a ca 2.4.4 Teste F (Anlise de Varincia) . . . . . . . . . . . . . . . . . . . . . . a a 2.4.5 Teste T . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.4.6 Intervalos de Conana . . . . . . . . . . . . . . . . . . . . . . . . . . c 1

Variveis Dummy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Regresso Stepwise . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . a Linearizao de Modelos no-Lineares . . . . . . . . . . . . . . . . . . . . . . ca a Regresso Picewise (Por bocados) . . . . . . . . . . . . . . . . . . . . . . . a Correlao Serial. Heteroscedasticidade. Multicolinearidade . . . . . . . . . . ca 2.9.1 Correlao Serial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ca 2.9.2 Heteroscedasticidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.9.3 Multicolinearidade . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2.10 Testes t e F para hipteses envolvendo vrios parmetros do modelo . . . . . o a a 2.10.1 Testes conjuntos sobre vrios parmetros do modelo . . . . . . . . . . a a 2.10.2 Testes envolvendo combinaes lineares de parmetros . . . . . . . . . co a 2.10.3 Teste para a igualdade de Coecientes de 2 Regresses (Teste Chow) . o 2.11 Estimao de Modelos Multiequacionais . . . . . . . . . . . . . . . . . . . . . ca 2.11.1 Introduo: O problema da Correlao entre variveis explicativas e o ca ca a termo estocstico. O Mtodo das Variveis Instrumentais . . . . . . . a e a 2.11.2 Modelos de Equaes Simultneas . . . . . . . . . . . . . . . . . . . . co a 2.11.3 O problema da identicao . . . . . . . . . . . . . . . . . . . . . . . . ca 2.11.4 Mtodo dos M e ninos Quadrados Duplos ou Bi-Etpicos . . . . . . . . a 2.12 Modelos Multiequacionais e Mtodos de Estimao . . . . . . . . . . . . . . . e ca 3 Sucesses Cronolgicas o o 3.1 Tendncia . . . . . . . . . . . . . . . . . . . . . . . . e 3.1.1 Tendncia constante . . . . . . . . . . . . . . e 3.1.2 Tendncia linear . . . . . . . . . . . . . . . . e 3.1.3 Outros tipos . . . . . . . . . . . . . . . . . . 3.2 Movimentos Sazonais . . . . . . . . . . . . . . . . . . 3.3 Variaes C co clicas . . . . . . . . . . . . . . . . . . . . 3.4 Modelos de alisamento exponencial . . . . . . . . . . 3.4.1 O modelo de alisamento exponencial simples 3.4.2 Modelo de Winter de alisamento exponencial 3.4.3 Alisamento exponencial e o SPSS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

2.5 2.6 2.7 2.8 2.9

28 29 29 31 31 31 36 39 40 40 41 42 44 44 46 48 49 50 52 57 57 58 58 60 61 61 61 63 65 67 67 67 68 69 69 71 72 72 73 75 75 76 76 79

4 Estat sticas no paramtricas a e 4.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . ca 4.2 Medida . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4.3 Testes paramtricos e no paramtricos . . . . . . . . . . . e a e 4.4 Testes equivalentes ao teste t para amostras independentes 4.4.1 Teste U de Mann-Whitney . . . . . . . . . . . . . . 4.4.2 Teste de Wald-Wolfowitz . . . . . . . . . . . . . . . 4.5 Testes equivalentes ao teste t para pares emparelhados . . . 4.5.1 Teste do sinal . . . . . . . . . . . . . . . . . . . . . . 4.5.2 Teste de Wilconxon . . . . . . . . . . . . . . . . . . 4.6 Testes de ajustamento . . . . . . . . . . . . . . . . . . . . . 4.6.1 Teste do qui-quadrado . . . . . . . . . . . . . . . . . 4.6.2 Teste de Kolmogorov-Smirnov . . . . . . . . . . . . . 4.7 Teste de qui-quadro para independncia . . . . . . . . . . . e 4.8 Medidas no paramtricas de correlao . . . . . . . . . . . a e ca 2

4.8.1 4.8.2

Coeciente de Correlao de Spearmen . . . . . . . . . . . . . . . . . . ca Coeciente de Correlao de Kendall . . . . . . . . . . . . . . . . . . . ca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

80 81 84 84 84 84 85 86 86 86 87 87 87 88 88 88 88 89 90 90 91 92 100 103 103 105 106 106 108 109 113 116 120 120 122 122 122 123 123 125 126

5 Sondagens 5.1 Conceitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.1.1 Introduo . . . . . . . . . . . . . . . . . . . . . . . . . . . . ca 5.1.2 Conceito de sondagem . . . . . . . . . . . . . . . . . . . . . . 5.1.3 Sondagem versus Recenseamento . . . . . . . . . . . . . . . . 5.2 Processo de realizao de uma sondagem . . . . . . . . . . . . . . . . ca 5.2.1 Enquadramento . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.2 O Inqurito . . . . . . . . . . . . . . . . . . . . . . . . . . . . e 5.2.3 Plano amostral . . . . . . . . . . . . . . . . . . . . . . . . . . 5.2.4 Trabalho de campo . . . . . . . . . . . . . . . . . . . . . . . . 5.2.5 Preparao dos dados . . . . . . . . . . . . . . . . . . . . . . ca 5.2.6 Anlise dos dados . . . . . . . . . . . . . . . . . . . . . . . . a 5.2.7 Redao do relatrio nal . . . . . . . . . . . . . . . . . . . . ca o 5.3 Qualidade nas sondagens . . . . . . . . . . . . . . . . . . . . . . . . . 5.3.1 Conceito de qualidade . . . . . . . . . . . . . . . . . . . . . . 5.3.2 O erro nas sondagens . . . . . . . . . . . . . . . . . . . . . . 5.4 O Plano de Amostragem . . . . . . . . . . . . . . . . . . . . . . . . . 5.4.1 Etapas do Plano Amostral . . . . . . . . . . . . . . . . . . . . 5.5 Escolher entre Amostra Aleatria e No Aleatria . . . . . . . . . . o a o 5.5.1 Amostras Aleatrias . . . . . . . . . . . . . . . . . . . . . . . o 5.5.2 Amostras No Aleatrias . . . . . . . . . . . . . . . . . . . . a o 5.6 Factores que inuencia a representatividade da amostra . . . . . . . 5.7 A dimenso da amostra . . . . . . . . . . . . . . . . . . . . . . . . . a 5.8 Passos na determinao matemtica da dimenso da amostra . . . . ca a a 5.9 Clculo da dimenso da amostra em amostra aleatrias . . . . . . . a a o 5.9.1 Simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9.2 Sistemtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . a 5.9.3 Estraticada . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9.4 Por Clusters . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.9.5 Multi-Etapas . . . . . . . . . . . . . . . . . . . . . . . . . . . 5.10 Determinao da dimenso da amostra em amostras No Aleatrias ca a a o 5.11 A Recolha de Informao . . . . . . . . . . . . . . . . . . . . . . . . ca A Propriedades dos estimadores pontuais A.0.1 Linearidade . . . . . . . . . . . . . . . . A.0.2 No-enviesamento . . . . . . . . . . . . a A.0.3 Ecincia . . . . . . . . . . . . . . . . . e A.0.4 BLUE - Best Linear Unbiesed Estimator A.0.5 Consistncia . . . . . . . . . . . . . . . e B O Mtodo dos M e nimos Quadrados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Cap tulo 1

Regresso Linear Simples a


1.1 Introduo ca

A anlise de regresso assume o seu nome de um estudo efectuado por Sir Francis Galton1 , pua a blicado no Journal of the Anthropological Institute, em 1885, com o t tulo Regression Towards Mediocrity in Hereditary Stature. Nesse estudo, Galton lidou com a relao entre as alturas ca de pais e de seus lhos. Descobriu que pais altos tendem a ter lhos altos. Tambm descobriu, e contudo, que nos extremos h uma tendncia oposta: lhos de pessoas extremamente altas a e tendem a ser mais pequenas que seus pais e lhos de pessoas extremante baixas tendem a ser mais altos que seus pais. Concluiu ento que as alturas dos lhos de pais extremamente a altos ou baixos, tendem a para a mdia da populao (regress). Galton terminou o estudo e ca traando uma recta para descrever a relao entre as alturas dos pais e dos lhos - the line c ca of regression. A partir deste estudo passou o termo regresso a fazer parte do vocabolrio a a estat stico.

1.2

Exemplos de aplicao ca

Muitas so as aplicaes para os modelos de regresso linear. Apenas a t a co a tulo de exemplo, considere as seguintes questes que podem ser tratadas pela regreso linear: o a Qual a relao existente entre o rendimento familiar e os gastos com a alimentao? ca ca Se o preo da gasolina aumentar 5%, qual o impacto que esse facto ter no volume de c a vendas dos automveis? E se em vez de 5% de aumento, este for de 8%? o Qual o impacto do aumento das taxas de juro na zona euro na inaco de um determinado ca pa s? Qual o volume de vendas esperado de um determinado produto, se for feito um investimento em publicidade no valor de 1 milho de euros? a Qual o investimento necessrio em publicidade para que o crdito ` habitao de uma a e a ca determinada instituio bancria aumente 10%? ca a Como pode ser visto pelos exemplos, a econometria pode ser usada ao n vel microeconmico e ao n macro-econmico. o vel o
1

Sir Francis Galton (1822-1911)

1.3

Modelo

No caso particular, em que apenas se considere uma varivel dependente, Y , e uma varivel a a independente, X, o modelo assume a forma, Yi = 1 + 2 Xi + i onde Yi 1 2 Xi i valores observados pela varivel dependente para cada instante i a ordenada na origem declive da recta valores observados pela varivel independente para cada instante i a varivel residual a (1.1)

Neste cap tulo apenas se abordar a relao linear entre estas duas variveis, pelo que o a ca a modelo traduz a equao de uma recta. No entanto a relao poder no ser linear e assumir ca ca a a outras formas, como sejam a quadrtica, exponencial, logar a tmica entre outras. No modelo apresentado em (1.1), aparece um termo residual, denotado por i , termo esse que no se coaduna com a equao reduzida da recta normalmente apresentada. Tal facto a ca deve-se ` diferena existente entre a estimativa e a verdadeira relao entre as duas variveis. a c ca a Este termo, uma varivel aleatria, tambm denominada por termo de perturbao. H e a o e ca a que encontrar um modelo determin stico. No modelo (1.1), a varivel Y tambm ela uma a e e varivel aleatria, uma vez que depende de um termo aleatrio. a o o Aps a estabeler o modelo terico econmico e o modelo economtrico, h que estimar o o o e a os coecientes presentes no modelo. O valor da varivel dependente no mais que a mdia a a e e condicionada pelas observaes, i.e., co E(y|x) = y|x = 1 + 2 x (1.2)

A mdia condicionada em (1.2) denominada de funo simples de regresso. O parmetro e e ca a a 2 - o declive, a propenso marginal - pode ser apresentada algebricamente por, a 2 = dE(Y |X) E(Y |X) = x dx (1.3)

onde representa a variao e dE(Y |X) a derivada de E(Y |X) em ordem a x ca dx Para estimar os coecientes presentes no modelo, algumas consideraes tero de ser feitas: co a 1. As observaes de Yi so estatisticamente independentes uma das outras, i.e., co a y1 = 1 + 2 X21 + 1 y2 = 1 + 2 X22 + 2 y3 = 1 + 2 X23 + 3 y4 = 1 + 2 X24 + 4 2. A varincia da distribuio de probabilidade condicionada de f (Y |Xi ), que se escreve a ca 2 , a mesma para todos os valores de X, i.e., V (Y |Xi ) V (Yi ) = 2 . e

3. A mdia da distribuio de probabilidade condicionada de Y est na recta de regresso e ca a a linear Y |Xi = 1 + 2 Xi + i i + i e E(Y |Xi ) E(Yi ) i = 1 + 2 Xi Para o caso particular da regresso linear simples, algumas hipteses devem ser tidas em a o linha de conta: 1. O valor de y, para cada valor de x, e yi = 1 + 2 xi + 2. O valor mdio de E() = 0, uma vez que se assume que E(y) = 1 + 2 x e e 3. A varincia do termo residual a e var() = 2 = var(y) uma vez que y e diferem apenas de uma constante, o que no altera a varincia. a a 4. A covarincia entre qualquer par de termos residuais, i e j , para i = j, nula a e cov(i , j ) = cov(yi , yj ) = 0 Se os valores de y so estatisticamente independentes, ento assim tambm o so os a a e a res duos e vice-versa. 5. A varivel x no uma varivel aleatria e ter de ter pelo menos dois valores. a a e a o a 6. Os valores de so normalmente distribu a dos em torno da sua mdia. e N (0, 2 ) se os valores de y so normalmente distribu a dos e vice-versa.

1.4

Interpretao de parmetros ca a

A interpretao dos coecientes 1 e 2 tem inmeras aplicaes. Para aplicaes microeca u co co conmicas, a elasticidade de qualquer varivel Y , em relao a qualquer outra varivel X o a ca a e y y x y = x = x y x Aplicando o conceito de elasticidade, poder-se- escrever ainda a =
E(y) E(y) x x

E(y) x x = 2 x E(y) E(y)

Relativamente ` varincia, verica-se que o aumento deste parmetro, implica uma maior a a a magnitude da diferena entre as observaes (Yi ) e o valor mdio (E(y|x)). c co e 6

1.5

Estimao ca

O processo para encontar um modelo determin stico, passa pela minimizao do termo aleatrio, ca o . Este processo, j tinha sido apresentado por Gauss. Este mtodo minimiza o quadrado a e dos erros (). Neste processo, demonstra-se que E() = 0, pelo que podemos escrever E(Y ) = E(1 + 2 X + ) de onde se obtm o modelo determin e stico Y = 1 + 2 X ou ainda de uma outra forma (1.4)

Y = Y + a No modelo (1.4) os coecientes 1 e 2 so constantes. Pelo processo de minimizao, ca podem ser obtidas as equaes que permitem o clculo destes coecientes: co a 2 = i
1

Yi Yi

=
2

Yi 1 2 Xi = 2 = 2

(1.5)

2 = i 2 i

Yi 1 2 Xi Yi 1 2 Xi

Yi 1 2 Xi = 0 (1.6) Xi Yi 1 2 Xi = 0

= 2

A resoluo deste sistema permite obter as equaes que so utilizadas para estimar os ca co a coecientes 1 e 2 .
n 2 =

xi yi x2 i

xi
i i

yi
2

Com estas equaes poss co e vel, a partir de um conjunto de observaes, estimar a recta co que melhor passa por entre os pontos num diagrama de disperso - representao grca dos a ca a pares ordenados (xi , yi ) respeitantes `s observaes das variveis X e Y . a co a O problema coloca-se em saber se esta estimativa de facto uma boa estimativa. e

i 1 = Y 2 X

xi
i

(1.7)

1.5.1

Propriedades de 1 e 2

Para alm das expresses que nos possibilitam estimar os coecientes de 1 e 2 , convm ter e o e presente alguns resultados que sero uteis mais adiante. a Sabe-se que (xt x)2 = = x2 2x t xt + nx2 = x2 2x n t 1 n xt + nx2 (1.8)

x2 2nx2 + nx2 = t 7

x2 nx2 t

Esta expresso pode ainda ser escrita de um outra forma: a (xt x)2 = x2 nx2 = t x2 x t xt = x2 t xt n
2

(1.9)

Se dividirmos a expresso (??) por n, obtm-se a e 2 = Sabe-se igualmente que 2 = = (xt x)(yt y) (xt x)2 (1.10)

a (xt x) = 0. Ento (1.10) ca, (xt x)(yt y) (xt x)yt (xt x)2 (xt x)2 = =

(xt x)yt y

onde wt uma constante dada por, e wt = Substituindo (1.1) em (1.11) obtm-se e 2 = wt yt =

(xt x) yt = (xt x)2 xt x

(xt x)2

(xt x) (1.11) wt yt

(xt x)2

(1.12)

wt (1 + 2 xt + t ) = 1 wt = 0, uma vez que (xt x)(xt x) =

wt + 2

wt xt +

wt t

(1.13)

Considerando que (xt x)2 = e consequentemente

(xt x) = 0, e que

wt xt = 1, porque (xt x)xt

(xt x)xt x

(xt x) =

wt xt = chega-se a

(xt x)xt (xt x)


2

(xt x)xt (xt x)xt wt t

=1

2 = 2 +

(1.14)

Podemos aplicar igualmente o operador valor esperado para 2 , E(2 ) = E 2 + wt t = E(2 + w1 1 + w2 2 + + wt t ) = E(2 ) + E(w1 1 ) + E(w2 2 ) + + E(wt t ) = E(2 ) + E(wt t ) = 2 + wt E(t ) = 2 e o que vem demostrar que o estimador 2 um estimador no enviesado de 2 . a

(1.15)

Varincia e covarincia a a Considerando o resultado j deduzido a 2 = 2 + podemos ento deduzir que: a var(2 ) = var(2 + = = No esquecer que a
2 wt

wt t

wt t ) = var =
2 2 wt

wt t (1.16)

2 wt var(t ) 2

(xt x)2

(xt

x)2

(xt x)

Pode ser adoptado um procedimento anlogo para deduzir a varincia de 1 , que se pode a a demonstrar ser x2 t (1.18) var(1 ) = 2 n (xt x)2 e No caso da covarincia entre 1 e 2 dada por a cov(1 , 2 ) = 2

2 2

(xt x)2 (xt x)

2 2

1 (xt x)2

(1.17)

(xt x)2

(1.19)

Se todas as propriedades dos estimadores dos m nimos quadrados se vericarem, ento a a distribuio dos estimadores tambm normal. Demonstra-se que ca e e 1 N 1 ,

2 n

x2 t

(xt x)2 2

(1.20)

2 N 2 ,

(xt x)2

(1.21)

1.5.2

Estimar a varincia do termo residual a

A varincia do termo residual, 2 , o parmetro que falta estimar no modelo de regresso a e a a linear simples. A varincia do termo residual a e var(t ) = 2 = E[t E(t )]2 = E(2 ) t (1.22)

se a hiptese E(t ) = 0 se vericar. Uma vez que o valor esperado uma mdia, podemos o e e considerar 2 t 2 (1.23) = n 9

Esta expresso seria de grande utilidade se os valores t fossem observados. Como o no a a so, h que estimar esses valores. a a Ora o termo residual no mais do que, a e t = yt 1 2 xt e a sua estimativa dada por, e t = yt 1 2 xt Ser razovel substituir esta estimativa em (1.23), a a =
2

t 2 n

(1.24)

Infelizmente este estimador no rene todas as propriedades de um bom estimador, nomea u adamente um estimador enviesado de 2 . Operando uma pequena transformao, pode-se e ca resolver este problema, t 2 2 (1.25) = n2 No denominador, o termo n 2 est direcatmente ligado com o nmero de parmetros da a u a regresso (1 , 2 ) no modelo e torna o estimador num estimador no-enviesado, tal que a a E( 2 ) = 2 (1.26)

1.6

exemplo

Exemplo 1.1 Pretende estudar a relaao existente entre o rendimento familiar e os gastos c com a alimentaao. Para o efeito recolheu-se uma amostra aleatria de uma determinada c o populaao. O quadro seginte representa o conjunto de observaoes recolhidas. c c A varivel dependente para o efeito (Yi ) ser os gastos em alimentao e a varivel indea a ca a pendente (Xi ) o rendimento familiar.

10

Obs. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

yt 52,25 58,32 81,79 119,90 125,80 100,46 121,51 100,08 127,75 104,94 107,48 98,48 181,21 122,23 129,57 92,84 117,92 82,13 182,28 139,13

xt 258,30 343,10 425,00 267,50 482,90 487,70 496,50 519,40 543,30 548,70 564,60 588,30 591,30 607,30 611,20 631,00 659,60 664,00 704,20 704,80

Obs. 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

yt 98,14 123,94 126,31 146,47 115,98 207,23 119,80 151,33 169,51 108,03 168,90 227,11 84,94 98,70 141,06 215,40 112,89 166,25 115,43 269,03

xt 719,80 720,00 722,30 722,30 734,40 742,50 747,70 763,30 810,20 818,50 825,60 833,30 834,00 918,10 918,10 929,60 951,70 1014,00 1141,30 1154,60

Com base nas 40 observaes poss co e vel traar um diagrama de disperso, que de uma c a forma imediata e visual, permite averiguar se poss e vel uma relao linear entre as duas ca variveis de estudo. a Utilizando as expresses j deduzidas (1.7), podemos estimar os coecientes de regresso o a a com a informao dispon ca vel. Para o efeito alguns clculos adicionais tero de ser feitos por a a forma a usar as expresses. o
40 40

n = 40
40 i=1 40

Xi = 27720
i=1 40

Yi = 5212, 520 Yi2 = 758791, 673


i=1

Xi Yi = 3814936, 497
i=1 i=1

Xi2 = 20873623, 02 Y = 130, 313

X = 693, 0

n 2 = n
i i

xi yi x2 i

xi
i i

yi
2

xi
i

(40)(3814936, 497) (27720)(5212, 520) = 0, 11942331 (40)(20873623, 02) (27720)2

1 = Y 2 X = 130, 313 (0, 11942331)(693, 0) = 47, 5526 O modelo estimado pode assim ser escrito sob a forma, yi = 47, 5526 + 0, 1194xi

11

Esta recta pode ainda ser traada no diagrama de disperso, vericando assim o seu c a ajustamento aos pontosobservados. Pode ainda ser vericado que o ponto (x, y) pertence a ` recta. Se calcularmos a elasticidade nos pontos mdios, obtm-se e e = 2 693, 00 x = 0, 1194 = 0, 635 y 130, 31

Esta estimativa da elasticidade do rendimento assume a sua interpretao usual. Estima-se ca que a variao em 1% no rendimento familiar, conduzir, em mdia, a um aumento aproxica a e mado de 0, 64% em gastos com a alimentao. Uma vez que a elasticidade do rendimento ca e inferior a um, pode-se classicar a comida como necessriaem vez de um luxo, o que a e consistente com o que se esperaria de um agregado familiar. Pode-se ainda usar a equao estimada, para previso. Suponha que se pretende estimar ca a os gastos em comida de um agregado familiar com um rendimento de 750. Esta previso a e feita substituindo o valor na varivel X, obtendo-se: a Y = 47, 5526 + 0, 1194X = 47, 5526 + 0, 1194(750) = 137, 12 Preve-se que um agregado familiar com um rendimento de 750 gaste 137, 12 em alimentao. ca Aplicando estes resultados ao exemplo previamente enunciado, obtm-se: e y 52,25 58,32 81,79 119,90 125,80 y = 1 + 2 x 78,3997 88,5268 98,3076 79,4984 105,2221 =yy -26,1497 -30,2068 -16,5176 40,4016 20,5778

Usando os res duos das 40 observaes estima-se a varincia residual co a 2 = 2 t n2 = 55805, 5158 = 1468, 5662 40 2

Estima-se em seguida as varincias, covarincias e desvios-padro, a a a var(1 ) = 2

x2 t
2

n (xt xt ) S(1 ) = var()1 = 460, 6446 = 21, 4626 2 1468, 5662 = 0, 0008827 var(2 ) = = 2 1663663, 02 (xt xt ) S(2 ) = var()2 = 0, 0008827 = 0, 0297 cov(1 ; 2 ) = 2 (xt x) x
2

= 1468, 5662

20873623, 02 = 460, 6446 (40)(1663663, 02)

= 1468, 5662

693 = 0, 6117 1663663, 02

12

1.7

Coeciente de correlao e determinao ca ca

Para alm da estimativa dos coecientes, importante averiguar ainda se estas estimativas e e so ou no veis. A representao grca um indicador, visual, para vericar se a recta se a a a ca a e encontra bem ajustada aos pontos e consequentemente maior abilidade colocada sobre as e estimativas produzidas. Mas este mtodo visual no seguro. Para o efeito denem-se dois e a e coecientes numricos que permitem aquilatar do grau de ajustamento da recta aos pontos, e a saber, o coeciente de correlao linear de Pearson e o coeciente de determinao. ca ca O coeciente de correlao linear de Pearson (representado por ou r), um coeciente ca e que varia entre 1 e 1. Este averigua a correlao existente entre duas variveis. ca a = cov(X, Y ) var(X)var(Y ) (1.27)

Uma outra forma de apresentar este resultado : e r= n n x2 ( i xi yi xi )2 xi n yi


2 yi (

(1.28) yi )2

O sinal do coeciente est directamente relacionado com o tipo de correlao (positiva ou a ca negativa). Em caso de correlao positiva, podemos concluir que ` medida que os valores de ca a X vo aumentando, tambm vo aumentando os valores de Y . Inversamente, se o coeciente a e a de correlao for negativo, ento ` medida que vai aumentando o valor de X, vai diminuindo o ca a a valor de Y . Quando o valor deste coeciente nulo, traduz uma ausncia de correlao linear e e ca entre as duas variveis. Apesar de um valor nulo, ou relativamente baixo, a relao existente a ca entre as duas variveis pode ainda existir e ser de outra forma (logar a tmica, exponencial, quadrtica, ...). Nos casos em que o coeciente igual a 1 (ou 1) a correlao total, a e ca e estamos perante uma relao linear perfeita entre as variveis. ca a Um outro coecente para se vericar a qualidade de ajustamento o coeciente de detere minao, designado por R2 . Este valor varia entre 0 e 1. ca Matematicamente este valor pode ser determinado atravs de e R2 = onde
i

ESS RSS =1 T SS T SS (yi y)2 +


i

(1.29) (yi yi )2

(yi y)2

=
i

Variao Total = Variao Explicada + Variao Residual ca ca ca T SS = RSS + ESS TSS RSS ESS Total Sum of Squares Regression Sum of Squares Error Sum of Squares

Analogamente ao coeciente de determinao de Pearson, quando o coeciente de deterca minao assume o valor 0, existe uma total ausncia de relacionamento entre as duas variveis. ca e a No caso em que o valor assume o valor 1, ento a relao entre as variveis perfeita. Para efeia ca a e tos ilustrativos, considere-se que o valor do coeciente de determinao igual a R2 = 0, 70. ca e 13

Este valor traduz que 70% da variaao da varivel explicada, explicada ` custa da variao c a e a ca da varivel explicativa, ou de outra forma, que 70% da variao da varivel dependente a ca a e expliacada ` custa da varivel independente, i.e., a varivel X responsvel pela explicao a a a e a ca do facto da varivel Y ter assumido outro valor e esse poder explicativo traduz-se em 70%. a E os restantes 30%? H outros factores que condicionam o modelo e que podem interferir no a poder explicativo: a forma como o modelo terico foi denido (as variveis podem estar meo a lhor relacionadas de uma forma que no a linear); fraca correlao entre as variveis; existem a ca a outras variveis que no esto inclu a a a das no modelo; etc. Analisando a expresso (1.29) fcil aferir que R2 = 1 implica que RSS = T SS e como a e a tal tambm o ESS = 0. Nesse caso a varivel explicativa X, responsvel pela total variao e a e a ca da varivel explicada. a

1.7.1

Exemplo

Para vericar se a nossa estimativa poder ser tomada com credibilidade h necessidade de a a determinar o coeciente de correlao linear de Pearson ou o coeciente de determinao. ca ca Usando a expresso (1.28) obtm-se, a e r = n = n x2 i xi y i xi
2

xi n

yi
2 yi

yi

(40)(3810956, 497) (27720)(5212, 520) [(40)(20873623, 02) (27720)2 ] [(40)(758791, 673) (5212, 520)2 ] = 0, 5462 Este valor indica que existe correlao entre as variveis, mas que esta no muito forte. ca a a e Considerando que este coeciente pode assumir valores entre -1 e 1, em que o 0, denota ausncia de correlao entre as variveis e que 1 (ou 1)representa uma relao linear perfeita e ca a ca entre as variveis, o valor encontrado para este exemplo, ca sensivelmente a meio. Consideraa se que existe uma correlao forte entre duas variveis, quando o valor do coeciente de ca a correlao linear de Pearson superior a 0,75 (ou inferior a -0,75). ca e

1.8

Inferncia: intervalo de conana, teste de hipteses e e c o previso a

Para alm dos resultados j enunciados, existe um conjunto de feramentas estat e a sticas que so de vital importncia para a inferncia. a a e

1.8.1

Intervalos de conana c

Considere a distribuio de 2 , estimador de 2 que se sabe ca 2 N 2 , z= 2 (xt x)2

Fazendo o tratamento usual a uma varivel com distribuiao normal, a c 2 2 var(2 ) 14 N (0, 1)

obtendo-se assim uma varivel aleatria com distribuio normal de mdia 0 e varincia a o ca e a 1. Considerando os resultados conhecidos da distribuio t-student, podemos escrever ca t= onde var(2 ) = 2 2 tn2 S 2 var(2 ) (1.30)

2 (xt x)2

e S 2 =

Com base neste resultado, podemos obter os valores cr ticos (tc ) que permitiro estabelecer a o intervalo de conana com o n de conana desejado, i.e., c vel c P tc ou de uma outra forma P [2 tc S2 2 2 + tc S2 ] = 1 (1.32) 2 2 tc = 1 S 2 (1.31)

Estamos a considerar um intervalo de conana bilateral, com um n de signicncia c vel a dado por 100%, uma vez que o intervalo de conana bilateral assegura uma menor c amplitude. Os limites denidos no intervalo so variveis aleatrias, uma vez que os seus valores a a o no so conhecidos antes de se obter uma amostra. Estes limites denem um intervalo de a a estimao para o valor de 2 . ca Uma vez que os valores obtidos pelas estimativas dependem da amostra e considerando que vrias amostras podem ser recolhidas de uma mesma populao, diversas estimativas a ca podem ser obtidas e como tal diversos intervalos de conana. Estes, com uma probabilidade c a a denida por (1 ) 100% assegura a incluso do real valor de 2 , mas nunca se saber qual 2 o real valor de 2 , logo todas as estimativas, que podem ser diferentes, estimam o valor de 2 , sem contudo sabermos qual o valor de 2 . Como aplicao, usaremos o exemplo j denido, que para n 2 = 38 e = 0, 05, a que ca a corresponde um valor cr tico de tc = 2, 024, obtm-se, e P [2 2, 024S2 2 2 + 2, 024S2 ] = 0, 95 Substituindo S2 = var 2 = 0, 0009326 = 0, 0305 na expresso, a

2 [0, 0666, 0, 1900] Estar o valor de 2 compreendido entre estes dois valores? Nunca o saberemos, cona tudo sabemos que quando o procedimento aplicado a muitas amostra aleatrias de uma e o mesma populao, ento 95% de todas as estimativas de intervalos, constru ca a dos com este procedimento, contero o verdadeiro valor de 2 . a

15

1.8.2

Testes de hipteses o

Uma outra considerao a ser tomada em linha de conta, testar se o valor de 2 estatisca e e ticamente igual de um determinado valor, em particular se o valor de 2 estatisticamente e diferente de zero - denominado teste de signicncia. No exemplo que se tem seguindo, ser a a 2 = 0, 1194 assim to diferente de 0? Para o efeito realiza-se um teste de que o valor de e a hipteses - genericamente denominado teste t. o Este teste de hipteses, tem como hipteses, o o H0 : 2 = c H1 : 2 = c e de acordo com a varivel fulcral, segue a seguinte distribuio, a ca t= 2 c tn2 S 2 (1.33)

A concluso a tirar a mesma que para qualquer outro teste de hipteses. O valor c a e o poder ser um valor qualquer que se pretenda testar. Um valor particular que interessa testar a quando c = 0. Nesses casos o teste assume a forma, e t= 2 tn2 S 2 (1.34)

A este teste de signicncia est associado um n a a vel de signicncia, . O signicado a deste valor de a probabilidade de rejeitar H0 quando H0 verdadeira (erro Tipo I) e e H0 verdadeira H0 falsa Erro Tipo I boa deciso a () No Rejeita a boa deiso a Erro Tipo II H0 () Rejeita H0 = probabilidade Erro Tipo I ; = probabilidade Erro Tipo II Nota: A estat stica utilizada no teste, tem uma distribuio tn2 . Dado ca 1.

fazendo a standartizao, obtm-se: ca e

2 N 2 ; 2 2
1

2 x2 2i

x2 2i

N (0, 1)

A relao ca

16

2.

(n 2)S 2 2 n2 2 verica-se porque (a) (n 2)S 2 n2 = 2 2 (b) i = 1 1 + 2 2 X2i + i i. 1 i N 0; 2 1 + n lim 1 1 + n x2 2i x2 2i


2 i = n2

onde

x2 2i x2 2i =1

ii. i N (0; 2 ) iii. i N (0; 1) 2 2

3.

1 x2 2i

(n2)S 2 2

2 2 S 2

n2

possui distribuio tn2 ca Considerando o exemplo anteriormente enunciado, obtm-se e t= 0, 1194 = 4, 0195 0, 0297

Assumindo que = 5%, com um valor cr tico tc = 2, 024, conclui-se pela rejeio da ca hiptese nula, i.e., existe evidncia estat o e stica para armar que o valor de 2 diferente e de 0. Apesar da resposta parecer convincente, h que tomar em linha de conta um outro a factor. Para alm do valor de 2 ser estatisticamente signicativo, h que analisar o impacto e a econmico deste coeciente. Este diferente de zero, mas ser economicamente vivel assumir o e a a este valor como signicativo? Este um outro problema que ter de ser equacionado do ponto e a de vista econmico. o Na maioria do software estat stico, associado a estes teste de hipteses, surge o denominado o p-value, prob ou sig. Este valor corresponde ao dobro da rea que se encontra ` esquerda ou a a a ` direita do valor do teste t, conforme os casos. Quer isto dizer, e assumindo que = 5%, que 17

se o p-value inferior a 0, 05, ento de rejeitar a hiptese nula, caso o valor seja superior a e a e o 0, 05, ento no existe evidncia estat a a e stica para rejeitar a hiptese nula. No presente exemplo o obteve-se p = 0, 000155 valor inferior a 0, 05, pelo que se opta pela rejeio da hiptese nula ca o (ao n de signicncia de 5% e de acordo com a informaao dispon vel a c vel.

1.8.3

Previso a

A capacidade de previso dos valores da varivel dependente y um dos objectivos da anlise a a e a de regresso linear. Dadas as hipteses subjacentes e o modelo estimado, poss a o e vel fazer previses. A questo coloca-se at que ponto a nossa previso boa? Uma das hipteses para o a e e a o responder a esta questo examinar o erro de previso. Considerando a e a f = y0 y0 = 1 + 2 x0 (1 + 2 x0 + 0 ) = (1 1 ) + (2 2 )x0 0 (1.35)

onde para um dado x0 se determina y0 Usando as propriedades dos estimadores dos m nimos quadrados e as condies sobre 0 , co ento o valor esperado de f ser: a a E(f ) = E(0 y0 ) = E(1 1 ) + E(2 2 )x0 E(0 ) = 0 + 0 0 = 0 y o que signica, em mdia, que o erro de previso zero e como tal y0 um estimador linear e a e e no-enviesado de y0 . a Da mesma forma podemos calcular a varincia de f , que se obtm por: a e (x0 x)2 1 var(f ) = var(0 y0 ) = 2 1 + + y n (xt x)2

(1.36)

De vericar da relao precedente, que quanto maior for a diferena entre x0 e x, maior ca c ser a varincia do erro o que afecta a abilidade da previso. a a a

Figura 1.1: Previso versus intervalo de conana da previso a c a Se os erros aleatrios forem normalmente distribu o dos, ou se o tamanho da amostra e sucientemente grande, ento o erro de previso f normalmente distribu com mdia 0 e a a e do e varincia dada por (1.36). a Uma vez que tambm no sabemos o valor de 2 , termos tambm de o estimar, pelo que e a e a expresso assume a seguinte forma: a 18

A raiz quadrada desta expresso (1.37), o desvio padro da previso, a e a a Sf = var(f ) (1.38)

(x0 x)2 1 var(f ) = 2 1 + + n (xt x)2

(1.37)

Com base nos valores de y0 e o desvio padro de previso poss criar um intervalo de a a e vel conana para a previso. O intervalo de conana a (1 ) 100% dado por: c a c e y 0 tc S f No caso do exemplo seguido, e para um valor x0 = 750, obtm-se e y0 = 1 + 2 x0 = 47, 5526 + 0, 1194(750) = 137, 12 Este valor indica que para um rendimento familiar de 750 estima-se em 137, 12 os gastos em alimentao. Com o valor de 2 = 1429, 2456 j anteriormente determinado, estima-se a ca a varincia do erro de previso a a 1 (x0 x)2 var(f ) = 2 1 + + n (xt x)2 = 1468, 5662 1 +
1 40

(1.39)

(750693)2 1663663,02

= 1508, 1484

O desvio padro da previso ser a a a Sf = y0 , y0 tc Sf = 137, 12 2, 024(38, 8349) ou [58, 52; 215, 72] Este intervalo de conana para a previso, sugere que para um rendimento de 750 haver c a a um gasto em alimentao compreendido entre 58, 52 e 215, 72 em comida! Tal amplitude no ca intervalo sugere que a nossa previso, 137, 12 dever ter outros aspectos em linha de conta. a a H que estudar qual o impacto que outras variveis tero nos gastos em alimentao, para a a a ca alm do rendimento. Esta concluso vem de encontro ao que seria de esperar, tendo em e a considerao o resultado j discutido do coeciente de correlao linear. ca a ca var(f ) = 1508, 1484 = 38, 8349

Para um n de conana de 95%, com tc = 2, 024, tem-se o intervalo de conana para vel c c

19

Cap tulo 2

Regresso Linear Mltipla a u


2.1
2.1.1

O Modelo de Regresso M ltipla envolvendo 2 Variveis a u a Explicativas: S ntese de Resultados


O Modelo

Considere-se o seguinte modelo: Modelo Geral: Yi = 1 + 2 X2i + 3 X3i + i sujeito `s hipteses a o 1. As variveis X so no-estocsticas ou controlveis a a a a a 2. No existe uma relao linear exacta entre quaisquer 2 variveis X, i.e., a ca a Xij = a + bXti (j = t) (j, t = 2, . . . , n)

3. Os termos estocsticos (res a duos; erros) tm: e (a) uma distribuio normal ca (b) com mdia 0: E(i ) = 0 e (c) varincia constante: V (i ) = 2 (homoscedasticidade) a 4. Os termos estocsticos esto no-correlacionados: a a a cov(j , t ) = 0 (t, j = 1, 2, . . . , n; t = j)

2.1.2

Estimao ca

Consideremos os seguintes modelos: Modelo Estimado: Yi = 1 + 2 X2i + 3 X3i + i = Yi + i Yi = 1 + 2 X2i + 3 X3i 20

onde:

Fazendo de forma anloga ao feito para a regresso simples, obtm-se as seguintes Equaes a a e co Normais: Yi = n1 + 2 X2i + 3 X3i

Yi X2i = 1

X2i + 2

2 X2i + 3

X3i X2i
2 X3i

Yi X3i = 1
2 =

X3i + 2 x2 3i x2 3i x2 2i x2 3i

X2i X3i + 3

que resolvendo em ordem aos coecientes, se obtm: e x2i yi x2 2i x3i yi x2 2i x3i yi x2i x3i
2

x2i x3i x2i yi

Valores Esperados

= 3

x2i x3i
2

x2i x3i

1 = Y 2 X 2 3 X 3

E 1 = 1 E 2 = 2 E 3 = 3 Varincias a V 2 = 2 x2 (1 r 2 ) 2i 2 x2 (1 r 2 ) 3i

V 3 =

V 1 onde r= x2 2i

1 X2 = 2 + n

x2 + X 3 3i x2 2i

x2 2X 2 X 3 2i x2 (1 r 2 ) 3i

x2i x3i

x2i x3i x2 3i

(Coeciente de Correlao entre X2 e X3 ) ca

2 Nota: Os estimadores das varincias dos estimadores 1 , 2 , 3 representa-se por S (j = a


j

1, 2, 3) e obtm-se da seguinte forma: e 21

2 S =
2

S2 x2 (1 r 2 ) 2i S2 x2 (1 r 2 ) 3i

2 S =
3

2 S

onde

1 X2 = S2 + n

x2 + X 3 3i x2 2i S2 = 2 i

x2 2X 2 X 3 2i x2 (1 r 2 ) 3i

x2i x3i

a varincia residual. e a 2 a a o A Sj = + S (j = 1, 2, 3) d-se o nome de erro padro do estimador. Das expresses


j

n3

anteriores para a varincia, obtm-se o erro padro respectivo, calculando a raiz quadrada a e a positiva de cada uma das varincias. a Propriedades a Os estimadores 1 , 2 , 3 so estimadores lineares, centrados, ecientes e consistentes (convergentes).

2.2

Medidas de Qualidade da Estimao ca

Coeciente de Determinao ca De forma anloga ao j denido para o modelo de regresso simples a a a (Yi Y )2 variao total ca T SS g.l. : n1 = (Yi Y )2 = variao explicada ca = RSS = 2 + (Yi Yi )2 + variao residual ca + ESS + n3

de onde se dene que o Coeciente de Determinao ca R2 = RSS ESS =1 T SS T SS

Coeciente de Determinao Ajustado ca ESS 2 R =1 n3 T SS n1

22

Varincia Residual a 2 i n3

S2 Erro-Padro da Estimao a ca

( o estimador de 2 ) e

S=+ Teste F (Anlise de Varincia) a a

2 i n3

( o estimador de ) e

H0 : 2 = 3 = 0 H1 : pelo menos um dos 2 , 3 = 0 Estat stica a utilizar RSS = 2 ESS n3 Graus de liberdade
2

F(k1;n3) = F(2;n3)

Quadro ANOVA - Anlise de Varincia a a Fonte de Variao ca Regresso a Erro Total Testes T: H0 : j = a (j = 1, 2, 3) H1 : j = a Estat stica a utilizar: Tn3 = j a S j Soma dos Quadrados RSS = ESS = T SS = Yi Y Yi Yi Yi Y Mdia e Quadrtica a RSS 2 RSS n3

2 n3 n1

2 2

23

Intervalos de Conana c CON F j tc Sj j j + tc Sj onde tc : P (tc Tn3 tc ) = 1 (j = 1, 2, 3)

2.2.1

O Modelo de Regresso Linear. Generalizao e S a ca ntese

Forma algbrica do modelo: e Yi = 1 + 2 X2i + 3 X3i + . . . + k Xki + i ou


Y1 = 1 + 2 X21 + 3 X31 + . . . + k Xk1 + 1 Y = + X + X + ... + X + 2 1 2 22 3 32 2 k k2 ...

(i = 1, 2, . . . , n)

Y3 = 1 + 2 X23 + 3 X33 + . . . + k Xk3 + 3

Apresentao Matricial do Modelo ca Sejam as matrizes:


Y =

Y1 Y2 . . . Yn 1 2 . . . k

X=

1 X21 X31 . . . Xk1 1 X22 X32 . . . Xk2 . . . . . . . . . . . . 1 X2n X3n . . . Xkn


1 2 . . . n

podemos escrever o modelo sob a forma matricial Y = X + ou ento, na forma de modelo estimado a Y = X + onde com

Y = X 1 2 . . . k

1 2 . . . n

24

Hipteses do Modelo em Forma Matricial: o (1) A matrix X uma matriz de variveis no estocsticas. e a a a (2) No existe uma relao linear exacta entre quaisquer 2 colunas da matriz X: a ca Xji = a + bXti (j = t)(j, t = 1, 2, . . . , k)

(3) e (4) O vector tem distribuio normal com valor esperado E() = (vector ca nulo) e matriz de varincias-covarincias: a a

V () = E( E())( E())T =

V (1 ) Cov(1 , 2 ) . . . Cov(1 , n ) Cov(2 , 1 ) V (2 ) . . . Cov(2 , n ) ... ... ... Cov(n , 1 ) Cov(n , 2 ) . . . V (n ) 2 0 . . . 0 0 2 . . . 0 ... ... ... 0 0 . . . 2

As hipteses (3) e (4) podem escrever-se em forma matricial abreviada do modo seguinte o N ; 2 I

2.3
2.3.1

Estimadores: Derivao. Valor Esperado. Matriz de Varinciaca a Covarincia. Propriedades a


Derivao dos Estimadores ca
min T = (Y X )T (Y X ) = (Y T T X T )(Y X ) T Y Y T X T X T Y + T X T X =Y T Y 2 T Y + T X T X =Y (T ) = 0 2X T Y + 2(X T X) = 0 (X T X) = X T Y = (X T X)1 X T Y

Mtodo os M e nimos Quadrados: escolher de modo a

2.3.2

Valor Esperado dos Estimadores


E() = E (X T X)1 X T Y = (X T X)1 X T E(Y ) = (X T X)1 X T E(X + ) = (X T X)1 (X T X) + (X T X)1 = 25

2.3.3

Matriz de Varincia-Covarincia a a
V () = E E() E()
T

= E ( )( )T =E (X T X)1 X T

(X T X)1 X T

= E (X T X)1 X T T X(X T X)1 = (X T X)1 X T 2 IX(X T X)1 = (X T X)1 (X T X)(X T X)1 2 = 2 (X T X)1 Estimador da matriz de Varincia-Covarincia: a a V () = S 2 (X T X)1 onde S2 = (varincia residual) a 2 i nk T nk

2.3.4

Propriedades dos Estimadores

Lineares Centrados Ecientes Consistentes (convergentes)

2.4
2.4.1

Medidas da Qualidade da Estimao ca


Coeciente de Determinao ca
R2 = RSS ESS =1 T SS T SS

onde: T SS = RSS = ESS =

(Yi Y )2 (Yi Y )2

(Yi Yi )2

26

Coecientes de Correlao e Determinao Parciais ca ca Coeciente de Determinao Parcial ca RSS(X2 , X3 ) RSS(X2 ) 2 RY,X3 .X2 = ESS(X2 )
2 RY ;X4 .X2 ,X3 =

Coeciente de Correlao Parcial ca RY ;X3 .X2 RY,X4 .X2 ,X3

RSS(X2 , X3 , X4 ) RSS(X2 , X3 ) ESS(X2 , X3 ) RSS(X2 , X3 , X4 ) RSS(X2 , X4 ) ESS(X2 , X4 )

2 RY,X3 .X2 ,X4 =

RY,X3 .X2 ,X4

Coeciente de Determinao Ajustado ca ESS 2 R =1 nk T SS n1

2.4.2

Varincia Residual a
S2 = 2 i nk

2.4.3

Erro Padro da Estimao a ca


2 i nk

S=+

2.4.4

Teste F (Anlise de Varincia) a a


H0 : 2 = 3 = . . . = k = 0 H1 : pelo menos um dos j = 0 (j = 2, 3, . . . , k) Fonte de Variao ca Regresso a Erro Total Soma dos Quadrados RSS = ESS = T SS = Yi Y Yi Yi Yi Y
2

Graus de liberdade k1 nk n1

Mdia e Quadrtica a RSS k1 RSS nk

2 2

27

Estat stica a utilizar F(k1;nk)

RSS k1 = ESS nk

2.4.5

Teste T
H0 : j = a (j = 1, 2, . . . , k) H1 : j = a

Estat stica a utilizar: Tnk =

j a j a = S j S Vj

onde Vj o j-simo elementos da diagonal principal da matrix (X T X)1 e e

2.4.6

Intervalos de Conana c
CON F j tc Sj j j + tcSj

onde tc : P (tc Tnk tc ) = 1

2.5

Variveis Dummy a

As variveis dummy so variveis que tomam apenas dois valores (0 e 1) e so utilizados para a a a a quanticar efeitos de ordem qualitativa sobre a varivel dependente. a Tomemos por exemplo as vendas trimestrais de uma empresa A. Como evidente, as e vendas trimestrais, a que se refere o 4 trimestre so afectadas grandemente pelo Natal. a Consideremos pois o modelo que traduz as vendas trimestrais: Yi = 1 + 2 X2i + . . . + Di + i onde Yi X2i ... Di vendas trimestrais de brinquedos da empresa A preos dos brinquedos c varivel dummy a

1 no 4 trimestre 0 nos outros trimestres Neste modelo optou-se pela incluso de uma varivel dummy, em que esta apenas tem a a signicncia, quando os dados se referem ao 4 trimestre, altura em que esta passa a assumir a o valor 1. Nas outras situaes, no tem signicado, pois o valor 0. co a e Casos mais frequentes 1. O efeito qualitativo afecta apenas o termo constante: Yi = 1 + 2 X2i + Di + . . . 28

2. O efeito qualitativo afecta apenas o coeciente angular da varivel X2i a Yi = 1 + 2 X2i + (Di X2i ) + . . . 3. O efeito qualitativo afecta o termo constante e o coeciente angular da varivel X2i a Yi = 1 + 2 X2i + Di + (Di X2i ) + . . . Nota: Em todos os casos acima Di = 1 se o efeito qualitativo ocorre 0 nos outros casos

2.6

Regresso Stepwise a

Quando se dispem de um conjunto de variveis X2 , X3 , . . . , Xt para explicar Y , mas pretendeo a se incluir na regresso apenas um subconjunto dessas variveis, deparamo-nos com o problema a a de seleccionar quais as variveis a incluir no modelo. Para resolver este problema ` seguir os a a seguintes passos: 1 Passo: Para determinar a primeira varivel a seleccionar, calcular, a
2 2 2 RY,X2 RY,X3 . . . RY,Xt 2 e escolher aquela varivel cujo RY,Xj (j = 2, 3, . . . , t) seja mximo. Para efeito de exemplo, a a suponhamos que X3 . e a 2 Passo: Para determinar a segunda varivel a incluir no modelo, calcular 2 2 RY,X2 .X3 RY,X4 .X3 2 . . . RY,Xt .X3

Deve-se ento seleccionar a varivel a que corresponde o mximo coeciente de detera a a minao parcial dentre os anteriores. Para efeitos de exemplo, digamos que X2 . ca e a 3 Passo: Para seleccionar a terceira varivel a incluir no modelo, calcular
2 RY,X4 .X2 ,X3 2 RY,X5 .X2 X3 2 . . . RY,Xt .X2 ,X3

A varivel a incluir no modelo aquela que corresponde ao mximo coeciente de detera e a minao parcial entre os anteriores. Para efeitos de exemplo, digamos que X5 . ca e O modelo a estimar ento: e a Yi = 1 + 2 X2i + 3 X3i + 5 X5i

2.7

Linearizao de Modelos no-Lineares ca a

1. Modelo Linear Yi = 1 + 2 X2i + 3 X3i + . . . + k Xki + i j = Y Xj 29 (j = 2, 3, . . . , k)

2. Modelo Potncia e
Yi = A2 X3i3 . . . Xkik ui 2i

ln Yi = ln A + 2 ln X2i + 3 ln X3i + . . . + k ln Xki + ln ui


Yi =

2 X2i

3 X3i

+ ... + Y Xj Xj Y

k Xki

j = Y,Xj =

(elasticidade de Y em ordem a Xj ) 3. Modelo Quadrtico a 2 Xi + 3 Xi2 + i Yi = 1 + 2 X2i + 3 X3i + i Yi = 1 + 4. Modelo Exponencial Yi = e1 +2 X2i +3 X3i +...+k Xki +i ln Yi = 1 + 2 X2i + 3 X3i + . . . + k Xki + i

Yi

= 1 + 2 X2i + 3 X3i + . . . + k Xki + i Y j = Y Xj (semi-elasticidade de Y em ordem a Xj )

5. Funo Inversa ca Yi = 1 1 + 2 X2i + 3 X3i + . . . + k Xki + i

Yi = 1 + 2 X2i + 3 X3i + . . . + k Xki + i onde Yi = 6. Modelo Interactivo Yi = 1 + 2 X2i + 3 X3i + 4 (X2i X3i ) + i

1 Yi

Yi = 1 + 2 X2i + 3 X3i + 4 X4i + i Y = 2 + 4 X3 X2 30

2.8

Regresso Picewise (Por bocados) a

Esta tcnica permite captar alteraes estruturais cont e co nuas no modelo.


y

X 2i

X 2i
0

Figura 2.1: Regresso Picewise a Regresso Picewise: a Yi = 1 + 2 X2i + 3 (X2i X2i0 )Di + . . . + i onde Di = Em consequncia e Yi = 1 + 2 X2i + . . . + i se i < i0 (1 3 X2i0 ) + (2 + 3 ) X2i + . . . + i se i i0 0 se i < i0 1 se i i0

A vantagem da regresso picewise a de produzir estimadores mais ecientes do que a e aqueles que resultariam de duas estimaes separadas no ponto X2i0 . co

2.9
2.9.1

Correlao Serial. Heteroscedasticidade. Multicolinearica dade


Correlao Serial ca

Denio. Causas. Consequncias ca e O problema da correlao serial ou autocorrelao consiste na violao da hiptese (4) do ca ca ca o modelo, isto , os termos estocsticos so correlacionados ou dependentes: e a a Cov(j , t ) = 0 ou E(j .t ) = 0

O problema da autocorrelao mais frequente em amostras com dados de srie temporal. ca e e

31

A autocorrelao pode ser de diferentes ordens: ca 1 Ordem E(j .j+1 ) = 0 2 Ordem E(j .j+2 ) = 0 ... k Ordem E(j .j+k ) = 0 Apenas consideraremos a autocorrelao de 1 ordem. ca A autocorrelao pode ser positiva, E(j .j+1 ) > 0, ou negativa, E(j .j+1 ) < 0 ca
y
i

y
i

X 2i

X 2i

Figura 2.2: Autocorrelao positiva (esquerda) e autocorrelao negativa (direita) num moca ca delo linear simples O fenmeno da autocorrelao positiva de 1 ordem o mais frequente (em dados de srie o ca e e temporal) e sobe este caso que incidir a anlise seguinte. e a a Causas mais frequentes: 1. Omisso de variveis explicativas. a a 2. M especicao da forma funcional do modelo. a ca 3. Erros na medio das variveis. ca a 4. M especicao do termo estocstico (autocorrelao intr a ca a ca nseca) Consequncias: e 1. Os estimadores de M nimos Quadrados perdem ecincia e Consideremos o modelo simples: Yi = 1 + 2 X2i + i 2 = x2i yi x2 2i =

x2i (2 x2i + i ) x2 2i x2i i x2i


2

= 2 +

x2i i x2 2i x2i x2j i j


i=j x2 )2 2i

V (2 ) = E(2 2 )2 = E

=E

x2 2 + 2 2i i (

32

Se no existe autocorrelao, E(i j ) = 0 e a ca V (2 ) = 2 x2 2i (j = i + 1) e

Se existir autocorrelao positiva de 1 ordem, ento E(i .j ) > 0 ca a V (2 ) = 2 x2 2i x2i x2j E(i .j ) +2
i=j

x2 )2 2i

>

2 x2 2i

2. S 2 torna-se um estimador no centrado de 2 , em particular a E(S 2 ) < 2


2 a e portanto S torna-se um estimador no centrado de V (j ), em particular
j

2 E(S ) < V (j )
j

Consequentemente, as estat sticas t cam sobreavaliadas e levam-nos frequentemente a rejeitar a hiptese nula quando ela no deveria ser rejeitada. (por isso se diz que os o a testes t no so vlidos na presena de autocorrelao). a a a c ca Diagnstico. O teste de Durbin-Watson o a e O coeciente de correlao serial de 1 Ordem entre os termos estocsticos denido por ca = Cov(i , i1 ) E(i .i1 ) = i .i1 2
n

O estimador deste coecientes : e i .i1


i=2 n

Si ,i1 = = Si .Si1

2 i
i=1

Teste de Durbin-Watson O teste de Durbin-Watson, baseia-se no teste de hipteses o H0 : = 0 (no existe autocorrelao) a ca H1 : = 0 (existe autocorrelao) ca Mecnica do teste a 1. Calcule a estat stica de Dubin-Watson
n i=2

DW =

(i i1 )2
n

2 i
i=1

33

2. Das tabelas estat sticas retire os valores cr ticos dL e dU , os quais dependem de n e k. 3. Tome a deciso seguinte: a

+
0 d
L

?
dU 2 4d U

4d L

Figura 2.3: Autocorrelao ca

0 < DW < dL dL < DW < dU dU < DW < 4 dU 4 dU < DW < 4 dL 4 dL < DW < 4 Da expresso anterior deduz-se que: a DW = pelo que (i i1 )2 2 i

autocorrelao positiva > 0 ca teste inconclusivo inexistncia de autocorrelao = 0 e ca teste inconclusivo autocorrelao negativa < 0 ca

2 2i .i1 + 2 i i1 2 i

= 2 2

Se 0 DW 2 Se +1 DW 0 Se 1 DW 4 Teraputica e Num modelo com correlao serial, ca Yi = 1 + 2 X2i + . . . + k Xki + i onde i = i1 + Vi e


2 Vi N (0; V )

(2.1)

E(Vi .Vj ) = 0

(i = j)

As tcnica de correco para a autocorrelao consistem essencialmente em aplicar o e ca ca Mtodo dos M e nimos Quadrados Ordinrios a uma verso transformada do modelo anterior a a (2.1) onde os erros esto no correlacionados. Assim multiplicando por o modelo desfasado a a de uma observao e substra ca ndo o resultado ao modelo original obtm-se: e Yi Yi1 = 1 (1 ) + 2 (X2i X2i1 ) + . . . + k (Xki Xki1 ) + Vi (2.2)

onde Vi satisfaz as hipteses clssicas (N.B.: Vi = i i1 ). Em consequncia, aplicando o a e o Mtodo dos M e ninos Quadrados a este ultimo modelo, (2.2), os estimadores possuem todas as propriedades desejadas. O unico problema consiste em obter uma estimativa de am de aplicar o Mtodo dos M e nimos Quadrados Ordinrios ao modelo transformado (2.2). E para a obter essa estimnativa que se utilizam as tcnicas seguintes: e 34

1. Tcnica de Cochrane-Orcutt e (a) Aplique o Mtodo dos M e nimos Quadrados Ordinrios ao modelo original (2.1) a Yi = 1 + 2 X2i + . . . + k Xki + i obtendo 1 , 2 , . . ., k , e utilize os res duos desta regresso, a i = Yi 1 + 2 X2i + . . . + k Xki para fazer a regresso a i = i1 + Vi obtendo a estimativa = i i1 2 i

(b) Utilize o valor obtido para fazer a regresso do modelo transformado (2.2) a
Yi = 1 (1 ) + 2 X2i + . . . + k Xki + Vi

onde

Yi = Yi Yi1 = X X X2i 2i1 2i ... Xki = Xki Xki1

(c) A regresso anterior fornece-lhe novas estimativas 1 , 2 , . . ., k . Substitua-as na a equao original e obtenha os res ca duos i = Yi 1 + 2 X2i + . . . + k Xki

e faa em seguida a regresso c a i = i1 + Vi e obtenha nova estimativa =


i .i1 i2

(d) Repita os passos (b) e (c) tantas vezes quantas forem necessrias obtendo , , a . . ., (n) at queum dira do precedente por menos do que um valor especicado. e Tome ento como estimativas de 1 , 2 , . . ., k as que foram obtidas no ultimo a passo homlogo a (c). o 2. Tcnica de Hildreth-Lu e (a) Especique uma grelha de valores para , por exemplo (no caso de autocorrelao ca positiva grco a 35

(b) Para cada um destas valores faa a regresso do modelo transformado (2.2), c a
Yi = 1 (1 ) + 2 X2i + . . . + k Xki + Vi a onde Yi , X2i , . . ., Xki so denidos como anteriormente.

(c) Escolha para estimativas de 1 , 2 , . . ., k as estimativas associadas ` regresso a a dentre as anteriores - que minimiza a soma dos quadrados dos res duos. 3. Tcnica de Durbin e Nota Prvia: O modelo transformado (2.2) pode escrever-se: e

Yi = 1 (1 ) + Yi1 + 2 X2i 2 X2i1 + . . . + k Xki k Xki1 + Vi Agora procede do seguinte modo:

(2.3)

(a) Aplique o Mtodo dos M e nimos Quadrados Ordinrios ` equao (2.3): o coeciente a a ca de Yi1 a estimativa de (). e (b) Utilize essa estimativa para estimar o modelo transformado (2.2), obtendo 1 , 2 , . . ., k .

2.9.2

Heteroscedasticidade

Denio ca E a violao da hiptese (3.c) do modelo, isto ca o e V (i ) = 2 ou E(. ) = 2 I grcos a Causas A natureza dos dados de corte transversal, onde a variabilidade do termo estocstico tende a a aumentar com os valores das variveis explicativas. a Consequncias e 1. Os estimadores do Mtodo dos M e nimos Quadrados Ordinrios perdem ecincia. a e Tomemos para o efeito o modelo simples Yi = 1 + 2 X2i + i

2 = +

x2i .i x2 2i
2

36

V (2 ) = E 2 2

homoscedasticidade: heteroscedasticidade:

=E

x2 .2 2i i x2 2i
2

2 x2 2i
2 x2 i 2i

x2 2i

>

x2 2i x2 2i
2

2 x2 2i

onde:

2 E(2 ) = V (i ) = i i 2 = min 2 i

2 2. S 2 torna-se um estimador no-centrado de 2 = min i , em particular a

E(S 2 ) > 2 consequentemente:


2 (a) S torna-se um estimador no-centrado de V (j ), em particular a
j

2 E(S > V (j )
j

(b) As estat sticas t cam sub-avaliadas, levando-nos a aceitar a hiptese nula, quando o ela deveria ser rejeitada. Terapeutica Mtodo dos M e nimos Quadrados Generalizados Num modelo heteroscedstico, a Yi = 1 + 2 X2i + . . . + k Xki + i onde:
2 i = 2 [f (Xti ]

(2.4) (2.5)

A terapeutica consiste em encontrar uma verso transformada de (2.1) cujos termos esa tocsticos sejam homoscedsticos, e aplicar o Mtodo dos M a a e nimos Quadrados Ordinrios a a este modelo. Dividindo (2.1) por f (Xti : Yi = 1 f (Xti ) onde: V i f (Xti = 2 f (Xti ) 1 V (i ) = = 2 f (Xti ) f (Xti ) 37 1 + 2 f (Xti ) X2i + . . . + k f (Xti ) Xki + f (Xti ) i f (Xti ) (2.6)

como 2 constante, logo o modelo (2.6) homocedstico. e e a O problema reduz-se ento a encontar o padro de heteroscedasticidade, representado pela a a funo f (Xti ). Em seguida, aplica-se o Mtodo dos M ca e nomos Quadrados Ordinrios a (2.6), a cujos termos estocsticos so homoscedsticos. a a a Teste de Park-Glejser 1. Aplique o Mtodo dos M e nimos Quadrados Ordinrios a (2.1) e obtenha os res a duos i . 2. Regresse em seguida |i | sobre a varivel ou variveis Xti que julga ser a causa do a a problema. As especicaes mais usuais so co a (a) |i | = a0 + a1 Xti
1 (c) |i | = a0 + a1 Xti

2 (b) |i | = a0 + a1 Xti a (d) |i | = AXti1

Ento, a

tilize as medidas de qualidade da regresso usuais (R2 , testes t, erros padro, etc.) para a a a escolher a melhor regresso. Suponha que o resultado (2d): |i | = AXti1 . a e
2a i = V = E(2 ) = A2 Xti 1 2 () i

que uma expresso com a forma de (2.2) onde e a 2 = A2 e


2 f (Xti ) = Xtia1

a Agora construa o modelo (2.3), dividindo o modelo (2.1) por f (Xti ) = Xti1 . Em seguida aplique o Mtodo dos M e nimos Quadrados Ordinrios ao modelo (2.3) assim obtido. a Notas: No caso de a melhor regresso ser (2c), supondo a0 = 0 e a1 = 0, ento, a a 2 V (i ) = E(2 ) = a2 Xti i 1 2 f (Xti )

No caso de a melhor regresso ser (2a), supondo a0 = 0 e a1 = 0: a V (i ) = E(2 ) = i


2 =1

(0 + a1 Xti )2 a
f (Xti )

Teste de Goldfeld-Quandt Este teste destina-se a testar a hiptese: o


2 H0 : i = 2 (constante: homoscedasticidade) 2 H 1 : i varivel: heteroscedasticidade a

Mecnica do Teste a 1. Ordene os dados por ordem crescente dos valores da varivel que julga ser a causa da a heteroscedasticidade. 38

2. Retire as d observaes intermdias (d 1 n). co e 5 3. Aplique o Mtodo dos M e nimos Quadrados Ordinrios ao modelo sobre uma das suba co a amostras de nd observaes (Nota: cada regresso possui nd k graus de liberdade). 2 2 4. Calcule a variao no-explicada de cada uma das regresses anteriores ESS1 e ESS2 , ca a o respectivamente. 5. Utilize em seguida a estat stica ESS2 k = ESS1 nd 2 k
nd 2

F nd k; nd k
2 2

Se concluir pela hiptese alternativa, utilize a tcnica de correco indicado no passo 2 o e ca da tcnica (teste) de Park-Glejser. e

2.9.3

Multicolinearidade

Denio ca Multicolinearidade a violao da hiptese (2) do modelo: e ca o Xji a + bXti Causas mais frequentes 1. O facto de muitas variveis tenderem a variar na mesma direco ao longo do tempo. a ca 2. A presena (incluso) no modelo de vartiveis explicativas retardadas c a a Consequncias e No caso de colinearidade perfeita (Xji = a + bXti ) entre duas variveis explicativas, os a estimadores do Mtodo dos M e nimos Quadrados Ordinrios do modelo de regresso Yi = a a 1 + 2 X2i + . . . + k Xki + i tornam-se indeterminados e os seus erros padro innitos. a No caso geral de colinearidade no-perfeita (Xji a + bXti ) os estimadores do Mtodo a e dos M nimos Quadrados Ordinrios so determinados, mas os seus erros padro so excepcia a a a onalmente elevados. Em consequncia, o grau de preciso das estimativas reduzido. e a e Diagnstico o 1. O modelo apresenta um grande nmero de variveis estatisticamente insignicantes. u a 2. Calcule a matriz de correlao ca
r X3 ,X2 ...

rXk ,X2

rX2 ,X3 1 ... rXk ,X2

. . . rX2 ,Xk . . . rX3 ,Xk ... ... ... 1

para identicar as variveis que podem ser as causas do problema a 39

Teraputica e 1. Comece por uma verso simples do modelo onde as variveis que so potencialmente a a a a causa do problema esto exclu a das. 2. Introduza em seguida uma a uma as variveis-problema e analise a sensibilidade dos a estimadores e respectivos erros padro a essa introduo. a ca Se com a introduo de uma varivel-problema, ca a (a) o coeciente de determinao aumentado e a qualidade das outras estimativas ca e no afectada, mantenha essa varivel. a e a (b) se o coeciente de determinao no aumentado, nem a qualidade das outras ca a e estimativas afectada, pode suprimir a varivel. e a (c) se a nova varivel teoricamente importante, mas deteriora a qualidade das oua e tras estimativas, ento ter, por exemplo, de aumentar a dimenso da amostra, a a a substituir variveis explicativas desfasadas por outras, ou ainda utilizar tcnicas a e de correco. ca

2.10
2.10.1

Testes t e F para hipteses envolvendo vrios parmetros o a a do modelo


Testes conjuntos sobre vrios parmetros do modelo a a

Pretende-se saber se um certo conjunto q de variveis explicativas do modelo (Xkq+1,i ; Xkq+2,i ; . . . ; Xk ) a ou no estatisticamente signicante. e a 1. Verso No-Restringiga do Modelo (NR) a a

Yi = 1 +2 X2i +. . .+kq Xkq,i +k q + 1Xkq+1,i +kq+2 Xkq+2,i +. . .+k Xk +i 2. Verso Restringida do Modelo (R) a Yi = 1 + 2 X2i + . . . + kq Xkq,i 3. Hipteses a testar: o H0 : kq+1 = kq+2 = . . . = k = 0 H1 : pelo menos um dos j (j = k q + 1; k q + 2; . . . ; k) = 0 e 4. Processo a seguir (a) Estime o modelo No-Restringido e calcule a ESSN R (g.l. = n k)

40

(b) Estime o modelo Restingido e calcule ESSR (c) Forme a Estat stica ESSR ESSN R q = ESSN R nk (g.l. = n k + q)

Fq,nk

e proceda como habitualmente

2.10.2

Testes envolvendo combinaes lineares de parmetros co a


Yi = 1 + 2 X2i + 3 X3i + . . . + k Xki + i

Caso I H0 2 + 3 = c H1 2 + 3 = c Processo a seguir: 1. Dena = 2 + 3 Portanto: H0 : = c H1 : = c 2. Utilize ento o teste t, a tnk = onde: = 2 + 3 2 = S 2 + S 2 + 2S S 2 ,3
2 3

c S

41

Caso II H0 : 2 = 3 H1 : 2 = 3 Processo a seguir: 1. Dena = 2 3 H0 : = 0 H1 : = 0 2. Utilize ento o teste t a t= 0 S

2 2 2 onde = 2 3 e S = S + S 2S2 ,3
2 3

2.10.3

Teste para a igualdade de Coecientes de 2 Regresses (Teste Chow) o

Considere os 2 modelos seguintes: Modelo A: Yi = 1 + 2 X2i + . . . + k Xki + i Modelo B: Yj = 1 + 2 X2j + . . . + k Xkj + j Hipteses a testar o H0 : 1 = 1 ; 2 = 2 ; . . . ; k = k H1 : pelo menos um dos t (t = 1, 2, . . . , k) difere do seu homlogo t o Processo a seguir: 1. Estime ambos os modelos A e B e calcule ESST = ESSA + ESSB (g.l. = n k + m k = n + m 2k)

(i = 1, 2, . . . , n) (j = 1, 2, . . . , m)

2. Estime o modelo A (ou B) utilizando os n+m observaes dispon co veis e calcule ESS 3. Utilize a estat stica ESS ESST k = ESST n + m 2k (g.l. = n + m k)

F(k;n+m2k)

42

Teste Chow e o SPSS O Teste Chow no se encontra denido no SPSS, pelo que h necessidade de realizar um a a operao a n ca vel de programao para que se possam tirar concluses sobre as hipteses ca o o denidas pelo Teste Chow. Para o efeito, considere-se uma varivel dependente Y , uma varivel cont a a nua explicativa X e uma varivel categrica denominada por Group. Os passos so os seguintes: a o a 1. No menu, seleccionar Analyze General Linear Model Univariate ... 2. Colocar a varivel Y no campo Dependent Variable a 3. Colocar a varivel Group no campo Fixed Factors a 4. Colocar a varivel X no campo Covariate(s) a 5. Agora, em vez de clickar em OK, click em Paste. O resultado dever ser o seguinte: a UNIANOVA y BY group WITH x /METHOD = SSTYPE(3) /INTERCEPT = INCLUDE /CRITERIA = ALPHA(.05) /DESIGN = x group 6. No SPSS Syntax Editor Window, modicar o subcomando DESIGN de forma a car UNIANOVA y BY group WITH x /METHOD = SSTYPE(3) /INTERCEPT = INCLUDE /CRITERIA = ALPHA(.05) /DESIGN = x group*x 7. Finalmente, correr o comando. No SPSS Syntax Editor Window seleccionar Run All Ao incluir a interaco Group*x, na ausncia de um efeito principal para a varivel Group, ca e a obriga ` determinao da soma dos quadrados e graus de liberdade de Group e Group x, a a ca quando do clculo para o teste F . Dado um modelo que inclua os termos Group e Group x, a o termo Group ir testar as diferenas das ordenadas na origem e o termo Group x testa a c a diferena nos declives. O teste F e correspondente p-value para o termo Group x, testa c de forma global se os parmetros de regresso diferem entre os grupos. Assim, o efeito de a a Group x no modelo o resultado do Teste Chow. e

43

2.11
2.11.1

Estimao de Modelos Multiequacionais ca


Introduo: O problema da Correlao entre variveis explicativas ca ca a e o termo estocstico. O Mtodo das Variveis Instrumentais a e a

Tratamos aqui o problema da violaao da hiptese clssica (1). Esta hiptese armava que c o a o as variveis explicativas do modelo so no-estocsticas ou controlveis. a a a a a Neste sentido, a hiptese assegurava que no existe correlao entre qualquer varivel o a ca a explicativa Xji e o termo estocstico i : Cov(Xji , i ) = 0 a Consequncias e No modelo Yi = 1 + 2 X2i + . . . + k Xki + i se a hiptese (1) fr violada, os estimadores do Mtodo dos M o o e nimos Quadrados Ordinrios a so no centrados e no consistentes. a a a Prova para o modelo simples Yi = 1 + 2 X2i + i 2 = x2i .yi x2 2i = 2 + x2i .i x2 2i

e 2 um estimador no-centrado de 2 : a E(2 ) = 2 + E e 2 um estimador no consistente de 2 : a plim2 = 2 + plim = 2 + Nota: x2i .i x2 2i = 2

x2i .i x2 2i
=0

= 2

Cov(X2i ,i ) V (X2i )

Cov(X2 , ) = E [(X2 E(X2 ))( E())] = E [(X2 E(X2 )).] SX2 , = = (X2i X 2 )(i )
n1

X2i i
n1

O problema economtrico consiste em encontrar um mtodo de estimao que restabelea e e ca c a centricidade e a consistncia dos estimadores. Em geral, o econometrista atribui prioridade e ao restabelecimento da propriedade da consistncia. e O problema da violao da hiptese clssica (1) ocorre, ca o a 1. quando as variveis explicativas do modelo so no controlveis e no seja poss a a a a a vel defender a insistncia da correlao entre elas e o termo estocstico. e ca a 44

2. nos casos seguintes, ainda que as variveis explicativas do modelo sejam aparentemente a controlveis: a (a) quando existem erros de medio nas variveis explicativas ca a (b) quando alguma das variveis explicativas uma varivel endgena desfasada e a e a o existe correlao serial no modelo ca (c) quando uma varivel explicativa determinada atravs de outras equaes do a e e co modelo (problema dos modelos de equaes simultneas) co a O Mtodo das Variveis Instrumentais (MVI) e a Uma varivel Zi diz-se uma varivel instrumental para a varivel explicativa Xji do moa a a delo, se: 1. a correlao (e a covarincia) entre Zi e o termo estocstico do modelo i tende para ca a a zero quando n : plimCov(Zi , i ) = 0 2. a correlao (e a covarincia) entre Zi e Xji no nula quando n : ca a e a plimCov(Zi , Xij ) = 0 Vericou-se anteriormente que no modelo Yi = 1 + 2 X2i + i onde Cov(X2i , i ) = 0, e o estimador 2 = x2i yi x2 2i

do Mtodo dos M e nimos Quadrados Ordinrios no consistente. a e a Consideremos agora o estimador de varivel instrumental a 2 = zi yi zi x2i

Onde Zi uma varivel instrumental para X2i . Este estimador consistente, pois e a e plim2 = plim 2 + = 2 + = 2 De onde se conclui que o Mtodo das Variveis Instrumentais um mtodo consistente e a e e de estimao. ca
plim plim

zi i zi x2i zi i zi x2i

45

2.11.2

Modelos de Equaes Simultneas co a

O Mtodo dos M e nimos Quadrados Indirectos (MQI) Consideremos as trs verses seguintes de um modelo de mercado: e o Verso M1 a Forma Estrutural
S Qt = 1 + 2 Pt + t

QD = 1 + 2 Pt + ut t

QS = QD t t

QS = quantidade oferecida ; QD = quantidade procurada ; P = Preo c o modelo na sua forma reduzida pode ser expresso por: Pt = Qt = Verso M2 a Forma estrutural t ut 1 1 + = 11 + v1t 2 2 2 2 2 1 1 2 2 t 2 ut + = 21 + v2t 2 2 2 2

S Qt = 1 + 2 Pt + t

QD = 1 + 2 Pt + 3 Yt + ut t

QS = QD t t

Y = rendimento dos consumidores na sua forma reduzida tem-se: Pt = Qt = 1 1 3 y ut Yt + = 11 + 12 Yt + v1t 2 2 2 2 2 2 2 1 1 2 3 2 2 t 1 ut Yt + = 21 + 22 Yt + v2t 2 2 2 2 2 2

Verso M3 a Forma estrutural

S Qt = 1 + 2 Pt + t

QD = 1 + 2 Pt + 3 Yt + 4 At + ut t

QS = QD t t

46

A = despesas de publicidade Da forma reduzida obtm-se e Pt = 1 1 3 4 t ut Yt At + 2 2 2 2 2 2 2 2 = 11 + 12 Yt + 13 At + v1t 2 1 1 2 3 2 4 2 3 t 2 ut Yt At + 2 2 2 2 2 2 2 2 = 21 + 22 Yt + 23 At + v2t

Problema: Pretende-se estimar a funo oferta em qualquer dos trs modelosacima;em ca e particular pretende-se estimar o prametro 2 j que sendo conhecido este, 1 = Q 2 P a a Constatao: Se se aplicar MQO ` funo oferta em qualquer dos trs modelos na forma ca a ca e estrutural, os estimadores sero no centrados e no consistentes, pois a varivel Pt est a a a a a correlacionada com o termo estocstico t (veja-se a forma reduzida). a Objectivo: O objectivo consiste ento em encontrar uma tcnica de estimao que produza a e ca estimadores consistentes dos parmetros. a Verso M1 (Equao da oferta sub-identicada) a ca Neste caso no poss estimar de forma consistente os parmetros 2 e 1 da funo a e vel a ca oferta do modelo. Verso M2 (Equao da oferta exactamente identicada) a ca Neste caso poss estimar de forma consistente 2 e 1 . Aplique MQO a cada uma das e vel equaes da forma reduzida, obtendo 11 , 12 , 21 e 22 . Estes estimadores so consistentes. co a Em seguida, note que: 2 = 22 12

1 = Q 2 P Este mtodo de estimao, em que so parmetros da forma estrutural so estimados e ca a a atravs dos parmetros da forma reduzida, d-se o nome de Mtodo dos M e a a e nimos Quadrados Indirectos (MQI). Notas: 1. O estimador de 2 um estimador consistente, pois e qt yt 22 = 2 = 12 e ento a plim2 = 2
2 yt

pt y t
2 yt

pt y t qt yt

= 2

yt t pt y t

47

2. O MQI no mais do que uma variante do MVI onde a vrivel Yt tomada como a e a e instrumento para a varivel Pt , pois: a (a) Yt est no correlacionada com t ; a a (b) a correlao entre Yt e Pt no nula; ca e a Verso M3 (equao da oferta sobre-identicada) a ca Tambm aqui poss aplicar MQI para estimar 2 de forma consistente. Na realidade e e vel dois estimadores de 2 so poss a veis: 2 = Concluses: o 1. Num modelo de equaes simultneas, as variveis explicativas que so endgenas ao moco a a a o delo, esto correlacionadas com o termo estocstico. A aplicao de MQO `s equaes a a ca a co da forma estrutural produz estimadores no centradose no consistentes. a a 2. O mtodo MQI - que uma variante do MVI - um mtodo que produz estimadoe e e e res consistentes dos parmetros estruturais. Ele produz estimadores unicos quando a a equao est exactamente identicada, produzindo mais do que um estimador para o ca a mesmo parmetro estrutural quando a equao est sobre-identicada. Ele no se pode a ca a a aplicar em equaes sub-identicadas. co Apresentao de um Modelo Multiequacional ca
Estrututal Reduzida

22 12

e 2 =

23 13

quando o modelo apresentado segundo e o modelo como a teoria o determina quando as variveis endgenas so expressas em a o a funo das variveis pr-determinadas ca a e

Forma

Variveis a

o Endgenas

aquelas que o modelo pretende explicar


exgenas - exteriores ao modelo o endgenas desfasadas o

2.11.3

O problema da identicao ca

Pr-determinadas e

O problema da identicao, consisten em saber se poss obter os parmetros da forma ca e vel a estrutural de cada uma das equaes de um modelo multiequacional a partir dos parmetros co a da forma reduzida. Este problema assume especial importncia, na medida que permite a escolha e aplicao a ca do mtodo de estimao a utilizar num modelo multiequacional. e ca De acordo com o j exposto, podemos classicar um modelo da seguinte forma: a 48

Dizem-se:

Sub-identicadas Exactamente identicadas Equaes co Identicadas Sobre-identicadas

1. sub-identicadas, se no poss obter os parmetros da forma estrutural a partir a e vel a da forma reduzida. 2. identicadas, se poss obter os parmetros da forma estrutural a partir da forma e vel a reduzida. (a) exactamente identicadas se uma unica soluo existe. ca (b) sobre-identicadas se mais do que uma soluo existe. ca Em qualquer dos casos (sub-identicadas ou identicadas), exceptuam-se para este efeito, porque irrelevante, o termo independente. Concluso: a 1. Se uma equao sub-identicada, no +e poss estimar os seus parmetros de forma ca e a vel a consistente; 2. Se uma equao identicada, tal poss ca e e vel, utilizando MQI Critrio de Identicao Condio de Ordem - condio necessria de identicao e ca ca ca a ca Uma equao identicada se o nmero de variveis pr-determinadas do modelo exclu ca e u a e das dessa equao maior ou igual ao nmero de variveis endgenas inclu ca e u a o das na equao menos ca uma. Uma forma alternativa, mas equivalente, de estabelecer este critrio: uma equao e ca e identicada se o nmero total de variveis exclu u a das da equao maior ou igual ao nmero ca e u de variveis endgenas do modelo, menos uma. a o

2.11.4

Mtodo dos M e ninos Quadrados Duplos ou Bi-Etpicos a

O Mtodo dos M e nimos Quadrados Duplos (MQD) um mtodo de estimao que permite e e ca obter estimadores consistentes e unicos em equaes sobre-identicadas, e estimadores que so co a mais ecientes do que os MQI. Em equaes exactamente identicadas o MQD equivalente co e ao MQI, permitindo tambm obter estimadores consistentes e unicos dos parmetros. Por e a isso MQD um mtodo geralmente utilizado, quer em equaes exactamente identicadas, e e co quer em equaes sobre-identicadas. co Descrio do Mtodo MQD (Exemplo para a funo oferta do modelo M3 ) ca e ca

49

1 Etapa:

Aplique MQO `s equaes da forma reduzida do modelo correspondente `s a co a variveis endgenas que aparecem como variveis explicativas na equao a o a ca estrutural que est a estimar. Obtenha em seguida os valores estimados de a tais variveis. a Exemplo: Na equao da oferta do modelo M3 h apenas uma varivel ca a a endgena nestas condies. Pt . Portanto estimamos a equao da forma o co ca reduzida de Pt : Pt = 11 + 12 Yt + 13 At + vit e em seguida obtemos os valores de Pt : t = 11 + 12 Yt + 13 At P Nota: Por cpnstruao Pt independente de c e t ut v1t = 2 2 logo de t

Na equao estrutural que est a tratar, substitua as variveis endgenas ca a a o que aparecem como variveis explicativas, pelos seus respectivos valores a a ca estimados obtidos na 1 etapa. Aplique em seguida MQO ` equao a transformar. No exemplo: Na equao da oferta substitu ca mos Pt po Pt e aplicamos MQO ` eqauo transformada: a ca QS = 1 + 2 Pt + t t e a Nota: Como Pt no correlacionado com t , os estimadores de 1 e 2 obtidos nesta segunda etapa so consistentes. No m, o mtodo MQD uma aplicao do mtodo MVI em a e e ca e e que Pt utilizada como varivel instrumental para Pt . a

2 Etapa

2.12

Modelos Multiequacionais e Mtodos de Estimao e ca


Y1 =

Modelos Simultneos: MQD a 0 +1 Y1 +1 Y1 +2 Y2 +2 Y2 +3 Y3 +b1 Z1 +b2 Z2 a3 Z3 +u1 +u2 +c3 Z3 +u3

Y2 = 0

Y3 = 0

Modelos Recursivos: MQO


Y1 =

0 +1 Y1 +1 Y1 +2 Y2

a1 Z1 +a2 Z2 +b2 Z2

u1 +u2 +c3 Z3 +u3

Y2 = 0 Y3 = 0

50

Modelos Recursivos por Blocos: MQD/MQO


Y1 = 0 Y2 = 0

+2 Y2 +a1 Z1 +1 Y1 +1 Y1 +2 Y2

+u1 +b2 Z2 +b3 Z3 +u2 +c3 Z3 +u3

Y3 = 0

51

Cap tulo 3

Sucesses Cronolgicas o o
A informao estat ca stica utilizada pelos mtodos extrapolativos de previso constitu e a e da por dados na forma de sucesses cronolgicas, termo pelo qual se designa o conjunto de o o observaes de uma varivel, feitas em per co a odos de tempo sucessivos e equiespaados ou c referidos ` mesma unidade de tempo real. a Uma sucesso cronolgica, tambm denominada, segundo alguns autores, srie cronolgica a o e e o ou crono-srie, dene-se como um conjunto de observaes feitas em pontos ou per e co odos sucessivos de tempo durante determinado intervalo. A preocupao generalizada com o aspecto dinmico dos fenmenos torna inndvel a ca a o a lista dos dom nios em que as sucesses cronolgicas tm papel de relevo. Em economia, os o o e ndices de produo industrial, as taxas de juro, a formao bruta de capital xo, o produto ca ca interno bruto, etc.; em meteorologia e geof sica, o registo de temperaturas, da precipitao ca atmosfrica, dos traados dos bargrafos e de sismgrafos, etc; em medicina, a leitura dos e c o o electroencefalograma, dos electrocardiogramas, etc; em agricultura, o volume das colheiras e os preos dos vrios produtos, etc. c a Estes dados entendem-se como amostra de um sistema gerador, que pode ser teoricamente concebido ou como um processo estocstico ou como um processo quase determin a stico. A notao adoptada para referir uma sucesso genrica ser a seguinte: ca a e a y1 , y2 , . . . , yT ou yt , t = 1, 2, . . . , T

onde o ndice designa o per odo de tempo (valores assumidos pela varivel tempo) a que a a observao se refere. Em particular, T designa a ultima observao dispon e igualmente ca ca vel o nmero total de observaes dispon u co veis, e t designa a observao genrica. ca e A representao grca de uma sucesso cronolgica, faz-se geralmente em coordenadas ca a a o cartesianas, marcando no eixo das abcissas os tempos e no eixo das ordenadas os valores da sucesso. Obtem-se assim um conjunto de pontos que se unem, ordenadamente, por segmentos a de recta. A poligonal resultante designa-se por cronograma. Trata-se do primeiro auxiliar na abordagem do comportamento da vari+avel a prever, com o qual procuramos delimitar o que fundamental, os aspectos anmalos e, eventualmente, o tipo de modelizao e o mtodo de e o ca e previso mais adequados ` sucesso. a a a Apesar do estudo de cada sucesso cronolgica ter um vasto conjunto de objectivos, poa o demos sintetiz-los quatro grandes motivos: a 1. Descrio. A descrio de uma sucesso tarefa primria levada a cabo mesmo quando ca ca a e a se tem o propsito de efectuar um estudo mais profundo. Inicia-se com a construo do o ca 52

cronograma, a determinao dos pontos de viragem, com a identicao de termos com ca ca comportamento que destoa do da maioria (poss veis ouliers), etc. Nesta fase utilizamse as medidas de estat stica descritiva apropriadas, para descrever a sucesso: mdias, a e varincia, distncia entre picos (mximos e m a a a nimos), taxas de variao, etc. ca 2. Explicao. Quando se observa a evoluo no tempo de diversas variveis pode ensaiarca ca a se, atravs da construo de modelos, a explicao de uma dada sucesso em termos da e ca ca a variao vericada noutras sucesses. ca o 3. Previso. E a prpria existncia do tempo que leva o indiv a o e duo a fazer previses e o a tentar antecipar a evoluo do futuro com base no comportamento observado no ca passado. A possibilidade de previso aspecto crucial na vida de qualquer sociedade. a e Os mtodos de previso so de dois tipo: e a a (a) Causais. Tambm designados multivariveis, procuram relacionar a varivel a e a a prever com outras variveis. A sua ecincia depende da possibilidade de prever a e mais facilmente as variveis explicativas. a (b) No causais. Tambm designados univariveis, baseiam-se exclusivamente na prpria a e a o sucesso a prever e em modelos constru a dos com esse pressuposto. 4. Controlo. Uma sucesso cronolgica pode traduzir uma caracter a o stica quantitativa de artigos que vo sendo produzidos em srie. Enquanto a caracter a e stica se mantm dentro e dos limites previamente especicados, admite-se que o processo est sob controlo e a a produo prossegue. Caso contrrio h que suspender a produo e procurar corrigir ca a a ca os factores responsveis pelo comportamento anmalo detectado. Noutros casos, depois a o de prever a evoluo do output, com eventual emisso de sinais de alerta, os inputs ca a controlveis so ajustados para o processo se encaminhar na direco dos objectivos. a a ca Historicamente a investigao das sucesses cronolgicas comeou com os astrnomos, com ca o o c o os mtodos que empregaram para descrever e analisar complexos movimentos e interreales e co dos corpos celestes. Devido ` complexidade de certas sucesses, vulgar decompor a sucesso em componena o e a tes: Tendncia, Sazonalidade, Movimentos Oscilatrios ou C e o clicos, e ainda uma componente Aleatria tambm designada de Res o e duo ou Ru do. A Tendncia (T ), ou Trend tem um signicado intuitivo e pode descrever-se como inrcia e e da sucesso, marcha principal, variaao em mdia ao longo do tempo. E o movimento a longo a c e termo da sucesso. a A Componente Sazonal (S), descreve as variaes em relao ` tendncia que ocorrem, co ca a e em geral, no decorrer de um ano. Os movimentos sazonais so oscilaes de ritmo forado, que a co c se repetem todos os anos (ou com uma periodicidade mais curta), nem sempre seguindo um padro r a gido, podendo ter causas naturais ou causas sociais. Durante os meses de vero as a temperaturas mdias so sempre superiores `s temperaturas de inverno, pelo que uma anlise e a a a das temperaturas mensais durante um per odo de X anos, mostrar que sistemticamente a a durante os meses de vero, em especial Agosto, regista um valor mximo; em contrapartida a a o mesmo se passa com os meses de inverno e os m nimos. Culturalmente, muitas das instalaes fabris encerram ou diminuem drsticamente os seus co a ndices produtivos, durante o ms de Agosto, devido `s frias dos seus funcionrios. Mensalmente o Instituto Nacional de e a e a

53

Figura 3.1: Tendncia e

Estat stica (INE) publica o Indice de Produo Industrial (IPI). Ora de prever que durante ca e o ms de Agosto, este e ndice atinge um valor m nimo, o que se repete anualmente. Os Movimentos Oscilatrios ou C o clicos (C), associam-se `s fases alternadas de exa panso e depresso que afectam determinado sistema em anlise, no apresentando qualquer a a a a periodicidade denida. Os ciclos longos so dicilmente separveis da tendncia. Procura a a e traduzir as oscilaes de caracter co sticas recorrentes e prazo superior ao ano. Em sries de e natureza econmica, esta componente, quando existe, apresenta periodicidade pouco deo nida, o que torna o seu tratamento formal bastante problemtico. Estes movimentos s so a o a plenamente observveis com sries longas, o que por vezes no poss a e a e vel - inexistncia de e dados para per odos to longos - ou indesejvel - determinadas variveis assumem denies a a a co diferentes ao longo dos tempos ou os dados so recolhidos e tratados de forma diferente - pelo a que em muitas anlises esta componente no considerada. a a e A Componente Aleatria, ou Ru (A, ), tem um papel extremamente relevante nos o do modernos modelos prbabil sticos. Esta componente caracteriza os movimentos irregulares atribu veis a causas fortuitas ou desconhecidas. No fundo, trata-se de uma componenete para onde se remetem os movimentos que no so explicados pelas outras componentes e a a apresentam natureza aleatria. o Ainda que nem sempre a totalidade das componentes estaja presente, a anlise da sucesso a a cronolgica visa identicar e modelizar as componentes presentes. o Aps a classicao das componenetes da sucesso, interessa explorar em que tipo de o ca a modelos esto iro ser incorporadas. Formalmente pode se apresentar o modelo da seguinte a a

54

Figura 3.2: Componente sazonal

forma: yt = f (Tt , St , Ct , t ) H basicamente trs tipos de modelos: a e 1. Modelo Aditivo Yt = Tt + St + Ct + t 2. Modelo Multiplicativo Yt = Tt .St .Ct .t 3. Modelo Misto Yt = (Tt + Ct ).St + At ou Yt = Tt .St .Ct + At A adequabilidade de uma decomposio de tipo aditivo ou multiplicativo prende-se com ca ` a natureza da sazonalidade. As vezes, as caracter sticas desta podero perspectivar-se imea diatamente a partir do cronograma da sucesso. Com mais rigor, na opo por um modelo a ca de decomposio, podem considerar-se as diferenas, para os sucessivos anos, entre os valores ca c mximo e m a nimo e testar a correlao entre essas aplitudes e as correspondentes mdias ca e anuais da varivel, por exemplo atravs de uma regresso. Se essa correlao for signicativa, a e a ca justica-se um modelo multiplicativo. O modelo que melhor se ajusta varia de sucesso para sucesso e nada h como fazer vrios a a a a ensaios at chegar ao modelo que reduz no mximo a componente residual, sem preju da e a zo respectiva aleatoridade. 55

Figura 3.3: Movimentos oscilatrios o

A anlise de decomposio consiste pois em pensar o conjunto de dados de uma sucesso a ca a de acordo com um esquema que se resume a separar cada uma das componentes para cada observao, i.e., para cada yt existe (ou no) um conjunto de Tt , St , Ct e t , para da partir ca a para a previso por operao inversa de recomposio. Como, na verdade, Tt , St , Ct e t no a ca ca a so variveis observveis, aquilo que fundamentalmente os mtodos baseados na decomposio a a a e ca fazem, produzir estimativas dessas componentes (TT +h , ST +h , CT +h , T +h . E a partir dessas e estimativas que a extrapolao previsiva se far segundo esquema em que aps a previso das ca a o a componentes refeito o modelo matemtico original (recomposio) por forma a obter os e a ca valores para yT +h com (h = 1, 2, . . .). No caso da componente residual, verica-se que o seu modelo terico o de uma varivel o e a aleatria. A incluso desta componente permite representar o que as outras componentes o a no conseguem explicar, reectindo tambm o carcter no determin a e a a stico das modelaes. co Esta componente residual dene-se como puramente aleatria, colocando como hipteses de o o partida mais gerais, as seguintes 1 : E () = 0 E (t .t+s ) =
2 0

se s = 0 se se = 0

Isto : t , constitui uma sucesso de variveis aleatrias de mdia nula, no correlacionadas e a a o e a e de varincia constante. Estas hipteses signicam que se concebe a sucesso t como um a o a rudo branco, terminologia com que se caracterizam os comportamentos puramente aleatrios, o isto sem efeitos sistemticos e individualmente impres e a veis, nas sucesses cronolgicas. E o o
1

Modelos em que t surge aditivamente

56

Figura 3.4: Componente aleatria o

tambm frequente postular para t uma distribuio normal, o que facilita o tratamento e ca estat stico da incerteza associada ` previso. a a

3.1

Tendncia e

Denir a tendncia de uma sucesso cronolgica dos mais dif e a o e ceis que surgem no seu estudo. Como tendncia considera-se correntemente o movimento mais largo e suave da sucesso ao e a longo tempo de um grande nmero de anos. u H muitos mtodos de determinar a tendncia. Cosoante o m em vista, assim mais a e e e indicado este ou aquele mtodo. A representao formal constitui um meio adequado e expee ca dito para descrever os poss veis tipos de comportamento da tendncia. Querendo-se isolar as e utuaes c co clicas parece indicado que a linha de tendncia atravesse os ciclos de modo que e haja compensao entre as fases positivas e negativas de cada ciclo. Desejando-se estudar a ca tendncia mais justicvel procurar uma funo cujas propriedades estejam mais ou menos e e a ca em conformidade com as caracter sticas evidenciadas pela tendncia. e

3.1.1

Tendncia constante e

Quando os valores da sucesso parecem utuar em torno de um n mais ou menos consa vel tante ao longo dos vrios per a odos de tempo, a representao determin ca stica adequada para a tendncia Tt = T, t; uma representao estocstica Tt = Tt1 + t , onde t tem carace e ca a e ter sticas de ru branco, e que pode interpretar-se como o n da sucesso no momento t do vel a igual ao n da sucesso no momento t 1, excepo feita a uma perturbao aleatria e vel a ca ca o que em mdia se espera nula. e

57

3.1.2

Tendncia linear e

Quando numa sucesso cronolgica se detecta um crescimento ou decrescimento tal que, para a o qualquer t, a diferena at at1 , sendo no nula, no parea variar signicativamente com c a a c t, sugere-se como adequado um modelo de comportamento de tipo linear. Numa ptica o determin stica o modelo ser Tt = a0 + a1 t, b0 e b1 constantes. O modelo estocstico poder a a a ser: Tt = Tt1 + at1 + t at = at1 + t com t e xit ru dos brancos independentes, e onde Tt representa o n vel da sucesso no a momento t, e at o declive da tendncia. e

3.1.3

Outros tipos

Sempre que seja admiss conceber a diferena Tt Tt1 como variando com t devem escolhervel c se outras formas funcionais para representar a tendncia. Por exemplo 2 : e Tendncia quadrtica e a : Tt = a0 + a1 t + a2 t2 que o caso particular mais utilizvel da forma polinomial e a Tt = a0 + a1 t + a2 t2 + . . . + an tn Tendncia exponencial e : Tt = abt (b > 0), utilizada para representar processos em que a taxa de crescimento por per odo constante. e Tendncia logar e tmica : Tt = a0 + a1 log t, para processos com crescimentos a taxas decrescentes. O emprego das mdias mveis muito frequente. Comea por dividir-se a sucesso em e o e c a escales com igual nmero de termos, sobrepostos. Assim, sendo k o nmero de observaes o u u co de cada escalo, existem k 1 observaes em comum entre um escalo e o seguinte, faltando a co a ca a u neste a 2 observao do escalo anterior e estando incluida a mais a ultima. Ao nmero de observaes em cada escalo chama-se per co a odo da mdia mvel. e o Formados os escles calcula-se a mdia das observaes contidas em cada um deles, o e co tomamdo-se essas mdias como estimativa do valor local da tendncia. e e Considerem-se dois casos consoante o per odo da mdia mvel, k, e o mpar (k = 2m + 1), ou par (k = 2m). Pe odo mpar: k = 2m + 1. Seja, por exemplo, k = 3; as estimativas da tendncia so, e a sucessivamente,
2

Modelos determin sticos

58

x1 + x2 + x3 3 x2 + x3 + x4 T3 = 3 = x3 + x4 + x5 T4 3 ... xN 2 + xN 1 + xN TN 1 = 3 Genericamente, para k qualquer, mpar, vem,


T2 =

Tt =

xt+s 2m + 1 s=m

para t = m + 1, m + 2, . . . , N m. Repare-se que a tendncia no estimada para os e a e primeiros m e os ultimos m pontos do tempo, o que de facto um inconveniente. e Per odo par: k = 2m. Seja por exemplo, k = 4; tomem-se os quatro primeiros valores e calcule-se a mdia, e x1 + x2 + x3 + x4 4 esta mdia vai corresponder ao ponto mdio do primeiro escalo, isto , a meio do intervalo e e a e [2, 3]. A segunda mdia, e x2 + x3 + x4 + x5 4 corresponde ao ponto mdio do intervalo [3, 4]. No entanto, como interessa estimar valores da e tendncia nos pontos do tempo em que existem observaes, estas mdias tm de ser centradas. e co e e A centragem consegue-se facilmente calculando uma segunda mdia mvel de per e o odo 2. Com efeito, x1 + x2 + x3 + x4 2, 3 = 4 x2 + x3 + x4 + x5 3, 4 = 4 logo, x1 + x2 + x3 + x4 x2 + x3 + x4 + x5 1 + (x1 + x5 ) + x2 + x3 + x4 4 4 = 2 T3 = 2 4 e assim por diante. Em termos gerais,
m1 1 2 (xtm

+ xt+m +
s=m+1

xt+s

Tt =

2m

para t = m + 1, m + 2, . . ., N m. O mtodo das mdias mveis caso particular dos chamados ltros lineares. Esta operao e e o e ca tem por objectivo a separao da tendncia dos outros componentes. ca e

59

3.2

Movimentos Sazonais

Quando se fala de movimentos sazonais pensa-se normalmente em variaes ocorrendo dentro co de um ano e segundo um certo modelo, mais ou mens r dido, que se repete de ano para ano. Isto , pode dizer-se que so movimentos peridicos cujo per e a o odo igual a 12 meses. Mas na e verdade o conceito de sazonalidade tende a empregar-se para designar todos os movimentos peridicos de per o odo igual ou inferior a um ano. Para modelar a sazonalidade, h que calcular os a ndices sazonais. Para o seu clculo h a a vrios mtodos. Um deles o mtodo das mdias (medianas) mensais. a e e e e Mtodo das mdias mensais e e Note-se que a designao mensal excessivamente limitada. Assim, se o per ca e odo sazonal for o ano e este estiver dividido em meses, trabalha-se de facto com mdias mensais; se estiver e dividido em trimestres, trata-se de facto de mdias mensais; se estiver dividido em trimestres, e trata-se de facto de mdias trimestrais. Se o ciclo for o dia e este estiver dividido em horas, e trata-se de facto de mdias horrias. e a O mtodo consiste no seguinte: e 1. dispem-se as observaes num quadro em que as observaes mensais apaream na o co co c vertical, e na horizontal os anos. Numa mesma linha estaro as observaes de um dado a co ms ao longo dos anos; e 2. calculam-se as somas referentes a cada ms e as somas referentes a cada ano, colocam-se e na respectiva linha e coluna, conferindo-se a soma total dos meses com a soma total dos anos; 3. calcula-se a mdia para cada ms, bem como a mdia geral ou a mdia das mdias e e e e e mensais; 4. nalmente, exprime-se a mdia de cada ms como percentagem da mdia geral, obtendoe e e se assim os ndices sazonais. Interpretao do valor dos ca ndices sazonais Se para um determinado ms, o e ndice sazonal for 94,3, este valor indica que a utuao sazonal neste ms se traduz por uma quebra ca e de 5,7% em relao ao n normal (tendncia). Por outro lado se este valor fosse de 115,1, ca vel e indicaria que se est 15,1% acima do n que se vericaria se no houvesse sazonalidade. a vel a O mtodo das mdias mensais s deve aplicar-se quando os dados no apresentam tendncia e e o a e ou quando esta no seja muito pronunciada. Caso contrrio, esta tendncia viciar os a a e a ndices. O Mtodo das Mdias Mveis e e o Este mtodo sugerido, pelo facto de que uma mdia mvel cujo per e e e o odo coincida com o per odo de sazonalidade, se apresentar isenta de utuaoes sazonais, evidenciando os outros c movimentos da sucesso original, nomeadamente a tendncia ciclo. a e O processo de determinao dos ca ndices sazonais passa pela determnao das mdias ca e mveis de per o odo igual ` sazonalidade. Aps este passo calcula-se a mediana (mdia) entre a o e as mdias mveis calculadas para cada ms. A mediana pode ter vantagens, uma vez que e o e utua pouco com os valores extremos. A mdia desses e ndices sazonais deveria dar 100. Se tal no acontecer ` necessidade de se proceder ` normalizao destes a a a ca ndices. Este passo consiste em encontrar um novo ndice resultando da diviso do a ndice inicialmente calculado com a mdia dos e ndices, multiplicando por 100. 60

3.3

Variaes C co clicas

Nas seces anteriores focou-se os procedimentos para determinar as componentes tendenco ciais e sazonais. Passo seguinte passa pela determinao da componente c ca clica. Nalgumas anlises, desejvel isolar a componente c a e a clica, por forma a que pontos de viragem e picos (mximos e m a nimos) possam ser estudados. Se um padro estvel pode ser obtido (ciclos a a de comerciais de 3-4 anos ou cilcos de construo de 20 anos por exemplo), ento ser uma ca a a grande ajuda para a explicao desses ciclos e consequentemente proceder a previses. No ca o entanto, as componenetes c clicas de fenmenos econmicos, normalmente tendem a variar o o quer em amplitude quer em durao, de um ciclo para outro, tornando-se dif estudar esta ca cil componente, resultando num vasto leque de processos de estudo das componentes c clicas. Em termos computacionais pode-se optar por um sistema simples. Se considerarmos uma sucesso yt = T C S A, a componente sazonal a primeira a ser determinada. a e Aps esta fase divide-se o valor de yt pela componente sazonal (multiplicando por 100): o yt 100 = T C A. De seguida estima-se a tendncia, usando o mtodo mais ecaz. Na e e S maior parte dos casos atravs do Mtodo dos M e e nimos Quadrados, tendo em ateno se se ca trata de um ajustamento linear ou no linear. Dividindo T C A pelo valor de yt obtido a atravs do Mtodo dos M e e nimos Quadrados, camos apenas com as componentes C A. Finalmente para eliminar A podem-se utilizar diversos mtodos. O mais simples calcular e e uma mdia mvel de 3 ou 5 per e o odos com os dados de C A. Se o per odo for maior, os ciclos podem ser suavizados e podem eliminar parcialmente a componente ciclica. O melhor tipo de ponderadores a usar, so ponderadores elevados no centro e mais baixos a nos extremos. E aconselhvel que a sua soma seja 1, pois assim no h necessidade de dividir a a a pelo somatrio dos ponderadores. Utilizando um per o odo de 5 elementos, os ponderadores mais usuais so: 0, 1, 0, 2, 0, 4, 0, 2 e 0, 1. a

3.4

Modelos de alisamento exponencial

Nas seces anteriores, usamos as mdias mveis para alisar as sucesses e asssim obter co e o o previses. No entanto outros mtodos podem ser usados. Vamos tratar dos alisamentos exo e ponenciais. Estes modelos so utilizados quando h necessidade de trabalhar vrias sucesses a a a o temporais ou as previses so necessrias numa base frequente e peridica. o a a o

3.4.1

O modelo de alisamento exponencial simples

Este modelo utilizado para sucesses em que nem a tendncia nem a componenete sazonal e o e esto presentes. Denominam-se de sucesses estacionrias. Este processo passa por utilizar a o a mdias ponderadas para a alisar a sucesso. O valor alisado St calculado por: e a e St = yt + (1 )St1 O ponderador denominado constante de alisamento, e assume valores entre 0 e 1. e Esta expresso permite retirar as utuaes aleatrias da sucesso original. Se o processo se a co o a mantm estacionrio, ento um valor de previso o prprio valor alisado St . e a a a e o Ft+n = St

61

O processo apresentado para o alisemaento exponencial uma forma especial de mdias e e mveis. Calcula o valor alisado, como sendo uma mdia mvel dos valores observados. Cono e o sideremos o instante t 1, obtm-se e St1 = yt1 + (1 )St2 Substituindo na expresso inicial, a St = yt + (1 )yt1 + (1 )2 St2

Repetindo este processo para St2 , St3 e assim sucessivamente, chega-se assim a St = yt + (1 )yt1 + (1 )2 yt2 + . . . + (1 )t1 y1 + (1 )t S0

Onde S0 o valor inicial de alisamento. A constante pode assumir vrios valores (entre e a 0 e 1). Consoante esse valor, assim a nfase dos valores passados ser maior ou menos. Por e a este motivo a escolha de um valor para crucial. Valores mais elevados de colocam um e maior peso nas observaes mais recentes. Se este valor for muito alto, o alisamento pode co no ser ecaz. Se o valor for muito baixo, o modelo pode no responder atempadamente. Em a a termos prticos o valor de varia entre 0, 1 e 0, 5 a De acordo com a expresso anterior, vericamos que necessrio o valor de S0 . Se considea e a rarmos que a sucesso estacionria, ento o valor de S0 pode ser tomado como a mdia das a e a a e observaes passadas. Se no existir informao passada, ento podemos usar as primeiras co a ca a observaes da sucesso e calcular a mdia e consider-la como o valor de S0 . co a e a Como exemplo consideremos o quadro que se segue, referente `s exportaes mensais dos a co Estados Unidos da Amrica (em milhes de dlares). Como valor de S0 vamos considerar a e o o mdias das ultimas 3 observaes (no constam do quadro), referentes aos 3 meses anteriores e co a a Janeiro de 1986. O seu valor S0 = 17, 70. e Ms e Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez 1986 17,04 17,40 18,58 18,00 18,27 19,09 17,35 16,90 17,53 19,56 18,41 18,52 Quadro 4.1 - Exportaes mensais co 1987 St (1986) St (1986) St (1987) = 0, 1 = 0, 5 = 0, 1 16,76 17,63 17,37 17,80 19,36 17,61 17,39 18,04 21,78 17,71 17,98 18,42 18,62 17,73 17,99 18,62 20,78 17,79 18,13 18,84 21,13 17,92 18,61 19,07 21,01 17,86 17,98 19,27 20,22 17,77 17,44 19,36 20,99 17,74 17,49 19,52 21,75 17,92 18,52 19,75 17,97 18,47 18,03 18,49 St (1987) = 0, 5 17,63 18,49 20,14 20,32 20,55 20,84 20,92 20,57 20,78 21,27

A estimativa de Janeiro de 1986, com = 0, 1 vir, a S1 = y1 + (1 )S0 = 0, 1(17, 04) + 0, 9(17, 70) = 17, 63 Para Fevereiro de 1986, obtm-se: e S2 = y2 + (1 )S1 = 0, 1(17, 40) + 0, 9(17, 63) = 17, 61 62

Figura 3.5: Alisamento exponencial

3.4.2

Modelo de Winter de alisamento exponencial

O modelo de alisamento simples, apenas funciona bem quando a sucesso estacionria. No a e a entanto se a sucesso tiver tendncia e componente sazonal, esse modelo j no vlido. a e a a e a O modelo de Winter permite uma extenso do modelo simples permitindo a existncia de a e tendncia e sazonalidade. e O modelo de Winter consiste em 3 equaes de alisamento. A primeira equao actualiza co ca a mdia geral da sucesso St ao m de cada per e a odo t. A segunda equao actualiza a ca estimativa da tendncia (Tt ). A terceira equao actualiza os e ca ndices sazonais (Qt ). Neste modelo ser ainda necessrio denir L, o nmero de per a a u odos do ciclo sazonal. Resumindo, e para o alisamento temos: St = Para o valor da tendncia, e Tt = (St St1 ) + (1 )Tt1 Os ndices sazonais, Qt = 1. Depois e actualizados estes valores, podemos ento fazer as previses, o que neste caso a o resulta, Ft+n = (St + nTt )QtL+n Mas para comerarmos a actualizar os valores, so necessrios os valores de S0 , T0 e Q0 . c a a Para o valor de Q0 , pode ser usado o mtodo das mdias mveis que j foi apresentado para e e o a 63 yt + (1 )QtL St yt + (1 )(St1 + Tt1 ) QtL

Os coecientes , e so ponderadores que assumem valores compreendidos entre 0 e a

o clculo dos a ndices sazonais, quando se dispe de informao anterior. De forma anlogo o ca a podemos estimar os valores para S0 e T0 . Torna-se ento claro que a escolha dos coecientes , e assume uma importncai a a cr tica. No existe um processo que permita calcular estes valores. Nada melhor do que fazer a estimativas e depois compar-las. Como medidas de qualidade podemos calcular o desvio a absoluto mdio, ou a raiz do erro quadrtico mdio, respectivamente: e a e |yt Ft | N e
N t=1

(yt Ft )2 N

Considere o seguinte exemplo: Ms e Janeiro Fevereiro Maro c Abril Maio Junho Julho Agosto Setembro Outubro Novembro Dezembro Total 1984 14,46 13,85 16,82 16,05 16,28 17,64 17,63 18,83 15,32 16,49 15,56 15,60 194,53 1985 17,41 15,67 20,49 19,25 19,14 19,25 21,16 21,58 16,38 17,73 16,51 19,42 223,99 1986 18,19 17,41 21,71 20,27 20,94 22,00 23,66 25,31 19,64 21,01 19,87 22,12 252,13 1987 20,68 21,29 26,56 24,65 25,34 25,30 27,26 28,16 21,53 23,08 22,93 23,93 281,81 1988 21,70 21,93 26,55 24,70 25,09 26,18 27,51 29,05 22,74 24,73 23,22 23,47 296,87

Para se inicializar o processo de alisamento exponencial pelo mtodo de Winter, so nee a cessrios os valores iniciais das equaes acima mencionadas. Para o clculo de S0 tomemos a co a a mdia dos valores do ano de 1984 (S0 = 16, 211). e Uma forma de calcular T0 determinar a variao, em mdia, dos dois primeiros anos, ou e ca e seja, calcular a diferena entre as mdias dos anos de 1984 e 1985 e dividindo por 12. Neste c e caso 18, 666 16, 211 = 0, 205 T0 = 12 Uma forma de calcular os ndices sazonais atravs das mdias mveis, com j foi visto e e e o a anteriormente. Um outro processo que pode ser utilizado neste mtodo, consiste em indexar e cada ms ` mdia do ano inicial. Assim para Janeiro ter e a e amos: Q11 = 14, 46 = 0, 892 16, 211

e assim sucessivamente, de onde se obter am os restnates ndices, a saber: Q10 = 0, 854, Q9 = 1, 038, Q8 = 0, 990, Q7 = 1, 004, Q6 = 1, 088, Q5 = 1, 088, Q4 = 1, 162, Q3 = 0, 945, Q2 = 1, 017, Q1 = 0, 960 e Q0 = 0, 962. 64

Depois de calculados os valores iniciais, podemos comear a actualizar os valores atravs c e das expreses j referidas, tomando para tal, o a = 0, 30 = 0, 10 = 0, 25 Estes valores permitem-nos, normalmente, obter valores aceitveis nas previses, mas a o nada melhor do que fazer diversas simulaes, at se obterem valores mais aceitveis, i.e., co e a minimizao dos desvios. ca Assim obtm-se: e S1 =
y1 Q11 + 0, 30 17,41 0,892

= = 17, 346 O valor a actualizar a seguir, T1 : e

(1 )(S0 + T0 )

+ 0, 70(16, 211 + 0, 205)

T1 = (S1 S0 ) + (1 )T0 = 0, 10(17, 346 16, 211) + 0, 90(0, 205) = 0, 298 Para actualizar o valor de Q1 , temos: Q1 =
y1 s1

= 0, 25 = 0, 924

17,41 17,346

+ (1 )Q11

+ 0, 75(0, 892)

Estamos agora em condies de estimar o valor para o per co odo 2, Fevereiro de 1985: F2 = (S1 + T1 )Q10 = (17, 346 + 0, 298)0, 854 = 15, 07 Pelo facto de ser um processo recurssivo, esta anlise pode ser feita numa folha de clculo. a a Gracamente obtm-se o seguinte e

3.4.3

Alisamento exponencial e o SPSS

O SPSS permite tratar o alisamento exponencial (exponential smoothing. Para o efeito h que a seleccionar do menu os seguintes comandos: Analyze ... Time Series ... Exponential Smoothing. Aps seleccionar a(s) varivel(is) para o Variable(s) box, um conjunto de opes permite o a co modelar a sucesso de valores observados. A existncia de sazonalidade pode ser denida em a e Model, e a periodicidade em Dene Dates. As opes de Model permitem as seguintes opes co co Opo ca Condies do modelo co Simple sem tendncia e sem variao sazonal e ca Holt tendncia linear e sem variao sazonal e ca Winters tendncia linear e variao sazonal multiplicativa e ca Custom tendncia e sazonalidade denidas pelo utilizador e 65

Figura 3.6: Previses e valores reais o

O modelo de Winter s estar acess se forem per o a vel odos temporais para o menu de dados. Os valores de , , e podem ser denidas ou serem determinados. O SPSS permite estimar os melhores 10 resultados a partir de um valor inicial e denido um incremento. Os melhores resultados so apresentados, considerando para o efeito os menores valores para o a Desvio Absoluto Mdio. e

66

Cap tulo 4

Estat sticas no paramtricas a e


4.1 Introduo ca

Muitos dos testes estat sticos considerados at aqui, especicam certas propriedades para a e populao sobre os quais feita inferncia. Estas propriedades tero de se vericar antes do ca e e a teste se realizar. Um teste t, por exemplo, requer que a amostra provenha de uma populaao c normal; se o teste para a diferena de mdias, as duas amostras tero de ter varincias e c e a a iguais. Estas hipteses so necessrias igualmente para a anlise de varincia e assume-se que o a a a a nos testes para os coecientes de correlao, a distribuio normal e o teste bilateral. ca ca e Embora a maioria destes testes sejam robustos, no sentido que os testes continuam a ser uteis mesmo nas situaes em que a condio de normalidade no esteja exactamente correcta, co ca a h sitaues em que no se pode armar, ou no desejvel que se parta do princ a co a a e a pio que a normalidade verica. Num trabalho de investigao, quando no existe certezas quanto ca a a ` normalidade de uma determinada populao, no se pode armar que se procede a um ca a teste t, por exemplo, quando uma das condies para que tal se possa fazer precisamente a co e existncia de uma populao normal. Os testes apropriados nestas circunstncias so os testes e ca a a no paramtricos, porque estes no dependem de qualquer condio sobre os parmetros da a e a ca a populao. ca Para alm disso, a maioria dos testes no paramtricos no necessitam um n de medida e a e a vel to forte como o necessrio para os testes paramtricos. Por medida entenda-se o processo a a e na atribuio de nmeros a objectos ou observaes, sendo o n uma funo das regras sob ca u co vel ca as quais os nmeros so atribu u a dos.

4.2

Medida

A medida de informao quanticvel feita usualmente num de quatro n ca a e veis, dependendo da fora do procedimento de atribuio de escala usado. Os quatro n c ca veis so: nominal, a ordinal, intervalo e rcios. a O tipo mais fraco de medida a escala nominal, que apenas ordena os objectos em e categorias de acordo com alguma caracter stica distinctiva e d a cada categoria um nome, a da o termo nominal. Uma vez que a classicao numa escala nominal no depende do nome ca a ou s mbolo atribu a cada categoria, estes s do mbolos podem ser permutados sem alterar a informao dada pela escala. Na maioria das medidas nominal, a preocupao reside na ca ca frequncia absoluta das observaes para cada categoria. e co 67

A escala ordinal, o n e vel seguinte de medida. Os dados numa escala ordinal so caa racterizados por posies relativas, pelo que uma relao t co ca pica pode ser grande, maior ou prefervel a; s as relaes maior que, menor queou igual atm sentido nas medidas o co e ordinais. Este tipo de escala usado quando no poss quanticar, ou no signicativo, e a e vel a e e apenas podemos obter uma noo de escala. Testes em que apenas podemos dizer que A ca e maior que Bmas no podemos quanticaro quanto maior A relativamente a B. a e O terceiro tipo de escala a medida por intervalo. Medida numa escala intervalar assume e que existe um conhecimento exacto da diferena quantitativa entre objectos a serem medidos. c Ter de ser poss atribuir um nmero a cada objecto de tal maneira que a diferena relativa a vel u c entre eles possa ser expressa pela diferena relativa dos nmeros atribu c u dos a cada um. Ter a de ser usado uma unidade nesta atribuio de valores A escolha de um ponto zero (origem) ca para os dados pode ser feita arbitrariamente. A medida da temperatura (em graus Celsius) e um exemplo de medidas intervalares onde a escolha da origem e unidade arbitrria, se bem e a que a medida da temperatura numa escala absoluta deixa de ser uma medida intervalar. A ideia principal subjacente ` medida neste tipo de escala a distncia (diferena) entre cada a e a c observao, ou seja, no seu intervalo. ca O tipo mais forte de medida so os rcios, pois possuem todas as propriedades das escalas a a intervalares e ainda uma origem natural (leia-se no arbitrria) - s a unidade de medida a a o e arbitrria. Fixando a origem permite comparaes no s dos intervalos entre os objectos, a co a o mas os valores absolutos dos nmeros atribu u dos a estes objectos. Neste tipo de escala podem ser feitas armaes do tipo x o dobro de y. Lucros, nmero de empregados e vendas co e u representam medidas de rcio, uma vez que estas escalas possuem uma origem comum (o a ponto zero).

4.3

Testes paramtricos e no paramtricos e a e

Para alm da necessidade de se conhecerem determinadas caracter e sticas da populao (seja a ca normalidade, por exemplo), os testes paramtricos necessitam uma medida no m e nimo feita de forma intervalar. Para encontrar mdias e varincias necessrias para estes testes, necessrio e a a e a assumir que signicativo comparar intervalos. No faz sentido fazer operaes matemticas e a co a com valores de escalas ordinais, uma vez que estes apenas indicam ordem. Para evitar as condies paramtricas normalmente necessrias para os testes baseados nas co e a escalas intervalares ou rcios, a maioria dos testes no paramtricos apenas usa dados nominais a a e ou ordinais. Ou seja, estes testes ignoram quaisquer propriedades de uma dada escala, excepto a ordem. Isto signica que se o teste for feito com dados medidos numa escala intervalar, os testes no paramtricos ignoram esta informao relativamente aos intervalos. Ao ignorar a e ca esta informao, estes testes tm a vantagem no terem de fazer assumpes paramtricas, ca e a co e mas sacricam a potncia do teste, na medida em que no usam toda a informao dispon e a ca vel para rejeirar uma hiptese nula falsa. Os testes no paramtricos, por exemplo, tipicamente o a e envolvem medianas ao invs de mdias, porque determinar uma mdia requer dados numa e e e escaca intervalar, ao passo que determinar uma mediana apenas necessrio informao e a ca ordinal. Os mtodos no paramtricos introduzem procedimentos aplicveis independentemente e a e a da forma de distribuio, ou vlidos para um mais largo espectro de distribuio. ca a ca

68

Grupo A Grupo B 12 5 12 5 13 7 13 7 13 8 14 10 17 11 22 15 23 18 24 101 28 30 Tabela 4.1: Rcio Preo / Rentabilidade a c

4.4
4.4.1

Testes equivalentes ao teste t para amostras independentes


Teste U de Mann-Whitney

O teste U de Mann-Whitney um dos mais poderosos testes no paramtricos e uma e a e e alternativa util para os testes t. Este teste feito para determinar se duas amostras so ou e a no retiradas de uma mesma populao. Assim resulta que a hiptese nula considera que as a ca o duas amostras so idnticas e a hiptese alternativa que no so idnticas. a e o a a e O prieiro passo neste teste considerar que todas as observaes como uma amostra apee co nas e orden-las de forma crescente. Se a hiptese nula verdadeira, ento as duas amostras a o e a provm da mesma populao e estaro bem distribuidas entre si, i.e., no haver evidncia e ca a a a e de agrupamento dos dois conjuntos de observaes. Se pelo contrrio a hiptese nula falsa, o a o e ento as duas amostra no so originrias da mesma populao e ento haver, tendenciala a a a ca a a mente, agrupamentos referentes `s duas amostras. Para testar a evidncia estat a e stica que esta hiptese nula verdadeira ou falsa, calcula-se a estat o e stica (ou teste) U de Mann-Whitney. Para o efeito conta-se o nmero de vezes que os valores de uma amostra precedem os valores u da outra amostra. O valor do teste U de Mann-Whitney o m e nimo entre estes dois valores. Exemplo: Suponha que um analista de mercados pertende saber se o rcio preo / rentabia c lidade de empresas de fraco crescimento est relacionado com a forma como foram classicadas a numa revista da especialidade. Da tabela seguinte constam 12 observaes das empresas com co um crescimento mais forte (Grupo A) e 10 empresas com crescimento fraco (Grupo B). O analista tomou como hiptese que os rcios para o Grupo B deveriam ser inferiores aos do o a Grupo A - trata-se de um teste unilateral. Para calcular o valor do teste U de Mann-Whitney, necessrio determinar o nmero de e a u vezes que a observao do Grupo A precede cada valor do Grupo B. Vamos chamar a esse ca valor TA . De uma forma prtica, e depois dos dados ordenados, a cada valor de observao a ca do Grupo B, contam-se o nmero de observaes do Grupo A, inferiores a esse valor. Para u co cada valor observado do Grupo B, somar-se-o todos os valores inferiores do Grupo A. a

69

Rcio a 5 5 7 7 8 10 11 12 12 Grupo B B B B B B B A A Posio 1 2 3 4 5 6 7 8 9 ca Rcio a 13 14 15 17 18 22 23 24 28 Grupo A A B A A A A A A Posio 12 13 14 15 16 17 18 19 20 ca Tabela 4.2: Teste de Mann-Whitney Calculando o somatrio, obtm-se: o e

13 13 A A 10 11 30 101 A B 21 22

TA = 0 + 0 + 0 + 0 + 0 + 0 + 0 + 6 + 7 + 12 = 25 Para o clculo do teste U , tambm necessrio dterminar o valor de TB , que se obtm de a e e a e forma anloga, tendo em considerao as observaes do Grupo A e contando o nmero de a ca co u observaes do Grupo B inferiores a esse valor. Assim: co TB = 7 + 7 + 7 + 7 + 7 + 7 + 8 + 9 + 9 + 9 + 9 + 9 = 95 O valor do teste U de Mann-Whitney denido como o m e nimo destes dois valores TA , TB . Neste caso, U = min{TA , TB } = min{25, 95} = 25 Denido desta forma, resulta que quanto mais similares forem as duas amostras, maior ser a o valor de U , pelo que a hiptese nula deve ser rejeitada quando o valor de U relativamente o e pequeno. Uma vez que o valor de U depende apenas das posies dos valores nos dois grupos, co poss e vel determinar a probabilidade de vrios valores de U para tamanhos de amostra a espec cos. Estes valores encontram-se tabelados. Neste exemplo, para nA = 12 e nB = 10, a regio cr a tica para um teste unilateral, usando = 0, 025, U 29, ou seja, P (U 29) = e 0, 025. O facto do valor observado para U ter sido 25, signica que a hiptese nula pode ser o rejeitada com um n de signicncia de = 0, 025. vel a Para amostras grandes este processo de clculo deixa de ser prtico. Quando tal acontece, a a poder-se- utilzar formas alternativas para o clculo de TA e TB . Assim, a a TA = nA nB + e TB = nA nB TA onde o valor de rA (ou de rB ) o somatrio das posies dos valores do Grupo A (ou Grupo e o co B). Neste exemplo ter amos rA = 8 + 9 + 10 + 11 + 12 + 13 + 15 + 17 + 18 + 19 + 20 + 21 = 173 donde podemos retirar, TA = (12)(10) + e TB = (12)(10) 25 = 95 70 (12)(13) 173 = 25 2 nA (nA + 1) rA 2 (4.1)

Usualmente as tabelas para os valores cr ticos de U esto dispon a veis para amostras at e 20 elementos. Quando os valores de nA e nB so superiores e semelhantes em tamanho, ento a a a distribuio amostral de U pode ser aproximada ` Normal com a seguinte distribuio: ca a ca z= onde U E[U ] U (4.2)

nA nB (nA + nB + 1) nA nB 2 U = 2 12 Quando na atribuio de posies os valores so iguais, usualmente so tratados atribu ca co a a ndo a cada um deles a mdia das posies poss e co veis. Se as observaes correspondentes ` segunda co a e terceira posio fossem iguais, ento seria atribu a cada um delas a posio 2,5, que a ca a do ca e mdia entre 2 e 3. e E[U ] =

4.4.2

Teste de Wald-Wolfowitz

Outro teste que pode ser usado em vez do teste t para amostras independentes o teste e de Wald-Wolfowitz. Embora este resre no seja to poderoso quanto o teste U de Manna a Whitney, util nalgumas situaes em que este ultimo no seja apropriado. A hiptese nula e co a o no teste de Wal-Wolfowitz a mesma que no teste de Mann-Whitney, nomeadamente que e duas amostras foram retiradas de uma mesma populao. ca Para testar as diferenas entre as duas populaes, as observaes das duas amostras so c co co a colocadas, de forma crescente num mesmo grupo. Em seguida contam-se o nmero de grupos u poss veis de obter de observaes provenientes da mesma amostra. Uma indicao de que co ca as duas amostras provm de uma mesma populao pode ser dado pelo nmero total de e ca u subconjuntos que se podem observar. Um elevado nmero de subconjuntos dar a indicao u a ca que as duas amostras estaro bem misturadasentre si, sendo por isso razovel aceitar H0 , a a i.e., que as duas amostras provm de uma mesma populao. Se existir um nmero pequeno e ca u de subconjuntos, existe uma diferena sistemtica entre as duas amostras. O nmero de c a u subconjuntos depende naturalmente do tamanho das amostras e um valor cr tico pode ser encontrado tabelado, para que se possa rejeitar, ou no, a hiptese nula. a o Considerando o exemplo utilizado no teste de Mann-Whitney, ter amos: valor amostra 5 B 5 B 7 B 7 B 810 11 12 12 B B B A 23 A 12 A 13 13 13 14 A A A A

valor 15 17 18 22 amostra B A B A

24 28 30 101 A A A B

Tabela 4.3: Teste de Wald-Wolfowitz Da tabela 4.3 poss e vel contar 7 grupos. Considerando = 0, 05 quando nA = 12 e nB = 10, verica-se que o valor cr tico r 7 (Tabela XI). Uma vez que o nmer de grupos e u obtidos neste exemplo 7 (dentro do intervalo tabelado), podemos ento rejeitar a hiptese e a o nula que estas duas amostras provm de uma mesma populao. e ca

71

As tabelas apenas indicam valores cr ticos para amostras inferiores a 20 observaes, pelo co que em situaes de amostras de maiores dimenses pode ser usada a seguinte aproximao co o ca a ` normal: z= onde E[r] = r E[r] r (4.3)

Considere o seguinte exemplo: ms e 1 2 3 4 5 6 7 8 9 10 11 12 13 14 kwh sinal 7921 1 1143 2 28521 3 31836 3 21773 3 25741 3 34023 3 6098 4 17746 4 4120 4 1542 4 14631 5 36191 5 2411 6

2nA nB (2nA nB nA nB 2nA nB 2 + 1 e r = nA + nB (nA + nB )2 (nA + nB 1) ms e kwh sinal 15 20679 6 16 12567 6 17 24521 6 18 37055 6 19 7499 7 20 17975 8 21 32791 8 22 30253 8 23 18520 8 24 16649 8 25 15209 9 26 6673 10 27 5182 10 28 36296 10 Tabela 4.4: Res duos ms e kwh sinal 29 40071 10 30 36953 10 31 7393 10 32 4800 10 33 44135 10 34 29311 10 35 33416 10 36 33107 11 37 43080 11 38 32229 11 39 120456 11 40 36079 11

Na tabela 4.4 encontram-se registados os res duos de uma anlise de regresso linear feita a a ao consumo de electricidade na indstria em 40 meses. A coluna expressa com o sinal indica u os conjuntos formados por valores positivos e negativos. Da expresso 4.3 obtm-se z = 2, 995 a e a um n de signicncia expresso por p = 0, 001371. vel a

4.5
4.5.1

Testes equivalentes ao teste t para pares emparelhados


Teste do sinal

O teste do sinal indicado para determinar se existem diferenas signicativas entre duas e c amostras que esto de alguma forma relacionadas. Por exemplo os efeitos da aplicao de um a ca novo medicamente antes e depois de um tratamento. Uma forma prtica para realizar este a teste consiste em associar um sinal + representando o facto do valor da primeira amostra ser superior ao valor da segunda amostra e um sinal na situao oposta. A hiptese nula arma ca o que as duas amostras foram retiradas de uma mesma populao, com a mesma mediana, de ca tal forma que a probabilidade de um sinal + (p) ou sinal (q) para cada par de observaes co o ca p = q = 1 . Esta hiptese pode ser testada, pelo uso da distribuio binomial. e 2

72

Na tabela seguinte, 4.5, esto espressas as mdias das notas num determinado teste em a e dois per odos diferentes, em 1978 e 1988. Pretende-se estudar se houve alguma evoluo nas ca mdias obtidas no espao de uma dcada, com a introduo de um novo sistema de ensino. e c e ca Considera-se a atribuio de um sinal + quando a mdia em 1988 for superior a 1978 e um ca e sinal na situao inversa. ca 1978 1988 Sinal 932 933 + 906 923 + 943 916 907 909 + 893 908 + 870 893 + 889 890 + 902 889 866 888 + 787 838 + Tabela 4.5: Teste do sinal e co e A hiptese nula H0 : p = 1 , i.e., que a mdia das classicaes dos dois anos tm a o e 2 1 mesma mediana. A hiptese alternativa H1 : p > 2 , i.e., a mediana da mdia das notas em o e e 1988 superior. Da tabela observa-se que se registaram 8 sinais +. Usando a distribuio e ca 1 1 binomial em que n = 10, p = 2 e x = 8, verica-se que P (x 8|n = 10, p = 2 = 0, 0547. Se a tomada de deciso tiver um n de signicncia de = 0, 0547 ou menor, ento no a vel a a a podemos rejeitar H0 . Dos dados podemos ento concluir que no existe informao suciente a a ca para poder concluir que as mdias em 1988 so superiores a 1978. e a No exemplo anterior partiu-se do princ pio que p = 1 . Ora nem sempre essa situao ca 2 se verica, pelo que podemos usar um outro valor qualquer para p, usando a distribuio ca binomial. Considere que foi feito um inqurito a 10 indiv e duos em que estes ter am de classicar 2 produtos (A e B) com uma pontuaao de 0 a 100. Considere ainda que a probabilidade do c 3 produto A ter uma classicao superior a B de 3 ,i.e., P (A > B) = 4 . ca e 4 Da distribuio binomial, a P (x 5) = 0, 078, pelo que no poss ca a e vel, com base nesta 3 veis de signicncia inferior a 7,8%. a amostra, rejeitar a hiptese nula H0 : p = 4 a n o Neste teste apenas feita a diferena entre dois valores para determinar o sinal, nada e c e dito quanto ` magnitude dessa diferena (sinal). Quando tal diferena conhecida, outro a c c e teste mais poderoso pode ser utilizado, o teste de Wilcoxon.

4.5.2

Teste de Wilconxon

O teste de Wilcoxon admite a mesma hiptese nula que o teste do sinal, que a diferea entre o c as medianas de duas amostras so nulas. Contudo, o teste neste caso entra em considerao a ca com a magnitude do sinal. Estas magnitudes so primeiro ordenadas de acordo com os seus a valores absolutos. O sinal atribu de acordo com a regra j denida. Se A > B ento e do a a atribui-se o sinal + e em caso contrrio. Se a hiptese nula, ento os somatrios de sinais a o a o + e seriam semelhantes. Considere que T+ o somatrio de sinais + e T o somatrio de e o o 73

Consumidor Produto A Produto B Sinal 1 75 58 + 2 85 92 3 61 69 4 55 50 + 5 82 71 + 6 88 84 + 7 45 78 8 90 79 + 9 63 69 10 71 80 Tabela 4.6: Inqurito ao consumo e sinais . O teste de Wilcoxon baseado na estat e stita T , denida como o m nimo entre T+ e T , i.e., T = min{T+ , T }. Os valores cr ticos so enconrados na Tabela XII. a Considere a tabela seguinte onde constam os valores de duas amostras referentes a dois processos de classicao. ca amostra Mtodo A Mtodo B Diferena Ordem Ordem (+/-) e e c 1 129 115 14 10 +10 2 111 108 3 2, 5 +2, 5 3 118 123 5 4 4 4 120 104 16 11 +11 5 116 110 6 5 +5 6 101 98 3 2, 5 +2, 5 7 107 106 1 1 +1 8 127 119 8 7 +7 9 105 95 10 8 +8 10 123 130 7 6 6 11 113 101 12 9 +9 Tabela 4.7: Teste de Wilcoxon Da tabela verica-se que T+ = 56 e T = 10, pelo que T = min{56; 10} = 10. Da Tabela XII, sabemos que o valor cr tico, para = 0, 05 e n = 11 T 11 (teste bilateral), i.e., e o rejeita-se H0 para valores de T inferiores a 11, pelo que no nosso exemplo rejeita-se a hiptese nula. Quando os valores de n so grandes, podemos aproximar ` normal: a a z= onde E[T ] = n(n + 1) 4 T E[T ] T
2 T =

(4.4) n(n + 1)(2n + 1) 24

74

4.6

Testes de ajustamento

Os testes apresentados at aqui representam procedimentos no-paramtricos destinados a ver e a e o quo prximo esto duas distribuioes amostrais, testar a hiptese de virem de uma mesma a o a c o distribuio populacional. Em muitos problemas estat ca sticos o pesquisador est interessado a em saber se uma distribuio amostral se aproxima de uma distribuio terica. ca ca o A distribuio binomial um teste de ajustamento, no sentido em que compara a frequncia ca e e de uma amostra em duas categorias com a frequncia esperada de observaes. A distribuio e co ca binomial usada para determinar a qualidade do ajustamento. e Um outro teste bem mais potente, e por isso mais utilizado, o teste do qui-quadrado e 2 ). Este teste tem a vantagem de poder ser generalizado para diversos tipos de problemas, ( para alm daqueles que podem ser resolvidos pela distribuio binomial. No entanto quando e ca existem apenas duas categorias, o teste binomial continua a ser prefer vel.

4.6.1

Teste do qui-quadrado

A varivel qui-quadrado usado para testar o quo prximo um conjunto de frequncias a e a o e observadas se aproximam de frequncias esperadas. As frequncias esperadas podem ser e e pensadas como o nmero mdio de valores esperados para cada categoria, baseadas num u e distribuio de probabilidade terica. ca o Assuma que existem c categorias (c > 1) e as frequncias esperadas designadas por e E1 , E2 , . . . , Ec , ou de forma idntica Ei (i = 1, 2, . . . , c). As frequncias observadas desige e nadas por O1 , O2 , . . . , Oc ou Oi (i = 1, 2, . . . , c). Para testar a qualidade do ajustamento das frequncias observadas Oi `s frequncias esperadas Ei , usa-se a seguinte estat e a e stica, que se pode demonstrar ser aproximadamente uma varivel qui-quadrado com (c 1) graus de a liberdade. c (Oi Ei )2 (4.5) 2 = c1 Ei i=1 A expresso 4.5 mede a qualidade de ajustamento entre os valores de Oi e Ei da seguinte a forma: quando o ajustamento bom, ou seja, os valores Oi e Ei esto bastante prximos, e a o 2 ser baixo. Por oposio, um o numerador ser bastante pequeno, pelo que o valor de a a ca valor alto do numerador indica uma grande diferena entre valores observados e esperados, e c consequentemente originar um alto valor para 2 . Assim a regio cr a a tica da estat stica dada por 4.5 ser sempre a cauda superior da distribuio 2 , porque queremos rejeitar a hiptese a ca o nula sempre que a diferena entre Ei e Oi relativamente alta. c e Considere a seguinte tabela que expressa a venda mensal de automveis observada e o a venda mensal de automveis esperada, supondo que a venda de automveis se distribui o o uniformemente. Jan. Fev. Mar. Abr. Mai. Jun. Total Vendas esperadas (Ei ) 25 25 25 25 25 25 150 Vendas observadas (Oi ) 27 18 15 24 36 30 150 Tabela 4.8: Vendas mensais de automveis o O gestor de pessoal pretendendo gerir as frias dos vendedores, pretende saber se a venda e de automveis igualmente distribu pelos meses, i.e., H0 : E1 = E2 = . . . = E6 = 25. o e da 75

Usando a expresso 4.5 obtm-se: a e 2 = + (18 25)2 (15 25)2 (24 25)2 (27 25)2 + + + + 25 25 25 25 (36 25)2 (30 25)2 + = 12, 0 25 25

Da tabela da distribuio de qui-quadrado com = 0, 025 e 5 graus de liberdade obtmca e se o valor cr tico, que neste caso 2 e (5;=0,025) = 12, 8, pelo que ao n de signicncia de vel a = 0, 025 e com base na informaao dispon c vel, no se pode rejeitar a hiptese nula. No a o entanto se considerarmos um n vel de signicncia de = 0, 05, o valor cr a tico passa a ser 2 vel de signicncia j se rejeitaria a hiptese nula. Por a a o (5;=0,05) = 11, 1, pelo que a este n isso a deciso de escolha do n de signicncia e crucial. a vel a

4.6.2

Teste de Kolmogorov-Smirnov

Vimos que o teste 2 pode ser usado para medir a qualidade de ajustamento quando os dados so de natureza nominal. Quando os dados so pelo menos ordinais, ento podemos usar o a a a teste de Kolmogorov-Smirnov. Este teste tem a vantagem sobre o teste do chi2 onde mais e poderoso, mais fcil de determinar e no requer uma frequncia m e a a e nima esperada para cada clula. e O teste de Kolmogorov-Smirnov envolve a comparao entre as distribuies de frequncias ca co e acumuladas terica e amostral. Para fazer esta comparao, os dados so colocados em classes o ca a (categorias) ordenadas de forma crescente. Este teste est baseado no valor mximo da difea a rena absoluta entre as frequncias absolutas acumuladas dos valores esperados e observados. c e D = M axi | f i Si | (4.6)

Considere o exemplo na tabela 4.9 onde constam as frequencias relativas observadas e a e distribuio terica (Poisson) considerada. ca o Da expresso 4.6 verica-se que o valor do teste ser D = 0, 0365. Da tabela XIII retira-se o a a 1, 63 1, 63 = 0, 163. valor cr tico, que neste caso, e considerando que n = 100 e = 0, 01, = e n 100 Conclui-se que, de acordo com a informao dispon com = 0, 01, no podemos rejeitar ca vel a a hiptese nula. As diferenas no so signicativas para armar que sejam de populaes o c a a co diferentes.

4.7

Teste de qui-quadro para independncia e

O teste qui-quadrado abordado anteriormente, testa um conjunto de valores observados classicados em c categorias, de acordo com um unico atributo, onde se testa o ajustamento contra um conjunto de valores esperados. No teste que vamos agora abordar, assume-se que mais que um atributo investigado e pretende-se determinar se esses atributos so independentes. e a No exemplo anterior que se pretendia determinar se as vendas mensais de automveis segue o uma distribuio uniforme. No presente caso podemos eventualmente investigar se as vendas ca de automveis, nas suas diversas categorias, so independentes do ms. o a e Suponha que dos 150 automveis vendidos durante os seis meses, 50 so ligeiros e 100 o a so comerciais. Dado que o ms de Junho representa 20% das vendas, se a hiptese nula a e o 76

Chegadas 0 1 2 3 4 5 6 7 8 9 10 11 12 13

fiobs 0, 010 0, 080 0, 190 0, 230 0, 170 0, 150 0, 080 0, 030 0, 030 0, 020 0, 010 0, 000 0, 000 0, 000

fiobs (Si ) 0, 0100 0, 0900 0, 2800 0, 5100 0, 6800 0, 8300 0, 9100 0, 9400 0, 9700 0, 9900 1, 0000 1, 0000 1, 0000 1, 0000

fiP o 0, 0224 0, 0850 0, 1615 0, 2046 0, 1944 0, 1477 0, 0936 0, 0508 0, 0241 0, 0102 0, 0039 0, 0013 0, 0004 0, 0001

fiP o |Fi Si | (Fi ) 0, 0224 0, 0124 0, 1074 0, 0174 0, 2689 0, 0111 0, 4735 0, 0365 0, 6679 0, 0121 0, 8156 0, 0144 0, 9092 0, 0008 0, 9600 0, 0200 0, 9841 0, 0141 0, 9943 0, 0043 0, 9982 0, 0018 0, 9995 0, 0005 0, 9999 0, 0001 1, 0000 0, 0000

Tabela 4.9: Chegadas for verdadeira, o vendedor esperaria20% das vendas de ligeiros durante o ms de Junho, e i.e., 10 automveis ligeiros. De forma similar se poderia inferir que se esperariaum volume o de vendas de automveis comerciais em Junho de 20 automveis comerciais. Dos valores o o calculados verica-se que o somatrio de vendas esperadas no ms de Junho (10 + 20) = 30, o e correspondem exactamente a 20% do volume total de vendas (0, 20 150 = 30). Considere a seguinte tabela onde se encontram indicados os valores esperados e observados: Janeiro Fevereiro Maro Abril Maio Junho Total c 9 6 5 8 12 10 50 3 3 4 12 16 12 18 12 10 16 24 20 100 24 15 11 12 20 18 27 18 15 24 36 30 150 Tabela 4.10: Teste de independncia e Os valores esperados so determinados da seguinte forma, para um valor na linha r e a coluna c: (total linha r) (total da coluna c) Er,c = total No exemplo e para o valor da linha 2 e coluna 3 ter amos 100 15 = 10 150 O teste a realizar, considerando a existncia de c colunas e r linhas, ser: e a E2,3 = 2 (r1)(c1) = (Oij Eij )2 Eij i=1 j=1
r c

Ligeiros

Eij Oij Comerciais Eij Oij Total

(4.7)

77

Nest caso particular ter amos: 2 = (Oij Eij )2 Eij i=1 j=1 2 (3 6)2 (18 20)2 (3 9) + + ... + = 9 6 20 = 14, 15
2 6

De acordo com a tabela para os valores de 2 com 5 graus de liberdade, verica-se que e vel P (2 > 14, 15) um valor que ca entre 0, 025 e 0, 01. Assim para qualquer n de signi5 cncia maior de 0, 025, a hiptese nula que os atributos modelo de automvel e meses so a o o a independentes rejeitada e conclui-se que a proporo de vendas de automveis comerciais e e ca o ligeiros no varia de ms para ms. a e e Exemplo: Considere o seguinte quadro, onde esto expressos o preo de aces das a c co indstrias observados, classicadas em quatro categorias (I - ramo automvel; II - banca; u o III - electricidade e electrnica; IV - indstria). O preo das aces so ainda classicadas o u c co a em trs categorias (alta; mdia; baixa). e e I II Alta 15 8 Mdia 20 16 e Baixa 5 6 Total 40 30 Indstrias u III IV Total 10 12 45 12 12 60 3 11 25 25 35 130

Numa tabela colocam-se os diversos valores esperados: na primeira linha esto represena tados os valores esperados, por exemplo o valor esperado para a Indstria classicada como u I e preos altos: c 40 45 = 13, 85 E11 = 130 o segundo valor so as frequncias esperadas, expressa como percentagem da frequncia total, a e e no caso da Indstria I com aces classicadas como altas: u co 13, 85 100 = 10, 65 130 o terceiro valor so as frequncias esperadas com percentagem do total da linha, que no caso a e da Indstria I com aces classicadas com altas: u co 13, 85 100 = 30, 77 45 e o quarto valor a frequncia esperada como percentagem do total da coluna, no caso da e e Indstria I e aces classicadas com altas: u co 13, 85 100 = 34, 62 40 Os restantews valores so determinados por analogia, donde resulta a seguinte tabela: a Utilizando a expresso 4.7 obtm-se um valor de 2 = 6, 743, cuja probabilidade de rejeitar a e 6 2 > 6, 743) = 0, 3452, pelo que no podemos rejeitar a hiptese nula a o H0 expressa por P (6 e que as indstrias e o preo sejam independentes. Na maioria das aplicaes informricas, este u c co a valor aparece indicado como p-value. 78

I 13, 85 10, 65 30, 77 34, 62 Mdia 18, 46 e 14, 20 30, 77 46, 15 Baixa 7, 69 5, 92 30, 77 19, 23 Total 40, 00 Alta

Indstrias u II III 10, 38 8, 65 7, 99 6, 66 23, 08 19, 23 34, 62 34, 62 13, 85 11, 54 10, 65 8, 88 23, 08 19, 23 46, 15 46, 15 5, 77 4, 81 4, 44 3, 70 23, 08 19, 23 19, 23 19, 23 30, 00 25, 00

IV Total 12, 12 45, 00 9, 32 26, 92 34, 62 16, 15 60, 00 12, 42 26, 92 46, 15 6, 73 25, 00 5, 18 26, 92 19, 23 35, 00 130, 00

Tabela 4.11: Frequencias esperadas

4.8

Medidas no paramtricas de correlao a e ca

O coeciente de correlao de Pearson, j discutido anteriormente, assume que as variveis ca a a possam ser medidas numa escala. Mas situaes h em que tal no poss ou inaproprivel. co a a e vel a Se apenas dados nominais esto dispon a veis, ento o valor de 2 pode ser usado para dar a uma medida do grau de associao entre duas variveis. Quando no h associao entre ca a a a ca duas variveis, ento a frequncia esperada em cada clula da tabela qui-quadrado deveriam a a e e corresponder, de perto, `s frequncias esperadas nessa clula, porque as frequncias esperadas a e e e so calculadas sob o pressuposto (hiptese nula) que as duas variveis no so relacionadas. a o a a a Quanto maior o grau de associao entre as variveos, maior ser a discrepncia entre as ca a a a frequncias observadas e esperadas, e assim o valor do 2 . E conveniente, na denio de e ca uma medida no paramtrica de correlao, ter uma estat a e ca stica que se iguale a zero, quando no h relao entre as variveis e uma que se aproxima de um com o aumento da associao. a a ca a ca Uma dessas medidas o Coeciente de Contingncia e representa-se por C e denido da e e e seguinte forma: 2 C= (n + 2 ) Na seco 4.6.1, calculou-se o valor de 2 para o exemplo de vendas de automveis, tendoca o se obtido 2 = 12, 0. Substituindo na expresso anterior obtm-se, a e C= 12 = 0, 27 (150 + 12)

Determinar se um coeciente de contingncia difere signicativamente de zero equivalente e e 2 para testar a diferena entre frequncias observadas e esperadas. ao teste do c e Quando apenas se dispe de dados ordinais, o coeciente de contingncia no adquado, o e a e quando necessrio algum mtodo de correlao de ordem. H dois mtodos importantes e a e ca a e nestas circunstncias: o Coeciente de Correlao de Spearman e o Coeciente de Correlao a ca ca de Kendall. 79

4.8.1

Coeciente de Correlao de Spearmen ca

Este o coeciente mais usado para medir a correlao entre variveis do tipo ordinal. e ca a Representa-se por ou rs . A sua interpretao em tudo muito semelhante dada ao coca e eceinte de correlao de Pearson, mas nesnte caso com variveis do tipo ordinal. A forma ca a de clculo expressa pela seguinte equao: a e ca
n

6 rs = 1
n

d2 i n (4.8)

i=1 n3

onde
i=1

d2 o quadrado da diferena do i-simo par de observaes. c e co i e

Considere-se o exemplo da tabela 4.5.2 para exemplicar o coeciente de correlao de ca Spearman, onde se apresentam igualmente a ordem para cada para de valores, amostra Mtodo A Ordem Mtodo B Ordem di d2 e e i 1 129 11 115 8 3 9 2 111 4 108 6 2 4 3 118 7 123 10 3 9 4 120 8 104 4 4 16 5 116 6 110 7 1 1 6 101 1 98 2 1 1 7 107 3 106 5 2 4 8 127 10 119 9 1 1 9 105 2 95 1 1 1 10 123 9 130 11 2 4 11 113 5 101 3 2 4 Total 54 Tabela 4.12: Coeciente de correlao de Spearman ca Substituindo na expresso ?? obtm-se a e 6(54) = 0, 755 113 11 Para testar se um determinado valor de rs difere signicativamente de zero, necessrio e a determinar a probabilidade que um dado valor de rs ocorra sob a hiptese nula. Esta probao bilidade depende do nmero de permutaes das duas variveis que do especial valor a rs . u co a a H tabelas para valores pequenos de n. Neste exemplo, para n = 11 o valor rs = 0, 755 a e signicativo para um n de conana de 0,01. Para valores maiores, n 10, s dignicncia vel c a de um valor obtido de rs sob a hiptese nula de ausncia de correlao pode ser determinada o e ca usando a seguinte varivel t, a n2 (4.9) t = rs 2 1 rs rs = 1 Esta estat stica segue uma distribuio tn2 . Neste exemplo obtm-se: ca e t = 0, 755 11 2 = 3, 454 1 (0, 755)2 80

A partir da tabela podemos vericar que o valor t = 3, 454 indica que rs = 0, 755 e signicativamente diferente de zero a um n de conana de 0, 005, no caso de ser um teste vel c unilateral, i.e., considerando a hiptese alternativa H1 : > 0. Se fosse utilizado um teste o bilateral, i.e., H1 : = 0, ento o n a vel de signicncia seria 2 0, 005 = 0, 01 em vez de a 0, 005.

4.8.2

Coeciente de Correlao de Kendall ca

Um mtodo alternativo para determinar o n e vel de correlao calcular o Coeciente de ca e Correlao de Kendall. Esta estat ca stica, desenvolvida por M.G. Kendal, designa-se pela letra grega (tau), e chama-se tau de Kendall. Apesar de poder ser utilizado nas mesmas circunstncias que o coeciente de correlao de Spearman, utilizam tcnicas diferentes e como a ca e tal, os valores no so necessariamente os mesmos. Apesar do coeciente de correlao de a a ca Spearman ser usado largamente, o coeciente de correlao de Kendal tem a vantagem de ca poder ser generalizado para um coeciente de correlao parcial. ca O coeciente de correlao determinado, calculando primeiro um ca e ndice que indica como a ordem de um conjunto de observaes retiradas duas a duas, diferem da ordem de outro co conjunto de observaes. A maneira mais fcil para determinar o valor do co a ndice arranjar e dois conjuntos de ordem de forma que um deles, por exemplo o primeiro, est de ordem a crescente. O outro conjunto, representando a outra amostra, no ter ordem ascendente, a a a no ser que as duas ordens das duas amostras encaixem perfeitamente. Considere agora a todas as combinaes das n ordens desta segunda amostra, tiradas duas a duas; atribua o co valor +1 para todos os pares nos quais as duas ordens esto na mesma ordem (crescente) que a na primeira amostra, e o valor 1 a cada par nos quais as duas ordens no esto na mesma a a ordem (ascendente) como esto na primeira amostra. A soma destes valores +1 e 1 uma a e indicao do quo relacionadas esto as ordens da segunda amostra em relao ` primeira ca a a ca a amostra. Dado que existem n! x!(n x)! combinaes para n elementos tirados dois a dois, esta soma (ou co ndice) pode assumir um valor entre n! n! e x!(n x)! x!(n x)!

O de Kendall denido como o rcio entre o valor calculado para este e a ndice e o mximo a valor que possa assumir: ` ndice calculado (4.10) = mximo valor a Quando existe uma correlao positiva perfeita, ento = +1; existir uma perfeita e ca a a negativa correlao, quando = 1. ca Considere-se o seguinte tabela, onde esto expressas os valores gastos em Investigao e a ca Desenvolvimento (I&D) e a percentagem das vendas: Caso entendessemos calcular o valor de rs , ter amos rs = 0, 143. No caso do de Kendall, em primeiro lugar h que colocar um dos grupos por ordem crescente (o primeiro): a Tomaremos agora os pares. O primeiro par a Kodak e a Boeing, cujas ordens so e a respectivamente 3 e 6, que se encontram por ordem crescente pelo que se atribui o valor +1 e assim sucessivamente:

81

Empresa I&D: Gastos Ordem I&D: % vendas Ordem di d2 i Shell Oil 254, 0 8 1, 2 8 0 0 Boeing 409, 0 2 3, 0 6 4 16 NCR 299, 1 6 6, 9 4 2 4 Procter & Gamble 400, 0 3 3, 1 5 2 4 Eli Lilly 369, 8 4 11, 3 2 2 4 GTE 313, 0 5 2, 0 7 2 4 Upjohn 284, 1 7 14, 1 1 6 36 Kodak 976, 0 1 9, 2 3 2 4 Total 72 Tabela 4.13: Gastos em I&D Empresa I&D: Gastos Ordem I&D: % vendas Ordem Kodak 976, 0 1 9, 2 3 Boeing 409, 0 2 3, 0 6 Procter & Gamble 400, 0 3 3, 1 5 Eli Lilly 369, 8 4 11, 3 2 GTE 313, 0 5 2, 0 7 NCR 299, 1 6 6, 9 4 Upjohn 284, 1 7 14, 1 1 Shell Oil 254, 0 8 1, 2 8 Tabela 4.14: Gastos em I&D 8! = 28 2! 6! e o valor determinado ser +15 13 = 2, pelo que o valor de ser: a a = 2 = 0, 071 28 O ndice mximo ser: a a

Quando o valor de n 10, ento a estat a stica pode ser normalmente distribu com da mdia zero ( = 0) e desvio-padro dado pela expresso: e a a s = 2(2n + 5) 9n(n 1) s

A distribuio de pode ser transformada na seguinte varivel: ca a z= No exemplo, ter amos: s = O valor estandardizado : e 2(2 11 + 5) = 0, 234 9 11(11 1) z= 0, 527 = 2, 252 0, 234 82

Par Sinal Par Sinal Par Sinal Par Sinal Par Sinal 3 vs 6 +1 6 vs 5 1 5 vs 2 1 2 vs 7 +1 4 vs 1 1 3 vs 5 +1 6 vs 2 1 5 vs 7 +1 2 vs 4 +1 4 vs 8 +1 3 vs 2 1 6 vs 7 +1 5 vs 4 1 2 vs 1 1 1 vs 8 +1 3 vs 7 +1 6 vs 4 1 5 vs 1 1 2 vs 8 +1 3 vs 4 +1 6 vs 1 1 5 vs 8 +1 7 vs 4 1 3 vs 1 1 6 vs 8 +1 7 vs 1 1 3 vs 8 +1 7 vs 8 +1

Uma vez que P (z 2, 252) = 0, 0122, podemos rejeitar H0 quando 0, 0122 para um teste uni-lateral, e quando = 2(0, 0122) = 0, 0244 para um teste bi-lateral.

83

Cap tulo 5

Sondagens
5.1
5.1.1

Conceitos
Introduo ca

A necessidade de conhecer uma populao no que respeita a uma ou vrias caracter ca a sticas, impulsiona um processo de recolha e anlise de informao. A diculdade, e mesmo nalguns a ca casos, a impossibilidade de estudar a totalidade da populo ditou a importncia do estudo ca a por recurso a amostras. A sondagem hoje, em vrios dom e a nio, a resposta ao conhecimento de uma populao tomando por base uma sua fraco - a amostra. ca ca Os diversos momentos de realizao de uma sondagem encerram uma diversidade de proca blemas cuja resoluo condiciona em muito a qualidade dos resultados nais. E imposs ca vel assegurar a qualidade de uma sondagem, se no houver um conhecimento dos problemas e do a impacte que eles podem ter nos resultados do estudo.

5.1.2

Conceito de sondagem

Abordando o termo na perspectiva etimolgica, sondagem tem origem na palavra francesa o sondage, que surgiu provavelmente no sc. XIV para expressar o acto de, com recurso a uma e sonda, investigar a profundidade da gua e a natureza do fundo de um rio ou mar. No sc. a e XIX, Balzac utiliza-o para expressar a ideia de uma pesquisa ou investigao rpida. ca a Este termo encontra-se hoje associado no s ` pesquisa mar a oa tima, mas tamb estende-se e tambm a outras reas, como sejam a geologia, a medicina ou a estat e a stica. A l ngua portuguesa no apresenta distino vocabular para os diversos dom a ca nios, mas por exemplo a l ngua inglesa diferencia todas estas formas de sondagem. Sounding, boring, probing, designam respectivamehte a sondagem mar tima, a geolgica e a mdica. No dom o e nio estat stico diferencia a sondagem de opinio - poll - dos outros tipos de sondagens que se designam de a survey sampling. Em Frana, e por deciso da Comisso Francesa de Normalizao do Vocabulrio Esc a a ca a tat stico, o termo sondage aplica-se a estudos que envolvem operaes de amostragem, indeco pendentemente do seu dom nio. Como metodologia de pesquisa, a sondagem possibilita o conhecmento momentneo de a um universo de elementos, numa perspectiva descritiva e quanticada. A recolha e anlise a dos dados feita com base numa amostra de elementos que dever permitir a extrapolao e a ca das interpretaes ` totalidade do universo. co a 84

As reas de aplicao das sondagens estat a ca sticas so actualmente diversas sendo especia almente notados os estudos de populaes humanas, nemadamente sob a forma de estudos co pr-eleitorais ou de opinio pblica. Ainda no que respeita a este tipo de populaes, as e a u co sondagens surgem em outros dom nio como: - sociolgico - p. ex. estudo sobre a literacia de uma populao o ca - demogrco - p. ex. caracterizao da estrutura dos agregados familiares a ca - marketing - p. ex. estudos sobre o comportamente dos consumidores de certo produto - econmico - p. ex. construo de indicadores de conforto de uma populao. o ca ca Em Portugal, realizam-se estudos por sondagem em todos estes dom nios, mas so os a inquritos de opinio pblica, que mais contribuem para popularizar o termo sondagem, que e a u tiveram o seu in cio em 1973. Para a generalizada utilizao e crescente popularidade das ca sondagens muito contribu ram em Portugal a imprensa e o marketing pol tico associado `s a vrias campanhas eleitorais. Tornou-se um lugar comum para o cidado portugus comentar a a e as diferentes previses, muitas vezes contraditrias, dos resultados eleitorais, publicadas antes o o do acto eleitoral pelos diferentes meios de comunicao social ou encomendadas pelos partidos ca ou candidatos concorrentes.

5.1.3

Sondagem versus Recenseamento

A necssidade de estudar uma populao tambm pode ser preenchida com o recurso a outro ca e mtodo de conhecimento: o recenseamento. Sondagem e recenseamento so por vezes consie a deradas como formas alternativas de estudar uma populao. Contudo, se se tiver em linha de ca conta as condicionantes da execuo prtica de um recenseamento, verica-se que na maioria ca a dos casos a opo pela sondagem no uma escolha mas uma imposio. ca a e ca O recenseamento , ` semelhana da sondagem, uma espcie de fotograa que capta e a c e a realidade da populao em determinado instante do tempo e do espao. E uma fotograca c a de todos os elementos da populao. So exemplos correntes de estudos deste tipo ca a o Recenseamento Eleitoral, o Recenseamento Militar ou o Recenseamento da Populao e ca Habitao (vulgo Censos). Qualquer um deles permite conhecer o essencial sobre o estado ca geral da populao atravs da recolha de informao que sobretudo factual, e para a qual ca e ca e se exige um n elevado de rigor. vel Mas, dependendo do objectivo do estudo, nem sempre suciente conhecer uma populao e ca apenas ao n vel dos factos. Pode importar conhecer opinies, expectativas, previses, em o o suma entrar no dom nio psicolgico dos indiv o duos. Numa situao destas no se justica a ca a realizao de um estudo exaustivo da populao, pois a n de opinies as pessoas no so ca ca vel o a a muito diferentes umas das outras bastando portanto obter a opinio de algumas delas para, a com uma preciso bastante aceitvel, conhecer o sentimento geral de toda a populao. a a ca Este factor constitui por si s uma razo sucientemente boa para justicar a opo o a ca pela sondagem, mas se levar ainda em linha de conta os excessivos tempo e custo, e toda a complexidade de operacionalizao de um recenseamento pelos meios, equipamentos e recursos ca envolvidos, percebe-se bem porque razo este tipo de estudos s em situaes de excepo a o co ca e feito. Utilizar a sondagem tem as seguintres vantagens relativamente ao recenseamento: - Custo - a sondagem mais econmica que o recenseamento, pois os recursos, os meios e e o toda a estrutura que necessrio afectar ao estudo so menores e a a

85

- Tempo - todo o processo de estudo mais rpido na sondagem. E mais rpido recolher, e a a tratar e analisar respostas de 100 indiv duos do que de 1 000 000. - Informao obtida - quando se pretendem conhecer caracter ca sticas da populao que no ca a se resumem a factos, a sondagem uma melhor opo, pois por incidir num conjunto menor e ca de elementos permite um questionrio mais detalhado do que num recenseamento. a - Credibilidade dos dados - as concluses produzidas a partir de uma amostra tm valio e dade. De facto no se medem todos os elementos da populao, e isso constitui uma fonte a ca de erros para a sondagem. Mas mesmo quando se inquirem todos os indiv duos da populao ca a possibilidade de erro existe, devido a respostas incompletas ou falsas por parte dos respondentes, ao trabalho deciente dos entrevistadores, ao incorrecto tratamento dos dados, etc.

5.2

Processo de realizao de uma sondagem ca

Conceber e levar ` prtica um estudo por sondagem um processo complexo envolvendo a a e diversas etapas, cada uma composta de vrias tarefas, interdependentes, sendo importante a encontrarem-se claramente denidos conceitos, mtodos e procedimentos para a conduo do e ca trabalho prtico. a

5.2.1

Enquadramento

Ao decidir levar a cabo uma sondagem, numa fase inicial devem ser contemplados os seguintes aspectos: - Delinear o problema e especicar objectivos, da forma mais precisa e concisa poss pois isso facilitar todo o trabalho posterior at ` anlise dos dados. vel a ea a - Recolher informao auxiliar que pode permitir uma melhor denio de objectivos, ca ca conceitos e percepo da realidade a estudar. ca - Denir a populao alvo, atravs de variveis demogrcas, geogrcas, econmicas ca e a a a o ou outras mais espec cas. O importante que que claro quem faz parte do estudo e quem e ca exclu do. - Explicitar condicionalismos de preciso e conana requeridos para os resultados. a c uma forma de controlar o erro de amostragem da sondagem. E - Explicitar limitaoes oramentais e de tempo pois a urgncia em obter resultados c c e ou a imposio de um plafond de custos fazem estruturar a sondagem de modo diferente. ca - Elaborar o cronograma do estudo, ajudando a organizar no tempo os diversos momentos da sondagem.

5.2.2

O Inqurito e

O questionrio constitui o instrumento por excelncia de recolha de informao numa sondaa e ca gem. Na sua concepo merece ateno: ca ca - Denio do conte do e da forma do questionrio, assegurando que atravs ca u a e das perguntas que nele constam se obtenha a informao necessria para dar resposta aos ca a objectivos do estudo. E fundamental a linguagem e o formato das questes, a sequncia de o e apresentao dos temas, a sequncia das questes e mesmo o layout de todo o questionrio. ca e o a

86

- Pr-teste, aplicando o questionrio, na sua verso preliminar, a uma amostra de ine a a div duos com o objectivo de identicar perguntas-problema que justiquem uma modicao ca de redao, de formato ou mesmo eliminao na verso nal. ca ca a - Elaborao da verso denitiva a partir de eventuais correces e melhoramentos ca a co sugeridos pelo pr-teste. e

5.2.3

Plano amostral

Uma vez claricado o que se pretende alcanar com o estudo, este prossegue com as decises c o a tomar referentes ao plano e enquadramento amostral: - Preparao da base de sondagem atravs da concepo (ou obteno) de listagens ca e ca ca dos elementos da populao alvo. Deve ser especicado que unidades sero adoptadas no ca a processo de seleco da amostra. ca - Tcnica de amostragem a adoptar, podendo a deciso recair numa tcnica aleatria, e a e o numa no aleatria, ou num processo misto de amostragem. A escolha depende de uma a o multiplicidade de factores como sejam o tempo imposto para a realizao do estudo, restries ca co oramentais, pessoal dispon c vel, acessibilidade dos elementos da populao, etc. ca - Decidir a dimenso da amostra, podendo esta ser objectivamente determinada se a a tcnica de amostragem escolhida for aleatria. Os condicionalismos oramentais ou de tempo e o c tambm so factores determinantes na dimenso da amostra. e a a - Estabelecer o enquadramento amostral atravs da denio de quem vai ser inquie ca rido, como vai ser inquirido, onde e quando deve ser aplicado o questionrio. a

5.2.4

Trabalho de campo

Esta etapa agrega em si tarefas que respeitam a vrios dom a nio da sondagem, e que mais no so do que operacionalizar e levar ` prtica denies e planos feitos anteriormente. a a a a co Destacam-se: - Formao dos entrevistadores atravs de mini-cursos sobre o estudo espec ca e co, com particular incidncia no questionrio, que presentemente decorre e para o qual esto e a a recrutados, mas igualmente sobre a actividade de entrevista em geral. - Superviso dos entrevistadores, acompanhando e controlando o mais poss o traa vel balho de entrevista, para atempadamente e se poss introduzir correces ou ajustamentos vel co ou detectar fraudes. - Seleco dos inquiridos, que no raras vezes da responsabilidade do entrevistador ca e a e normalmente exigente em termos de regras a cumprir e procedimentos a adoptar. - Aplicao do questionrio, quer atravs de entrevista pessoal ou telefonicamente, ca a e quer atravs do envio do questionrio por correio. e a - Avaliao da consistncia e qualidade dos dados, assegurando que o trabalho de ca e recolha da informao est a ser feito de forma a cumprir os objectivos estabelecidos. ca a

5.2.5

Preparao dos dados ca

Esta fase antecede o trabalho de anlise dos dados, tendo por objectivo assegurar que os a dados esto correctos, completos e formatados de modo a facilitar o trabalho de anlise. a a Destacam-se neste dom nio: - Edio - depois de realizados os questionrios importa fazer uma inspeco aos mesmos ca a ca para determinar se as respostas so leg a veis, consistentes, completas, ou se diversas perguntas 87

apresentam um padro de respostas sistemtico indicando um comportamento pouco correcto a a do entrevistador ou do entrevistado. - Codicao - envolve a transformao dos dados num formato que visa facilitar o ca ca seu tratamento informtico. Criando categorias de resposta, identicadas com um s a mbolo, numrico ou alfanumrico, poss distribuir as respostas obtidas pelas categorias formadas. e e e vel Esta pode ser feita antes ou aps o questionrio. o a - Denio do tratamento para dados em falta - a falta de dados pode ocorrer porque ca o respondente no forneceu a informao ou porque aps o processo de edio se considerou a ca o ca invlida a resposta. Esta situao coloca diversos problemas ` anlise estat a ca a a stica. Existem diversas formas de ultrapassar esta situao, passando pela eliminao dessas situaes ou ` ca ca co a imputao pelos mais diversos mtodos. ca e - Concepo e construo da base de dados em suporte informtico, denindo ca ca a variveis e introduzindo para cada sujeito inquirido as respostas obtidas. a

5.2.6

Anlise dos dados a

A anlise dos dados pode ser feita com recurso ` estat a a stica descritiva e numa fase posterior com tcnicas de anlise mais completas como a regresso mltipla, a anlise de cluse a a u a ters, a anlise discriminante, ou outras. Nesta etapa estimam-se caracter a sticas ou testam-se hipteses, com a nalidade de conhecer a prevalncia de opinies ou comportamentos, suas o e o diferenas por grupos de indiv c duos ou estebelecer relaes entre variveis. co a

5.2.7

Redao do relatrio nal ca o

O relatrio nal deve apresentar os resultados da sondagem de forma clara e honesta. Um bom o relatrio revela no s as concluses do estudo mas tambm aspectos de ordem metodolgica o a o o e o e tcnica envolvidos na sondagem para permitir uma viso cr e a tica sobre os resultados. O relatrio compe-se geralmente do texto principal e de apndices. O corpo principal do o o e relatrio deve conter: o - Introduo ca - Metodologia - Resultados - Discusso dos resultados a - Resumo e concluses o

5.3
5.3.1

Qualidade nas sondagens


Conceito de qualidade

O termo qualidade usado em variadas situaes, mas o seu signicado nem sempre de e co e denio clara e objectiva. Qualidade geralmente empregue para signicar excelncia de ca e e um produto ou servio. c Segundo Schroeder, a qualidade de um produto pode ser olhada por duas pticas: a do o produtor e a do cliente. Do ponto de vista do produtor a qualidade associa-se ` concepo e a ca produo de um produto que v de encontro `s necessidades do cliente. Do ponto de vista do ca a a cliente, a qualidade est associada ao valor e ` utilidade reconhecidas ao produto, e nalguns a a casos tem mesmo a ver com o preo. c

88

Adoptando-se esta mesma lgica para a produo de resultados por sondagens, para o o ca cliente - aquele que solicita a realizao da sondagem - a qualidade traduz-se na credibilidade, ca preciso e validade da informao que lhe fornecida. Para o produtor - a entidade que a a ca e leva a cabo - a qualidade associa-se ` conduo do processo de concepo e realizao da a ca ca ca sondagem por forma a obter resultados cred veis, precisos e vlidos. a

5.3.2

O erro nas sondagens

Os resultados de uma sondagem esto sempre imbu a dos de erro. A qualidade de uma sondagem funo do seu erro total que por sua vez causado por variad e ca e ssimos factores em diversas fases da realizao do estudo. ca A classicao dos erros no rene pleno concenso, mas a forma mais utilizada divide o ca a u Erro Total em duas categorias: Erros Motivados pela Amostragem e Erros No Motivados a pela Amostragem. Os Erros Motivados pela Amostragem dividem-se na Variabilidade Amostral e Enviesamento Amostral. A Variabilidade Amostral derivada pelos Estimadores e pela Tcnica de e e Amostragem. Por seu lado o Enviesamento Amostral pode ser cometido pela Cobertura, No-Respostas, Tcnica de Amostragem e pelos Estimadores. a e Os Erros No Motivados pela Amostragem so motivados pelos Erros na Recolha dos a a Dados, Erros na Preparao, Tratamento e Anlise de Dados e Outros Erros. Os Erros na ca a Recolha dos Dados, so devidos ao Entrevistador, ao Entrevistado e ao Questionrio. Os a a Erros na Preparao, Tratamento e Anlise de Dados, so devidos ` Edio e Codicao, ca a a a ca ca Introduo dos Dados e na Anlise. ca a A Variabilidade Amostral ou Erro Amostral, decorre da prpria noo de amostra. Quando o ca se recolhe uma amostra alguma coisa se perde, por isso, ainda que cuidadosamente recolhida, uma amostra pode no ser representativa da populao de onde foi retirada. Da mesma a ca forma no se pode esperar que duas amostras, independentemente retiradas da mesma poa pulao, forneam resultados iguais. Porque existe esta variabilidade nas estimativas e porque ca c a amostra no uma perfeita representao da populaao, os resultados que ela fornece so a e ca c a de alguma forma errados. O erro amostral traduz-se assim pela diferena entre a estimativa c da amostra e parmetros da populao. Esta diferena pode no entanto ser controlvel com a ca c a opes a n de: co vel Tcnica de Amostragem, optando por aquela que no caso concreto se revela mais eciente e Estimadores, optando por aquele que seja mais eciente O enviesamento amostral existe quando o ponto central da distribuio amostral do esca timador no igual ao verdadeiro valor do parmetro. O enviesamento amostral pode ter a e a diversas causas, nomeadamente: Tcnica de Amostragem, em especial se no for aleatria, onde sucede com maior frequncia e a o e favorecer ou desfavorecer a seleco de alguns elementos da populao sobre outros. ca ca Base de Sondagem Inadequada para o estudo no cobrir de forma completa a populao a ca alvo. Importa notar que o erro de cobertura, ao contrrio do erro amostral no pode ser a a tratado atravs de frmulas de desvio-padro e no certo que diminua com o aumento da e o a a e dimenso da amostra. a No-Respostas, motivadas quer pela recusa ou pela impossibilidade de estabelecer contacto a com o inquirido. Uma proporo substancial de no respondentes afecta a dimenso da ca a a amostra podendo comprometer a sua representatividade e portanto a preciso dos resultados. a

89

Estimadores, que dependendo das propriedades estat sticas que possua pode ser um bom ou um mau estimador. Apesar de directamente relacionados com a amostra, o erro amostral e o enviesamento amostral so diferentes. O erro amostral um erro aleatrio pois as estimativas comportama e o se aleatoriamente em torno do verdadeiro valor do parmetro. O enviesamento amostral a e o erro sistemtico que desvia o ponto central da distribuio do estimador; representa uma a ca tendncia para deslocar esse ponto para a direita ou esquerda do valor do parmetro. e a Os erros nas recolha dos dados no tm relao com o processo de amostragem e so motia e ca a vados essencialmente por comportamentos incorrectos do entrevistador ou do entrevistado ou pela deciente concepo ou aplicao do questionrio. ca ca a

5.4

O Plano de Amostragem

Uma das especicidades de um estudo por sondagem o facto de incidir sobre uma amostra. e Mas as concluses que esta permite obter so apenas um meio de chegar ` populao. A o a a ca amostra no relevante enquanto amostra, mas sim como a base a partir da qual se podem a e fazer extrapolaes ao todo - a populao. co ca A seleco dos elementos da amostra depende da forma bastante directa da tcnica de ca e amostragem escolhida, resultado da ponderao de vrios factores, sempre norteada pela ca a preocupao de obteno de uma amostra representativa. ca ca

5.4.1

Etapas do Plano Amostral

Conceber o plano amostral de uma sondagem tomar um conjunto de decises conducentes e o a ` seleco da amostra. ca A seleco propriamente dita dos elementos no pode ou no deve ser feita sem que antes ca a a se denam muito bem alguns conceitos e se analisem recursos e meios dispon veis. E todo um processo no qual se podem identicar as seguintes etapas: Denio da Populao Alvo - necessrio em primeira mo denir o conjunto de eleca ca e a a mentos acerca dos quais se pretende obter informao. A especicao de limites geogrcos e ca ca a temporais do estudo, conjugada com restries de ordem demogrca so uteis para identicar co a a quem inclu ou exclu do estudo. e do do Organizao da Base de Sondagem - a base de sondagem uma listagem de elementos ca e da qual se vai seleccionar a amostra. Denio do Processo de Amostragem - a seleco de um procedimento amostral ca ca est bastante relacionada com a etapa anterior, pois a tcnica de amostragem depende em a e larga medida da existncia ou no de uma base de sondagem. e a Determinao da Dimenso da Amostra - o nmero de elementos a incluir na amostra ca a u depende, entre outros factores, da homogeneidade da populao, do oramento, tempo e ca c recursos dispon veis para o estudo. Seleco dos Elementos - a seleco dos indiv ca ca duos depende do tipo de amostra. Nas amostras aleatrias o esquema se selco designa objectivamente qual o elemento a ser escoo ca lhido. Se a amostra for no aleatria, poder caber aos entrevistadores a deciso quanto ` a o a a a escolha dos indiv duos. Recolha da Informao - uma vez seleccionados os elementos da amostra h que conca a tact-los no sentido de obter os dados necessrios ` concretizao do objectivo do estudo. a a a ca

90

A populao alvo denida como a totalidade de elementos que esto em conformidade ca e a com as especicaes estabelecidas. As especicaes denem os elementos que pertencem co co ao grupo alvo e aqueles que no pertencem. A denio da populao usualmente feita a ca ca e geogracamente, temporalmente ou com critrios demogrcos. Quem a unidade elementar e a e do estudo, i.e., o indiv duo que detm a informao procurada e com quem se quer falar, deve e ca tambm ser especicada. e Usualmente a base de sondagem uma listagem, um mapa ou qualquer outro registo e material da totalidade dos elementos ou unidades amostrais da populao, a partir da qual ca seleccionada a amostra. So exemplos comuns de bases de sondagem a lista telefnica, a e a o lista dos assinantes de uma publicao peridica, a lista dos scios de uma associao ou o ca o o ca mapa de Portugal. Sucede `s vezes que a base de sondagem apenas conceptual. Raramente a e se concebe especicamente para um estudo a base de sondagem. Se de alguma forma for poss conseguir uma listagem que cumpra essa funo a opo sempre a de aproveitar um vel ca ca e registo que j exista, o que inevitavelmente coloca o problema da no perfeita representao a a ca da populao pela base de sondagemm dispon ca vel para o estudo. Teoricamente populao ca alvo e base de sondagem apresentam a mesma composio, mas na prtica e no raras vezes, ca a a existe uma inevitvel diculdade em faz-las coincidir. a e Com o objectivo de assegurar a maior semelhana poss entre a base de sondagem e a c vel populao alvo, Chisnall (1986) prope que se veriquem os seguintes critrios: ca o e Exaustividade - a base de sondagem deve incluir todos os elementos da populao alvo. ca Se assim no for, haver elementos sem qualquer possibilidade de serem seleccionados, poa a dendo originar uma amostra enviesada. No Duplicao - cada elemento deve constar representando uma unica vez. a ca Actualidade - o registo da populao deve ser actualizado, embora no seja poss em ca a vel cada instante obter uma imagem real da populao, existindo sempre um inevitvel desfasaca a mento entre a populao reectida na base da sondagem e aquela que existe no momento da ca sondagem.

5.5

Escolher entre Amostra Aleatria e No Aleatria o a o

As tcnicas de Amostragem agrupam-se essencialmente em duas categorias: aleatrias e no e o a aleatrias. Dentro de cada uma delas h uma diversidade de procedimentos amostrais, sendo o a ainda poss combinar processos aleatrios com no aleatrios. vel o a o Uma amostra considerada aleatria ou probabil e o stica, se for recolhida por um processo tal que assegura que todo e qualquer elemento da populao tem probabilidade, calculvel e ca a diferente de zero, de ser escolhido para integrar a amostra. Calculvel e diferente de zero, a signica que todos os elementos da populao tm alguma possibilidade de serem escolhidos ca e e que essa probabilidade de incluso pode ser determinada, o que no implica que essa proa a babilidade tenha de ser conhecida ` partida. O respeito pelo princ a pio da aleatoridade exige que no momento da seleco da amostra se tenha em conta toda a populao, sendo portanto ca ca imprescind dispor de uma base de sondagem. vel Na amostragem aleatria os critrios de seleco dos elementos esto rigorosamente deo e ca a nidos, no permitindo que a subjectividade ou arb a trio do julgamento humano intervenham na escolha dos elementos. A amostragem aleatria inclui tambm a possibilidade de mateo e maticamente determinar a dimenso da amostra em funo da preciso e grau de connaa a ca a c desejados para os resultados.

91

Por outro lado, uma amostra aleatria obriga a uma base de sondagem, acrescida da dio culdade em obter listagens ou registos actuais e completos da populao. Ao mesmo tempo, ca seleccionar aleatoriamente um conjunto de elementos pode originar uma amostra muito dispersa geogracamente, o que aumenta o tempo e os custos do estudo. Outro factor a ter em conta ao adoptar por uma amostra aleatoria, prende-se com a diculdade em estabelecer contacto com os potenciais inquiridos. Os obstculos e desvantagens dos esquemas aleatrios levam muitas vezes os investigadores a o a preferir as amostras no aleatrias. a o Com um processo no aleatrio h unidades do universo que no tm possibilidade de a o a a e serem escolhidas. A amostra no aleatria surge quando a incluso dos elementos determia o a e nada por um critrio subjectivo, normalmente uma opinio pessoal, e no rigorosa aplicao e a a ca da teoria das probabilidades. Notar que a distino entre amostra aleatria e no aleatria, no se baseia no facto de ca o a o a um especialista intervir com o seu julgamento pessoal, e portanto subjectivo, no plano de amostragem. A distino reside sim no momento do processo de amostragem em que isso ca e feito. Pode at ser vantajoso introduzir uma opinio vlida na identicao de estratos ou de e a a ca clusters na populao, sem que isso v originar uma amostra no aleatria. ca a a o Se por um lado as amostras no aleatrias permitem obter informao com custos mais a o ca reduzidos, mais rapidamente e com menores necessidades de pessoal, tm o inconveniente de e no se saber com que grau de connaa so as concluses obtidas generalizveis ` populao. a c a o a a ca

5.5.1

Amostras Aleatrias o

H diversas formas de seleccionar aleatoriamente os elementos de uma amostra, algumas a delas sucientemente elaboradas para esbater algumas desvantagens enumeradas neste tipo de amostras. Os principais tipo de amostra probabil stica so: a Simples; Sistemticas; a Estarticada; Por Clusters; Multi-etapas e Multi-fases.

Simples Uma amostra aleatria simples de n elementos retirada de uma populao de N elementos o ca e N tal que qualquer das Cn amostras poss veis tem a mesma probabilidade de ser selccionada, n 1 e (as i.e., N . A probabilidade de qualquer elemento ser selccionado a mesma e igual a Cn N amostras so retiradas de uma populao sem reposio. a ca ca N N O nmero total de amostras distintas dado por: Cn . Neste total, existem Cn 1 amostas u e que no incluem determinado elemento. A probabilidade de um qualquer elemento no ser a a inclu na amostra portanto igual a do e
N N n Cn 1 = N Cn N

92

Ento a probabilidade de um determinado elemento ser seleccionado dada por a e 1 n N n = N N

A obteno de uma amostra aleatria simples pode ser feita mediante os seguintes passos: ca o 1 - numerar consecutivamente os elementos da populao de 1 a N; ca 2 - escolher n elementos mediante o uso de um procedimento aleatrio, como seja o mtodo o e da lotaria, a consulta de tabelas de nmeros aleatrios, ou a gerao aleatria de nmeros u o ca o u com n N ; 3 - estabelecer a correspondncia entre os nmeros seleccionados e a identicao dos e u ca elementos da populao atravs desses nmeros. ca e u Apesar da amostra aleatria simples ser conceptualmente muito fcil, raramente adopo a e tada por si s numa operao de amostragem. Alm de ser cara muitas vezes imparticvel o ca e e a por exigir que todos os elementos da populao sejam enumerados, tarefa tanto mais comca plicada quanto maior for a populao. A preciso dos estimadores segundo um esquema ca a aleatrio simples pode ser avaliada a partir da sua variabilidade. Tomando como exemplo o o caso da mdia amostrfal como estimador da mdia da populao, vem que: e e ca V (X) = 2 n

E poss armar que a preciso do estimador X depende directamente da variabiloidade vel a da caracter stica em estuda da populao ( 2 ), no depende da dimenso da populao, e ca a a ca depende inversamente da dimenso da amostra. a A amostra aleatria simples pode ser bastante util se a populao for pequena, se existirem o ca listas da populao, e se a disperso geogrca dos elementos no for um problema. ca a a a

Sistemtica a Uma amostra aleatria sistemtica ou quasi-aleatria, obtida selccionando aleatoriamente o a o e um elemento de entre os k elementos da populao, e, adicionando sucessivamente o valor ca k, seleccionar todos os k-simos elementos seguintes. Em termos prticos esta amostragem e a equivale a formar k clusters, cada um contendo n elementos que distam entre si k unidades e a seleccionar aleatoriamente um desses clusters. O nmero de amostras poss u veis igual a e 1 a k sendo k a probabilidade de um elemento pertencer ` amostra. Admitindo que existe dispon um registo enumerado da populao, o processo de recolha vel ca de uma amostra sistemtica consiste em: a 1 - calcular o intervalo da amostra (k) obtido pelo quociente N ; n 2 - escolher aleatoriamente um nmero j entre 1 e k; u 3 - partindo desse nmero, adicionar sucessivamente o valor k, cando assim seleccionados u os elementos j, j+k, j+2k, j+3k, . . . , j+(n-1)k, prefazendo o nmero n. u Por exemplo, numa empresa h uma populao de 3650 facturas para conferir numa a ca auditoria. Os auditores decidem retirar uma amostra sistemtica de facturas para analisar. a O quadro que se segue apresenta os resultados da amostragem em trs situaes distintas. e co

93

n k j 1 2 3 n-simo e (A) 50 73 10 10 83 156 . . . 3587 (B) 40 91 91 91 182 273 . . . 3640 (C) 40 91, 25 91 91 182, 25 273, 5 . . . 3649, 75 91 182 274 3650 Na situao (A) pretende-se uma amostra de 50 facturas, o que se signica um intervalo ca 3650 ou seja k= 73. Escolheu-se aleatoriamente um nmero entre 1 e 73 (por u da amostra de 50 exemplo 10), e por m todos os 73-simos elementos da lista. e Na situao (B) supe-se que da mesma populao se pretndia uma amostra de 40 facturas, ca o ca 3650 resultando = 91, 25. Arredondando este valor ao inteiro mais prximo por defeito, vem o 40 k=91. Seleccionando aleatoriamente um nmero entre 1 e 91 (por exemplo 91) resultariam u na amostra 91-simos elementos. S que desta forma os ultimos 10 elementos da populao e o ca no tm qualquer hiptese de serem seleccionados, o que origina estimativas enviesadas. a e o Uma forma de minorar este problema - situao (C) - calcular quais os elementos a incluir ca e na amostra sem que haja arredondamento do valor k e s depois disso fazer o arredondamento o dos nmeros que correspondem aos indiv u duos seleccionados. A amostragem sistemtica pode comprometer a representatividade da amostra, se a listaa gem da populao tiver sido feita obedecendo a uma periodicidade ou critrio de regularidade. ca e As opes a n de construo da base de sondagem tm impacto na preciso dos estimaco vel ca e a dores. Tomando novamente o caaso da mdia amostral, a sua variabilidade , num esquema e e sistemtico de amostragem, dada por a 2 [1 + (n 1)] n sendo um medida da homogeneidade dos elementos dentro das k amostras sistemticas a poss veis. Fazendo a comparao de varincias de overlineX nos dois esquemas de amostraca a gem j vistos, atravs do clculo de ecincia relativa, apura-se que a e a e V (X) = V(Xs ) = V(X)
2 n [1

+ (n 1)]
2 n

= 1 + (n 1)

Dependendo do valor de a amostragem sistemtica pode ser mais, menos ou igualmente a eciente ` amostragem simples. Quanto menor o valor de , menor a variabilidade do estia mador e portanto maior a sua preciso. Este coeciente tende a apresentar valores negativos a quando dentro da amostra seleccionada, h heterogeneidade entre os elementos. Nesta sia tuao a amostragem sistemtica permite maior preciso das estimativas do que a amostragem ca a a simples. Em contrapartida tende a apresentar valores positivos quando h homogeneidade a entre os elementos da mesma amostra. Quando = 0 as duas formas de amostragem so a equivalentes a n de preciso dos resultados. vel a

94

Estraticada As duas formas de amostragem j vistas envolvem a seleco da amostra tomando a populao a ca ca como um todo. Existem contudo situaes em que se dene uma partio na populao, co ca ca originando a criao de grupos ou estratos. Esta a bse da amostragem estraticada. Com a ca e denio da partio, em vez de uma populao, passam a existir L populaes. Em cada ca ca ca co uma feita uma amostragem independente das outras. Levy e Lemeshow denem amostragem e estraticada como sendo um processo de amostragem em que a populao dividida em L ca e estratos mutua e exaustivamente exclusivos, sendo retirada uma amostra aleatria de ni o elementos de cada estrato. A amostra total de n elementos o somatrio das sub-amostras, e o retiradas de cada estrato. Se N1 , N2 , . . . , NL representarem o nmero de elementos em cada estrato, e n1 , n2 , . . . , nL u representarem o nmero de elementos aleatoriamente seleccionados em cada estrato, ento o u a N1 C N2 . . . C NL que menor e nmero total de amostras estraticadas poss u veis igual a Cn1 e n2 nL N u o vel. A probabilidade de, em ou igual a Cn , o nmero de amostras aleatrias simples poss ni (i = 1, 2, . . . , L). cada estrato, um elemento ser seleccionado igual a e Ni O objectivo ao estraticar uma populao reduzir a variabilidade dos estimadores e assim ca e obter estimativas mais precisas. Tendo presente que a varincia total de uma populao a ca e constante e pode ser decomposta em: Varincia Total = Varincia Entre Estratos + Varincia Dentros dos Estratos a a a O que se pretende a criao de grupos/estratos que originem grupos muito homogneos e ca e internamente mas muito diferentes dos outros grupos, ou seja, pretende-se que a varincia a total seja fundamentalmente explicada pela varincia entre os estratos. a Levar ` prtica um processo de amostragem estraticada exige os seguintes passos: a a 1 - denir os estratos. Estudos piloto, informao de estudos anteriores, opinies de ca o conhecedores da populao ou at mesmo a intuio so utilizados para denir os estratos. ca e ca a Variveis geogrcas, demogrcas, econmicas ou outras podem ser relevantes para denir a a a o grupos homogneos de elementos relativamente ` caracter e a stica em estudo. Na denio dos ca estratos importa fazer consideraes quanto ao seu nmero e ` dimenso de cada um. Quanto co u a a mais estratos se denirem, maior a homogeneidade dentro de cada um, mas tambm maior e especicidade, o que diculta o trabalho de seleco dos inquiridos e agrava o custo do estudo, ca muitas vezes no compensado por uma acrscimo signicativo de preciso nos resultados. a e a 2 - organizar as bases se sondagens, pois se cada estrato tratado como uma populao e ca independente das outras sero necssrias tantas bases de sondagem quantos os estratos dea a nidos. 3 - seleccionar os elementos dentro de cada estrato, mediante um processo aleatrio, simo ples ou sistemtico. Nesta fase a opo por uma estraticao proporcional ou no proporcia ca ca a onal ajuda a determinar quantos elementos de cada estrato se devem incluir na amostra. No caso de uma uma amostra estraticada proporcional, verica-se que: n2 nL n n1 = = ... = = N1 N2 NL N
L

Sendo n =
i=1

ni o nmero de elementos a seleccionar no total, pode deduzir-se que u n 1 = N1 n n n ; n 2 = N2 ; . . . ; n L = NL N N N 95

A estraticao proporcional garante que a distribuiao percentual de uma varivel de ca c a estraticao na populao respeitada na amostra. ca ca e Numa situao em que existam estratos nos quais os indiv ca duos so menos homogneos ou a e que a dimenso muito reduzida, pode justicar-se a no proporcionalidade de seleco por a e a ca forma a manter a mesma preciso de resultados que se obtm com a metodologia anterior. a e Neste caso a amostra dir-se- estraticada no proporcional ou de Neyman. a a Numa amostra estraticada no proporcional verica-se que a n2 nL n1 = = ... = = N1 1 N2 2 NL L n
L

Ni i
i=1

onde 1 , 2 , . . . , L denotam o desvio-padro respectivo de cada estrato na populao. a ca Retira-se ento que a n 1 = N1 1 n
L

; n 2 = N2 2

n
L

; . . . ; n L = NL L

n
L

Ni i
i=1 i=1

Ni i
i=1

Ni i

Generalizando ni = nwi sendo wi = i = 1, 2, . . . , L Ni i


L

N1 , se a amostra for estraticada proporcional, ou wi = N

, se a amostra

Ni i for estraticada no proporcional. a A estraticao pode ser particularmente ecaz quando na populao existem valores ca ca estremos para a caracter stica em estudo, sendo poss agreg-los num estrato separado. vel a e Numa amostragem estraticada proporcional a varincia de X dada por a
L i=1

V (X st ) =
i=1

Ni N

2 i ni

Se forem denidos estratos numa populao sobre a qual incide uma amostragem simples, ca a varincia de X vir dada por a a V (X) = 1 n
L i=1 L Ni Ni 2 i + (i )2 N N i=1

Analisando a ecincia relativa dos dois estimadores, e tendo presente que na amostragem e n n estraticada proporcional N = Nii resulta que
L

V (X) =1+ V (X st )

i=1

ni (i )2
L 2 n i i i=1

O quociente das varincias assim calculado assume valores 1, signicando que a amosa tragem estraticada pelo menos to eciente como a amostragem simples. Pode ser mais e a 96

eciente, no sentido em que permite estimativas mais precisas, quanto maior for o peso da variabilidade entre os estratos no total da variabilidade da populao. Se no existir variabica a lidade entre os estratos, ento no h ganhos de preciso relativamente ` amostra aleatria a a a a a o simples.

Por Clusters Os processos de amostragem at agora apresentados requerem bases de sondagem que identie quem individualmente os elementos da populao. Elaborar ou aceder a este tipo de sondagem ca dif e cil, ou mesmo imposs vel, na generalidade dos casos. Pode no ser to complicado cona a seguir as bases de sondagem que identiquem grupos ou clusters de elementos individuais da populao, sem que explicitamente se identiquem individualmente os elementos. ca A amostragem por clusters exige apenas que se disponha de uma listagem completa destes grupos, designados nesta forma de amostragem de unidades amostrais primrias. O termos a cluster dene um grupo de unidades elementares da populao. ca A amostragem por cluster est orientada para a seleco de grupos de elementos e no a ca a de elementos individuais. Tal como na amostra estraticada estes grupos so mutuamente a exclusivos e exaustivos, mas geralmente correspondem a um agrupamento natural existente na populao que aproveitado para facilitar a amostragem na sondagem. ca e Apresenta-se no quadro seguinte alguns exemplos de aplicao de um processo de amosca tragem por clusters. Cluster ou Unidade Amostral Primria a Turma Unidade Elementar Aluno Aplicao ca (Exemplo) Conhecer a opinio dos estudantes a de uma escola do ensino secundrio a acerca dos grupos rock Estimar o tempo mdio de espera e para atendimento numa consulta Conhecer a opinio a dos empregados de uma empresa a respeito de um pacote alternativo de benef cios para o ano vindouro Estimar o montante de vendas para o ano seguinte

Centro de Sade u Departamento

Utente Trabalhador

Zona Geogrca de a Vendas

Vendedor

O processo de amostragem por clusters decorre segundo os seguintes passos: 1 - especicar os clusters o que envolve considerar a populao dividida em grupos de ca elementos que serviro como unidades primrias de amostragem. Os elementos de um clusa a ter geralmente esto sicamente prximos e por este facto apresentam caracter a o sticas muito similares. Assim sendo poder no ter interesse denir clusters muito grandes, uma vez que a a medir elementos to homogneos acaba por produzir informao redundante, sem vantagens a e ca a n da preciso. vel a 2 - seleccionar uma amostra de unidades primrias aleatoriamente e incluir na amostra a todos os membros da populao que pertencem aos clusters seleccionados. ca 97

Existem fundamentalmente dois aspectos que tornam esta tcnica de amostragem muie tas vezes preferida, especialmente em estudos de populaes humanas ou em sondagens que co cobrem uma larga rea geogrca: a facilidade com que se pe em prtica e o custo. a a o a e A varincia de X na amostragem por clusters dada por a V (X cl ) = sendo
M 2 c m

M Fazendo a anlise da ecincia relativa dos dois estimadores vem que a e


2 c V (X cl ) 2 = m =N c 2 2 V (X n 1 < , ou seja, a varincia a N 1 total deve ser pouco explicada pela variabilidade entre clusters, deve ter um peso inferior a N . Isto signica que deve existir grande homogeneidade entre os clusters, e que a maior parcela de varincia da populao deve ser explicada pela varincia dentro dos clusters. a ca a Quanto mais semelhantes forem os elementos dentro de um cluster, melhores sero os a resultados se esse cluster for usado como um estrato na amostra estraticada e piores forem usados como unidades amostrais na amostragem por clusters.

2 c =

Xij j=1 Ni N i=1 N

Ni

A condio de ecincia desta forma de amostragem ser ca e a

2 c 2

Multi-Etapas A amostragem multi-etapas uma extenso do conceito de amostragem por clusters, apree a sentando uma maior exibilidade. O cluster geralmente contm, muitos elementos, o que e aliado ` provvel homogeneidade entre eles torna desnecessria a sua observao integral. a a a ca Por exemplo, um elemento d informao sobre todos os elementos da fam a ca lia. A amostra multi-etapas obtida mediante uma primeira seleco aleatria de cluster e depois, conforme e ca o os casos, seleccionar uma amostra de elementos ou ento continuar com a seleco de clusters a ca at chegar `s unidades elementares. e a Com o intuito de estimar a proporo de fam ca lias que na cidade X tm carros desportivos, e poder-se-ia considerar a diviso da cidade em bairros, de entre os quais se seleccionaria uma a amostra (por isso se designairia os bairros de unidades amostrais primrias). Dentro dos baira ros seleccionados escolher-se-iam quarteires, que constituiriam as unidades da segunda etapa o de amostragem, nos quarteires escolhidos seleccionar-se-iam prdios (as unidades amostrais o e da terceira etapa de amostragem) e nalmente em cada prdio seleccionado escolher-se-iam e habitaes. co 98

O processo de amostragem multi-etapas pode ser enunciado nos seguintes passos: 1 - denir os clusters, tendo em conta duas condies: a proximidade geogrca dos co a elementos dentro do cluster e a dimenso dos clusters, que deve ser conveniente para a sua a administrao prtica. Clusters com muitos elementos tendem a possuir elementos mais ca a heterogneos, e portanto uma amostra maior necessria de cada um para obter estimativas e e a mais precisas para os parmetros. Ao invs, clusters pequenos contm elementos relativamente a e e homogneos, e nesses casos consegue-se informao precisa para as caracter e ca sticas em estudo com a seleco de uma amostra pequena de elementos de cada cluster. ca 2 - preparar as bases de sondagem, uma vez que h vrias etapas de amostragem sero a a a necessrias diversas bases de sondagem, cada uma ajustada ` amostragem em cada etapa. a a O ponto de partida uma base de sondagem que identique as unidades primrias. Se a e a amostragen tiver apenas duas etapas ento o passo seguinte ser recolher aleatoriamente uma a a amostra de elementos que o exige, para cada unidade amostral primria escolhida a obteno a ca de um registo de todos os elementos nelas inclu dos. Se a amostragem envolver mais do que duas etapas de amostragem a seleco de cluster vai-se sucedendo at que seja poss chegar ca e vel a ` listagem das unidades elementares da populao. ca 3 - seleccionar a amostra, sempre segundo um processo aleatrio, e em fases sucessivas at o e alcanar uma amostra de unidades elementares. c As vantagens deste tipo de amostragem so as amesmas enunciadas para a amostragem a por clusters. A obteno de bases de sondagem que identiquem todos os elementos da ca populao individualmente pode ser imposs ca vel ou muito dispendiosa, enquanto que uma listagem de clusters pode ser relativamente fcil de conseguir. a Em termos de ecincia, tem-se que no caso particular da amostragem bi-etpica a e a ca co varincia de X, e ignorando o factor de correco de populaes nitas na primeira e sea gunda etapas de amostragem, vem dada por V (X be ) =
2 1 2 + 2 m n

sendo a primeira parcela uma medeida da variabilidade entre as unidades amostrais primrias, a e a segunda uma medida da variabilidade dentro dos clusters seleccionados na etapa anterior. Sendo
Xij j=1 N i=1
M

i=1 j=1

Xij

2
M 2 2 = N

2 1 =

i=1 j=1

(Xij i )2 N

Fazendo a anlise da ecincia relativa dos dois estimadores vem a e V (X be ) = V (X)


2 1 + 2 2 n

O estimador X be ser mais eciente do que o estimador X na medida em que haja grande a variabilidade dentros das unidades amostrais, e consequentemente grande homogeneidade entre as unidades amostrais primrias. a 99

Assim conseguir-se- mais ecincia recolhendo uma grande amostra de m unidades primrias, a e a com amostras de dimenso elevada dentro dos clusters. a

Multi-Fases A amostra multi-fases no deve ser confundida com a amostra multi-etapas. Nete ultimo a mtodo, existem diversos tipos de unidades amostrais que vo sendo seleccionadas em sucese a sivas etapas at obter uma amostra de unidades individuais. Com a tcnica multi-fsica, em e e a cada fase de amostragem est sempre em causa o mesmo tipo de unidade amostral, obtendoa se de algumas unidades mais informao do que de outras. Na amostra multi-fases, existem ca igualmente diversas fases de amostragem, feitas mediante um processo aleatrio, mas sempre o sobre a mesma unidade amostral. O processo de amostragem multi-fases pode ser enunciado nos seguintes pontos: 1- listar os elementos da populao, seguida da seleco de uma amostra aleatria de ca ca o elementos para participarem numa primeira fase do estudo. 2 - selccionar uma segunda amostra, cujos elementos sero inquiridos com um n a vel de profundidade e detalhe maior. Questionar todos os selccionados na primeira fase sobre todos os aspectos da sondagem pode ser desnecessariamente dispendioso e possivelmente resulta numa perda de ecincia por parte dos entrvistadores e validade das respostas por parte dos e respondentes. A par da reduo de custos, este mtodo permite que a amostra principal seja utilizada ca e como base de sondagem para subsequentes amostragens. Pode ainda fornecer informao util ca para encontrar variveis de estraticao. a ca

5.5.2

Amostras No Aleatrias a o

Tendo presente que o que confere a categoria de no aleatria a uma amostra a ausncia de a o e e um mecanismo que determina rigorosamente quem escolhido, recorrendo-se para o efeito ao e julgamento humano, existem vrias formas de o fazer. Vo se tratadas as mais usuais. a a Intencional A amostra intencional uma amostra composta de elementos seleccionados deliberadamente e pelo investigador, geralmente porque este considera que possuem caracter sticas que so a t picas ou representativas da populao. A escolha dos indiv ca duos determinada por um e critrio subjectivo. Um exemplo deste tipo de amostra a escolha, em tempo de eleies, de e e co localidades representativas, sendo a representatividade neste caso assegurada pela escolha das localidades que historicamente tm dado como vencedor o candidato efectivamente eleito. e Para alm da sua utilizao em estudos exploratrios, estes podem ainda ser utilizados, e ca o com sucesso nas seguintes situaes co - Obteno de uma amostra de dimenso reduzida - o caso da seleco de um nmero ca a e ca u limitado de cidades para representar o pa inteiro. s - Impossibilidade de conseguir uma amostra aleatria - quando no poss ou quando o a e vel excessivamente dispendioso optar por um procedimento aleatrio. e o 100

- Conseguir deliberadamente uma amostra enviesada - o caso do fabricante que para e avaliar o impacte de uma modicao introduzida no produto que fabrica, pode querer escolher ca um grupo de indiv duos que, pelas suas caracter sticas, estariam receptivos ` mudana. a c Como a base de sondagem desconhecida e o critrio de seleco dos elementos no se e e ca a encontra objectivamente explicitado, surgem neste tipo de amostra enviesamentos dif ceis de avaliar.

Snowball Esta tcnica de amostragem requer por parte do investigador a capacidade para localizar e de in cio um grupo de indiv duos que tenham as caracter sticas desejadas ou que consigam uma forma de amostra intencional em que o investigador indicar indiv duos que as tenham. E pede a cada inquirido, aps ser entrevistado, nomes de outros indiv o duos que podem ser igualmente inquiridos. E muito utilizada quando se pretende chegar a populaes pequenas co e muito espec cas. Um inconveniente deste tipo de amostragem que os inquiridos tendem a indicar o nome e de amigos ou pessoas de relao mais prxima, o que pode originar uma amostra de pessoas ca o que pensam e se comportam de modo similar `quela que as indica. a

Convenincia e Na amostragem por convenincia os elementos so escolhidos porque se encontram onde os e a dados para o estudo esto a ser recolhidos. a So exemplos desta forma de amostragem os inquritos de rua, em que so favorecidos a e a na amostragem os indiv duos que passaram perto do entrevistador durante o momento em que a recolha da informao estava a ser feita. Da mesma forma o inqurito a amigos e ca e conhecidos ou as auscultaes telefnicas feitas por algumas estaes televisivas ou de rdio, co o co a em que os telespectadores ou os ouvintes so convidados a emitirem a sua opinio sobre a a determinado assunto, sendo os resultados nais da auscultao tomados como o sentimento ca geral da populao, so amostragens por convenincia. ca a e Nestas situaes h fortes probabilidades de a amostra resultar enviesada, uma vez que os co a inquiridos escolhidos em funo da facilidade com que se consegue obter deles a informao ca ca desejada no so necessariamente representativos do sentimento geral da populao. a a ca Apesar da sua fragilidade cient ca a amostragem por convenincia pode ser usada com e xito em situaes nas quais captar ideias gerais, identicar aspectos cr e co ticos pode ser mais importante do que a objectividade cient ca, como o caso da realizo do pr-teste do e ca e questionrio. a

101

Quotas Uma amostra por quotas pode ser denida como sendo uma amostra estraticada no aleatria, a o ou seja, uma amostra que obtida dividindo a populao em categorias e seleccionando um e ca certo nmero (ou percentagem) de elementos - quota -, de modo no aleatrio, de cada cateu a o goria. A existncia deste mtodo de amostragem justica-se fundamentalmente pela impossibie e lidade de obteno de listagens da populao. ca ca A amostragem por quotas conduz a uma amostra onde a proporao de elementos que c posuem uma determinada caracter stica aproximadamente igual ` proporo de indiv e a ca duos na populao que possuem essa mesma caracter ca stica. Pretende-se desta forma assegurar a sua representatividade. A obteno de uma amostra por quotas deve ser conseguida mediante os seguintes passos: ca 1 - denir quotas - as quotas so identicadas dividindo a populao em categorias. A a ca escolha de variveis feita na maioria dos casos tomando por base o recenseamento da poa e pulao. Pretende-se ainda que as variveis escolhidas maximizem a variabilidade entre as ca a categorias e minimizem dentro das categorias. 2 - seleccionar os elementos - os elementos a incluir na amostra no so previamente detera a minados. Cabe na generalidade dos casos, ao entrevistador que realiza o trabalho de campo a recolha da informao, a deciso quanto e quem ou no escolhido. A unica obrigatoriedade ca a e a que respeite as quotas estabelecidas no plano de amostragem. e O mtodo das quotas independentes facilita o trabalho aos entrevistadores, j que cada e a vez que procuram um indiv duo para entrevistar este deve obedecer apenas a um critrio. O e mtodo das quotas inter-relacionadas j mais vel uma vez que os entrevistadores tm de e ae a e cumprir uma amostra espec ca, distribu por diversos factores de estraticao. da ca As vantagem do uso deste tipo de amostragem so a rapidez, economia e facilidade de a administrao. Por outro lado coloca-se a dvida sobre a sua representatividade. Ainda ca u que as quotas estabelecidas tenham por objectivo assegurar que a amostra reecte aspectos importantes da populao, a representatividade apenas assegurada a n das variveis de ca e vel a controlo.

Random Route Este mtodo de amostragem no probabil e a stico, tambm designado de mtodo dos itinerrios e e a aleatrios, muito utilizado quando o estudo feito dentro de cidades ou localidades, e o e e serve essencialmente para orientar o entrevistador na seleco dos respondentes, quando as ca entrevistas decorrem porta-a-porta. Este mtodo descreve-se sumariamente no seguintes passos: e 1 - seleco aleatria de um ponto de partida atravs de uma listagem, mapa ou outro ca o e registo de endereo ou ponto de referncia da zona onde ir decorrer o estudo. c e a 2 - denio das regras de orientao para o entrevistador - o entrevistador instru ca ca e do para realizar o seu trabalho circunscrevendo-se a determinda rea ou seguindo um itinerrio a a aleatrio na escolha das unidades a inquirir, por forma a cobrir o melhor poss os quarteires o vel o e ruas da zona onde est. a Apesar da designao de itinerrios, e se tentar na prtica assegurar a equiprobabilidade ca a a

102

de seleco de todos os elementos, o mtodo no verdadeiramente aleatrio. Com este ca e a e o mtodo corre-se o risco de, se o entrevistador concentrar o seu trabalho numa rea geogrca e a a pequena, resultarem efeitos de cluster.

5.6

Factores que inuencia a representatividade da amostra

O objectivo de qualquer processo de amostragem deve ser antes de mais a obteno de uma ca amostra representativa da populao. ca So os mtodos aleatrios que ` partida melhor asseguram a representatividade da amosa e o a tra, o que no signica que a utilizao de uma tcnica de seleco aleatria conduza a uma a ca e ca o amostra representativa. Sendo a amostra a base de realizao do estudo de uma populao importante que capte ca ca e a estrutura da populao, ou seja, as caracter ca sticas que so relevantes para o estudo. A a estraticao um modo de melhor assegurar que isso se verique. ca e A validade dos procedimentos aleatrios no coloca de parte os no aleatrios. A dio a a o culdade ou impossibilidade de obter listagens dos elementos do universo, restries de custos co ou de tempo, obrigam a que na prtica se coloque o princ a pio da aleatoriedade e se opte em alternativa por uma das tcnicas no aleatrias, ou por tcnicas mistas, podendo, nestes e a o e casos, a representatividade car menos justicada. A validade de uma amostra pode tambm ser comprometida por um reduzido nmero de e u respostas. Pode-se ter uma amostra correctamente seleccionada, com a dimenso adequada a para assegurar a representatividade, mas o elevado nmero de no-respostas pode comprou a meter a sua representatividade na medida em que no se pode assumir que os que respondem a tm opinies e atitudes semelhantes aos que no respondem. e o a

5.7

A dimenso da amostra a

Ao planear qualquer sondagem uma questo que merece sempre grande ateno a deciso a ca e a quanto ao nmero de indiv u duos - n - que a amostra deve conter. No se pode planear e a implementar uma sondagem sem conhecer a dimenso adequada da amostra. E uma deciso a a nem sempre fcil pois na essncia h que contravalanar dois efeitos opostos: a preciso, que a e a c a a ` partida aumenta com a dimenso da amostra, e o custo, directamente relacionado com a a dimenso da amostra. a A opo por uma dimenso de amostra depende da ponderaao de diversos factores. Para ca a c o seu clculo matemtico so variveis chave a variabilidade da populao no que respeita ` a a a a ca a caracter stica em estudo, a preciso e conana requeridas para os resultados e a distribuio a c ca amostral do estimador utilizado na estimao do parmetro. Importa ainda ponderar o n ca a assim encontrado com factores como o custo ou o efeito nos erros no relacionados com a a amostragem. Existem dois aspectos da populao que importa considerar aqundo da determinao do ca ca nmero de elementos da amostra: a varincia da caracter u a stica em estudo; e o nmero de u elementos, ou seja, a sua dimenso N. a 103

Relativamente ` varincia da populao, h a dizer que quanto maior for a disperso a a ca a a da caracter stica em estudo, maior ter de ser a amostra para se obterem estimativas com a um determinado n vel de preciso. O impacte da variabilidade da populao no clculo da a ca a dimenso da amostra directo. a e No que respeita ` dimenso da populao, esta no afecta, na generalidade dos casos, a a ca a directamente a dimenso da amostra, ou seja, no existe uma relao de proporcionalidade a a ca entre a dimenso da populao e a dimenso da amostra. No se pode armar sem mais a ca a a que, quanto maior a dimenso da populao maior ter de ser a dimenso da amostra. e a ca a a Ainda que em muitos casos isto seja verdade, a explicao para esse facto no reside no valor ca a de N, mas sim no facto de que quanto maior for a populao, potencialmente maior a sua ca e variabilidade, o que, como j se viu, faz aumentar a dimenso da amostra. Deste modo ter-sea a a uma amostra maior quanto maior for a populao, mas este impacte feito indirectamente, ca e via variabilidade. H porm que apresentar uma situao de excepo relativamente ao que foi dito, isto , a e ca ca e existe uma situao em que a dimenso da populao interfere directamente no clculo de ca a ca a n: quando a amostra recolhida sem reposio, no h independncia entre os elementos, e ca a a e facto que ter impacte na frmula de clculo da varincia do estimador a utilizar. A t a o a a tulo de exemplo, e no caso de se querer estimar a mdia da populao, recorrendo para o efeito e ca a e ` mdia da amostra, segundo um esquema aleatrio simples de amostragem, a varincia o a 2 2 N n , se os elementos ferem independentes e ser V (X) = a , se os vir: V (X) = a n n N 1 N n elementos no ferem independenes, e onde o factor a designado de factor de correco e ca N 1 de populaes nitas. co Ainda que a amostra seja retirada da populao sem reposio, por uma questo de ca ca a simplicidade o clculo de n pode ser feito com a primeira frmula. Se aps o clculo se a o o a vericar que a dimenso da amostra no excede 5% da populao ento o valor de n est a a ca a a encontrado, ou seja, leg e timo fazer o pressuposto da independncia dos elementos quando e a amostra pequena comparativamente ` populao. Se a dimenso da amostra representar e a ca a mais de 5% da populao, o pressuposto da independncia no se verica, e o n denitivo, ca e a n menor que o inicial, resultar da correco do inicial mediante a frmula a ca o n . 1+ N Para estimar um parmetro necessrio dispor de um estimador, que com base na ina e a formao de uma amostra concreta fornece uma estimativa para o parmetro. Contudo, de ca a N uma populao de N elementos poss retirar Cn diferentes amostras de dimenso n, sendo ca e vel a cada amostra conduziria a diferentes valores para o estimador. A forma desta distribuio amostral (para o caso de X) , de acordo com Teorema do ca e Limite Central, muito aproximada ` distribuio Normal. O ponto central da distribuio a ca ca amostral o verdadeiro valor do parmetro, o que signica que os valores mais prximos do e a o verdadeiro valor do parmetro (desconhecido) tm uma frequncia maior do que aqueles mais a e e afastados. O formato mais preciso da curva Normal denido pelo valor esperado do estimador e da e sua varincia. Conhecendo estes dois valores poss calcular exactamente que proporo a e vel ca de valores na distribuio esto contidos entre dois pontos, que ir auxiliar a construo de ca a a ca intervalors de conana para o parmetro. Conhecendo a distribuio amostral do estimador c a ca pode dizer-se que (1 ) 100% das estimativas no distam mais do que z desvios-padro a a do verdadeiro valor do parmetro. a

104

A determinao matemtica de n exige que se obtenha primeiramente o limite de erro ca a desejado para os resultados, o que permite controlar o erro amostral. Duas questes tm de o e ser tidas em linha de conta: 1 - Especicar a diferena mxima entre a estimativa e o parmetro. Para estimar um c a a parmetro necessrio ter um estimador. Uma vez designado esse estimador, genericamente a e a denotado por , e conhecendo algumas caracter sticas a respeito da sua distribuio amostral, ca poss e vel aferir a magnitude de erro da estimao. O erro de estimao denido por ca ca e . Devido ` distribuio amostral do estimador no poss assegurar que a estimativa a ca a e vel observada na amostra estar a uma distncia espec a a ca de . Mas poss impor o valor e vel B. mximo pretendido para essa distncia, a a 2 - Especicar o n vel de conana desejado. O facto de se xar a amplitude mxima c a de variao, no d a garantia de que a amostra fornea uma estimativa que verique essa ca a a c imposio. Contudo poss ca e vel estabelecer que para um determinado n vel de probabiliade B = 1 , ou escrito de outro modo de 1 , com 0 < < 1, se tenha que P e P B + B = 1 . Nesta forma B, + B designado de intervalo a (1 ) 100% de conana para . c A preciso dos resultados cresce com o aumento da dimenso da amostra mas existem a a outros factores que colocam restries ao aumento ilimitado da amostra, restries essas que co co se prendem com os custos a suportar em todo o processo amostral, o tempo que se dispe o para a realizao do estudo e outros factores como sejam o pessoal dispon para afectar ao ca vel trabalho.

5.8

Passos na determinao matemtica da dimenso da amosca a a tra

Os principais passos envolvidos no clculo da dimenso da amostra quando se pretende estimar a a um parmetro so as seguintes: a a 1 - Fixar os limites de erros desejados - as estimativas dicilmente coincidem com o valor do parmero pelo que importa estabelecer a diferena mxima que se admite entre estimativa a c a B = 1 e parmetro. Matematicamente isto resulta em P a 2 - Encontrar uma equao que relacione n com a preciso e conanas desejadas para ca a c os resultados - o clculo de n comea com a determinao de um intervalo de conana a c ca c para o parmetro que se pretende estimar. O intervalo de conana para genericamente a c e denido po z , onde z traduz a diferena mxima que se aceita entre estimativa c a e parmetro. Verica-se ento que B = z , sendo B e z xados, respectivamente pela a a preciso da estimativa e pelo grau de conana. a c 3 - Determinar parmetros desconhecidos - a equao referida no ponto anterior conter a ca a certas caracter sticas da populao desconhecidas, como a varincia. ca a 4 - Estimar caracter sticas para sub-dom nios - pode suceder que se queira estimar certas caracter sticas para sub-dom nios da populao e que os limites de erros sejam xados para ca cada sub-dom nio. Calcula-se ento separadamente o n de cada sub-dom a nio, e s depois o atravs do somatrio se chega ao n total da amostra. e o 5 - Estimar mais do que uma caracter stica - geralmente mais do que uma caracter stica objecto de estimao numa mesma sondagem. Se for xado um grau de preciso para cada e ca a caracter stica, os clculos podem levar a valores de n incompat a veis entre si. Nestes casos um 105

modo de resolver este problema escolher a caracter e stica que se espera ter mais variabilidade e determinar a dimenso da amostra a partir desa informaao. a c 6 - Avaliar o n encontrado - nalmente o valor encontrado para n deve ser avaliado para ver se ou no consistente com os recursos dispon e a veis para a realizao da amostragem. ca

5.9
5.9.1

Clculo da dimenso da amostra em amostra aleatrias a a o


Simples

O objectivo de uma sondagem pode incluir a estimao da mdia da populao, denotada ca e ca por . Num esquema de sondagem aleatria simples em que a dimenso da amostra de n o a e elementos, um bom estimador para aquele parmetro da populao () a mdia amostral a ca e e X. Estimar a mdia e Atendendo a que P X B X + B = 1 , onde B = z( ) V (X) e V (X) = 2 2 N n , pelo que resolvendo esta equao em ordem a n, obtm-se facilmente o valor de ca e n N 1 n, fazendo algumas alteraes, nomeadamente, e dado que raramente se conhece 2 substituico se por s2 . Ao utilizar s2 como estimador de 2 , a varincia passaria tambm ela a ser estimada a e e dada pela espresso seguinte: a s2 V (X) = n donde se tiraria: n= Estimar o total Outro parmetro que pode ser de interesse conhecer o total da populao, denotado por , a e ca onde podemos escrever N = ` A semelhana do que foi defenido anteriormente, c P NX B = 1 N s2 N B2 + s2 z
2

N n N

P NX B NX + B = 1 onde sabendo que V (N X) = N 2 V (X) B = z( ) V (N X) 2

106

de onde se conclui que V (N X) = N 2 Resolvendo em ordem a n, obtm-se e n=

2 n

N n N 1

N 2 B2 (N 1) 2 2 + 2 z N
2

Com o desconhecimento de 2 , e a substituio por s2 levaria a ca s V (N X) = N 2 n originando assim um valor de n dado por n= N s2 B2 + s2 z2N N n N

Estimar a proporo ca Uma sondagem pode ser realizada para determinar a proporao de elementos na populao c ca que assumem (ou no) determinado atributo. A estimao de uma proporo toma por base a ca ca uma populao de Bernoulli, na qual uma observao ou pertence ou no pertence ` categoria ca ca a a de interesse. A proporo de elementos que caem na categoria que interessa estudar denota-se ca por p. O estimador deste parmetro denotado por p. a e Na amostra aleatria simples o estimador p a mdia amostral X se as observaes o e e co amostrais forem denidas por Xi = 0, se o i-simo elemento da amostra no possui o atributo e a especicado e por Xi = 1, se o possui. e A proporo amostral X a fraco de elementos da amostra que possuem o atributo de ca ca interesse, ou seja,
n

Xi =X n Estimar p com um limite mximo de erro igual a B e um grau de conana de (1)100% a c implica uma estimativa que verica p= P (| p| B) = 1 p ou de outra forma Sabendo que 2 = pq, a varincia dada por a e V () = p pelo que substituindo vem n= N pq B2 (N 1) 2 + pq z 107 P ( B p p + B) = 1 p pq n N n N 1
i=1

Tambm aqui se coloca o problema de conhecer a varincia da populao, j que, se p e a ca a e desconhecido, pq tambm o . Um valor de n aproximado pode ser encontrado atravs da e e e substituo de p por um valor estimado, p, de onde se retira que ca p V () = pq n1 N n N

sendo q = 1 p. O valor de n que consequentemente resultaria seria dado por N n= B2 + pq z2 B2 N + pq z2

Apesar de esta frmula de clculo de n quando p desconhecido, o que de facto se costuma o a e fazer , partindo pressuposto de N grande (o que torna o factor de correco de populaes e ca co nitas negligencivel), substituir p por p, obtm-se a e n= pq B2 z2

Este valor de n pode ser tido como uma primeira aproximao ao valor de n. Se se vericar ca n e a a a a a que N de facto negligencivel ( 5%) ento o valor de n est encontrado. Se no, h n+1 n que corrigi-lo atravs de 1+ n ou de 1+ n . No primeiro caso -se conduzido ` expresso j e e a a a N N apresentada e no segundo a N pq n= 2 B N 2 + pq z Geralmente a estimativa para p pode ser obtida de estudos anteriores similares, mas na falta de tal informo pode tomar-se p = 0, 5 pois este valor maximiza a varincia da populao, ca a ca conduzindo a um n maior do que o necessrio, garatindo assim o cumprimento da preciso a a xada.

5.9.2

Sistemtica a

Quando a enumerao da populao est feita de um modo causal, ou seja, os elementos ca ca a apresentam-se numa ordem aleatria, as concluses a respeito do clculo de n na amostra o o a sistemtica so as mesmas que as encontradas na amostra aleatria simples. Se os elementos a a o da populo se encontrarem ordenados por algum critrio ou se apresentarem numa variao ca e ca s ser diferente da encontrada na amostra aleatria simples, e peridica, a varincia de X o a a o neste caso o processo de determinao de n seria diferente. A varincia seria dada por ca a 2 [1 + (n 1)], sendo uma medida de correlao entre elementos da amostra ca V (Xs ) = n sistemtica. a

108

Estimar a mdia e A estimao da mdia da populao usando uma amostra sistemtica pode ser feita atravs ca e ca a e da mdia amostral X. Resulta assim o seguinte estimador e
n

Xi Xs =
i=1

onde Xs signica que se est a utilizar um processo de amostragem sistemtica. a a Para estimar a mdia da populao com uma margem de erro mxima igual a B nee ca a e cessria uma amostra de dimenso n dada por a a n= N 2 B2 (N 1) 2 + 2 z

Estimar o total O parmetro que est em causa estimar . O estimador para o total da populo o total a a e ca e s. amostral N X Para estimar um total da populao com um limite mximo de erro xado em B neca a e cessria uma amostra de tamanho n dado por a n= N 2 B2 (N 1) 2 2 + 2 z N

Estimar a proporo ca O estimador da proporo de elementos da populao com determinada caracter ca ca stica, p, obtido a partir de uma amostra sistemtica denotado por ps . Tal como na amostra aleatria a e o s desde que se dena que: Xi = 0 se o simples as propriedades de ps so as mesmas de X a i-simo elemento da amostra no possui a caracter e a stica especicada e Xi = 1 se possui. O estimador ps a mdia de valores 0 e 1 da amostra. e e A dimenso de uma amostra sistemtica para estimar p com um limite de erro igual a B a a dada por: e N pq n= B2 (N 1) 2 + pq z Na prtica no se conhece p, pelo que n pode ser determinado substituindo p por uma a a estimativa. Se no houver qualquer informao dispon a ca vel para encontrar essa estimativa pode-se obter uma dimenso de amostra conservadora utilizando p = 0, 5. a

5.9.3

Estraticada

Uma amostra estraticada obtida atravs da separao da populao em grupos no sobree e ca ca a postos de elementos, designados de estratos, seguida de seleco de uma amostra aleatria de ca o cada estrato. Importa assegurar que as amostras dos diferentes estratos so independentes: a 109

as observaes escolhidas num estrato no dependem das observaes escolhidas nos outros co a co estratos. A amostra estraticada requer uma notao adicional. Considere-se: ca Designao ca Populao ca Amostra Nmero de estratos u L L N = N 1 + N2 + . . . + N L n = n 1 + n 2 + . . . + n L Nmero de elementos u Ni ni Nmero de elementos no estrato i u j-sima observao no estrato i e ca Xij Xij
Ni ni

Xij Mdia do estrato i e =


j=1 Ni L

Xij Xi = Xst =
j=1 ni L

Ni i Mdia e =
i=1 N L i=1 L

Ni Xi
N

Ni Xi Ni i N Xst =
i=1 N ni

Total

=
i=1 Ni

Xij Proporo no estrato i ca pi =


j=1 Ni L

Xij pi =
j=1 ni L

Ni p i Proporo ca Estimar a mdia e p=


i=1 N

Ni p i pst =
i=1 N

A estimao da mdia da populao quando se tem por base um esquema de amostragem ca e ca estraticada, apresenta algumas diferenas em relao ` amostragem aleatria simples, pois c ca a o a populao agora vista como um conjunto de grupo e no como um todo. ca e a O estimador para a mdia vir e a X st = Sabendo que B = z V (X st ) a varincia dada por a e V (X st ) = V Atendendo a que V (X i ) = pelo que substituindo, obtemos 1 N1 X 1 + N2 X 2 + . . . + NL X L N
2 i ni

1 1 N1 x 1 + N 2 X 2 + . . . + N L X L = N N

Ni X i
i=1

Ni n i Ni 1

110

V (X st ) =

2 1 2 N1 1 2 N n1

N1 n1 N1 1

2 + N2

2 2 n2

N2 n 2 N2 1

2 + . . . + NL

2 L nL

NL n L NL 1

Se os Ni forem grandes, como se assume que so pode substituir-se N1 1 por Ni , o que a leva a V (X st ) =
2 1 2 N1 1 N2 n1

N1 n1 N1

2 + N2

2 2 n2

N2 n 2 N2

2 + . . . + NL

2 L nL

NL n L NL

Aps simplicaes obtm-se que: o co e V (X st ) = pelo que B=z 1 N2


L

1 N2

Ni2
i=1

2 i 2 Ni i ni

Ni2
i=1

2 i 2 Ni i ni

Contudo no poss resolver esta igualdade em ordem a n a menos que se conhea algo a e vel c da relao entre n1 , n2 , . . . , nL e n. H muitas formas de afectar uma amostra de dimenso n ca a a com vrios estratos. Em qualquer caso, porm, o nmero de observaes ni em cada estrato a e u co i uma fraco da dimenso total da amostra n. Denotando essa fraco por wi tem-se que e ca a ca ni = nwi com i = 1, 2, . . . , L Substituindo na equao, vem ca B=z 1 N2
L

Ni2
i=1

2 i 2 Ni i nwi

Resolvendo em ordem a n com um limite mximo de erro igual a B dado por a e


L i=1
2 N 2 B2 z

n=

2 Ni2 i wi L 2 Ni i i=1

2 ca O desconhecimento das varincias (i ) de cada estrato na populao levaria a substitu a ni 2 1 a las por estimadores s2 = Xij X i , originando uma estimativa das varincias i ni 1 j=1 L

V (X st ) =

1 N2 i=1

Ni2

s2 i Ni s 2 i nwi

e o valor de n resultar em a
L i=1
2

n=

Ni2 s2 i wi
L

N 2 B2 + z
i=1

Ni s 2 i

111

Estimar o total A estimao do total da populao decorre directamente do processo de estimao de . ca ca ca Uma vez que = N , um estimador no enviesado para dada por N X st . a e
L

N X st = N1 X 1 + N2 X2 + . . . + NL XL =
i=1

Ni Xi

Atendendo a que B = z V (N X st a determinao da varincia dada por ca a e V (N X st ) = V N1 X 1 + N2 X 2 + . . . + NL X L Substituindo na expresso anterior para a varincia, temos a a
2 V (N X st ) = N1 2 1 n1

N1 n 1 N1

2 + N2

2 2 n2

N2 n2 N2 Ni2

2 + . . . + NL

2 L nL

NL nL NL

V (N X st ) =
i=1

2 i 2 Ni i ni

pelo que
L

B=z
i=1

Ni2

2 i 2 Ni i ni

ou ainda
L

B=z
i=1

Ni2

2 i 2 Ni i nwi

Daqui se retira que o valor de n para estimar o total da populao com um limite mximo ca a de erro igual a B e L 2 Ni2 i wi n = i=1 L
B2 z2

+
i=1

2 Ni i

Tambm neste caso a substituio de e ca st para varincia de N X a

2 i

a pela estimativa a partir de s2 altera a expresso da i


L

V (N X st ) =
i=1

Ni2
L i=1 B2 z2

s2 i Ni s 2 i nwi

e o valor de n vir a n=

Ni2 s2 i wi
L

+
i=1

Ni s2 i

112

Estimar a proporo ca A populo est dividida em estratos e retirada uma amostra aleatria em cada estrato. ca a e o pi um estimador no enviesado de pi , a proporo de elementos do estrato i da populao e a ca ca que possuem determinada caracter stica. Por analogia do que foi feito conclui-se que Ni pi e um estimador no enviesado para o total de elementos do estrato i que possuem determinada a caracter stica. Ento N1 p1 + N2 p2 + . . . + NL pL um bom estimador do nmero total de a e u elementos na populao que possuem determinado atributo. ca pst = 1 1 (N1 p1 + N2 p2 + . . . + NL pL ) = N N
L

Ni pi
i=1

Considerando B = z( ) V (st e que a varincia dada por p a e 2 V (st ) = p 1 N2


L

Ni2
i=1

pi q i Ni Pi qi ni

pelo que substituindo na expresso anterior, considerando ainda a existncia de uma fraco a e ca de amostragem, i.e., substituir ni por wi ni , e resolvendo em ordem a n obtm-se e
L i=1
2

n=

Ni2 pi qi wi
L

N 2 B2 + z
i=1

Ni p i q i

O desconhecimento de pi e a sua substituio por uma estimativa leva a que se tenha de ca considerar para o clculo de n a varincia dada por a a 1 p V (st ) = 2 N pelo que se obtm, e
L i=1
2

Ni2
i=1

Ni n i Ni Ni2 pi qi wi
L

pi q i ni 1

n=

N 2 B2 + z
i=1

Ni p i q i

5.9.4

Por Clusters

Uma amostra por clusters uma amostra aleatria em cada unidade amostral um conjunto, e o e ou cluster, de elementos. O problema do clculo da dimenso da amostra que nesta situao se a a ca coloca no o de determinar o nmero de elementos a incluir na amostra, mas sim o nmero a e u u de cluster (m) a incluir na amostra, j que dentro de cada unidade amostral seleccionada a cluster - todos os elementos so considerados. a A seguinte notao ser utilizada ca a

113

Designao ca Nmero de cluster u Nmero de elementos u Nmero de elementos no cluster i u j-sima observao no cluster i e ca Dimenso mdia dos clusters a e

Populao ca M
M

Amostra m
m

N=
i=1

Ni

n=
i=1

ni

Ni Xij N N=M
M Ni

n i = Ni Xij n n= m
m

ni

Xij Mdia por cluster e =


i=1 j=1 M M Ni

Xij X cl =
i=1 j=1 m m ni

Xij Mdia e =
i=1 j=1 N

Xij Xcl =
i=1 j=1 m

ni i=1 m ni
M Ni N

Xij
i=1 j=1 m

Total

=
i=1 j=1 M Ni

Xij

N Xcl =

ni
i=1 m ni

Xij Proporo ca p=
i=1 j=1 N

Xij pcl =
i=1 j=1 m

ni
i=1

Estimar a mdia e Sendo a amostra por cluster um tipo de amostra aleatria, com a particularidade de cada o unidade amostral ser, no um elemento mas um conjunto de elementos, os estimadores da a mdia da populao e do total apresentam uma certa similitude com os da amostra e ca aleatria simples. A mdia ser ento: o e a a
m ni

Xij X cl =
i=1 j=1 m

ni
i=1

Tomando, como anteriormente B = z( ) V (X cl ), importa agora conhecer a varincia de a 2 X cl . Fazendo

114

ni

ni

Xij X cl =
i=1 j=1 m

Xij =
i=1 j=1 m m

ni
i=1

ni
i=1 m

X cl n

Se Xcl assume a forma de um quociente a sua varincia ser a varincia de um quociente a a a de variveis aleatrias, dadas por a o V (X cl ) = V X cl n V X cl [E(n)]2 2E X cl [E(n]3 cov + E(X cl ) [E(n)]4
2

X cl ,n

V (n)

onde E(X cl ) = e E(n) = N e V X cl = e M m M 2


Xj

2 M m n M m Fazendo as diversas substituies e simplicaes, obtm-se co co e

V (n) =

m= ou m=

2 M c 2 M B zN + c 2
2 2

M s2 c M B zN + s2 2 c
2 2

Estimar o total O total da populao ` semelhana de situaes anteriores, N . ca ea c co


m ni

Xij N X cl = N
i=1 j=1 m

ni
i=1

A varincia dada por a e



Ni

V N X cl = N 2 V X cl = N 2 Simplicando, e resolvendo em ordem a m, m=

M mN

M m

M i=1

j=1

Xij ni M

2 M c B2 z2M 2 + c

115

ou m= Estimar a proporo ca

M s2 c
B2 z2M

+ s2 c

O melhor estimador para a proporao de elementos da populao que possuem determinado c ca atributo (p) a proporo de elementos na amostra que possuem esse mesmo atributo (cl ). e ca p A proporo de elementos na amostra de m clusters que possuem determinada caracter ca stica dada por e
m ni

Xij pcl =
i=1 j=1 m

ni
i=1

A varincia dada por a e



Ni j=1

V (cl ) = p

M mN

M m

M i=1

Xij ni M

Fazendo as necessrias substituies, resolvendo em ordem a m, e tendo em ateno que a co ca


M

p B = z V (cl ) e que
j=1

Ni j=1 Xij

ni m=

2 = c , obtm-se e 2 M c 2 M B zN + c 2
2 2

2 e ou, no caso de c desconhecido m i=1

s2 = c de onde se retira que

ni j=1

m1 M s2 c

Xij pcl ni

m=

M B zN + s2 2 c

5.9.5

Multi-Etapas

A amostragem multi-etapas um processo de recolha de amostras que envolve diversas etapas e de amostragem aleatria, at chegar aos elementos individuais da populao que se pretendem o e ca estudar. A amostragem multi-etapas apresenta muitas variantes, que se pretendem no s com a o o nmero de etapas, mas tambm por exemplo dos clusters. Assim o clculo de m ser u e a a 116

ilustrado tomando apenas uma situao: clusters com dimenses idnticas, ou seja, com o ca o e mesmo nmero de elementos cada um. Esta situao verica-se, por exemplo, nos processos u ca de controlo de qualidade quando unidqades individuais do produto esto acondicionadas em a caixotes, contentores, etc. constituindo esta clusters com igual nmero de unidades. u A seguinte notao ser utilizada: ca a Designao ca Nmero de cluster u Nmero de elementos u Nmero de elementos no cluster i u Nmero de elementos por cluster u j-sima observao no cluster i e ca Populao ca M N = MN Ni N Xij
N

Amostra m n = mn ni n Xij
n

Xij Mdia no cluster i e =


j=1 N M

Xij X ibe
j=1 = n m n

i Mdia e Total =
M i=1 M N

Xij X be =
i=1 j=1 mn m N

X im e
i=1 m

=
i=1 j=1 N

Xij Xij

N xbe =

Xij
j=1 pi = n m n

Proporo no cluster i ca

pi =

j=1 N M

pi Proporo ca p=
i=1 N

Xij pbe =
i=1 j=1 mn

O cenrio considerado - clusters com dimenses idnticas - permite estabelecer que a o e N1 = N2 = . . . = NM = N Neste caso comum retirar amostras de igual dimenso de cada cluster de tal forma que e a n1 = n2 = . . . = nm = n Estimar a mdia e Ao pretender estimar a mdia de uma populao, , segundo um esquema amostral de duas e ca etapas o estimador ser mais uma vez a mdia amostral, cuja espresso dada por: a e a e
m n m

Xij X be =
i=1 j=1

X ibe =
i=1

mn

onde be signica que se est a utilizar um esquema de amostragem multi-etapas. a

117

A expresso da varincia dada por a a e V (X be ) = 1 N


2 2 1 m

M m M 1

2 2 n

N n N 1

2 2 a a onde 1 denota a varincia entre os clusters, e 2 a varincia dos elementos dentros dos clusters. Matematicamente ser a

2 1 =

N Xij i=1 j=1


M

i=1 j=1

Xij

2
M N

2 2 =

i=1 j=1

(Xij i )2 N

Tendo em considerao que B = z V (X be ), pelo que substituindo a expresso anterior, ca a obtm-se e 2 1 1 M m 2 N n + 2 B=z 2 m M 1 n N 1 N e resolvendo em ordem a m vai permitir obter o nmero de clusters necessrios para estimar u a com uma margem de erro mxima igual a B: a
2 1

m=

M M 1

2 2 n

B2 2 + 2 1 z2 N (M 1)

N n N 1

Quando necessrio estimar a V (X be ) poss faz-lo atravs de e a e vel e e 1 s2 s2 2 V (X be ) = (1 f1 ) 1 + (1 f2 ) m M n onde


m

s2 = 1

i=1

X ibe X be m1

s2 = 2

i=1 j=1

Xij X ibe

m(n 1)

m e f1 = M e f2 = nN representam respectivamente as fraces amostrais do primeiro e segundo co momentos de amostragem. Neste caso m ser a M s2 1 m= B2 s2 M 2 + s2 (1 f2 ) 2 1 z n

118

Estimar o total Um estimador para o total da populao segundo um esquema e amostragem multi-etapas ca dado por e
m n

Xij N X be = N
i=1 j=1

mn

Tendo em considerao que B = z V (N X be , e que V (N X be = N 2 V (X be ), obtm-se ca e B=z M2 2 M m 1 m M 1 + N2 2 2 n N n N 1

Resolvendo em ordem a m, retira-se o nmero de clusters necessrios para estimar com u a uma margem de erro igual a B e
2 M 2 1

m=

2 2 No caso de 1 e 2 serem desconhecidas a varincia estimada ser V (N X be ) = N 2 V (X be ), a a pelo que 1 s2 s2 2 V (N X be ) = N 2 (1 f1 ) 1 + (1 f2 ) m M n

B2 M 2 + M 1 2 z M 1

M M 1

+ N2

2 2 n

N n N 1

o a e onde s2 e s2 so dadas pelas expresses j anteriormente denidas. Obtm-se m 2 a 1 m= M Estimar a proporo ca Se os elementos da populao forem classicados em apenas duas categorias, pode-se estimar ca a proporo de elementos que caem numa das categorias. Xij assume agora os valores 0 ou 1. ca Seja pi a proporo de elementos na amostra do cluster i que tm a caracter ca e stica de interesse. O estimador para p ser a
m

M s2 1 B2 z2N 2 + s2 (1 f2 ) 1 s2 2 n

pi pbe =
i=1

p A estimativa vericar a condio B = z V (be ) onde a ca V (be ) = p e 1 N


2 2 1 m

M m M 1

2 2 n

N n N 1

119

2 2 = M Substituindo estas expresses e resolvendo em ordem a m vir o a 2 1

2 1 =

N Xij i=1 j=1


M

i=1 j=1

Xij

2
M N

i=1 j=1

(Xij pi )2
N

m=

M M 1

2 2 n

2 B2 + 2 1 z2 N (M 1)

N n N 1

2 a 2 Quando 1 e 2 so desconhecidas podem ser estimadas por m m n

s2 = 1

i=1

(pi pbe )2 m1 M s2 1 M

s2 = 2

i=1 j=1

(Xij pi )2

Neste caso poder-se- escrever m ainda sob a forma a m= s2 B2 + s2 (1 f2 ) 2 1 z2 n

m(n 1)

5.10

Determinao da dimenso da amostra em amostras No ca a a Aleatrias o

As formas de clculo da dimenso da amostra j vistas, s devem ser aplicadas quando a a a o esto em causa amostras aleatrias, ou melhor, s com amostras aleatrias que faz sentido a o o o e generalizar ` populao as concluses da amostra, cuja dimenso foi calculada pelos processos a ca o a anteriores. Portanto quando o procedimento de recolha da amostra no aleatrio o mtodo e a o e de determinao da dimenso da amostra diferente. ca a e Weiers apresenta trs formas de determinar o tamanho da amostra nestas situaes: e co decidir a dimenso da amostra tendo em conta o oramento dispon a c vel para o estudo e os custos envolvidos; - adoptar a dimenso j utilizada, com sucesso, em estudos anteriores das a a mesmas caracter sticas; - utilizar as frmulas apresentadas para as amostras aleatrias, sendo o o a dimenso assim obtida meramente indicativa. a

5.11

A Recolha de Informao ca

Obter a informao desejada directamente dos inquiridos recorrendo a um questionrio, ca a e a forma mais utilizada de recolha de informao nas sondagens. Apesar de todos os erros ca e enviesamentos que podem surgir num processo de inqurito, para determinado tipo de e informao no h melhor fonte que o prprio inquirido. ca a a o 120

As formas mais frequentes de recolha da informao so a entrevista pessoal, a entrevista ca a telefnica e o questionrio por correio. o a Uma entrevista denida como uma conversa com um propsito. Conforme a espee o cicidade de cada estudo, a informao pode ser obtida por: entrevista estruturada ou no ca a estruturada; entrevista de grupo ou individual; entrevista pessoal ou telefnica. A qualidade o da entrevista depende largamente do entrevistador conseguir desenvolver uma relao com o ca entrevistado que estimule uma boa comunicao. ca No processo de entrevista ambos o entrevistador e entrevistado podem ser potenciais fontes de erro. - Inquiridos i) Incapacidade para Responder: telescoping - consiste na tendncia para reportar os acontecimentos a um momento mais pree sente do que aquele em que efectivamente aconteceram; averaging - tendncia para as pessoas admitirem a ocorrncia de um acontecimento porque e e geralmente tido como normal, usual ou esperado; e ommiting - consiste em omitir da resposta algum acontecimento ou aspecto de uma experincia. e ii) Relutncia em Responder com Exactido: a a preocupao com a invaso de privacidade; ca a falta de tempo; desejo de prest e posio social; gio ca cortesia; desconhecimento do tema. - Entrevistadores i) Caracter sticas dos Entrevistadores caracter sticas do entrevistador e a sua performance; caracter sticas do entrevistador e o contexto da entrevista; relao entrevistador-entrevistado. ca ii) Trabalho dos Entrevistadores localizar os indiv duos; assegurar a participao no estudos dos indi ca duos seleccionados; realizar o questionrio; a registar as respostas; ler as questes como esto redigidas; o a prestar esclarecimentos; registar as respostas; ser neutral.

121

Apndice A e

Propriedades dos estimadores pontuais


Tendo em considerao que a estimativa de um modelo se destina a descrever uma realidade ou ca a prever uma situao no descrita, esta deve possuir caracter ca a sticas que permitam descrever ou prever uma situao com garantiam de sucesso. ca Algumas propriedades desejveis dos estimadores so: a a 1. Linearidade 2. No-enviesamento a 3. Ecincia e 4. Ser o melhor estimador linear no-enviesado (BLUE - Best Linear Unbiesed Estimator)1 a 5. Consistncia e

A.0.1

Linearidade

Um estimador diz-se linear se for uma funo linear das observaes. A mdia amostral, por ca co e exemplo, um estimador linear, porque e
n

x=
i=1

Xi 1 = (X1 + X2 + ... + Xn ) n n

uma funo linear das observaes. e ca co

A.0.2

No-enviesamento a

No caso de existirem vrios estimadores do parmetro populacional (podero existir diversos a a a processos de estimativa do parmetro), e se um ou mais estimativas, em mdia, coincidirem a e com o real valor do parmetro, diz-se que tais estimadores so estimadores no-enviesados. O a a a processo pode ser obtido por uma repetio sistemtica do mtodo de estimativa. Se a mdia ca a e e
1

Nalguma bibliograa fala-se de ELCO - Estimador Linear Centrado Optimo

122

de tais estimativas for igual ao real valor do parmetro, esse estimador diz-se no-enviesado. a a No caso particular da mdia, o estimador no-enviesado escrever-se- e a a E(X) = X

A.0.3

Ecincia e

Apesar da propriedade do no-enviesamento de um estimador ser desejvel, ela s por si, no a a o a suciente. O problema coloca-se quando existem vrios estimadores no-enviesados para o e a a mesmo parmetro. Em tal situao, qual o estimador a escolher? Sabe-se, por exemplo que a ca a mdia amostral retirada de uma amostra de n valores de uma varivel aleatria X, segue e a o uma distribuio ca 2 X N X , n No entanto, e para um valor de n grande, demonstra-se que a mediana (M e), segue uma distribuio ca 2 M e N X , 2 n Ou seja, uma amostra grande, retirada de uma populao Normal, a mediana segue igualca mente uma distribuio Normal com a mesma mdia, (X ), mas com uma varincia maior, ca e a neste caso numa razo de . Para este exemplo a escolha, aparentemente, parece fcil. Se a a 2 ambos os estimadores obtm estimativas igual para a mdia populacional, e se um possui uma e e varincia menor, ento esse o eleito, no caso concreto do exemplo a mdia. Pode-se dizer a a e e ento que a mdia produz uma estimativa mais precisa da mdia populacional, i.e., um a e e e estimador eciente. Se apenas considerarmos estimadores no-enviesados de uma parmetro, a a o que possuir a menor varincia, denominado de estimador eciente. a e

A.0.4

BLUE - Best Linear Unbiesed Estimator

Se um parmetro linear, no-enviesado e possui a menor varincia, ento denominado de a e a a a e melhor estimador linear no-eviesado - BLUE. Esta referncia igualmente denominada de a e e Teorema de Gauss-Markov. Para o caso da regresso linear simples, a Teorema A.1 Vericadas as hipteses o 1. O valor de y, para cada valor de x, y = 1 + 2 x + . e 2. O valor mdio da varivel residual E() = 0, uma vez que se assume que E(y) = e a e 1 + 2 x. 3. A varincia da varivel residual var() = 2 = var(y). a a e 4. A covarincia entre qualquer par de erros aleatrios i e j cov(i , j ) = cov(yi , yj ) = a o e 0. 5. A varivel x no aleatria e tem de assumir pelo menos dois valores diferentes. a a e o

123

do modelo de regresso linear, os estimadores 1 e 2 tm a menor varincia de todos os a () () e a estimadores lineares e no-enviesados de 1 e 2 . Estes so os melhores estimadores lineares a a no-enviesados de 1 e 2 . a Claricando o que diz (e no diz) o Teorema de Gauss-Markov. a a 1. Os estimadores 1 e 2 so os melhores quando comparados com estimidores similares a (aqueles que so lineares e no-enviesados). O teorema no diz que 1 e 2 so os a a a melhores de todos os estimadores poss veis. a 2. Os estimadores 1 e 2 so os melhores dentro da sua classe, porque tm varincia e a m nima. Quando comparados dois estimadores lineares e no-enviesados, queremos a sempre usar o de menor varincia, uma vez que essa regra nos d uma probabilidade a a maior em obter uma estimativa que prxima do real valor do parmetro. e o a 3. O teorema de Gauss-Markov s vlido se as condies enunciadas se se vericarem. oe a co a Se alguma das condies no se evricar, ento as estimativas de 1 e 2 no sero os co a a a melhores estimadores lineares e no-enviesados de 1 e 2 . a 4. O teorema de Gauss-Markov no depende da condio de normalidade dos res a ca duos. 5. O teorema de Gauss-Markov aplica-se aos estimadores dos m nimos quadrados. No se a aplica `s estimativas dos m a nimos quadrados de uma amostra. Demonstrao A.1 (Teorema Gauss-Markov) Pretende-se demonstrar o Teorema de Gaussca Markov para o caso do estimador de 2 . O objectivo mostrar que na classe dos estimadores e lineares e no-enviesados, 2 tem a menor varincia. a a kt yt , um estimador de 2 e onde kt so constantes. a Considere-se 2 = A expresso (??) pode tambm ser escrita como a e 2 = 2 + wt t onde wt uma constante (no aleatria) dada por e a o wt = xt x (xt x)2

Para se fazer uma comparaao mais fcil com o estimador 2 , supe-se que kt = wt + ct , c a o onde ct uma outra constante. Substituindo e sabendo que e wt = 0 e wt xt = 1. kt yt = (wt + ct )yt = (wt + ct )(1 + 2 xt + t ) 2 = = (wt + ct )1 + (wt + ct )2 xt + (wt + ct )t = 1 wt + 1 ct + 2 wt xt + 2 ct xt + (wt + ct )t ct xt + (wt + ct )t ct + 2 = 1 Utilizando o operador valor esperado, assumindo que E(t ) = 0: E(2 = 1 = 1 ct + 2 + 2 ct + 2 + 2 124 ct xt + ct xt (wt + ct )E(t )

Para que o estimador 2 =

kt yt seja no-enviesado, ento a a ct = 0 e ct xt = 0 (wt + ct )t

Simplicando: Para alm disso e ct wt =

2 =

kt yt = 2 +

Usando as propriedades da varincia, obtm-se a e var(beta2 ) = var(2 + (wt + ct )t ) = (wt + ct )2 var(t ) 2 (wt + ct )2 = 2 wt + 2 c2 = 2 t c2 = var(2 ) + 2 t var(2 ) uma vez que c2 0. t

c (x x) t t = (xt x)2

1 (xt x)
2

ct xt

x (xt x)2

ct = 0

A.0.5

Consistncia e

Diz-se que um estimador consistente, quando ` medida que aumenta o tamanho da amostra, e a o valor do estimador se aproxima do valor real do parmetro. Poder-se- escrever ento que a a a para um estimador consistente plim =

125

Apndice B e

O Mtodo dos M e nimos Quadrados


A lgica do Mtodo dos M o e nimos Quadrados a de determinar os j de modo a minimizar a e soma dos quadrados dos erros: min 2 = i = (yi yi )2 (yi 1 2 X2i 3 X3i . . . k Xki )2

Para o efeito estabelecem-se as condies de minimizao: co ca



2 i 1 2 i 2 2 i 3

= 2 = 2

(yi 1 2 X2i 3 X3i . . . k Xki ) = 0 X2i (yi 1 2 X2i 3 X3i . . . k Xki ) = 0 X3i (yi 1 2 X2i 3 X3i . . . k Xki ) = 0 Xki (yi 1 2 X2i 3 X3i . . . k Xki ) = 0

j :

Resolvendo, obtm-se o sistema de equaes normais que permite determinar cada um dos e co

= 2 (. . .) 2 i = 2
k

yi = n1 + 2 X2i + 3 X3i + . . . + k Xki 1 X2i + 2 X 2 + 3 X3i X2i + . . . + k Xki X2i yi X2i = 2i 2 yi X3i = 1 X3i + 2 X2i X3i + 3 X3i + . . . + k Xki X3i (. . .) 2 yi Xki = 1 Xki + 2 X2i Xki + 3 X3i Xki + . . . + k Xki

126

Você também pode gostar