Você está na página 1de 31

Modelar relaes entre variveis quantitativas

Seminrios de mtodos e anlise de dados

Sumrio
1. Correlao entre duas variveis 2. Regresso linear simples 3. O problema da 3 varivel 4. Regresso linear mltipla 5. Teste de efeitos de mediao e de moderao 6. Path analysis

Doutoramento em Psicologia Abril 2010

Lus Fasca
2

7. Variaes

Modelar relaes entre variveis quantitativas


Parte 1 Correlao entre duas variveis

Correlao
A associao entre duas variveis quantitativas preferencialmente expressa por um coeficiente de correlao. Existem diversos coeficientes de correlao, sendo os principais o coeficiente de correlao de Pearson (adequado avaliao de relaes lineares) e o coeficiente de correlao de Spearman (adequado avaliao de relao mnotonas). O facto de o valor de um coeficiente de correlao se situar entre -1 e +1 torna a sua interpretao muito facilitada.

Utilizao de medidas de correlao


A anlise da correlao entre variveis das tcnicas estatsticas mais utilizadas em Psicologia. a) Atravs de uma nica medida permite avaliar o sentido e intensidade da relao entre duas variveis quantitativas; b) Permite saber qual varivel a melhor preditora de outra varivel de interesse (por exemplo, qual o melhor preditor do sucesso acadmico?).

Relao entre duas variveis quantitativas


Pretende-se averiguar se o nvel de conhecimento de vocabulrio afecta a velocidade de leitura em estudantes universitrios. O estudo envolveu 50 participantes. Varivel X nvel de conhecimento do vocabulrio, avaliado atravs de uma prova (cotao entre 0 e 40) Varivel Y velocidade de leitura (avaliada pelo nmero de palavras lidas num intervalo de dois minutos).

Existir relao entre estas duas variveis?

Amostra (N = 50)
Num 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 X 15 16 5 14 10 22 4 4 12 21 4 9 15 18 10 6 7 Y 44 41 35 38 39 49 37 22 58 60 39 52 16 46 79 46 15 Num 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 X 18 19 8 19 16 26 6 15 9 12 26 6 7 17 29 21 15 Y 53 44 24 54 83 67 77 14 21 72 104 27 30 57 90 51 43 Num 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 X 5 18 4 14 11 14 6 22 19 6 14 15 6 11 26 20 Y 54 29 42 15 35 18 52 60 68 25 30 23 31 22 133 62

Coeficiente de correlao linear


O coeficiente de correlao linear de Pearson ( r ) expressa a intensidade e o sentido da relao linear que existe entre duas variveis numricas. Os seus valores variam entre - 1 e + 1.

17

Coeficiente de correlao
Como interpretar o coeficiente de correlao? r XY = + 0,5266
O sinal do coeficiente indica o sentido da relao entre as duas variveis. A magnitude do coeficiente indica a intensidade da relao linear entre as duas variveis.

Coeficiente de correlao
Como interpretar o sinal do coeficiente de correlao? se o coeficiente de correlao entre duas variveis for positivo (r > 0) ento elas variam no mesmo sentido (ou seja, valores elevados de uma varivel esto associados a valores elevados da outra varivel; valores baixos de uma varivel esto associados a valores baixos da outra varivel); se o coeficiente for negativo (r < 0), as variveis variam em sentido inverso (valores elevados de uma varivel esto associados a valores baixos da outra varivel); se o coeficiente tiver valor 0 (r = 0), no existe relao linear entre as duas variveis.

10

Coeficiente de correlao
Como interpretar a magnitude do coeficiente de correlao? se o coeficiente tiver valor 0 (r = 0), no existe relao linear entre as duas variveis. quanto mais prximo de 1 for o valor absoluto do coeficiente, mais intensa a relao linear entre as duas variveis.

Uma interpretao da magnitude do coeficiente de correlao de Pearson


A magnitude do coeficiente de correlao de Pearson pode ser interpretada em termos da variao de uma varivel que explicada pela variao da outra varivel. Assim, o quadrado de r indica em que a percentagem da varincia de uma varivel que explicada pela varincia da outra. r2 = (+0,53)2 = 0,2809 Que significa este valor?

Se | r | < 0,20, a correlao negligencivel. Se 0,20 < | r | < 0,40, a correlao fraca. Se 0,40 < | r | < 0,60, a correlao moderada. Se 0,60 < | r | < 0,80, a correlao forte. Se | r | > 0,80, a correlao muito forte.

11

(Franzblau, 1958)

12

Uma interpretao da magnitude do coeficiente de correlao de Pearson


O valor obtido indica que 28,1% da varincia de uma varivel (por exemplo, a velocidade de leitura) explicada pela varincia da outra varivel (o nvel de vocabulrio). Significa tambm que 81,5% da varincia da velocidade de leitura se dever a outros factores que no o nvel de vocabulrio do sujeito. Este valor d-nos uma ideia palpvel da fora da associao entre as duas variveis. Estas ideias sero melhor desenvolvidas ao estudar os mtodos de regresso linear.

Coeficiente de correlao
O que uma relao linear? Duas variveis linearmente Duas variveis no relacionadas linearmente relacionadas
X 1 2 3 4 5 Y 2 10 18 26 34 X 1 2 3 4 5 Y 2 3 6 10 15

13

14

Aumentos iguais em X (de 1 em 1) correspondem aumentos iguais em Y (de 8 em 8).

Aumentos iguais em X (de 1 em 1) no so acompanhados por aumentos regulares em Y.

Coeficiente de correlao de Spearman


O coeficiente de correlao de Spearman ( rs ) expressa a intensidade e o sentido da relao montona que existe entre duas variveis numricas. Os seus valores variam entre - 1 e + 1. O coeficiente de correlao de Spearman no exige que a relao seja linear: basta que as duas sequncias evoluam no mesmo sentido (relao montona).

Coeficientes de correlao: Pearson versus Spearman


Duas variveis linearmente relacionadas:

X Y

1 2

2 5

3 8

4 5 11 14

r = + 1,00 rS = + 1,00

Duas variveis no linearmente relacionadas:

X Y

1 2

2 5

3 9

4 5 12 18

r = + 0,83 rS = + 1,00

15

16

Coeficientes de correlao: Pearson versus Spearman


O coeficiente de Pearson avalia a intensidade e sentido da relao linear entre duas variveis; pode ser aplicado a dados no lineares, mas neste caso o seu valor no ir reflectir correctamente a intensidade da relao que existe entre as variveis. O coeficiente de Spearman avalia a intensidade e sentido da relao montona entre duas variveis; pode ser aplicado a dados lineares e no lineares; no entanto, no leva em conta a natureza escalar das variveis em estudo (assume que as variveis esto medidas numa escala ordinal). Quando a relao entre as variveis no montona, nenhum destes coeficientes ir reflectir correctamente a intensidade da relao.

Tipos de associao e correlao


Tipo de associao Linear Tcnicas de correlao Pearson Spearman Spearman Tcnicas de regresso no linear Tcnicas de regresso no linear Correlao intra-classe

Mntona no linear

No montona

17

18

Interpretao conjunta dos coeficientes de correlao de Pearson e de Spearman


Se o coeficiente de Pearson e o coeficiente de Spearman tomarem valores semelhantes, estamos provavelmente perante uma relao linear. Se coeficiente de Spearman tomar valores superiores ao de Pearson, provavelmente estamos perante uma relao no linear montona. Se o coeficiente de Pearson tomar valores superiores ao de Spearman, pode tratar-se de um artefacto devido presena de outliers. Se ambos os coeficientes forem negligenciveis, podemos estar perante uma relao no linear no montona ou perante ausncia de relao entre as duas variveis.

Representao grfica de dados bivariados


Diagrama de disperso (scatter plot)
Cada ponto corresponde a uma observao da amostra; ao conjunto chama-se nuvem de pontos. Pode haver pontos sobrepostos. Neste grfico pode ser inserida informao adicional sobre cada observao.

19

20

Correlao de Pearson e relao linear


80 70 60 50 40 30 20

Correlao de Pearson e de Spearman e relao linear


70
70

140

70

r = + 0,08

120 100 80 60 40 20

r = + 0,52

60

r = + 0,95

60
50

r = + 0,99

60

r = + 0,80

50
50
40

40
30

40

VAR_Y2

10 0 0 10 20 30

0 -20 0 10 20 30

VAR_Y3

VAR_Y1

20

30

30

10

20

30

VAR_Y4

10

20

VAR_Y4

20

VAR_X

VAR_X

VAR_X

10 0 10 20 30

10 0 10 20 30

70

70

100

VAR_X

VAR_X

60

r = + 0,99

60

r = - 0,04

80

r = - 0,86

50

50

60

40

40

40

30

30

20

VAR_Y4

VAR_Y6

10 0 10 20 30

10 0 10 20 30

VAR_Y8

20

20

A relao entre X e Y claramente linear. Aqui tanto o coeficiente de correlao de Pearson como o de Spearman atingem valores muito prximos do mximo (+1).
30

-20 0 10 20

21

VAR_X

VAR_X

VAR_X

22

A presena de outliers reduz marcadamente o valor da correlao entre duas variveis, tanto para o coeficiente de Pearson como de Spearman. Se no houvesse o outlier, a correlao seria r = +0,99.

Correlao de Pearson e de Spearman e relao mnotona


400 120

Correlao e estatstica indutiva


Em geral, estuda-se a correlao amostral (r) para tirar concluses sobre a correlao na populao () de onde proveio a amostra.

r = + 0,89
300

100

r = + 0,05

80

200

60

40 100

VAR_Y7

VAR_Y5

20

0 0 10 20 30

0 0 10 20 30

VAR_X

VAR_X

23

A relao entre X e Y montona crescente mas no linear. Enquanto que o coeficiente de correlao de Spearman atinge o valor mximo (+1), o coeficiente de correlao de Pearson fica necessariamente abaixo desse valor (+0,89).

A relao entre X e Y existe mas no linear nem montona. Aqui, ambos os coeficientes de correlao tm valores prximos de zero.

Muitas vezes, o que interessa saber se na populao existe correlao (no nula) entre as duas variveis na populao trata-se de saber se as variveis esto ou no (linearmente) relacionadas.

24

Correlao e estatstica indutiva


Como em qualquer estatstica amostral, o erro de amostragem pode fazer com que o coeficiente de correlao obtido na amostra (r) se desvie relativamente ao valor da correlao populacional (). Assim, um coeficiente de correlao amostral no nulo no garante que seja no-nulo o coeficiente de correlao populacional.

Correlao e estatstica indutiva


Atravs dos testes de significncia sobre correlaes, a estatstica indutiva permite avaliar com segurana se o coeficiente de correlao obtido na amostra estatisticamente diferente de zero, ou seja, se a correlao observada no se deve a flutuaes amostrais mas sim algo de real na populao de onde a amostra foi retirada.

r = 0,18

=?

Amostra

Populao

25

26

Correlao e estatstica indutiva


EXEMPLO Objectivo: avaliar em adolescentes existe associao entre a introverso/extroverso e o tempo dispendido a ver televiso. Resultados: num grupo de 30 adolescentes observou-se uma correlao de r = -0,43 entre a pontuao na introverso/extroverso e o nmero mdio de horas frente TV.

Hipteses de significncia sobre coeficientes de correlao


H0: = 0 versus H1: 0 (teste bilateral) H0: = 0 versus H1: > 0 (teste unilateral direita) H0: = 0 versus H1: < 0 (teste unilateral esquerda)

27

28

Hipteses de significncia sobre coeficientes de correlao


H0: No existe correlao linear entre as duas variveis. versus H1: Existe correlao linear entre as duas variveis. (teste bilateral)
H1: Existe correlao linear positiva entre as duas variveis. (teste unilateral direita) H1: Existe correlao linear negativa entre as duas variveis. (teste unilateral esquerda)

Estatstica de teste
A estatstica usada para testar estas hipteses :

Se as duas variveis correlacionadas tiverem uma distribuio conjunta normal, a estatstica t vai ter uma distribuio t de Student com N - 2 graus de liberdade. Assim, rejeita-se a hiptese nula bilateral se | t | tN-2, /2 (valor crtico da tabela t de Student)

29

30

Condies de aplicao do teste de significncia de uma correlao


Para o teste de significncia do coeficiente de correlao de Pearson ser vlido necessrio que a distribuio conjunta das duas variveis seja normal. Para isso, condio necessria (mas no suficiente) que a distribuio univariada de cada uma seja tambm normal.

Condies de aplicao do teste de significncia de uma correlao

A exigncia da distribuio normal bivariada difcil de garantir. Para contornar tal exigncia, basta que a amostra seja suficientemente grande (em geral, basta N 30, quando se testa hiptese do tipo = 0) para se garantir que a estatstica de teste tenha uma distribuio t de Student.

31

Ilustrao de uma distribuio conjunta normal bivariada

32

Dados
A amostra total constituda por 30 participantes, havendo duas medidas para cada um deles (nvel de introversoextroverso e horas de visionamento de TV).

Teste de significncia de correlaes no SPSS

Analyze / Correlate / Bivariate

33

34

Teste de significncia de correlaes no SPSS

Output

Seleccionar o par de variveis a correlacionar r = - 0,429 p = 0,018 (teste bilateral) Optar pelo coeficiente de correlao desejado (por defeito, Pearson) Seleccionar o tipo de teste (uni ou bilateral) N = 30 As correlaes assinaladas com * ou ** so significativas ao nvel de significncia = 0,05 e = 0,01, respectivamente. Uma correlao assinalada com asterisco(s) indica que se rejeita H0 ao nvel de significncia referido, ou seja, que a correlao em questo significativamente diferente de zero.

35

36

Output
Se a nossa hiptese em teste fosse unilateral esquerda, o teste seria unilateral: H0: = 0 versus H1: < 0

Relatar o resultado de um teste de significncia sobre correlaes (recomendaes da APA)

r = - 0,429 p = 0,009 (teste unilateral) N = 30


O SPSS simplesmente dividiu por 2 o p do teste bilateral: 0,018/2 = 0,009

A associao entre o nvel de introverso-extroverso e o tempo que o adolescente assiste a televiso foi avaliada atravs do coeficiente de correlao de Pearson, indicando uma correlao negativa moderada, significativa ao nvel de significncia = 0,05 (r = - 0,43, gl = 28, p = 0,009, teste unilateral). Este resultado indica que indivduos com maiores nveis introverso tendem a despender maior nmero de horas frente televiso.

37

38

Relatar o resultado de um teste de significncia sobre correlaes (recomendaes da APA)


Texto
A associao entre o nvel de introverso-extroverso (...) foi avaliada atravs do coeficiente de correlao de Pearson indicando uma correlao negativa, significativa ao nvel de significncia = 0,05 (r = - 0,43, gl = 28, p = 0,009, teste unilateral)

Significncia versus Magnitude


Uma associao pode ser significativa mas ser negligencivel. A avaliao da significncia depende fortemente da dimenso da amostra. Numa amostra pequena, mesmo uma correlao elevada pode no ser significativa; numa amostra grande, uma correlao negligencivel pode ser significativa.
1 0,9 0,8

Comentrio
Indicar o tipo de coeficiente de correlao que se utilizou

Coeficiente de correlao

Para cada valor de N indica-se o valor mnimo de r que significativo num teste bilateral com = 0,05

0,7 0,6 0,5 0,4 0,3 0,2 0,1 0


0 10 20 30 40 50 60 70 80 90 100 110 120 130 140 150 160 170 180 190 200 210 220 230 240 250 260 270 280 290 300

Indicar o sinal da correlao, o nvel de significncia utilizado e se a correlao ou no significativa Indicar o valor de r, os graus de liberdade associados, o valor p (e se corresponde a um teste uni ou bilateral) Explicar o significado da correlao, no esquecendo de comentar a magnitude da mesma.

Este resultado indica que o nveis introverso parecem associar-se, de forma moderada, ao nmero de horas que se gasta a ver televiso.

39

40

Uma correlao r = 0,40, s significativa se N > 22.

Amostra (N)

Significncia versus Magnitude


0,20 0,19 0,18 0,17 0,16

Significncia versus Magnitude


Em amostras pequenas, frequente obter correlaes moderadas (ou mesmo fortes) mas que no so estatisticamente significativas apenas porque a dimenso da amostra no permite afirmar com segurana que a correlao no seja nula. Nestes casos, poder-se- dizer algo como obtevese uma correlao moderada que, no entanto, no se revelou estatisticamente significativa, talvez devido dimenso reduzida da amostra.

C oe fic ien te de c orre la o

0,15 0,14 0,13 0,12 0,11 0,10 0,09 0,08 0,07 0,06 0,05 0,04 0,03 0,02 0,01 0,00

Para cada valor de N indica-se o valor mnimo de r que significativo num teste bilateral com = 0,05

100

1000

10000

100000

Uma correlao claramente negligencivel (r = 0,06) significativa desde que N > 1000.

Em amostras grandes, frequente obter correlaes negligenciveis que so estatisticamente significativas. Neste casos, convm assinalar algo como obteve-se uma correlao significativa mas de magnitude negligencivel.

Amostra (N)

41

42

Hipteses de conformidade sobre coeficientes de correlao


Nestas situaes pretende-se testar no se o coeficiente de correlao nulo (teste de significncia) mas sim se ele igual a um valor especificado partida. Poder ser uma forma de contornar a limitao apontada anteriormente (a significncia de um coeficiente de correlao pode significar muito pouco em termos psicolgicos).

Hipteses de conformidade sobre coeficientes de correlao


H0: = k versus H1: k (teste bilateral) H0: = k versus H1: > k (teste unilateral direita) H0: = k versus H1: < k (teste unilateral esquerda)
O teste destas hipteses no se pode realizar directamente no SPSS.

43

44

Transformao de Fisher
O teste destas hipteses envolve a transformao de Fisher:

Estatstica de teste
A estatstica de teste :

O valor de r observado na amostra transformado num valor de Z1 que tem um comportamento distribucional mais correcto (mais prximo de uma varivel normal).

Esta estatstica tem uma distribuio aproximadamente normal padronizada N(0, 1).

45

O valor de k, hipotetizado em H0, tambm transformado num valor Z2.

46

Exemplo
H0: = -0,5 versus H1: -0,5

Exemplo
Como |Z| < z/2, no se rejeita H0 ao nvel de significncia = 0,05.

O valor da r = - 0,429 da amostra transformado em Z1 = 0,459. O valor hipotetizado = - 0,5 transformado em Z2 = 0,549. A estatstica de teste :

Portanto, podemos afirmar, ao nvel de significncia = 0,05, que a correlao entre o nvel de introverso e o tempo gasto a ver TV tem uma magnitude semelhante a - 0,50, ou seja, trata-se de uma correlao moderada.

47

48

Modelar relaes entre variveis quantitativas


Parte 2 Regresso linear simples

Regresso linear
A tcnica da regresso linear permite descrever a relao entre variveis (uma varivel dependente e uma ou vrias variveis independentes) e possibilita predizer os valores da varivel dependente a partir dos preditores. A varivel dependente tem de ser numrica (escala); as variveis independentes devem ser preferencialmente numricas, mas podem ser dicotmicas.

49

50

Regresso linear simples


A recta de regresso (regresso linear simples) uma forma de sumariar e apresentar dados bivariados, quando existe uma varivel dependente e uma varivel independente. A recta de regresso de Y em X tem a expresso Y = a + b X, sendo os valores a e b (parmetros da recta) calculados a partir da amostra, de forma a que a recta obtida seja a que melhor se ajusta nuvem de pontos.

Mtodo dos mnimos quadrados


O ajustamento da recta nuvem de pontos feito atravs da tcnica dos mnimos quadrados, que minimiza o valor total das distncias (ao quadrado) entre todos os pontos e a recta que se procura identificar.

Distncias entre o ponto e a recta de regresso


Nota: As distncias dos pontos recta podem ser negativas ou positivas, pelo que se usa o seu valor ao quadrado

51

52

Mtodo do mnimos quadrados


Qual destas linhas mais minimiza o valor total das distncias entre os pontos e a recta?
40 35 30 Y - Velocidade 25 20 15 10 5 0 0 5 10 15 20 25 X - Vocabulrio

Regresso linear simples

53

O mtodo dos mnimos quadrados vai determinar a inclinao da recta (declive) e o ponto onde ela cruza o eixo dos YY (constante), de modo a garantir que a recta passe o mais prximo possvel da totalidade dos pontos da amostra. Trata-se de uma soluo de compromisso (uma vez que impossvel uma recta passar perto de todos os pontos da nuvem).

Y=a+bX
Varivel dependente Constante Varivel independente Declive

54

Parmetros de regresso
A recta de regresso permite descrever matematicamente a relao linear entre X e Y. Os valores a e b podem ser calculados a partir das frmulas:
Declive: o seu sinal determina a inclinao da recta (se b for positivo, a relao entre X e Y positiva; se b for negativo, a relao entre X e Y negativa). O seu valor indica em que medida Y muda em funo de X, reflectindo o grau de associao entre ambos. Constante (ordenada na origem): Indica o valor de Y que se espera observar quando X = 0.

Parmetros de regresso
Constante e Declive

55

56

Regresso linear simples


EXEMPLO Pretende-se averiguar se o nvel de conhecimento de vocabulrio afecta a velocidade de leitura em estudantes universitrios. O estudo envolveu 50 participantes. Varivel X nvel de conhecimento do vocabulrio, avaliado atravs de uma prova (cotao entre 0 e 40) Varivel Y velocidade de leitura (avaliada pelo nmero de palavras lidas num intervalo de dois minutos).

Dados recolhidos (n = 50)


Num 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 X 15 16 5 14 10 22 4 4 12 21 4 9 15 18 10 6 7 Y 44 41 35 38 39 49 37 22 58 60 39 52 16 46 79 46 15 Num 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 X 18 19 8 19 16 26 6 15 9 12 26 6 7 17 29 21 15 Y 53 44 24 54 83 67 77 14 21 72 104 27 30 57 90 51 43 Num 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 X 5 18 4 14 11 14 6 22 19 6 14 15 6 11 26 20 Y 54 29 42 15 35 18 52 60 68 25 30 23 31 22 133 62

57

Existir relao entre estas duas variveis?

58

17

Constante e declive

Constante e declive
Constante = 21,095 Espera-se que uma pessoa que no tiver qualquer ponto na prova de vocabulrio (X = 0 pontos) tenha uma velocidade de leitura de a = 21,1 21 palavras. Declive = 1,892 O sinal positivo, indicando que quanto maior a pontuao no vocabulrio, maior a velocidade de leitura; o valor 1,9 2, o que significa a mudana de 1 ponto na varivel X (vocabulrio) corresponde a mudar 2 * 1 = palavras na velocidade de leitura (Y). Assim, uma pessoa que tenha mais 5 pontos no teste de vocabulrio do que outra ler, em mdia, mais 2 * 5 = 10 palavras no teste de leitura.

Os valores de a e de b (coeficientes de regresso) calculados a partir da amostra foram:

Y = 21,095 + 1,892 X
59
Constante Declive

60

10

Interpretao de a e b
No entanto, a interpretao dos valores de a e de b no prtica corrente em Psicologia. A recta de regresso serve sobretudo para: resumir os dados atravs de uma expresso matemtica simples; proceder predio de valores de Y a partir de valores de X; representar graficamente a tendncia mdia da nuvem de pontos.

Constante e declive

61

62

Coeficiente de regresso padronizado no caso da regresso simples, corresponde ao coeficiente de correlao de Pearson

Teste da significncia dos coeficientes de regresso (H0: = 0).

Predio
A recta de regresso Y = a + b*X permite estimar valores de Y conhecendo valores de X (desde que se tenha confiana na recta por ns obtida). X - Vocabulrio Y Velocidade de leitura

Coeficiente de determinao (R2)


O coeficiente de determinao (R2) avalia o grau em que a recta se ajusta nuvem de pontos. No caso da regresso linear simples, este coeficiente equivale ao quadrado do coeficiente de correlao (da a sua designao):

Qual a velocidade mdia de leitura que se espera que tenha uma pessoa com 13 pontos na prova de vocabulrio (X = 13)? Y = 21,095 + 1,892*13 = 45,691 45,7 palavras Espera-se que, em mdia, essa pessoa tenha uma velocidade de leitura de aproximadamente 45,7 palavras. Teremos confiana nesta predio?

R2 = r2
O coeficiente de determinao expressa a confiana que se pode ter na recta como estando a descrever correctamente os dados bivariados em estudo.

63

64

Coeficiente de determinao (R2)


O coeficiente de determinao reflecte o grau em que a varivel independente X determina a varivel dependente Y. O seu valor pode ser interpretado em termos de percentagem, indicando a percentagem na varincia de Y que explicada pela varincia de X.

Coeficiente de determinao (R2)


No presente exemplo: R2 = r2 = 0,5266 * 0,5266 = 0,2773 Apenas 27,73% da varincia de Y explicada pela varincia de X; 72,27% da varincia de Y dever-se- a outros factores que no o nvel de vocabulrio do sujeito. Por este valor ser relativamente reduzido, a recta de regresso no muito fivel para predizer valores de Y a partir de valores de X.

65

66

11

Coeficiente de determinao (R2)


Model Summary Model 1 R ,527a R Square ,277 Adjusted R Square ,262 Std. Error of the Estimate 20,846

Representao grfica
Velocidade = 21,09 + 1,89 * Vocabulrio R-Square = 0,28
125

a. Predictors: (Constant), Vocabulrio

Velocidade

Erro envolvido na predio

100

75

50

25

A recta de regresso pode ser desenhada no grfico de disperso. Pe-se assim em evidncia a tendncia linear dos dados mas mostra-se igualmente a grande disperso da nuvem de pontos em torno da recta, responsvel por uma valor relativamente baixo de R2.
5 10 15 20 25

67

68

Vocabulrio

Outliers

Deteco de pontos de influncia


Diversas medidas tm sido usadas para avaliar o impacto dos diversos pontos na regresso.
Velocidade = 21,09 + 1,89 * Vocabulrio R-Square = 0,28
125

Distncia de Cook (se D > 1, o ponto influente na regresso poder ser um outlier) D = 0,495 Esta observao a que tem maior valor de influncia na regresso, mas est dentro da gama de valores usuais

100

Velocidade

75

Os outliers podem ter influncia marcada na orientao da recta, pelo que necessrio detectar a sua presena (atravs da inspeco do scatter plot ou, de forma mais complexa, atravs da leverage analysis)

50

25

69

70

10

15

20

25

Vocabulrio

Deteco de pontos de influncia


Velocidade = 21,09 + 1,89 * Vocabulrio R-Square = 0,28
125

Regresso linear inferencial


O output do SPSS, para alm da informao descritiva (valor de R2 e indicao dos parmetros da equao de regresso), apresenta ainda dois tipos de testes de significncia destinados a avaliar se o efeito do(s) preditores observado na amostra se deve ao acaso ou se, pelo contrrio, significativo.

Leverage values leverage < 0.2 OK 0.2 < leverage < 0.5 risky leverage > 0.5 outlier

100

Velocidade

75

50

25

10

15

20

25

Vocabulrio

leverage = 0,108 Esta observao tem o maior valor leverage, mas est dentro da gama de valores usuais

71

72

12

Regresso linear inferencial


Teste global do modelo de regresso: testa globalmente a significncia do modelo de regresso, permitindo avaliar se as predies feitas a partir do modelo de regresso so significativamente mais acertadas que se nos basearmos na mdia da varivel dependente. Este teste de significncia uma ANOVA e equivale a um teste simultneo da significncia de todos os parmetros de regresso (no caso da regresso simples, trata-se apenas do teste simultneo da significncia do declive e da constante).

Regresso linear inferencial


Teste global do modelo de regresso:
ANOVAb Model 1 Sum of Squares 8003,165 20859,315 28862,480 df 1 48 49 Mean Square 8003,165 434,569 F 18,416 Sig. ,000a

Regression Residual Total

a. Predictors: (Constant), Vocabulrio b. Dependent Variable: Velocidade

O modelo de regresso significativo [F(1, 48) = 18,4, p = 0,000], ou seja, o vocabulrio (preditor) tem um contributo significativo (no nulo) na explicao da variao da velocidade da leitura. Assim, a velocidade de leitura pode ser predita de forma mais acertada a partir do nvel de vocabulrio dos sujeitos do que a partir da varivel dependente.

73

74

Regresso linear inferencial


Um -parte: O que um modelo de regresso significativo?

Regresso linear inferencial


Caso o teste global ao modelo de regresso seja significativo, podemos

Imagine-se que se conhece o desempenho escolar de uma amostra de quatro alunos: 12, 14, 17, 17 valores. Sem mais nenhuma informao, como se poderia predizer o desempenho de um outro aluno dessa turma? Em princpio, o mais sensato seria atribuir-lhe 15 valores (equivalente ao desempenho mdio dos alunos includos na amostra e de conhecamos as notas) nas ausncia de informao adicional, seria isso o melhor que se poderia fazer em termos de predio Se um modelo de regresso em que se use o nmero de horas de estudo para predizer o desempenho do aluno for significativo, isso quer dizer que, ao basearmos a predio no nmero de horas de estudo (ao invs de lhe atribuirmos simplesmente a classificao mdia da turma), conseguiremos uma melhor predio (ou seja, o contributo deste preditor superior ao acaso).

estar interessados em saber se todos os parmetros da regresso ou apenas alguns deles so significativos (uma espcie de anlise post-hoc, aps o teste global ANOVA). O SPSS procede, ento, ao teste individual de cada parmetro de regresso (H0: = 0). Teste de significncia individual dos coeficientes de regresso: permite avaliar separadamente a significncia de cada um dos parmetros estimados, podendo-se chegar concluso de que algum deles (ou ambos) no contribuem para explicao da VD.

75

76

Regresso linear inferencial


Teste de significncia individual dos coeficientes de regresso:
Coefficientsa Unstandardized Coefficients B Std. Error 21,095 6,618 1,892 ,441 Standardized Coefficients Beta ,527

Anlise dos resduos


A anlise dos resduos permite avaliar se os pressupostos da regresso esto a ser observados e pode sugerir aspectos a melhorar no modelo de regresso.
Apenas na situao a) o comportamento dos resduos garante a confiana no modelo de regresso.

Model 1

(Constant) Vocabulrio

t 3,188 4,291

Sig. ,003 ,000

a. Dependent Variable: Velocidade

Ambos os parmetros so significativos (p < 0,05), ou seja, diferem de zero; assim, tanto a constante como o declive tm um contributo real para a predio da velocidade de leitura. Nota: no caso da regresso linear simples, o coeficiente de regresso padronizado equivalente ao coeficiente de correlao.

77

78

13

Normalidade dos resduos


Um aspecto importante a levar em conta para garantir a confiana nos testes de hipteses em regresso a normalidade da distribuio do resduos (sobretudo se a amostra no for grande).

Anlise dos resduos (exemplo)

79

80

A distribuio dos resduos em funo dos valores preditos sugere que no existem problemas em termos de heterocedasticidade nem de linearidade. A distribuio dos resduo apresenta algum desvio da normalidade (Normal P-P plot), talvez devido ao facto da amostra ser de pequena dimenso (N = 50).

Regresso linear simples


Na regresso linear simples existe uma varivel dependente e apenas uma varivel independente. As potencialidades da tcnica de regresso no so evidentes no caso da regresso linear simples, pois aqui pouco se adianta face ao clculo do coeficiente de correlao de Pearson; no entanto, a identificao dos parmetros de regresso permite fazer predies (que no so possveis unicamente com a correlao).

Modelar relaes entre variveis quantitativas


Parte 3 Relaes entre trs variveis

81

82

Correlao parcial
A correlao entre duas variveis pode ser influenciada por uma terceira varivel. Nestes casos, pode interessar conhecer qual a correlao entre duas variveis mantendo fixo o efeito da terceira varivel.

Correlao parcial
Ansiedade face a exames e Desempenho no exame Qual a relao? r = - 0,44 (p < 0,001) Mas se se levar em conta o grau de investimento na reviso da matria de exame? Esta varivel correlaciona positivamente com o desempenho (r = 0,40) e negativamente com a ansiedade (r = - 0,71).

83

84

14

Correlao parcial
Varincia do Desempenho explicado pela Ansiedade (19,36%) Ansiedade face a exames Desempenho no exame

Correlao parcial
Desempenho no exame

19,36%

15,76%

Investimento no estudo

Varincia do Desempenho explicado pelo Investimento

85

86

Correlao parcial
Varincia do Desempenho explicada unicamente pela Ansiedade Desempenho no exame Varincia do Desempenho explicada unicamente pelo Investimento

Correlao parcial
Qual a correlao entre Ansiedade face a exames e Desempenho no exame, quando se controla o tempo de estudo? rparcial = - 0,25 (p < 0,05) A correlao reduz-se, significando que parte do efeito da ansiedade no desempenho resulta de no se ter feito investimento na reviso da matria.

?? ??

??

87

Varincia do Desempenho explicada conjuntamente pela Ansiedade e pelo Investimento

88

O problema da 3 varivel
Moderao

Mediao
Efeito total
Idade

Duas variveis

Mediao Supresso
Trs variveis

Conduo segura

Idade

Efeito directo

Relao espria (confounding)


Experincia de conduo

Conduo segura

Efeito mediado

89

90

Efeito total = efeito directo + efeito indirecto A mediao pode ser total ou parcial, dependendo do efeito directo ser nulo ou no.

15

Moderao
Duas variveis Trs variveis
Idade Idade Sexo Conduo segura Conduo segura

Supresso
Duas variveis
Coping: estratgia de escape (0) Realizao pessoal

A forma da relao entre as duas variveis depende da 3 varivel (a 3 varivel interage com o preditor).

Escape Trs variveis


Mulheres Homens (+)

(+) (-)

Realizao pessoal

91

A moderao envolve a Idade existncia de um contributo Sexo significativo da interaco entre VI e moderador sobre a VD. Sexo * Idade

Conduo segura

92

Se a 3 varivel tem efeito supressor, ento, ao explicitarmos o seu efeito na anlise, a relao directa entre as outras duas variveis tende a intensificar-se.

Stress

Confounding (relao espria)


Duas variveis Rendimento familiar Risco de cancro

Importncia da definio conceptual da relao entre variveis: mediao e relao espria?


As relaes de mediao e confounding no se distinguem ao nvel estatstico, uma vez que se baseiam no sentido da influncia entre as variveis A distino de natureza terica qual a preditora e qual a varivel de resposta?

Trs variveis

Rendimento familiar

Risco de cancro Idade

93

A relao positiva entre Rendimento familiar e Cancro resulta de ambas as variveis se correlacionarem positivamente com a terceira varivel (IDADE).

94

Importncia da definio conceptual da relao entre variveis: Quem modera quem?


Idade Sexo Sexo * Idade Conduo segura

Complicaes
Mediao mltipla
Optimismo
(-) (+) (-)

Adeso teraputica

Matematicamente indiferente se se considera que o sexo que modera o efeito da idade sobre a conduo segura ou se a idade que modera o efeito do sexo sobre a conduo segura. A deciso ter de ser ao nvel conceptual e terico.

( + ) Depresso ( + )

Crena na eficcia preciso garantir que os diferentes mediadores sejam conceptualmente distintos e no correlacionem fortemente entre si.

95

96

16

Complicaes
Mediao dupla (mediated mediation)
Escolaridade Adeso teraputica

Complicaes
Mediao moderada (moderated mediation)
Idade Conduo segura Experincia de conduo Idade Conduo segura Experincia de conduo

Procura de informao sobre terapia Crena na eficcia da terapia

Mulheres

Homens

97

98

O efeito mediador da experincia de conduo moderado pelo sexo do condutor (existe mediao nos homens mas no nas mulheres).

Complicaes
Moderao mediada (mediated moderation)
Idade Sexo Sexo * Idade Procura de risco Conduo segura

Modelar relaes entre variveis quantitativas

Parte 4 Regresso mltipla

99

A moderao pelo sexo do efeito da idade sobre a conduo mediada pelo grau de risk seeking do indivduo.

10 0

Regresso linear mltipla


A regresso mltipla permite predizer os valores da varivel dependente a partir de um conjunto de variveis independentes.

Regresso linear mltipla


No caso da regresso mltipla pretende-se avaliar o contributo de duas (ou mais) variveis independentes sobre a varivel dependente. Uma fase importante da regresso mltipla avaliar separadamente o contributo de cada varivel independente para a explicao da varivel dependente; esse contributo pode ou no ser significativo, pode ser complementar ou pode sobrepor-se.

Y = b0 + b1X1 + b2X2 + b3X3


Coeficientes de regresso

10 1

10 2

17

Regresso mltipla
EXEMPLO Objectivo: avaliar o contributo das horas de estudo e da assiduidade dos alunos no seu desempenho numa prova de Histria. Amostra: grupo de 25 alunos, tendo-se registado o nmero de horas que estudaram para o exame, a assiduidade s aulas da disciplina de Histria no ltimo perodo e o resultado no exame de Histria. VD: classificao no exame de Histria VIs: 1) nmero de horas de estudo; 2) assiduidade no ltimo perodo.

Regresso no SPSS

10 3

10 4

Analyze / Regression / Linear

Regresso no SPSS
Seleccionar as variveis dependente (VD) e independentes (VIs). Mtodo: enter
(obrigamos todas as variveis independentes a entrar no modelo de regresso).

Output descritivo
Indicao do valor de R2 (as duas variveis, no seu conjunto, explicam 65,4% do resultado no exame de Histria) Indicao do valor dos coeficientes de regresso (coluna B) Equao de regresso (baseada nos coeficientes no padronizados): Nota no exame = 0,837 + 0,388 x Assiduidade + 0,271 x Horas de estudo

10 5

10 6

Output descritivo
A equao de regresso permite predizer a nota do exame em funo da assiduidade e das horas de estudo: Que nota se espera que tenha um aluno que assistiu a 15 aulas e tenha estudado 20 horas para o exame? Nota no exame = 0,837 + 0,388 x 15 + 0,271 x 20 = 12,077 12 valores O facto de R2 ser elevado (65,4%) d-nos confiana nesta estimativa (uma vez que as duas VI explicam quase 2/3 da variao da nota).

Coeficientes
O peso dos preditores na explicao da varivel dependente deve ser avaliado olhando para os coeficientes (coeficientes padronizados) e no para os coeficientes B (coeficientes no-padronizados).

Assiduidade mais importante?

Horas de estudo mais importantes?

10 7

10 8

O peso explicativo das horas de estudo ( = 0,60) quase o dobro do peso explicativo da assiduidade ( = 0,31).

18

Coeficientes B versus Coeficientes


Enquanto que os coeficientes B reflectem a mudana da VD quando a VI muda uma unidade (por exemplo, quanto muda a nota de Histria quando se estuda mais uma hora), os coeficientes fornecem uma medida padronizada de associao entre VD e VI, independente da escala de medida da VI. Por exemplo, se o tempo de estudo fosse medido em horas o coeficiente B correspondente seria necessariamente maior (B = 0,271) do que se o tempo de estudo fosse medido em minutos (B = 0,00452). No entanto, o coeficiente seria igual nos dois casos ( = 0,598) pois o contributo do tempo de estudo para a variao da nota dever ser o mesmo, independentemente da escala em que esta varivel est a ser medido (horas ou minutos).

Output inferencial
Como referimos no caso da regresso simples, o SPSS avalia a significncia estatstica global do modelo de regresso e a significncia estatstica dos respectivos coeficientes de regresso. Teste global do modelo de regresso: permite avaliar a globalidade do modelo; no fundo, corresponde ao teste estatstico da significncia do coeficiente de determinao (H0: R2 = 0 versus H1: R2 >0). Assim, se for significativo, este teste indica que a percentagem de variao da VD explicada pelas VIs includas no modelo real (no nula).

10 9

11 0

Output inferencial

Regresso linear
O teste global do modelo de regresso no nos informa se todos ou se apenas alguns dos preditores contribuem significativamente para a explicao d a VD. Para isso, necessrio testar a significncia individual de cada preditor. Teste de significncia individual dos coeficientes de regresso: permite avaliar a significncia do contributo individual de cada uma das variveis independentes (preditores) na predio da varivel dependente.

Avalia a significncia global do modelo de regresso.

11 1

O facto da regresso ser significativa [F(2, 22) = 20,8, p = 0,000] indica que predizer a nota a Histria de um aluno com base nas horas de estudo e na assiduidade significativamente melhor que atribuir-lhe a nota mdia obtida pela amostra. As duas variveis contribuem para a explicao de uma fraco significativa (no nula) da variao das notas no exame de Histria.

11 2

Output inferencial
Sero as duas variveis independentes igualmente importantes na predio da nota de Histria?

Importncia de avaliar a significncia dos preditores


O teste de significncia dos coeficientes de regresso permite-nos identificar aqueles cujo contributo para a explicao da varivel dependente no diferente de zero. Com base nesta informao, podemos excluir do modelo de regresso preditores que no tenham contributo significativo. Garante-se assim que o nosso modelo tenha maior 11 parcimnia e seja mais eficaz.

O efeito de ambos os preditores significativo, embora o efeito da assiduidade na nota do exame seja menor ( = 0,31, t = 2,09, p = 0,048) do que o efeito das horas de estudo ( = 0,60, t = 4,02, p = 0,001).

11 3

As estatsticas t testam as hipteses H0: = 0 versus H1: 0.

19

Condies de aplicao anlise dos resduos


Os resultados destes testes de significncia apenas so confiveis se os resduos do modelo tiverem uma distribuio aproximadamente normal. O SPSS disponibiliza algumas opes para proceder anlise da distribuio dos resduos

Contributo individual dos preditores


Viu-se que a assiduidade contribui menos do que o nmero de horas de estudo para a variao observada nas notas do teste de Histria.

No conjunto, os dois preditores explicam 65,4% da variao das notas. Ser um deles dispensvel? Quanto explica cada um deles separadamente?

11 5

11 6

Contributo individual dos preditores


Preditores Assiduidade + Horas de estudo Apenas Assiduidade Apenas Horas de estudo 0,632 0,765 R2 0,654 0,400 0,586

Contributos individuais e contributo partilhado


VD Nota VI Horas de estudo VI - Assiduidade
VI VD VI

Nesta situao o contributo das duas VI complementar e no se sobrepem.

O contributo individual da Assiduidade para a explicao da nota de Histria 40% est longe de ser dispensvel, mas inferior ao das Horas de estudo 59%. A soma dos contributos individuais (40% + 59% = 99%) superior ao contributo dado pelo modelo de regresso mltipla que inclui as duas variveis (65%). Porqu?

VD VI

11 7

11 8

VI

Nesta situao, apenas umas das VI contribui para a explicao da VD.

Contributos individuais e contributo partilhado


VD Nota VI Horas de estudo VI - Assiduidade
VI VI VD

Clculo dos contributos individuais e do contributo partilhado


VD Nota VI Horas de estudo VI - Assiduidade a b c VD

Nesta situao o contributo das duas VI sobrepem-se (pois as VI esto correlacionadas entre si, pelo que alguma da informao que transmitem sobre a VD redundante) .

VI

VI

11 9

esta a situao que se observa no presente exemplo, e por isso os contributos individuais no se podem somar . O contributo de uma VI para a explicao da VD j inclui parte do contributo da outra VI.

Contributo total = a + b + c = 0,654

12 0

Contributo individual assiduidade = a + b = 0,400 Contributo individual horas = b + c = 0,586

20

Contributos individuais e contributo partilhado


VD Nota VI Horas de estudo VI - Assiduidade a VI VD b c VI

Contributos individuais e contributo partilhado


Apesar da assiduidade explicar individualmente 40% da variao do desempenho no exame de Histria, parte importante desse contributo (33%) tambm veiculado pelas horas de estudo. Assim, o contributo especfico da Assiduidade reduzido, sendo-lhe atribudo um peso menor na explicao conjunta do desempenho no teste de Histria.

Contributo especfico da assiduidade = 0,654 - 0,586 = 0,071 Contributo especfico das horas = 0,654 - 0,400 = 0,254 Contributo partilhado = 0,654 - 0,071 - 0,254 = 0,329

12 1

12 2

Outro exemplo
Prever o desempenho escolar a partir das trs aptides genricas medidas pela GATB (factores cognitivo, perceptivo, burocrtico-motor).
Model Summary Model 1 R ,397a R Square ,158 Adjusted R Square ,157 Std. Error of the Estimate ,49302

Exemplo
Anlise dos contributos individuais de cada factor:
Coefficientsa Unstandardized Coefficients B Std. Error 1,529 ,101 ,013 ,001 ,003 ,001 -,001 ,001 Standardized Coefficients Beta ,372 ,072 -,041

a. Predictors: (Constant), Apt Bur-Motor, Apt Perceptiva, Apt Cognitiva


b ANOVA

Model 1

Model 1

12 3

Regression Residual Total

Sum of Squares 91,224 486,376 577,599

(Constant) Apt Cognitiva Apt Perceptiva Apt Bur-Motor

t 15,201 16,239 3,176 -1,884

Sig. ,000 ,000 ,002 ,060

df 3 2001 2004

Mean Square 30,408 ,243

F 125,101

Sig. ,000a

a. Dependent Variable: mdia

a. Predictors: (Constant), Apt Bur-Motor, Apt Perceptiva, Apt Cognitiva b. Dependent Variable: mdia

12 4

Exemplo
Anlise dos resduos

Multicolinearidade
Quando as variveis independentes so fortemente correlacionadas, a interpretao do contributo dos preditores difcil e a estimao dos coeficientes de regresso pouco segura. Indicadores de multicolinearidade das VIs Anlise da matriz de correlao entre VIs (deve-se evitar variveis com |r| > 0,75) Variance inflation factor VIF > 5 indica problemas de multicolinearidade Tolerance (T = 1/VIF) T deve tomar valores prximos de 0

12 5

12 6

21

Multicolinearidade
Coefficientsa Unstandardized Coefficients B Std. Error 1,529 ,101 ,013 ,001 ,003 ,001 -,001 ,001 Standardized Coefficients Beta ,372 ,072 -,041 Collinearity Statistics Tolerance VIF ,801 ,809 ,902 1,249 1,236 1,108

Regresso com variveis dicotmicas


As variveis nominais dicotmicas podem entrar na regresso. Se estiverem codificadas como 0 e 1, o peso do coeficiente de regresso corresponde ao valor que se adiciona (ou subtrai) constante quando nos restringimos s pessoas que integram o grupo codificado como 1.

Model 1

(Constant) Apt Cognitiva Apt Perceptiva Apt Bur-Motor

t 15,201 16,239 3,176 -1,884

Sig. ,000 ,000 ,002 ,060

a. Dependent Variable: mdia

Os valores de Tolerncia e de VIF indicam que no existem problemas de multicolinearidade.

12 7

12 8

Regresso com variveis dicotmicas


Coefficientsa Unstandardized Coefficients B Std. Error 1,454 ,101 ,014 ,001 ,003 ,001 -,002 ,001 ,119 ,022 Standardized Coefficients Beta ,378 ,089 -,060 ,111 Collinearity Statistics Tolerance VIF ,799 ,794 ,877 ,956 1,251 1,259 1,141 1,046

Regresso com variveis politmicas


As variveis nominais politmicas no podem entrar directamente na regresso. Para isso ser possvel, necessrio proceder a uma recodificao em variveis dummy. Uma varivel nominal com k categoria deve ser transformada em k-1 variveis dummy. Variveis dummy V1 V2
Rural 0 1 0 0 0 1

Model 1

(Constant) Apt Cognitiva Apt Perceptiva Apt Bur-Motor sexo

t 14,413 16,573 3,894 -2,764 5,308

Sig. ,000 ,000 ,000 ,006 ,000

a. Dependent Variable: mdia

12 9

O sexo feminino est codificado como 1. Desta forma, as mulheres vo ter, em mdia, um desempenho escolar 0,119 pontos acima do desempenho dos rapazes.

13 0

Concelho

Urbano Grande Centro

Regresso com variveis dummy


Coefficientsa Unstandardized Coefficients B Std. Error 1,473 ,102 ,014 ,001 ,003 ,001 -,002 ,001 ,123 ,022 -,066 ,023 -,031 ,037 Standardized Coefficients Beta ,381 ,090 -,061 ,114 -,061 -,018 Collinearity Statistics Tolerance VIF ,797 ,792 ,859 ,952 ,889 ,875 1,255 1,262 1,164 1,051 1,125 1,142

Regresso por blocos


Consideremos diferentes tipos de variveis que podem explicar o sucesso escolar: Factores cognitivos (aptides) Factores sociodemogrficos pessoais (sexo, idade) Factores geogrficos (concelho, regio) Como avaliar o peso destes factores na explicao do desempenho?

Model 1

(Constant) Apt Cognitiva Apt Perceptiva Apt Bur-Motor sexo v1 v2

t 14,476 16,716 3,954 -2,789 5,452 -2,838 -,830

Sig. ,000 ,000 ,000 ,005 ,000 ,005 ,407

a. Dependent Variable: mdia

13 1

O valor da constante quando V1 = 0 e V2 = 0 (concelho rural) 1,473. Quando V1 = 1 (e V2 = 0), constante retirado o valor 0,066 (reduo significativa); quando V2 = 1 (e V1 = 0), a constante reduzida em 0,031 (reduo no significativa). Pode-se dizer, assim que a mdia escolar nos concelhos Urbanos significativamente inferior dos concelhos rurais, mas que a mdia dos Grandes centros Urbanos no se distingue da dos rurais.

13 2

22

Regresso por blocos


d Model Summary

Mtodos de seleco de variveis em regresso mltipla


Na anlise destes exemplos, utilizou-se o mtodo Enter, que obriga todos os preditores a entrarem como VIs do modelo de regresso. Outros mtodos permitem que entrem no modelo apenas aquelas variveis cujo contributo significativo: mtodo forward, mtodo backward e mtodo stepwise.

Change Statistics Model 1 2 3 R ,082a ,421b ,528c R Square ,007 ,177 ,278 Adjusted R Square ,005 ,175 ,275 Std. Error of the Estimate ,53561 ,48768 ,45710 R Square Change ,007 ,171 ,101 F Change 3,353 207,193 93,117 df1 4 2 3 df2 2000 1998 1995 Sig. F Change ,010 ,000 ,000

a. Predictors: (Constant), v2_reg, v1_conc, v2_conc, v1_reg b. Predictors: (Constant), v2_reg, v1_conc, v2_conc, v1_reg, sexo, idade c. Predictors: (Constant), v2_reg, v1_conc, v2_conc, v1_reg, sexo, idade, Apt Perceptiva, Apt Bur-Motor, Apt Cognitiva d. Dependent Variable: mdia

13 3

Qual o contributo de cada bloco? Qual o contributo total? Qual a consequncia da ordem de entrada estipulada?

13 4

Mtodos de seleco de variveis em regresso mltipla


Mtodo Forward comea por testar um modelo de regresso simples que inclui apenas o melhor preditor da VD (aquele que mais se correlaciona); num segundo momento, o mtodo vai escolher entre os restantes preditores aquele que mais contribui para o que falta por explicar da varincia da VD, criando-se assim um modelo com duas VIs; depois, selecciona o terceiro melhor preditor; e continua desta forma at que s sobrem fora da equao apenas aqueles preditores que no trazem qualquer contributo significativo para a explicao da VD.

Mtodos de seleco de variveis em regresso mltipla


Mtodo Backward comea por testar um modelo que inclui todos os preditores; num segundo momento, este mtodo vai eliminar do modelo aquela VI que menos contribui para a explicao da varincia da VD, criando-se assim um modelo com menos uma VI; depois, num terceiro momento, eliminase outro preditor com contributo irrelevante; e continua-se desta forma at que se tenham eliminado todos os preditores no significativos.

13 5

13 6

Mtodos de seleco de variveis em regresso mltipla


Mtodo Stepwise semelhante ao mtodo forward, mas sempre que se introduz um novo preditor no modelo procedese verificao da importncia dos que j l tinham sido anteriormente includos. Desta forma garante-se que so excludos preditores que eram importantes mas que perderam a importncia pela entrada de novas variveis no modelo de regresso. o mtodo de seleco automtica de VIs mais utilizado em regresso mltipla.

Mtodos de seleco de variveis em regresso mltipla (resumo)


Mtodo Enter Forward Procedimento Todos os preditores so forados a entrar como VI no modelo. A partir de um modelo sem preditores, vo-se acrescentando aqueles que tm um maior contributo para a explicao da VD. A partir de um modelo com todos os preditores, vo se eliminando aqueles que no tm contributo significativo. Numa estratgia forward, sempre que se inclui um novo preditor re-avaliada a pertinncia dos preditores j includos no modelo (pois podem ter-se tornado desnecessrios).

Backward

Stepwise

13 7

13 8

23

Testar efeitos de mediao Modelar relaes entre variveis quantitativas


Parte 5 Testar efeitos de mediao e de moderao
(passos de Baron & Kenny, 1986)
Consultar http://davidakenny.net/cm/mediate.htm X a M Passo 1. Verificar existncia de relao linear entre X (VI) e Y (VD). Este passo estabelece que existe um efeito (total) de X sobre Y (c). X c Y c b Y

13 9

14 0

Baron, R. M., & Kenny, D. A. (1986). The moderator-mediator variable distinction in social psychological research: Conceptual, strategic, and statistical considerations. Journal of Personality and Social Psychology, 51, 1173-1182

Testar efeitos de mediao


(passos de Baron & Kenny, 1986)
Passo 2. Verificar que existe relao linear entre X (VI) e M (mediador). Para isso, fazer uma regresso simples em que X VI e M VD. X a M

Testar efeitos de mediao


(passos de Baron & Kenny, 1986)
Passo 4. Verificar se a mediao total (a relao entre X e Y deixa de ser significativa na presena de M) ou parcial (a relao entre X e Y reduz mas continua a ser significativa na presena de M). Passo 5. Testar a significncia do efeito mediado atravs de teste apropriado (teste de Sobel). Utilizar o calculador on-line: http://people.ku.edu/~preacher/sobel/sobel.htm

Passo 3. Verificar que o mediador afecta a relao entre X e Y. Para isso, fazer uma regresso mltipla com X e M como VIs e Y como VD. c X Y

14 1

14 2

Testar efeitos de moderao


Consultar http://davidakenny.net/cm/moderation.htm Moderadores quantitativos (ou dicotmicos) Passo 1. Centrar a VI e o moderador M (por exmeplo, transformar em z-scores). Passo 2. Criar uma nova varivel represnetando aitenraco VI*M (varivel produto); por se ter incialmente centrado as variveis, evita-se a existncia de multicolinariedade entre os preditores e a varivel de interaco. Passo 3. Realizar uam regresso pro blocos, em que entram em primeiro lugar os preditores isolados (VI e M) e em segundo lugar a varivel VI*M.

Testar efeitos de moderao

Passo 4. Se o contributo do 2 bloco (VI*M) for significativo, existe moderao. Passo 5. Calcular os declives X Y para valores especficos de M (por exemplo, M =0, M = +1 e M = -1); represnetar graficamente a alterao dos declives em funo de M. Passo 6. Considerar a possibilidade de o efeito de moderao no ser linear mas quadrtico ou cbico (para isso, refazer a anlise, considerando blocos com interaces do tipo VI*M2 ou VI*M3 ).

14 3

14 4

24

Testar efeitos de moderao Modelar relaes entre variveis quantitativas


nonidealist average idealist

Low

Average

High

Misanthropy

O efeito da misantropia sobre a atitude favorvel aos direitos do animais parece depender do nvel de idealismo do indivduo: quantro mais idealista menos importncia tem a misantropia na adeso aos direitos dos animais.

Support for Animal Rights

Parte 6 Path analysis

14 5

14 6

Modelo de regresso mltipla


Estratgia de estudo Motivao para o curso Classificao Optimismo Expectativa de emprego Satisfao

Regresso mltipla versus path analysis


A diferena entre um modelo de regresso mltipla e um modelo de path analysis que no primeiro todas as variveis independentes tm o mesmo estatuto (antecedentes da varivel dependente), enquanto que num modelo de path analysis algumas variveis podem ter o estatuto de mediadoras.

14 7

Ficheiro SATISFACTION.SAV

14 8

Path analysis

Variveis exgenas e endgenas


Num modelo de path analysis convm distinguir diferentes tipos de variveis:
Classificao Satisfao

Estratgia de estudo Motivao para o curso Optimismo

Variveis exgenas variveis antecedentes que no so explicada por nenhuma das variveis do modelo Variveis endgenas variveis explicadas por variveis do modelo (se forem antecedentes da VD, so variveis mediadoras do efeito das exgenas sobre a VD)

Expectativa de emprego

14 9

Apesar de especificar efeitos de mediao, este modelo explica exactamente o mesmo do que o modelo de regresso mltipla.

15 0

25

Tipo de variveis
Estratgia de estudo Motivao para o curso Optimismo

Tipos de modelos
Modelo recursivo (a influncia das variveis flui sempre na mesma direco)
Satisfao Estratgia de estudo Classificao Satisfao

Classificao

Expectativa de emprego

Variveis endgenas

Motivao para o curso

15 1

Variveis exgenas

Variveis endgenas mediadoras

15 2

Expectativa de emprego

Tipos de modelos
Modelo no recursivo (existem efeito de retroaco)
Estratgia de estudo Motivao para o curso Classificao Satisfao

Um modelo simplificado

Estratgia de estudo

Classificao Satisfao

Motivao para o curso

15 3

Expectativa de emprego

15 4

Num modelo simplificado, podem eliminar-se os caminhos no significativos, tornando o modelo mais parcimonioso.

Efeitos de uma varivel sobre outra


Estratgia de estudo

Estimar os caminhos do modelo


Os coeficientes de regresso de um modelo de path analysis podem ser estimados por passos, recorrendo ao SPSS (regresso mltipla) ou estimados directamente no AMOS ou LISREL. Vamos exemplificar a sua estimao recorrendo ao SPS.

Classificao

Efeito indirecto (mediado)


Satisfao

Motivao para o curso

Efeito directo

15 5

Efeito directo da Motivao sobre a Satisfao. Efeito indirecto da Motivao sobre a Satisfao, mediado pela Classificao.

15 6

26

Estimar efeitos
Estratgia de estudo

Estimar efeitos
Estratgia de estudo
+0,315
+0,326

R2 = 0,413
+0,315

Classificao

Classificao
+0,427 +0,587

Satisfao Motivao para o curso


+0,587 R2 = 0,655

Satisfao
R2 = 0,655

Motivao para o curso

15 7

Para estimar o contributo da Classificao e da Motivao para a Satisfao, realizou-se uma regresso mltipla no SPSS. Apresnetam-se os coeficientes de regresso padronizados.

15 8

Para estimar o contributo da Estratgia de Estudo e da Motivao sobre a Classificao, realizou-se uma regresso mltipla no SPSS.

Estimar efeitos
Estratgia de estudo
+0,448 +0,326

Estimar efeitos
Erro

R2 = 0,413
+0,315 +0,448

Classificao
+0,427 +0,587

Estratgia de estudo Satisfao


R2 = 0,655

Raizq(1 - R2) = 0,766


+0,326

Classificao
+0,427 +0,587

+0,315

Satisfao
Raizq(1 - R2) = 0,587 Erro

Motivao para o curso

Motivao para o curso

15 9

Para estimar a relao entre a Estratgia de Estudo e a Motivao, calculou-se a correlao de Pearson entre estas duas variveis.

16 0

A partir do valor de R2 de cada regresso, estima-se o peso dos erros em cada varivel endgena (ou seja, a percentagem de varincia que fica por explicar).

Modelo final

Efeito da Motivao sobre a Satisfao


Erro

Erro

Estratgia de estudo
+0,448

+ 0,766
+0,326

Estratgia de estudo
+0,448

+ 0,766
+0,326

Classificao
+0,427

+0,315

Satisfao
+0,587

Classificao
+0,427 +0,587

+0,315

Satisfao
+ 0,587 Erro

Motivao para o curso

+ 0,587 Erro

Motivao para o curso

Efeito directo: 0,587

16 1

16 2

27

Efeito da Motivao sobre a Satisfao


Erro

Efeito da Motivao sobre a Satisfao


Erro

Estratgia de estudo
+0,448

+ 0,766
+0,326

Classificao
+0,427 +0,587

Estratgia de estudo
+0,315 +0,448

+ 0,766
+0,326

Classificao
+0,427 +0,587

+0,315

Satisfao Motivao para o curso


+ 0,587 Erro

Satisfao
+ 0,587 Erro

Motivao para o curso

Efeito indirecto atravs da Classificao: 0,427 * 0,315 = + 0,134

Efeito esprio (atravs da varivel Estratgia de estudo): 0,448 * 0,326 * 0,315 = + 0,046

16 3

16 4

Efeito da Motivao sobre a Satisfao


Efeitos da Motivao sobre a Satisfao
Efeitos Directo Indirecto Esprio Total 0,587 0,134 0,046 0,767

Modelo mais completo

Estratgia de estudo Motivao para o curso Optimismo

Classificao Satisfao

Expectativa de emprego

16 5

Correlao entre Motivao e Satisfao

16 6

Efeitos estimados
Erro

Software especfco para path analysis

+0,45 +0,32

Estratgia de estudo

+0,33

+0,76 +0,39

Erro
+0,41

Classificao
+0,43 +0,47 +0,23 +0,43

Motivao para o curso


-0,04

Satisfao

Optimismo
+0,58

+0,27

Expectativa de emprego
+0,68

16 7

Erro

O AMOS e o LISREL (ao contrrio do SPSS) permitem uma estimao directa de todos os coeficientes do mdoelo; adicionalmente, proprocionam medidas que avaliam o ajustamento global do modelo aos dados, permitindo assim uma abordagem confirmatria (onde se testa um modelo definido a priori).
16 8

28

Avaliao global do modelo


Em geral, a qualidade do ajustamento de um modelo avalia-se recorrendo a um conjunto diversificado de ndices de ajustamento, sendo os seguintes os mais utilizados.

Medidas para avaliao global do modelo


X2 (estatstica do qui-quadrado)
Para haver ajustamento aos dados, no deve ser significativo

RMSR (root mean square residual) RMSR < 0.05 ajustamento muito bom RMSR < 0.08 ajustamento bom

16 9

17 0

X2/gl (Qui-quadrado normalizado) 2 < X2/gl < 3 ajustamento ideal X2/gl < 5 ajustamento bom X2/gl < 1 ajustamento excessivo

Medidas para avaliao do modelo

Modelar relaes entre variveis quantitativas

Gooodness of Fit Index: GFI > 0.9 Adjusted Gooodness of Fit Index: AGFI > 0.9 Normalized Fitness Index: NFI > 0.9

Parte 7 Variaes

17 1

17 2

Variaes
1. Modelos de equaes estruturais (SEM) 2. Regresso no linear 3. Regresso logstica 4. Multilevel regression analysis

Modelos de equaes estruturais


Os modelos de equaes estruturais (structural equation models, SEM) so uma generalizao dos modelos de path analysis, incorporando variveis latentes. Podem-se assim modelizar relaes entre variveis no directamente observadas.

17 3

17 4

29

Modelos de equaes estruturais


Num modelo SEM, as variveis latentes (no osbevadas) so representadas por circunferncia e as variveis observadas por rectngulos.

Modelos de equaes estruturais


Atractividade social em redes sociais virtuais (Facebook) Variveis Atractividade Confiana Profundidade da interaco Amplitude da interaco

17 5

17 6

Regresso no linear
As limitaes da regresso linear (simples ou mltipla) podem ser ultrapassadas recorrendo a modelos no lineares: modelos polinomiais (ainda so considerados lineares) e modelos (verdadeiramente) no lineares.

Regresso no linear
Modelo polinomial quadrtico: permite modelar uma relao no linear entre X e Y, com uma inflexo.

Y = b0 + b1X + b2X2

17 7

Estes dados mostram uma relao que no pose ser apreendida por modelos de regresso linear.

17 8

Podem ser considerados modelos polinomiais de ordem superior (cbicos, etc).

Regresso no linear
Modelo de decaimento exponencial: modelo no linear.

Regresso logstica
Os modelos de regresso exigem que a VD seja quantitiva e contnua. O modelo de regresso logstica permite utilizar variveis dicotmicas ou politmicas como VD.

Y = a *e-bX
Utilizado para modelizar a perda de material memorizado.

17 9

Palavras correctamente evocadas (%)

Perodo de tempo

18 0

30

Regresso logstica
Num modelo de regresso logstica, utilizam-se as variveis preditoras para estimar a probabilidade da varivel dependete tomar determinado valor.
Exemplo de regresso logstica dicotmica VD reprovar ou no num exame VIs horas de estudo, interesse pela disciplina, nvel de aproveitamento noutras disiciplinas, frequncia das aulas...
Probabilidade de reprovar

Modelos de regresso de mltiplos nveis (multilevel regression analysis)

Quando os dados tm uma organziao em nveis (por exemplo, alunos / turmas / escolas / regies), aconselhvel analis-los recorrendo a multilevel regression analysis.

18 1

Preditor com efeito positivo

18 2

Multilevel regression analysis


Estudo europeu sobre efeito de variveis cognitivas na comeptncia de leitura. Nveis de anlise 1 nvel: indivduo (1265 crianas avaliadas)
Capacidade de leitura, conscincia fonolgica, digit span, vocabulrio, etc

Multilevel regression analysis

2 nvel: grupo (6 pases)


18 3
Transparncia da ortografia, mtodo de ensino da leitura, nvel de literacia da populao

18 4

Finlndia

Holanda

Frana

= 0,74

= 0,31

= -0,03

Modelos de regresso de nvel mltiplo

18 5

31